发明名称 |
一种基于语境进行分词的方法和装置 |
摘要 |
发明实施例提供了一种基于语境进行分词的方法和装置,所述的方法包括:提取搜索资源中网页的文本信息;采用分词词典中的特征词条对所述文本信息进行分词处理,获得一个或多个候选分词;当所述分词处理出现歧义时,统计所述候选分词在所述网页中表征语境的词频数;依据所述词频数调整所述分词词典中特征词条的权重;依据调整权重后的分词词典中的特征词条对所述文本信息进行分词处理,确定目标候选分词。本发明实施例基于语境辅助分词处理,充分考虑了自然语言的特性,有效降低歧义对分词处理的影响,提升了分词的准确率。 |
申请公布号 |
CN104077275A |
申请公布日期 |
2014.10.01 |
申请号 |
CN201410302925.1 |
申请日期 |
2014.06.27 |
申请人 |
北京奇虎科技有限公司;奇智软件(北京)有限公司 |
发明人 |
项碧波 |
分类号 |
G06F17/27(2006.01)I;G06F17/30(2006.01)I |
主分类号 |
G06F17/27(2006.01)I |
代理机构 |
北京润泽恒知识产权代理有限公司 11319 |
代理人 |
赵娟 |
主权项 |
一种基于语境进行分词的方法,包括:提取搜索资源中网页的文本信息;采用分词词典中的特征词条对所述文本信息进行分词处理,获得一个或多个候选分词;当所述分词处理出现歧义时,统计所述候选分词在所述网页中表征语境的词频数;依据所述词频数调整所述分词词典中特征词条的权重;依据调整权重后的分词词典中的特征词条对所述文本信息进行分词处理,确定目标候选分词。 |
地址 |
100088 北京市西城区新街口外大街28号D座112室(德胜园区) |