发明名称 一种面向中文搜索引擎混杂语言的查询纠错方法及系统
摘要 本发明涉及一种面向中文搜索引擎混杂语言的查询纠错方法及系统。本发明针对中文搜索引擎混杂语言查询的特点,采用面向混杂语言的异构字符树词典和基于高频或高点击次数用户查询日志构建的语言模型,对用户的查询进行同步切分和纠错尝试,利用状态之间的转移达到对查询进行切分的目的;采用双队列记录每一步编辑后最优的N个完成状态和M个未完成状态,在保障纠错速度的同时获取最佳的切分方式和对应的替代词条组合;利用最终纠错结果侯选集的特征进行判定,输出符合限定条件的纠错结果,有效地提高了准确率。
申请公布号 CN102867040B 申请公布日期 2015.03.18
申请号 CN201210320575.2 申请日期 2012.08.31
申请人 中国科学院计算技术研究所;人民搜索网络股份公司 发明人 程舒杨;熊锦华;公帅;颛悦;张成;程学旗;廖华明
分类号 G06F17/30(2006.01)I;G06F17/24(2006.01)I;G06F11/07(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 北京律诚同业知识产权代理有限公司 11006 代理人 祁建国;梁挥
主权项 一种面向中文搜索引擎混杂语言的查询纠错方法,其特征在于,包括:步骤1,构建面向混杂语言的异构字符树词典,建立语言模型;步骤2,获取用户查询的内容,初始化n=1,建立两个空的查询处理队列,分别为完成状态队列C<sub>n</sub>和未完成状态队列NC<sub>n</sub>;步骤3,对所述用户查询中的第n个字或字母进行编辑;步骤4,以编辑后获得的字符串作为状态转移条件,基于完成状态队列C<sub>n‑1</sub>和未完成状态队列NC<sub>n‑1</sub>中的状态进行状态转移,并获得新的状态;步骤5,在所述获得的新的完成状态点对查询内容进行一次词语的切分,将所述查询内容切分成多个切分段,并进行纠错尝试,以所述完成状态中对应的词典节点中的词作为该切分段的替代候选词,基于所述语言模型更新该状态的概率;步骤6,记录编辑后的完成状态队列C<sub>n</sub>、未完成状态队列NC<sub>n</sub>,根据语言模型和编辑距离选取最优的N个完成状态和M个未完成状态进行保存并用于第n+1个字的编辑,其中,编辑距离是指两个字符之间,由一个转成另一个所需的最少编辑操作次数;步骤7,判断第n个字是否为用户查询的最后一个字,如果是则进入步骤8,否则n递增到n+1并跳转至步骤3;步骤8,选取所述最后一个字的编辑完成后的完成状态,对得到的一组最优侯选状态进行判定,如结果符合对应特征判定规则,则返回纠错结果,否则返回原始查询;其中所述步骤4中状态转移的过程,包括:根据所述完成状态队列C<sub>n‑1</sub>和所述未完成状态队列NC<sub>n‑1</sub>中状态内存储的词典树根节点来寻找编辑后获得的字符串对应的词典树路径,并找到所述编辑后获得的字符串对应的路径终节点;在所述完成状态队列C<sub>n‑1</sub>和所述未完成状态队列NC<sub>n‑1</sub>中状态内存储的状态参数的基础上更新本次的编辑操作带来的状态参数。
地址 100190 北京市海淀区中关村科学院南路6号