发明名称 句子层面的大规模快速匹配方法
摘要 本发明涉及句子层面的大规模快速匹配方法,本方法包括索引建立、模糊匹配和精确匹配三个阶段。索引建立阶段进行句子内容的标准化、编码转换;模糊匹配阶段的目的是从海量句子中挑选出可能与新句子匹配的候选句子,其数量控制在一个可行的范围内;精确匹配阶段采用了基于编辑距离的相似性衡量算法,再根据精确匹配的相似性对候选句子排序得到最终匹配的句子。本发明方法的优点是实际测试性能优异,搜索效率高、漏检率低,满足实用要求。
申请公布号 CN101329680B 申请公布日期 2010.12.08
申请号 CN200810107117.4 申请日期 2008.07.17
申请人 安徽科大讯飞信息科技股份有限公司 发明人 陈志刚;胡国平;胡郁;刘庆峰;王仁华
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 合肥天明专利事务所 34115 代理人 袁由茂
主权项 句子层面的大规模快速匹配方法,包括索引和查询两个阶段,其特征在于还包括以下步骤:(1)对每个句子进行预处理后,把有效编码的字符串作为后续操作的输入;(2)索引阶段,对待索引的大规模句子中的每一个句子,从句首开始,在长度为L个字符的窗口内寻找某个符合特定条件的字符,并将此字符后面的K个字符组成一个子串,进行哈希编码并建立索引,然后将窗口滑动至索引子串后面的位置,继续以上操作,直到句子结束位置;(3)查询阶段,对于待查询的新句子,采用与索引阶段相同的方法构建子串并以子串为单位去查找哈希表,得到所有与新句子有相同子串的候选句子以及每个候选句子匹配成功的子串数目,根据匹配成功的子串数目以及候选句子的索引子串数目计算其粗匹配率;(4)根据粗匹配率,排序所有候选句子,选择最高粗匹配率的M个,句子快速模糊匹配结束。
地址 230088 安徽省合肥市高新区黄山路616号信息产业基地
您可能感兴趣的专利