一种基于上下文关联的中文相似性比较方法,申请号CN201110303533.3-传众专利搜索

发明名称	一种基于上下文关联的中文相似性比较方法
摘要	本发明提出一种基于上下文关联的中文相似性比较方法，应用于中文相似性比较技术领域，该方法首先将要进行比较的两篇文本的文本流进行分词和索引，为每一个文本建立倒排表，然后对倒排表进行相似性检测，得到可疑相似片段，最后对可疑相似片段进行聚合，得到相似文本块，在相似文本块的生成过程中考虑到上下文的关联。本发明方法先发现较小可疑相似片段，再对可疑相似片段进行聚合，减少了空间向量模型中粒度大小与误判、漏判率之间的矛盾，实现对两篇文本的相似性比较。
申请公布号	CN102314418B	申请公布日期	2013.07.24
申请号	CN201110303533.3	申请日期	2011.10.09
申请人	北京航空航天大学	发明人	赵长海;晏海华;郎钰泽
分类号	G06F17/27(2006.01)I	主分类号	G06F17/27(2006.01)I
代理机构	北京永创新实专利事务所 11121	代理人	周长琪
主权项	1.一种基于上下文关联的中文相似性比较方法，其特征在于，该方法具体包括如下步骤：步骤1、首先将要进行比较的两篇文本S和D的文本流进行分词，然后为每一个文本建立倒排表，具体是：通过词汇内容建立索引，将词汇本身作为索引的键，词汇在文本中的位置作为索引值；步骤2、对倒排表进行相似性检测，得到可疑相似片段，具体是：步骤2.1、首先使用倒排表对中心词进行映射：若词X同时在文本S的倒排表和文本D的倒排表中出现，则在文本S的倒排表和文本D的倒排表中建立词X的关系映射，并得到以词X作为中心词、以r作为半径，长度n=2r+1的一对可疑相似片段；步骤2.2、以n个词作为一个粒度对两篇文本S和D进行相似性检测，并确定每一对可疑相似片段的相似度；步骤2.3、确定文本S和文本D的相似值<img file="FDA00002814550100011.GIF" wi="84" he="60" /><img file="FDA00002814550100012.GIF" wi="488" he="64" />R<sub>S，D</sub>表示文本S对文本D的相似度，R<sub>D，S</sub>表示文本D对文本S的相似度；所述的文本S对文本D的相似度R<sub>S,D</sub>具体通过式(1)得到： <img file="FDA00002814550100013.GIF" wi="1193" he="112" />w<sub>i</sub>表示S中第i个词语，N<sub>S</sub>表示文本S中包含的词语的总个数，<img file="FDA00002814550100014.GIF" wi="153" he="67" />表示对文本S中所有的词语的相似度求和，<img file="FDA00002814550100015.GIF" wi="66" he="65" />表示词语w<sub>i</sub>的相似度，具体依据下面式(2)来确定：<img file="FDA00002814550100016.GIF" wi="1233" he="72" /><img file="FDA00002814550100017.GIF" wi="72" he="72" />为第j个包含某个词语w的可疑相似片段的相似度，可疑相似片段的相似度依据式(3)来确定：<img file="FDA00002814550100018.GIF" wi="1261" he="143" />α<sub>i</sub>表示第i个词的权重向量，s表示候选片段，s∈文本S，d表示待检测片段，d∈文本D，F(s)表示片段s的词汇向量，F(d)表示片段d的词汇向量，N表示文本S和文本D中包含的词语的总个数；文本D对文本S的相似度R<sub>D，S</sub>类似R<sub>S，D</sub>能够得到；步骤3、对可疑相似片段进行聚合，生成相似文本块。
地址	100191 北京市海淀区学院路37号