发明名称 文本相似度、词义相似度计算方法和系统及应用系统
摘要 本发明公开了一种文本相似度、词义相似度计算方法和系统及应用系统。该方法包括下列步骤:根据词汇数据库进行初始化,计算得到所述词汇数据库中词汇间的初始词义相似度,并根据初始词义相似度计算文本间的初始语义相似度;根据初始化得到的词汇间的词义相似度和文本间的初始语义相似度,交替迭代计算文本集中的各个文本间的语义相似度和词汇间的词义相似度直至收敛,根据迭代计算的收敛结果,以最终词义相似度构造所有词汇间的最终词义相似矩阵;根据所述最终词义相似矩阵,将原始文本的文本词频向量变换为新的文本词频向量,计算出所述文本集中文本相似度。其能够显著提高现有的文本相关的,特别是有关短文本的信息检索技术的性能。
申请公布号 CN101079026B 申请公布日期 2011.01.26
申请号 CN200710118224.2 申请日期 2007.07.02
申请人 蒙圣光;珠海市发思特软件技术有限公司 发明人 刘文印
分类号 G06F17/27(2006.01)I;G06F17/30(2006.01)I 主分类号 G06F17/27(2006.01)I
代理机构 北京律诚同业知识产权代理有限公司 11006 代理人 梁挥;常大军
主权项 一种文本相似度计算方法,其特征在于,包括下列步骤:步骤A,根据词汇数据库进行初始化,得到词汇间的初始词义相似度,并根据初始词义相似度计算文本集中文本间的初始语义相似度;步骤B,根据所述初始化得到的词义相似度和文本间的初始语义相似度,交替迭代计算文本集中的各个文本间的语义相似度和词汇间的词义相似度,直至收敛;根据迭代计算的收敛结果,以最终词义相似度构造所有词汇间的最终词义相似矩阵;步骤C,根据所述最终词义相似矩阵,将原始文本的文本词频向量变换为新的文本词频向量,计算出所述文本集的文本相似度。
地址 519080 广东省珠海南方软件园西苑D1栋202-204室