发明名称 |
文档相似度计算方法及相似文档全网检索跟踪方法 |
摘要 |
本发明涉及一种文档相似度计算方法及相似文档全网检索跟踪方法。本发明的目的是提供一种文档相似度计算方法及相似文档全网检索跟踪方法。本发明的技术方案是:一种文档相似度计算方法,其特征在于:S01、文档分解:对原创文档和目标文档分别进行切词处理,得到各自的分词集合;S02、预处理与特征加权:利用TF‑IDF技术对每个分词计算权重,提取核心关键词;利用Word2vec挖掘文档中不同分词之间的关联程度,对每篇文档进行语义分析;S03、向量空间模型与余弦相似度算法:利用向量空间中两个向量夹角的余弦值作为衡量两篇文档的相似程度,余弦值在0~1之间,余弦值越大说明两篇文档越相似。本发明适用于新闻资讯转载跟踪与传播力统计。 |
申请公布号 |
CN106095737A |
申请公布日期 |
2016.11.09 |
申请号 |
CN201610398902.4 |
申请日期 |
2016.06.07 |
申请人 |
杭州凡闻科技有限公司 |
发明人 |
姚洲鹏 |
分类号 |
G06F17/22(2006.01)I;G06F17/27(2006.01)I;G06F17/30(2006.01)I |
主分类号 |
G06F17/22(2006.01)I |
代理机构 |
浙江凯麦律师事务所 33218 |
代理人 |
王登远 |
主权项 |
一种文档相似度计算方法,其特征在于:S01、文档分解:对原创文档和目标文档分别进行切词处理,得到各自的分词集合;S02、预处理与特征加权:利用TF‑IDF技术对每个分词计算权重,提取核心关键词;利用Word2vec挖掘文档中不同分词之间的关联程度,对每篇文档进行语义分析;S03、向量空间模型与余弦相似度算法:把原创文档和目标文档简化为两个以关键词权重为分量的N维向量;文档余弦相似度算法是基于向量模型,利用向量空间中两个向量夹角的余弦值作为衡量两篇文章的相似程度,余弦值在0~1之间,余弦值越大说明两篇文档越相似。 |
地址 |
310003 浙江省杭州市下城区石桥路永华街121号2幢301-302室 |