发明名称 |
一种跨领域文档相似度计算方法及装置 |
摘要 |
本发明公开了一种跨领域文档相似度计算方法及装置,该方法包括:存储不同领域文档和不同领域任意两个文档间的关系;将不同领域文档进行分词和去停用词处理,得到不同领域文档的词汇数据集;根据不同领域任意两个文档间的关系构建不同领域文档间的关联矩阵;根据词汇数据集,获得不同领域文档的话题聚类;根据关联矩阵和话题聚类,获得话题聚类中任意一个话题在任意一个文档中出现的概率和任意一个话题针对任意两个不同领域匹配的权重;根据话题聚类中任意一个话题在不同领域任意两个文档中出现的概率和任意一个话题针对任意两个文档所在领域匹配的权重,计算任意两个文档间的相似度。本发明实施例,可以提高跨领域文档间相似度的准确度。 |
申请公布号 |
CN104731828A |
申请公布日期 |
2015.06.24 |
申请号 |
CN201310722866.9 |
申请日期 |
2013.12.24 |
申请人 |
华为技术有限公司;清华大学 |
发明人 |
王靓伟;梁颖琪;杨洋 |
分类号 |
G06F17/30(2006.01)I |
主分类号 |
G06F17/30(2006.01)I |
代理机构 |
广州三环专利代理有限公司 44202 |
代理人 |
郝传鑫;熊永强 |
主权项 |
一种跨领域文档相似度计算方法,其特征在于,包括:存储不同领域的文档,以及存储不同领域的任意两个文档间的关系;其中,所述不同领域的任意两个文档间的关系用于描述所述任意两个文档间的确定的匹配关系或未确定的匹配关系,所述确定的匹配关系包括已知的匹配关系或已知的非匹配关系;将所述不同领域的文档分别进行分词和去停用词处理,得到所述不同领域的文档的词汇数据集;根据所述不同领域的任意两个文档间的关系构建所述不同领域的文档间的关联矩阵;根据所述词汇数据集,获得所述不同领域的文档的话题聚类;根据所述关联矩阵和所述话题聚类,获得所述话题聚类中任意一个话题在任意一个文档中出现的概率,以及所述任意一个话题针对任意两个不同领域匹配的权重;根据所述话题聚类中任意一个话题在不同领域的任意两个文档中出现的概率,以及所述任意一个话题针对所述任意两个文档所在领域匹配的权重,计算所述任意两个文档间的相似度。 |
地址 |
518129 广东省深圳市龙岗区坂田华为总部办公楼 |