发明名称 导出文档相似性索引
摘要 本发明涉及导出文档相似性索引。本发明涉及用于导出文档相似性索引的方法、系统以及计算机程序产品。本发明的各实施例包括用于导出和更新多个文档的文档相似性索引的可扩展且高效的机制。所维护的相似性的数量可被控制来节省CPU和存储资源。
申请公布号 CN102436505B 申请公布日期 2014.08.20
申请号 CN201110440157.2 申请日期 2011.12.15
申请人 微软公司 发明人 S·盖尔曼;K·慕克吉;A·普劳特
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 上海专利商标事务所有限公司 31100 代理人 陈斌
主权项 一种在计算机系统上的用于导出多个文档的文档相似性索引方法,所述计算机系统包括一个或多个处理器和系统存储器,所述方法包括:访问文档的动作;计算所述文档的标签索引的动作,所述标签索引包括一个或多个关键词/权重对,每一关键词/权重对将关键词映射到该关键词的对应权重以指示该关键词在所述文档内的显著性;基于所述标签索引中的权重来标识所述文档中的指定数量的最显著的关键词的动作;对于所述指定数量的最显著关键词中的每一关键词,确定所述关键词在所述多个文档中的每一文档中的对应权重的动作;基于所述指定数量的最显著关键词在所述多个文档中的对应权重从所述多个文档中标识多个候选文档的动作,所述文档中的所述指定数量的最显著关键词中的至少一些也是所述多个候选文档中的每一个中的显著关键词;对于所述多个候选文档中的每一候选文档,通过确定来自所述文档的附加关键词在所述候选文档内的权重来计算所述文档与所述候选文档之间的完全相似性的动作;选择规定数量的候选文档的完全相似性以包括在所述文档相似性索引中来指示与所述文档相似的文档的动作,基于完全相似性计算并根据硬限制或明确阈值之一来选择所述规定数量的候选文档的完全相似性,所述硬限制或明确阈值对可被选择以包括在所述文档相似性索引中的候选文档的数量进行限制;以及对于所述规定数量的候选文档中包括的每一候选文档,将来自所述文档与所述候选文档之间的完全相似性的信息存储在所述文档相似性索引中的动作。
地址 美国华盛顿州