主权项 |
一种在计算机系统上的用于导出多个文档的文档相似性索引方法,所述计算机系统包括一个或多个处理器和系统存储器,所述方法包括:访问文档的动作;计算所述文档的标签索引的动作,所述标签索引包括一个或多个关键词/权重对,每一关键词/权重对将关键词映射到该关键词的对应权重以指示该关键词在所述文档内的显著性;基于所述标签索引中的权重来标识所述文档中的指定数量的最显著的关键词的动作;对于所述指定数量的最显著关键词中的每一关键词,确定所述关键词在所述多个文档中的每一文档中的对应权重的动作;基于所述指定数量的最显著关键词在所述多个文档中的对应权重从所述多个文档中标识多个候选文档的动作,所述文档中的所述指定数量的最显著关键词中的至少一些也是所述多个候选文档中的每一个中的显著关键词;对于所述多个候选文档中的每一候选文档,通过确定来自所述文档的附加关键词在所述候选文档内的权重来计算所述文档与所述候选文档之间的完全相似性的动作;选择规定数量的候选文档的完全相似性以包括在所述文档相似性索引中来指示与所述文档相似的文档的动作,基于完全相似性计算并根据硬限制或明确阈值之一来选择所述规定数量的候选文档的完全相似性,所述硬限制或明确阈值对可被选择以包括在所述文档相似性索引中的候选文档的数量进行限制;以及对于所述规定数量的候选文档中包括的每一候选文档,将来自所述文档与所述候选文档之间的完全相似性的信息存储在所述文档相似性索引中的动作。 |