发明名称 | 检测复制和近似复制的文件 | ||
摘要 | 可以通过以下方式来识别近似复制的文档:使用第一技术来处理已接受的文档集合以确定近似复制的文档的第一集合,以及使用第二技术来处理所述第一集合以确定近似复制的文档的第二集合。第一技术可以依赖于标志次序,而第二技术可以独立于次序。第一技术可以独立于标志频率,而第二技术可以依赖于频率。第一技术可以使用基于两个文档的词语或标志的子集的表示来确定这两个文档是否是近似复制件,而第二技术可以使用基于两个文档的所有词语或标志的表示来确定这两个文档是否是近似复制件。第一技术可以使用集合相交来确定文档是否是近似复制件,而第二技术可以使用随机投射来确定文档是否是近似复制件。 | ||
申请公布号 | CN101523343A | 申请公布日期 | 2009.09.02 |
申请号 | CN200780036634.0 | 申请日期 | 2007.08.03 |
申请人 | 谷歌公司 | 发明人 | 莫尼卡·H·亨津格尔 |
分类号 | G06F7/02(2006.01)I | 主分类号 | G06F7/02(2006.01)I |
代理机构 | 中原信达知识产权代理有限责任公司 | 代理人 | 张焕生;安 翔 |
主权项 | 1. 一种用于识别近似复制的文档的计算机实现的方法,所述方法包括:a)接受文档的集合;b)使用第一文档相似性技术处理所述文档的集合以确定近似复制的文档的第一集合;以及c)使用第二文档相似性技术处理近似复制的文档的所述第一集合以确定近似复制的文档的第二集合。 | ||
地址 | 美国加利福尼亚州 |