发明名称 |
用于对文档数据库中的文档进行域识别的方法 |
摘要 |
本发明揭示一种用于处理文档数据库中的文档的方法,其包括针对每一文档确定词汇字并基于每一词汇字在所有所述文档中的出现率来确定每一词汇字的相应相关性。基于所述词汇字和其相应相关性来确定所述文档之间的相似性。基于所述确定的相似性来确定所述文档的至少一个域识别。 |
申请公布号 |
CN101438285B |
申请公布日期 |
2011.07.27 |
申请号 |
CN200780016257.4 |
申请日期 |
2007.05.03 |
申请人 |
贺利实公司 |
发明人 |
玛格丽特·M·内珀;凯文·李·福克斯;奥菲尔·弗里德 |
分类号 |
G06F17/30(2006.01)I |
主分类号 |
G06F17/30(2006.01)I |
代理机构 |
北京律盟知识产权代理有限责任公司 11287 |
代理人 |
孟锐 |
主权项 |
一种用于处理文档数据库中的多个文档的方法,其包含:针对所述多个文档的每一文档确定词汇字;基于每一词汇字在所述多个文档中的出现率来确定每一词汇字的相应相关性;通过基于所述词汇字的相应相关性来选择所述词汇字的一部分以用于定义词汇字超集,而基于所述词汇字和其相应相关性来确定所述多个文档之间的相似性,其中所述词汇字超集说明所述多个文档之间的相似性且具有与其相关联的整体域识别;以及基于所述确定的相似性来确定文档的至少一个域识别。 |
地址 |
美国佛罗里达州 |