发明名称 |
基于多索引的信息检索系统 |
摘要 |
一种信息检索系统使用短语索引、检索、组织并且描述文档。识别预测文档中其他短语的出现的短语。根据它们包括的短语来索引文档。文档索引被分成多个索引,包括主索引和次索引。主索引存储具有相关性次序排列的文档的短语置入列表。次索引按照文档顺序存储来自于置入列表的额外文档。 |
申请公布号 |
CN101133388B |
申请公布日期 |
2011.07.06 |
申请号 |
CN200680007173.X |
申请日期 |
2006.01.25 |
申请人 |
谷歌公司 |
发明人 |
A·L·帕特森 |
分类号 |
G06F7/00(2006.01)I;G06F17/30(2006.01)I |
主分类号 |
G06F7/00(2006.01)I |
代理机构 |
北京市金杜律师事务所 11256 |
代理人 |
王茂华 |
主权项 |
一种针对短语来索引文档的计算机实现的方法,其中每个文档具有文档标识符,该方法包括:建立包含该短语的文档列表;通过相关性分值来对所述列表中的文档进行排序,将所述列表中的文档划分为包括所述列表中较高排序文档的第一部分和包括所述列表中较低排序的文档的第二部分;按照所述排序文档的相应相关性分值的排序次序,将所述第一部分存储在主索引中,所存储的所述第一部分的较高排序文档在所述主索引中彼此相关;以及基于所述划分,按照所述排序文档的相应文档标识符的数字次序,将所述第二部分存储在次索引中,所存储的第二部分的较低排序的文档在所述次索引中彼此相关。 |
地址 |
美国加利福尼亚州 |