发明名称 |
倒排索引建立方法 |
摘要 |
本发明提供一种倒排索引建立方法,所述倒排索引包括抽取结果表,所述抽取结果表包括文档号以及与该文档号相对应的抽取结果记录,所述抽取结果记录包括有类型、内容以及位置信息项;该方法包括:对由字符串格式表示的文档做分词操作,从所述分词操作结果中取出一个词;判断所取出的词是否属于某一类型的数据,如果属于,则执行下一步,否则,为所取出的词建立通用的倒排索引表后结束操作;将所提取出来的词的内容、在所在文档中的位置以及判断该词是否属于某一类型的数据时所采用的检测方法分别填入所述抽取结果记录中的内容、位置以及类型信息项,创建抽取结果表,然后为所取出的词建立通用的倒排索引表。 |
申请公布号 |
CN102110123B |
申请公布日期 |
2014.02.05 |
申请号 |
CN200910260705.6 |
申请日期 |
2009.12.29 |
申请人 |
中国人民解放军国防科学技术大学 |
发明人 |
黄九鸣;周斌;贾焰;邹鹏;吴泉源;杨树强;韩伟红;李爱平;梁政;单大甫;蒋子海;崔凯;韩毅 |
分类号 |
G06F17/30(2006.01)I |
主分类号 |
G06F17/30(2006.01)I |
代理机构 |
北京泛华伟业知识产权代理有限公司 11280 |
代理人 |
王勇 |
主权项 |
一种倒排索引建立方法,所述倒排索引包括抽取结果表,所述抽取结果表包括文档号以及与该文档号相对应的抽取结果记录,所述抽取结果记录包括有类型、内容以及位置信息项;该方法包括:步骤1)、对由字符串格式表示的文档做分词操作,从所述分词操作结果中取出一个词;步骤2)、判断所取出的词是否属于某一类型的数据,如果属于,则执行下一步,否则,执行步骤4);步骤3)、将所提取出来的词的内容、在所在文档中的位置以及判断该词是否属于某一类型的数据时所采用的检测方法分别填入所述抽取结果记录中的内容、位置以及类型信息项,创建抽取结果表,然后执行下一步;步骤4)、使用所取出的词以及包含该词的文档的文档号为所取出的词建立通用的倒排索引表。 |
地址 |
410073 湖南省长沙市德雅路国防科学技术大学 |