发明名称 全文检索系统及方法
摘要 第1检索单元(13)利用按照检索条件语句的一次检索和针对该一次检索的结果的二次检索执行基于N-gram索引(14)的检索。词素分析单元(15)对上述检索条件语句进行词素分析。第2检索单元(16)按照词素分析单元(15)的词素分析结果执行基于词素索引(17)的词素检索。近似度判定单元(183)判定上述基于N-gram索引的一次检索的命中数的第1命中数和上述基于词素索引的词素检索的命中数的第2命中数的近似度。全文检索执行控制单元(18),在上述第1命中数和上述第2命中数近似时,省略上述基于N-gram索引的二次检索地控制第1检索单元(13),采用上述一次检索的结果或上述词素检索的结果作为检索结果。
申请公布号 CN100412864C 申请公布日期 2008.08.20
申请号 CN200510108009.5 申请日期 2005.09.29
申请人 株式会社东芝;东芝解决方案株式会社 发明人 高知尾胜彦;笹气光一;加藤阳二
分类号 G06F17/30(2006.01) 主分类号 G06F17/30(2006.01)
代理机构 北京市中咨律师事务所 代理人 陈海红;段承恩
主权项 1. 一种全文检索系统,其包括:利用按照检索条件语句的一次检索和针对该一次检索的结果的二次检索,执行基于N-gram索引的检索的第1检索单元;对上述检索条件语句进行词素分析的词素分析单元;以及按照利用上述词素分析单元所得到的词素分析结果,执行基于词素索引的词素检索的第2检索单元;上述全文检索系统的特征在于,具有:通过将表示作为上述基于N-gram索引的一次检索的命中数的第1命中数和作为上述基于词素索引的词素检索的命中数的第2命中数相近似的程度的近似度与近似度阈值相比较,判定上述第1命中数和上述第2命中数是否近似的近似度判定单元;通过比较上述第1命中数与基准的命中数来判定上述第1命中数是多或是少的一次检索结果数判定单元;以及在利用上述一次检索结果数判定单元判定为上述第1命中数多且利用上述近似度判定单元判定为上述第1命中数和上述第2命中数近似时,以省略上述基于N-gram索引的二次检索的方式,控制上述第1检索单元,采用上述一次检索的结果或上述词素检索的结果作为检索结果的全文检索执行控制单元,上述全文检索执行控制单元,在利用上述一次检索结果数判定单元判定为上述第1命中数少时和利用上述近似度判定单元判定为上述第1命中数和上述第2命中数不近似时的任一种情况下,以执行上述基于N-gram索引的二次检索的方式控制上述第1检索单元,采用上述二次检索的结果作为检索结果。
地址 日本东京都