发明名称 用缩减大小的索引进行文献检索的设备
摘要 一种用于在多个登记文献中检索包括查询字符串的文献的文献检索设备,包括:文本切分单元,将登记的文献和查询字符串分成n-gram和字;n-gram索引,其中在特定n-gram的基础上存储与登记文献中出现的n-gram的具体值有关的信息;字边界位置索引,其中以压缩形式存储与登记文献中出现的字边界的具体值有关的信息;基于字符串的搜索单元,通过在所述n-gram索引中查找一个或多个n-gram的查询字符来识别包括查询字符串的一个或多个登记文献;以及基于字的搜索单元,通过在所述字边界位置索引中查找一个或多个字的查询字符串来检查查询字符串是否作为字出现在所述一个或多个识别的登记文献中,从而识别包括作为字的查询字符串的登记文献。
申请公布号 CN1288581C 申请公布日期 2006.12.06
申请号 CN02131528.0 申请日期 2002.08.10
申请人 株式会社理光 发明人 小川泰嗣
分类号 G06F17/30(2006.01) 主分类号 G06F17/30(2006.01)
代理机构 北京市柳沈律师事务所 代理人 黄小临;王志森
主权项 1.一种用于在多个登记文献中检索包括查询字符串的文献的文献检索设备,包括:文本切分单元,将登记的文献和查询字符串分成n-gram和字;n-gram索引存储装置,其中在特定n-gram的基础上存储与登记文献中出现的n-gram的具体值有关的信息;字边界位置索引存储装置,其中以压缩形式存储与登记文献中出现的字边界的具体值有关的信息;基于字符串的搜索单元,通过在所述n-gram索引中查找一个或多个n-gram的查询字符来识别包括查询字符串的一个或多个登记文献;以及基于字的搜索单元,在所述字边界位置索引中通过查找一个或多个字的查询字符串来检查查询字符串是否作为字出现在所述一个或多个识别的登记文献中,从而识别包括作为字的查询字符串的登记文献。
地址 日本东京都