发明名称 一种基于单字索引系统的检索方法和装置
摘要 本发明提供的基于单字索引系统的检索方法包括:将检索语句的字符序列拆分为检索单元后,根据检索单元的检索字符查询索引表获取检索字符对应的索引文档集,以所述索引文档集为处理对象,进行包括选择操作在内的处理,将处理结果作为所述检索单元的检索结果;将各检索单元的检索结果进行交集并返回结果文档集;用各检索单元扫描结果文档集以判断是否有同时包含各检索单元的文档,如果是,则返回该文档。本发明还提供基于单字索引系统的检索装置。本发明对检索单元的各索引文档集进行包括选择操作在内的处理,而不直接对所有索引文档集进行交集运算,减少了交集运算对象,改善了索引系统的检索性能。
申请公布号 CN102810096B 申请公布日期 2016.03.16
申请号 CN201110147520.1 申请日期 2011.06.02
申请人 阿里巴巴集团控股有限公司 发明人 杨栋
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 北京集佳知识产权代理有限公司 11227 代理人 逯长明;王宝筠
主权项 一种基于单字索引系统的检索方法,所述单字索引系统包含预先建立的索引表,其特征在于,该方法包括:接收检索语句;提取所述检索语句的字符序列,并将该字符序列进行拆分得到检索单元,所述检索单元包括至少一个检索字符;按照第一预设规则对拆分的检索单元进行归并处理,包括:读取第一检索单元和第二检索单元,根据第一检索单元查询用户检索历史表,所述检索历史表登记有第一检索单元与第二检索单元在同次检索中捆绑检索的频度;判断所述频度是否超过预设阀值,如果是,则将第一检索单元与第二检索单元归并为一个检索单元;或者,读取第一检索单元和第二检索单元,查询预设检索单元关系表,判断是否登记第一检索单元对第二检索单元的唯一限定关系,如果是,则将第一检索单元和第二检索单元归并为第二检索单元;所述预设检索单元关系表登记有一检索单元对另一检索单元的唯一限定关系;所述第一检索单元和第二检索单元是拆分的检索单元中任意两个单元;根据所述检索单元的检索字符查询索引表,获得各检索字符对应的索引文档集;以所述索引文档集为处理对象,进行包括选择操作在内的处理,并将处理结果作为该检索单元的检索结果;对所述各检索单元的检索结果进行交集运算并返回结果文档集;用所述各检索单元扫描所述结果文档集以判断所述结果文档集的文档是否包含所述各检索单元,如果是,则返回该文档;根据所述各检索单元在返回文档中出现的频率计算各检索单元的权重;根据上述权重计算所述返回文档的相关性分值;根据上述分值对返回文档进行排序。
地址 英属开曼群岛大开曼岛资本大厦一座四层847号邮箱