发明名称 一种支持多数据源的索引维护方法
摘要 本发明属于搜索引擎技术领域,具体涉及一种支持多数据源的索引维护方法。本发明将整个索引库分为一系列子索引库,每个子索引库存储一定时间粒度内的索引,子索引库包含一个独立的目录及相关文件。操作步骤分为三个流程:子索引库的数据加载、子索引库的合并、用户检索请求的处理。本发明通过设置子索引库,便于实现索引的实时更新;通过设置合适的索引合并检测周期,实现具有不同时间粒度的子索引库互相共存;将用户限定时间范围的检索请求映射到子索引库上,索引的更新可以在独立的子索引库中进行而不影响用户的检索请求,从而保证响应时间满足用户要求。
申请公布号 CN101989301B 申请公布日期 2012.05.23
申请号 CN201010515780.5 申请日期 2010.10.22
申请人 复旦大学 发明人 曾剑平;吴承荣
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 上海正旦专利代理有限公司 31200 代理人 陆飞;盛志范
主权项 一种支持多数据源的索引维护方法,其特征在于整个索引库分为一系列子索引库,每个子索引库存储一定时间粒度内的索引,子索引库包含相关文件以及一个独立的目录;具体步骤包括以下3个处理流程: 一.子索引库的数据加载(1)生成新的子索引库,并按照一定的命名方式对该子索引库进行标识;(2)对该子索引库进行加锁;(3)按照建立索引结构的算法创建数据对应的索引文件,实现数据加载;(4)子索引库解锁;(5)通知索引服务器上的检索请求处理进程,将该子索引库标识为可用库; 二.子索引库的合并(1)按照一定的时间间隔选择需要合并的子索引库;(2)生成新的子索引库,并按照一定命名方式对该子索引库进行标识;(3)对该新的子索引库进行加锁;(4)按照与索引结构相对应的索引合并算法将所选择的子索引库合并,写入到新的子索引库;(5)该新的子索引库解锁;(6)通知索引服务器上的检索请求处理进程,将所选择的子索引库标识为不可用,而将新的子索引库标识为可用; 三.用户检索请求的处理(1)从接收到的用户检索请求命令中,提取指定的时间范围;(2)根据该时间范围,选择符合时间条件的子索引库,作为处理当前检索命令的索引;(3)执行检索过程,并返回结果;其中,对子索引库具有如下的标识:DATE1‑DATE2,其中DATE1与DATE2分别表示索引库中所包含的数据文件的最早与最迟的生成时间,格式均为yyyyYYDDHHMMSS,yyyy表示年份,YY表示月份,DD表示日,HH表示小时数,MM表示分钟,SS表示秒数;所述用户的检索请求在合适的时间范围子索引库中进行;针对检索请求所限定的查询时间范围[t1, t2],根据以下选择方法选择用于本次查询的可用子索引列表:t1<=DATE1<=t2或t1<=DATE2<=t2,其中DATE1和DATE2为各个子索引库的标识。
地址 200433 上海市杨浦区邯郸路220号