发明名称 |
一种修改Lucene索引文件中词的方法及装置 |
摘要 |
本发明公开了一种修改Lucene索引文件中词的方法及装置,该方法首先获取修改参数,然后对于索引文件夹中每一个段,查找该段中要修改字段是否存在旧词,如果存在则进入下一步,否则放弃对该段的修改;对要修改的段,生成新词对应的信息;并根据该段中原先就存在的除旧词和新词外其他词对应的信息、以及新词对应的信息,新生成四个倒排文件;最后在所有段都处理完成后,用新生成的四个倒排文件集中替换原索引文件夹中对应的文件。本发明还同时公开了实现上述方法的装置,本发明的方法及装置通过直接操作索引文件的方式,避免了重新创建索引的繁琐,极大地提高了修改的性能。 |
申请公布号 |
CN104462558A |
申请公布日期 |
2015.03.25 |
申请号 |
CN201410830430.6 |
申请日期 |
2014.12.26 |
申请人 |
浙江宇视科技有限公司 |
发明人 |
王新成 |
分类号 |
G06F17/30(2006.01)I |
主分类号 |
G06F17/30(2006.01)I |
代理机构 |
杭州求是专利事务所有限公司 33200 |
代理人 |
叶志坚 |
主权项 |
一种修改Lucene索引文件中词的方法,其特征在于,所述方法包括步骤:步骤1、获取修改参数,包括要修改字段、要修改的旧词以及修改后的新词;步骤2、对于索引文件夹中每一个段,查找该段中要修改字段是否存在旧词,如果存在则进入下一步,否则放弃对该段的修改;步骤3、获取当前处理的段中旧词所对应的信息,判断当前处理的段中要修改字段是否已经存在与新词相同的词,如果存在与新词相同的词,则将与新词相同的词对应的信息与旧词对应的信息进行合并,生成新词对应的信息,否则直接根据旧词对应的信息生成新词对应的信息;步骤4、根据当前处理的段中原先就存在的除旧词和新词外其他词对应的信息、以及新词对应的信息,新生成四个倒排文件segment.tim、segment.tip、segment.doc以及segment.pos;步骤5、等到所有的段都处理完毕,用新生成的四个倒排文件集中替换原索引文件夹中对应的文件。 |
地址 |
310051 浙江省杭州市滨江区西兴街道江陵路88号10幢南座1-11层 |