发明名称 新一代行业知识全文检索方法
摘要 一种新一代行业知识全文检索方法,1,构建分词词典:构建分词词典,并将词典信息存入数据库;2,构建全量索引:对已经存在的全文文档“也称为知识点文档”进行读取、分词和分析,建立索引文件;3,构建增量索引:对新增的文档进行处理,更新硬盘上的索引文件;4,构建内存索引,构建内存分词词典:将分词词典数据读入内存,构建内存分词词典数据结构;步骤5,全文检索,标准化用户问题,分词,语义理解,语义扩展,获取候选文档,排序候选文档其中,系统初始化的时候,构建分词词典;构建全量索引:读取所有的知识点文档,全量构建硬盘索引文件“简称索引文件”;新增全文文档的时候,构建增量索引,这三个活动,独立于全文检索模块,独立运行。
申请公布号 CN103823799A 申请公布日期 2014.05.28
申请号 CN201210461748.2 申请日期 2012.11.16
申请人 镇江诺尼基智能技术有限公司 发明人 王卫民;符建辉;王石
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 南京知识律师事务所 32207 代理人 汪旭东
主权项 一种新一代行业知识全文检索方法,其特征在于:包括以下步骤:步骤1,构建分词词典:构建分词词典,并将词典信息存入数据库;步骤2,构建全量索引:对已经存在的全文文档“也称为知识点文档”进行读取、分词和分析,建立索引文件;步骤3,构建增量索引:对新增的文档进行处理,更新硬盘上的索引文件;步骤4,构建内存索引,包括:步骤4‑1,构建内存分词词典:将分词词典数据读入内存,构建内存分词词典数据结构;步骤4‑2,构建全量内存索引:从硬盘上读取索引文件,全量构建内存索引;步骤4‑3,构建增量内存索引:对新增的文档进行处理,实现内存索引增量更新;步骤5,全文检索,包括:步骤5‑1,标准化用户问题:接受用户咨询的问题并进行标准化处理“也称规范化处理”,去掉冗余词、去掉不影响语义信息的没用的标点符号,识错纠错、别称标准化;步骤5‑2,分词:对标准化后的问题进行分词;步骤5‑3,语义理解:对分词结果进行处理,提取出问题中出现的分词的所属词类或者标准词,获取分词语义信息;步骤5‑4,语义扩展:对分词语义信息进行语义扩展,得到扩展后的语义信息,这些语义扩展信息,使用一些词或词类表示;步骤5‑5,获取候选文档:利用语义扩展后得到的词或者词类“这些词或词类代表扩展后的语义信”,根据内存索引信息,搜索相应的全文文档,作为候选文档;步骤5‑6,排序候选文档:对候选文档进行多角度的评分排名,评分越高,排名越靠前,排序后的候选文档成为最终的全文检索结果;其中,系统初始化的时候,构建分词词典;构建全量索引:读取所有的知识点文档,全量构建硬盘索引文件“简称索引文件”;新增全文文档的时候,构建增量索引,这三个活动,独立于全文检索模块,独立运行。
地址 212009 江苏省镇江市丁卯经十二路468号双子研发楼北楼18楼