新一代行业知识全文检索方法,申请号CN201210461748.2-传众专利搜索

发明名称	新一代行业知识全文检索方法
摘要	一种新一代行业知识全文检索方法，1，构建分词词典：构建分词词典，并将词典信息存入数据库；2，构建全量索引：对已经存在的全文文档“也称为知识点文档”进行读取、分词和分析，建立索引文件；3，构建增量索引：对新增的文档进行处理，更新硬盘上的索引文件；4，构建内存索引，构建内存分词词典：将分词词典数据读入内存，构建内存分词词典数据结构；步骤5，全文检索，标准化用户问题，分词，语义理解，语义扩展，获取候选文档，排序候选文档其中，系统初始化的时候，构建分词词典；构建全量索引：读取所有的知识点文档，全量构建硬盘索引文件“简称索引文件”；新增全文文档的时候，构建增量索引，这三个活动，独立于全文检索模块，独立运行。
申请公布号	CN103823799A	申请公布日期	2014.05.28
申请号	CN201210461748.2	申请日期	2012.11.16
申请人	镇江诺尼基智能技术有限公司	发明人	王卫民;符建辉;王石
分类号	G06F17/30(2006.01)I	主分类号	G06F17/30(2006.01)I
代理机构	南京知识律师事务所 32207	代理人	汪旭东
主权项	一种新一代行业知识全文检索方法，其特征在于：包括以下步骤：步骤1，构建分词词典：构建分词词典，并将词典信息存入数据库；步骤2，构建全量索引：对已经存在的全文文档“也称为知识点文档”进行读取、分词和分析，建立索引文件；步骤3，构建增量索引：对新增的文档进行处理，更新硬盘上的索引文件；步骤4，构建内存索引，包括：步骤4‑1，构建内存分词词典：将分词词典数据读入内存，构建内存分词词典数据结构；步骤4‑2，构建全量内存索引：从硬盘上读取索引文件，全量构建内存索引；步骤4‑3，构建增量内存索引：对新增的文档进行处理，实现内存索引增量更新；步骤5，全文检索，包括：步骤5‑1，标准化用户问题：接受用户咨询的问题并进行标准化处理“也称规范化处理”，去掉冗余词、去掉不影响语义信息的没用的标点符号，识错纠错、别称标准化；步骤5‑2，分词：对标准化后的问题进行分词；步骤5‑3，语义理解：对分词结果进行处理，提取出问题中出现的分词的所属词类或者标准词，获取分词语义信息；步骤5‑4，语义扩展：对分词语义信息进行语义扩展，得到扩展后的语义信息，这些语义扩展信息，使用一些词或词类表示；步骤5‑5，获取候选文档：利用语义扩展后得到的词或者词类“这些词或词类代表扩展后的语义信”，根据内存索引信息，搜索相应的全文文档，作为候选文档；步骤5‑6，排序候选文档：对候选文档进行多角度的评分排名，评分越高，排名越靠前，排序后的候选文档成为最终的全文检索结果；其中，系统初始化的时候，构建分词词典；构建全量索引：读取所有的知识点文档，全量构建硬盘索引文件“简称索引文件”；新增全文文档的时候，构建增量索引，这三个活动，独立于全文检索模块，独立运行。
地址	212009 江苏省镇江市丁卯经十二路468号双子研发楼北楼18楼