发明名称 基于动态语义分析的全文检索系统
摘要 本发明属于信息检索技术,提供一种基于动态语义分析的全文检索系统,包括查询信息接收模块、查询语句语义处理模块、语义知识库、词语贡献度动态计算模块、检索模块、索引库、索引模块、结果处理模块和文档集。本发明系统不仅能够动态计算和更新词语贡献度信息,而且能够对查询扩展语句进行词义消歧,筛选出符合语义的查询扩展语句,实现支持动态语义分析的全文信息检索。该系统具有更高的查准率、查全率和动态性等特点。
申请公布号 CN103678576B 申请公布日期 2016.08.17
申请号 CN201310669139.0 申请日期 2013.12.11
申请人 华中师范大学 发明人 张茂元;邹春燕;吴德钰;张红;袁芳;华丽君;罗贤亮;贺凡黎;陈水银;孟琼瑶
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 武汉天力专利事务所 42208 代理人 吴晓颖
主权项 基于动态语义分析的全文检索系统,包括查询信息接收模块、查询语句语义处理模块、语义知识库、词语贡献度动态计算模块、检索模块、索引库、索引模块、结果处理模块和文档集;所述查询信息接收模块用于接受用户输入的查询语句,根据用户的需求将查询信息提交给查询语句语义处理模块进行语义处理,或者直接提交给检索模块进行检索;所述查询语句语义处理模块用于接收查询信息接收模块提交的用户查询语句,对查询语句进行语义处理;首先对查询语句进行预处理,将查询语句进行中文分词,去停用词,得到查询词序列,然后将查询词序列提交给语义知识库,得到对应的相关词群和贡献度,采用基于语义知识库的概念扩展方法,对查询词进行扩展,用扩展词替换到相应的查询词位置上得到候选的查询扩展语句集合,再采用词义消歧方法,过滤掉语义不正确的扩展语句,最后将查询语句及其扩展语句一起提交给检索模块进行检索;所述语义知识库存储词语及其相关词群和贡献度信息,对查询语句语义处理模块提交的查询词,在库中检索,将查询词对应的相关词群及贡献度返回给查询语句语义处理模块;所述词语贡献度动态计算模块采用词语贡献度的动态计算方法,动态地计算词语的相关词对该词语的贡献度,并将计算的结果返回给语义知识库;所述词语贡献度动态计算模块,将互动百科中的一个词条t自身属于的开放分类集合C<sub>m</sub>,该词条解释正文中所有内部链接词条所属于的开放分类的集合C<sub>Inword</sub>与用户添加的该词条的相关词条所属于的开放分类的集合C<sub>Userword</sub>的并集定义为词条t的开放分类语义知识集合RC<sub>t</sub>;相关词语的贡献度计算通过比较语义标签t的开放分类语义知识集合RC<sub>t</sub>与其相关词语W<sub>t</sub>的开放分类语义知识集合RC<sub>Wt</sub>而得到;在计算语义标签t与相关词语W<sub>t</sub>之间的语义关联度时,首先定义一个开放分类语义知识向量v,开放分类语义知识向量的维数<img file="dest_path_image001.GIF" wi="139" he="27" />,每一维代表一个开放分类,记为C<sub>p</sub>;语义标签t的开放分类语义知识向量V<sub>t</sub>在p维上的值即为t的开放分类语义知识集合RC<sub>t</sub>中对应开放分类C<sub>p</sub>出现的频次,对相关词W<sub>t</sub>的开放分类语义知识向量V<sub>Wt</sub>也有同样的定义;因此相关词语W<sub>t</sub>与语义标签t的语义关联度,也即相关词语对语义标签的贡献度为:<img file="dest_path_image002.GIF" wi="218" he="27" />;词语贡献度更新的具体过程为:(1)得到最近更新的所有词条,并构建更新词条集;(2)在更新词条集中取出一个词条,在语义知识库的相关词群中查找该新词条是否是相关词;(3)如果是相关词则重新计算新词条对语义标签的贡献度;如果不是,则进行下一个新词条的查找,直到查找完全部的更新词条;如果更新词条是相关词,则重新计算他对语义标签的贡献度,方法如下,对于更新了的相关词,假设它的原来的贡献度为<img file="dest_path_image003.GIF" wi="35" he="27" />,新计算的贡献度为<img file="dest_path_image004.GIF" wi="37" he="30" />,那么它最终的贡献度为:<img file="dest_path_image005.GIF" wi="213" he="31" />这里<img file="dest_path_image006.GIF" wi="319" he="27" />分别表示原来的贡献度和新计算的贡献度对最终贡献度的影响大小,t为更新次数,<img file="dest_path_image007.GIF" wi="9" he="17" />为衰减常数;因为相关词有更新,这里我们取<img file="dest_path_image008.GIF" wi="30" he="16" />0.1,<img file="dest_path_image009.GIF" wi="60" he="20" />,表示新计算的贡献度对最终贡献度的影响大一些,这样就得到了一次动态计算和更新后的相关词语贡献度;新计算的贡献度<img file="dest_path_image010.GIF" wi="39" he="27" />通过更新词条<img file="dest_path_image011.GIF" wi="17" he="18" />的开放分类语义知识向量<img file="dest_path_image012.GIF" wi="26" he="21" />和语义标签<img file="dest_path_image013.GIF" wi="13" he="17" />的开放分类语义知识向量<img file="dest_path_image014.GIF" wi="20" he="19" />进行向量空间模型计算得到,即:<img file="dest_path_image015.GIF" wi="253" he="29" />;所述检索模块用于为用户提供检索服务,检索模块接收来自查询信息接收模块的查询语句或查询语句语义处理模块处理之后的查询语句,并将查询语句提交给索引库进行查找匹配,从而得到与查询语句相关的所有文档信息,并且对相关的文档集进行排序处理,将排序后的结果提交至结果处理模块;所述检索模块是本系统提供给用户检索文本信息的模块,它包括查询模块和排序模块;查询模块在索引库中查找出所有相关的文档,从相关的文档中选择出满足查询要求的那部分文档作为结果集,并将结果集提交给排序模块;排序模块用来对查询模块的结果集进行排序,该模块根据查询词及其扩展词在文档中出现的频率和逆文档频率,以及文档长度因素进行打分排序,对于查询语句Q,对文档d打分,给出基于动态语义分析的全文检索系统的文档打分公式如下:<img file="dest_path_image016.GIF" wi="554" he="165" />其中d为文本,t为查询词;<img file="dest_path_image017.GIF" wi="113" he="21" />表示查询语句经过查询词扩展得到的查询扩展语句集合,它由词义消歧模块提供,q表示<img file="dest_path_image018.GIF" wi="113" he="22" />中的扩展语句;<img file="dest_path_image019.GIF" wi="56" he="20" />表示扩展语句在检索过程中所占的权重,它的值由<img file="875469dest_path_image018.GIF" wi="115" he="21" />中的查询扩展语句和查询语句的语义相似度<img file="dest_path_image020.GIF" wi="64" he="22" />确定;<img file="dest_path_image021.GIF" wi="70" he="20" />表示t在文档d中出现的频率,t的逆文档频率<img file="dest_path_image022.GIF" wi="49" he="21" />表示t在多少篇文档中出现过;<img file="dest_path_image023.GIF" wi="97" he="21" />表示文档长度对结果的影响:文档越长,此值越小,文档越短,此值越大;<img file="dest_path_image024.GIF" wi="90" he="20" />表示一篇文档中包含的查询词越多,则对此文档的打分越高;<img file="dest_path_image025.GIF" wi="119" he="23" />计算每个查询条目的方差和,此值并不影响排序,而仅仅使得不同的查询之间的分数可以比较;通过对每个文档打分,量化地表示文档与查询语句的相关程度,最后把前若干位的结果优先返回给用户;所述索引库用于存储由索引模块对文本文件建立的索引,索引库还根据检索模块提交的查询信息在索引中快速检索,并且将检索的结果返回给检索模块;所述索引模块用于对文档集提供的文本文件建立索引,索引模块对文本内容和标题处理得到索引词,并利用索引词和文档相关信息建立索引;所述文档集存储文本文件,并将文本文件提供给索引模块建立文件的索引;所述结果处理模块用于接收来自检索模块的检索结果,并根据索引库的相关信息建立检索结果的摘要信息,并对返回结果进行分页处理。
地址 430079 湖北省武汉市武昌区珞喻路152号