发明名称 一种基于多查询结果合并的在先技术检索方法
摘要 本发明公开了一种基于多查询结果合并的在先技术检索方法。包括使用关键词提取方法提取查询词,确定主查询词Q0以及辅助查询词{Q1,…,Qn};进行初步检索并得到n+1个查询结果列表并保存相关性排序值;构建查询词及检索结果共现矩阵;使用协同过滤算法确定Q0检索结果中未出现结果权重;融合Q0检索结果相关性排序值和未出现结果权重得到最终排序;生成发送给用户的最终文档列表。本方法在专利申请、审查、授权方面都起着至关重要的作用。通过构建共现矩阵和协同过滤算法合并多个查询结果,结合原有的排序结果对文档列表进行补缺和重排序,提高了检索的准确率,降低了漏检率。
申请公布号 CN104778201A 申请公布日期 2015.07.15
申请号 CN201510035224.0 申请日期 2015.01.23
申请人 湖南科技大学 发明人 周栋;孙刚杰;黄进;陈聪阳
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 长沙市融智专利事务所 43114 代理人 欧阳迪奇
主权项 一种基于多查询结果合并的在先技术检索方法,其特征在于:包括以下步骤:(1)以需要进行在先技术检索的技术方案全文文档作为查询条件并作规范化处理;(2)对步骤(1)中经处理后的文档使用n+1种关键词提取方法提取查询词组,在所提取的查询词组中确定主查询词组Q<sub>0</sub>以及辅助查询词组{Q<sub>1</sub>,…,Q<sub>n</sub>},n≥1;(3)对在先技术文献进行规范化处理形成在先技术文档集,分别在在先技术文档集中对Q<sub>0</sub>以及{Q<sub>1</sub>,…,Q<sub>n</sub>}进行检索,产生按相关性排序的n+1个查询结果文档列表,并保存相关性排序值,这些排序值集合记为I;(4)构建n+1个查询词组及针对每个查询词组的前K个检索结果文档共现矩阵即查询词组‑查询结果文档矩阵,该矩阵中每列对应一个查询词组,列中元素即步骤(3)中获得的查询结果文档与该查询词组的相关性排序实数值,如果对某一查询词组,矩阵的行对应的文档不在该查询词组的前K个检索结果文档中,则置列中元素为零;(5)使用协同过滤算法对步骤(4)中建立的共现矩阵中针对Q<sub>0</sub>的检索结果文档中未出现的结果文档计算权重,这些权重值集记为C;(6)针对步骤(4)中建立的共现矩阵,若Q<sub>0</sub>前K个检索结果文档含有针对Q<sub>0</sub>的相关性排序值,则线性融合Q<sub>0</sub>检索结果相关性排序值和未出现结果权重,并进行数据标准化处理;计算公式为:R=SUM[(RSV<sub>i</sub>‑MIN<sub>RSV</sub>)/(MAX<sub>RSV</sub>‑MIN<sub>RSV</sub>]其中RSV是一个实数值,如果该结果在Q<sub>0</sub>的前K个检索结果文档中,则取相关性排序值,如果只有一个结果,则取未出现结果权重,MAX<sub>RSV</sub>和MIN<sub>RSV</sub>分别为RSV的最大值和最小值,从而得到一组最终排序分数,分数集记为R;(7)将所述I,C和R这三组排序分数混合在一起,按从大到小的方式排列,实现对主查询词组Q<sub>0</sub>检索结果文档的补缺和重排序处理,生成发送给用户的最终文档列表。
地址 411201 湖南省湘潭市雨湖区石马头