主权项 |
一种基于多查询结果合并的在先技术检索方法,其特征在于:包括以下步骤:(1)以需要进行在先技术检索的技术方案全文文档作为查询条件并作规范化处理;(2)对步骤(1)中经处理后的文档使用n+1种关键词提取方法提取查询词组,在所提取的查询词组中确定主查询词组Q<sub>0</sub>以及辅助查询词组{Q<sub>1</sub>,…,Q<sub>n</sub>},n≥1;(3)对在先技术文献进行规范化处理形成在先技术文档集,分别在在先技术文档集中对Q<sub>0</sub>以及{Q<sub>1</sub>,…,Q<sub>n</sub>}进行检索,产生按相关性排序的n+1个查询结果文档列表,并保存相关性排序值,这些排序值集合记为I;(4)构建n+1个查询词组及针对每个查询词组的前K个检索结果文档共现矩阵即查询词组‑查询结果文档矩阵,该矩阵中每列对应一个查询词组,列中元素即步骤(3)中获得的查询结果文档与该查询词组的相关性排序实数值,如果对某一查询词组,矩阵的行对应的文档不在该查询词组的前K个检索结果文档中,则置列中元素为零;(5)使用协同过滤算法对步骤(4)中建立的共现矩阵中针对Q<sub>0</sub>的检索结果文档中未出现的结果文档计算权重,这些权重值集记为C;(6)针对步骤(4)中建立的共现矩阵,若Q<sub>0</sub>前K个检索结果文档含有针对Q<sub>0</sub>的相关性排序值,则线性融合Q<sub>0</sub>检索结果相关性排序值和未出现结果权重,并进行数据标准化处理;计算公式为:R=SUM[(RSV<sub>i</sub>‑MIN<sub>RSV</sub>)/(MAX<sub>RSV</sub>‑MIN<sub>RSV</sub>]其中RSV是一个实数值,如果该结果在Q<sub>0</sub>的前K个检索结果文档中,则取相关性排序值,如果只有一个结果,则取未出现结果权重,MAX<sub>RSV</sub>和MIN<sub>RSV</sub>分别为RSV的最大值和最小值,从而得到一组最终排序分数,分数集记为R;(7)将所述I,C和R这三组排序分数混合在一起,按从大到小的方式排列,实现对主查询词组Q<sub>0</sub>检索结果文档的补缺和重排序处理,生成发送给用户的最终文档列表。 |