发明名称 面向学术元搜索的检索结果合成排序方法
摘要 本发明公开了一种面向学术元搜索的检索结果合成排序方法,主要解决现有搜索引擎覆盖率低,检索结果不全,计算收敛速度慢,及新领域论文不被重视的问题。其实现方案是:1)调用成员引擎检索文档;2)利用成员搜索引擎结果比重计算搜索引擎能力;3)综合考虑文献的发表年份、文献发表期刊的影响因子或发表会议的举办次数、文献被引用次数、文献的相关度,并结合成员搜索引擎检索能力的差异性,计算检索文档权重;4)将成员搜索引擎返回的结果去重、合并,展示检索结果。本发明为用户提供更加全面、精确检索结果的同时,提高了那些新兴领域文献的重要性,实现了学术元搜索引擎更高效的用户检索体验,可应用于互联网信息检索和数字图书馆。
申请公布号 CN106202313A 申请公布日期 2016.12.07
申请号 CN201610512911.1 申请日期 2016.07.01
申请人 西安电子科技大学 发明人 李青山;蔺一帅;陈小利;王梅嘉;周柏宇;李英健
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 陕西电子工业专利中心 61205 代理人 王品华;朱红星
主权项 面向学术元搜索的检索结果合成排序方法,包括:(1)搜索引擎检索文档:用户输入查询词并选择需要的成员搜索引擎,学术元搜索引擎调用该成员搜索引擎进行搜索;(2)计算搜索引擎能力:(2a)为每个成员搜索引擎创建一个当前结果列表,成员搜索引擎将检索得到的结果文档添加到当前结果列表中;(2b)计算每个成员搜索引擎当前结果列表的结果比重,作为该成员搜索引擎的本次搜索能力SEC:<maths num="0001"><math><![CDATA[<mrow><mi>S</mi><mi>E</mi><mi>C</mi><mo>=</mo><mfrac><mrow><mi>l</mi><mi>e</mi><mi>n</mi><mrow><mo>(</mo><mi>i</mi><mo>)</mo></mrow></mrow><mrow><munderover><mo>&Sigma;</mo><mrow><mi>i</mi><mo>=</mo><mn>1</mn></mrow><mi>n</mi></munderover><mi>l</mi><mi>e</mi><mi>n</mi><mrow><mo>(</mo><mi>i</mi><mo>)</mo></mrow></mrow></mfrac><mo>,</mo></mrow>]]></math><img file="FDA0001038868420000011.GIF" wi="349" he="191" /></maths>其中,len(i)表示第i个成员搜索引擎返回的结果条目数,n表示成员搜索引擎的数量;(3)计算检索文档权重:(3a)遍历每个成员搜索引擎的当前结果列表,根据论文发表年限距离当前的时间长度,计算论文发表年限对结果分数的影响力T:<maths num="0002"><math><![CDATA[<mrow><mi>T</mi><mo>=</mo><msub><mi>d</mi><mn>1</mn></msub><mo>*</mo><mfrac><mn>1</mn><msqrt><mrow><mo>(</mo><mi>c</mi><mi>u</mi><mi>r</mi><mo>_</mo><mi>y</mi><mo>-</mo><mi>y</mi><mo>)</mo></mrow></msqrt></mfrac><mo>,</mo></mrow>]]></math><img file="FDA0001038868420000012.GIF" wi="485" he="134" /></maths>其中,d<sub>1</sub>表示论文发表年限的常系数,取值为0.1;cur_y表示系统当前的时间,y表示该论文的发表时间;(3b)计算论文引用次数对结果分数的影响力PC:PC=d<sub>2</sub>*cite_num,其中,d<sub>2</sub>表示论文引用情况的常系数,取值为0.01;cite_num表示该论文的引用次数;(3c)利用分词工具,对查询词串以及系统结果列表中所有结果文档的标题和摘要文本内容分别进行分词,统计文本中出现的词条及相对频度,得到查询词向量A和文档向量B;(3d)利用余弦相似度,计算(3c)中得到的查询词向量A和文档向量B的相似程度SM;(3e)根据(2b)得到的成员搜索引擎的本次搜索能力SEC,计算成员搜索引擎能力对结果分数的影响力SC:SC=d<sub>3</sub>*SEC,其中,d<sub>3</sub>表示搜索引擎能力的常系数,取值为0.1;(3f)判断当前文档是否是会议论文,若是,则执行步骤(3g),否则,执行步骤(3h);(3g)根据会议举办的届数,计算该会议对结果文档分数的影响力CTH,执行步骤(3i);CTH=d<sub>4</sub>*Conf_th,其中,d<sub>4</sub>表示会议举办届数的常系数,取值为0.1;Conf_th表示该会议举办的届数;(3h)根据发表期刊的影响因子,计算该期刊对结果文档分数的影响力JIF:JIF=d<sub>5</sub>*Journ_if,其中,JIF表示期刊影响因子对结果分数的影响力;d<sub>5</sub>表示期刊影响因子的常系数,取值为2;Journ_if表示该期刊的影响因子;(3i)判断当前文档是否是会议论文,若是,则执行步骤(3j),否则,执行步骤(3k);(3j)根据上述步骤(3a),(3b),(3d),(3e)和(3g)的结果,计算当前文档的总分值S,执行步骤(4);S=T+PC+d<sub>6</sub>*SM+SC+CTH,其中,d<sub>6</sub>表示文档相关度的常系数,取值为0.1;(3k)根据上述步骤(3a),(3b),(3d),(3e)和(3h)的结果,计算当前文档的总分值S:S=T+PC+d<sub>6</sub>*SM+SC+JIF;(4)合并成员搜索引擎结果文档:(4a)创建一个系统结果列表,系统结果列表中的每一项内容包括结果文档的标题文本、摘要文本、作者列表、发表年限、引用次数以及文档来源相关信息;(4b)对所有成员搜索引擎返回的结果列表进行去重,并将去重后的结果添加到系统结果列表中;(4c)利用排序方法对系统结果列表按照文档总分值S从大到小依次排序;(5)学术元搜索引擎将排序后的系统结果列表展示在浏览器上。
地址 710071 陕西省西安市太白南路2号