发明名称 一种支持信息检索结果多元化的数据融合方法
摘要 本发明公开了一种支持信息检索结果多元化的数据融合方法,该方法主要基于子主题覆盖的补充性权重分配策略。补充性权重的计算主要包括以下步骤:设有t个信息检索系统,对于给定查询q,每个信息检索系统都从同一数据库中检索出相应的结果r<sub>1</sub>,r<sub>2</sub>,…,r<sub>t</sub>。首先在两个结果r<sub>i</sub>和r<sub>j</sub>的基础上构造一个超级结果r;然后使用性能指标评估r<sub>i</sub>,r<sub>j</sub>,r,得到的性能值分别记为p(r<sub>i</sub>),p(r<sub>j</sub>),p(r),根据性能值计算r<sub>i</sub>相对r<sub>j</sub>的补充程度<img file="DDA0000606604120000011.GIF" wi="431" he="135" /></maths>在此基础上,计算结果r<sub>i</sub>(1≤i≤t)的补充性权重c<sub>i</sub>:<img file="DDA0000606604120000012.GIF" wi="483" he="177" />在获取补充性权重后,可以将其直接用于线性组合,或者作为线性组合权重的一部分。本发明能够从多元化角度出发,考虑新颖性,量化一个结果对整体的补充程度,可以用于不同种类的融合问题,如文档、图片等等。
申请公布号 CN104408089A 申请公布日期 2015.03.11
申请号 CN201410642955.7 申请日期 2014.11.13
申请人 江苏大学 发明人 李洁玉;黄春兰;吴胜利
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 江苏纵联律师事务所 32253 代理人 蔡栋
主权项 一种支持信息检索结果多元化的数据融合方法,其特征在于先在一组训练数据上处理获得各个信息检索系统的权值,再采用线性组合法对所有信息检索系统的结果进行融合,具体步骤如下:步骤一,假设共有t个信息检索系统,对于同一个查询q,每个信息检索系统都从相同数据库中搜索,得到由若干文档构成的有序序列即检索结果r<sub>i</sub>(1≤i≤t);步骤二,挑选一个检索结果r<sub>i</sub>和另一个检索结果r<sub>j</sub>,在r<sub>i</sub>,r<sub>j</sub>的基础上构造超级结果r;记r<sub>i</sub>中排在第k位置上文档所覆盖的子主题集合为S<sub>i</sub>(k),r<sub>j</sub>中同样的k位置上的文档所覆盖的子主题集合为S<sub>j</sub>(k),在相同位置k上,超级结果中的文档所覆盖的子主题集合为S<sub>i</sub>(k)∪S<sub>j</sub>(k);对于所有的k(k=1,2,3,....,n,n是检索结果的长度),按照该方法构造,从而得到r<sub>i</sub>和r<sub>j</sub>上的超级结果r,其中1≤i≤t,1≤j≤t,且i≠j;步骤三,使用性能指标ERR‑IA@20评价所述r<sub>i</sub>,r<sub>j</sub>和r,所得到的性能值依次记为p(r<sub>i</sub>),p(r<sub>j</sub>)和p(r);根据p(r<sub>i</sub>),p(r<sub>j</sub>)和p(r)值计算r<sub>i</sub>对r<sub>j</sub>的补充程度c<sub>i</sub>(j),计算公式如下:<maths num="0001" id="cmaths0001"><math><![CDATA[<mrow><msub><mi>c</mi><mi>i</mi></msub><mrow><mo>(</mo><mi>j</mi><mo>)</mo></mrow><mo>=</mo><mfrac><mrow><mi>p</mi><mrow><mo>(</mo><mi>r</mi><mo>)</mo></mrow><mo>-</mo><mi>p</mi><mrow><mo>(</mo><msub><mi>r</mi><mi>j</mi></msub><mo>)</mo></mrow></mrow><mrow><mi>p</mi><mrow><mo>(</mo><mi>r</mi><mo>)</mo></mrow></mrow></mfrac></mrow>]]></math><img file="FDA0000606604100000011.GIF" wi="447" he="144" /></maths>步骤四,重复步骤二和步骤三,计算检索结果r<sub>i</sub>相对其它t‑1个结果(r<sub>1</sub>,r<sub>2</sub>,...,r<sub>t</sub>,但不包括r<sub>i</sub>)的补充程度c<sub>i</sub>作为检索结果r<sub>i</sub>的补充性权重,c<sub>i</sub>的计算方法如下:<maths num="0002" id="cmaths0002"><math><![CDATA[<mrow><msub><mi>c</mi><mi>i</mi></msub><mo>=</mo><mfrac><mn>1</mn><mrow><mi>t</mi><mo>-</mo><mn>1</mn></mrow></mfrac><munderover><mi>&Sigma;</mi><mrow><mi>j</mi><mo>=</mo><mn>1</mn><mi>&Lambda;j</mi><mo>&NotEqual;</mo><mi>i</mi></mrow><mi>t</mi></munderover><msub><mi>c</mi><mi>i</mi></msub><mrow><mo>(</mo><mi>j</mi><mo>)</mo></mrow></mrow>]]></math><img file="FDA0000606604100000012.GIF" wi="500" he="199" /></maths>对于每个不同的r<sub>i</sub>,都按照上述公式计算,可获得在查询q下的一组检索结果的补充性权重c<sub>i</sub>;1≤i≤t;步骤五,上述四个步骤可对多个不同的查询重复进行,从而获得信息检索系统在多个查询上的多组补充性权重,即对于一个查询信息检索系统有一个补充性权重,对多个查询,则该信息检索系统可有多个补充性权重;此时,各个信息检索系统的补充性权重则取各个信息检索系统在多个查询上的补充性权重的平均值;步骤六,将信息检索系统的补充性权重作为最终权重w<sub>i</sub>,线性组合文档d在t个检索结果中的分值,得到文档的全局分值g(d),公式如下:<maths num="0003" id="cmaths0003"><math><![CDATA[<mrow><mi>g</mi><mrow><mo>(</mo><mi>d</mi><mo>)</mo></mrow><mo>=</mo><munderover><mi>&Sigma;</mi><mrow><mi>i</mi><mo>=</mo><mn>1</mn></mrow><mi>t</mi></munderover><msub><mi>w</mi><mi>i</mi></msub><mo>*</mo><msub><mi>s</mi><mi>i</mi></msub><mrow><mo>(</mo><mi>d</mi><mo>)</mo></mrow></mrow>]]></math><img file="FDA0000606604100000021.GIF" wi="472" he="187" /></maths>s<sub>i</sub>(d)为文档d在检索结果r<sub>i</sub>中的分值。
地址 212013 江苏省镇江市学府路301号