发明名称 基于数据包络分析的排序学方法
摘要 本发明公开了一种基于数据包络分析的排序学方法。该发明以检索词为单位,每个检索词的关联文档构成一个决策单元集合,根据数据包络分析模型确定每个关联文档的最优权值向量,以之构建候选基本模型集合。最后,基于Boosting技术优化排序模型。本发明公开的方法能够有效改善当前排序学模型的性能,可应用于搜索引擎、机器翻译、推荐系统,以及生物信息等领域。
申请公布号 CN104239375A 申请公布日期 2014.12.24
申请号 CN201310533802.4 申请日期 2013.10.31
申请人 成都按图索骥网络科技有限公司 发明人 蒋春恒;林文斌
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 代理人
主权项 一种基于数据包络分析的排序学习方法,包括如下步骤:S1.给定训练数据集,包含三个部分:检索词集合<img file="FDA0000406548520000011.GIF" wi="356" he="51" />关联文档集合<img file="FDA0000406548520000012.GIF" wi="373" he="51" />和文档相关等级标记集合<img file="FDA0000406548520000013.GIF" wi="394" he="86" />其中,N是训练集中检索词的个数;检索词<img file="FDA0000406548520000014.GIF" wi="130" he="46" />包含有n<sub>i</sub>篇关联文档:<img file="FDA0000406548520000018.GIF" wi="411" he="66" />每个文档d<sub>ij</sub>(j=1,...,n<sub>i</sub>)都使用一个特征向量x<sub>ij</sub>表示,每个维度对应一个检索词‑文档对特征,如PageRank,TF*IDF等;<img file="FDA0000406548520000017.GIF" wi="394" he="53" />其中,r<sub>ij</sub>代表d<sub>ij</sub>与检索词q<sub>i</sub>的相关程度;S2.对于任意检索词<img file="FDA0000406548520000015.GIF" wi="145" he="46" />检索词‑文档对d<sub>ij</sub>作为一个决策单元,从文档特征向量x<sub>ij</sub>或者文档相关等级r<sub>ij</sub>中选择一部分特征作为输入变量,一部分特征作为输出变量,构建一个多输入‑多输出的数据包络分析模型;S3.对于D<sub>i</sub>中的每个文档,求解相关的数据包络分析模型,获得每个文档对应的最优权值向量;S4.重复步骤S2与S3,获得所有关联文档的最优权值向量,将其组成为候选基本模型集合Φ={ω<sub>1</sub>,...,ω<sub>m</sub>,...,ω<sub>M</sub>},其中M表示候选基本模型集合的大小,由于部分线性规划无最优解,<maths num="0001" id="cmaths0001"><math><![CDATA[<mrow><mi>M</mi><mo>&le;</mo><munderover><mi>&Sigma;</mi><mrow><mi>i</mi><mo>=</mo><mn>1</mn></mrow><mi>N</mi></munderover><msub><mi>n</mi><mi>i</mi></msub><mo>;</mo></mrow>]]></math><img file="FDA0000406548520000016.GIF" wi="230" he="112" /></maths>S5.从Φ中选取一个候选基本模型ω<sub>m</sub>,使用它预测训练集中每个文档的相关性分值,生成一组分值列表S<sub>m</sub>={S<sub>m1</sub>,...,S<sub>mN</sub>},其中S<sub>mi</sub>是一个n<sub>i</sub>维的向量,代表ω<sub>m</sub>对检索词q<sub>i</sub>所有关联文档的预测结果;S6.根据预测的S<sub>mi</sub>和检索词q<sub>i</sub>所有关联文档的真实相关等级R<sub>i</sub>,计算候选基本模型ω<sub>m</sub>在q<sub>i</sub>上的排名精度E<sub>mi</sub>,把ω<sub>m</sub>在训练集中所有检索词的排名精度向量记为E<sub>m</sub>,即E<sub>m</sub>=(E<sub>m1</sub>,...,E<sub>mi</sub>,...,E<sub>mN</sub>);S7.根据S<sub>ij</sub>和G<sub>ij</sub>,评估候选基本模型ω<sub>i</sub>在q<sub>j</sub>上的排名精度E<sub>ij</sub>∈R,记ω<sub>i</sub>在训练集所有检索词上的排名精度向量为E<sub>i</sub>=(E<sub>i1</sub>,...,E<sub>iN</sub>);S8.重复步骤S5至S6,直到遍历尽Φ中的所有候选基本模型,使用所有候选基本模型的排名精度,构成一个M×N的排名精度矩阵E;S9.设定检索词的初始概率分布为P<sub>i</sub>=1/N(i=1,...,N),初始集成模型f=0;S10.将步骤S9学习得到的基本模型h<sub>t</sub>,添加到集成模型f=f+β<sub>t</sub>h<sub>t</sub>,计算集成模型在所有检索词上的精度向量<img file="FDA0000406548520000021.GIF" wi="471" he="69" />其中<img file="FDA0000406548520000022.GIF" wi="85" he="69" />表示集成模型f在检索词q<sub>i</sub>上的排名精度,并基于下式更新检索词的概率分布:<maths num="0002" id="cmaths0002"><math><![CDATA[<mrow><msub><mi>P</mi><mi>i</mi></msub><mo>=</mo><mi>&psi;</mi><mrow><mo>(</mo><msubsup><mi>E</mi><mi>i</mi><mrow><mo>(</mo><mi>f</mi><mo>)</mo></mrow></msubsup><mo>)</mo></mrow></mrow>]]></math><img file="FDA0000406548520000023.GIF" wi="257" he="68" /></maths>其中,ψ是一个单调递减函数,根据集成模型在不同检索词的表现做出相应调整,表现越好,相应检索词的概率值就下调,否则,则提升相应检索词的概率分值;S11.将步骤S9和S10重复T次,训练得到的集成模型是基本模型的线性组合:<maths num="0003" id="cmaths0003"><math><![CDATA[<mrow><mi>f</mi><mo>=</mo><msubsup><mi>&Sigma;</mi><mrow><mi>t</mi><mo>=</mo><mn>1</mn></mrow><mi>T</mi></msubsup><msub><mi>&beta;</mi><mi>t</mi></msub><msub><mi>h</mi><mi>t</mi></msub><mo>;</mo></mrow>]]></math><img file="FDA0000406548520000024.GIF" wi="300" he="63" /></maths>S12.输入测试集中检索词‑文档对的特征向量,使用步骤S11训练得到的集成模型f,预测文档的相关分值。
地址 610031 四川省成都市金牛区交大路144号西南交通大学现代工业中心A座308室