发明名称 基于集成支撑矢量机排序的信息检索方法
摘要 本发明公开了一种基于集成支撑矢量机排序的信息检索方法,主要解决现有方法训练效率和排序精确度低的问题。实现步骤为:(1)将训练样本按照查询对象的不同分别进行模型训练得到初始模型组;(2)利用Ranking SVM算法中的排序算法根据模型组中各个模型对验证集分配排序分数,选择对集成之后排序分数的平均精确度有贡献的模型构成系统模型集;(3)系统模型集中的各模型给测试集中各特征向量分配排序分数,将对应于同一个特征向量的排序分数之和作为输出。本发明提高了排序学方法用于信息检索的模型训练效率和排序的精确度,使其更具有通用性,可应用于网络搜索引擎、军事情报检索及机器翻译。
申请公布号 CN101957859B 申请公布日期 2012.08.08
申请号 CN201010507292.X 申请日期 2010.10.15
申请人 西安电子科技大学 发明人 郑喆坤;沈彦波;焦李成;郑小皇;张莉;王爽;马文萍;尚荣华;公茂果
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 陕西电子工业专利中心 61205 代理人 王品华;朱红星
主权项 1.一种基于集成支撑矢量机排序的信息检索方法,包括如下步骤:1)设定训练样本集<img file="FSB00000800570000011.GIF" wi="383" he="105" />其中m表示查询对象的总个数,<img file="FSB00000800570000012.GIF" wi="440" he="79" />表示与第i个查询对象关联的所有文件的特征向量,<img file="FSB00000800570000013.GIF" wi="57" he="66" />(j=1,2,...,n<sup>(i)</sup>)表示第j个关联文件的特征向量,n<sup>(i)</sup>表示与第i个查询对象关联的文件总数目,<img file="FSB00000800570000014.GIF" wi="454" he="76" />表示与x<sup>(i)</sup>对应的标签序列;2)利用Ranking SVM算法中的训练算法,将Γ中每一个查询对象对应的关联文件和标签分别作为一个训练样本训练,将第i个查询对象的关联文件和标签(x<sup>(i)</sup>,y<sup>(i)</sup>)训练得到模型表示为ml<sup>(i)</sup>,m个查询对象的关联文件和标签训练组成模型组<img file="FSB00000800570000015.GIF" wi="256" he="90" />3)设定验证集<img file="FSB00000800570000016.GIF" wi="373" he="83" />作为Ranking SVM算法中的排序算法输入,并根据步骤(2)中所得模型组中的每个模型给V中所有的特征向量分配排序分数,得到排序分数向量组<img file="FSB00000800570000017.GIF" wi="159" he="70" />其中<img file="FSB00000800570000018.GIF" wi="292" he="76" />表示与模型ml<sup>(i)</sup>对应的第i个排序分数向量,K表示验证集中查询对象的总数,f<sup>(k)</sup>为对应于验证集中的第k个查询对象x<sup>(k)</sup>的排序分数向量且维数等于x<sup>(k)</sup>中特征向量的个数,x<sup>(k)</sup>表示验证集中第k个查询对象的特征向量,y<sup>(k)</sup>为验证集中第k个查询对象的标签;4)将排序分数向量组<img file="FSB00000800570000019.GIF" wi="133" he="78" />中各向量随机进行顺序重排,得到一个向量队列,令F等于向量队列中第一个分数向量,根据F以及验证集标签<img file="FSB000008005700000110.GIF" wi="162" he="77" />和平均精确度公式计算验证集排序分数的平均精确度mp,将第一个分数向量对应的模型保存至候选系统模型集;5)对队列中第二个分数向量进行判断:设其对应的分数向量为F′,令新排序分数向量F<sub>new</sub>=F+F′;根据F<sub>new</sub>计算新的验证集排序精确度mp<sub>new</sub>,若mp<sub>new</sub>≥mp则F=F<sub>new</sub>,mp=mp<sub>new</sub>,将第二个分数向量对应的模型保存至候选系统模型集,否则进行向量队列中下一个分数向量的判断,直至步骤(4)中的向量队列结束,得到最终验证集平均精确度mp<sub>last</sub>=mp;6)将步骤(4)和(5)重复N次,得到N个候选系统模型集和与之对应的N个最终验证集平均精确度mp<sub>last</sub>,并对所有的mp<sub>last</sub>按升序排列,将处于队列中间位置的mp<sub>last</sub>对应的候选系统模型集选择为最终的系统模型集; 7)输入新的查询及其关联文件的特征向量,利用Ranking SVM的排序算法和步骤(6)所得的系统模型集给特征向量分配排序分数,将对应于同一个特征向量的排序分数之和作为排序系统的输出。
地址 710071 陕西省西安市太白南路2号