发明名称 一种体现查询差异的直接优化性能指标排序方法
摘要 一种体现查询差异的直接优化性能指标排序方法。其包括:步骤1.网页爬取;步骤2.数据预处理及特征提取;步骤3.建立样本级排序模型;步骤4.建立查询级排序模型;步骤5.预测新查询。本发明在排序模型建立过程中考虑查询差异,基于大规模真实数据的实验结果表明,使用本发明提供的体现查询差异的直接优化性能指标排序方法可以取得比传统排序学模型更好的性能。本发明提供的方法除排序学之外,还可应用于多类分类、序列标注等问题,在文本分类、信息检索、网络搜索等领域具有广泛的应用前景。
申请公布号 CN103984733A 申请公布日期 2014.08.13
申请号 CN201410213581.7 申请日期 2014.05.20
申请人 国家电网公司;国网天津市电力公司 发明人 王扬
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 天津才智专利商标代理有限公司 12108 代理人 庞学欣
主权项 一种体现查询差异的直接优化性能指标排序方法,其特征在于:所述的体现查询差异的直接优化性能指标排序方法包括按顺序执行的下列步骤:步骤1、网页爬取:从互联网中爬取网页,并解析处理,留下文本连接信息,形成网页数据集;步骤2、数据预处理及特征提取:将步骤1中形成的网页数据集与用户查询进行匹配,建立查询‑文档对;所有查询‑文档对都被表示成了特征向量的形式,形成特征数据集;步骤3、建立样本级排序模型:以排序支持向量机为子排序模型,以步骤2中形成的特征数据集中的每一个查询及其相关文档为训练子集,查询‑文档对为基本训练数据,建立样本级训练模型,着重于构建新的能反映排序学习问题中的查询差异性和有序性的训练数据;步骤4、建立查询级排序模型:以步骤3中形成的样本级训练模型的输出作为训练数据,在整个训练数据集上建立查询级训练模型,给出新的损失函数作为优化目标,并利用此损失函数实现样本级模型融合;步骤5、预测新查询:当有新的查询需要预测时,需要构建与训练数据形式相同的预测数据,使用样本级模型构建特征数据和查询级模型两步预测,得到最终的排序结果。
地址 100031 北京市西城区西长安街86号