发明名称 一种二维跨媒体元搜索方法和系统
摘要 一种二维跨媒体元搜索方法和系统,属于信息检索领域。本发明的元搜索方法基于查询聚类和结果集交叠分析,通过对不同的子检索模型提供的检索结果集进行合并、加权等融合操作,最终获得单一的检索结果集。该元搜索方法包括:预处理阶段;查询分类阶段;检索执行阶段;融合阶段;以及,更新阶段。本发明所提供的跨媒体元搜索方法能同时利用类似查询在特征上的相似性、在检索结果融合模式上的相似性、以及不同子检索模型的检索结果集交叠特性等来有效改进检索性能,其检索性能优于单一维度的跨媒体搜索方法。
申请公布号 CN101996191B 申请公布日期 2013.08.07
申请号 CN200910090902.8 申请日期 2009.08.14
申请人 北京大学 发明人 田永鸿;周志;黄铁军;高文
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 北京市商泰律师事务所 11255 代理人 毛燕生
主权项 一种二维跨媒体元搜索方法,其特征在于,所述方法基于查询聚类和结果集交叠分析,包括: 1)预处理阶段:对已有的部分查询数据进行标注,并将已标注的数据样本进行数据聚类,将相似的数据样本聚类到同一个簇中,学习每个簇中来自不同子检索模型的检索结果间的融合权重,得到簇的融合权重; 2)查询分类阶段:给定新的查询请求,首先确定该查询与每个簇的距离或相似度,再计算该查询与每个簇的相关概率; 3)检索执行阶段:对该查询请求,使用至少2个子检索模型分别进行检索,并分别获得相应的检索结果集; 4)融合阶段:包括交叠权重计算和二维融合权重计算,首先对各子检索模型的检索结果集进行交叠分析,计算所述检索结果集交叠情况下的交叠权重;然后进行二维融合权重计算,对查询或样本的每一个簇以及结果集中不同区段的文档都赋予特定的融合权重,结合所述簇的融合权重和所述检索结果集不同区段文档的融合权重,分别在两个维度进行融合,获得对应于该查询请求的最终融合策略,输出融合后的检索结果集。
地址 100871 北京市海淀区中关村颐和园路5号