发明名称 微博检索方法和微博检索装置
摘要 本发明提供了一种微博检索方法,包括:预处理步骤,对查询语句和微博文档进行预处理;第一模型创建步骤,根据预处理结果创建原始查询模型和原始文档模型;第二模型创建步骤,创建伪相关文档模型;模型更新步骤,将所述伪相关文档模型和所述原始查询模型进行线性叠加,得到扩展查询模型;文档确定步骤,确定候选结果文档;排序步骤,根据分解机排序模型公式计算所述候选结果文档中的每个文档的得分,并根据所述得分对所述候选结果文档进行排序,以得到最终检索结果。相应地,本发明还提出了一种微博检索装置。通过本发明的技术方案,可以解决微博检索中的词汇匹配不精准的问题,同时可以辨别微博的质量,过滤掉低质量的微博。
申请公布号 CN105095271A 申请公布日期 2015.11.25
申请号 CN201410197262.1 申请日期 2014.05.12
申请人 北京大学;北大方正集团有限公司;北京北大方正电子有限公司 发明人 强闰伟;梁丰;杨建武
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 北京友联知识产权代理事务所(普通合伙) 11343 代理人 尚志峰;汪海屏
主权项 一种微博检索方法,其特征在于,包括:预处理步骤,对查询语句和微博文档进行预处理,以得到初步处理结果;第一模型创建步骤,根据所述初步处理结果创建原始查询模型和原始文档模型,并计算所述原始查询模型和所述原始文档模型之间的相似度;第二模型创建步骤,根据所述相似度确定所述查询语句对应的伪相关文档,并根据所述伪相关文档创建伪相关文档模型;模型更新步骤,将所述伪相关文档模型和所述原始查询模型进行线性叠加,以得到扩展查询模型;文档确定步骤,计算所述扩展查询模型和与所述扩展查询模型对应的扩展文档模型之间的相似度,以确定候选结果文档;排序步骤,根据分解机排序模型公式计算所述候选结果文档中的每个文档的得分,并根据所述得分对所述候选结果文档中的文档进行排序,以得到最终检索结果。
地址 100871 北京市海淀区颐和园路5号