发明名称 一种基于多层次的微博查询扩展方法
摘要 本发明公开了一种基于多层次的微博查询扩展方法,其特点是将原微博查询词对应的语料库PRF层和外部源的web层中提取关键词作为候选查询扩展词,将候选查询扩展词与原始微博查询语句合并作为标签集对PRF层中的文档进行标注,并利用Labeled LDA对标注的PRF文档进行语义建模,然后将来自不同源的候选查询扩展词和微博查询词映射到统一的语义层,挖掘出它们潜在的语义,并根据它们之间的语义相似度,过滤掉与微博查询词语义无关的候选扩展词,组成新的微博查询词进行更为精准的查询和检索。本发明与现有技术相比具有查询漂移少,检索效率高,准确性好,尤其将扩展词进行有效的整合,以达到最优的扩展效果,使查询结果能符合用户真实的信息需求。
申请公布号 CN104915405A 申请公布日期 2015.09.16
申请号 CN201510294437.5 申请日期 2015.06.02
申请人 华东师范大学 发明人 胡琴敏;陈琴;贺樑
分类号 G06F17/30(2006.01)I;G06F17/27(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 上海蓝迪专利事务所 31215 代理人 徐筱梅;张翔
主权项 一种基于多层次的微博查询扩展方法,其特征在于将原微博查询词在其对应的语料库PRF层和外部源的web层中提取关键词作为候选查询扩展词,以候选查询扩展词与原微博查询词为标签集对PRF层中的文档进行标注,利用Labeled LDA对标注的PRF文档进行语义建模,然后将来自不同源的候选查询扩展词和原微博查询词映射到统一的语义层,挖掘出它们潜在的语义,并根据它们之间的语义相似度,过滤掉与原微博查询词语义无关的候选扩展词,作为查询扩展词添加到原微博查询词中组成新微博查询词,使用扩展后的新微博查询词进行查询,其查询结果更能符合用户的真实信息需求,微博查询的具体扩展按下述步骤进行: (一)、基于PRF层的候选扩展词提取将原微博查询词在其对应的语料库中进行初步检索,并将前K<sub>1</sub>个检索结果作为PRF 文档,利用TFIDF在 PRF 文档中提取关键词为候选查询扩展词,其中:K<sub>1</sub> =10~20;(二)、基于web层的候选扩展词提取将原微博查询词在外部源的web层中进行检索,保存前K<sub>2</sub>个包括标题和片段的检索结果,从标题和片段中提取TF较高的关键词为候选查询扩展词,其中:K<sub>2</sub> =10~20;(三)、统一语义层建模将PRF层和web层检索得到的候选查询扩展词与原微博查询词合并为标签集对PRF文档进行标注,并利用Labeled LDA对标注的PRF文档进行语义建模得到标签‑词分布,然后根据标签与候选查询扩展词和原微博查询词之间的一一对应关系以及标签‑词分布,得到原微博查询词和候选查询扩展词关于所有词的分布表示,从中选取权重最高的n个词来表示其潜在的语义;其中:n=10~20; (四)、候选查询扩展词的筛选根据上述潜在语义的表示采用余弦相似度计算每个候选查询扩展词与原微博查询词的语义相似度,并设定一个阈值,对候选查询扩展词进行过滤,将语义相似度大于阈值的候选查询扩展词作为查询扩展词添加到原微博查询词中组成新微博查询词,使用扩展后的新微博查询词进行查询,其查询结果更能符合用户的真实信息需求。
地址 200241 上海市闵行区东川路500号