发明名称 一种基于词矢量的短文本查询扩展及检索方法
摘要 一种基于词矢量的短文本查询扩展及检索方法,具体包括:A、短文本语料信息预处理;B、训练模型将语料词典中的每个词用词矢量来表示;C、查询扩展;D、利用查询扩展词集及BM25检索模型获取文本候选集;E、短文本的主题抽取;F、计算短文本的文本矢量;G、对传统检索模型返回的短文本重排序。本发明能够更加准确,有效地满足用户检索的需求,并且查询扩展模块会根据已有数据找出能表达用户意图的词进行查询扩展。
申请公布号 CN104765769A 申请公布日期 2015.07.08
申请号 CN201510103341.6 申请日期 2015.03.06
申请人 大连理工大学 发明人 林鸿飞;王琳
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 大连星海专利事务所 21208 代理人 徐雪莲
主权项 一种基于词矢量的短文本查询扩展及检索方法,其特征在于,包括以下步骤:A、短文本语料信息预处理:从已知数据库中采集包含短文本语料信息的文本语料集,从文本语料集中删除字数少于预设阈值的短文本语料信息;识别出所述文本语料集中的转发短文本语料信息并将其删除;对文本语料集中剩余的短文本语料信息进行分词处理,得到分词语料词典;记录每个词在所述分词语料词典中的出现次数,并去除频率小于预设阈值的词,得到语料词典;对语料词典中的短文本建立倒排索引;B、训练模型将语料词典中的每个词用词矢量来表示:包括以下步骤:B1、根据语料词典创建Huffman树:对所述语料词典中的每个词语进行Huffman编码并创建Huffman树,Huffman树的每个叶子节点来代表语料词典中的每个词,根节点到每个叶子节点的路径表示该词的Huffman编码,根节点到每个叶子节点之间的内部节点不断对词语进行分类,最终把每一个词分到某个对应的叶子节点上;B2、利用无监督训练模型对语料词典中的每个词用词矢量的形式表示:对于所述语料词典中的每个词定义一个k维实数向量,每一维实数向量为一个变量,将所述k维实数向量作为逻辑回归模型的输入向量通过逻辑回归二元分类方法来预测Huffman树中该词的上下文词语所对应的叶子节点所在路径的边值的概率;Huffman树中包括根节点在内的每一个内部节点对应一个逻辑回归模型,并同时通过损失函数和求导公式进行参数与输入变量的更新,以使输入的矢量比较接近;最后,将更新后得到的输入向量作为该词的矢量表示;C、查询扩展:将用户的查询文本信息进行分词处理并去除停用词,得到查 询词集,所述查询词集利用步骤B2的方法使查询词集中的每个查询词以词矢量的形式表示,查询词集中的词矢量经归一化后矢量相加,获得一个新的向量作为查询向量;再从所述语料词典中选出与所述查询向量的矢量夹角最相近的词语所形成的集合作为查询扩展候选集,并把它们与局部分析的查询扩展词集的交集作为最后使用的查询扩展词集,并加大原查询词的权重;所述局部分析的查询扩展词集为在通过BM25检索模型对查询词进行文本相似度计算后所返回的排序靠前的文档中,去除停用词后排序靠前的高频关键字所构成的集合;D、利用查询扩展词集及BM25检索模型获取文本候选集:将查询扩展词集中每个查询词的IDF权值、查询词短文本权值与查询权值乘积的加和作为每篇短文本的传统模型检索得分,其中,IDF权值为<img file="FDA0000678415030000021.GIF" wi="379" he="152" />查询词短文本权值为<img file="FDA0000678415030000022.GIF" wi="545" he="204" />查询权值为<img file="FDA0000678415030000023.GIF" wi="250" he="155" />N为短文本总数,n<sub>i</sub>为包含查询词i的文本个数,tf<sub>i</sub>为该篇文档所含查询词词频,qf<sub>i</sub>为查询文本中查询词i的词频,dl和avdl分别表示短文本长度和短文本平均长度,其它变量为调节参数;然后,采用BM25检索模型根据查询扩展词集中的查询词进行检索,按照传统模型检索得分由高到低对每篇输出文档进行排序并把排名靠前的短文本返回作为候选集;E、短文本的主题抽取:首先对步骤D中获得的候选集中的短文本中的词语进行聚类分析,然后选出与步骤C中的查询向量最相近的一组聚类结果作为短文本主题;所述聚类结果的每一类别内的词数至少是原文本总词数的1/5;F、计算短文本的文本向量:把所述短文本主题中的词矢量经归一化处理后进行累加作为该短文本的主题向量,并记录所述主题向量与查询向量的余弦相 似度;G、对传统检索模型返回的短文本进行二次排序,同时考虑语义相似度和传统模型所得分数进行二次排序:将步骤F中记录的主题向量与查询向量的余弦相似度值和传统模型检索得分进行线性插值,得到最终得分并对所述最终得分进行二次排序输出。
地址 116023 辽宁省大连市高新园区凌工路2号