发明名称 短文本特征空间扩展方法
摘要 本发明公开了一种短文本特征空间扩展方法,包括如下步骤:(1)选取短文本特征空间的扩展来源;(2)对扩展来源的文本数据进行文本预处理,获取作为训练集的文档—词矩阵;(3)在训练集的文档—词矩阵上建立浅层狄利赫雷分配主题模型;(4)将每条短文本表示成词向量;(5)将短文本的词向量作为浅层狄利赫雷分配主题模型的输入,输出得到与短文本相关的隐含主题概率分布;(6)将隐含主题的主题表示成主题向量;(7)将主题向量和词向量组合在一起,形成具有扩展特征空间的短文本。本发明将得到的隐含主题确定的主题向量与短文本确定的词向量组合在一起,因此短文本的特征空间得到扩展,能有效地提高短文本信息处理的质量。
申请公布号 CN101770454A 申请公布日期 2010.07.07
申请号 CN201010118594.8 申请日期 2010.02.13
申请人 武汉理工大学 发明人 李琳;钟珞;胡燕;刘东飞
分类号 G06F17/27(2006.01)I;G06F17/30(2006.01)I 主分类号 G06F17/27(2006.01)I
代理机构 武汉开元知识产权代理有限公司 42104 代理人 潘杰
主权项 一种短文本特征空间扩展方法,包括如下步骤:(1)选取短文本特征空间的扩展来源;(2)对所述扩展来源的文本数据进行文本预处理,获取作为训练集的文档—词矩阵;(3)在训练集的文档—词矩阵上建立浅层狄利赫雷分配主题模型;(4)将每条短文本表示成词向量;(5)将短文本的词向量作为浅层狄利赫雷分配主题模型的输入,输出得到与短文本相关的隐含主题概率分布;(6)将所述隐含主题的主题表示成主题向量;(7)将所述主题向量和所述词向量组合在一起,形成具有扩展特征空间的短文本。
地址 430070 湖北省武汉市武昌珞狮路122号