发明名称 |
一种基于单词语义相似度的短文本主题建模方法 |
摘要 |
本发明公开了一种基于单词语义相似度的短文本主题建模方法,根据外部提供的单词语义相似度,构建短文本集中单词的相似词集;确定建模采用的主题数;随机分配各个短文本的主题;通过吉布斯采样过程迭代地确定各个短文本的主题和单词在主题下的分布;根据上述变量的最终分配结果向用户反馈各个主题下的单词分布与各个短文本所关联的主题。本发明很好地解决了短文本上信息量稀疏,语义表达不明确的问题。根据本发明所提供的模型结果,可以很好地将短文本表示为主题向量,作为短文的最终特征向量,这种主题向量式的表达具有良好的语义解释性,可作为多种应用的算法基础。本发明可以广泛应用到各种短文本数据之上,具有广泛的实际意义和商业价值。 |
申请公布号 |
CN105955948A |
申请公布日期 |
2016.09.21 |
申请号 |
CN201610254533.1 |
申请日期 |
2016.04.22 |
申请人 |
武汉大学 |
发明人 |
李晨亮;王浩然;张芷芊;孙爱欣 |
分类号 |
G06F17/27(2006.01)I |
主分类号 |
G06F17/27(2006.01)I |
代理机构 |
武汉科皓知识产权代理事务所(特殊普通合伙) 42222 |
代理人 |
魏波 |
主权项 |
一种基于单词语义相似度的短文本主题建模方法,其特征在于,包括以下步骤:步骤1:计算单词两两之间的语义相似度;步骤2:根据单词间的相似度,构建短文本集中单词的相似词集;步骤3:针对需要处理的短文本数据集,训练得出该短文本数据集的主题模型,确定出各个短文本的主题和单词在主题下的分布;步骤4:根据步骤3中获得的结果向用户反馈各个主题下的单词分布与各个短文本所关联的主题。 |
地址 |
430072 湖北省武汉市武昌区珞珈山武汉大学 |