发明名称 |
一种基于词向量分析的网络文章所属事件的检测方法和装置 |
摘要 |
本发明实施例提供了一种基于词向量分析的网络文章所属事件的检测方法和装置。该方法主要包括:建立典型训练集;对典型训练集中的每一条网络文章样本进行分词,去无用词预处理,得到规范化的网络文章样本文本;将每一条规范化的网络文章样本文本分别用word2vec算法和LDA算法提取特征,得到每一条网络文章样本文对应的多维词向量;将每一条网络文章样本文本对应的多维词向量和事件标签输入到随机森林算法,该随机森林算法输出事件的分类模型,利用所述事件的分类模型对待识别的网络文章文本进行识别,判断出所述待识别的网络文章文本所属的事件。本发明实施例充分利用了网络文本样本的信息,提高了网络文本样本所属事件分类的准确度。 |
申请公布号 |
CN105975478A |
申请公布日期 |
2016.09.28 |
申请号 |
CN201610218382.4 |
申请日期 |
2016.04.09 |
申请人 |
北京交通大学;中国移动通信集团设计院有限公司 |
发明人 |
郎丛妍;于兆鹏;何伟明;王涛;冯松鹤;杜雪涛;杜刚;张晨 |
分类号 |
G06F17/30(2006.01)I;G06F17/27(2006.01)I |
主分类号 |
G06F17/30(2006.01)I |
代理机构 |
北京红福盈知识产权代理事务所(普通合伙) 11525 |
代理人 |
陈月福 |
主权项 |
一种基于词向量分析的网络文章所属事件的检测方法,其特征在于,包括:利用具有事件标签的网络文章样本建立典型训练集;对所述典型训练集中的每一条网络文章样本进行分词,去无用词预处理,得到规范化的网络文章样本文本;将每一条规范化的网络文章样本文本分别用word2vec算法和LDA算法提取特征,将提取出的网络文章样本文本的word2vec特征和LDA特征进行融合,得到每一条网络文章样本文对应的多维词向量;将每一条网络文章样本文本对应的多维词向量和事件标签输入到随机森林算法,该随机森林算法输出事件的分类模型,利用所述事件的分类模型对待识别的网络文章文本进行识别,判断出所述待识别的网络文章文本所属的事件。 |
地址 |
100044 北京市海淀区北京交通大学计算机与信息技术学院九号教学楼北525 |