发明名称 网络新闻表情分布的自动预测方法
摘要 本发明公开一种网络新闻表情分布的自动预测方法。网络新闻表情分布是指大量网络用户在浏览完一则网络新闻后,对其不同的新闻表情投票形成的新闻表情分布。本发明包括:收集网络新闻数据,包括网络新闻样本以及每个样本的新闻表情用户投票数据,利用收集的数据进行关键词选择并对每一个新闻样本进行特征提取,利用概率标签传播算法来对投票数据分布进行修正;对于一个新的网络新闻样本,利用基于实例的机器学算法来对其进行新闻表情的分布进行自动预测。本发明可以应用在网络新闻的新闻表情分析以及对新的网络新闻样本的新闻表情分布进行预测。
申请公布号 CN101984431A 申请公布日期 2011.03.09
申请号 CN201010534624.3 申请日期 2010.11.03
申请人 中国科学院自动化研究所 发明人 吴偶;胡卫明
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 中科专利商标代理有限责任公司 11021 代理人 梁爱荣
主权项 1.一种网络新闻表情分布的自动预测方法,其特征在于,该方法包括:步骤1:首先计算机收集的网络新闻样本以及每个网络新闻样本的新闻表情投票数据,对每一个网络新闻样本对应的新闻表情投票数据,进行如下归一化处理:设不同新闻表情的个数为K,设收集的网络新闻样本的个数为M,则待处理的第i个网络新闻样本的新闻表情投票数据为(V<sub>1</sub>(i),V<sub>2</sub>(i),…,V<sub>j</sub>(i),…,V<sub>K</sub>(i)),其中i=1,...,M,V<sub>j</sub>(i)为对第i个网络新闻样本的第j个新闻表情进行过投票的用户的个数,则对待处理的第i个网络新闻样本投票的用户总个数为<img file="FSA00000337063900011.GIF" wi="390" he="80" />然后计算机计算(V<sub>1</sub>(i)/N(i),V<sub>2</sub>(i)/N(i),…,V<sub>j</sub>(i)/N(i),…,V<sub>K</sub>(i)/N(i))得到待处理的网络新闻样本的初始新闻表情分布用ED<sub>0</sub>(i)来表示;所有收集的网络新闻样本的新闻表情投票数据进行归一化处理之后,获得初始新闻表情分布集合;步骤2:计算机对收集的网络新闻样本集合以及初始新闻表情分布集合进行关键词选择,利用选择后的关键词对每个网络新闻样本进行特征提取,得到每个网络新闻样本的特征,则由每个网络新闻样本的特征组成网络新闻样本的特征集合,把收集到的网络新闻的样本以及其初始新闻表情分布转化为一个多类别文本集合,利用面向多类别的文本特征选择方法来选择关键词;步骤3:计算机根据每个网络新闻样本的特征,再利用概率标签传播对每个网络新闻样本所对应的初始新闻表情分布进行修正,得到每一个网络新闻样本的修正后的新闻表情分布;步骤4:计算机根据步骤2得到的网络新闻样本的特征集合,以及步骤3中得到的每一个网络新闻样本的修正后的新闻表情分布,构成一个实例集合,利用基于实例的机器学习算法,对未知新闻表情分布的网络新闻样本的新闻表情分布进行预测,得到未知新闻表情分布的网络样本的新闻表情分布。
地址 100080 北京市海淀区中关村东路95号