主权项 |
1.一种网络新闻表情分布的自动预测方法,其特征在于,该方法包括:步骤1:首先计算机收集的网络新闻样本以及每个网络新闻样本的新闻表情投票数据,对每一个网络新闻样本对应的新闻表情投票数据,进行如下归一化处理:设不同新闻表情的个数为K,设收集的网络新闻样本的个数为M,则待处理的第i个网络新闻样本的新闻表情投票数据为(V<sub>1</sub>(i),V<sub>2</sub>(i),…,V<sub>j</sub>(i),…,V<sub>K</sub>(i)),其中i=1,...,M,V<sub>j</sub>(i)为对第i个网络新闻样本的第j个新闻表情进行过投票的用户的个数,则对待处理的第i个网络新闻样本投票的用户总个数为<img file="FSA00000337063900011.GIF" wi="390" he="80" />然后计算机计算(V<sub>1</sub>(i)/N(i),V<sub>2</sub>(i)/N(i),…,V<sub>j</sub>(i)/N(i),…,V<sub>K</sub>(i)/N(i))得到待处理的网络新闻样本的初始新闻表情分布用ED<sub>0</sub>(i)来表示;所有收集的网络新闻样本的新闻表情投票数据进行归一化处理之后,获得初始新闻表情分布集合;步骤2:计算机对收集的网络新闻样本集合以及初始新闻表情分布集合进行关键词选择,利用选择后的关键词对每个网络新闻样本进行特征提取,得到每个网络新闻样本的特征,则由每个网络新闻样本的特征组成网络新闻样本的特征集合,把收集到的网络新闻的样本以及其初始新闻表情分布转化为一个多类别文本集合,利用面向多类别的文本特征选择方法来选择关键词;步骤3:计算机根据每个网络新闻样本的特征,再利用概率标签传播对每个网络新闻样本所对应的初始新闻表情分布进行修正,得到每一个网络新闻样本的修正后的新闻表情分布;步骤4:计算机根据步骤2得到的网络新闻样本的特征集合,以及步骤3中得到的每一个网络新闻样本的修正后的新闻表情分布,构成一个实例集合,利用基于实例的机器学习算法,对未知新闻表情分布的网络新闻样本的新闻表情分布进行预测,得到未知新闻表情分布的网络样本的新闻表情分布。 |