发明名称 |
一种自动识别文本所承载的情感概率的方法及系统 |
摘要 |
本发明公开了一种自动识别文本所承载的情感概率的方法及系统,该方法包括:获取多个文本以组成训练文本集,每个该文本包括多个情感元以及用户针对该情感元的投票数据;对该多个文本进行预处理,以提取在该多个文本中出现过的所有特征词、每个特征词在各个文本中的出现概率、所有该情感元、及每个该情感元在每个文本中的得票率;根据该出现概率以及该得票率,计算该训练文本集中每个该特征词对应每个该情感元的条件概率,并组成情感词典;针对一待识别文本,提取该待识别文本中出现的所有特征词并计算每个该特征词在该待识别文本中的出现概率,利用该条件概率以及每个该特征词在该待识别文本中的出现概率,计算该待识别文本对应每个情感元的概率。 |
申请公布号 |
CN104063399A |
申请公布日期 |
2014.09.24 |
申请号 |
CN201310094618.4 |
申请日期 |
2013.03.22 |
申请人 |
杭州金弩信息技术有限公司 |
发明人 |
李青;权小军;饶洋辉;刘文印 |
分类号 |
G06F17/30(2006.01)I |
主分类号 |
G06F17/30(2006.01)I |
代理机构 |
北京律诚同业知识产权代理有限公司 11006 |
代理人 |
梁挥;田景宜 |
主权项 |
一种自动识别文本所承载的情感概率的方法,其特征在于,包括:步骤1,获取多个文本以组成训练文本集,每个该文本包括多个情感元以及用户针对该文本对该情感元的投票数据;步骤2,对该多个文本进行预处理,以提取在该多个文本中出现过的所有特征词、每个特征词在各个文本中的出现概率、所有该情感元以及每个该情感元在每个文本中的得票率;步骤3,根据该出现概率以及该得票率,计算该训练文本集中每个该特征词对应每个该情感元的条件概率,并组成情感词典;步骤4,针对一待识别文本,提取该待识别文本中出现的所有特征词并计算每个该特征词在该待识别文本中的出现概率,利用该条件概率以及每个该特征词在该待识别文本中的出现概率,计算该待识别文本对应每个情感元的概率。 |
地址 |
311100 浙江省杭州市余杭区荆长路672-1号人才公寓7-1-602室 |