发明名称 一种基于点互信息的微博表情符号情感计算方法
摘要 本发明公开了一种基于点互信息的微博表情符号的情感计算方法。步骤如下:(1)爬取大规模新浪微博并进行过滤,只保留同时包含表情符号和情感词的微博;(2)对微博进行预处理,对前接否定词、程度词的情感词进行组合操作并计算其情感值;(3)对预处理后的微博抽取 “表情符号‑情感词”共现对并组成共现对集合;(4)计算表情符号在“表情符号‑情感词”共现对集合中与每个共现情感词的点互信息;(5)计算每个表情符号的初始情感值;(6)对表情符号的初始情感值进行标准化处理。该方法利用共现情感词与表情符号的点互信息来计算并标准化表情符号的情感值,其方法简单直观,结果准确。
申请公布号 CN106503220A 申请公布日期 2017.03.15
申请号 CN201610961250.0 申请日期 2016.10.28
申请人 上海大学 发明人 陈雪;郭峻材
分类号 G06F17/30(2006.01)I;G06Q50/00(2012.01)I 主分类号 G06F17/30(2006.01)I
代理机构 上海上大专利事务所(普通合伙) 31205 代理人 陆聪明
主权项 一种基于点互信息的微博表情符号情感计算方法,其特征在于:以大规模微博数据为基本语料库,以微博中的情感词为基础,认为情感词对其共现的表情符号的情感值具有一定的影响力,并充分利用共现情感词与表情符号的点互信息来决定其影响力,进而计算并标准化表情符号的情感值;其具体步骤如下:1)爬取大规模微博数据并进行过滤,只保留同时包含表情符号和情感词的微博;2)对每篇微博进行分词、停用词过滤的预操作,并对前接否定词、程度词的情感词进行组合操作并计算其情感值;3)对预处理后的微博数据,抽取出“表情符号‑情感词”共现对并组成共现对集合;4)对于每个表情符号,计算它在“表情符号‑情感词”共现对集合中与每个共现情感词的点互信息;5)利用表情符号与共现情感词的点互信息以及情感词的情感值,计算每个表情符号的初始情感值;6)对所有表情符号的初始情感值进行标准化处理,使其归一化到[‑1,1]区间。
地址 200444 上海市宝山区上大路99号