发明名称 一种行业评论数据细粒度情感分析方法
摘要 本发明是一种行业评论数据细粒度情感分析方法,用于互联网数据分析。本方法是:获取电商行业商品的评论数据;对评论数据进行预处理;建立初始的行业情感词库,利用1-gram和2-gram分别计算词在不同情感极性下的分布;对评论数据进行中文分词;分别基于1-gram、2-gram构建的情感词库,使用联合情绪模型对词进行建模,获取词在不同情感分布下,属于不同主题的概率分布;利用上下文信息重新确定句子中情感词的情感倾向值;利用条件随机场进行命名实体识别,抽取评论特征,计算评论特征评价词的情感倾向值。本发明通过主题、情感两个维度计算评论词的情感,实现行业评论数据的细粒度情感分析,分析结果精度高且更加可解释。
申请公布号 CN104268197A 申请公布日期 2015.01.07
申请号 CN201410486635.7 申请日期 2014.09.22
申请人 中科嘉速(北京)并行软件有限公司 发明人 邓攀;袁伟;余雷;闫碧莹;赵鑫;万安格
分类号 G06F17/30(2006.01)I;G06F17/27(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 北京永创新实专利事务所 11121 代理人 祗志洁
主权项 一种行业评论数据细粒度情感分析方法,其特征在于,包括如下步骤:步骤1:获取电商行业商品的评论数据;步骤2:对评论数据进行预处理,包括:根据评论数据长度进行清洗,去除垃圾广告,去除评论数据中的网址,去除自动评论数据;将预处理后的评论数据用于下面步骤;步骤3:建立初始的行业情感词库,获得1‑gram构建的情感词库和2‑gram构建的情感词库;步骤4:对评论数据进行中文分词,去除停用词,获取词集合;步骤5:为词集合中的所有词建立和对应文档的索引,分别基于1‑gram构建的情感词库和2‑gram构建的情感词库,使用联合情绪模型对词进行建模,获取词在不同情感分布下,属于不同主题的概率分布;其中使用联合情绪模型对词进行建模具体是:对于每一个文档d,选择一个分布π<sub>d</sub>,π<sub>d</sub>定义为Dir(γ));对于文档d下的每一个情感标记la,选择一个分布θ<sub>d,la</sub>,θ<sub>d,la</sub>定义为Dir(α);对于文档d中的每一个词w<sub>i</sub>,选择一个情感标记la<sub>i</sub>和主题z<sub>i</sub>,la<sub>i</sub>定义为π<sub>d</sub>,z<sub>i</sub>定义为θ<sub>d,la</sub>;从主题z<sub>i</sub>和情感标记la<sub>i</sub>所定义的词分布里面选择一个词w<sub>i</sub>定义为<img file="FDA0000574669140000011.GIF" wi="101" he="83" />其中,超参数α、β和γ使用吉布斯抽样方法得到;步骤6:利用上下文信息重新确定句子中出现的情感词的情感倾向值;步骤7:利用条件随机场进行命名实体识别,抽取评论特征,对评论特征中的评价词进行统计,计算评价词的情感倾向值。
地址 100190 北京市海淀区中关村南四街4号