一种行业评论数据细粒度情感分析方法,申请号CN201410486635.7-传众专利搜索

发明名称	一种行业评论数据细粒度情感分析方法
摘要	本发明是一种行业评论数据细粒度情感分析方法，用于互联网数据分析。本方法是：获取电商行业商品的评论数据；对评论数据进行预处理；建立初始的行业情感词库，利用1-gram和2-gram分别计算词在不同情感极性下的分布；对评论数据进行中文分词；分别基于1-gram、2-gram构建的情感词库，使用联合情绪模型对词进行建模，获取词在不同情感分布下，属于不同主题的概率分布；利用上下文信息重新确定句子中情感词的情感倾向值；利用条件随机场进行命名实体识别，抽取评论特征，计算评论特征评价词的情感倾向值。本发明通过主题、情感两个维度计算评论词的情感，实现行业评论数据的细粒度情感分析，分析结果精度高且更加可解释。
申请公布号	CN104268197A	申请公布日期	2015.01.07
申请号	CN201410486635.7	申请日期	2014.09.22
申请人	中科嘉速(北京)并行软件有限公司	发明人	邓攀;袁伟;余雷;闫碧莹;赵鑫;万安格
分类号	G06F17/30(2006.01)I;G06F17/27(2006.01)I	主分类号	G06F17/30(2006.01)I
代理机构	北京永创新实专利事务所 11121	代理人	祗志洁
主权项	一种行业评论数据细粒度情感分析方法，其特征在于，包括如下步骤：步骤1：获取电商行业商品的评论数据；步骤2：对评论数据进行预处理，包括：根据评论数据长度进行清洗，去除垃圾广告，去除评论数据中的网址，去除自动评论数据；将预处理后的评论数据用于下面步骤；步骤3：建立初始的行业情感词库，获得1‑gram构建的情感词库和2‑gram构建的情感词库；步骤4：对评论数据进行中文分词，去除停用词，获取词集合；步骤5：为词集合中的所有词建立和对应文档的索引，分别基于1‑gram构建的情感词库和2‑gram构建的情感词库，使用联合情绪模型对词进行建模，获取词在不同情感分布下，属于不同主题的概率分布；其中使用联合情绪模型对词进行建模具体是：对于每一个文档d，选择一个分布π<sub>d</sub>，π<sub>d</sub>定义为Dir(γ))；对于文档d下的每一个情感标记la，选择一个分布θ<sub>d,la</sub>，θ<sub>d,la</sub>定义为Dir(α)；对于文档d中的每一个词w<sub>i</sub>，选择一个情感标记la<sub>i</sub>和主题z<sub>i</sub>，la<sub>i</sub>定义为π<sub>d</sub>，z<sub>i</sub>定义为θ<sub>d,la</sub>；从主题z<sub>i</sub>和情感标记la<sub>i</sub>所定义的词分布里面选择一个词w<sub>i</sub>定义为<img file="FDA0000574669140000011.GIF" wi="101" he="83" />其中，超参数α、β和γ使用吉布斯抽样方法得到；步骤6：利用上下文信息重新确定句子中出现的情感词的情感倾向值；步骤7：利用条件随机场进行命名实体识别，抽取评论特征，对评论特征中的评价词进行统计，计算评价词的情感倾向值。
地址	100190 北京市海淀区中关村南四街4号