主权项 |
一种行业评论数据细粒度情感分析方法,其特征在于,包括如下步骤:步骤1:获取电商行业商品的评论数据;步骤2:对评论数据进行预处理,包括:根据评论数据长度进行清洗,去除垃圾广告,去除评论数据中的网址,去除自动评论数据;将预处理后的评论数据用于下面步骤;步骤3:建立初始的行业情感词库,获得1‑gram构建的情感词库和2‑gram构建的情感词库;步骤4:对评论数据进行中文分词,去除停用词,获取词集合;步骤5:为词集合中的所有词建立和对应文档的索引,分别基于1‑gram构建的情感词库和2‑gram构建的情感词库,使用联合情绪模型对词进行建模,获取词在不同情感分布下,属于不同主题的概率分布;其中使用联合情绪模型对词进行建模具体是:对于每一个文档d,选择一个分布π<sub>d</sub>,π<sub>d</sub>定义为Dir(γ));对于文档d下的每一个情感标记la,选择一个分布θ<sub>d,la</sub>,θ<sub>d,la</sub>定义为Dir(α);对于文档d中的每一个词w<sub>i</sub>,选择一个情感标记la<sub>i</sub>和主题z<sub>i</sub>,la<sub>i</sub>定义为π<sub>d</sub>,z<sub>i</sub>定义为θ<sub>d,la</sub>;从主题z<sub>i</sub>和情感标记la<sub>i</sub>所定义的词分布里面选择一个词w<sub>i</sub>定义为<img file="FDA0000574669140000011.GIF" wi="101" he="83" />其中,超参数α、β和γ使用吉布斯抽样方法得到;步骤6:利用上下文信息重新确定句子中出现的情感词的情感倾向值;步骤7:利用条件随机场进行命名实体识别,抽取评论特征,对评论特征中的评价词进行统计,计算评价词的情感倾向值。 |