发明名称 |
一种中文虚假顾客评论识别方法 |
摘要 |
本发明涉及一种中文虚假顾客评论识别方法,包括如下步骤:a)评论数据逐条读入;b)将评论进行分词,得到语句的词性序列、语法成分与结构特征;c)至少分为以下二部分对一条评论同时进行特征提取:词数分布离群度特征提取、情感分布离群度特征提取;根据提取的结果,将离群度值超过设定阈值的评论标记为虚假评论。本发明具有以下优势:添加了顾客评论内容的情感分析,很好地识别了无效评论和不相关评论,并计算了评论的情感离群度,提高了中文虚假评论的识别率。 |
申请公布号 |
CN104866468A |
申请公布日期 |
2015.08.26 |
申请号 |
CN201510164626.0 |
申请日期 |
2015.04.08 |
申请人 |
清华大学深圳研究生院;深圳市标准技术研究院 |
发明人 |
李秀;闫欣伟;杜佳;陈胜 |
分类号 |
G06F17/27(2006.01)I;G06F17/30(2006.01)I |
主分类号 |
G06F17/27(2006.01)I |
代理机构 |
深圳新创友知识产权代理有限公司 44223 |
代理人 |
江耀纯 |
主权项 |
一种中文虚假顾客评论识别方法,包括如下步骤:a)评论数据逐条读入;b)将评论进行分词,得到语句的词性序列、语法成分与结构特征;c)至少分为以下二部分对一条评论同时进行特征提取:词数分布离群度特征提取、情感分布离群度特征提取;根据提取的结果,将离群度值超过设定阈值的评论标记为虚假评论。 |
地址 |
518055 广东省深圳市南山区西丽大学城清华校区 |