发明名称 |
一种用户生成内容中欺骗性垃圾意见检测方法 |
摘要 |
本发明公开了一种用户生成内容中欺骗性垃圾意见检测方法,属于信息技术领域。本方法为:1)对设定用户生成内容信息源中的信息进行爬取并生成用户生成内容网页集合,然后对用户生成内容网页进行标注,得到候选欺骗性垃圾意见集合;2)对集合中的样本进行过滤,形成准确欺骗性垃圾意见集合;3)从意见作者、意见内容、内容分布、链接四个纬度对准确欺骗性垃圾意见集合及无标注用户生成内容网页集合样本进行特征提取,生成每一维度的特征向量;4)采用机器学方法建立每一维度的欺骗性垃圾意见检测模型;5)利用所述欺骗性垃圾意见检测模型等对新爬取的用户生成内容网页进行欺骗性垃圾意见检测。本发明大大提高了欺骗性垃圾意见的检测效率。 |
申请公布号 |
CN103176984A |
申请公布日期 |
2013.06.26 |
申请号 |
CN201110430978.8 |
申请日期 |
2011.12.20 |
申请人 |
中国科学院计算机网络信息中心 |
发明人 |
杨风雷;黎建辉 |
分类号 |
G06F17/30(2006.01)I |
主分类号 |
G06F17/30(2006.01)I |
代理机构 |
北京君尚知识产权代理事务所(普通合伙) 11200 |
代理人 |
余长江 |
主权项 |
一种用户生成内容中欺骗性垃圾意见检测方法,其步骤为:1)对设定用户生成内容信息源中的信息进行爬取并生成用户生成内容网页集合,然后对用户生成内容网页进行过滤、标注,得到候选欺骗性垃圾意见集合;2)对候选欺骗性垃圾意见集合中的每一个样本进行过滤,对确定的欺骗性垃圾意见进行标注,得到准确欺骗性垃圾意见集合;3)从意见作者、意见内容、意见内容分布、链接特征四个纬度对所述准确欺骗性垃圾意见集合和无标注的用户生成内容网页集合样本进行特征提取,生成每一维度的特征向量;4)采用机器学习方法基于所述准确欺骗性垃圾意见集合和无标注用户生成内容网页集合建立每一维度的欺骗性垃圾意见检测模型;5)利用所述欺骗性垃圾意见检测模型对新爬取的用户生成内容网页进行欺骗性垃圾意见检测识别。 |
地址 |
100190 北京市海淀区中关村南四街4号 |