发明名称 基于主题共识覆盖率的网络社区垃圾信息检测与过滤方法
摘要 本发明提供一种基于主题共识覆盖率的网络社区垃圾信息自动检测与过滤方法,属于数据质量的研究范畴,涉及用户行为特征研究、网络信息质量评估、文本内容的特征值提取、文本分类模型的建立与优化等技术领域,主要针对网络社区垃圾信息尚无有效的自动检测与过滤机制的情况,建立了垃圾信息检测模型,根据主贴内容和正常回复内容构建了主题趋同性约束关系,提出了待检测内容的主题共识覆盖率特征值并将其运用到文本分类器,从而实现了网络社区垃圾信息的自动检测与过滤。本方法可广泛应用于网络社区质量管理中的各类内容甄别问题,对无关广告、无效内容甚至恶意言论进行自动判断与清理,在一定程度上提高网络社区信息质量。
申请公布号 CN103092975A 申请公布日期 2013.05.08
申请号 CN201310029853.3 申请日期 2013.01.25
申请人 武汉大学 发明人 李石君;汤小月;余伟;杨莎;刘晶;丁永刚;胡亚慧;王凯
分类号 G06F17/30(2006.01)I;G06F17/27(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 武汉科皓知识产权代理事务所(特殊普通合伙) 42222 代理人 薛玲
主权项 一种基于主题共识覆盖率的网络社区垃圾信息检测与过滤方法,其特征在于,包括以下步骤:步骤1,数据准备:采集两组以上的围绕不同主题进行交流的主贴及相应的回复的文本内容,抽样其中部分组的主贴与回复作为训练集,其余作为待检测集,对训练集中的文本内容进行人工分类,判断回复的文本内容是否与各自的主贴内容相关,不相关的视为无效的垃圾内容,分类的结果作为训练数据集;步骤2,计算词频向量:运用词袋算法,将之前采集到的训练集和待检测集中的各个主贴和全部的回复内容全部以词频向量的形式表示;步骤3,聚合得到主题共识的词频向量:对训练集和待检测集中的各组主贴与回复,聚合各组中所有文本内容对应的词频向量,得到围绕各组内容主题的主题共识的词频向量;步骤4,计算特征值,组合特征向量:计算训练数据集和待检测集中各文本内容的文本特征值,将文本特征值组合起来形成与文本内容相对应的特征向量,文本特征值包括主题共识覆盖率和其他文本特征值,具体包括以下步骤,步骤4.1,计算主题共识覆盖率:以步骤3中聚合得到的主题共识的词频向量为基础,计算各文本内容的主题共识覆盖率;步骤4.2,计算其他文本特征值:其他文本特征值包括文本长度、文本信息熵、文本作者可信度、敏感词汇数量、包含链接数量中的一种或其组合;步骤4.3,组合主题共识覆盖率和各文本内容的其他文本特征值,形成特征向量;步骤5,训练文本分类器:采用以支持向量机模型为基础的文本内容分类器,用训练集中的各文本内容的特征向量作为样本输入,以步骤1中对这些文本内容的分类结果作为标准输出,对支持向量机分类器进行反复训练,直到分类器对训练样本的分类准确率达到95%以上;步骤6,文本分类,检测垃圾内容:对待检测集中的各文本内容进行分类,以待检测文本内容的特征向量作为输入,用步骤5中已调好参数的支持向量机分类器进行分类,判断该段待检测文本内容是否为垃圾信息。
地址 430072 湖北省武汉市武昌区珞珈山武汉大学