发明名称 一种网络水军的探测与判定方法
摘要 本发明公开了一种网络水军的探测与判定方法,包括用户行为采集,用户行为统计和网络水军分类器训练三个模块,其流程为:用户行为采集——用户行为统计——网络水军预测——网络水军判定。本发明通过获取用户行为样本后对用户行为进行统计,再使用机器学的方法建立预测模型,最后对网络水军进行预测。本发明作为基于用户行为进行网络水军探测的方法,弥补了目前主流技术的不足,能绕过倾向性识别问题,从而解决了无明显倾向的水军探测和识别问题;同时,该方法不要求发表同一作者发表大量同主题的帖子,解决了群体网络水军探测的问题。另外,本发明也使得网络水军探测具有清晰的组织结构,便于后续的网络水军行为特征的扩充。
申请公布号 CN102629904A 申请公布日期 2012.08.08
申请号 CN201210050176.9 申请日期 2012.02.24
申请人 安徽博约信息科技有限责任公司 发明人 张炜;郑中华;高威;帅志虎;周银行
分类号 H04L12/24(2006.01)I;H04L12/26(2006.01)I 主分类号 H04L12/24(2006.01)I
代理机构 代理人
主权项 一种网络水军的探测与判定方法,其特征在于,包括用户行为采集,用户行为统计和网络水军分类器训练三个模块,具体步骤如下:一、用户行为采集主要是通过网站日志或网页源码解析并获取用户的行为数据,具体获取过程是如下(1)至(4)的4个步骤:(1)先确定要抽取的用户行为信息,编写配置文件,在配置文件中标识这些关键信息的位置;(2)编写针对配置文件的解析程序;(3)获取到网页源码或网站日志后,基于配置文件中的位置信息进行信息提取;(4)将采集的用户行为信息发送给用户行为统计模块;二、用户行为统计需要对周期性的对用户的行为进行统计,按照不同的周期,输出不同的行为统计值,主要为如下(5)至(7)的3个步骤:(5)根据预先确定的统计时间间隔划分为若干个区间,并将每个统计区间的统计属性初始值置零;(6)获取到用户行为后,获取该行为发生的时间,确定该属性的统计区间,并将该区间的响应统计属性值增1;(7)输出每个统计区间相应的属性值;三、网络水军分类器的训练由通过离线方式完成,先通过样本标注,再经过特征选择或分类算法构建,可以最终用于在线的对网络水军进行判定,包括如下(8)至(12)的5个步骤:(8)先通过用户行为采集模块获得用户上网行为样本;(9)由专家对这些用户进行标注,给出其是否为网络水军的判定;(10)使用抽取程序抽取出这些样本的特征,使用信息增益的方法进行特征选择;(11)使用机器学习方法,如支持向量机(SVM),对步骤(8)中所述的用户上网行为样本进行训练后,生成预测模型;(12)收集新用户的上网行为,使用所述的预测模型对其预测,判定其是否为网络水军。
地址 230000 安徽省合肥市高新区黄山路602号大学科技园C2008室