发明名称 一种检测网络水军以及找到网络水军的方法
摘要 本发明公开了一种检测网络水军以及找到网络水军的方法,首先建立蜜罐帐号;通过帐号管理模块对所有蜜罐帐号进行统一筹划,确定蜜罐帐号的发帖和关注策略;从收集的帐号中检测机器人帐号;帐号特征模块对帐号特征向量进行描述,这个向量包括多维;帐号检测模块对收集的帐号,根据帐号特征向量符合机器人帐号特性的多少来检测网络水军;利用检测出来的机器人帐号找到更多的机器人帐号和水军。本发明能够从社交网络中找到更多的机器人帐号或者水军帐号,确定水军军团分布。
申请公布号 CN102571484B 申请公布日期 2014.08.27
申请号 CN201110418586.X 申请日期 2011.12.14
申请人 上海交通大学 发明人 周异;申沛;陈凯;宋利;杨小康
分类号 H04L12/26(2006.01)I;H04L29/08(2006.01)I 主分类号 H04L12/26(2006.01)I
代理机构 上海汉声知识产权代理有限公司 31236 代理人 郭国中
主权项 一种检测网络水军的方法,其特征在于具体包括:第一步,帐号特征模块对帐号特征向量进行描述,这个向量包括多维;第二步,帐号检测模块对收集的帐号,根据帐号特征向量符合机器人帐号特性的多少来检测网络水军;上述步骤中,用R表示机器人特征显著性,帐号的特征描述向量有多个维度,第i个维度有一个权值a[i],被判断满足该维度条件的帐号会获得a[i]的权值加成,即R=R+a[i],当最终权值R>Rmax,则该帐号为机器人帐号;所述帐号检测模块检测网络水军,具体流程如下:1)向量维度1:帐号的关注人数异常;如果关注人数Nforward>FMAX,FMAX=300,则判断满足机器人特征,R=R+a[1],a[1]=5;2)向量维度2:关注人数与粉丝数的比值异常;如果关注人数与粉丝数的比值K>Kmax=5,或者K<Kmin=0.2,则判断满足机器人特征,R=R+a[2],a[2]=3;3)向量维度3:帐号所发原创微博的文字内容为抄袭所得;从帐号微博中选一句话出来进行搜索,把所有搜索出来的原创微博进行一种聚类,每一类中微博发布时间Wtime最小的微博是原创微博,而对于其余微博,如果相似度L>Lmax,则是抄袭微博;获得除本帐号以外所有被认为抄袭了微博的帐号ID,转到1)步,Lmax=90%;如果该帐号微博相似度L>Lmax,则判断满足机器人特征,R=R+a[3],a[3]=4;4)向量维度4:帐号所发图片内容为抄袭所得;通过图像处理技术判断图片中如果否有他人logo或者相互重叠的logo,则判断满足机器人特征,R=R+a[4],a[4]=4;5)向量维度5:帐号转发微博不带评论;不加评论的概率超过P>Pmax=95%,则判断满足机器人特征,R=R+a[5],a[5]=2;6)向量维度6:帐号发广告和垃圾信息;通过语义识别判断出帐号的评论是否为广告,对于有链接的回复获取其网址,打开网址,判断该回复是不是在为这个网站打广告,如果判断成功,则判断满足机器人特征,R=R+a[6],a[6]=10;7)向量维度7:帐号所发评论为抄袭;对被该帐号转发和评论的原微博的所有回复进行分析,首先对回复进行聚类,从而每一类中评论时间Rtime最小的回复认定为原创回复,回复与原创微博的相似度RS>RSmax的认为是抄袭回复,对除本帐号以外的所有RS>RSmax的ID,转到1)步,如果本帐号RS>RSmax=90%,则判断满足机器人特征,R=R+a[7],a[7]=4;8)向量维度8:帐号发帖内容的相似度高;遍历帐号所有微博,使用聚类,如果某一类中微博数量N>Nmax=50,则判断满足机器人特征,R=R+a[8],a[8]=4;9)向量维度9:帐号发帖频率异常;遍历帐号所有微博,获取其发表时间,如果在任何至少1分钟时间内发帖频率F>Fmax=6条/min,则判断满足机器人特征,R=R+a[9],a[9]=3;10)向量维度10:帐号发帖间隔异常;遍历帐号所有微博,获取其发表时间,发帖时间规律性RE>REmax=10,则判断满足机器人特征,R=R+a[10];RE的获取方法为:把所有微博时间做差,然后以秒为单位,若出现连续5以及以上个时间,这一组数字的方差小于1,则RE=RE+1,RE初值为0,a[10]=3;当R>Rmax时,认为该帐号为机器人帐号,即为网络水军,Rmax=10。
地址 200240 上海市闵行区东川路800号