发明名称 一种在微博平台中捕获水军的方法
摘要 本发明提供了一种在微博平台中捕获水军的方法,包括如下步骤:第一步,通过新微博热门话题或者名人微博的转发列表,辅以人工判断,获得初始水军样本S;第二步,获取所有样本水军的粉丝列表L,按照预先设定的阈值,过滤得到和样本中多个水军关系密切的用户列表L’;第三步,获取这些用户的微博发布特征信息;第四步,利用第三步获得的信息,逐个判断用户是否具有水军的特点;第五步,将新得到的水军加入到样本中,之后选择重复步骤二到步骤四的迭代过程。
申请公布号 CN103095499B 申请公布日期 2016.05.04
申请号 CN201310017802.9 申请日期 2013.01.17
申请人 上海交通大学 发明人 陈凯;周曲;周异;林成峰
分类号 H04L12/24(2006.01)I;H04L12/26(2006.01)I 主分类号 H04L12/24(2006.01)I
代理机构 上海汉声知识产权代理有限公司 31236 代理人 郭国中
主权项 一种在微博平台中捕获水军的方法,其特征在于包括如下步骤:第一步,通过新微博热门话题或者名人微博的转发列表,获取嫌疑用户,选取三个特征值的阈值即参与率的阈值M<sub>a</sub>、平均重复度的阈值M<sub>b</sub>、转发重复度峰值的阈值M<sub>r</sub>,利用该阈值过滤嫌疑用户,并且通过人工观察用户是否具有水军的行为特征,获得初始水军样本S;阈值M<sub>a</sub>、M<sub>b</sub>、M<sub>r</sub>含义分别为:对于确定的微博列表,单个用户参与转发的微博数量占总微博数量的比例,即参与率阈值M<sub>a</sub>;用户的总转发次数和用户参与的微博数量的比例,即平均重复度阈值M<sub>b</sub>;用户重复转发单条微博的次数的最大值,即转发重复度峰值阈值M<sub>r</sub>;第二步,获取所有样本水军的粉丝列表L,按照预先设定的阈值M<sub>c</sub>过滤得到和样本中多个水军关系密切的用户列表L’,其中M<sub>c</sub>即密切度阈值M<sub>c</sub>,有两种取法:单个用户关注的水军数量或单个用户关注的水军数量占水军样本总数的比例;第三步,获取用户列表L’中用户的微博发布特征信息,包括用户的所有微博中转发的微博的数量C<sub>r</sub>和用户转发的源微博C<sub>s</sub>的数量;第四步,利用第三步获得的信息,计算用户的平均重复特征值即平均每条微博重复转发的次数和重复转发次数的峰值,然后利用第一步设定的平均重复度的阈值M<sub>b</sub>和转发重复度峰值的阈值M<sub>r</sub>进行过滤,将两个特征值都超过阈值的用户判定为水军;第五步,将新得到的水军加入到样本中,之后选择重复步骤二到步骤四的迭代过程。
地址 200240 上海市闵行区东川路800号