发明名称 基于最大频繁项集挖掘的微博炒作群体发现方法
摘要 本发明涉及基于最大频繁项集挖掘的微博炒作群体发现方法,有效解决微博炒作群体的发现,防止虚假恶意炒作的问题,方法是,以炒作微博的相关性为线索,基于爬虫技术或微博公共开放平台获取参与炒作微博传播的账户集合;以单个微博为事务,参与微博传播的账户为项,构建炒作微博事务数据库;对待检测微博组所对应的事务数据库中的每个事务,找出所有事务中包含的最大频繁项集,计算每个最大频繁项集间的重叠率,将规模小的项集归并到大项集中,减少交集次数,事务间取交集时,用二分查找法判断事务中是否包含某项目,提高挖掘最大频繁项集的效率,发现微博炒作群体,本发明方法简单,能准确发现恶意微博炒作群体,防止给社会造成的不良影响。
申请公布号 CN103927398B 申请公布日期 2016.12.28
申请号 CN201410188004.7 申请日期 2014.05.07
申请人 中国人民解放军信息工程大学 发明人 刘琰;张进;罗军勇;罗向阳;董雨辰;陈静;常斌
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 郑州天阳专利事务所(普通合伙) 41113 代理人 聂孟民
主权项 一种基于最大频繁项集挖掘的微博炒作群体发现方法,其特征在于,包括如下步骤:(1)炒作微博样本搜集:以炒作微博的相关性为线索,基于爬虫技术或微博公共开放平台获取参与炒作微博传播的账户集合;(2)事务数据库构建:以单个微博为事务,参与微博传播的账户为项,构建炒作微博事务数据库;(3)最大频繁项集挖掘:对待检测微博组所对应的事务数据库中的每个事务,利用迭代交集法找出所有事务中包含的最大频繁项集,得到若干最大频繁项集集合;由于炒作微博事务库中每个事务包含的项目大都数以万计,直接在原始事务数据库中挖掘最大频繁项集将会影响算法执行的效率,利用二分查找法,快速剔除事务中的非频繁项目,找出最大频繁项集的候选集合,缩减事务数据库规模;(4)最大频繁项集归并:对每个最大频繁项集,计算项集间的重叠率,对最大频繁项集进行合并,将规模较小的项集归并到较大项集中,并保证归并后项集中的账户依然具有一定的关联性;通过缩减事务数据库规模,减少交集次数,事务间取交集时,采用二分查找法判断事务中是否包含某项目,以提高挖掘最大频繁项集的效率,从而发现微博炒作群体。
地址 450052 河南省郑州市陇海中路66号