发明名称 一种融合多算法的社交网络垃圾用户检测方法
摘要 本发明公开了一种融合多算法的社交网络垃圾用户检测方法,利用网络爬虫的方式从社交网络中爬取用户数据,通过分析用户的行为提取相应特征构成特征向量;接着使用K‑均值(K‑Means)和DBSCAN结合的聚类算法对社交网络中的用户进行聚类;从上一步的聚类结果中挑选簇边界附近的数据和聚类中心附近的数据训练支持向量机(SVM)分类器,得到分类器模型;最后采用训练得到的SVM分类器模型对社交网络中的垃圾用户进行检测。本发明降低了人工标注数据的成本、提高了检测的准确率,并且易于实现。
申请公布号 CN106296422A 申请公布日期 2017.01.04
申请号 CN201610615016.2 申请日期 2016.07.29
申请人 重庆邮电大学 发明人 徐光侠;齐锦;赵竞腾;刘宴兵;常光辉;高郭威;宋洋洋;唐志京;吴新凯
分类号 G06Q50/00(2012.01)I;G06F17/30(2006.01)I;G06K9/62(2006.01)I 主分类号 G06Q50/00(2012.01)I
代理机构 重庆市恒信知识产权代理有限公司 50102 代理人 刘小红;李金蓉
主权项 一种融合多算法的社交网络垃圾用户检测方法,其特征在于,包括以下步骤:S1:采用网络爬虫的方式采集社交网络用户数据,包过用户个人信息和用户发布的消息内容,并将用户数据存储到数据库中;S2:取出数据库中的用户数据,通过分析用户的行为,计算用户的统计特征,并通过绘制累计分布函数(CDF)曲线并选取对垃圾用户和正常用户均具有高区别度的用户特征组成特征向量V;n个用户的特征向量构成原始数据集D={V<sub>1</sub>,V<sub>2</sub>,…,V<sub>n</sub>};S3:对于原始数据集D,采用机械抽样的方法进行抽样,获得子数据集D<sub>s</sub>;S4:在子数据集D<sub>s</sub>上执行DBSCAN算法进行聚类,得到簇的数目K和初始簇心m<sub>1</sub>,m<sub>2</sub>,…,m<sub>k</sub>,其中k表示簇的标号;S5:利用步骤S4得到的簇的数目K和初始簇心m<sub>1</sub>,m<sub>2</sub>,…,m<sub>k</sub>,对原始数据集D执行K‑Means算法,并通过人工抽样的方法判定每个簇是正常用户簇还是垃圾用户簇,得到聚类结果;S6:利用S5的聚类结果,筛选每个簇边界附近的数据和聚类中心附近的数据作为训练集,并采用SVM分类算法训练分类器;S7:利用S6得到的SVM分类器对社交网络中的用户进行检测,判断待测用户是否为垃圾用户。
地址 400065 重庆市南岸区黄桷垭崇文路2号