主权项 |
一种融合多算法的社交网络垃圾用户检测方法,其特征在于,包括以下步骤:S1:采用网络爬虫的方式采集社交网络用户数据,包过用户个人信息和用户发布的消息内容,并将用户数据存储到数据库中;S2:取出数据库中的用户数据,通过分析用户的行为,计算用户的统计特征,并通过绘制累计分布函数(CDF)曲线并选取对垃圾用户和正常用户均具有高区别度的用户特征组成特征向量V;n个用户的特征向量构成原始数据集D={V<sub>1</sub>,V<sub>2</sub>,…,V<sub>n</sub>};S3:对于原始数据集D,采用机械抽样的方法进行抽样,获得子数据集D<sub>s</sub>;S4:在子数据集D<sub>s</sub>上执行DBSCAN算法进行聚类,得到簇的数目K和初始簇心m<sub>1</sub>,m<sub>2</sub>,…,m<sub>k</sub>,其中k表示簇的标号;S5:利用步骤S4得到的簇的数目K和初始簇心m<sub>1</sub>,m<sub>2</sub>,…,m<sub>k</sub>,对原始数据集D执行K‑Means算法,并通过人工抽样的方法判定每个簇是正常用户簇还是垃圾用户簇,得到聚类结果;S6:利用S5的聚类结果,筛选每个簇边界附近的数据和聚类中心附近的数据作为训练集,并采用SVM分类算法训练分类器;S7:利用S6得到的SVM分类器对社交网络中的用户进行检测,判断待测用户是否为垃圾用户。 |