一种基于机器学的社交网络垃圾用户过滤方法,申请号CN201410332643.6-传众专利搜索

发明名称	一种基于机器学的社交网络垃圾用户过滤方法
摘要	本发明涉及一种基于机器学的社交网络垃圾用户过滤方法，包括以下步骤：1、针对一社交网络，定义需要从社交网络的社交用户中提取的特征向量，构建一垃圾消息过滤规则集；2、从社交网络中取一定数量的社交用户作为训练样本，然后对各训练样本发布的社交消息进行特征提取，得到各训练样本的特征向量中除平均垃圾关键字得分之外的所有元素；3、根据垃圾消息过滤规则集，计算各训练样本的平均垃圾关键字得分，得到各训练样本完整的特征向量；4、将各训练样本的特征向量，输入支持向量机进行训练，得到垃圾用户过滤模型；5、利用垃圾用户过滤模型对待测用户进行检测，判断待测用户是否为垃圾用户。该方法有利于准确提取、过滤社交网络中的垃圾用户。
申请公布号	CN104090961A	申请公布日期	2014.10.08
申请号	CN201410332643.6	申请日期	2014.07.14
申请人	福州大学	发明人	郑相涵;陈国龙;曾志鹏
分类号	G06F17/30(2006.01)I	主分类号	G06F17/30(2006.01)I
代理机构	福州元创专利商标代理有限公司 35100	代理人	蔡学俊
主权项	一种基于机器学习的社交网络垃圾用户过滤方法，其特征在于，包括以下步骤：步骤S1：针对一社交网络，定义需要从所述社交网络的社交用户中提取的特征向量，构建一垃圾消息过滤规则集；所述垃圾消息过滤规则集中定义有多个垃圾关键字，各垃圾关键字对应有一分值，从而可根据社交消息中出现垃圾关键字的个数、频次，计算社交消息的垃圾关键字得分；步骤S2：从所述社交网络中取一定数量的社交用户作为训练样本，所述社交用户包括正常用户和垃圾用户，然后通过信息增益算法对各训练样本发布的社交消息进行特征提取，得到各训练样本的特征向量中除平均垃圾关键字得分之外的所有元素；步骤S3：根据垃圾消息过滤规则集，计算各训练样本发布的所有社交消息的垃圾关键字得分，进而求得各训练样本的平均垃圾关键字得分，得到各训练样本完整的特征向量；步骤S4：将步骤S3得到的各训练样本的特征向量，输入支持向量机进行训练，得到垃圾用户过滤模型；步骤S5：利用所述垃圾用户过滤模型对待测用户进行检测，判断待测用户是否为垃圾用户。
地址	350108 福建省福州市闽侯县上街镇大学城学园路2号福州大学新区