主权项 |
一种用于UGC网站平台的多账户检测方法,其特征在于,包括下列步骤:步骤1:从UGC网站平台的本地数据库中确定用户账户集D,并对所述用户账户集D中的每个用户账号,分别提取各用户账号生成的四个以上文本内容;步骤2:对用户账户集D中的每个用户账号的各个文本内容进行特征提取,生成对应的特征向量样本点;步骤3:分别计算用户账户集D中的每个用户账号D<sub>i</sub>的自关联相似度和互关联相似度:步骤301:用户账号D<sub>i</sub>的自关联相似度:每选取K个特征向量样本点组成用户账号D<sub>i</sub>的一个数据点,所述K的取值为[1,10];对每个用户账号D<sub>i</sub>,选取两组不同数据点组成集合N1<sub>i</sub>和N2<sub>i</sub>,两个集合所包含的数据点个数均为M个,所述M大于或等于2;以数据点集合N1<sub>i</sub>作为训练集训练单类分类器,将数据点集合N2<sub>i</sub>作为测试集,记录当前单类分类器输出的准确率为S<sub>i</sub>(N1<sub>i</sub>,N2<sub>i</sub>);以数据点集合N2<sub>i</sub>作为训练集训练单类分类器,将数据点集合N1<sub>i</sub>作为测试集,记录当前单类分类器输出的准确率为S<sub>i</sub>(N2<sub>i</sub>,N1<sub>i</sub>);用户账号D<sub>i</sub>的自关联相似度为所述准确率S<sub>i</sub>(N1<sub>i</sub>,N2<sub>i</sub>)和准确率S<sub>i</sub>(N2<sub>i</sub>,N1<sub>i</sub>)的乘积;步骤302:用户账号D<sub>i</sub>关于用户账号Q<sub>j</sub>的互关联相似度:分别从用户账号D<sub>i</sub>与用户账号Q<sub>j</sub>中选取M个不同数据点,组成集合ND<sub>i</sub>和NQ<sub>j</sub>,其中用户账号Q<sub>j</sub>属于用户账户集D,且与用户账号D<sub>i</sub>的账户名不同;以数据点集合ND<sub>i</sub>作为训练集训练单类分类器,将数据点集合NQ<sub>j</sub>作为测试集,记录当前单类分类器输出的准确率为S<sub>i</sub>(ND<sub>i</sub>,NQ<sub>j</sub>);以数据点集合NQ<sub>j</sub>作为训练集训练单类分类器,将数据点集合ND<sub>i</sub>作为测试集,记录当前单类分类器输出的准确率为S<sub>i</sub>(NQ<sub>j</sub>,ND<sub>i</sub>);用户账号D<sub>i</sub>的互关联相似度为所述准确率S<sub>i</sub>(ND<sub>i</sub>,NQ<sub>j</sub>)和准确率S<sub>i</sub>(NQ<sub>j</sub>,ND<sub>i</sub>)的乘积;步骤4:基于用户账号D<sub>i</sub>的自关联相似度和互关联相似度,输出用户账号D<sub>i</sub>的相同账号:若用户账号D<sub>i</sub>的自关联相似度与关于用户账号Q<sub>j</sub>的互关联相似度的差值小于或等于预设阈值,则用户账号Q<sub>j</sub>与用户账号D<sub>i</sub>的相同账号。 |