发明名称 一种多视图网络垃圾页面检测方法
摘要 本发明公开了提供一种多视图webspam检测方法,该方法包括如下步骤:首先获取训练数据中所有正常页面和spam页面的两视图;然后获取待检测页面的两视图;对获得的两视图各自构造矩阵;求出正常范数及spam范数;比较正常范数与spam范数的大小;若正常范数小于spam范数,则待检测页面为正常页面;若正常范数大于spam范数,则待检测页面为spam页面;若两者相等,则待检测页面随机识别为正常页面或spam页面。它具有对训练数据不平衡性不敏感、可同时检测多种spam页面及检测过程简单等优点。
申请公布号 CN102521369B 申请公布日期 2014.01.22
申请号 CN201110424701.4 申请日期 2011.12.16
申请人 山东师范大学 发明人 张化祥
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 济南圣达知识产权代理有限公司 37221 代理人 张勇
主权项 一种多视图web spam检测方法,其特征是,该方法包括如下步骤: 步骤1:首先获取训练数据中所有正常页面和spam页面的内容视图及链接视图; 步骤2:然后获取待检测页面的内容视图及链接视图; 步骤3:将步骤1中所有正常页面的内容视图及链接视图各自构造矩阵,得到正常内容矩阵和正常链接矩阵; 步骤4:将步骤1中所有spam页面的内容视图及链接视图各自构造矩阵,得到spam内容矩阵及spam链接矩阵; 步骤5:用待检测页面的内容视图及链接视图各自构造矩阵,得到待检测内容矩阵及待检测链接矩阵; 步骤6:利用正常内容矩阵和待检测内容矩阵求解权重矩阵W‑,利用spam内容矩阵及待检测内容矩阵求解权重矩阵W+; 步骤7:利用正常链接矩阵及权重矩阵W‑求解近似矩阵B1,利用spam链接矩阵及权重矩阵W+求解近似矩阵B2; 步骤8:利用步骤7中的近似矩阵B1和待检测链接矩阵求解正常范数E‑,利用近似矩阵B2和待检测链接矩阵求解spam范数E+; 步骤9:比较正常范数E‑与spam范数E+的大小;若正常范数小于spam范数,则待检测页面为正常页面;若正常范数大于spam范数,则待检测页面为spam页面;若两者相等,则待检测页面随机识别为正常页面或spam页面; 步骤10:如果待检测页面被识别为正常页面,就被保留下来,否则将待检测页面从页面库中删除,检测结束; 所述的步骤6中,求解权重矩阵W‑的公式如下: min||[Ax]‑[A‑]W‑||2s.t.||W‑||2=1 公式表示在满足约束条件||W‑||2=1的情况下,求解使得||[Ax]‑[A‑]W‑||2取得最小值的权重矩阵W‑;该最小化表示通过权重W‑与[A‑]构造出的内容矩阵[A‑]W‑与待测页面的内容矩阵[Ax]间的差异性尽可能小,[A‑]为正常内容矩阵,由训练数据中所有正常页面基于内容的特征向量构成;[Ax]为待检测内容矩阵,由待检测页面基于内容的特征向量构成; 所述的步骤6中,求解权重矩阵W+的公式如下: min||[Ax]‑[A+]W+||2s.t.||W+||2=1 公式表示在满足约束条件||W+||2=1的情况下,求解使得||[Ax]‑[A+]W+||2取得最小值的权重矩阵W+;该最小化表示通过权重W+与[A+]构造出的内容矩阵[A+]W+与待测页面的内容矩阵[Ax]间的差异性尽可能小,[A+]为spam内容矩阵,由训练数据中所有spam页面基于内容的特征向量构成; 所述的步骤7中,计算近似矩阵B1和B2的公式如下: B1=[B‑]W‑      (1) B2=[B+]W+        (2) 公式(1)通过变换矩阵W‑和[B‑]计算待检测页面的近似矩阵B1,其中[B‑]为正常链接矩阵,由训练数据中所有正常页面基于超链接的特征向量构成;公式(2)通过变换矩阵W+和[B+]计算待检测页面的近似矩阵B2,其中[B+]为spam链接矩阵,由训练数据中所有spam页面基于超链接的特征向量构成; 所述的步骤8中,求解正常范数E‑和spam范数E+公式如下: E‑=||[Bx]‑B1||2; E+=||[Bx]‑B2||2; 其中[Bx]为待检测链接矩阵,由待检测页面基于超链接的特征向量构成,范 数的大小表示两个近似矩阵与待检测链接矩阵差异性的大小,范数越大,表示近似矩阵与待检测链接矩阵差异性越大;反之范数越小,表示近似矩阵与待检测链接矩阵差异性越小。 
地址 250014 山东省济南市历下区文化东路88号
您可能感兴趣的专利