一种多视图网络垃圾页面检测方法,申请号CN201110424701.4-传众专利搜索

发明名称	一种多视图网络垃圾页面检测方法
摘要	本发明公开了提供一种多视图webspam检测方法,该方法包括如下步骤：首先获取训练数据中所有正常页面和spam页面的两视图；然后获取待检测页面的两视图；对获得的两视图各自构造矩阵；求出正常范数及spam范数；比较正常范数与spam范数的大小；若正常范数小于spam范数，则待检测页面为正常页面；若正常范数大于spam范数，则待检测页面为spam页面；若两者相等，则待检测页面随机识别为正常页面或spam页面。它具有对训练数据不平衡性不敏感、可同时检测多种spam页面及检测过程简单等优点。
申请公布号	CN102521369B	申请公布日期	2014.01.22
申请号	CN201110424701.4	申请日期	2011.12.16
申请人	山东师范大学	发明人	张化祥
分类号	G06F17/30(2006.01)I	主分类号	G06F17/30(2006.01)I
代理机构	济南圣达知识产权代理有限公司 37221	代理人	张勇
主权项	一种多视图web spam检测方法，其特征是，该方法包括如下步骤：步骤1：首先获取训练数据中所有正常页面和spam页面的内容视图及链接视图；步骤2：然后获取待检测页面的内容视图及链接视图；步骤3：将步骤1中所有正常页面的内容视图及链接视图各自构造矩阵，得到正常内容矩阵和正常链接矩阵；步骤4：将步骤1中所有spam页面的内容视图及链接视图各自构造矩阵，得到spam内容矩阵及spam链接矩阵；步骤5：用待检测页面的内容视图及链接视图各自构造矩阵，得到待检测内容矩阵及待检测链接矩阵；步骤6：利用正常内容矩阵和待检测内容矩阵求解权重矩阵W‑，利用spam内容矩阵及待检测内容矩阵求解权重矩阵W+；步骤7：利用正常链接矩阵及权重矩阵W‑求解近似矩阵B1，利用spam链接矩阵及权重矩阵W+求解近似矩阵B2；步骤8：利用步骤7中的近似矩阵B1和待检测链接矩阵求解正常范数E‑，利用近似矩阵B2和待检测链接矩阵求解spam范数E+；步骤9：比较正常范数E‑与spam范数E+的大小；若正常范数小于spam范数，则待检测页面为正常页面；若正常范数大于spam范数，则待检测页面为spam页面；若两者相等，则待检测页面随机识别为正常页面或spam页面；步骤10：如果待检测页面被识别为正常页面，就被保留下来，否则将待检测页面从页面库中删除，检测结束；所述的步骤6中，求解权重矩阵W‑的公式如下： min\|\|[Ax]‑[A‑]W‑\|\|2s.t.\|\|W‑\|\|2＝1 公式表示在满足约束条件\|\|W‑\|\|2＝1的情况下，求解使得\|\|[Ax]‑[A‑]W‑\|\|2取得最小值的权重矩阵W‑；该最小化表示通过权重W‑与[A‑]构造出的内容矩阵[A‑]W‑与待测页面的内容矩阵[Ax]间的差异性尽可能小，[A‑]为正常内容矩阵，由训练数据中所有正常页面基于内容的特征向量构成；[Ax]为待检测内容矩阵，由待检测页面基于内容的特征向量构成；所述的步骤6中，求解权重矩阵W+的公式如下： min\|\|[Ax]‑[A+]W+\|\|2s.t.\|\|W+\|\|2＝1 公式表示在满足约束条件\|\|W+\|\|2＝1的情况下，求解使得\|\|[Ax]‑[A+]W+\|\|2取得最小值的权重矩阵W+；该最小化表示通过权重W+与[A+]构造出的内容矩阵[A+]W+与待测页面的内容矩阵[Ax]间的差异性尽可能小，[A+]为spam内容矩阵，由训练数据中所有spam页面基于内容的特征向量构成；所述的步骤7中，计算近似矩阵B1和B2的公式如下： B1=[B‑]W‑ (1) B2=[B+]W+ (2) 公式(1)通过变换矩阵W‑和[B‑]计算待检测页面的近似矩阵B1，其中[B‑]为正常链接矩阵，由训练数据中所有正常页面基于超链接的特征向量构成；公式(2)通过变换矩阵W+和[B+]计算待检测页面的近似矩阵B2，其中[B+]为spam链接矩阵，由训练数据中所有spam页面基于超链接的特征向量构成；所述的步骤8中，求解正常范数E‑和spam范数E+公式如下： E‑＝\|\|[Bx]‑B1\|\|2； E+＝\|\|[Bx]‑B2\|\|2；其中[Bx]为待检测链接矩阵，由待检测页面基于超链接的特征向量构成，范数的大小表示两个近似矩阵与待检测链接矩阵差异性的大小，范数越大，表示近似矩阵与待检测链接矩阵差异性越大；反之范数越小，表示近似矩阵与待检测链接矩阵差异性越小。
地址	250014 山东省济南市历下区文化东路88号