一种基于网页关联性的钓鱼检测方法,申请号CN201110020890.9-传众专利搜索

发明名称	一种基于网页关联性的钓鱼检测方法
摘要	一种基于网页关联性的钓鱼检测方法整合了页面之间关联性以及页面的整体性布局特征，主要解决了基于网页关联性和视觉相似性角度进行快速钓鱼网页检测的问题。该方法主要从4个方面研究网页之间的关联性，主要指嵌在网页里的链接关联性、搜索关联性和文本关联性以及网页的整体关联性，把网页看作一个不可分割的整体，对其进行压缩处理，获取主要信息。经大量实验数据检验证明，该方法构建了一种高速高精度钓鱼网页检测方法，在保证高准确率的同时，显著减小网页检测时间。
申请公布号	CN102096781A	申请公布日期	2011.06.15
申请号	CN201110020890.9	申请日期	2011.01.18
申请人	南京邮电大学	发明人	张卫丰;田先桃;周国强;张迎周;许碧欢;陆柳敏
分类号	G06F21/00(2006.01)I;G06F17/30(2006.01)I	主分类号	G06F21/00(2006.01)I
代理机构	南京经纬专利商标代理有限公司 32200	代理人	叶连生
主权项	一种基于网页关联性的钓鱼网页检测方法，其特征在于该方法是以网页之间的关联性和网页整体性为出发点，提取了4个特征：链接关联、搜索关联、文本关联和整体性关联；前3个是侧重文本内容，第4个侧重图像，集合了文本和图像；在钓鱼网页检测阶段进行相似特征的快速查询，查询所得相似特征交给机器学习匹配模块进行识别；机器学习匹配模块在系统训练阶段接收特征提取模块传来的特征数据进行训练，优化网页相似性阀值的参数；在钓鱼网页检测阶段，接收特征提取模块传来的特征数据，计算网页之间的相似性，最后根据网页相似性阀值判断钓鱼网页；在钓鱼网页检测过程中通过提取特征，以此作为钓鱼网页检测的依据，具体实现步骤为：步骤1).训练阶段数据准备过程：采集至少100个可能被钓鱼网页模仿的正规网站页面，并提取出特征组织成样本数据；采集至少100个钓鱼网站页面以及100个普通网页，并提取特征组织成测试数据；特征由以下四个数值属性组成：链接关联：网页1与网页2的链接关联是指网页1中指向网页2的链接个数与网页1的总链接个数的比值；反过来，网页2与网页1的链接关联是指网页2中指向网页1的链接个数与网页2的总链接个数的比值；很明显，两者之间的关联性并不是对称的；搜索关联：从网页1获得关键词，然后在第三方搜索引擎上搜索，得到网页2的排名，总的搜索结果个数减去网页2的排名，再加1与总的搜索结果个数的比值即为网页1和网页2的搜索关联，如果没有网页2的排名则排名为0，同理，两者之间的关联性也并不是对称的；文本关联：网页1与网页2的文本关联是指网页1和网页2共有的单词集个数与网页1的总单词集个数的比值，同样，两者之间的关联性仍然不是对称的；整体性关联：首先对网页进行压缩，然后用正规化压缩距离计算网页时间的相似度，值越小说明越匹配。步骤2)测试数据集的标定过程：将测试数据中的所有普通网页标注为“false”，表示非钓鱼网页；再将测试数据中的所有钓鱼网页标注为“true”，表示钓鱼网页；步骤3)对所有测试网页的特征在训练库中查找相似的特征，并统计找到每一个测试网页在库中最相似的网页，计算它们的相似度作为测试网页与库的相似度；步骤4)将所有测试网页的标注以及测试网页与库的相似度送入机器学习匹配模块，遍历所有可能的相似度阀值，找到一个值T使得相似度大于T的钓鱼网页数量与相似度小于T的钓鱼网页数量差值最大，T作为钓鱼网页相似度阀值；步骤5)对疑似钓鱼网页的检测过程：对可疑网页采集特征；用可疑网页的特征在训练库中查找相似的特征，并统计找到可疑网页在库中最相似的网页，计算它们的相似度作为可疑网页与库的相似度；将待可疑网页的与库的相似度送入训练好的机器学习匹配模块进行预测，预测所得结果作为本方案最终的钓鱼网站检测结果。
地址	210003 江苏省南京市新模范马路66号