发明名称 一种基于空间布局的钓鱼网页检测及其实现方法
摘要 一种基于空间布局的钓鱼网页检测方法涉及了一种基于页面视觉布局特征结合空间数据库的设计方案,主要解决了基于网页视觉相似性角度进行快速钓鱼网页检测的问题,系统由5个模块组成,其中最上层是用户界面模块,主要负责获取用户输入并将结果反馈回用户,中间是控制模块,负责调度所有功能模块完成钓鱼网站检测。最核心的是3个功能模块,即:布局特征抽取模块、空间数据库模块、机器学匹配模块。经大量实验数据检验证明,该方法构建了一种高速高精度钓鱼网页检测系统,在保证高准确率的同时,处理数据容量上有了重大提升,并显著减小网页检测时间。
申请公布号 CN101894134B 申请公布日期 2012.04.11
申请号 CN201010204724.X 申请日期 2010.06.21
申请人 南京邮电大学 发明人 张卫丰;贡亮;张迎周;周国强;许碧欢;陆柳敏
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 南京经纬专利商标代理有限公司 32200 代理人 叶连生
主权项 一种基于空间布局的钓鱼网页检测方法,其特征在于:采用用户界面获取用户输入并将结果反馈回用户,采用控制模块调度功能模块检测钓鱼网站,所述功能模块包括布局特征抽取模块、空间数据库模块、机器学习匹配模块;采用所述的布局特征抽取模块抽取块状网页布局特征,该布局特征在训练阶段送交空间数据库模块建立索引或进行查询,在钓鱼网页检测阶段该布局特征抽取模块抽取的布局特征送至空间数据库模块查询相似特征;采用所述的空间数据库模块在训练阶段对数据特征建立空间索引,在钓鱼网页检测阶段进行相似特征的快速查询,查询所得相似特征交给机器学习匹配模块进行识别;采用所述的机器学习匹配模块在训练阶段接收布局特征抽取模块传来的特征数据进行训练,优化网页相似性阀值的参数;所述基于空间布局的钓鱼网页检测方法,进一步包括:步骤1)训练阶段数据准备:采集至少100个可能被钓鱼网页模仿的正规网站页面,并抽取出布局特征组织成样本数据;将所有样本数据的布局特征插入空间数据库;采集至少100个钓鱼网站页面以及100个普通网页,并抽取特征组织成测试数据;所述布局特征包括:DOM节点的高度,表示浏览器引擎解析了网页的HTML源代码,css源代码以及javascript源代码以后所得网页元素在垂直方向上象素点个数,DOM节点的宽度,表示浏览器引擎解析了网页的HTML源代码,css源代码以及javascript源代码以后所得网页元素在水平方向上象素点个数,DOM节点的X坐标,表示浏览器引擎解析了网页的HTML源代码,css源代码以及javascript源代码以后所得网页元素的最左上角象素点相对于(0,0)坐标在水平方向上的距离,其中距离为1表示相差一个象素点,设Web浏览器显示区域最左上角的象素点坐标为(0,0),DOM节点的Y坐标,表示浏览器引擎解析了网页的HTML源代码,css源代码以及javascript源代码以后所得网页元素的最左上角象素点相对于(0,0)坐标在垂直方向上的距离,其中距离为1表示相差一个象素点,设Web浏览器显示区域最左上角的象素点坐标为(0,0),步骤2)测试数据集的标定:将测试数据中的所有普通网页标注为“false”,表示非钓鱼网页;再将测试数据中的所有钓鱼网页标注为“true”,表示钓鱼网页;步骤3)对所有测试网页的特征在空间数据库中查找相似的特征,并统计找到每一个测试网页在库中最相似的网页,计算它们的相似度作为测试网页与库的相似度;步骤4)将所有测试网页的标注以及测试网页与库的相似度送入机器学习匹配模块,遍历所有可能的相似度阀值,找到一个值T使得相似度大于T的钓鱼网页数量与相似度小于T的钓鱼网页数量差值最大,T作为钓鱼网页相似度阀值;步骤5)对疑似钓鱼网页的检测过程:对可疑网页采集布局特征;用可疑网页的特征在空间数据库中查找相似的特征,并统计找到可疑网页在库中最相似的网页,计算它们的相似度作为可疑网页与库的相似度;将待可疑网页的与库的相似度送入训练好的机器学习匹配模块进行预测,预测所得结果作为本方案最终的钓鱼网站检测结果。
地址 210003 江苏省南京市新模范马路66号