发明名称 一种基于预取的钓鱼网页检测方法
摘要 基于预取的钓鱼网页检测方法涉及网站信息获取、拓扑特征的提取、分类,主要解决了钓鱼网页检测能力问题。该方法以用户界面模块1为界面、总控模块2为中心,调度分类器模块3、特征提取模块4和网页预取模块5。其中分类器模块首先需要从训练集训练,并采用增量更新的方式,保证该分类器保持对新的钓鱼网页的检测能力。特征提取模块主要提取所预取的网站拓扑结构特征,该特征将被保存在训练集数据库中,同时传递给分类器模块。网页预取模块根据总控模块的指令抓取给定网址一定数量的网页,并保存到网页数据库中。本发明提出基于预取的钓鱼检测方法,在精度、召回率上都有了很大提高。
申请公布号 CN101820366B 申请公布日期 2012.09.05
申请号 CN201010102071.4 申请日期 2010.01.27
申请人 南京邮电大学 发明人 张卫丰;贡亮;周国强;张迎周
分类号 H04L12/26(2006.01)I;H04L29/08(2006.01)I;G06F17/30(2006.01)I 主分类号 H04L12/26(2006.01)I
代理机构 南京经纬专利商标代理有限公司 32200 代理人 叶连生
主权项 一种基于预取的钓鱼网页检测方法,其特征在于在钓鱼网页检测过程中通过爬虫预取一定数量的网页,在此基础上提取网站拓扑特征,以此作为钓鱼网页检测的依据,分类器采用增量学习方法,保证了分类器的及时更新,具体实现步骤为:步骤1)网络爬虫获取初始训练集的过程:使用网络爬虫采集m个正规网站即非钓鱼网站的数据,其中m>=200,并抽取出特征量组织成实例数据;使用网络爬虫采集n个钓鱼网站的数据,其中n>=200,并抽取出特征量组织成实例数据,其中抽取出特征量是抽取以下15种特征:●网页数量当前网站经过分析页面的数量;●外网链接入数量因特网上别的网站页面指向当前分析页面的链接数量,这个通过Google提供的搜索功能获取;●链接向外网数量当前被分析网站页面中指向非本网站页面的链接数量;●内部链接数量当前被分析网站页面指向本网站页面的链接数量;●页面平均图片数量记录下当前页面中图片数量;●页面平均css文件数量记录下当前页面所使用的css文件数量;●页面平均javascript文件数量记录下当前页面所使用的javascript文件数量;●平均入度所有指向当前页面链接数量,包括本网站和外网的链接;●平均出度当前网站链接至其他页面的链接数量,包括指向本网站和外网的链接;●页面平均表
地址 210003 江苏省南京市新模范马路66号