发明名称 |
一种钓鱼网站的识别方法 |
摘要 |
本发明公开了一种钓鱼网站的识别方法,该钓鱼网站的识别方法包括对比数据库检测步骤、特征向量提取步骤、特征向量测试识别步骤和深度检测及反馈步骤,其中,特征向量测试识别步骤中使用的专用于测试的特征向量数组是由初始状态通过组合刷新步骤,训练步骤和筛选步骤后得到的。本发明的钓鱼网站识别方法基于URL进行识别,具有良好的实时性,能够应用于多种场合。同时深度检测弥补了基于URL检测的正确率不足的问题,并将深度检测的结果返回到对比数据库,提高了钓鱼网站识别的正确率。同时,通过组合刷新步骤,训练步骤和筛选步骤,专用于测试的特征向量数组可以不断进化,也提高了钓鱼网站识别的正确率。 |
申请公布号 |
CN102708186A |
申请公布日期 |
2012.10.03 |
申请号 |
CN201210147470.1 |
申请日期 |
2012.05.11 |
申请人 |
上海交通大学 |
发明人 |
邹福泰;张文迪;赖骏尧;易平 |
分类号 |
G06F17/30(2006.01)I;H04L29/06(2006.01)I |
主分类号 |
G06F17/30(2006.01)I |
代理机构 |
上海旭诚知识产权代理有限公司 31220 |
代理人 |
郑立 |
主权项 |
一种钓鱼网站的识别方法,其特征在于,包括如下步骤:步骤1,将输入的URL与对比数据库中已有的URL进行比较,所述对比数据库中的每条URL带有黑名单或者白名单的标记,若所述输入的URL在所述数据库中的标记为黑名单,则判定该URL为钓鱼网站的URL,进行检测报告,并进入步骤4,若所述输入的URL在所述数据库中的标记为白名单,则进入步骤2;步骤2,对所述URL进行特征提取并形成特征向量,要提取的特征包括:URL中的异常点数、URL中的unicode、URL中的异常字符、URL中的异常数字的个数和分区数、字符编码混编、URL中的关键字、域名申请的时长和域名过期时间;步骤3,用专用于测试的特征向量数组中的每一个特征向量对上述URL提取出的特征向量进行测试,若测试结果为是钓鱼网站的URL,则进行检测结果报告;步骤4,进行深度检测,包括对所述URL的whois信息作一个分析,并将得到的完整结果反馈至步骤2中所述对比数据库。 |
地址 |
200240 上海市闵行区东川路800号 |