发明名称 一种钓鱼网站识别系统及方法
摘要 本发明公开了一种钓鱼网站识别系统及方法,涉及网络安全领域。所述系统包括:域名获取单元、域名统计单元和网站识别单元;所述域名获取单元,适于收集待识别网站中出现的所有链接,得到所述链接对应的域名;所述域名统计单元,适于统计所述域名在所述待识别网站中出现的次数,找到出现次数最多的域名,记作目标域名;所述网站识别单元,适于根据所述目标域名与所述待识别网站的自身域名判断所述待识别网站是否是钓鱼网站。所述系统及方法,基于网站中的链接关系进行钓鱼网站的识别,可以有效识别新类型的钓鱼网站;同时,有利于丰富钓鱼网站库中钓鱼网站的数量和类型,便于进一步的钓鱼网站识别和查找,在网络安全领域具有广泛的应用前景。
申请公布号 CN102801709B 申请公布日期 2015.03.04
申请号 CN201210224485.3 申请日期 2012.06.28
申请人 北京奇虎科技有限公司;奇智软件(北京)有限公司 发明人 陈营营
分类号 H04L29/06(2006.01)I 主分类号 H04L29/06(2006.01)I
代理机构 北京路浩知识产权代理有限公司 11002 代理人 王莹
主权项 一种钓鱼网站识别系统,其包括:域名获取单元、域名统计单元和网站识别单元;所述域名获取单元,适于收集待识别网站中出现的所有链接,得到所述链接对应的域名;所述域名统计单元,适于统计所述域名在所述待识别网站中出现的次数,找到出现次数最多的域名,记作目标域名;所述网站识别单元,适于根据所述目标域名与所述待识别网站的自身域名判断所述待识别网站是否是钓鱼网站;其中,所述网站识别单元包括:比较子单元和识别子单元;所述比较子单元,适于比较所述目标域名与所述自身域名,并在比较结果显示所述目标域名与所述自身域名相同时,判定所述待识别网站不是钓鱼网站;所述识别子单元,适于在所述目标域名与所述自身域名不同时,计算所述目标域名的出现次数与所述自身域名的出现次数之间的比例,以及计算所述目标域名与所述自身域名之间的相似度,进而根据所述比例和所述相似度判断所述待识别网站是否是钓鱼网站;其中,所述识别子单元包括:比例计算模块、相似度计算模块和判断模块;所述比例计算模块,适于计算所述目标域名的出现次数与所述自身域名的出现次数之间的比例;所述相似度计算模块,适于计算所述目标域名与所述自身域名之间的相似度;所述判断模块,适于判断所述比例和所述相似度是否满足条件:所述比例大于预定比例,并且所述相似度大于预定阈值;如果满足,判定所述待识别网站是钓鱼网站;否则,判定所述待识别网站不是钓鱼网站;其中,所述相似度计算模块包括:字符串对比子模块、初值计算子模块和终值计算子模块;所述字符串对比子模块,适于构建所述目标域名的字符串与所述自身域名的字符串的对比阵列,将所述目标域名的字符串设置在所述对比阵列的第一行并保持位置固定,将所述自身域名的字符串设置在所述对比阵列的第二行并自左向右移动,对两行字符串中重叠的字符进行对比;所述初值计算子模块,适于当所述目标域名的首字符与所述自身域名的尾字符对齐时,计算所述目标域名与所述自身域名之间的第一相似度计算值Q<sub>1</sub>;当所述目标域名的第二字符与所述自身域名的尾字符对齐时,计算所述目标域名与所述自身域名之间的第二相似度计算值Q<sub>2</sub>;依次类推,当所述目标域名的尾字符与所述自身域名的首字符对齐时,计算所述目标域名与所述自身域名之间的第m相似度计算值Q<sub>m</sub>;其中,m=n<sub>1</sub>+n<sub>2</sub>‑1,n<sub>1</sub>表示所述目标域名的字符串长度,n<sub>2</sub>表示所述自身域名的字符串长度;所述终值计算子模块,适于根据下述公式计算得到所述目标域名与所述自身域名之间的相似度Q<sub>max</sub>:Q<sub>max</sub>=max{Q<sub>1</sub>,Q<sub>2</sub>,Q<sub>3</sub>,……Q<sub>m</sub>}。
地址 100088 北京市西城区新街口外大街28号D座112室(德胜园区)