发明名称 |
一种基于文本特征分析的钓鱼邮件检测方法 |
摘要 |
基于文本特征分析的钓鱼邮件检测方法,去除掉邮件中的非文本内容;利用了邮件解析器对邮件进行解析;利用了正则表达式算法提取了邮件中的网站链接;再次利用正则表达式算法提取了链接中的相关特征;利用域名注册检索引擎,得到了网站注册时间特征。运用这些所提取的文本特征,组成邮件的特征向量。通过实验,证明能够提高钓鱼邮件的精度和召回率,并节省程序运行的时间和开销。本发明从以往的这些文本特征中进行了筛选,将效果比较好的几个特征挑选出来,并结合钓鱼邮件的特点和现有的研究基础提出几种新的针对钓鱼邮件检测的文本特征。使用本发明对可疑邮件进行检测。 |
申请公布号 |
CN102098235B |
申请公布日期 |
2013.08.07 |
申请号 |
CN201110020896.6 |
申请日期 |
2011.01.18 |
申请人 |
南京邮电大学 |
发明人 |
张卫丰;彭寅;张迎周;周国强;陆柳敏;许碧欢 |
分类号 |
H04L12/58(2006.01)I;H04L12/26(2006.01)I |
主分类号 |
H04L12/58(2006.01)I |
代理机构 |
南京经纬专利商标代理有限公司 32200 |
代理人 |
叶连生 |
主权项 |
一种基于文本特征分析的钓鱼邮件检测方法,其特征在于该方法主要分为以下步骤:一、对样本集进行特征提取步骤1).利用邮件解析器对邮件进行解析,将邮件中所含的图片、动画、附件等非文本部分去掉,得到所需要的邮件数据;步骤2).对于邮件的头部部分,所需提取的特征为邮件正文的格式和邮件的发送时间,一般邮件都是纯文本格式、html格式或者两者兼而有之;步骤3).对于文本内容的处理,主要利用正则表达式匹配算法编写相应的代码,将邮件中所有的网站链接部分都提取出来;步骤4).基于正则表达式算法在处理匹配文本中相应字符上的优势,在提取以下特征时,依然采用正则表达式算法:邮件中是否含有基于IP地址型的网页链接;链接中是否含有@符号;链接中是否含有“‑”符号;邮件中所含的链接个数;链接中域名的个数;链接中点号分隔符的个数;链接中%分隔符的个数;链接中使用http协议的次数;步骤5).判定邮件是否含有脚本语言的时候,先将文本内容全都转化为英文小写,然后遍历邮件文本内容,看是否有相应的脚本标记;步骤6).在检测网页链接所导向的网站的注册时间时,利用了WHOIS域名检索引擎,利用该检索引擎,检测相关域名的注册信息,其中包括域名的注册时间,结合从邮件头部中提取的邮件发送时间,得到该两者的间隔时间,从而判断是否过短;步骤7).把这些特征统计好后,得到了每一封邮件的多维特征向量;二、利用训练集训练分类器模型步骤21).对于训练集中的每一封邮件进行标记,设定标签位,普通邮件标记为“0”,钓鱼邮件标记为“1”;步骤22).在提取好的多维文本特征向量中加入标签位,组成该邮件的特征向量;步骤23).选择支持向量机分类器对训练集邮件进行分类,在此过程中,经过对比使用支持向量机分类器,然后利用训练集对该分类器进行训练,从而得到所 需要的支持向量机分类模型;三、利用分类模型检测可疑邮件步骤31).对可疑邮件进行文本特征提取,整个提取过程与特征提取部分的步骤1)‑步骤7)一致,完成提取工作以后,得到该可疑邮件的特征向量;步骤32)将步骤31)所得结果,送入支持向量机分类模型中进行钓鱼邮件和普通邮件的分类。 |
地址 |
210003 江苏省南京市新模范马路66号 |