发明名称 基于滑动窗口的邮件指纹提取方法及邮件相似判断方法
摘要 本发明涉及一种基于滑动窗口的邮件指纹提取方法及邮件相似判断方法,采用基于滑动窗口的邮件指纹提取方法及邮件指纹来判断邮件的相似性程度,在提取邮件指纹过程中,采用滑动窗口块的方法提取邮件正文摘要信息指纹及邮件正文指纹的方法提取邮件指纹,本发明通过获取两种指纹来获取邮件指纹,既提高了邮件差别的准确性,又减少了保存的指纹值,大大方便了邮件相似性的判别,对垃圾邮件的处理效果更好。
申请公布号 CN102323934A 申请公布日期 2012.01.18
申请号 CN201110255082.0 申请日期 2011.08.31
申请人 深圳市彩讯科技有限公司 发明人 翁善锦;戚国飞;汪志新;丁德平
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 深圳市科吉华烽知识产权事务所 44248 代理人 胡吉科;许建
主权项 一种基于滑动窗口的邮件指纹提取方法,包括如下步骤:扫描邮件正文:应用滑动窗口扫描邮件正文;获取邮件正文摘要信息的指纹:根据滑动窗口指数加权的指纹算法,采用多个字节来保存邮件正文的摘要信息,每一个字节保存根据加权指数及邮件正文长度确定的邮件正文序列块条件的邮件正文摘要信息,获取该多个字节的邮件正文摘要信息序列值;获取邮件正文的指纹:根据滑动窗口三元组统计的语义相似度算法,设置滑动窗口构造三元组的长度,根据滑动窗口构造的三元组长度构建邮件正文的三元组,采用Hash算法求出每个邮件正文三元组的值,以邮件正文三元组的值作为数组下标保存邮件正文所有三元组的统计,得到邮件指纹的保存数组信息;根据数组统计的平均值设立阀值,将统计大于阀值的数组下标所对应的保存数组位设为1,采用多个字节来保存表示邮件正文所有三元组的统计保存数组值,该多个字节保存的表示邮件正文所有三元组的统计保存数组值为当前邮件正文的指纹;提取邮件的指纹:将邮件正文摘要信息的指纹和邮件正文的指纹作为该邮件的指纹。
地址 518057 广东省深圳市南山区科技南十二路18号长虹科技大厦4楼