发明名称 以相似度量测为基础用于过滤电子邮件滥发之方法及装置
摘要
申请公布号 申请公布日期 2011.09.11
申请号 TW093113744 申请日期 2004.05.14
申请人 新门科技公司 发明人 马特 葛列森;大卫 候格史揣特;珊蒂 詹森;艾利 曼特尔;亚特 梅德拉;肯 史齐奈德
分类号 H04L12/58 主分类号 H04L12/58
代理机构 代理人 陈长文 台北市松山区敦化北路201号7楼
主权项 一种用于过滤电子邮件滥发之方法,其包括:侦测在一电子邮件讯息中加入至该电子邮件讯息之一或多个字元参考,其中每个字元参考在一第一字元集中指定一字元之一位置;藉由转换该一或多个字元参考之至少一者为一相应于该第一字元集中该经指定之位置的字元,而修改该电子邮件讯息之内容;将该电子邮件讯息之该经修改之内容与一滥发讯息的内容作比较。如申请专利范围第1项之方法,其进一步包括:决定是否该电子邮件讯息与该滥发讯息之一类似度超过一临限;及如果该类似度超过该临限,将该电子邮件标示为滥发。如申请专利范围第1项之方法,其中该至少一字元参考具有「&#<num>」之形式,其中<num>系一在该第一字元集中指定一字元之一位置的值。如申请专利范围第1项之方法,其中该至少一字元参考系一超文字标示语言(HTML)之字元参考。如申请专利范围第1项之方法,其中该第一字元集系一美国资讯标准交换码(ASCII)字元集。如申请专利范围第1项之方法,其中修改该电子邮件讯息之该内容包括:转换在该电子邮件讯息中一第一群组之字元参考为相应于该第一字元集中之字元;判定该经转换之第一群组之字元参考形成一新群组之字元参考;及回应该判定,转换该新群组之字元参考为相应于该第一字元集中之字元。如申请专利范围第1项之方法,其中该一或多个字元参考之至少一者系位于该电子邮件讯息中之一统一资源定位器(URL)中。一种用于过滤电子邮件滥发之方法,其包括:侦测在一滥发讯息中加入至该滥发讯息之一或多个字元参考,其中每个字元参考在一第一字元集中指定一字元之一位置;藉由转换该一或多个字元参考之至少一者为一相应于该第一字元集中该经指定之位置的字元,而修改该滥发讯息之内容;及将特征化该滥发讯息之该经修改之内容的资料传送至一伺服器,其中该经传送之资料系可用以寻找与该滥发讯息类似之进入讯息。如申请专利范围第8项之方法,其中该至少一字元参考系一超文字标示语言(HTML)之字元参考。如申请专利范围第8项之方法,其中该至少一字元参考具有「&#<num>」之形式,其中<num>系一在该第一字元集中指定一字元之一位置的值。如申请专利范围第8项之方法,其中修改该滥发讯息之该内容包括:转换在该滥发讯息中一第一群组之字元参考为相应于该第一字元集中之字元;判定该经转换之第一群组之字元参考形成一新群组之字元参考;及回应该判定,转换该新群组之字元参考为相应于该第一字元集中之字元。一种用于过滤电子邮件滥发之系统,其包括:一进入讯息清理器,其经配置以:侦测在一电子邮件讯息中加入至该电子邮件讯息之一或多个字元参考,其中每个字元参考在一第一字元集中指定一字元之一位置;藉由转换该一或多个字元参考之至少一者为一相应于该第一字元集中该经指定之位置的字元,而修改该电子邮件讯息之内容;及一类似度识别器,用以将该电子邮件讯息之该经修改之内容与一滥发讯息的内容作比较。如申请专利范围第12项之系统,其中该类似度识别器进一步配置以决定是否该电子邮件讯息与该滥发讯息之一类似度超过一临限,及如果该类似度超过该临限,则将该电子邮件标示为滥发。如申请专利范围第12项之系统,其中该至少一字元参考具有「&#<num>」之形式,其中<num>系一在该第一字元集中指定一字元之一位置的值。一种用于过滤电子邮件滥发之系统,其包括:一杂讯减低器,其配置以:侦测在一滥发讯息中加入至该滥发讯息之一或多个字元参考,其中每个字元参考在一第一字元集中指定一字元之一位置;藉由转换该一或多个字元参考之至少一者为一相应于该第一字元集中该经指定之位置的字元,而修改该滥发讯息之内容;及一滥发资料发射器,用以将特征化该滥发讯息之该经修改之内容的资料传送至一伺服器,其中该经传送之资料系可用以寻找与该滥发讯息类似之进入讯息。如申请专利范围第15项之系统,其中该第一字元集系一美国资讯标准交换码(ASCII)字元集。如申请专利范围第15项之系统,其中该至少一字元参考具有「&#<num>」之形式,其中<num>系一在该第一字元集中指定一字元之一位置的值。一种用于过滤电子邮件滥发之装置,其包括:侦测构件,其用于侦测在一电子邮件讯息中加入至该电子邮件讯息之一或多个字元参考,其中每个字元参考在一第一字元集中指定一字元之一位置;修改构件,其用于藉由转换该一或多个字元参考之至少一者为一相应于该第一字元集中该经指定之位置的字元,而修改该电子邮件讯息之内容;比较构件,其用于将该电子邮件讯息之该经修改之内容与一滥发讯息的内容作比较。如申请专利范围第18项之装置,其中该至少一字元参考具有「&#<num>」之形式,其中<num>系一在该第一字元集中指定一字元之一位置的值。一种用于过滤电子邮件滥发之装置,其包括:侦测构件,其用于侦测在一滥发讯息中加入至该滥发讯息之一或多个字元参考,其中每个字元参考在一第一字元集中指定一字元之一位置;修改构件,其用于藉由转换该一或多个字元参考之至少之一者为一相应于该第一字元集中该经指定之位置的字元,而修改该滥发讯息之内容;及传送构件,其用于将特征化该滥发讯息之该经修改的资料传送至一伺服器,其中该经传送之资料系可用以寻找与该滥发讯息类似之进入讯息。如申请专利范围第20项之装置,其中该一或多个字元参考之至少一者系位于该滥发讯息中之一统一资源定位器(URL)中。如申请专利范围第20项之装置,其中该至少一字元参考具有「&#<num>」之形式,其中<num>系一在该第一字元集中指定一字元之一位置的值。一种电脑可读媒体,包括在一处理系统上可执行以导致该处理系统施行一方法的指令,该方法包括:侦测在一电子邮件讯息中加入至该电子邮件讯息之一或多个字元参考,其中每个字元参考在一第一字元集中指定一字元之一位置;藉由转换该一或多个字元参考之至少之一者为一相应于该第一字元集中该经指定之位置的字元,而修改该电子邮件讯息之内容;将该电子邮件讯息之该经修改之内容与一滥发讯息的内容作比较。如申请专利范围第23项之电脑可读媒体,其中该至少一字元参考系一超文字标示语言(HTML)之字元参考。如申请专利范围第23项之电脑可读媒体,其中该至少一字元参考具有「&#<num>」之形式,其中<num>系一在该第一字元集中指定一字元之一位置的值。一种电脑可读媒体,包括在一处理系统上可执行以导致该处理系统施行一方法的指令,该方法包括:侦测在一滥发讯息中加入至该滥发讯息之一或多个字元参考,其中每个字元参考在一第一字元集中指定一字元之一位置;藉由转换该一或多个字元参考之至少一者为一相应于该第一字元集中该经指定之位置的字元,而修改该滥发讯息之内容;及将特征化该滥发讯息之该经转换之内容的资料传送至一伺服器,其中该经传送之资料系可用以寻找与该滥发讯息类似之进入讯息。如申请专利范围第26项之电脑可读媒体,其中修改该滥发讯息之该内容包括:转换在该滥发讯息中一第一群组之字元参考为相应于该第一字元集中之字元;判定该经转换之第一群组之字元参考形成一新群组之字元参考;及回应该判定,转换该新群组之字元参考为相应于该第一字元集中之字元。如申请专利范围第26项之电脑可读媒体,其中该至少一字元参考具有「&#<num>」之形式,其中<num>系一在该第一字元集中指定一字元之一位置的值。
地址 美国