发明名称 防止垃圾邮件之回馈回路
摘要
申请公布号 TWI331869 申请公布日期 2010.10.11
申请号 TW093105320 申请日期 2004.03.01
申请人 微软公司 发明人 罗斯威特罗伯特L;古德曼乔休尔T;海克曼大卫E;梅尔约翰D;郝维尔纳森D;卢泊斯伯格麦卡C;史罗森狄恩A
分类号 H04L9/32 主分类号 H04L9/32
代理机构 代理人 蔡坤财 台北市中山区松江路148号11楼;李世章 台北市中山区松江路148号11楼
主权项 一种有助于将与垃圾邮件防治有关之项目作分类的系统,包含收录在一电脑可读取储存媒体上之电脑可执行元件,该系统包含:一可接收一组该等项目之元件;一可辨识该等项目之所欲接收者之元件,其并可标示该等欲作轮询项目之一子集合,该等项目之该子集合系与该等已知为垃圾邮件对抗用户之接收者之一子集合相对应,其中该等欲作轮询项目之该子集合决定在该等项目被标记为垃圾邮件或非垃圾邮件之前,如此所有被考虑作为轮询之项目包括藉由一目前使用的垃圾邮件过滤器指定为垃圾邮件之项目;一回馈元件,其系接收与该垃圾邮件对抗者之该经轮询项目之分类有关的资讯,并利用与训练一垃圾邮件过滤器及公布一垃圾邮件名单有关之资讯,其中该回馈元件利用机器学习技术以训练该垃圾邮件过滤器;以及修正一已经标示项目之一元件,用以轮询辩识其为一轮询项目,其中该已修正项目包含投票指令及至少二投票按钮之任一者,且对应于至少二各自项目类别之连结(links)有助于该用户就该项目之分类,其中该等投票按钮对应于各自连结,使得当该等投票按钮之任一者被该用户选择时,与该所选择之投票按钮、各自用户及就此被分配之该项目之独特识别代号有关之资讯被传送至一资料库加以储存。如申请专利范围第1项所述之系统,其中该等项目至少包含电子式邮件(电子邮件)及电子式讯息之至少一者。如申请专利范围第1项所述之系统,其中该接收该组项目的元件系一电子邮件伺服器、一讯息伺服器及客户端电子邮件软体之任一者。如申请专利范围第1项所述之系统,其中该等欲作轮询项目之该子集合至少包含所有接收到的项目。如申请专利范围第1项所述之系统,其中该等接收者之该子集合至少包含所有接收者。如申请专利范围第1项所述之系统,其中该等接收者之该子集合系随机选取。如申请专利范围第1项所述之系统,其中该等接收者之该子集合至少包含该系统之该等付费用户。如申请专利范围第1项所述之系统,其中一般将作过滤之该等讯息之至少一子集合会被考量以进行轮询。如申请专利范围第1项所述之系统,其中经标示以进行轮询之该等项目之该子集合系限于下列之至少一者:每一用户所选项目的数目;每一用户每一期间所选项目的数目;以及标示一与一已知用户相对应之项目的可能性。如申请专利范围第1项所述之系统,其中该等经标示之项目各分配一独特之识别代号,该独特之识别代号系与该经标示项目及该经标示项目之内容之任一者相对应。如申请专利范围第1项所述之系统,其中该经修正之项目至少包含下列之一者:一经修正之「来源」地址;一经修正之主旨;一轮询图像;以及一轮询色彩以辨识为一轮询项目。如申请专利范围第1项所述之系统,其中该经修正之项目至少包含将该项目标示为一附加档案。如申请专利范围第1项所述之系统,其中该经修正之项目至少包含该经标示项目的摘要,该摘要至少包含一主旨、一日期、该讯息文字以及该文字之最先几行之至少一者。如申请专利范围第1项所述之系统,其中该至少两投票按钮至少包含一第一投票按钮及一第二投票按钮,其中该第一投票按钮系表示「合法邮件」,而该第二投票按钮系表示「垃圾邮件」。如申请专利范围第1项所述之系统,其中该等投票按钮系以修正该项目文字的方式执行。如申请专利范围第1项所述之系统,其中该等选择项目系以修正客户端电子邮件软体之一用户介面的方式执行。如申请专利范围第1项所述之系统,其中更至少包含一中央资料库,其可储存资讯以及与用户特性、项目内容以及与经标示项目、用户分类及选择统计资料、轮询每一用户及轮询每一用户每一时期之频率分析资料、垃圾邮件名单、合法邮件名单以及黑名单相关之特性有关的资料。如申请专利范围第1项所述之系统,其中由一当前过滤器标注为垃圾邮件之该等经标示以用于轮询之项目系被传送至该用户之文件夹并考量进行轮询。如申请专利范围第1项所述之系统,其中该等经标示用于轮询之项目会作病毒扫描以进行下列情况之一:被侦测到之该些病毒会被删除且该等项目会被轮询;以及受感染的项目会被删除。如申请专利范围第1项所述之系统会分布遍及超过一垃圾邮件对抗公司以上,以使来自各公司之回馈可送至可操作地与各公司连接之一中央资料库,其中该回馈之若干部份会因私人理由而移除。如申请专利范围第20项所述之系统,其中该公司回馈至少包含下列之一者:单独一的垃圾邮件项目,藉以排除该等合法项目;以及垃圾邮件项目与寄件人姓名、网域名称以及合法项目之网际网路协定位址(IP address)。如申请专利范围第1项所述之系统,其中更至少包含一用户分类确认元件,用以测试用户之信赖度及可靠度。如申请专利范围第22项所述之系统,其中该用户分类确认元件系为一交叉验证技术及一已知结果测试讯息技术之至少一者。如申请专利范围第22项所述之系统,其中该用户分类确认元件可应用于一或多个可疑用户。如申请专利范围第1项所述之系统,其中该回馈元件可接收与用户回馈、蜂蜜罐(又称诱捕系统)回馈以及选择性地与接收项目之用户接收者回馈有关之资讯。一种有助于将与垃圾邮件防治有关之讯息作分类的方法,其至少包含:接收一组讯息;辨识该等讯息之所欲接收者;标示该等欲作轮询之讯息之一子集合,该等讯息之该子集合系与已知为垃圾邮件对抗用户之接收者之一子集合相对应,其中该等欲作轮询讯息之该子集合在该等讯息被标记为垃圾邮件或非垃圾邮件之前决定,如此所有被考虑作为轮询之讯息包括藉由一目前使用的垃圾邮件过滤器指定为垃圾邮件之讯息;接收与该等轮询讯息之用户分类有关之资讯;利用与训练一垃圾邮件过滤器及公布一垃圾邮件名单有关之资讯,其中训练该垃圾邮件过滤器系藉由一机器学习技术而被利用;以及修正一已经标示讯息,用以轮询辩识其为一轮询讯息,其中该已修正讯息包含投票指令及至少二投票按钮之任一者,且对应于讯息之至少二各自类别之连结(links)有助于该用户就该讯息分类,其中该等投票按钮对应于各自链结,使得当该等投票按钮之任一者被该用户选择时,与该所选择之投票按钮、各自用户及就此被分配之该项目之独特识别代号有关之资讯被传送至一资料库加以储存。如申请专利范围第26项所述之方法,其中该等将作一般过滤之该等讯息之至少一子集合会由一电子邮件伺服器接收并送至一回馈回路系统。如申请专利范围第26项所述之方法,其中所有收到的讯息系由客户端电子邮件软体所控制,以使所选用于轮询之该等讯息可为一个人用户之偏好所特有。如申请专利范围第26项所述之方法,其中所有收到的讯息会考量进行轮询以降低资料的偏差。如申请专利范围第26项所述之方法,其中该等欲作轮询之讯息子集合至少包含全部的讯息。如申请专利范围第26项所述之方法,其中该等接收者之该子集合至少包含所有的接收者。如申请专利范围第26项所述之方法,其中该等已知为垃圾邮件对抗用户之接收者之该子集合系藉各接收者执行下列至少一者的方式来判定:选择提供该等讯息上的回馈以帮助训练一新的垃圾邮件过滤器;以不加入的方式被动选择提供该等讯息上的回馈;付费予一参与讯息伺服器所提供之电子邮件及讯息服务;以及以一参与讯息伺服器开启一电子邮件帐号。如申请专利范围第26项所述之方法,其中该等选择参与该讯息轮询用户之该子集合系以随机选取。如申请专利范围第26项所述之方法,其中该等选择参与该讯息轮询用户之该子集合系由所有付费用户选出,藉以使某些垃圾邮件发送者得付出较高代价方能破坏该垃圾邮件过滤器训练。如申请专利范围第26项所述之方法,其中该标示用于轮询之该等讯息之子集合系以随机方式选取。如申请专利范围第26项所述之方法,其中该标示用于轮询之该等讯息之子集合系以一或多个轮询限制作限制。如申请专利范围第26项所述之方法,其中该一或多个轮询限制至少包含一每一用户限制以及一每一用户每一期间限制以降低资料偏差。如申请专利范围第26项所述之方法,其中更至少包含修正该等经标示之讯息以将其标注并辨识为轮询讯息。如申请专利范围第38项所述之方法,其中修正该等经标示之讯息至少包含执行至少下列之一者:将该等经标示讯息移至一用于轮询讯息之独立文件夹;修正该经标示讯息之「来源」地址;修正该经标示讯息之「主旨」;利用该等经标示讯息上之一轮询图像以将之辨识为一轮询讯息;以及利用一独特色彩以将该等经标示讯息辨识为一轮询讯息。如申请专利范围第26项所述之方法,其中该经轮询讯息至少包含该讯息原始收到时之一附加档案以及一组指示用户如何选择之指令。如申请专利范围第40项所述之方法,其中更至少包含至少两投票按钮以帮助将该讯息分类为垃圾邮件及非垃圾邮件。如申请专利范围第41项所述之方法,其中更至少包含一第三投票按钮以拒绝接受将来的轮询。如申请专利范围第41项所述之方法,其中该等投票按钮在将该轮询讯息送至各用户前会先以修正该讯息文字的方式与该轮询讯息相结合。如申请专利范围第41项所述之方法,其中该等投票按钮系藉由修正客户端电子邮件软体之一用户介面的方式执行。如申请专利范围第41项所述之方法,其中该等投票按钮系与该轮询讯息结合。如申请专利范围第40项所述之方法,其中更至少包含该讯息之一摘要,该摘要至少包含一主旨、讯息寄送者、该讯息寄送日期、该讯息接收日期以及该讯息之前几行文字之至少一者。如申请专利范围第26项所述之方法,其中更至少包含在其下载进行轮询之前先对该等经标示之讯息作病毒扫描。如申请专利范围第47项所述之方法,其中更至少包含将该等病毒由任一经感染之讯息移除。如申请专利范围第47项所述之方法,其中感染一病毒之该等经标示讯息系被删除。如申请专利范围第26项所述之方法,其中更至少包含在原始收到时制作各经标示讯息之一副本,以使各用户以其原始形式接收该讯息之第一副本以及以轮询形式接收该讯息之第二副本。如申请专利范围第26项所述之方法,其中该等经标示之讯息系个别地分配一与该经标示讯息及该经标示讯息内容之至少一者相对应之独特识别代号。如申请专利范围第51项所述之方法,其中该经标示讯息及其相关之识别代号系储存在一与训练一垃圾邮件过滤器及公布一垃圾邮件名单有关之资料库中。如申请专利范围第26项所述之方法,其中一回馈元件可接收与该轮询讯息之该用户分类有关之资讯,该回馈元件至少包含一中央资料库。如申请专利范围第53项所述之方法,其中该资料库可提供与藉由一机器学习技术训练一垃圾邮件过滤器及公布一垃圾邮件名单有关之资讯。如申请专利范围第53项所述之方法,其中辨识该等用户以及标示轮询讯息分布于一或多个邮件伺服器以及一或多个客户端电子邮件软体,以使该等邮件伺服器及客户端电子邮件软体所产生之资料可被送回一与训练一垃圾邮件过滤器及公布一垃圾邮件名单有关的中央资料库以进行储存。如申请专利范围第55项所述之方法,其中关键资讯会因隐私理由而由该邮件伺服器及客户端电子邮件软体发送至该中央资料库之任一资料中移除,以使该资料仅有一部份会送至该中央资料库以助于训练该垃圾邮件过滤器。如申请专利范围第56项所述之方法,其中送至该中央资料库之资料的一部份至少包含下列至少一者:有关该等垃圾邮件之资讯;插入合法讯息之网域名称;以及插入合法讯息之网际网路协定位址。如申请专利范围第55项所述之方法,其中该邮件伺服器所产生的资料以及该客户端电子邮件软体所产生的资料会分别汇集成统计资料,并与该等轮询结果以及该等轮询讯息相对应,因此降低传输资料至该中央资料库所需的频宽。如申请专利范围第58项所述之方法,其中该等讯息系利用主动学习技术(亦即该等选择依据其估计值以学习新的或更新的过滤器之讯息的技术)以进行选择。如申请专利范围第26项所述之方法,其中该垃圾邮件过滤器系利用将讯息分类为垃圾邮件及非垃圾邮件的方式进行训练以降低轮询资料的偏差以及该等轮询讯息的错误分类。如申请专利范围第26项所述之方法,其中更至少包含将该经训练之垃圾邮件过滤器分布至一或多个伺服器,该分布系自动地发生及/或可藉至少一电子邮件讯息及一布告于一供下载之网站之一者的要求而发生。如申请专利范围第26项所述之方法,其中训练该垃圾邮件过滤器以及公布该垃圾邮件名单系藉由机器学习技术来执行,其系利用以用户分类回馈为主的资料以及选择性地,以一或多个附加来源所产生的资料进行之,而该一或多个来源至少包含蜂蜜罐(又称诱捕系统)、能接受非用户分类回馈以及主动学习技术者。如申请专利范围第62项所述之方法,其中由该一或多个来源所产生的资料会按比例就该来源所产生的资料种类以及与该用户分类资料相关者重新加权,以帮助取得未偏差的取样资料。如申请专利范围第62项所述之方法,其中对应电子邮件位址之蜂蜜罐(又称诱捕系统)系以一种已知是谁寄送给它们合法讯息的限制方式被透露,藉以快速辨识该等垃圾邮件发送者、确认散播用户订阅资讯给垃圾邮件发送者的可疑零售商并无须等待用户分类即可快速分类垃圾邮件讯息。如申请专利范围第64项所述之方法,其中由该等蜂蜜罐(又称诱捕系统)所产生的资讯系至少部分地依据使用中且与其他若干来源(包括用户分类回馈)有关的若干蜂蜜罐而选择性的降低加权。如申请专利范围第64项所述之方法,其中由该蜂蜜罐(又称诱捕系统)所产生的资料系即时的合并至一中央资料库,于该处与用户分类及该等轮询讯息有关的资讯亦同样会被储存以供随后与训练一垃圾邮件过滤器及公布一垃圾邮件名单有关的使用。如申请专利范围第26项所述之方法,其中更至少包含:监控所收到讯息其各自的一或多个正面特征;判定所收到正面讯息的频率;依据至少一部份的历史资料以判定所收到一或多个正面特征是否超过一临界值频率;以及隔离可疑的讯息,其系指与该一或多个超过该临界频率之正面特征相对应者,该隔离直至进一步的分类资料已可判定该等可疑讯息是否为垃圾邮件者为止。如申请专利范围第67项所述之方法,其中所使用的特征系有关该发送者的资讯,其至少包含该发送者的网际网路协定位址以及网域之至少一者。如申请专利范围第67项所述之方法,其中隔离该等可疑的讯息系以下列至少一动作来进行:暂时地将该等可疑讯息标示为垃圾邮件,并将其移至一垃圾邮件文件夹;延迟该等可疑讯息至用户(群)的传送,直至取得进一步的分类资料;以及将该等可疑讯息储存在该用户(群)看不见的一文件夹中。如申请专利范围第26项所述之方法,其中更至少包含判定错误的正面特征以及该垃圾邮件过滤器之抓取率以助于最佳化该垃圾邮件过滤器,其中判定错误的正面特征以及抓取率至少包含:利用一训练资料组训练该垃圾邮件过滤器,该训练资料组至少包含一第一组轮询结果;分类一第二组轮询讯息,其系利用用户回馈以产生一第二组轮询结果的方式进行;经由该经训练之垃圾邮件过滤器执行该第二组轮询讯息;以及将该第二组轮询结果与该经训练之垃圾邮件过滤器结果作比较以判定错误的正面特征以及该过滤器之抓取率,藉以依据最理想的过滤器表现评估并调整过滤器参数。如申请专利范围第70项所述之方法,其中并建立超过一个以上的垃圾邮件过滤器,其各具有不同参数且各以相同的训练资料组作训练,以使错误的正面特征以及各垃圾邮件过滤器之抓取率可与其他至少一垃圾邮件过滤器比较以判定垃圾邮件过滤的最佳参数。如申请专利范围第26项所述之方法,其中更至少包含利用附加收到的讯息组建立一改善之垃圾邮件过滤器,该等讯息组之子集合会进行轮询以产生与训练该经改善之垃圾邮件过滤器有关的新资讯,其中先前得到的资讯会部分依据其系多久前所收到而重新加权。如申请专利范围第26项所述之方法,其中更至少包含利用该资讯建立一合法的寄件者名单。如申请专利范围第73项所述之方法,其中该合法的寄件者名单至少包含网际网路协定位址、网域名称以及依据分类为良好之一讯息百分比而实质被分类为良好邮件来源之全球资源定址器之任何一者。如申请专利范围第26项所述之方法,其中该等垃圾邮件名单系用以形成一黑名单位址,且来自该位址之邮件将不会被接受。如申请专利范围第26项所述之方法,其中更至少包含利用该资讯以助于终止垃圾邮件发送者的帐号。如申请专利范围第76项所述之方法,其中更至少包含辨识一利用一网际网路服务提供者之垃圾邮件发送者以及自动地通知垃圾邮件的网际网路服务提供者。如申请专利范围第76项所述之方法,其中更至少包含辨识一负责发送垃圾邮件之网域,并自动地通知该网域之电子邮件提供者以及该网域之该垃圾邮件的网际网路服务提供者之至少一者。如申请专利范围第26项所述之方法,其中更至少包含将该垃圾邮件过滤器及该垃圾邮件名单之至少一者分布至邮件伺服器、电子邮件伺服器以及客户端电子邮件软体之至少一者,其中分布方式至少包含下列之至少一者:于一通知该垃圾邮件过滤器及垃圾邮件名单可用于下载之网站上张告一通知;自动地将该垃圾邮件过滤器以及垃圾邮件名单应用于邮件伺服器、电子邮件伺服器以及客户端电子邮件软体;以及手动地将该垃圾邮件过滤器以及垃圾邮件名单应用于邮件伺服器、电子邮件伺服器以及客户端电子邮件软体。一种其上存有电脑元件之电脑可读取储存媒体,当由一或多个处理器执行时,用以有助于将与垃圾邮件防治有关之讯息做分类,该等元件包含::一可接收一组讯息之元件;一可辨识该等讯息之所欲接收者之元件,并标示该等欲作轮询讯息之一子集合,该等讯息之该子集合系与已知为垃圾邮件对抗用户之接收者之一子集合相对应,其中该等欲作轮询讯息之该子集合在该等讯息被标记为垃圾邮件或非垃圾邮件之前决定,如此所有被考虑作为轮询之讯息包括藉由一目前使用的垃圾邮件过滤器指定为垃圾邮件之讯息;一讯息修正元件,其系修正该等经标示之讯息以将其辨识为给该等用户之轮询讯息;一回馈元件,其系接收与该用户之该经轮询项目之分类有关的资讯,并利用与训练一垃圾邮件过滤器及公布一垃圾邮件名单有关之资讯,其中该回馈元件利用机器学习技术以训练该垃圾邮件过滤器;以及修正一已经标示项目之一元件,用以轮询辩识其为一轮询项目,其中该已修正项目包含投票指令及至少二投票按钮之任一者,且对应于至少二各自项目类别之连结(links)有助于该用户就该项目之分类,其中该等投票按钮对应于各自连结,使得当该等投票按钮之任一者被该用户选择时,与该所选择之投票按钮、各自用户及就此被分配之该项目之独特识别代号有关之资讯被传送至一资料库加以储存。一种有助于将与垃圾邮件防治有关之项目作分类的系统,其至少包含:用以接收一组讯息之装置;用以辨识该等讯息之所欲接收者之装置;用以标示该等欲作轮询讯息之一子集合之装置,该等讯息之该子集合系与已知为垃圾邮件对抗用户之该接收者之一子集合相对应,其中该等欲作轮询讯息之该子集合在该等讯息被标记为垃圾邮件或非垃圾邮件之前决定,如此所有被考虑作为轮询之讯息包括藉由一目前使用的垃圾邮件过滤器指定为垃圾邮件之讯息;用以接收与该用户之该轮询讯息之分类有关的资讯之装置;用以利用该与训练一垃圾邮件过滤器及公布一垃圾邮件名单有关之资讯的装置,其中训练该垃圾邮件过滤器系藉由一机器学习技术而被利用;以及修正一已经标示讯息之电脑可执行装置,用以轮询辩识其为一轮询讯息,其中该已修正讯息包含投票指令及至少二投票按钮之任一者,且对应于讯息之至少二各自类别之连结(links)有助于该用户就该讯息分类,其中该等投票按钮对应于各自链结,使得当该等投票按钮之任一者被该用户选择时,与该所选择之投票按钮、各自用户及就此被分配之该项目之独特识别代号有关之资讯被传送至一资料库加以储存。
地址 美国