发明名称 基于内容的大规模垃圾短信实时过滤方法
摘要 本发明公开了一种基于内容的大规模垃圾短信实时过滤方法,其步骤如下:1)利用黑名单和白名单两个过滤模块进行预过滤;2)利用基于频率的过滤模块进行在线过滤;3)采用两次散列的方法对短信内容进行快速过滤;4)对“嫌疑短信”进行短信文本预处理,并将其转化为短语向量;5)采用朴素贝叶斯和支持向量机两种分类器相结合的方法对“嫌疑短信”进行判定。本发明可大幅度提高垃圾短信的过滤速度,并有效降低传统的关键字过滤方法所产生的误判率;可有效解决短时间内恶意群发垃圾短信的问题;可有效地避免将正常短信误作垃圾短信的情况发生,降低代价敏感的误判问题,并且从语义上分析短信内容,有效提高整个系统的过滤准确率。
申请公布号 CN101257671B 申请公布日期 2010.12.08
申请号 CN200710069930.2 申请日期 2007.07.06
申请人 浙江大学 发明人 徐从富;陆冠中
分类号 H04W88/18(2009.01)I;H04M1/663(2006.01)I;H04M1/66(2006.01)I 主分类号 H04W88/18(2009.01)I
代理机构 杭州求是专利事务所有限公司 33200 代理人 张法高
主权项 一种基于内容的大规模垃圾短信实时过滤方法,其步骤如下:1)利用黑名单和白名单两个过滤模块进行预过滤;2)利用基于频率的过滤模块进行在线过滤;3)采用两次散列的方法对短信内容进行快速过滤;4)对“疑似垃圾短信”进行短信文本预处理,并将其转化为短信向量;5)采用朴素贝叶斯和支持向量机两种分类器相结合的方法对“疑似垃圾短信”进行判定;所述的步骤1)为:短信首先进入白名单模块,若属白名单则直接放行;否则,进入黑名单模块,若属黑名单则拒绝主叫号码,若不属黑名单,则该条短信送入步骤2);所述的步骤2)为:对于来自步骤1)的那些既不属于白名单又不属于黑名单的短信,首先将该短信插入该主叫号码对应的记录模型中,记录模型必须包含以下关键信息:主叫号码和该主叫号码在单位时间内已经发送的短信数量,如果该号码并没有超过该滑动窗内规定的短信发送量阈值,则将该短信立即下放给步骤3),否则,将该主叫号码的记录模型中的所有短信都保存至垃圾短信数据库;所述的步骤3)为:对于来自步骤2)的那些发送频率未超过预设阈值的短信,使用两次散列的方法来快速过滤短信,使用了MD5等散列算法将经确认的垃圾短信映射成一个唯一的散列值,即所谓的短信摘要,每条待定短信也进行同样的散列运算后获得一个短信摘要,将第一次散列所获得的垃圾短信摘要再次进行散列,并存入一个散列表,待定短信摘要也进行散列后存入该散列表,若出现冲突,则说明待定短信摘要与某条垃圾短信摘要相同,即待定短信也是一条垃圾短信,当同一个待定短信摘要在一定时间内出现的次数过多,该散列值又代表了一条疑似垃圾短信,则送入步骤4)进行更进一步的分析和判断;所述的步骤4)为:对上述“疑似垃圾短信”进行短信清洗、去除停用词、自动分词、词性标注、特征项提取、特征项权重计算和生成短信向量预处理,以剔除短信文本,即由字、词、数字、标点符号构成的文字串中所有与分类任务无关的内容,并将文本转化为由其包含的基本语义单位组成的短信向量;所述的步骤5)为:把步骤4)中的短信向量分别送入朴素贝叶斯分类器和支持向量机分类器,并将两种分类器分别给出的判定该条“疑似垃圾短信”为垃圾短信的概率按照一定的权重结合起来,最终给出一个概率值,当该概率值超过设定的阈值时,就认为该短信是一条垃圾短信。
地址 310027 浙江省杭州市浙大路38号