基于内容的大规模垃圾短信实时过滤方法,申请号CN200710069930.2-传众专利搜索

发明名称	基于内容的大规模垃圾短信实时过滤方法
摘要	本发明公开了一种基于内容的大规模垃圾短信实时过滤方法，其步骤如下：1)利用黑名单和白名单两个过滤模块进行预过滤；2)利用基于频率的过滤模块进行在线过滤；3)采用两次散列的方法对短信内容进行快速过滤；4)对“嫌疑短信”进行短信文本预处理，并将其转化为短语向量；5)采用朴素贝叶斯和支持向量机两种分类器相结合的方法对“嫌疑短信”进行判定。本发明可大幅度提高垃圾短信的过滤速度，并有效降低传统的关键字过滤方法所产生的误判率；可有效解决短时间内恶意群发垃圾短信的问题；可有效地避免将正常短信误作垃圾短信的情况发生，降低代价敏感的误判问题，并且从语义上分析短信内容，有效提高整个系统的过滤准确率。
申请公布号	CN101257671B	申请公布日期	2010.12.08
申请号	CN200710069930.2	申请日期	2007.07.06
申请人	浙江大学	发明人	徐从富;陆冠中
分类号	H04W88/18(2009.01)I;H04M1/663(2006.01)I;H04M1/66(2006.01)I	主分类号	H04W88/18(2009.01)I
代理机构	杭州求是专利事务所有限公司 33200	代理人	张法高
主权项	一种基于内容的大规模垃圾短信实时过滤方法，其步骤如下：1)利用黑名单和白名单两个过滤模块进行预过滤；2)利用基于频率的过滤模块进行在线过滤；3)采用两次散列的方法对短信内容进行快速过滤；4)对“疑似垃圾短信”进行短信文本预处理，并将其转化为短信向量；5)采用朴素贝叶斯和支持向量机两种分类器相结合的方法对“疑似垃圾短信”进行判定；所述的步骤1)为：短信首先进入白名单模块，若属白名单则直接放行；否则，进入黑名单模块，若属黑名单则拒绝主叫号码，若不属黑名单，则该条短信送入步骤2)；所述的步骤2)为：对于来自步骤1)的那些既不属于白名单又不属于黑名单的短信，首先将该短信插入该主叫号码对应的记录模型中，记录模型必须包含以下关键信息：主叫号码和该主叫号码在单位时间内已经发送的短信数量，如果该号码并没有超过该滑动窗内规定的短信发送量阈值，则将该短信立即下放给步骤3)，否则，将该主叫号码的记录模型中的所有短信都保存至垃圾短信数据库；所述的步骤3)为：对于来自步骤2)的那些发送频率未超过预设阈值的短信，使用两次散列的方法来快速过滤短信，使用了MD5等散列算法将经确认的垃圾短信映射成一个唯一的散列值，即所谓的短信摘要，每条待定短信也进行同样的散列运算后获得一个短信摘要，将第一次散列所获得的垃圾短信摘要再次进行散列，并存入一个散列表，待定短信摘要也进行散列后存入该散列表，若出现冲突，则说明待定短信摘要与某条垃圾短信摘要相同，即待定短信也是一条垃圾短信，当同一个待定短信摘要在一定时间内出现的次数过多，该散列值又代表了一条疑似垃圾短信，则送入步骤4)进行更进一步的分析和判断；所述的步骤4)为：对上述“疑似垃圾短信”进行短信清洗、去除停用词、自动分词、词性标注、特征项提取、特征项权重计算和生成短信向量预处理，以剔除短信文本，即由字、词、数字、标点符号构成的文字串中所有与分类任务无关的内容，并将文本转化为由其包含的基本语义单位组成的短信向量；所述的步骤5)为：把步骤4)中的短信向量分别送入朴素贝叶斯分类器和支持向量机分类器，并将两种分类器分别给出的判定该条“疑似垃圾短信”为垃圾短信的概率按照一定的权重结合起来，最终给出一个概率值，当该概率值超过设定的阈值时，就认为该短信是一条垃圾短信。
地址	310027 浙江省杭州市浙大路38号