发明名称 一种电信运营商垃圾短信处理系统及处理方法
摘要 一种电信运营商垃圾短信处理系统及处理方法,包括:线上及时处理内核子系统、线下数据挖掘子系统;线上及时处理内核子系统,包括简单规则匹配模块、短信预处理模块、快速模板匹配模块和分类处理模块;线下数据挖掘子系统,包括短信粗选模块和模板聚类模块。本发明能够对海量短信进行多维度有效分类,并具有良好的系统维护性。
申请公布号 CN103024746A 申请公布日期 2013.04.03
申请号 CN201210592920.8 申请日期 2012.12.30
申请人 清华大学;安徽科大讯飞信息科技股份有限公司 发明人 吴及;吕萍;徐伟;沈明花;周正友;张磊
分类号 H04W12/12(2009.01)I;G06F17/30(2006.01)I 主分类号 H04W12/12(2009.01)I
代理机构 北京科迪生专利代理有限责任公司 11251 代理人 成金玉
主权项 一种电信运营商垃圾短信处理系统,其特征在于包括:线上及时处理内核子系统、线下数据挖掘子系统和数据库;所述数据库包括黑白名单库和短信模板库;(1)线上及时处理内核子系统,包括简单规则匹配模块、短信预处理模块、快速模板匹配模块和分类处理模块;其中:简单规则匹配模块:该模块分别根据短信的发送号码和短信长度进行简单的规则判断,首先对短信的发送号码进行黑白名单匹配,如果匹配上白名单,则认为该短信为正常短信,短信可正常发送;如果被黑名单匹配上,则判断为垃圾短信,不能正常发送;如果短信的发送号码不在黑白名单之列,则进行短信长度判断;由于垃圾短信所需传递的信息量较丰富,几乎不存在长度小于10个字的垃圾短信,如果输入短信的长度小于10个字,则可判定其为正常短信,可以正常发送,反之则输出给后续模型进行处理和判断;短信预处理模块:对简单规则匹配模块输出的短信进行归一化处理,所述处理包括大小写转化、繁体转简体、去掉无效符号;然后进行分词,并对短信中包含的具体电话号码、数字、字母分别进行号码类、数字类、字母类符号替换,得到本系统所需要的短信分词结果,以方便后续模块进行匹配和分类处理;快速模板匹配模块:将短信预处理模块输出的短信与系统预置的模板短信进行匹配,计算短信内容的相似度,相似度用距离值来衡量;若相似距离与系统设定的阈值范围内,即判定输入短信为与模板短信同类,所述同类的意思是,如果模板短信为垃圾类,则判定该输入短信为垃圾短信,如果模板短信为正常类,则判定该输入短信为正常短信;若相似距离超过系统设定的阈值,则输出给后续的分类处理模块进行再次判断处理;快速模板匹配模块中使用的模板短信存储在短信模板库中;分类处理模块:对快速模板匹配模块输出的短信,利用已训练的类别相关N‑gram模型进行似然值计算,对不同类别的似然值进行最大似然判决,给出短信分类结果;若垃圾短信模型在该短信上似然值最高,则认定该短信为垃圾短信;若非垃圾短信模型在该短信上似然值最高,则认为该短信不是垃圾短信;训练的N‑gram模型计算时需要采用模板短信库模块中存储记录的垃圾短信、正常短信;(2)线下数据挖掘子系统,包括短信粗选模块和模板聚类模块;其中:短信粗选模块,在积累的历史数据中,从用户号码、短时间收发量、发送范围判定是否为垃圾短信,若短时间内,同一号码发送短信量超过阈值T1,并且发送给N个不同用户,短 信重复短信占比超过阈值T2,发送时间间隔小于阈值T3,则判定这些短信为备选的垃圾短信,其中T1、T2、T3和N均是根据短信的实际情况确定的先验阈值;模板聚类模块,将经过短信粗选模块的备选垃圾短信进行聚类,对聚类结果中确定为垃圾短信的短信数据输入到短信模板库,确定为正常的短信数据也输入到短信模板库中,由短信模板库根据模板库中已有情况确定每条短信是否需要新建模板,或是追加到已有模板;同时,若发现有个别用户存在持续发送垃圾短信,或用户连续几个月均是发送正常短信,为正常用户,则将这些数据输入到黑白名单库,维护黑白名单。
地址 100084 北京市海淀区清华园1号