发明名称 一种基于中文分词识别不规则垃圾短信的方法
摘要 本发明公开了一种基于中文分词识别不规则垃圾短信的方法,对于同一短信,依据短信的内容,先按照正常的横向读取进行中文分词,根据分词结果的单词个数计算权重。再根据不规则短信必须控制每行短信字符数的特点,判定不规则短信内容的范围,对不规则排列短信内容范围内的字符采取竖向转换为横向排列,然后进行中文分词,根据总体的分词结果的单词个数计算权重。然后根据两次权重比较,判断此短信是正常排列的短信,还是不规则排列的短信。进而依据排列的类型,再采用内容分析匹配关键字,识别是否垃圾短信,进而避免了垃圾短信的漏判,提高垃圾短信的查全率和查准率。
申请公布号 CN103874033A 申请公布日期 2014.06.18
申请号 CN201210533577.X 申请日期 2012.12.12
申请人 上海粱江通信系统股份有限公司 发明人 肖克华
分类号 H04W4/14(2009.01)I;H04M1/725(2006.01)I;G06F17/27(2006.01)I 主分类号 H04W4/14(2009.01)I
代理机构 上海兆丰知识产权代理事务所(有限合伙) 31241 代理人 章蔚强
主权项 一种基于中文分词识别不规则垃圾短信的方法,其特征在于,包括下列步骤:步骤S1,接收短信,读取短信内容;步骤S2,根据短信内容,按照从左到右的横向排列方式,进行中文分词;步骤S 3,按步骤S2的中文分词结果,记录单词个数W1,W1为正整数,计算短信横排权重Q1=1/(1+W1);步骤S4,根据不规则排列短信用控制字符控制每行短信字符数的特点,计算上述接收的短信的不规则区域,将不规则区域中的短信内容按照竖向排列方式读取,按照读取的短信内容,将上述接收的短信转换为横向排列的短信;步骤S5,对步骤S4中转换得到的短信,按照从左到右的横向排列方式进行中文分词;步骤S6,按步骤S5的中文分词结果,记录单词个数W2,W2为正整数,计算短信竖排权重Q2=1/(1+W2);步骤S7,比较短信横排权重Q1与短信竖排权重Q2,若Q1<Q2,进入步骤S8b;若Q1>=Q2,进入步骤S8a;步骤S8a,判定短信为正常排列短信;步骤S8b,判定短信为不规则排列短信。
地址 200070 上海市闸北区天目中路585号1109室