发明名称 |
一种基于中文分词识别不规则垃圾短信的方法 |
摘要 |
本发明公开了一种基于中文分词识别不规则垃圾短信的方法,对于同一短信,依据短信的内容,先按照正常的横向读取进行中文分词,根据分词结果的单词个数计算权重。再根据不规则短信必须控制每行短信字符数的特点,判定不规则短信内容的范围,对不规则排列短信内容范围内的字符采取竖向转换为横向排列,然后进行中文分词,根据总体的分词结果的单词个数计算权重。然后根据两次权重比较,判断此短信是正常排列的短信,还是不规则排列的短信。进而依据排列的类型,再采用内容分析匹配关键字,识别是否垃圾短信,进而避免了垃圾短信的漏判,提高垃圾短信的查全率和查准率。 |
申请公布号 |
CN103874033A |
申请公布日期 |
2014.06.18 |
申请号 |
CN201210533577.X |
申请日期 |
2012.12.12 |
申请人 |
上海粱江通信系统股份有限公司 |
发明人 |
肖克华 |
分类号 |
H04W4/14(2009.01)I;H04M1/725(2006.01)I;G06F17/27(2006.01)I |
主分类号 |
H04W4/14(2009.01)I |
代理机构 |
上海兆丰知识产权代理事务所(有限合伙) 31241 |
代理人 |
章蔚强 |
主权项 |
一种基于中文分词识别不规则垃圾短信的方法,其特征在于,包括下列步骤:步骤S1,接收短信,读取短信内容;步骤S2,根据短信内容,按照从左到右的横向排列方式,进行中文分词;步骤S 3,按步骤S2的中文分词结果,记录单词个数W1,W1为正整数,计算短信横排权重Q1=1/(1+W1);步骤S4,根据不规则排列短信用控制字符控制每行短信字符数的特点,计算上述接收的短信的不规则区域,将不规则区域中的短信内容按照竖向排列方式读取,按照读取的短信内容,将上述接收的短信转换为横向排列的短信;步骤S5,对步骤S4中转换得到的短信,按照从左到右的横向排列方式进行中文分词;步骤S6,按步骤S5的中文分词结果,记录单词个数W2,W2为正整数,计算短信竖排权重Q2=1/(1+W2);步骤S7,比较短信横排权重Q1与短信竖排权重Q2,若Q1<Q2,进入步骤S8b;若Q1>=Q2,进入步骤S8a;步骤S8a,判定短信为正常排列短信;步骤S8b,判定短信为不规则排列短信。 |
地址 |
200070 上海市闸北区天目中路585号1109室 |