发明名称 |
一种短信过滤的方法和装置 |
摘要 |
本发明实施例公开了一种短信过滤方法,分类器由包含复数个特征项的向量组成,包括:分类过滤接收到的短信,获取所述短信为垃圾短信的概率和正常短信的概率;如果所述垃圾短信的概率和所述正常短信的概率之差的绝对值小于预设阈值,则获取所述短信的反馈结果;根据所述反馈结果进行自适应学后,更新分类器;如果所述短信有不在热点词库中的新词,则根据预置条件进行词频排序后,更新分类器。还公开了一种短信过滤装置,利用本发明实施例,能够动态跟进短信信息内容的变化,调整短信过滤方式,提高短信的过滤能力。 |
申请公布号 |
CN101877837B |
申请公布日期 |
2013.11.06 |
申请号 |
CN200910136156.1 |
申请日期 |
2009.04.30 |
申请人 |
华为技术有限公司;北京邮电大学 |
发明人 |
徐蔚然;刘东鑫;王占一;杜家春 |
分类号 |
H04W4/14(2006.01)I;G06F17/30(2006.01)I |
主分类号 |
H04W4/14(2006.01)I |
代理机构 |
深圳市深佳知识产权代理事务所(普通合伙) 44285 |
代理人 |
彭愿洁;李文红 |
主权项 |
一种短信过滤方法,分类器由包含复数个特征项的向量组成,其特征在于,包括:分类过滤接收到的短信,获取所述短信为垃圾短信的概率和正常短信的概率;如果所述垃圾短信的概率和所述正常短信的概率之差的绝对值小于预设阈值,则获取所述短信的反馈结果;根据所述反馈结果进行自适应学习后,更新分类器;如果所述短信有不在热点词库中的新词,则根据预置条件进行词频排序后,更新分类器;所述分类过滤接收到的短信,获取所述短信为垃圾短信的概率和正常短信的概率包括:黑白名单过滤和内容过滤:如果所述短信所属号码在黑名单中,则将所述短信属性设为垃圾短信;如果所述短信所属号码在白名单中,则将所述短信属性设为正常短信;如果所述短信所属号码既不在黑名单中也不在白名单中,则根据下式进行内容过滤: <mrow> <mi>P</mi> <mrow> <mo>(</mo> <msub> <mi>C</mi> <mi>j</mi> </msub> <mo>|</mo> <msub> <mi>d</mi> <mi>x</mi> </msub> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mrow> <mi>P</mi> <mrow> <mo>(</mo> <msub> <mi>C</mi> <mi>j</mi> </msub> <mo>)</mo> </mrow> <mi>P</mi> <mrow> <mo>(</mo> <msub> <mi>d</mi> <mi>x</mi> </msub> <mo>|</mo> <msub> <mi>C</mi> <mi>j</mi> </msub> <mo>)</mo> </mrow> </mrow> <mrow> <mi>P</mi> <mrow> <mo>(</mo> <msub> <mi>d</mi> <mi>x</mi> </msub> <mo>)</mo> </mrow> </mrow> </mfrac> <mo>,</mo> <mi>j</mi> <mo>=</mo> <mn>0,1</mn> <mo>,</mo> </mrow>其中, <mrow> <mi>P</mi> <mrow> <mo>(</mo> <msub> <mi>d</mi> <mi>x</mi> </msub> <mo>|</mo> <msub> <mi>C</mi> <mi>j</mi> </msub> <mo>)</mo> </mrow> <mo>=</mo> <munderover> <mtext>Π</mtext> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>n</mi> </munderover> <mo>[</mo> <mi>P</mi> <mrow> <mo>(</mo> <msub> <mi>t</mi> <mi>i</mi> </msub> <mo>|</mo> <msub> <mi>C</mi> <mi>j</mi> </msub> <mo>)</mo> </mrow> <mo>]</mo> <mo>,</mo> <mi>j</mi> <mo>=</mo> <mn>0,1</mn> <mo>,</mo> <mi>P</mi> <mrow> <mo>(</mo> <msub> <mi>t</mi> <mi>i</mi> </msub> <mo>|</mo> <msub> <mi>c</mi> <mi>j</mi> </msub> <mo>)</mo> </mrow> </mrow>表示在短信属性为cj,垃圾短信或正常短信的前提下,某个词ti出现的概率,P(Cj|dx)为所述短信为垃圾短信的概率或正常短信的概率,所述dx表示短信。 |
地址 |
518129 广东省深圳市龙岗区坂田华为总部办公楼 |