发明名称 基于关键词权值的文本过滤方法与系统
摘要 本申请提供了一种基于关键词权值的文本过滤方法,该方法包括以下步骤:计算关键词的权值;以及基于所计算出的关键词的权值对文本进行过滤;其中,计算关键词权值的步骤包括:判断所述关键词是否是全新关键词,如果是,则计算历史判定数据中的正确判定数据的条数和错误判定数据的条数、以及包含所述关键词的正确判定数据的条数和错误判定数据的条数;以及计算所述关键词的权值。此外,本申请还提供了一种基于关键词权值的文本过滤系统。
申请公布号 CN103838710B 申请公布日期 2016.11.30
申请号 CN201210479196.8 申请日期 2012.11.22
申请人 中国移动通信集团公司 发明人 粟栗;张峰;付俊
分类号 G06F17/27(2006.01)I 主分类号 G06F17/27(2006.01)I
代理机构 北京英赛嘉华知识产权代理有限责任公司 11204 代理人 余朦;杨莘
主权项 一种基于关键词权值的文本过滤方法,所述方法包括以下步骤:计算关键词的权值;以及基于所计算出的关键词的权值对文本进行过滤;其中,计算关键词权值的步骤包括:判断所述关键词是否是全新关键词,如果所述关键词不是全新关键词,则计算历史判定数据中的正确判定数据的条数M和错误判定数据的条数N、以及包含所述关键词的正确判定数据的条数M1和错误判定数据的条数N1;以及计算所述关键词的权值<img file="FDA0000952458310000011.GIF" wi="852" he="119" />其中VL是由用户设定的所述关键词的最小权值,VH是由用户设定的所述关键词的最大权值;如果所述关键词是全新关键词,则令所述关键词的权值Value0=(VH+VL)/2,其中VL是由用户设定的所述关键词的最小权值,VH是由用户设定的所述关键词的最大权值。
地址 100032 北京市西城区金融大街29号