发明名称 文本中不良文字信息的过滤方法及过滤系统
摘要 本发明涉及文本处理技术领域,具体涉及文本中不良文字信息的过滤方法及过滤系统。该过滤方法包括:步骤1,提取待过滤文本;步骤2,利用词典中词条长度动态确定最大匹配算法中词长Maxlen的值,通过Mexlen对待过滤文本进行分词;步骤3,循环判断分词后的每个词汇是否为敏感词汇,如果是敏感词汇,采用非敏感词汇替换敏感词汇后,输出替换敏感词汇后的文本。本发明解决了分词过程中MaxLen初始值不变所带来的长词被切分错误和时间长、效率低的问题。随后对分词后的词串进行敏感判断,并根据判断结果输出文本。由于采用了改进的分词方式,因此提高了整体过滤速度和过滤准确度。
申请公布号 CN105468584A 申请公布日期 2016.04.06
申请号 CN201511027950.4 申请日期 2015.12.31
申请人 武汉鸿瑞达信息技术有限公司 发明人 高玉环;喻西香;朱山;朱光喜
分类号 G06F17/27(2006.01)I 主分类号 G06F17/27(2006.01)I
代理机构 北京汇信合知识产权代理有限公司 11335 代理人 夏静洁
主权项 一种文本中不良文字信息的过滤方法,其特征在于,包括:步骤1,提取待过滤文本;步骤2,利用词典中词条长度动态确定最大匹配算法中词长Maxlen的值,通过Mexlen对所述待过滤文本进行分词;步骤3,循环判断分词后的每个词汇是否为敏感词汇,如果是敏感词汇,采用非敏感词汇替换所述敏感词汇后,输出替换敏感词汇后的文本。
地址 430000 湖北省武汉市东湖新技术开发区光谷大道35号银久科技产业园一期4幢3层3号