发明名称 一种基于聚合词树的敏感词匹配处理系统及方法
摘要 本发明提供了一种基于聚合词树的敏感词匹配处理系统及方法,该系统包括敏感词库单元、聚合词树算法处理器、语义分析单元、行业领域分析单元。通过聚合词树的方式对敏感词库中的敏感词进行聚合,形成词树结构,使敏感词库的数据结构有序,节省了内存空间,提高了匹配效率。本发明结合了行业规则的运用,并结合语义分析和行业环境进行过滤的方式,排除了那些在相应行业领域不属于敏感词范畴的关键词,减少了敏感词匹配的错误,提高了匹配准确率。
申请公布号 CN102682090B 申请公布日期 2015.09.02
申请号 CN201210123747.7 申请日期 2012.04.26
申请人 焦点科技股份有限公司 发明人 陶富成;邹铁鹏
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 南京知识律师事务所 32207 代理人 张苏沛
主权项 一种基于聚合词树的敏感词匹配处理的方法,其特征在于,包括:将敏感词库中的每个敏感词建立为词链,词链上的每个点就是该词中每个字对应的特征码,每个词链的结尾都有一个结束标志,将多条首字相同的词链聚合成一棵词树,整个敏感词库中的所有敏感词会聚合成多棵词树;构造、生成词树时,返回词树所包含敏感词中最短敏感词的长度;根据这些词树根结点的特征码算出它们的地址,存入一个内存地址表中备用;敏感词库中增加新的敏感词后,这些新的敏感词实时形成新的词链,并实时添加到所对应的词树中,如不存在对应的词树,那么具有首字相同的新词链就实时形成新的词树;读入目标信息进行扫描查找,首先判断文本中所扫描句子的长度,文本句子长度小于词树中最短敏感词的长度,则直接判断其不可能存在敏感词,而跳过此句,不进行匹配操作;按顺序扫描其中的每个字,判断如果目标信息中的字能构成词树上的一条完整的词链,就获得初步匹配成功的关键词;利用语义分析方法,获得句子中敏感词前面的词语,以及敏感词后面的词语,根据获得的多个词语通过文本聚类的方式确定该文本属于哪个行业内的信息,最后判断这个关键词在目标信息中是否是敏感词;如果是,对目标信息中的敏感词进行处理;在规定的时间内,没有被使用的词树,将退出内存,保证内存的资源充足;扫描目标信息中每个字,判断这个字的特征码地址是否在内存地址表中,如果不在,则直接扫描下一个字;如果在,则取出这个字对应的词树,这个字在这棵词树的根结点上;再判断下一个字在不在这棵词树中所有词链的第二个结点上,如果不在,则重新判断这个字的特征码是否在内存地址表中;如果在,则在这棵词树上提取相对应的词链,在提取的这条词链上,判断这个字后是否有结束标志,如果有结束标志,则表示已经成功匹配敏感词;在这条被提取的词链上,判断这个字后是否有结束标志,如果有结束标志,则表示已经在目标信息中成功匹配一个关键词,进行后续处理;如果没有结束标志,则在目标信息中按顺序取下一个字,判断是否在这条词链的第三个结点上,如果在,判断这个字后是否有结束标志,如果不在,则表示匹配不成功,重新判断词链上第二个结点的特征码的地址在不在内存地址表中;结合关键词在目标信息上下文的内容进行语义分析,获得句子中敏感词前面的词语,以及敏感词后面的词语,根据获得的多个词语通过文本聚类的方式确定该文本属于哪个行业内的信息,根据业务规则,判断这个关键词在文中是否是敏感词;根据目标信息属性确定其行业领域,通过事先设置的行业规则,判断初步匹配成功的关键词,在所在的行业领域内是否属于敏感词。
地址 210061 江苏省南京市高新技术产业开发区星火路软件大厦A座8-12F