发明名称 一种敏感词自动过滤管理系统
摘要 本发明是一种敏感词自动过滤管理系统,用于检测网站数据里存在的敏感词(禁止词,侵权词,不雅词,政治性、煽动性的词语),采用搜索技术将内容中涉及敏感词查询出来,并且自动替换掉,还包含人工干预(修改误判、漏判)的成分,确保网站信息的有效性和正确性。本发明的核心部分由敏感词检测、人工干预操作、敏感信息替换以及分值效果回馈子系统组成。本发明建立了一条自动的“净化”信息流程,节省了大量的人力去做人工的检查、审核,极大的提高了效率,并且采用人工辅助判断也更加提高了信息的安全性。
申请公布号 CN101964000B 申请公布日期 2013.05.15
申请号 CN201010536437.9 申请日期 2010.11.09
申请人 焦点科技股份有限公司 发明人 熊巍
分类号 G06F17/30(2006.01)I;G06Q10/00(2012.01)I 主分类号 G06F17/30(2006.01)I
代理机构 南京知识律师事务所 32207 代理人 张苏沛
主权项 1.一种敏感词自动过滤管理系统,它由敏感词检测子系统、人工干预操作子系统、敏感信息替换子系统以及敏感词判定分值效果回馈子系统组成,其特征在于:所述敏感词检测子系统,它实现对包含敏感数据的检查,即在一定时间间隔内对原始数据建立索引,再通过对已建立索引的检查,分离出包含敏感信息的数据,如果不包含敏感信息就忽略,如果包含敏感信息则将该敏感信息采集下来存放于存储介质,这时存储的数据是所有可疑数据,包括确定为敏感数据的-高敏感信息、可能为敏感数据的-疑似敏感信息,为人工干预操作子系统和敏感信息替换子系统做数据准备;所述敏感词检测子系统利用搜索工具对原始数据进行检索、分析,根据其分析结果与敏感词的相关性,从而确定该数据是否是敏感数据;对原始数据的检索、分析是,当遇到简单的敏感词,以该敏感词与包含敏感词的具体数据的相似性,作为分析依据;当遇到较为复杂多个词构成的敏感词采用矢量相似算法;对于矢量计算过程,在涉及到词性为敏感词时,新参数敏感数据的词性frequency boost发挥作用,使其矢量值更加倾向于是确定包含敏感信息的文档;根据词汇的出现次数、查询条件的频度、查询的向量值、敏感数据的词性建立数据结构,以便未来快速的查找敏感数据;所述人工干预操作子系统,它实现对敏感词检测子系统检测出的包含敏感信息的数据进行人工审核处理和查漏补缺,在敏感词检测子系统做完初步检查后,筛选下来的结果分为两类,一类是需要人工审核处理和另一类不需要人工审核处理的系统自动处理,操作员参照系统的推荐值进行处理;所述敏感信息替换子系统,它实现对已经被判定为高敏感信息的数据进行过滤与替换,不在面向互联网的网页上展示这些带有高敏感信息的数据,屏蔽搜索引擎对这些高敏感信息数据的收集,做到信息的安全展现;所述敏感词判定分值效果回馈子系统,它实现对人工审核过程中所执行操作的记录,并针对这些记录进行拟合计算,将这个计算值反馈作用于下一周期的判断阀值,依据实际数据在合理范围的波动以适应数据环境的变化,根据这些操作的趋向性修改系统中最初设定的判定是否为敏感信息的阀值;建立科学的敏感词评价体系,所述评价体系由数据采集单元根据词汇的出现次数frequency、查询条件term的频度、查询query vector的向量值、敏感数据的词性frequency boost建立;所述敏感数据的词性frequency boost通过下列公式得到:<img file="773800DEST_PATH_IMAGE001.GIF" wi="588" he="79" />。
地址 210061 江苏省南京市高新技术产业开发区星火路软件大厦A座8F