发明名称 |
敏感文本检测方法及装置 |
摘要 |
本发明公开了一种敏感文本检测方法及装置,属于信息处理技术领域。方法包括:获取当前检测文本的特征文本字符串;根据预先建立的有限自动状态机对特征文本字符串进行检测,得到每个关键词在特征文本字符串中的出现频率;对于多个关键词类别中的每个关键词类别,基于关键词类别对应的每个关键词的出现频率及每个关键词的预设权重,计算关键词类别在文本中的权重;当至少一个关键词类别的权重大于预设阈值时,确定文本为敏感文本。本发明根据预先建立的有限自动状态机对特征文本字符串进行检测时,仅需进行一次从头至尾的扫描,所以提高了检测效率,加快了检测速度;且在确定敏感文本时,还需基于关键词的预设权重,所以提高了检测粒度。 |
申请公布号 |
CN104866465A |
申请公布日期 |
2015.08.26 |
申请号 |
CN201410064854.6 |
申请日期 |
2014.02.25 |
申请人 |
腾讯科技(深圳)有限公司 |
发明人 |
张红林 |
分类号 |
G06F17/22(2006.01)I;G06F17/30(2006.01)I |
主分类号 |
G06F17/22(2006.01)I |
代理机构 |
北京三高永信知识产权代理有限责任公司 11138 |
代理人 |
罗振安 |
主权项 |
一种敏感文本检测方法,其特征在于,所述方法包括:获取当前检测文本的特征文本字符串;根据预先建立的有限自动状态机对所述特征文本字符串进行检测,得到每个关键词在所述特征文本字符串中的出现频率,所述有限自动状态机中包括多个关键词;对于多个关键词类别中的每个关键词类别,基于所述关键词类别对应的每个关键词的出现频率及所述每个关键词的预设权重,计算所述关键词类别在所述文本中的权重;当至少一个关键词类别的权重大于预设阈值时,确定所述文本为敏感文本。 |
地址 |
518000 广东省深圳市福田区振兴路赛格科技园2栋东403室 |