发明名称 基于内容的敏感网页识别方法
摘要 本发明公开一种基于内容的敏感网页识别方法,包括步骤:在给定网页的统一资源定位器的条件下,获取该网页的源码,数据分流和预处理,获取文本信息和有效图像信息;利用连续敏感文本分类器对文本信息处理,如果分类器输出结果为敏感,则处理完毕。否则利用离散敏感文本分类器对文本信息处理,如果分类器输出结果大于事先给定阈值,识别结果为敏感,则处理完毕。否则利用图像分类器对图像识别,识别结果与离散分类器输出结果融合。本发明采用连续敏感文本识别器、离散文本识别器和敏感图像识别器三者结合的方案解决现有技术的问题,本发明利用web结构信息及构造了一个图像集合识别问题来进行信息融合,提高对敏感网页的识别率。
申请公布号 CN100412888C 申请公布日期 2008.08.20
申请号 CN200610073172.7 申请日期 2006.04.10
申请人 中国科学院自动化研究所 发明人 胡卫明;吴偶;陈周耀;朱明亮
分类号 G06K9/78(2006.01);G06K9/72(2006.01);H04L12/24(2006.01) 主分类号 G06K9/78(2006.01)
代理机构 中科专利商标代理有限责任公司 代理人 周国城
主权项 1. 一种基于内容的敏感网页识别方法,包括步骤:预处理步骤包括:在给定网页的统一资源定位器的条件下,获取该网页的源码,进行数据分流和预处理,获取文本信息;获取网页中图像部分的结构信息,挑选重要图像组成有效图像集合;网页敏感信息识别步骤包括:利用连续敏感文本识别器对文本信息进行识别处理步骤;利用离散文本识别器对文本信息进行识别步骤;利用敏感图像识别器对图像集合的图像进行识别步骤;如果离散文本识别器识别结果为不敏感,则敏感图像识别器识别的结果与离散敏感文本识别器识别的结果融合,根据其融合结果判断该网页是否敏感。
地址 100080北京市海淀区中关村东路95号