发明名称 一种含敏感度计算的网页过滤方法
摘要 本发明涉及一种含敏感度计算的网页过滤方法,属于信息过滤技术领域。本发明通包括步骤:S1,实验语料库收集;S2,语料库的构建及敏感信息语料库的构建;S3,页面信息预处理;S4,页面词语总数统计及敏感词语总数统计;S5,页面敏感度的判断。本发明采用含页面敏感度计算的搜索结果中有效地剔除了敏感信息,且根据当前页面的链接计算该链接所含信息的敏感度,从而可以深度挖掘敏感信息并予以避免;通过阈值的控制以及敏感度的计算可有效地将不同暴力指数的暴力游戏页面显示出来,从而可以有效地控制不同级别或年龄段人群的需求。
申请公布号 CN103678602B 申请公布日期 2017.02.01
申请号 CN201310685717.X 申请日期 2013.12.16
申请人 昆明理工大学 发明人 张晶;刘志;陈沫良;严涵;沈江炎
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 代理人
主权项 一种含敏感度计算的网页过滤方法,其特征在于:所述网页过滤方法的具体步骤如下:A、实验语料库收集:收集敏感词作为敏感词语料库;收集敏感词及非敏感词作为语料库,将敏感词语料库添加到语料库中形成新的语料库;B、新的语料库的构建及敏感词语料库的构建:根据新的语料库及敏感词语料库规模的不同分别以不同的组织结构存放在内存里:其敏感词语料库规模较小,采用List结构;新的语料库规模较大,采用Trie树结构;C、页面信息预处理:首先对页面信息进行URL链接提取,用以获取二级页面信息,将当前页面和二级页面信息进行无效词语及符号删除;D、页面词语总数统计及敏感词语总数统计:将页面信息的分词结果与新的语料库一一比对,把匹配到的词语及该词语出现的总次数以{key1:value1,key2:value2,...}结构存放在Python的Dictionary中,然后将Dictionary结构转换成[[w1,v1],[w2,v2],...]形式的逆序嵌套List;通过计算List中嵌套List的value之和便可统计出页面所有词语出现的总次数<i>T</i><sup><sub><i> </i></sub></sup><sub><i>a</i></sub>;将页面信息的分词结果与敏感词语料库一一比对,把匹配到的敏感词语及该词语出现的总次数以{key1:value1,key2:value2,...}结构存放在Python的Dictionary中,然后将Dictionary结构转换成[[w1,v1],[w2,v2],...]形式的逆序嵌套List;通过计算List中嵌套List的value之和便可统计出页面所有敏感词语出现的总次数<i>T</i><sup><sub><i> </i></sub></sup><sub><i>s</i></sub>;E、页面敏感度的判断:根据页面所有词语出现的总次数<i>T</i><sup><sub><i> </i></sub></sup><sub><i>a</i></sub>和所有敏感词语出现的总次数<i>T</i><sup><sub><i> </i></sub></sup><sub><i>s</i></sub>,计算敏感度<i>S</i> = arcsin(<i>T</i><sup><sub><i> </i></sub></sup><sub><i>s</i></sub>/<i>T</i><sup><sub><i> </i></sub></sup><sub><i>a</i></sub>),并将<i>S</i> 与阈值<i>V</i><sup><sub><i> </i></sub></sup><sub><i>s</i></sub>进行比较:如果<i>V</i><sup><sub><i> </i></sub></sup><sub><i>s</i></sub>><i>S</i> ,则说明页面信息敏感度没有超过阈值,显示页面信息;如果<i>V</i><sup><sub><i> </i></sub></sup><sub><i>s</i></sub>≤<i>S</i> ,则说明页面信息敏感度超过了阈值,不显示页面信息。
地址 650093 云南省昆明市五华区学府路253号