主权项 |
一种含敏感度计算的网页过滤方法,其特征在于:所述网页过滤方法的具体步骤如下:A、实验语料库收集:收集敏感词作为敏感词语料库;收集敏感词及非敏感词作为语料库,将敏感词语料库添加到语料库中形成新的语料库;B、新的语料库的构建及敏感词语料库的构建:根据新的语料库及敏感词语料库规模的不同分别以不同的组织结构存放在内存里:其敏感词语料库规模较小,采用List结构;新的语料库规模较大,采用Trie树结构;C、页面信息预处理:首先对页面信息进行URL链接提取,用以获取二级页面信息,将当前页面和二级页面信息进行无效词语及符号删除;D、页面词语总数统计及敏感词语总数统计:将页面信息的分词结果与新的语料库一一比对,把匹配到的词语及该词语出现的总次数以{key1:value1,key2:value2,...}结构存放在Python的Dictionary中,然后将Dictionary结构转换成[[w1,v1],[w2,v2],...]形式的逆序嵌套List;通过计算List中嵌套List的value之和便可统计出页面所有词语出现的总次数<i>T</i><sup><sub><i> </i></sub></sup><sub><i>a</i></sub>;将页面信息的分词结果与敏感词语料库一一比对,把匹配到的敏感词语及该词语出现的总次数以{key1:value1,key2:value2,...}结构存放在Python的Dictionary中,然后将Dictionary结构转换成[[w1,v1],[w2,v2],...]形式的逆序嵌套List;通过计算List中嵌套List的value之和便可统计出页面所有敏感词语出现的总次数<i>T</i><sup><sub><i> </i></sub></sup><sub><i>s</i></sub>;E、页面敏感度的判断:根据页面所有词语出现的总次数<i>T</i><sup><sub><i> </i></sub></sup><sub><i>a</i></sub>和所有敏感词语出现的总次数<i>T</i><sup><sub><i> </i></sub></sup><sub><i>s</i></sub>,计算敏感度<i>S</i> = arcsin(<i>T</i><sup><sub><i> </i></sub></sup><sub><i>s</i></sub>/<i>T</i><sup><sub><i> </i></sub></sup><sub><i>a</i></sub>),并将<i>S</i> 与阈值<i>V</i><sup><sub><i> </i></sub></sup><sub><i>s</i></sub>进行比较:如果<i>V</i><sup><sub><i> </i></sub></sup><sub><i>s</i></sub>><i>S</i> ,则说明页面信息敏感度没有超过阈值,显示页面信息;如果<i>V</i><sup><sub><i> </i></sub></sup><sub><i>s</i></sub>≤<i>S</i> ,则说明页面信息敏感度超过了阈值,不显示页面信息。 |