发明名称 基于模式库的智能手机端不良内容网站鉴别方法
摘要 基于模式库的智能手机端不良内容网站鉴别方法,网络设有云端服务器提供模式库让智能手机端下载,1)对现有不良网站内容样本作提取关键词处理,根据其出现频率与不良程度进行分级;将关键词模式库分为若干级,每级关键词模式库赋予独一的不良等级分数,分数越高,代表包含此级关键词模式库中关键词的内容为不良信息的可能性越大;2)对待访问网站内容,使用分词算法对其进行关键词提取处理;3)将提取到的关键词与关键词模式库进行匹配,确定其所属模式库的等级,4)将关键词的不良等级分数进行累加,当总和大于某一预设阈值时,即可判决此网页内容为不良信息;本发明具有检测率高和误检测率低的优点。
申请公布号 CN102170640A 申请公布日期 2011.08.31
申请号 CN201110146136.X 申请日期 2011.06.01
申请人 南通海韵信息技术服务有限公司 发明人 肖波;孙浩量;刘建树;肖顺华;李骥
分类号 H04W12/12(2009.01)I;H04L29/08(2006.01)I;G06F17/30(2006.01)I 主分类号 H04W12/12(2009.01)I
代理机构 南京天翼专利代理有限责任公司 32112 代理人 陈建和
主权项 基于模式库的智能手机端不良内容网站鉴别方法,其特征是网络设有云端服务器提供模式库让智能手机端(客户端)下载,模式库(关键词模式库)以下述方式建立:(1)对现有不良网站内容样本作提取关键词处理,根据其出现频率与不良程度进行分级;将关键词模式库分为若干级,每级关键词模式库赋予独一的不良等级分数,分数越高,代表包含此级关键词模式库中关键词的内容为不良信息的可能性越大;(2)对待访问网站内容,使用分词算法对其进行关键词提取处理;(3)将提取到的关键词与关键词模式库进行匹配,确定其所属模式库的等级,即获得该关键词所对应的不良等级分数,若无匹配模式库,此关键词的不良等级分数即为0;(4)将关键词的不良等级分数进行累加,当总和大于某一预设阈值时,即可判决此网页内容为不良信息;(5) 当某不良等级分数总和达不到阈值时,关键词模式库还提供语义线索行为判别方式;即在模式库中定义一个不良信息关键词序列 A、B、C、 D,其中A、B、C、 D均为不良关键词,其不良等级分数总和达不到阈值,但当某一网站内容以预设序列定义的顺序包含这四个关键词时,则判决此页面内容为不良信息;(6)将此不良网站内容上传至云端服务器;云端服务器作模式库更新,让客户端下载到最新的模式库。
地址 226600 江苏省南通市海安县城长江路288号