一种面向网页的不良Web内容识别方法,申请号CN201110312691.5-传众专利搜索

发明名称	一种面向网页的不良Web内容识别方法
摘要	本发明公开了一种面向网页的不良Web内容识别方法，按照如下步骤：(1)以待识别的网页Page为输入，提取网页视觉结构信息、HTML标签信息、链接信息以及正文信息；(2)采用2层识别模型识别该Page是否是不良内容网页：首先采用面向网页结构的不良内容识别模型判别Page，如果Page判为不良则输出；否则采用面向网页文本内容的识别模型判别Page并输出结果；面向网页结构的不良内容识别模型采用决策树模型学不良网页在页面结构中的规律并完成分类。面向网页文本内容的识别模型基于色情词典采用规则过滤明显为正常的网页，对剩下的疑似色情网页要区分的性知识类网页和真正色情网页，构建正负例比例1∶1的训练数据，抽取特征词采用SVM分类模型学规律并完成最终识别。
申请公布号	CN102332028B	申请公布日期	2013.08.28
申请号	CN201110312691.5	申请日期	2011.10.15
申请人	西安交通大学	发明人	郑庆华;刘子奇;刘均;田振华;程晓程
分类号	G06F17/30(2006.01)I	主分类号	G06F17/30(2006.01)I
代理机构	西安通大专利代理有限责任公司 61200	代理人	朱海临
主权项	一种面向网页的不良Web内容识别方法，其特征在于，包括如下步骤：第一步，提取网页视觉结构、HTML标签、链接三类信息，分别从3类信息中提取12维特征，利用决策树构建的二元分类模型识别当前网页的12维特征，如果判定是不良网页，则标记该网页为不良网页，否则执行第二步；第二步，提取网页文本内容和特定HTML标签内容，其中特定HTML标签包括title、A标签；由人工设置初始种子色情词汇并自动迭代生成最终色情词典，并通过学习到的规则判别正常页面和疑似色情页面；在此基础上，基于文档频率和信息增益方法在整个文档集上抽取特征词，利用SVM模型从疑似色情网页中识别色情网页；所述第一步包括如下具体步骤：Step1:通过分析大量不良网站的页面，将视觉结构特征、HTML标签特征、链接特征三类特征具体细化为12维特征向量定义为Fstruct，包括F1,F2,F3,…,F12，其中每一维对应一个特征值，这些特征值对应如下：视觉结构特征A.F1：背景颜色BGColor；获取方法:背景颜色对应标签属性为“background”的属性值；特征值类型：枚举型；B.F2：页面主体是否由一张大图片占据BigPicOccup；获取方法：检查IMG标签中图像的宽度和高度属性值；特征值类型：布尔型；C.F3：图片个数PicN；获取方法：统计整个html页面中标签为IMG的个数；特征值类型：数值型；D.F4：同级图片连续出现数目最大值MaxOccurPic；获取方法：统计html页面中所有兄弟节点中连续IMG标签个数；特征值类型：数值型；E.F5：字体信息FontInfo；获取方法：检查font标签中face属性值、size属性值；特征值类型：枚举型；链接特征F.F6：出现超链接个数HyplinkN；获取方法：计算整个html页面中A标签个数；特征值类型：数值型；G.F7：所有超链接实际指向的不同URL数目UrlOutN；获取方法：遍历整个html页面，每次遍历到A标签，判断如果该A标签中的URL是否在Hash表中存储，如果未存储则计数加1，并将该URL存储在Hash表中，否则继续遍历，直到遍历完整个html页面，统计最终的计数：特征值类型：数值型；H.F8：同级超链接连续出现数目最大值MaxHyplinkOccurN；获取方法：经过BeautifulSoup解析html页面后得到一张树形结构，计算树中每个级别的连续A标签个数的最大值；特征值类型：数值型；HTML标签特征I.F9锚文本长度Alen；获取方法：计算标签A中NavigableString的长度，NavigableString定义为起始<A>标签和结束</A>标签中间的字符；特征值类型：数值型；J.F10：标签A中title属性长度TitleLen；获取方法：计算A标签中title属性对应的字符串的长度；特征值类型：数值型；K.F11：Title标签包含的NavigableString长度TitleNavstrLen；获取方法：计算Title标签包含的NavigableString长度；特征值类型：数值型；L.F12：Meta标签包含的NavigableString长度MetaNavstrLen；获取方法：计算Meta标签包含的NavigableString长度；特征值类型：数值型；Step2:借助于HTML解析工具计算每一维特征值，并为每个页面生成对应的特征向量，特征向量中每一维值对应上述12维特征计算得到的特征值；Step3:利用决策树J48方法训练得到判别模型，1）训练数据构造如下：从门户网站新浪、腾讯、天涯论坛搜集正常网页作为正例，从色情网站搜集不良网页作为负例，正负样例比例为1：10；2）取所有12维特征作为特征集Fstruct，包括F1,F2,F3,…,F12；3）遍历特征集中所有特征，分别计算每个特征对应的信息增益率，取具有最大信息增益率的特征F为当前根特征，并从特征集FStruct中删除该特征；4）重复步骤3）直到特征集为空或者当前根特征不再划分数据集；Step4：对于输入网页，采用Step1、2中的方法计算该网页中的特征向量，并作为输入到Step3中训练出的决策树模型，最后判别输出该网页属于正常网页还是不良网页；所述第二步包括如下具体步骤：Step1：人工设定种子色情词汇，根据文档频率DF、共现句子频率CoSenFreq、最短距离MinDist和词性POS的指标生成色情词汇，并通过常用领域文本集过滤，最终形成色情词典PornDic；Step2：基于上一步生成的色情词典PornDic，结合规则识别正常网页NorPage和疑似色情网页SuspPage；Step3：以真正色情网页和疑似色情网页1：1比例构造训练数据集，抽取特征词形成特征向量，最终通过SVM模型学习得到二元分类模型，识别疑似色情网页是否是真正色情网页。
地址	710049 陕西省西安市咸宁西路28号