发明名称 一种识别网页类型的系统和方法
摘要 本发明涉及网络信息检索与挖掘领域,特别涉及一种识别网页类型的系统和方法。包括以下步骤:预先定义启发式规则并生成启发式规则列表;从训练网页中提取预定特征并形成标准化的特征向量,对所述标准化的特征向量进行两次优化形成精简的特征集合,构建分类器和特征抽取器,并通过分类器生成分类模型;基于待识别网页的URL和源代码,在所述启发式规则列表中执行规则匹配;匹配成功则输出待识别网页的网页类型;不成功则利用分类器对待识别网页执行网页类型分类。本发明的识别网页类型的系统和方法,使用灵活方便,识别速度快、识别精度高,而且在对跨语种的网页进行识别时不需做大的改动,识别效率高,具有较高的实际利用价值。
申请公布号 CN103544210A 申请公布日期 2014.01.29
申请号 CN201310391961.5 申请日期 2013.09.02
申请人 烟台中科网络技术研究所 发明人 李海燕;王海洋;刘大伟;刘玮;余智华;隋雪青
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 北京轻创知识产权代理有限公司 11212 代理人 杨立
主权项 一种识别网页类型的方法,包括以下步骤: (1)对特定的一种或多种网页类型预先定义启发式规则并生成启发式规则列表,所述任一启发式规则对应唯一的网页类型; (2)选取训练网页,从训练网页中提取预先定义的预定特征并形成标准化的特征向量,对所述标准化的特征向量进行两次优化形成精简的特征集合,并基于所述精简的特征集合构建分类器和特征抽取器,所述分类器通过所述精简的特征集合生成用于确定待识别网页网页类型的分类模型;所述特征抽取器根据所述精简的特征集合设定了对待识别网页抽取的设定特征; (3)基于待识别网页的统一资源定位符(URL)和源代码,在所述启发式规则列表中执行规则匹配,若所述识别网页的URL和源代码符合所述启发式规则定义的条件,则规则匹配成功,进入步骤(4);否则,进入步骤(5); (4)根据匹配的规则输出待识别网页的网页类型; (5)将待识别网页的URL和源代码输入到所述特征抽取器中,所述特征抽取器抽取待识别网页的设定特征,所述分类器根据抽取到的所述设定特征和所述分类模型,对待识别网页执行网页类型分类,输出待识别网页的网页类型。 
地址 264003 山东省烟台市高新区蓝海路1号蓝海国际软件园A座