发明名称 网页类型识别方法及装置
摘要 本发明公开了一种网页类型识别方法及装置,该方法包括:在多个已知网页类型的样本网页中分别统计是否包含多个目的页面特征,得到统计结果;利用决策树算法对多个样本网页的已知网页类型和统计结果进行分析,得到目的页面特征的优先级排序,以及目的页面特征与网页类型之间的对应关系;按照所述优先级排序在待识别网页中依次查找所述目的页面特征,根据查找结果和所述对应关系确定待识别网页的网页类型。与现有技术相比,该方法可以利用样本网页对多个目的页面特征的有效性进行排序,在识别待识别网页时,按照排序先查找有效性较高的目的页面特征,然后查找有效性较低的目的页面特征,缩短了识别耗费的时间,提高了识别效率。
申请公布号 CN103577547A 申请公布日期 2014.02.12
申请号 CN201310476416.6 申请日期 2013.10.12
申请人 优视科技有限公司 发明人 梁捷;王磊
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 北京弘权知识产权代理事务所(普通合伙) 11363 代理人 陈蕾;许伟群
主权项 一种网页类型识别方法,其特征在于,包括:在多个已知网页类型的样本网页中分别统计是否包含多个目的页面特征,得到统计结果;利用决策树算法对多个样本网页的已知网页类型和统计结果进行分析,得到目的页面特征的优先级排序,以及目的页面特征与网页类型之间的对应关系;按照所述优先级排序在待识别网页中依次查找所述目的页面特征,根据查找结果和所述对应关系确定待识别网页的网页类型。
地址 100080 北京市海淀区苏州街29号维亚大厦16层10-20室