发明名称 一种网页分类方法及装置
摘要 本发明公开了一种网页分类方法及装置。本发明的网页分类方法包括:根据网页样本集合建立特征词分类器,所述网页地址样本合集包括:多个样本网页地址和各所述样本网页地址对应的网页类型;获取预定数量的网页地址,通过所述特征词分类器确定每个所述网页地址所属的所述网页类型;对确定出网页类型的所述网页地址进行去冗余处理得到结构字符串,所述结构字符串为网页地址结构;存储所述网页地址结构及其对应的所述网页类型;在对网页进行分类时,获取待分类网页的网页地址,对该网页地址进行去冗余处理得到对应的网页地址结构,利用该网页地址结构从存储中查找出所述待分类网页所属的网页类型;本发明的方法实现对网页快速高效的分类。
申请公布号 CN105512143A 申请公布日期 2016.04.20
申请号 CN201410504901.4 申请日期 2014.09.26
申请人 中兴通讯股份有限公司 发明人 于波
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 深圳鼎合诚知识产权代理有限公司 44281 代理人 薛祥辉;李发兵
主权项 一种网页分类方法,其特征在于,包括如下步骤:根据网页样本集合建立特征词分类器,所述网页地址样本合集包括:多个样本网页地址和各所述样本网页地址对应的网页类型;获取预定数量的网页地址,通过所述特征词分类器确定每个所述网页地址所属的所述网页类型;对确定出网页类型的所述网页地址进行去冗余处理得到结构字符串,所述结构字符串为网页地址结构;存储所述网页地址结构及其对应的所述网页类型;在对网页进行分类时,获取待分类网页的网页地址,对该网页地址进行去冗余处理得到对应的网页地址结构,利用该网页地址结构从存储中查找出所述待分类网页所属的网页类型。
地址 518057 广东省深圳市南山区高新技术产业园科技南路中兴通讯大厦