发明名称 一种网页分类方法和设备
摘要 本发明公开了一种网页分类方法和设备,该方法利用现有URL类别库中的记录,建立虚拟的层级URL,并对层级URL的类别进行预测。当需要对待分类网页进行分类时,根据待分类网页的URL查询URL类别库;如果未查询到匹配的URL,则根据该URL的上层URL查询URL类别库,并在查询到匹配的URL时,根据查询到的URL的预测类别确定待分类网页的类别。在本发明中,提高了网页分类的效率和成功率。
申请公布号 CN102955810B 申请公布日期 2015.12.02
申请号 CN201110249270.2 申请日期 2011.08.26
申请人 中国移动通信集团公司 发明人 徐萌;何洪凌;胡珉;罗治国;孙少陵;陶涛;陈婷;张新访;李成华
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 北京鑫媛睿博知识产权代理有限公司 11297 代理人 龚家骅
主权项 一种网页分类方法,其特征在于,应用于基于统一资源定位符URL类别库实现的网页分类流程,所述URL类别库中记录有各层级URL及各URL的预测类别,其中,相邻层级的URL中的上层URL是在下层URL的基础上截取得到的,该方法包括:根据待分类网页的URL查询URL类别库;如果未查询到匹配的URL,则根据该URL的上层URL查询URL类别库,并在查询到匹配的URL时,根据查询到的URL的预测类别确定待分类网页的类别;其中,所述URL类别库的生成过程,包括:遍历所述URL类别库中的URL,并当遍历到一个URL时,从所述URL类别库中选择该URL,并根据选择出的URL生成该URL的上一层级URL;判断生成的上一层级URL是否已经存在于所述URL类别库中,并当所述URL类别库中不存在该上一层级URL时,确定该上一层级URL的预测类别,并将该上一层级URL及其预测类别记录在所述URL类别库中。
地址 100032 北京市西城区金融大街29号