发明名称 |
一种网页分类方法和设备 |
摘要 |
本发明公开了一种网页分类方法和设备,该方法利用现有URL类别库中的记录,建立虚拟的层级URL,并对层级URL的类别进行预测。当需要对待分类网页进行分类时,根据待分类网页的URL查询URL类别库;如果未查询到匹配的URL,则根据该URL的上层URL查询URL类别库,并在查询到匹配的URL时,根据查询到的URL的预测类别确定待分类网页的类别。在本发明中,提高了网页分类的效率和成功率。 |
申请公布号 |
CN102955810B |
申请公布日期 |
2015.12.02 |
申请号 |
CN201110249270.2 |
申请日期 |
2011.08.26 |
申请人 |
中国移动通信集团公司 |
发明人 |
徐萌;何洪凌;胡珉;罗治国;孙少陵;陶涛;陈婷;张新访;李成华 |
分类号 |
G06F17/30(2006.01)I |
主分类号 |
G06F17/30(2006.01)I |
代理机构 |
北京鑫媛睿博知识产权代理有限公司 11297 |
代理人 |
龚家骅 |
主权项 |
一种网页分类方法,其特征在于,应用于基于统一资源定位符URL类别库实现的网页分类流程,所述URL类别库中记录有各层级URL及各URL的预测类别,其中,相邻层级的URL中的上层URL是在下层URL的基础上截取得到的,该方法包括:根据待分类网页的URL查询URL类别库;如果未查询到匹配的URL,则根据该URL的上层URL查询URL类别库,并在查询到匹配的URL时,根据查询到的URL的预测类别确定待分类网页的类别;其中,所述URL类别库的生成过程,包括:遍历所述URL类别库中的URL,并当遍历到一个URL时,从所述URL类别库中选择该URL,并根据选择出的URL生成该URL的上一层级URL;判断生成的上一层级URL是否已经存在于所述URL类别库中,并当所述URL类别库中不存在该上一层级URL时,确定该上一层级URL的预测类别,并将该上一层级URL及其预测类别记录在所述URL类别库中。 |
地址 |
100032 北京市西城区金融大街29号 |