发明名称 |
一种基于内容的网页分类方法及系统 |
摘要 |
本发明公开了一种基于内容的网页分类方法,用户设备获取用户要访问的网页的统一资源定位符URL中的特征关键字,并根据所述URL中的特征关键字查询本地的URL特征库,以获取相应的网页分类信息;用户设备在URL特征库中未查询到相应的网页分类信息,则进一步获取用户要访问的网页的页面内容,并根据所述页面内容查询本地的页面模板库,以获取相应的网页分类信息。本发明还相应地公开了一种基于内容的网页分类系统。通过本发明,能够实现基于页面粒度的分类,以及提高分类准确度、提高分类实时性、减少人力成本。 |
申请公布号 |
CN102819591A |
申请公布日期 |
2012.12.12 |
申请号 |
CN201210279815.9 |
申请日期 |
2012.08.07 |
申请人 |
北京网康科技有限公司 |
发明人 |
贾晋康;吕烨;张永臣 |
分类号 |
G06F17/30(2006.01)I |
主分类号 |
G06F17/30(2006.01)I |
代理机构 |
北京派特恩知识产权代理事务所(普通合伙) 11270 |
代理人 |
王黎延;任媛 |
主权项 |
一种基于内容的网页分类方法,其特征在于,该方法包括:用户设备获取用户要访问的网页的统一资源定位符URL中的特征关键字,并根据所述URL中的特征关键字查询本地的URL特征库,以获取相应的网页分类信息;用户设备在URL特征库中未查询到相应的网页分类信息,则进一步获取用户要访问的网页的页面内容,并根据所述页面内容查询本地的页面模板库,以获取相应的网页分类信息。 |
地址 |
100190 北京市海淀区中关村路66号世纪科贸大厦A座3层 |