发明名称 一种基于内容的网页分类方法及系统
摘要 本发明公开了一种基于内容的网页分类方法,用户设备获取用户要访问的网页的统一资源定位符URL中的特征关键字,并根据所述URL中的特征关键字查询本地的URL特征库,以获取相应的网页分类信息;用户设备在URL特征库中未查询到相应的网页分类信息,则进一步获取用户要访问的网页的页面内容,并根据所述页面内容查询本地的页面模板库,以获取相应的网页分类信息。本发明还相应地公开了一种基于内容的网页分类系统。通过本发明,能够实现基于页面粒度的分类,以及提高分类准确度、提高分类实时性、减少人力成本。
申请公布号 CN102819591A 申请公布日期 2012.12.12
申请号 CN201210279815.9 申请日期 2012.08.07
申请人 北京网康科技有限公司 发明人 贾晋康;吕烨;张永臣
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 北京派特恩知识产权代理事务所(普通合伙) 11270 代理人 王黎延;任媛
主权项 一种基于内容的网页分类方法,其特征在于,该方法包括:用户设备获取用户要访问的网页的统一资源定位符URL中的特征关键字,并根据所述URL中的特征关键字查询本地的URL特征库,以获取相应的网页分类信息;用户设备在URL特征库中未查询到相应的网页分类信息,则进一步获取用户要访问的网页的页面内容,并根据所述页面内容查询本地的页面模板库,以获取相应的网页分类信息。
地址 100190 北京市海淀区中关村路66号世纪科贸大厦A座3层