发明名称 |
收集网站信息中有效信息网页的方法、装置及系统 |
摘要 |
本发明公开一种收集网站信息中有效信息网页的方法、装置及系统,该方法主要包括:根据预先配置的列表页的网址链接模板识别被收集网站中的列表页,获取每个列表页包所含的全部内部网址链接;根据预先配置的商品页的网址链接模板,在每个列表页包含的全部内部网址链接中进行匹配,获取其中商品页的网址链接,其中,所述预先配置的商品页的网址链接模板包含产品属性信息;收集所获取的所有商品页的网址链接。本发明以解决网络爬虫系统中爬取的结果不稳定以及网络爬虫系统消耗很大资源的问题。 |
申请公布号 |
CN102867053A |
申请公布日期 |
2013.01.09 |
申请号 |
CN201210337847.X |
申请日期 |
2012.09.12 |
申请人 |
北京奇虎科技有限公司;奇智软件(北京)有限公司 |
发明人 |
周雷;高扬 |
分类号 |
G06F17/30(2006.01)I |
主分类号 |
G06F17/30(2006.01)I |
代理机构 |
北京国昊天诚知识产权代理有限公司 11315 |
代理人 |
许志勇 |
主权项 |
一种收集网站信息中有效信息网页的方法,其中,包括:根据预先配置的列表页的网址链接模板识别被收集网站中的列表页,获取每个列表页包所含的全部内部网址链接;根据预先配置的商品页的网址链接模板,在每个列表页包含的全部内部网址链接中进行匹配,获取其中商品页的网址链接,其中,所述预先配置的商品页的网址链接模板包含产品属性信息;收集所获取的所有商品页的网址链接。 |
地址 |
100088 北京市西城区新街口外大街28号D座112室(德胜园区) |