发明名称 网页内容获取方法和系统
摘要 本发明公开了一种网页内容获取的方法与系统。其中,该方法包括判断网站中的网页是否满足上报触发条件;在网页满足上报触发条件时,网站上报网页信息;分配服务器根据上报的网页信息安排爬虫到网页中抓取网页的内容。本发明在网页满足上报触发条件时上报网页信息,爬虫根据网页信息到指定网页中抓取网页的内容。该方法节约了爬虫的工作量,缓解了目标网站的压力,并且增加了获取实时信息的能力,为实时搜索提供了有利的条件。
申请公布号 CN102347930A 申请公布日期 2012.02.08
申请号 CN201010240330.X 申请日期 2010.07.26
申请人 中国电信股份有限公司 发明人 王爱宝;张涛;李屹;杨德利
分类号 H04L29/06(2006.01)I;H04L29/08(2006.01)I;G06F17/30(2006.01)I 主分类号 H04L29/06(2006.01)I
代理机构 中国国际贸易促进委员会专利商标事务所 11038 代理人 孙宝海
主权项 一种网页内容获取方法,其特征在于,所述方法包括:判断网站中的网页是否满足上报触发条件;在所述网页满足所述上报触发条件时,所述网站上报网页信息;分配服务器根据上报的所述网页信息安排爬虫到所述网页中抓取所述网页的内容。
地址 100032 北京市西城区金融大街31号