发明名称 |
一种抓取网络平面媒体的网页内容的方法及系统 |
摘要 |
本发明公开一种抓取网络平面媒体的网页内容的方法及系统。所述方法包括:获取网络平面媒体的可用URL信息;所述URL信息包含时间信息;根据所述可用URL信息生成所述网络平面媒体的URL模板;确定需要抓取的所述网络平面媒体的更新时间信息;根据所述URL模板以及所述更新时间信息构造所述网络平面媒体的第一URL;抓取所述第一URL对应的网页内容。采用本发明的方法或系统,可以抓取到更加全面的数据,并且提高抓取效率。 |
申请公布号 |
CN103399933B |
申请公布日期 |
2017.01.18 |
申请号 |
CN201310344367.0 |
申请日期 |
2013.08.08 |
申请人 |
人民搜索网络股份公司 |
发明人 |
张思亮;崔世起;崔庆君 |
分类号 |
G06F17/30(2006.01)I |
主分类号 |
G06F17/30(2006.01)I |
代理机构 |
北京集佳知识产权代理有限公司 11227 |
代理人 |
王宝筠 |
主权项 |
一种抓取网络平面媒体的网页内容的方法,其特征在于,包括:获取网络平面媒体的可用URL信息;所述URL信息包含时间信息;根据所述可用URL信息生成所述网络平面媒体的URL模板;确定需要抓取的所述网络平面媒体的更新时间信息;根据所述URL模板以及所述更新时间信息构造所述网络平面媒体的第一URL;抓取所述第一URL对应的网页内容;还包括:获取抓取失败的次数;判断抓取失败的次数是否大于预设次数,得到第二判断结果;当所述第二判断结果为是时,重新获取所述网络平面媒体的第二可用URL信息,其中通过网络平面媒体网页上的链接来获取所述网络平面媒体的可用URL信息,作为第二可用URL信息;根据所述第二可用URL信息重新生成所述网络平面媒体的URL模板,作为第二URL模板;采用所述第二URL模板抓取对应的网页内容。 |
地址 |
100020 北京市朝阳区东三环中路1号环球金融中心西塔16层 |