发明名称 一种网络数据的采集方法和系统
摘要 本发明公开了一种网络数据的采集方法和系统。该方法用于采集发布于一网站上的与M个主题分别相关的网络文档的数据,其中M为大于等于1的整数,所述方法包括:根据待采集链接地址所对应的类型,将所述待采集链接地址配置到对应类型的队列中,所述待采集链接地址为与所述M个主题分别相关的网络文档的数据所在页面的链接地址;获取所述对应类型的队列中的所述待采集链接地址对应的网页源代码;根据所述网页源代码对应的URL信息及所述URL的采集深度值抽取所述URL对应的网络文档的数据。
申请公布号 CN103164435B 申请公布日期 2016.03.09
申请号 CN201110415356.8 申请日期 2011.12.13
申请人 北大方正集团有限公司;北京大学;北京北大方正电子有限公司 发明人 吴新丽;杨建武
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 北京同达信恒知识产权代理有限公司 11291 代理人 黄志华
主权项 一种网络数据采集的方法,用于采集发布于一网站上的与M个主题分别相关的网络文档的数据,其中M为大于等于1的整数,其特征在于,所述方法包括:根据待采集链接地址所对应的类型,将所述待采集链接地址配置到对应类型的队列中,所述待采集链接地址为与所述M个主题分别相关的网络文档的数据所在页面的链接地址;获取所述对应类型的队列中的所述待采集链接地址对应的网页源代码;根据所述网页源代码对应的URL信息及所述URL的采集深度值抽取所述URL对应的网络文档的数据;其中,所述根据所述网页源代码对应的URL信息及所述URL的采集深度值抽取所述URL对应的网络文档的数据具体为:从所述网页源代码中抽取主题的章节标题、章节正文内容,并从所述网页源代码对应的URL中抽取所述章节标题对应章节的章节ID;判断所述章节正文内容是否存在分页:若是,则提取下一页的链接地址,并同时标记当前页的页码以及下一页的页码并将下一页的链接地址加入到所述内容页队列中等待采集。
地址 100871 北京市海淀区成府路298号方正大厦9层