发明名称 | 一种网络信息采集方法及装置 | ||
摘要 | 本发明提供了一种网络信息采集方法及装置,方法包括:确定待采集网络信息的目标网站;获取对应所述目标网站的统一资源定位符URL;针对每一个URL,抓取对应的网络信息,并获取每一个URL与其子URL的属性关系;根据抓取到的网络信息和获取的所述属性关系,确定是否存在漏采信息;在确定存在漏采信息时,对漏采信息进行重新采集。根据本方案,通过在抓取网络信息的过程中,获取每一个URL与其子URL的属性关系,可以根据抓取到的网络信息和属性关系来确定是否存在漏采信息,如果存在,可以对漏采信息进行重新采集,从而可以采集到完整的网络信息。 | ||
申请公布号 | CN106202300A | 申请公布日期 | 2016.12.07 |
申请号 | CN201610510319.8 | 申请日期 | 2016.06.30 |
申请人 | 浪潮软件集团有限公司 | 发明人 | 邱继钊 |
分类号 | G06F17/30(2006.01)I | 主分类号 | G06F17/30(2006.01)I |
代理机构 | 济南信达专利事务所有限公司 37100 | 代理人 | 李世喆 |
主权项 | 一种网络信息采集方法,其特征在于,包括:确定待采集网络信息的目标网站;获取对应所述目标网站的统一资源定位符URL;针对每一个URL,抓取对应的网络信息,并获取每一个URL与其子URL的属性关系;根据抓取到的网络信息和获取的所述属性关系,确定是否存在漏采信息;在确定存在漏采信息时,对漏采信息进行重新采集。 | ||
地址 | 250100 山东省济南市高新区科航路2877号 |