发明名称 一种爬虫系统及其方法
摘要 一种爬虫系统及其方法,包括带有用于动态网页的爬虫系统的爬虫节点,爬虫节点同互联网相连接,所述的互联网中包含有网站服务器,所述的网站服务器中包含有带有频道的网站,所述的爬虫节点中还包括有浏览器、用于采集结果的数据库和频道库,所述的网站服务器中还包含有频道列表信息。这样的结构结合其方法避免了现有技术中无法通过访问时间的值来控制爬虫是否继续爬取网页内容这样就极大地限制了爬虫的使用效率的缺陷。
申请公布号 CN104008190B 申请公布日期 2017.04.19
申请号 CN201410259561.3 申请日期 2014.06.12
申请人 江苏敏行信息技术有限公司 发明人 于权
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 南京钟山专利代理有限公司 32252 代理人 戴朝荣
主权项 一种爬虫系统的方法,其特征在于,步骤如下:步骤1:启动爬虫节点(2)中的用于动态网页的爬虫系统(1)进行数据采集并把数据采集结果存储到用于采集结果的数据库(6)中,并对每个网站服务器(4)中的网站及频道进行统一编码,每个网站的每个频道都存在唯一标识;步骤2:用于动态网页的爬虫系统(1)再从频道库中提取一个频道的起始URL及该频道信息的最近爬取时频道信息的最后发布日期,并将该频道信息的最近爬取时频道信息的最后发布日期减去一天;步骤3:用于动态网页的爬虫系统(1)对该频道所在的网站服务器(4)发起Http请求;步骤4:该频道所在的网站服务器(4)接收到该Http请求后,把该频道列表信息发送回爬虫节点(2),用于动态网页的爬虫系统(1)就取得该频道列表信息;步骤5:用于动态网页的爬虫系统(1)对该频道列表信息进行分析,如果对应的发布日期条目中存在发布日期,则直接使用该频道列表信息的每条信息的发布日期与该频道的减去一天后的最后发布日期比较,如果晚于最后发布日期,则将该URL信息加入到任务信息中;步骤6:如果本页列表中最后一条信息不早于最后发布日期,用于动态网页的爬虫系统(1)则对该频道所在的网站服务器(4)发起针对下一页的http请求,返回步骤4中执行;步骤7:如果本页列表中最后一条信息早于该频道的减去一天后的最后发布日期,则该爬虫任务结束;步骤8:如果该频道列表信息不存在发布日期这样能够绝对定位的标识,用于动态网页的爬虫系统(1)则分析确定该频道列表信息的条目数N,以及该频道列表信息中的每个条目的标题信息,以此形成标题集合{title0,title1, title2…titltN},其中title表示标题信息,然后从用于采集结果的数据库(6)中按照采集时间顺序查找title0及后续N条数据标题的数据库集合{title0 db,title1 db, title2 db…titltN db},如果标题集合和数据库集合这两个集合的散列值相同,则结束爬取任务;如果标题集合和数据库集合这两个集合的散列值不同,则用于动态网页的爬虫系统(1)则对该频道所在的网站服务器(4)发起针对下一页的http请求,返回步骤4中执行。
地址 210012 江苏省南京市雨花台区西春路1号北楼802室