发明名称 |
一种可配置的网页数据采集的方法及系统 |
摘要 |
本发明涉及一种可配置的网页数据采集的方法及系统,特别适用于需要不断更新对网页数据的采集方式的情况,该方法包括:S1、从数据库中获取网页数据采集的配置信息;S2、根据配置信息,获取所需的分类网站并登陆;S3、根据登录后的网站信息,获取网站下所需要采集的主题;S4、根据配置信息,采集到的主题,采集所需的网页内容;S5、根据配置的数据表,通过配置的数据表中正则表达式或者一定的规则提取采集内容页的所需信息;S6、将提取出的表格数据存储到数据库中。实施本发明的可配置的网页数据采集的方法及系统,用户可自行任意配置需要采集的网页数据,通过配置好的采集方案采集全网的相关的数据信息,实现灵活、方便地网页数据采集。 |
申请公布号 |
CN104462547A |
申请公布日期 |
2015.03.25 |
申请号 |
CN201410822548.4 |
申请日期 |
2014.12.25 |
申请人 |
深圳联友科技有限公司 |
发明人 |
吴正辉 |
分类号 |
G06F17/30(2006.01)I |
主分类号 |
G06F17/30(2006.01)I |
代理机构 |
深圳市顺天达专利商标代理有限公司 44217 |
代理人 |
高占元 |
主权项 |
一种可配置的网页数据采集的方法,其特征在于,该方法包括:S1、从数据库中获取网页数据采集的配置信息,该配置信息包括:配置采集网站的分类信息,配置采集主题模板信息,配置采集内容页模板信息和配置数据表信息;S2、根据配置采集网站的分类信息,获取所需采集的分类网站;S3、根据配置采集主题模板信息,在采集的分类网站中获取所需采集的主题;S4、根据配置采集内容页模板信息,从采集的主题获取所需采集的内容页;S5、根据配置数据表信息,获取字段对应的表达式或者相关规则,从采集的内容页中提取表格数据;S6、将提取的表格数据存储到数据库中。 |
地址 |
518031 广东省深圳市福田区深南中路2010号东风大厦14楼 |