发明名称 |
一种网络爬虫方法及装置 |
摘要 |
本发明公开了一种网络爬虫方法及装置,用于解除网络爬虫任务中相邻执行阶段之间的耦合性,从而实现网络爬虫的每个执行阶段的模块化。所述方法包括:获取网络爬虫任务的配置文件,配置文件包括网络爬虫任务的每一个执行阶段的标识、每一个执行阶段的执行顺序及每一个执行阶段对应的配置参数;根据每一个执行阶段的标识以及每一个执行阶段的执行顺序,确定网络爬虫的当前执行阶段;获取当前执行阶段的输入数据;根据当前执行阶段对应的配置参数和输入数据执行当前执行阶段。该技术方案解除了网络爬虫任务中相邻执行阶段之间的耦合性,使每个执行阶段的执行更加模块化,提高了网络爬虫的效率。 |
申请公布号 |
CN105260405A |
申请公布日期 |
2016.01.20 |
申请号 |
CN201510609537.2 |
申请日期 |
2015.09.22 |
申请人 |
北京云知声信息技术有限公司 |
发明人 |
罗杰;梁家盟 |
分类号 |
G06F17/30(2006.01)I |
主分类号 |
G06F17/30(2006.01)I |
代理机构 |
北京尚伦律师事务所 11477 |
代理人 |
张俊国 |
主权项 |
一种网络爬虫方法,其特征在于,包括:获取网络爬虫任务的配置文件,所述配置文件包括所述网络爬虫任务的每一个执行阶段的标识、所述每一个执行阶段的执行顺序及所述每一个执行阶段对应的配置参数;根据所述每一个执行阶段的标识以及所述每一个执行阶段的执行顺序,确定所述网络爬虫任务的当前执行阶段;获取所述当前执行阶段的输入数据,所述输入数据为所述当前执行阶段之前的上一个执行阶段的输出数据,所述输入数据或所述输出数据是通过预设的输入输出接口格式进行输入或输出的;根据所述当前执行阶段对应的配置参数和所述输入数据执行所述当前执行阶段。 |
地址 |
100191 北京市海淀区花园路2号牡丹科技楼五层A503 |