发明名称 |
一种基于脚本引擎的数据采集方法和装置 |
摘要 |
本发明公开了一种基于脚本引擎的数据采集方法和装置,所述方法包括:加载预先配置的与当前采集任务相对应的采集配置文件,解析该采集配置文件,获取目标数据采集规则;初始化支持不同脚本语言的各脚本引擎,并加载预先配置的由采集目标数据的脚本方法构成的脚本文件;下载网页数据,并查找定义在该网页上需要采集的目标数据的采集规则,将下载的网页数据和采集规则中配置的脚本方法名称发送至相应脚本语言的脚本引擎;脚本引擎根据脚本方法名称,调用并执行对应的脚本方法,在网页数据中采集出目标数据。本发明通过脚本的方式实现了数据采集过程中同时抽取,清洗,加工和转换,很好的解决了所提出的技术问题。 |
申请公布号 |
CN103092817A |
申请公布日期 |
2013.05.08 |
申请号 |
CN201310019623.9 |
申请日期 |
2013.01.18 |
申请人 |
五八同城信息技术有限公司 |
发明人 |
侯赋文 |
分类号 |
G06F17/20(2006.01)I |
主分类号 |
G06F17/20(2006.01)I |
代理机构 |
工业和信息化部电子专利中心 11010 |
代理人 |
齐洁茹 |
主权项 |
一种基于脚本引擎的数据采集方法,其特征在于,包括:步骤1,加载预先配置的与当前采集任务相对应的采集配置文件,解析该采集配置文件,获取目标数据采集规则;其中,所述目标数据采集规则包括目标数据类型以及采集各类目标数据对应的脚本方法名称和脚本语言;步骤2,初始化支持不同脚本语言的各脚本引擎,并加载预先配置的由采集目标数据的脚本方法构成的脚本文件;步骤3,下载网页数据,并查找定义在该网页上需要采集的目标数据的采集规则,将下载的网页数据和查找到的采集规则中配置的脚本方法名称发送至相应脚本语言的脚本引擎;步骤4,脚本引擎根据所述脚本方法名称,调用并执行对应的脚本方法,在所述网页数据中采集出目标数据。 |
地址 |
300457 天津市滨海新区第一大街79号泰达MSD-C区-C3座2801房间 |