发明名称 一种爬虫采集内容结构化的方法
摘要 本发明公开了一种爬虫采集内容结构化的方法,适用于爬虫对网页的解析阶段,其适用的体系结构包括:爬虫模块、解析模块和结合模块;其中,爬虫模块实现整个数据采集过程,包含结合模块;解析模块是实现网页解析的独立模块;结合模块用于连接爬虫模块和解析模块。该方法利用结合模块把爬虫模块和专业的网页解析模块结合到了一起,在爬虫进行到解析阶段时,会自动调用解析模块的内容;解析完毕后,会继续爬虫模块的剩余流程,将已经结构化完毕的字段提交给搜索引擎。该方法通过把具有网页解析功能的工具与爬虫结合,实现对用户需要字段的自定义解析、自定义提取,使用灵活,可以有效扩展可结构化的字段,扩大后期搜索分析的范围。
申请公布号 CN103902684A 申请公布日期 2014.07.02
申请号 CN201410111764.8 申请日期 2014.03.25
申请人 浪潮电子信息产业股份有限公司 发明人 程瑶
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 代理人
主权项 一种爬虫采集内容结构化的方法,适用于爬虫对网页的解析阶段,其特征在于,该方法适用的体系结构包括:爬虫模块(1)、解析模块(2)和结合模块(3);其中,爬虫模块(1)实现整个数据采集过程,包含结合模块(3);解析模块(2)是实现网页解析的独立模块;结合模块(3)用于连接爬虫模块和解析模块;所述爬虫采集内容结构化的方法,针对现有爬虫模块(1)解析阶段进行处理,利用爬虫模块(1)的插件功能,把解析模块(2)的结构化网页功能嵌入到爬虫模块(1)中去,实现对采集内容的自定义结构化;该方法利用结合模块(3)把爬虫模块(1)和专业的网页解析模块(2)结合到了一起,在爬虫进行到解析阶段时,会自动调用解析模块(2)的内容;解析完毕后,会继续爬虫模块(1)的剩余流程,将已经结构化完毕的字段提交给搜索引擎。
地址 250014 山东省济南市高新区舜雅路1036号