发明名称 | 一种通用采集系统的构建方法 | ||
摘要 | 本发明公开了一种通用采集系统的构建方法,包括以下四个步骤:入口地址采集配置、翻页地址采集配置、详情页地址采集配置和字段抽取配置,各采集配置步骤之间为顺序进行,即前一个采集配置步骤的输出作为后一个采集配置步骤的输入。该一种通用采集系统的构建方法与现有技术相比,设计了多线程并发机制,任务之间通过数据库进行交互协作,能够进行简单的分布式采集;实现了对多大多数的网站的配置采集和分布式采集,简化了网站采集的繁琐的开发工作,实用性强,适用范围广泛,易于推广。 | ||
申请公布号 | CN105335516A | 申请公布日期 | 2016.02.17 |
申请号 | CN201510739293.X | 申请日期 | 2015.11.04 |
申请人 | 浪潮软件集团有限公司 | 发明人 | 毛立花;王传超 |
分类号 | G06F17/30(2006.01)I | 主分类号 | G06F17/30(2006.01)I |
代理机构 | 济南信达专利事务所有限公司 37100 | 代理人 | 孟峣 |
主权项 | 一种通用采集系统的构建方法,其特征在于,包括以下四个步骤:入口地址采集配置、翻页地址采集配置、详情页地址采集配置和字段抽取配置,各采集配置步骤之间为顺序进行,即前一个采集配置步骤的输出作为后一个采集配置步骤的输入。 | ||
地址 | 250100 山东省济南市高新区科航路2877号 |