发明名称 海量数据处理中多线程工作包并行的ETL技术
摘要 海量数据处理中多线程工作包并行的ETL方法,对大量企业数据进行处理时采用的数据抽取、转换和装载,设有一系列相互衔接、自动进行的业务活动或任务的工作流,工作流遵循路由、规则和任务或操作;其中路由:定义对象及其传送所通过的路径;规则:定义信息的路由及路由隶属;规则包括流向控制条件与异常情况处理;任务或操作:定义工作流在面向某种状态、某种事务或某一工作组的具体操作;将调度对象分为任务、子任务、工作包三个级别,工作包是可调度的最小单位。每个工作包是各种具体操作的集合,工作包的功能由其中的具体操作完成;工作包有输入数据结构和输出数据结构,每个数据结构可具体定义数据项。
申请公布号 CN1897025A 申请公布日期 2007.01.17
申请号 CN200610106551.1 申请日期 2006.07.12
申请人 南京联创科技股份有限公司 发明人 赵懿敏;李捷;曹小华;郭景东;沈晓军;魏凌;陈松乐
分类号 G06Q10/00(2006.01);G06F9/46(2006.01);G06F17/30(2006.01) 主分类号 G06Q10/00(2006.01)
代理机构 南京天翼专利代理有限责任公司 代理人 汤志武;王鹏翔
主权项 1、海量数据处理中多线程工作包并行的ETL方法,对大量企业数据进行处理时采用的数据抽取、转换和装载,其特征是设有一系列相互衔接、自动进行的业务活动或任务的工作流,工作流遵循路由、规则和任务或操作;其中路由:定义对象及其传送所通过的路径;规则:定义信息的路由及路由隶属。规则包括流向控制条件与异常情况处理;任务或操作:定义工作流在面向某种状态、某种事务或某一工作组的具体操作;将调度对象分为任务、子任务、工作包三个级别,工作包是可调度的最小单位。每个工作包是各种具体操作的集合,工作包的功能由其中的具体操作完成;工作包有输入数据结构和输出数据结构,每个数据结构可具体定义数据项,工作包中各项操作是对输入数据结构的数据项进行操作,输出为输出数据结构数据项;一个子任务中的工作包之间可以有关联,工作包可以有前置工作包和后续工作包,任务又包括了子任务的集合与关联;每个任务对应一个线程,通过多线程的并发运行,从而实现了多任务可以同时运行,同时每个任务中的子任务、工作包等可以根据预先设定的条件自行运行;数据结构中包含对每个数据项的具体描述,包括数据项名、数据项类型、数据项序号;每个工作包都有一个输入数据结构和输出数据结构,工作包的所有操作都是对输入数据结构的数据项的操作,然后形成工作包输出数据结构的数据项,对工作包的操作为对数据结构的转换:将输入数据结构转换为输出数据结构。
地址 210013江苏省南京市定淮门12号16楼