发明名称 一种基于消除重复记录的数据清洗平台设计方法
摘要 本发明公开了一种基于消除重复记录的数据清洗平台设计方法,其具体实现过程为:创建消除重复记录组件元数据类、元数据界面类、元数据控制类;元数据类内聚元数据界面类、元数据控制类;配置元数据类的基本信息;将元数据类、元数据界面类和元数据控制类放入一个文件夹中;修改设计器的配置文件,增加相关组件模型的信息;从设计器组件中拖取去除重复记录组件模型,将需要处理的数据作为输入,组件在除去重复记录后,进行数据更新;监控端接收数据后,将其分配至一个执行引擎中运行;执行引擎反馈执行结果。该一种基于消除重复记录的数据清洗平台设计方法与现有技术相比,有效降低整个数据清洗的成本,提高数据清洗的工作效率。
申请公布号 CN104933098A 申请公布日期 2015.09.23
申请号 CN201510281346.8 申请日期 2015.05.28
申请人 浪潮软件集团有限公司 发明人 武斌;徐宏伟;邹建军
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 济南信达专利事务所有限公司 37100 代理人 姜明
主权项 一种基于消除重复记录的数据清洗平台设计方法,其特征在于其具体实现过程为:创建消除重复记录组件元数据类,创建消除重复记录组件元数据界面类;创建消除重复记录组件元数据控制类;元数据类内聚元数据界面类、元数据控制类,负责对两个类进行初始化;配置元数据类的基本信息,该基本信息包括名称、XML 标签和类型编号;将元数据类、元数据界面类和元数据控制类放入一个文件夹中,同时将该文件夹放置在设计器的文件夹中;修改设计器的配置文件,增加相关组件模型的信息,该信息包括类名、包名、图标文件路径;从设计器组件中拖取去除重复记录组件模型,将需要处理的数据作为输入,组件在除去重复记录后,进行数据更新;监控端接收数据后,将其分配至一个执行引擎中运行;执行引擎反馈执行结果。
地址 250100 山东省济南市高新区科航路2877号