发明名称 异源异构数据清洗方法及其系统
摘要 本发明公开了一种异源异构数据清洗方法及其系统,所述方法包括:预设标题行;载入标题特征库和文件数据,所述标题特征库存储包括所述预设标题行中的标题与所述文件数据中标题的映射关系;遍历所述文件数据的每一行数据,确定标题行;遍历所述标题行的每一列数据,确定所述每一列数据的标题;依据所述标题特征库,确定所述每一列数据的标题在所述预设标题行中对应的标题;将所述每一列数据添加至所述预设标题行中对应的标题下。通过采用标题特征库,自动识别标题,解析文件数据,自动匹配标题列,节约了人工成本,提高了数据清洗的准确性和便捷性,并且可适用于多种格式的文件和数据,适应性强,可以通用、全面地解决异源异构数据的清洗问题。
申请公布号 CN105653587A 申请公布日期 2016.06.08
申请号 CN201510967231.4 申请日期 2015.12.21
申请人 厦门市美亚柏科信息股份有限公司 发明人 倪文冠;江汉祥
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 深圳市博锐专利事务所 44275 代理人 张明
主权项 一种异源异构数据清洗方法,其特征在于:包括预设标题行;载入标题特征库和文件数据,所述标题特征库存储包括所述预设标题行中的标题与所述文件数据中标题的映射关系;遍历所述文件数据的每一行数据,确定标题行;遍历所述标题行的每一列数据,确定所述每一列数据的标题;依据所述标题特征库,确定所述每一列数据的标题在所述预设标题行中对应的标题;将所述每一列数据添加至所述预设标题行中对应的标题下。
地址 361008 福建省厦门市软件园二期观日路12号美亚柏科大厦