发明名称 一种基于质量控制的数据填充方法及系统
摘要 本申请公开了一种基于质量控制的数据填充方法,根据数据库中的已有数据确定空缺数据,构建数据库的数据依赖关系并确定数据依赖关系的依赖可信度,根据已有数据和数据依赖关系确定空缺数据中的可推断数据和至少一组不可推断数据,并根据预设规则从至少一组不可推断数据中确定一组待检索数据,根据已有数据和数据依赖关系推断可推断数据并根据依赖可信度计算推断可信度,推断可信度大于预设阈值时填充可推断数据,从外部资源中检索待检索数据并根据依赖可信度计算检索可信度,检索可信度大于预设阈值时填充待检索数据。推断和检索交替执行能在较小的开销下保证较高的填充准确率,且考虑了数据依赖关系的依赖可信度能够使填充的数据的可信度较高。
申请公布号 CN104881487A 申请公布日期 2015.09.02
申请号 CN201510304863.2 申请日期 2015.06.04
申请人 苏州大学张家港工业技术研究院 发明人 李直旭;周剑;杨强;李洋
分类号 G06F17/30(2006.01)I;G06F17/24(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 北京集佳知识产权代理有限公司 11227 代理人 常亮
主权项 一种基于质量控制的数据填充方法,其特征在于,包括:根据数据库中的已有数据确定所述数据库的空缺数据,构建所述数据库的数据依赖关系并确定所述数据依赖关系的依赖可信度,重复执行以下步骤,直至所述数据库的空缺数据被填充完毕:根据所述数据库中的已有数据和所述数据依赖关系确定所述数据库的空缺数据中的可推断数据和至少一组不可推断数据,并根据预设规则从所述至少一组不可推断数据中确定一组待检索数据,根据所述数据库中的已有数据和所述数据依赖关系推断所述可推断数据并根据所述依赖可信度计算推断可信度,在所述推断可信度大于预设阈值时填充所述可推断数据,从所述数据库的外部资源中检索所述待检索数据并根据所述依赖可信度计算检索可信度,在所述检索可信度大于所述预设阈值时填充所述待检索数据。
地址 215600 江苏省苏州市张家港工业技术研究院