发明名称 基于知识的数据质量解决方案
摘要 本发明涉及基于丰富知识库的知识驱动的数据质量解决方案。该数据质量解决方案可提供连续的改进,并且可基于连续(或持续)的知识采集。该数据质量解决方案可建立一次,且可重新用于多次数据质量提高,其可针对相同数据或相似数据。所公开的各个方面容易使用且集中于生产力和用户体验。此外,所公开的各个方面是开放和可扩展的,且可应用于基于云的参考数据(例如第三方数据源)和/或用户生成的知识。根据一些发明,所公开的各个发明可与数据集成服务集成。
申请公布号 CN102930023B 申请公布日期 2016.12.21
申请号 CN201210434993.4 申请日期 2012.11.02
申请人 微软技术许可有限责任公司 发明人 J·玛尔卡;E·齐克利克;E·胡迪斯;M·拉维夫;G·皮莱格;D·法伊比希
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 上海专利商标事务所有限公司 31100 代理人 陈斌
主权项 一种系统,包括:知识管理器组件(120),配置成:接收第一数据集和第二数据集的至少一部分;从与所述第一数据集和所述第二数据集的所述至少一部分相关的外部源访问知识库;搜集至少与所述第一数据集和所述第二数据集相关的附加信息,其中所述附加信息从所述第一数据集和所述第二数据集的样本搜集并且至少来自所述第一数据集和所述第二数据集的所述附加信息被合并入知识库中,其中所述知识管理器组件包括域创建模块,所述域创建模块被配置为至少为所述第一数据集和所述第二数据集创建一个或多个域,其中所述一个或多个域至少包括至少从所述第一数据集和所述第二数据集中所搜集的信息,其中所述域中的每一个包括至少所述第一数据集和所述第二数据集的属性以及与该属性相关联的参考数据,并且其中,所述知识库是利用所述一个或多个域来更新的;以及将所述知识库的经更新的域导出到所述外部源;数据增强组件(140),配置成对所述第一数据集和所述第二数据集中的至少一个执行一个或多个操作以提高所述第一数据集和所述第二数据集中的至少一个的质量,其中所述一个或多个操作基于在所述知识库中所保留的至少从所述第一数据集和所述第二数据集中所搜集的信息。
地址 美国华盛顿州