发明名称 基于隐含分类信息的模式匹配方法
摘要 一种基于隐含分类信息的模式匹配方法,属于数据库技术领域,包括发现源数据实例的可能分类、寻找分类属性和为属性匹配关联相应的过滤条件三个步骤。本发明限定了属性匹配的应用范围,提高数据交换的质量,相比于传统的Context-Based技术,本方法从数据实例中寻找真正的分类信息,来进行约束条件的构建,而不依赖于显示分类属性;不论源模式中是否存在显示分类属性,本发明中的方法都能从实例数据中提取约束信息,限制属性匹配,提高数据转换质量。
申请公布号 CN102063489B 申请公布日期 2012.12.19
申请号 CN201010613046.2 申请日期 2010.12.29
申请人 东北大学 发明人 王国仁;赵宇海;丁国辉
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 沈阳东大专利代理有限公司 21109 代理人 梁焱
主权项 一种基于隐含分类信息的模式匹配方法,其特征在于包括以下步骤:步骤1发现源数据实例的可能分类通过最小生成树聚类算法,计算每个属性的数据对象聚类,出现在同一个聚类中数据对象所对应的元组则表示源数据的一个可能的分类;步骤2寻找分类属性利用步骤1的结果,使用信息熵测量每个元组在不同属性的聚类结果中的分布情况,最理想的情况,一个元组在不同属性的聚类结果中出现在同一个聚类中,此时该元组的熵为零,最坏的情况是,该元组在每个属性的聚类结果中都出现在不同的聚类中;寻找干扰属性,所谓干扰属性就是,根据该属性对元组的聚类结果与大部分属性都不相同,干扰属性的熵要大于分类属性,所以不断地将其去除,直到满足所处理的关系的熵为零以及关系R中的所有属性的信息增益相同两个条件之一,最后得到分类属性;所述的寻找干扰属性,方法为:在得到关系R的熵值后,计算R中每个属性的信息增益,对于某个属性A,如果其信息增益是所有属性中最大的,则说明该属性对R中元组的分布影响最大,将其去除;步骤3为属性匹配关联的过滤条件;为每个属性匹配关联的过滤条件,按以下步骤进行:步骤3‑1构建聚类匹配c‑mapping给定一个分类属性,每一个该属性的对象聚类为一个过滤条件,该属性可能和目标的多个属性之间存在匹配关系,为确定每一个过滤条件所要约束的属性匹配,需要构建聚类匹配,所谓聚类匹配是指两个具有匹配关系的属性的对象聚类之间的对应关系;针对每一个分类属性,找到其所有的同其他目标属性的聚类匹配;步骤3‑2查找最优c‑mapping给定一个分类属性以及与其存在匹配关系的目标属性集合,枚举所有的c‑mapping,每一 个c‑mapping表示一个聚类匹配的集合,对每一个c‑mapping进行评估,找到最优的c‑mapping;步骤3‑3关联过滤条件利用上步找到的最优c‑mapping构建复合过滤条件,给定一个分类属性A,如果其最优c‑mapping中存在两个或者多个聚类匹配,且这些聚类匹配的目标聚类来自同一个目标属性B,则使用逻辑“或”对这些聚类匹配的源聚类进行链接,形成一个复合过滤条件c,并将条件c同属性匹配(A,B)进行关联,形成带有约束的属性匹配(A,B,c)。
地址 110004 辽宁省沈阳市和平区文化路3号巷11号