发明名称 基于隐含分类信息的模式匹配方法
摘要 一种基于隐含分类信息的模式匹配方法,属于数据库技术领域,包括发现源数据实例的可能分类、寻找分类属性和为属性匹配关联相应的过滤条件三个步骤。本发明限定了属性匹配的应用范围,提高数据交换的质量,相比于传统的Context-Based技术,本方法从数据实例中寻找真正的分类信息,来进行约束条件的构建,而不依赖于显示分类属性;不论源模式中是否存在显示分类属性,本发明中的方法都能从实例数据中提取约束信息,限制属性匹配,提高数据转换质量。
申请公布号 CN102063489A 申请公布日期 2011.05.18
申请号 CN201010613046.2 申请日期 2010.12.29
申请人 东北大学 发明人 王国仁;赵宇海;丁国辉
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 沈阳东大专利代理有限公司 21109 代理人 梁焱
主权项 一种基于隐含分类信息的模式匹配方法,其特征在于包括以下步骤:步骤1发现源数据实例的可能分类通过最小生成树聚类算法,计算每个属性的数据对象聚类,出现在同一个聚类中数据对象所对应的元组则表示源数据的一个可能的分类;步骤2 寻找分类属性利用步骤1的结果,使用信息熵测量每个元组在不同属性的聚类结果中的分布情况,最理想的情况,一个元组在不同属性的聚类结果中出现在同一个聚类中,此时该元组的熵为零,最坏的情况是,该元组在每个属性的聚类结果中都出现在不同的聚类中;寻找干扰属性,所谓干扰属性就是,根据该属性对元组的聚类结果与大部分属性都不相同,干扰属性的熵要大于分类属性,所以不断地将其去除,直到所处理的关系的熵为零,最后得到分类属性;步骤3 为属性匹配关联相应的过滤条件为每个属性匹配关联合适的过滤条件。
地址 110004 辽宁省沈阳市和平区文化路3号巷11号