发明名称 |
一种数据库模式重构系统和方法 |
摘要 |
一种数据库模式重构系统和方法,其中该系统包括存储若干多关系数据表的多关系数据库、数据预处理器、以及分类应用设备,该方法包括:A、构建每个表中属性与类别间的关系;B、计算出单个表中的每个属性与类别的相关性值以选择单个表的属性子集;C、计算每个表的属性子集与类别的相关性值;D、根据每个表与类别的相关性值的大小来对表进行降序排列;E、召回在步骤B中未被选择的属性,并且该属性与类别的相关性值大于表的属性子集与类别的相关性值中的最小值。 |
申请公布号 |
CN101576906B |
申请公布日期 |
2011.03.30 |
申请号 |
CN200910078789.1 |
申请日期 |
2009.03.03 |
申请人 |
杜小勇 |
发明人 |
何军;杜小勇;刘红岩;胡泊 |
分类号 |
G06F17/30(2006.01)I |
主分类号 |
G06F17/30(2006.01)I |
代理机构 |
北京中创阳光知识产权代理有限责任公司 11003 |
代理人 |
尹振启 |
主权项 |
一种数据库模式重构系统包括:多关系数据库,用于存储若干多关系数据表;数据预处理器,用于对多关系数据表中的多关系数据进行属性与表的选择和处理以对数据库进行重构;以及分类应用设备,用于对重构后的多关系数据库进行训练,用产生的规则来预测新的数据;其中,数据预处理器进一步包括:构建模块,用于构建所述每个表中属性与类别间的关系;属性选择模块,用于计算出单个表中的每个属性与类别的相关性值以选择单个表的属性子集,通过公式 <mrow> <mi>SU</mi> <mrow> <mo>(</mo> <mi>X</mi> <mo>,</mo> <mi>Y</mi> <mo>)</mo> </mrow> <mo>=</mo> <mn>2</mn> <mo>[</mo> <mfrac> <mrow> <mi>InformationGain</mi> <mrow> <mo>(</mo> <mi>X</mi> <mo>|</mo> <mi>Y</mi> <mo>)</mo> </mrow> </mrow> <mrow> <mi>H</mi> <mrow> <mo>(</mo> <mi>X</mi> <mo>)</mo> </mrow> <mo>+</mo> <mi>H</mi> <mrow> <mo>(</mo> <mi>Y</mi> <mo>)</mo> </mrow> </mrow> </mfrac> <mo>]</mo> </mrow>来计算每个属性与类别的相关性值,其中,SU(X,Y)是度量任一属性Y与目标属性X的相关程度的函数,InformationGain是计算属性X与Y间的信息增益值,H(X)是计算属性的熵值;关系计算模块,用于计算每个表的属性子集与类别的相关性值;排序模块,用于根据每个表与类别的相关性值的大小来对表进行降序排列;召回模块,用于召回在属性选择模块中未被选择的属性,并且该属性与类别的相关性值大于表的属性子集与类别的相关性值中的最小值。 |
地址 |
100872 北京市海淀区中关村大街59号中国人民大学信息学院 |