发明名称 一种基于包含度的模糊粗糙单调数据挖掘方法
摘要 本发明参照模糊粗糙集的理论,提出基于包含度的模糊粗糙单调数据挖掘方法,通过对决策属性和条件属性按值重新排列后,然后对重新排列后的集合进行区间划分,然后根据各个区间的隶属函数和各个区间的包含度,设定判定规则,对决策属性和条件属性之间的关系进行判断,从而建立模糊包含单调依赖关系模型;通过关系模型挖掘决策属性和条件属性之间的初步关系,设定决策过虑规则,求出条件属性约简的数据集和最优数据,现有的属性约简算法一般针对有限的数据值集,本发明可以针对海量的不规则数据,而且数据量越大,越能体现算法的优越性。
申请公布号 CN102609469B 申请公布日期 2014.05.07
申请号 CN201210014555.2 申请日期 2012.01.16
申请人 华南师范大学 发明人 梁瑾
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 广州粤高专利商标代理有限公司 44102 代理人 禹小明
主权项 1.一种基于包含度的模糊粗糙单调数据挖掘方法,其特征在于,包括:(1)决策属性D的数据值的集合重新排序,形成有序集合D′;条件属性C<sub>i</sub>的数据值的集合重新排序,形成有序集合C<sub>i</sub>′;(2)对象集合U根据D′,得到对象重新排列的有序集合U<sub>D</sub>,对象集合U根据C<sub>i</sub>′,得到对象重新排列的有序集合U<sub>i</sub>;(3)根据U<sub>D</sub>和U<sub>i</sub>中对象的决策属性值与条件属性值之间的关系,以及U<sub>D</sub>和U<sub>i</sub>之间按划分所得的包含度,设定判定规则,对决策属性和条件属性之间的关系进行判断,从而建立模糊包含单调依赖关系模型;所述判断规则如下:对U<sub>D</sub>和U<sub>i</sub>进行区间划分,并对根据划分出来的对应区间的隶属函数值进行判断,若小于0.5则重新对U<sub>D</sub>和U<sub>i</sub>进行区间划分,若大于0.5,则求出U<sub>D</sub>和U<sub>i</sub>划分的区间中最后一个区间的元素个数与这次划分设定的元素个数k的比值l;当隶属函数值大于0.5时,若l值小于0.5,或者当l值大于0.5时,最后一个区间隶属函数值不为零,则判定决策属性D和条件属性C<sub>i</sub>是模糊包含单调依赖关系;(4)根据决策属性D和条件属性C<sub>i</sub>是模糊包含单调依赖关系,建立决策属性和条件属性的模糊包含单调依赖关系模型,挖掘出与决策属性D有模糊包含单调依赖关系的条件属性形成数据挖掘的初步集合;(5)设定决策过滤规则,求出条件属性约简的数据集和最优数据;所述步骤(3)中,根据元素个数<img file="FDA0000454254840000014.GIF" wi="348" he="82" />从1至<img file="FDA0000454254840000011.GIF" wi="142" he="84" />循环依序划分U<sub>D</sub>和U<sub>i</sub>的区间,每次循环U<sub>D</sub>和U<sub>i</sub>分别被划分为<img file="FDA0000454254840000012.GIF" wi="225" he="84" />个区间,其中n为U中的对象个数;根据U<sub>D</sub>和U<sub>i</sub>均划分为的<img file="FDA0000454254840000013.GIF" wi="227" he="84" />个区间中,前面p-1个区间的条件属性和决策属性之间隶属函数的值是否都大于0.5进行判断,如果是就求出第p个区间元素个数与元素个数k的比值l,并求出第P个区间隶属函数的值和记录k的值,否则对记录k值的变量清零,并进入下一次循环;求出当隶属函数的值大于0.5时最小的k值记为R<sub>k</sub>,R<sub>k</sub>不为零,l值小于0.5,或者当l值大于0.5时,第P个区间隶属函数的值不为零,则判定决策属性D和条件属性C<sub>i</sub>是模糊包含单调依赖关系;U<sub>D</sub>和U<sub>i</sub>之间按划分所得的包含度具体为:根据U<sub>D</sub>和U<sub>i</sub>被划分出来的区间,获取U的两个与U<sub>D</sub>和U<sub>i</sub>对应的等价类,X<sub>i</sub>对应于U<sub>D</sub>、Y<sub>j</sub>对应于U<sub>i</sub>中的各个等价类;根据对象U的包含度,设定U<sub>D</sub>和U<sub>i</sub>之间按划分所得的包含度为:μ(X<sub>i</sub>,Y<sub>j</sub>)=|Y<sub>j</sub>∩X<sub>i</sub>|/|X<sub>i</sub>|=ID(Y<sub>j</sub>/X<sub>i</sub>),Y<sub>j</sub>,X<sub>i</sub>∈F(U),|X<sub>i</sub>|表示集合X<sub>i</sub>的基数,即元素个数,当<img file="FDA0000454254840000021.GIF" wi="239" he="83" />ID(Y<sub>j</sub>/X<sub>i</sub>)=1;上述U是对象的集合,F(U)表示对象集合U中模糊集合的全体,ID是F<sub>0</sub>(U)上的包含度,<maths num="0001"><![CDATA[<math><mrow><msub><mi>F</mi><mn>0</mn></msub><mrow><mo>(</mo><mi>U</mi><mo>)</mo></mrow><mo>&SubsetEqual;</mo><mi>F</mi><mrow><mo>(</mo><mi>U</mi><mo>)</mo></mrow></mrow></math>]]></maths>;所述U<sub>D</sub>和U<sub>i</sub>经过划分后,通过将划分后的区间内部元素的偏序关系去掉并保持不同区间元素之间的偏序关系,获得有U/D={U<sub>D1</sub>,...,U<sub>Dp</sub>}和U/C<sub>i</sub>={U<sub>i1</sub>,...,U<sub>ip</sub>}是U的两个等价类,X<sub>i</sub>对应于U<sub>D</sub>、Y<sub>j</sub>对应于U<sub>i</sub>中的各个等价类;决策属性D和条件属性C<sub>i</sub>之间的隶属函数为:<img file="FDA0000454254840000022.GIF" wi="1047" he="343" /><img file="FDA0000454254840000023.GIF" wi="286" he="114" />表示j从1取值到p时μ(U<sub>Dj</sub>,U<sub>ij</sub>)的最小值,按元素个数<img file="FDA0000454254840000024.GIF" wi="348" he="83" />依序划分U<sub>D</sub>和U<sub>i</sub>的区间,那么U<sub>D</sub>和U<sub>i</sub>分别被划分为<img file="FDA0000454254840000026.GIF" wi="224" he="79" />个区间,经划分后设U<sub>D</sub>=U<sub>D1</sub>∪...∪U<sub>Dp</sub>,其中U<sub>Dj</sub>={e<sub>D(k*(j-1)+1)</sub>,...,e<sub>D(k*j)</sub>},1≤j&lt;p,U<sub>Dp</sub>={e<sub>D(k*p+1)</sub>,...,e<sub>Dn</sub>},同理设U<sub>i</sub>=U<sub>i1</sub>∪...∪U<sub>ip</sub>,其中:U<sub>ij</sub>={e<sub>i(k*(j-1)+1)</sub>,...,e<sub>i(k*j)</sub>},1≤j&lt;p,U<sub>ip</sub>={e<sub>i(kp+1)</sub>,...,e<sub>in</sub>};e<sub>D(k*(j-1)+1)</sub>表示U<sub>D</sub>集合的第k*(j-1)+1个对象,同样e<sub>D(k*j)</sub>表示U<sub>D</sub>集合的第k*j个对象,e<sub>D(k*p+1)</sub>表示U<sub>D</sub>集合的第k*p+1个对象,e<sub>Dn</sub>表示U<sub>D</sub>集合的第n个对象;同理,e<sub>i(k*(j-1)+1)</sub>表示U<sub>i</sub>集合的第k*(j-1)+1个对象,e<sub>i(k*j)</sub>表示U<sub>i</sub>集合的第k*j个对象,e<sub>i(kp+1)</sub>表示U<sub>i</sub>集合的第k*p+1个对象,e<sub>in</sub>表示U<sub>i</sub>集合的第n个对象。
地址 510631 广东省广州市天河区中山大道西55号