发明名称 一种基于类-属性关系依赖度的数据离散化方法
摘要 本发明公开了一种基于类-属性关系依赖度的数据离散化方法,属于数据挖据领域。其特征是首先在CAIM算法的基础上综合考虑了属性重要性和决策表不一致率对离散化结果的影响,提出了一种改进的CAIM算法;其次,采用λ相关系数作为衡量类-属性关系的离散化判别式,提出了一种新的有监督离散化算法,该算法不需要人为输入参数,能够自动的选取离散断点。本发明的效果和益处是在保持从原始数据集中提取信息高效性的同时,权衡了精确性方面的考虑,能够在进行机器学时得到更高的准确性。
申请公布号 CN101702172A 申请公布日期 2010.05.05
申请号 CN200910219832.1 申请日期 2009.11.10
申请人 大连理工大学 发明人 李克秋;王哲;桑雨;申严明
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 大连理工大学专利中心 21200 代理人 梅洪玉
主权项 一种基于类-属性关系依赖度的数据离散化方法,该方法基于类-属性关系依赖度的CAIM算法,提出了有效的连续属性离散化方案;综合考虑了属性重要性和决策表不一致率对离散化结果的影响,其特征在于具体方法过程如下:输入:一个具有m个实例,t个决策类和s个条件属性的数据集;第一阶段:(1)计算每个属性的差集,并按属性重要性由小到大的顺序排序a1,a2,...as(a1代表重要性最小的属性,as代表重要性最大的属性)(2)For(ai=a1;i<=s;i++){Step1: 找出属性ai中的最小值xmin和最大值xmax; 将属性ai中所有不同的值按从小到大的顺序排列{xmin,x2,...xmax}; 计算出所有相邻的不同值之间的中间值作为候选断点,计算公式为 <mrow> <msub> <mi>d</mi> <mi>i</mi> </msub> <mo>=</mo> <mfrac> <mrow> <msub> <mi>x</mi> <mi>i</mi> </msub> <mo>+</mo> <msub> <mi>x</mi> <mrow> <mi>i</mi> <mo>+</mo> <mn>1</mn> </mrow> </msub> </mrow> <mn>2</mn> </mfrac> <mo>;</mo> </mrow> 将候选断点从大到小排序,初始化候选断点集合B:{[d0,d1],(d1,d2],...,(dn-1,dn]}; 初始化断点集合D:{[d0,dn]}; 初始化globalcaim=0; 初始化k=1;Step2: For(i=1;i<=n;i++) { 将候选断点集合B中的一个候选断点加入到断点集合D中,并计算加入该点后的caim 值; 选取具有最大caim值的断点dx; } While(caim>globalcaim or k<S) { 令globalciam=caimmax; 令k=k+1; 将候选断点dx从候选断点集合B中移除,并加入到断点集合D中; For(i=1;i<=n;i++) { 将候选断点集合B中的一个候选断点加入到断点集合D中,并计算加入该 点后的caim值; 选取具有最大caim值的断点dx; } }}第二阶段: Do{ For(ai=as;i>=1;i--) { 选出caim值最大的的断点加入 到离散断点集合D中; If(不一致率不变) { 从断点集合D去掉该断点; Continue; } }}While(不一致率改变);输出:离散化断点集合D。
地址 116085 辽宁省大连市高新园区凌工路2号