发明名称 一种基于属性间相关系数的数据分类方法
摘要 本发明提出了一种基于属性间相关系数的数据分类方法。本发明步骤:首先,输入样本集和待分类数据集,并计算训练样本集所有属性的信息增益值<sub><img file="664570dest_path_image001.GIF" wi="38" he="19" /></sub>;其次,依据从大到小排序将最大信息增益值<sub><img file="401582dest_path_image001.GIF" wi="38" he="19" /></sub>的属性选为决策树中根节点<sub><img file="924967dest_path_image002.GIF" wi="16" he="16" /></sub>的测试属性;然后,计算根节点属性(上一层节点属性)与剩余属性集之间相关系数的绝对值<sub><img file="292494dest_path_image003.GIF" wi="20" he="21" /></sub>;再根据<sub><img file="534120dest_path_image003.GIF" wi="20" he="21" /></sub>值和不同属性的属性值进行每一层节点的建立过程,并更新剩余属性集<sub><img file="809243dest_path_image004.GIF" wi="16" he="16" /></sub>;最后,直到所有属性遍历为止,生成决策树,依据决策树将待分类数据进行分类。本发明大大改善了传统决策树的效能,提高了决策树的分类准确性。
申请公布号 CN104765839A 申请公布日期 2015.07.08
申请号 CN201510180290.7 申请日期 2015.04.16
申请人 湘潭大学 发明人 裴廷睿;赵津锋;郭勋;朱更明;李哲涛;田淑娟
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 代理人
主权项 一种基于属性间相关系数的数据分类方法,其特征在于,在数据分类过程中,先输入样本集和待分类数据集,计算样本所有属性的信息增益值<img file="794399dest_path_image001.GIF" wi="37" he="19" />并排序,然后根据所有属性的信息增益值<img file="773857dest_path_image001.GIF" wi="37" he="19" />确定决策树根节点的属性,其次根据属性间相关系数的绝对值<img file="553594dest_path_image002.GIF" wi="20" he="21" />和不同属性的属性值,确定余下结点的属性,最后直到所有属性遍历完,生成决策树,再依据决策树将待分类数据集进行分类,所述方法至少包括以下步骤:步骤一、输入样本集和待分类数据集,计算训练样本集所有属性的信息增益值<img file="761853dest_path_image001.GIF" wi="37" he="19" />;步骤二、对信息增益值<img file="576225dest_path_image001.GIF" wi="37" he="19" />依据从大到小排序,选取最大信息增益值<img file="398687dest_path_image001.GIF" wi="37" he="19" />的属性作为决策树中根节点<img file="728037dest_path_image003.GIF" wi="19" he="19" />的测试属性;步骤三、计算根节点属性(上一层节点属性)与剩余属性集之间相关系数的绝对值<img file="926938dest_path_image002.GIF" wi="20" he="21" />;步骤四、根据<img file="595816dest_path_image002.GIF" wi="20" he="21" />值和不同属性的属性值进行每一层节点的建立过程,并更新剩余属性集<img file="589180dest_path_image004.GIF" wi="16" he="17" />;步骤五、若剩余属性集<img file="655094dest_path_image004.GIF" wi="16" he="17" />不为空集,即所有属性未遍历完,继续步骤三和四,直到所有属性遍历完,生成决策树;步骤六、依据决策树将待分类数据集进行分类。
地址 411105 湖南省湘潭市雨湖区羊牯塘27号湘潭大学