发明名称 基于动态规划和K-means聚类的特征选择算法
摘要 本发明公开了一种基于动态规划和K‑means聚类的特征选择算法,包括步骤:1)数据预处理,主要解决特征数据中存在的数据重复、数据属性值缺失问题;2)借助动态规划的核心思想预选择出特征子集,并且采用类间类内距离作为动态规划决策过程中的性能函数;3)改进原始的K‑means聚类算法,并且使用改进后的K‑means算法对动态规划阶段生成的特征子集进行聚类,剔除冗余特征,优化选择出的特征子集。本发明能够选择出低噪声、强相关、无冗余的特征子集,实现特征的有效降维,提高机器学算法的泛化能力和学效率,降低算法的运行时间,最终生成一个简单高效且易于理解的学模型。
申请公布号 CN106022385A 申请公布日期 2016.10.12
申请号 CN201610363758.0 申请日期 2016.05.26
申请人 华南理工大学 发明人 董敏;曹丹;刘皓熙;毕盛
分类号 G06K9/62(2006.01)I 主分类号 G06K9/62(2006.01)I
代理机构 广州市华学知识产权代理有限公司 44245 代理人 罗观祥
主权项 基于动态规划和K‑means聚类的特征选择算法,其特征在于,包括以下步骤:1)数据预处理,主要解决特征数据中存在的数据重复、数据属性值缺失问题;2)借助动态规划的核心思想预选择出特征子集,并且采用类间类内距离作为动态规划决策过程中的性能函数;3)改进原始的K‑means聚类算法,重点集中在确定聚类个数及选取初始中心点这两方面对原始的K‑means聚类算法进行优化改进,并且引入加权欧氏距离,其改进思想是:使用迭代法确定聚类个数,利用标准差进行加权欧氏距离的计算,采用加权欧氏距离以及最大最小距离的原理进行初始中心点的选取;最后使用改进后的K‑means算法对动态规划阶段生成的特征子集进行聚类,剔除冗余特征,优化选择出的特征子集。
地址 510640 广东省广州市天河区五山路381号