发明名称 | 基于动态规划和K-means聚类的特征选择算法 | ||
摘要 | 本发明公开了一种基于动态规划和K‑means聚类的特征选择算法,包括步骤:1)数据预处理,主要解决特征数据中存在的数据重复、数据属性值缺失问题;2)借助动态规划的核心思想预选择出特征子集,并且采用类间类内距离作为动态规划决策过程中的性能函数;3)改进原始的K‑means聚类算法,并且使用改进后的K‑means算法对动态规划阶段生成的特征子集进行聚类,剔除冗余特征,优化选择出的特征子集。本发明能够选择出低噪声、强相关、无冗余的特征子集,实现特征的有效降维,提高机器学算法的泛化能力和学效率,降低算法的运行时间,最终生成一个简单高效且易于理解的学模型。 | ||
申请公布号 | CN106022385A | 申请公布日期 | 2016.10.12 |
申请号 | CN201610363758.0 | 申请日期 | 2016.05.26 |
申请人 | 华南理工大学 | 发明人 | 董敏;曹丹;刘皓熙;毕盛 |
分类号 | G06K9/62(2006.01)I | 主分类号 | G06K9/62(2006.01)I |
代理机构 | 广州市华学知识产权代理有限公司 44245 | 代理人 | 罗观祥 |
主权项 | 基于动态规划和K‑means聚类的特征选择算法,其特征在于,包括以下步骤:1)数据预处理,主要解决特征数据中存在的数据重复、数据属性值缺失问题;2)借助动态规划的核心思想预选择出特征子集,并且采用类间类内距离作为动态规划决策过程中的性能函数;3)改进原始的K‑means聚类算法,重点集中在确定聚类个数及选取初始中心点这两方面对原始的K‑means聚类算法进行优化改进,并且引入加权欧氏距离,其改进思想是:使用迭代法确定聚类个数,利用标准差进行加权欧氏距离的计算,采用加权欧氏距离以及最大最小距离的原理进行初始中心点的选取;最后使用改进后的K‑means算法对动态规划阶段生成的特征子集进行聚类,剔除冗余特征,优化选择出的特征子集。 | ||
地址 | 510640 广东省广州市天河区五山路381号 |