发明名称 一种基于模糊ISODATA的特征选取方法
摘要 本发明提出了一种基于模糊ISODATA的特征选取方法,属于机器学领域。该方法利用分类和聚类算法的互补性,基于模糊ISODATA(Interactive Self-Organizing Data)的灵敏度分析方法,从高维数据集中选取出具有较强分类和聚类能力的关键特征。首先对训练集样本进行模糊ISODATA聚类,由此分析特征对聚类类别隶属度的灵敏度,并据此在递归特征选取过程中产生候选特征子集,然后根据候选特征子集在校验集中的分类和聚类结果选出类别信息最丰富的候选特征子集为最佳特征子集。本发明方法在选取出具有较强分类和聚类能力的关键特征的同时,特征选取的效率也比较高,对于不同数据集的特征选取也有较好的适应性,特征选取结果总体上优于传统方法。
申请公布号 CN102945238A 申请公布日期 2013.02.27
申请号 CN201210324487.X 申请日期 2012.09.05
申请人 南京航空航天大学;江苏省标准化研究院 发明人 刘全金;赵志敏;俞晓磊;汪东华;李颖新
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 代理人
主权项 一种基于模糊ISODATA的特征选取方法,其特征在于,包括如下步骤:第一步骤:数据集分割步骤,将数据集随机分成训练集、校验集和独立测试集,训练集用于生成候选特征子集,校验集用于校验候选特征子集所含的样本类别信息并从中选择确定最佳特征子集,独立测试集用于进一步测试最佳特征子集的分类和聚类性能;第二步骤:特征灵敏度分析步骤,在递归特征选取过程中,对训练集样本进行模糊ISODATA聚类(Fuzzy Interactive Self‑Organizing Data,又称模糊C均值聚类算法),分析特征对聚类类别隶属度的灵敏度,并由灵敏度值较高的特征组成候选特征子集;第三步骤:候选特征子集校验步骤,以候选特征子集F在校验集中的分类和聚类结果作为选择最佳特征子集的目标函数Object(F),以目标函数Object(F)衡量候选特征子集所含的类别信息,选择目标函数最大的候选特征子集为最佳特征子集;第四步骤:最佳特征子集测试步骤,用独立测试集测试第三步骤选择的最佳特征子集的分类和聚类能力,分类器和聚类算法与第三步骤的分类器和聚类算法相同,用训练集数据训练过的分类器对独立测试集的样本分类,用聚类算法对独立测试集的样本聚类,分类和聚类结果直观反映最佳特征子集的分类和聚类能力。
地址 210016 江苏省南京市御道街29号