发明名称 数据挖掘方法和装置
摘要 本发明涉及一种数据挖掘方法和装置,其中,该数据挖掘方法,包括:对由初始群体编码得到的决策信息表进行属性约简,获得所述决策信息表的属性约简集合;根据所述属性约简集合确定的遗传算法,对所述初始群体进行选择、交叉和变异运算,获取最优数据。本发明对初始群体编码得到的决策信息表进行属性约简后,根据得到的属性约简集合可以确定遗传算法,采用该遗传算法对初始群体进行选择、交叉和变异运算,能够加快遗传算法的收敛速度,克服遗传算法的早熟,快速准确地得到最优数据。
申请公布号 CN101706883B 申请公布日期 2013.01.23
申请号 CN200910237276.0 申请日期 2009.11.09
申请人 北京航空航天大学 发明人 高强;宋双;刘翼光;黄昭婷
分类号 G06N3/12(2006.01)I;G06F17/30(2006.01)I 主分类号 G06N3/12(2006.01)I
代理机构 北京同立钧成知识产权代理有限公司 11205 代理人 刘芳
主权项 一种数据挖掘方法,其特征在于,包括:对每个初始群体中的染色体按照设定位数进行二进制编码,得到决策信息表,每个初始群体中的染色体在所述决策信息表中对应为一个样本,所有初始群体中的染色体经二进制编码得到的相同基因位的数据在所述决策信息表中对应为一个条件属性子集,所述决策信息表中所有的条件属性子集构成条件属性集合,每个样本在所述决策信息表中对应一个决策属性,所有样本的决策属性在所述决策信息表中对应为一个决策属性集合;对由初始群体编码得到的所述决策信息表进行属性约简,获得所述决策信息表的属性约简集合,具体包括:从所述决策信息表的辨别矩阵中,获取所述决策信息表的核心条件属性子集;判断所述决策信息表的所述决策属性集合对所述核心条件属性子集的依赖程度是否等于所述决策属性集合对所述条件属性集合的依赖程度,如果是,则将所述核心条件属性作为属性约简集合;否则,判断所述决策信息表的所述决策属性集合对所述条件属性集合中至少一个非核心条件属性子集与所述核心条件属性子集的并集的依赖程度是否等于所述决策属性集合对所述条件属性集合的依赖程度,如果是,则将所述至少一个非核心条件属性子集与所述核心条件属性子集的并集作为属性约简集合;根据所述属性约简集合确定的遗传算法,对所述初始群体进行选择、交叉和变异运算,获取最优数据,具体包括:根据所述每个初始群体中的染色体的适应度计算所述初始群体对应的遗传概率,按照所述遗传概率选择第一数量个染色体;随机选取交叉点,根据设定的交叉概率从所述第一数量个染色体中选取第二数量个染色体,根据交叉点对所述第二数量个染色体上的基因位进行交叉运算;根据设定的关键基因位的第一变异概率和非关键基因位的第二变异概率,对所述染色体的基因位进行变异运算,所述关键基因位为所述决策信息表的属性约简集合包括的基因位,所述非关键基因位为所述决策信息表的非 属性约简集合包括的基因位,所述第一变异概率的初始值大于所述第二变异概率的初始值。
地址 100191 北京市海淀区学院路37号