发明名称 基于测试代价的决策树分类器构造方法
摘要 本发明提出了基于测试代价的决策树分类器构造方法,涉及智能服务、机器学技术领域,从库中数据流中提取最匹配的训练示例样本为标识示例,对新示例进行类预测,若在分类过程中为相同的类,或测试属性为空时,则标识示例类符合此新示例。之后遵循测试成本代价最小原则构建决策树,这里的测试代价限制条件更加严苛,也更优化。测试代价f作为选择属性标准,c作为分裂属性标准。若在叶子结点出现未知类,同时测试成本也更优化,则更新库,保存新示例。更优化的决策树分类器就构成了。
申请公布号 CN106611180A 申请公布日期 2017.05.03
申请号 CN201610353308.3 申请日期 2016.05.25
申请人 四川用联信息技术有限公司 发明人 金平艳;胡成华
分类号 G06K9/62(2006.01)I 主分类号 G06K9/62(2006.01)I
代理机构 代理人
主权项 基于测试代价的决策树分类器构造方法,该方法涉及智能服务、机器学习技术领域,其特征是:本发明从库中数据流中提取最匹配的训练示例样本为标识示例,对新示例进行类预测,若在分类过程中为相同的类,或测试属性为空时,则标识示例类符合此新示例,之后遵循测试成本代价最小原则构建决策树,测试代价f作为选择属性标准,c作为分裂属性标准,若在叶子结点出现未知类,同时测试成本也更优化,则更新库,保存新示例,更优化的决策树分类器就构成了,其具体的实施步骤如下:步骤1:根据保存示例与新示例之间的特征差值来标识和鉴定训练示例样本:<img file="360801dest_path_image001.GIF" wi="375" he="39" />其中<img file="722906dest_path_image002.GIF" wi="96" he="31" />为已有新示例第属性值,表示它们之间相关性,取值范围为,当没有数值属性时,即为0,否则就为1;当两比较特征有至少一个值未知,就标记为0.5,当越大,则标识了更多示例,当=0时,则找到了最佳匹配训练示例;步骤2:专家根据实际情况,给出每项属性进行的测试成本<img file="845714dest_path_image003.GIF" wi="41" he="17" />:在训练样本集S中进行每一项属性测试需要的费用,记为<img file="290339dest_path_image004.GIF" wi="38" he="16" />,<img file="219112dest_path_image005.GIF" wi="41" he="18" />为第X属性测试成本,测试代价由相关专家给出;步骤3:用户自定义参数经济因子<img file="435723dest_path_image006.GIF" wi="15" he="12" />,它范围为<img file="978700dest_path_image007.GIF" wi="25" he="23" />,经济因子<img file="146507dest_path_image006.GIF" wi="16" he="13" />为用来校准成本花费的一个变量,当<img file="377506dest_path_image008.GIF" wi="49" he="16" />为最大成本花费;完整阈值<img file="947159dest_path_image009.GIF" wi="20" he="16" />由相关领域专家给出,其取值范围为<img file="913234dest_path_image010.GIF" wi="59" he="24" />;步骤4:根据<img file="833917dest_path_image011.GIF" wi="14" he="19" />遍历输入的训练样本集候选属性列表,计算每个候选属性,得出当前选择属性;步骤4.1: 遍历所有训练样本集的属性,计算每个属性的<img file="603028dest_path_image011.GIF" wi="16" he="19" />,选择<img file="27187dest_path_image011.GIF" wi="16" he="19" />值最大的属性作为测试代价决策树分类器的根结点;候选属性的选择因子<img file="503778dest_path_image011.GIF" wi="14" he="19" />为:<img file="646178dest_path_image012.GIF" wi="141" he="48" />其中<img file="218979dest_path_image013.GIF" wi="34" he="22" />为训练示例集中属性为X的信息增益,<img file="497645dest_path_image014.GIF" wi="54" he="21" />为属性X的信息成本函数;步骤5:对应于步骤4得出的最大候选属性每一个属性值,在结点下生成相应分支(即分裂抽象属性);每个分支样本集合为所有属性值对应分支的训练样本,这样训练样本集为个子集,也为属性值个数;步骤6:将每个子集<img file="818905dest_path_image015.GIF" wi="21" he="28" />作为新的训练样本集,对各子集递归调用本算法,即重回步骤4,用同样的方法将样本子集分割,产生分支的分支,同时获得相应子集的子集,直到满足以下两条件之一则终止建树过程,即:条件1:在一个子集或分支结点中所有样例属性都为同一类别,又称之为观测值;条件2:在一个子集或分支结点中所有样本为空;步骤7:在叶子结点分类时出现未知类同时又有廉价的测试功能,则更新库保存新的示例。
地址 610054 四川省成都市成华区电子信息产业大厦1101室