基于测试代价的决策树分类器构造方法,申请号CN201610353308.3-传众专利搜索

发明名称	基于测试代价的决策树分类器构造方法
摘要	本发明提出了基于测试代价的决策树分类器构造方法，涉及智能服务、机器学技术领域，从库中数据流中提取最匹配的训练示例样本为标识示例，对新示例进行类预测，若在分类过程中为相同的类，或测试属性为空时，则标识示例类符合此新示例。之后遵循测试成本代价最小原则构建决策树，这里的测试代价限制条件更加严苛，也更优化。测试代价f作为选择属性标准，c作为分裂属性标准。若在叶子结点出现未知类，同时测试成本也更优化，则更新库，保存新示例。更优化的决策树分类器就构成了。
申请公布号	CN106611180A	申请公布日期	2017.05.03
申请号	CN201610353308.3	申请日期	2016.05.25
申请人	四川用联信息技术有限公司	发明人	金平艳;胡成华
分类号	G06K9/62(2006.01)I	主分类号	G06K9/62(2006.01)I
代理机构		代理人
主权项	基于测试代价的决策树分类器构造方法，该方法涉及智能服务、机器学习技术领域，其特征是：本发明从库中数据流中提取最匹配的训练示例样本为标识示例，对新示例进行类预测，若在分类过程中为相同的类，或测试属性为空时，则标识示例类符合此新示例，之后遵循测试成本代价最小原则构建决策树，测试代价f作为选择属性标准，c作为分裂属性标准，若在叶子结点出现未知类，同时测试成本也更优化，则更新库，保存新示例，更优化的决策树分类器就构成了，其具体的实施步骤如下：步骤1：根据保存示例与新示例之间的特征差值来标识和鉴定训练示例样本：<img file="360801dest_path_image001.GIF" wi="375" he="39" />其中<img file="722906dest_path_image002.GIF" wi="96" he="31" />为已有新示例第属性值，表示它们之间相关性，取值范围为，当没有数值属性时，即为0，否则就为1；当两比较特征有至少一个值未知，就标记为0.5，当越大，则标识了更多示例，当=0时，则找到了最佳匹配训练示例；步骤2：专家根据实际情况，给出每项属性进行的测试成本<img file="845714dest_path_image003.GIF" wi="41" he="17" />：在训练样本集S中进行每一项属性测试需要的费用，记为<img file="290339dest_path_image004.GIF" wi="38" he="16" />，<img file="219112dest_path_image005.GIF" wi="41" he="18" />为第X属性测试成本，测试代价由相关专家给出；步骤3：用户自定义参数经济因子<img file="435723dest_path_image006.GIF" wi="15" he="12" />,它范围为<img file="978700dest_path_image007.GIF" wi="25" he="23" />，经济因子<img file="146507dest_path_image006.GIF" wi="16" he="13" />为用来校准成本花费的一个变量，当<img file="377506dest_path_image008.GIF" wi="49" he="16" />为最大成本花费；完整阈值<img file="947159dest_path_image009.GIF" wi="20" he="16" />由相关领域专家给出，其取值范围为<img file="913234dest_path_image010.GIF" wi="59" he="24" />；步骤4：根据<img file="833917dest_path_image011.GIF" wi="14" he="19" />遍历输入的训练样本集候选属性列表，计算每个候选属性，得出当前选择属性；步骤4.1：遍历所有训练样本集的属性，计算每个属性的<img file="603028dest_path_image011.GIF" wi="16" he="19" />,选择<img file="27187dest_path_image011.GIF" wi="16" he="19" />值最大的属性作为测试代价决策树分类器的根结点；候选属性的选择因子<img file="503778dest_path_image011.GIF" wi="14" he="19" />为：<img file="646178dest_path_image012.GIF" wi="141" he="48" />其中<img file="218979dest_path_image013.GIF" wi="34" he="22" />为训练示例集中属性为X的信息增益，<img file="497645dest_path_image014.GIF" wi="54" he="21" />为属性X的信息成本函数；步骤5：对应于步骤4得出的最大候选属性每一个属性值，在结点下生成相应分支（即分裂抽象属性）；每个分支样本集合为所有属性值对应分支的训练样本，这样训练样本集为个子集，也为属性值个数；步骤6：将每个子集<img file="818905dest_path_image015.GIF" wi="21" he="28" />作为新的训练样本集，对各子集递归调用本算法，即重回步骤4，用同样的方法将样本子集分割，产生分支的分支，同时获得相应子集的子集，直到满足以下两条件之一则终止建树过程，即：条件1：在一个子集或分支结点中所有样例属性都为同一类别，又称之为观测值；条件2：在一个子集或分支结点中所有样本为空；步骤7：在叶子结点分类时出现未知类同时又有廉价的测试功能，则更新库保存新的示例。
地址	610054 四川省成都市成华区电子信息产业大厦1101室