发明名称 基于模型集群分析的激光诱导击穿光谱变量选择方法
摘要 本发明公开了一种基于模型集群分析思想适用于支持向量机的变量选择方法,其通过蒙特卡洛采样从全光谱数据矩阵中获取子数据集,针对每个子数据集建立一个SVM子模型并预测分类,然后使用Mann-Whitney U检验对所有子模型的预测正确率进行统计分析,挑选出对模型预测能力有显著作用的有用变量。该方法不以一次性建模结果为依据,而是通过有放回的重采样最大限度地有效利用数据信息,充分考察数据集中各变量间的内在关系,对不同结果的统计分布进行分析,因此具有更好的普遍性和稳定性。
申请公布号 CN103487410B 申请公布日期 2015.11.18
申请号 CN201310388287.5 申请日期 2013.09.01
申请人 西北大学 发明人 李华;梁龙;汤宏胜;王康;张天龙;孙昆仑;李吉光;盛丽雯
分类号 G01N21/63(2006.01)I 主分类号 G01N21/63(2006.01)I
代理机构 西安西达专利代理有限责任公司 61202 代理人 谢钢
主权项 基于模型集群分析的激光诱导击穿光谱变量选择方法, 其特征在于包括以下步骤:(1) 利用激光诱导击穿光谱系统对不同牌号的钢材样品分别在不同的测量位点进行光谱数据采集获得全光谱数据;(2) 对全光谱数据矩阵进行蒙特卡洛采样将全光谱波段划分为若干变量,每个变量为包含一定波长点数的波段,对于全光谱数据  X<sub>m</sub><sub>×n</sub>,其中m为光谱个数,n为变量数,每次采样无放回地从X<sub>m</sub><sub>×n</sub>中抽取s个光谱和q个变量组成一个子数据矩阵R<sub>s</sub><sub>×q</sub>,从X<sub>m</sub><sub>×n</sub>余下的数据中抽取同样的q个变量组成T<sub>(m‑s</sub><sub>)×q</sub>,重复进行N次采样可得到N个子数据矩阵;(3) 子数据矩阵建模分类将每个经蒙特卡洛采样得到的子数据矩阵R<sub>s</sub><sub>×q</sub>作为训练集,对应的T<sub>(m‑s</sub><sub>)×q</sub>作为测试集,用一种改进的支持向量机分类方法——组合模型——对训练集建立子模型,然后用测试集预测分类并计算预测正确率;最后N次采样共得到N个子模型和N个预测正确率;(4)挑选候选有用变量对每一个变量依次进行统计分析检验其是否是有用变量,对于变量<i>i</i><i>,</i>将N个子模型对应的预测正确率分为两组:包含变量<i>i</i>的子模型对应的预测正确率分为A组,不包含变量<i>i</i>的子模型对应的预测正确率分为B组;两组预测正确率的平均值之差Dmean<sub>i</sub>=Mean<sub>i,A</sub>‑Mean<sub>i,B</sub>, 如果Dmean<sub>i</sub>&gt;0,则将变量i作为候选有用变量,否则变量<i>i</i>被认为是无用变量;(5)通过无参数检验确定真实有用变量如果变量<i>i</i>是候选有用变量,利用Mann‑Whitney U检验变量<i>i</i>的A组预测正确率和B组预测正确率进行分析并计算p值,如果p值小于预设阈值,则认为变量<i>i</i>是真正有用变量,否则判定变量<i>i</i>为无用变量。
地址 710069 陕西省西安市太白北路229号