发明名称 一种机器错误数据分类方法及系统
摘要 本申请涉及数据挖掘技术领域,特别是涉及一种机器错误数据分类方法及系统。该方法引入标签传播算法作为机器错误数据预处理步骤,利用少量的已标定机器数据的标签,快速估计出未标定数据的标签,组成分类训练集。基于分类训练集中的机器数据及标签,进行标签一致的字典学,同时最小化重构错误、判别稀疏编码错误和分类错误,得到重构字典、稀疏编码和多类线性分类器,同时保持字典中各项与数据标签间的关系。进而,利用得到的稀疏编码来表征机器数据特征,输入到分类器进行预测,确定测试样本的类别,实现机器数据的错误分类。通过引入高效的半监督数据预处理,增加了已标定机器样本的数量,丰富了先验信息,有效提高了机器数据分类的精准度。
申请公布号 CN104750875A 申请公布日期 2015.07.01
申请号 CN201510197408.7 申请日期 2015.04.23
申请人 苏州大学 发明人 张召;江威明;张莉;李凡长
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 北京集佳知识产权代理有限公司 11227 代理人 罗满
主权项 一种机器错误数据分类方法,其特征在于,包括:获取原始训练集X,所述原始训练集X包括已标记机器数据X<sub>L</sub>和未标记机器数据X<sub>U</sub>;利用所述已标记机器数据X<sub>L</sub>的标签,用半监督的标签传播算法估计得到所述未标记机器数据X<sub>U</sub>的标签,对所述已标记机器数据X<sub>L</sub>及估计出标签的所述未标记机器数据X<sub>U</sub>进行分类,得到分类训练集;基于所述分类训练集中的机器数据及标签信息,进行标签一致的字典学习,同时最小化重构错误、判别稀疏编码错误和分类错误,计算得到重构字典D、稀疏编码S和多类线性分类器,同时保持所述重构字典D中各项与机器数据标签之间的内在关系,利用所述稀疏编码S来表征机器数据特征;将所述机器数据特征输入所述多类线性分类器进行预测,确定测试样本的类别,实现机器数据的错误分类。
地址 215123 江苏省苏州市工业园区仁爱路199号