发明名称 监督基因表达数据分类方法
摘要 本发明公开了一种监督基因表达数据分类方法,主要解决现有技术进行基因表达数据分类时存在的维数灾难、丢失信息和分类器设计复杂的问题。其技术方案是:1.采用类别保留投影方法获得训练样本的鉴别特征向量;2.利用训练样本的鉴别特征向量,采用回归优化方法获得投影矩阵;3.由投影矩阵获得训练样本特征集和测试样本特征集;4.由训练样本特征集和测试样本特征集,采用最近邻分类器实现测试样本的分类识别。本发明克服了类别保留投影方法存在矩阵奇异、过拟合的问题,提高了基因表达数据分类的准确性,可用于生物信息学中的肿瘤识别和肿瘤亚型分类。
申请公布号 CN104504305A 申请公布日期 2015.04.08
申请号 CN201410817036.9 申请日期 2014.12.24
申请人 西安电子科技大学 发明人 王文俊
分类号 G06F19/24(2011.01)I 主分类号 G06F19/24(2011.01)I
代理机构 陕西电子工业专利中心 61205 代理人 王品华
主权项 一种监督基因表达数据分类方法,其特征在于包括以下步骤:(1)设训练样本基因表达数据集X={x<sub>i</sub>|i=1,2,…,m},其中,x<sub>i</sub>是n维列向量,代表第i个训练样本在n个基因上的表达水平向量,m是训练样本个数;设第i个训练样本的类别记为c<sub>i</sub>;(2)采用类别保留投影方法获得训练样本的鉴别特征向量y'<sub>l</sub>,l=1,2,…,d,d是鉴别特征向量的个数,1≤d&lt;n;(3)利用鉴别特征向量y'<sub>l</sub>,采用回归优化方法获得n×d维的投影矩阵A;(4)将第i个训练样本的基因表达水平向量x<sub>i</sub>投影在投影矩阵A上,获得第i个训练样本的特征向量y<sub>i</sub>=A<sup>T</sup>x<sub>i</sub>,其中,A<sup>T</sup>表示投影矩阵A的转置;训练样本特征集Y={y<sub>i</sub>|i=1,2,…,m};(5)设测试样本基因表达数据集U={u<sub>j</sub>|j=1,2,…,p},其中,u<sub>j</sub>是n维列向量,代表第j个测试样本在n个基因上的表达水平向量,p是测试样本个数;(6)将第j个测试样本的基因表达水平向量u<sub>j</sub>投影在投影矩阵A上,获得第j个测试样本的特征向量q<sub>j</sub>=A<sup>T</sup>u<sub>j</sub>,其中,A<sup>T</sup>表示投影矩阵A的转置;测试样本特征集Q={q<sub>j</sub>|j=1,2,…,p};(7)采用最近邻分类器对测试样本进行分类,计算第j个测试样本特征向量q<sub>j</sub>到各个训练样本特征向量y<sub>i</sub>的欧氏距离,将欧氏距离最近的训练样本的类别作为第j个测试样本的类别。
地址 710071 陕西省西安市太白南路2号