主权项 |
一种监督基因表达数据分类方法,其特征在于包括以下步骤:(1)设训练样本基因表达数据集X={x<sub>i</sub>|i=1,2,…,m},其中,x<sub>i</sub>是n维列向量,代表第i个训练样本在n个基因上的表达水平向量,m是训练样本个数;设第i个训练样本的类别记为c<sub>i</sub>;(2)采用类别保留投影方法获得训练样本的鉴别特征向量y'<sub>l</sub>,l=1,2,…,d,d是鉴别特征向量的个数,1≤d<n;(3)利用鉴别特征向量y'<sub>l</sub>,采用回归优化方法获得n×d维的投影矩阵A;(4)将第i个训练样本的基因表达水平向量x<sub>i</sub>投影在投影矩阵A上,获得第i个训练样本的特征向量y<sub>i</sub>=A<sup>T</sup>x<sub>i</sub>,其中,A<sup>T</sup>表示投影矩阵A的转置;训练样本特征集Y={y<sub>i</sub>|i=1,2,…,m};(5)设测试样本基因表达数据集U={u<sub>j</sub>|j=1,2,…,p},其中,u<sub>j</sub>是n维列向量,代表第j个测试样本在n个基因上的表达水平向量,p是测试样本个数;(6)将第j个测试样本的基因表达水平向量u<sub>j</sub>投影在投影矩阵A上,获得第j个测试样本的特征向量q<sub>j</sub>=A<sup>T</sup>u<sub>j</sub>,其中,A<sup>T</sup>表示投影矩阵A的转置;测试样本特征集Q={q<sub>j</sub>|j=1,2,…,p};(7)采用最近邻分类器对测试样本进行分类,计算第j个测试样本特征向量q<sub>j</sub>到各个训练样本特征向量y<sub>i</sub>的欧氏距离,将欧氏距离最近的训练样本的类别作为第j个测试样本的类别。 |