监督基因表达数据分类方法,申请号CN201410817036.9-传众专利搜索

发明名称	监督基因表达数据分类方法
摘要	本发明公开了一种监督基因表达数据分类方法，主要解决现有技术进行基因表达数据分类时存在的维数灾难、丢失信息和分类器设计复杂的问题。其技术方案是：1.采用类别保留投影方法获得训练样本的鉴别特征向量；2.利用训练样本的鉴别特征向量，采用回归优化方法获得投影矩阵；3.由投影矩阵获得训练样本特征集和测试样本特征集；4.由训练样本特征集和测试样本特征集，采用最近邻分类器实现测试样本的分类识别。本发明克服了类别保留投影方法存在矩阵奇异、过拟合的问题，提高了基因表达数据分类的准确性，可用于生物信息学中的肿瘤识别和肿瘤亚型分类。
申请公布号	CN104504305A	申请公布日期	2015.04.08
申请号	CN201410817036.9	申请日期	2014.12.24
申请人	西安电子科技大学	发明人	王文俊
分类号	G06F19/24(2011.01)I	主分类号	G06F19/24(2011.01)I
代理机构	陕西电子工业专利中心 61205	代理人	王品华
主权项	一种监督基因表达数据分类方法，其特征在于包括以下步骤：(1)设训练样本基因表达数据集X＝{x<sub>i</sub>\|i＝1,2,…,m}，其中，x<sub>i</sub>是n维列向量，代表第i个训练样本在n个基因上的表达水平向量，m是训练样本个数；设第i个训练样本的类别记为c<sub>i</sub>；(2)采用类别保留投影方法获得训练样本的鉴别特征向量y'<sub>l</sub>，l＝1,2,…,d，d是鉴别特征向量的个数，1≤d<n；(3)利用鉴别特征向量y'<sub>l</sub>，采用回归优化方法获得n×d维的投影矩阵A；(4)将第i个训练样本的基因表达水平向量x<sub>i</sub>投影在投影矩阵A上，获得第i个训练样本的特征向量y<sub>i</sub>＝A<sup>T</sup>x<sub>i</sub>，其中，A<sup>T</sup>表示投影矩阵A的转置；训练样本特征集Y＝{y<sub>i</sub>\|i＝1,2,…,m}；(5)设测试样本基因表达数据集U＝{u<sub>j</sub>\|j＝1,2,…,p}，其中，u<sub>j</sub>是n维列向量，代表第j个测试样本在n个基因上的表达水平向量，p是测试样本个数；(6)将第j个测试样本的基因表达水平向量u<sub>j</sub>投影在投影矩阵A上，获得第j个测试样本的特征向量q<sub>j</sub>＝A<sup>T</sup>u<sub>j</sub>，其中，A<sup>T</sup>表示投影矩阵A的转置；测试样本特征集Q＝{q<sub>j</sub>\|j＝1,2,…,p}；(7)采用最近邻分类器对测试样本进行分类，计算第j个测试样本特征向量q<sub>j</sub>到各个训练样本特征向量y<sub>i</sub>的欧氏距离，将欧氏距离最近的训练样本的类别作为第j个测试样本的类别。
地址	710071 陕西省西安市太白南路2号