发明名称 某种疾病的特征基因的筛选方法
摘要 本发明提供某种疾病的特征基因的筛选方法。从一个全新的角度来分析基因表达谱,首先利用主成分分析对其进行降维,在以贡献率为99%的情况下,以特征值和贡献率作为分类因素来筛选肿瘤基因的特征基因,合理的降低基因表达空间的有效维度;然后在主成分分析的基础上,利用基于复数域的傅立叶变换与支持向量基对样本有效的分类和识别,创新性的结合主成分分析和使实数域变为复数域的数据处理,记录频数,频数越大分类效果越好,合理有效的提取了基因标签。本发明可应用在生物疾病领域,如基因分类和识别;也可应用于气象地理学领域,如观测气象,具有很明显的效果,有较高的实用价值。
申请公布号 CN101996284A 申请公布日期 2011.03.30
申请号 CN201010562308.7 申请日期 2010.11.29
申请人 昆明理工大学 发明人 王华;梁素梅;王建军;孟华;李红娟
分类号 G06F19/10(2011.01)I 主分类号 G06F19/10(2011.01)I
代理机构 昆明今威专利代理有限公司 53115 代理人 赛晓刚
主权项 某种疾病的特征基因的筛选方法,采用主成分分析方法和基于傅里叶变换的支持向量机分类方法进行筛选,包括下列步骤:(1)利用主成分分析对待分析样品进行降维,使基因表达空间减少,在以贡献率为78%‑88%以上的情况下,以特征值和贡献率作为分类因素来筛选某种疾病的特征基因,合理的降低基因表达空间的有效维度;求出所有基因的相关系数矩阵,对此矩阵求特征值和特征向量;利用特征值即方差,方差即信息量,特征值即方差越大包含信息量越大,求出贡献率在99%的情况下减少的基因:公式如下:贡献率: <mrow> <msub> <mi>&lambda;</mi> <mn>1</mn> </msub> <mo>/</mo> <munderover> <mi>&Sigma;</mi> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>p</mi> </munderover> <msub> <mi>&lambda;</mi> <mi>i</mi> </msub> <mo>=</mo> <mfrac> <mrow> <mi>Var</mi> <mrow> <mo>(</mo> <msub> <mi>F</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> </mrow> <mrow> <munderover> <mi>&Sigma;</mi> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>p</mi> </munderover> <mi>Var</mi> <mrow> <mo>(</mo> <msub> <mi>F</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> </mrow> </mfrac> </mrow>式中:P代表特征值个数即基因个数Var代表方差;(2)在主成分分析的基础上,利用基于复数域的傅立叶变换的支持向量基对样本有效分类和识别,记录频数,频数越大,分类效果越好,提取某种疾病的基因标签;对第(1)步骤筛选出的数个某种疾病的特征基因进行基于复数域的傅里叶变换的支持向量机的分类与识别,提取基因标签:公式如下:对apha做二维离散傅里叶变换: <mrow> <mi>X</mi> <mrow> <mo>(</mo> <mi>k</mi> <mo>,</mo> <mi>&lambda;</mi> <mo>)</mo> </mrow> <mo>=</mo> <munderover> <mi>&Sigma;</mi> <mrow> <mi>m</mi> <mo>=</mo> <mn>0</mn> </mrow> <mrow> <mi>m</mi> <mo>-</mo> <mn>1</mn> </mrow> </munderover> <munderover> <mi>&Sigma;</mi> <mrow> <mi>n</mi> <mo>=</mo> <mn>0</mn> </mrow> <mrow> <mi>n</mi> <mo>-</mo> <mn>1</mn> </mrow> </munderover> <mi>X</mi> <mrow> <mo>(</mo> <mi>n</mi> <mo>,</mo> <mi>m</mi> <mo>)</mo> </mrow> <msup> <mi>e</mi> <mrow> <mo>-</mo> <mi>j</mi> <mfrac> <mrow> <mn>2</mn> <mi>&pi;</mi> </mrow> <mi>n</mi> </mfrac> <mi>kn</mi> </mrow> </msup> <msup> <mi>e</mi> <mrow> <mo>-</mo> <mi>j</mi> <mfrac> <mrow> <mn>2</mn> <mi>&pi;</mi> </mrow> <mi>m</mi> </mfrac> <mi>lm</mi> </mrow> </msup> </mrow> <mrow> <mo>=</mo> <munderover> <mi>&Sigma;</mi> <mrow> <mi>m</mi> <mo>=</mo> <mn>0</mn> </mrow> <mrow> <mi>m</mi> <mo>-</mo> <mn>1</mn> </mrow> </munderover> <munderover> <mi>&Sigma;</mi> <mrow> <mi>n</mi> <mo>=</mo> <mn>0</mn> </mrow> <mrow> <mi>n</mi> <mo>-</mo> <mn>1</mn> </mrow> </munderover> <mi>X</mi> <mrow> <mo>(</mo> <mi>n</mi> <mo>,</mo> <mi>m</mi> <mo>)</mo> </mrow> <msup> <msub> <mi>W</mi> <mi>n</mi> </msub> <mi>kn</mi> </msup> <msup> <mi>W</mi> <mi>lm</mi> </msup> </mrow>其中 <mrow> <msub> <mi>W</mi> <mi>n</mi> </msub> <mo>=</mo> <msup> <mi>e</mi> <mrow> <mo>-</mo> <mi>j</mi> <mfrac> <mrow> <mn>2</mn> <mi>&pi;</mi> </mrow> <mi>n</mi> </mfrac> </mrow> </msup> <mo>,</mo> <msub> <mi>W</mi> <mi>m</mi> </msub> <mo>=</mo> <msup> <mi>e</mi> <mrow> <mo>-</mo> <mi>j</mi> <mfrac> <mrow> <mn>2</mn> <mi>&pi;</mi> </mrow> <mi>m</mi> </mfrac> </mrow> </msup> </mrow>式中:m,n分别代表正常样本数目,病变样本数目,X在这里面代表alpha。
地址 650093 云南省昆明市五华区学府路253号(昆明理工大学)