发明名称 基于蒙特卡洛和非负矩阵因子分解的基因选择和癌症分类方法
摘要 一种基于蒙特卡洛和非负矩阵因子分解的基因选择和癌症分类方法,用蒙特卡洛方法从原样本的基因表达数据中产生多个基因子集;每个子集通过非负矩阵因子分解方法分解为系数矩阵和基矩阵;每一个非负矩阵因子分解迭代中,若基矩阵中某样本的稀疏性小于原样本的最小稀疏性,该样本中的元素从小到大逐步被零代替,至其稀疏性不再小于原样本最小稀疏性;判断收敛;迭代收敛后,基因得分用于判断基因的重要性:按得分大小以降序排列基因,逐个选择序列中的基因建立一系列模型,各模型通过十折交叉验证方法校正;准确性最好的模型被用于预测。该方法能有效鉴别基因中的生物标志物,且由鉴定出的生物标志物建立的模型可用于有效地预测新的癌症中的显型。
申请公布号 CN104462817A 申请公布日期 2015.03.25
申请号 CN201410745298.9 申请日期 2014.12.09
申请人 西北师范大学;陈晶 发明人 陈晶;张苗;邵学广
分类号 G06F19/00(2011.01)I 主分类号 G06F19/00(2011.01)I
代理机构 甘肃省知识产权事务中心 62100 代理人 周立新
主权项 一种基于蒙特卡洛和非负矩阵因子分解的基因选择和癌症分类方法,其特征在于,该方法具体为:利用蒙特卡洛方法从原样本的基因表达数据中产生<i>S</i>个基因子集;每个<i>m</i>×<i>ns</i>基因子集包含1/5的从基因表达数据中通过随机采样得到的<i>ns</i>个基因数据,当<i>ns</i>值小于矩阵的秩<i>r</i>时,<i>ns</i>值将设置为等于<i>r</i>;然后,每个子集通过非负矩阵因子分解方法分解为一个系数矩阵<i>sW</i>和一个基矩阵<i>sH</i>;<i>sW</i>中的初始元素是随机数,<i>sH</i>中的初始元素是子集中的元素;在每一个非负矩阵因子分解迭代中,如果<i>sH</i>中某样本的稀疏性小于原样本的最小稀疏性,该样本中的元素将从小到大逐步被零代替,直至其稀疏性不再小于原样本的最小稀疏性;为了判断收敛,参数<i>sc</i>定义如下:<img file="dest_path_image001.GIF" wi="200" he="38" />式中,<i>t</i>是第<i>t</i>个回归的数字;当<i>sc</i>值接近零时,计算趋近收敛;一个阈值用来判断收敛,即<i>sc</i>值小于该阈值时,认为计算收敛;如果当<i>t</i>值小于100时<i>sc</i>值小于阈值,则<i>t</i>值设为100;迭代收敛后,如下基因得分用于判断基因的重要性:<img file="dest_path_image002.GIF" wi="86" he="29" />式中,<i>E</i>是一个基因的信息熵;一个基因在<i>S</i>个子集中出现<i>Sg</i>次,因此,其最终得分是其<i>Sg</i>个得分的平均值;然后,所有基因按其得分的大小以降序排列,通过逐个选择序列中的基因建立一系列模型,且每个模型通过基于PLS‑LDA的十折交叉验证方法进行校正;校正准确性最好的模型被用于预测。
地址 730070 甘肃省兰州市安宁区安宁东路967号