主权项 |
一种用于筛选环境敏感性生物分子的方法,其特征在于包括以下步骤:①.读入相应生物样本表达谱数据矩阵,矩阵中的行属性为组学数据中的特征或者变量,列属性表示拟分析环境处理的条件;所述表达谱数据矩阵中的数据为对应环境处理条件下特征的绝对表达量;②.步骤①得到的表达谱数据进行标准化处理;所述标准化处理方法为均值标准化处理;③.计算步骤②得到的标准化的表达谱矩阵中每个特征的IQR的大小;所述IQR为统计学参数四分位距;④.将步骤③得到的所有特征的IQR大小进行正态分布拟合分析:将正态分布90%累积概率对应的IQR设定为相应的阈值;⑤.将步骤②得到的标准化的表达谱矩阵进行IQR算法过滤:将IQR与步骤④得到的相比较,并将IQR大于阈值的特征记录,得到IQR算法过滤下的差异表达特征;⑥.将步骤②得到的标准化的表达谱矩阵中的列属性按照不同的处理条件进行重新分组;⑦.将⑥得到的表达谱矩阵进行ANOVA算法过滤:将p设定为0.05,得到ANOVA算法过滤下的差异表达特征;所述的ANOVA为统计学中方差分析;所述p为组间差异性水平;⑧.将步骤⑤和⑦中得到的差异表达特征相互匹配,得到共同差异表达的特征;⑨.将步骤⑧得到共同差异表达特征矩阵进行Random Forest算法排序,得到特征的重要性:将重要性大于1.5的特征记录,得到重要的响应环境处理的特征矩阵;所述Random Forest表示随机森林,是生物信息学中一种用于筛选变量的数据挖掘算法;⑩.将步骤⑨得到的响应环境处理的特征矩阵,进行聚类分析,得到响应环境处理的敏感分子标志物;所述聚类为无监督学习中的系统聚类方法。 |