发明名称 一种用于筛选环境敏感性生物分子的方法
摘要 本发明公开了一种用于环境敏感性生物分子的筛选方法,包括以下步骤:组学数据加载和标准化处理,计算特征的四分位距和设定阈值,利用此阈值进行四分位距算法过滤,得到差异表达特征,然后,用方差分析算法对标准化后的数据集进行过滤,得到差异表达特征。结合以上两种算法,匹配共同差异表达变化的特征,进行随机森林算法排序,得到重要性的差异表达特征。在此基础上,通过聚类分析,确定环境敏感的分子标志物。本发明提供的用于筛选环境敏感的分子标志物组合算法,降低了计算时间、提高了准确性,给出了特征的重要性排序,为生物学家快速定位到环境敏感的靶分子,揭示生物的响应机理,进行早期预警和防治,提供了高效便捷的数据处理工具。
申请公布号 CN105117617A 申请公布日期 2015.12.02
申请号 CN201510532046.2 申请日期 2015.08.26
申请人 大连海事大学 发明人 赵磊;宓东;孙野青
分类号 G06F19/12(2011.01)I 主分类号 G06F19/12(2011.01)I
代理机构 大连东方专利代理有限责任公司 21212 代理人 贾汉生;李馨
主权项 一种用于筛选环境敏感性生物分子的方法,其特征在于包括以下步骤:①.读入相应生物样本表达谱数据矩阵,矩阵中的行属性为组学数据中的特征或者变量,列属性表示拟分析环境处理的条件;所述表达谱数据矩阵中的数据为对应环境处理条件下特征的绝对表达量;②.步骤①得到的表达谱数据进行标准化处理;所述标准化处理方法为均值标准化处理;③.计算步骤②得到的标准化的表达谱矩阵中每个特征的IQR的大小;所述IQR为统计学参数四分位距;④.将步骤③得到的所有特征的IQR大小进行正态分布拟合分析:将正态分布90%累积概率对应的IQR设定为相应的阈值;⑤.将步骤②得到的标准化的表达谱矩阵进行IQR算法过滤:将IQR与步骤④得到的相比较,并将IQR大于阈值的特征记录,得到IQR算法过滤下的差异表达特征;⑥.将步骤②得到的标准化的表达谱矩阵中的列属性按照不同的处理条件进行重新分组;⑦.将⑥得到的表达谱矩阵进行ANOVA算法过滤:将p设定为0.05,得到ANOVA算法过滤下的差异表达特征;所述的ANOVA为统计学中方差分析;所述p为组间差异性水平;⑧.将步骤⑤和⑦中得到的差异表达特征相互匹配,得到共同差异表达的特征;⑨.将步骤⑧得到共同差异表达特征矩阵进行Random Forest算法排序,得到特征的重要性:将重要性大于1.5的特征记录,得到重要的响应环境处理的特征矩阵;所述Random Forest表示随机森林,是生物信息学中一种用于筛选变量的数据挖掘算法;⑩.将步骤⑨得到的响应环境处理的特征矩阵,进行聚类分析,得到响应环境处理的敏感分子标志物;所述聚类为无监督学习中的系统聚类方法。
地址 116026 辽宁省大连市甘井子区凌海路1号