发明名称 多物种特征选择及鉴定未知基因的方法
摘要 本发明公开一种多物种特征选择及鉴定未知基因的方法,属于生命科学领域。所述多物种特征选择的方法,包括对覆盖全基因组的小片段区域进行特征赋值和贴注标签处理及物种内、物种间特征选择部分。本发明依靠整合不同物种间的基因共性来构建高效、准确的计算方法,用于准确鉴定和描述未知基因。
申请公布号 CN106446597A 申请公布日期 2017.02.22
申请号 CN201610806928.8 申请日期 2016.09.06
申请人 清华大学 发明人 鲁志;胡龙
分类号 G06F19/10(2011.01)I 主分类号 G06F19/10(2011.01)I
代理机构 北京恩赫律师事务所 11469 代理人 赵文成
主权项 一种多物种特征选择的方法,其特征在于,包括如下步骤:步骤1:选取不同物种全基因组区域并将其切割成100nt长的基因组小片段,在基因组小片段的基础上计算结构和序列、表达水平、组蛋白修饰水平和转录调控因子结合水平、上下游影响值的特征值,并对上述特征值进行归一化处理;步骤2:根据基因组小片段所在的基因元件对每一个基因组小片段贴注释标签,用随机森林算法作为分类器,对基因组小片段进行分类,并根据不同注释标签将基因组小片段分到对应的样本集内,其中选取经典的非编码RNA、确定的蛋白编码区域、5’和3’端非翻译区域和负对照区域(即表达水平极低的基因间区)4种基因元件做为黄金标准集;步骤3:物种内的特征选择,以随机森林重要性指标作为排序指标,对特征集进行排序,使用递归特征剔除算法对物种内的选择特征集进行预筛选来去掉非必需的特征,使用贪婪后向算法来进一步筛选物种内特征集;步骤4:物种间的特征选择,将不同物种的特征集取并集和交集,并集去掉交集剩余的特征构成了补集,将补集中误删除的必需特征添加到交集特征集中,得到最终的共有特征集。
地址 100084 北京市海淀区清华园