发明名称 基于ARM微处理器的siRNA干扰效率预测系统
摘要 本发明提供一种RNA干扰时预测siRNA干扰效率的方法,涉及生物信息学研究领域,其目的在于解决现有预测siRNA干扰效率方法中准确率不高的问题。本发明包括如下的步骤:将siRNA序列输入CPLD;按照特征提取规则表将siRNA序列重新编码,由于靶mRNA的序列和结构特征也对siRNA干扰效率有影响,故对siRNA序列编码的同时,也对靶mRNA进行编码;最后用随机森林模型进行siRNA干扰效率预测,在预测时首先用已知样本建立优化的模型,采用bootstrap抽样方法产生的OOB数据进行OOB估计,通过不断的调解模型的参数,使模型的泛化误差达到最小,然后再用优化的模型进行siRNA干扰效率预测。
申请公布号 CN103020489B 申请公布日期 2016.04.20
申请号 CN201310000114.1 申请日期 2013.01.04
申请人 吉林大学 发明人 刘元宁;张浩;段云娜;常亚萍;张晓旭;韩烨
分类号 G06F19/18(2011.01)I 主分类号 G06F19/18(2011.01)I
代理机构 代理人
主权项 基于ARM微处理器的siRNA干扰效率预测的系统,其模块单元及相应操作包括下列步骤:1)siRNA序列预处理模块,siRNA序列是由A、U、G、C四种碱基组成的长度为19或21的一串字符:首先将siRNA序列输入CPLD,CPLD是复杂可编程逻辑器件,属于大规模集成电路范围,用户能够根据需要自行构造逻辑功能;其次通过特征提取规则表将siRNA序列以编码的形式存储于静态存储器SRAM中,特征提取规则表存放的是特征对应的编码,通过查此表,即可获得相应siRNA的编码序列,该表存在于计算机系统中,并可实时调用,它将所获取的siRNA序列转换为易于系统分析的数字模式,特征提取规则表中所用的特征包括:siRNA序列特征、mRNA序列特征和结构特征,其中siRNA序列特征:第一类特征为siRNA序列中每位碱基的数字化编码,A为0.1,U为0.2,G为0.3,C为0.4;第二类特征为siRNA序列中1‑3mer motif的频率,1mer频率指碱基A、U、G、C在siRNA序列中的频率,2mer频率指碱基A、U、G、C任意两者组合成的16个碱基组在siRNA序列中的频率,3mer频率指碱基A、U、G、C任意三者组合成的64个碱基组在siRNA序列中的频率;第三类特征为由能量表示的靶序列与siRNA反义链形成的双链稳定性,按Watson‑Crick碱基结合能量规则计算双链结合能,每次取相邻两对碱基结合能量,最后将所有能量求和;第四类特征为siRNA双链5′端能量差,反义链5′端4对碱基能量和与正义链5′端4对碱基能量和之间的差;mRNA序列特征和结构特征:第一类特征为mRNA序列中1‑3mer motif的频率,1mer频率指碱基A、U、G、C在mRNA序列中的频率,2mer频率指碱基A、U、G、C任意两个组合成的16个碱基组在mRNA序列中的频率,3mer频率指碱基A、U、G、C任意三者组合成的64个碱基组在mRNA序列中的频率;第二类特征为mRNA的GC含量,计算碱基G、C在mRNA序列所占比例;第三类特征为mRNA长度,mRNA中碱基个数;第四类特征为mRNA茎比率,mRNA通过结构预测得到的茎区比例;2)siRNA干扰效率的预测模块:首先将siRNA序列对应的数字化信息,载入到随机森林模型中;其次根据已知样本的siRNA序列对应的数字化信息,建立优化的随机森林模型,通过调解相应的参数,采用bootstrap抽样方法产生out‑of‑bag数据,进行OOB估计,得到随机森林的泛化误差估计,使模型的分类器对训练集之外数据的误分率,即泛化误差最小;最后输入需要预测的siRNA序列对应的数字化信息到已建立的随机森林模型中,进行干扰效率预测,最后将预测的结果输出到LCD液晶显示器。
地址 130012 吉林省长春市前进大街2699号