主权项 |
基于ARM微处理器的siRNA干扰效率预测的系统,其模块单元及相应操作包括下列步骤:1)siRNA序列预处理模块,siRNA序列是由A、U、G、C四种碱基组成的长度为19或21的一串字符:首先将siRNA序列输入CPLD,CPLD是复杂可编程逻辑器件,属于大规模集成电路范围,用户能够根据需要自行构造逻辑功能;其次通过特征提取规则表将siRNA序列以编码的形式存储于静态存储器SRAM中,特征提取规则表存放的是特征对应的编码,通过查此表,即可获得相应siRNA的编码序列,该表存在于计算机系统中,并可实时调用,它将所获取的siRNA序列转换为易于系统分析的数字模式,特征提取规则表中所用的特征包括:siRNA序列特征、mRNA序列特征和结构特征,其中siRNA序列特征:第一类特征为siRNA序列中每位碱基的数字化编码,A为0.1,U为0.2,G为0.3,C为0.4;第二类特征为siRNA序列中1‑3mer motif的频率,1mer频率指碱基A、U、G、C在siRNA序列中的频率,2mer频率指碱基A、U、G、C任意两者组合成的16个碱基组在siRNA序列中的频率,3mer频率指碱基A、U、G、C任意三者组合成的64个碱基组在siRNA序列中的频率;第三类特征为由能量表示的靶序列与siRNA反义链形成的双链稳定性,按Watson‑Crick碱基结合能量规则计算双链结合能,每次取相邻两对碱基结合能量,最后将所有能量求和;第四类特征为siRNA双链5′端能量差,反义链5′端4对碱基能量和与正义链5′端4对碱基能量和之间的差;mRNA序列特征和结构特征:第一类特征为mRNA序列中1‑3mer motif的频率,1mer频率指碱基A、U、G、C在mRNA序列中的频率,2mer频率指碱基A、U、G、C任意两个组合成的16个碱基组在mRNA序列中的频率,3mer频率指碱基A、U、G、C任意三者组合成的64个碱基组在mRNA序列中的频率;第二类特征为mRNA的GC含量,计算碱基G、C在mRNA序列所占比例;第三类特征为mRNA长度,mRNA中碱基个数;第四类特征为mRNA茎比率,mRNA通过结构预测得到的茎区比例;2)siRNA干扰效率的预测模块:首先将siRNA序列对应的数字化信息,载入到随机森林模型中;其次根据已知样本的siRNA序列对应的数字化信息,建立优化的随机森林模型,通过调解相应的参数,采用bootstrap抽样方法产生out‑of‑bag数据,进行OOB估计,得到随机森林的泛化误差估计,使模型的分类器对训练集之外数据的误分率,即泛化误差最小;最后输入需要预测的siRNA序列对应的数字化信息到已建立的随机森林模型中,进行干扰效率预测,最后将预测的结果输出到LCD液晶显示器。 |