基于ARM微处理器的siRNA干扰效率预测系统,申请号CN201310000114.1-传众专利搜索

发明名称	基于ARM微处理器的siRNA干扰效率预测系统
摘要	本发明提供一种RNA干扰时预测siRNA干扰效率的方法，涉及生物信息学研究领域，其目的在于解决现有预测siRNA干扰效率方法中准确率不高的问题。本发明包括如下的步骤：将siRNA序列输入CPLD；按照特征提取规则表将siRNA序列重新编码，由于靶mRNA的序列和结构特征也对siRNA干扰效率有影响，故对siRNA序列编码的同时，也对靶mRNA进行编码；最后用随机森林模型进行siRNA干扰效率预测，在预测时首先用已知样本建立优化的模型，采用bootstrap抽样方法产生的OOB数据进行OOB估计，通过不断的调解模型的参数，使模型的泛化误差达到最小，然后再用优化的模型进行siRNA干扰效率预测。
申请公布号	CN103020489B	申请公布日期	2016.04.20
申请号	CN201310000114.1	申请日期	2013.01.04
申请人	吉林大学	发明人	刘元宁;张浩;段云娜;常亚萍;张晓旭;韩烨
分类号	G06F19/18(2011.01)I	主分类号	G06F19/18(2011.01)I
代理机构		代理人
主权项	基于ARM微处理器的siRNA干扰效率预测的系统，其模块单元及相应操作包括下列步骤：1)siRNA序列预处理模块，siRNA序列是由A、U、G、C四种碱基组成的长度为19或21的一串字符：首先将siRNA序列输入CPLD，CPLD是复杂可编程逻辑器件，属于大规模集成电路范围，用户能够根据需要自行构造逻辑功能；其次通过特征提取规则表将siRNA序列以编码的形式存储于静态存储器SRAM中，特征提取规则表存放的是特征对应的编码，通过查此表，即可获得相应siRNA的编码序列，该表存在于计算机系统中，并可实时调用，它将所获取的siRNA序列转换为易于系统分析的数字模式，特征提取规则表中所用的特征包括：siRNA序列特征、mRNA序列特征和结构特征，其中siRNA序列特征：第一类特征为siRNA序列中每位碱基的数字化编码，A为0.1，U为0.2，G为0.3，C为0.4；第二类特征为siRNA序列中1‑3mer motif的频率，1mer频率指碱基A、U、G、C在siRNA序列中的频率，2mer频率指碱基A、U、G、C任意两者组合成的16个碱基组在siRNA序列中的频率，3mer频率指碱基A、U、G、C任意三者组合成的64个碱基组在siRNA序列中的频率；第三类特征为由能量表示的靶序列与siRNA反义链形成的双链稳定性，按Watson‑Crick碱基结合能量规则计算双链结合能，每次取相邻两对碱基结合能量，最后将所有能量求和；第四类特征为siRNA双链5′端能量差，反义链5′端4对碱基能量和与正义链5′端4对碱基能量和之间的差；mRNA序列特征和结构特征：第一类特征为mRNA序列中1‑3mer motif的频率，1mer频率指碱基A、U、G、C在mRNA序列中的频率，2mer频率指碱基A、U、G、C任意两个组合成的16个碱基组在mRNA序列中的频率，3mer频率指碱基A、U、G、C任意三者组合成的64个碱基组在mRNA序列中的频率；第二类特征为mRNA的GC含量，计算碱基G、C在mRNA序列所占比例；第三类特征为mRNA长度，mRNA中碱基个数；第四类特征为mRNA茎比率，mRNA通过结构预测得到的茎区比例；2)siRNA干扰效率的预测模块：首先将siRNA序列对应的数字化信息，载入到随机森林模型中；其次根据已知样本的siRNA序列对应的数字化信息，建立优化的随机森林模型，通过调解相应的参数，采用bootstrap抽样方法产生out‑of‑bag数据，进行OOB估计，得到随机森林的泛化误差估计，使模型的分类器对训练集之外数据的误分率，即泛化误差最小；最后输入需要预测的siRNA序列对应的数字化信息到已建立的随机森林模型中，进行干扰效率预测，最后将预测的结果输出到LCD液晶显示器。
地址	130012 吉林省长春市前进大街2699号