发明名称 一种批量计算基因组直系同源基因进化速率的方法
摘要 本发明公开了一种批量计算基因组直系同源基因进化速率的方法。本发明所提供的计算基因组直系同源基因进化速率的方法综合运用了基于Blast成对比对结果后进行聚类搜索直系同源基因的InParanoid程序,基于多序列比对分析的MUSCLE程序,基于编码蛋白DNA序列之间的比较来评估同义和非同义替代比率的PAML软件包yn00程序,以及结合Perl脚本语言编程等方法。实验证明,本发明所提供的批量计算基因组直系同源基因进化速率的方法比较系统,检测基因组计算基因组直系同源基因进化速率各参数值的重复效果好,速度快,易实现批量化、自动化和流程化。
申请公布号 CN105426700A 申请公布日期 2016.03.23
申请号 CN201510965003.3 申请日期 2015.12.18
申请人 江苏省农业科学院 发明人 郭月;刘静;杜建厂
分类号 G06F19/14(2011.01)I;G06F19/24(2011.01)I 主分类号 G06F19/14(2011.01)I
代理机构 江苏致邦律师事务所 32230 代理人 徐蓓
主权项 一种批量计算基因组直系同源基因进化速率的方法,包括如下流程步骤:(1)将待测两物种Speci1和Speci2基因组蛋白序列fasta格式文件分别记为A和B数据集,所述A、B数据集的文件名分别为XXX1和XXX2,利用Linux系统中的InParanoid软件,运行“perl inparanoid.plXXX1XXX2”命令,得到“table.XXX1‑XXX2.fasta”文件;所述“table.XXX1‑XXX2.fasta”文件中的数据为Speci1和Speci2两物种间的直系同源基因对及分值,记为C数据集;所述“XXX1和XXX2”在运行InParanoid程序时已置于包含“inparanoid.pl”的文件夹内;(2)建立工作文件夹work_dir,将待测Speci1和Speci2两物种基因组cds编码区序列fasta格式文件分别记为D和E数据集,所述A、B数据集的文件名分别为“XXX3”和“XXX4”,运行“perl 1align_combine.pl XXX3XXX4table.XXX1‑XXX2.fasta”命令,在seqpair_cds和muscle_out两个文件夹中分别得到小于等于“table.XXX1‑XXX2.fasta”文件中直系同源对数目的n个文件,且每个文件中包含两条直系同源基因对的cds序列;在当前工作文件夹work_dir下得到“seqset”文件;所述“seqset”文件为满足yn00软件输入格式的文件,记为数据集F;所述“XXX3和XXX4”在运行“perl 1align_combine.pl”程序时已置于包含“1align_combine.pl”的当前工作文件夹work_dir内;而文件夹seqpair_cds和muscle_out则为当前工作文件夹work_dir的子文件夹;(3)切换至PAML软件包中含有“yn00.ctl”文件的文件夹,修改“yn00.ctl”文件中的ndata参数,使得“ndata=n”,运行“yn00”命令,得到“yn”文件;所述“yn”文件为yn00模型计算后的输出文件,记为数据集G;所述n,为步骤(2)中所述文件夹seqpair_cds或muscle_out文件夹中文件的个数或本步骤“seqset”文件中cds序列的对数,且在运行“yn00”命令时,“seqset”文件已移至PAML软件包,并与yn00.ctl文件处于同一文件夹内;(4)运行“perl 2abs_kaks.pl”,得到文件“result_kaks”;所述“result_kaks”文件记为数据集H,该数据集中的序列即为从待测Speci1和Speci2两物种基因组序列中批量计算出的基因组基因进化速率相关各参数值;且在本步骤程序运行前,脚本“2abs_kaks.pl”和“yn”文件已分别置于文件夹work_dir之中。
地址 210014 江苏省南京市玄武区钟灵街50号