发明名称 一种可得到完全解的生物序列局部比对方法
摘要 一种可得到完全解的生物序列局部比对方法,包含以下步骤:步骤1:采用一种生物序列作为基准序列,另一种生物序列作查询序列,设定匹配得分Sa,不匹配得分Sb,起始罚分Sg,扩展罚分Ss,分数阈值H;步骤2:进行基准序列的后缀树分支与查询序列的比对,步骤如下:步骤3:整合各分支比对得分结果,取最大值作为两个生物序列的最终比对得分结果。步骤4:根据最终比对得分结果,寻找查询序列和基准序列中具有相似功能的片段或判断查询序列和基准序列之间的同源性关系。本发明采用BWT索引,结合过滤和重用技术,进行基准序列的后缀树分支与查询序列的比对,得出生物序列比对的完全解,弥补现有方法准确度不够或效率低下的问题。
申请公布号 CN102750461B 申请公布日期 2015.04.22
申请号 CN201210196668.9 申请日期 2012.06.14
申请人 东北大学 发明人 杨晓春;王斌;刘洪磊;王佳英
分类号 G06F19/22(2011.01)I 主分类号 G06F19/22(2011.01)I
代理机构 沈阳东大知识产权代理有限公司 21109 代理人 李运萍
主权项 一种可得到完全解的生物序列局部比对方法,包含以下步骤:步骤1:采用一种生物序列作为基准序列,另一种生物序列作查询序列;步骤2:进行基准序列的后缀树分支与查询序列的比对,步骤如下:步骤2.1:设定匹配得分Sa,不匹配得分Sb,起始罚分Sg,扩展罚分Ss,分数阈值H;步骤2.2:对基准序列的逆序列T<sup>‑1</sup>构建BWT索引;步骤2.3:按基准序列的后缀树分支进行局部比对,计算各分支比对得分结果;步骤3:整合各分支比对得分结果,取最大值作为两个生物序列的最终比对得分结果;步骤4:根据最终比对得分结果,寻找查询序列和基准序列中具有相似功能的片段或判断查询序列和基准序列之间的同源性关系;其特征在于:步骤2.3所述按基准序列的后缀树分支进行局部比对计算各分支比对得分结果,按如下步骤进行:步骤2.3.1:过滤;过滤包括长度过滤、分数过滤、区域过滤、前缀过滤,具体如下:1)长度过滤:比对过程中,只有当i满足如下条件时才需要计算基准序列子序列X与查询序列P的比对得分构成的矩阵M<sub>X</sub>(i,j)和M<sub>X</sub>(i,j)后续值:<img file="FDA0000594193050000012.GIF" wi="939" he="165" />其中i,j分别为M<sub>X</sub>矩阵中的横纵坐标位置,m为P的长度;2)分数过滤:比对过程中,对于从T中π<sub>t</sub>(1≤π<sub>t</sub>≤n)位置开始的任意子串X[1,i],如果M<sub>X</sub>(i,j)满足如下条件则不需计算M<sub>X</sub>(i,j)及M<sub>X</sub>(i,j)后续值:<img file="FDA0000594193050000011.GIF" wi="1678" he="426" />其中,n为T的长度;3)区域过滤:将比对过程中的计算限定在以完全匹配开始的区域中;4)前缀过滤:若存在前缀支配关系,则直接过滤掉矩阵中对应的以完全匹配开始的区域;所述的支配关系是指若T的后缀树中的一条路径的前缀与另一条路径的前缀在T中相邻出现,则这两个前缀具有支配关系;步骤2.3.2:计算结果重用;由于查询序列中存在相同的子序列,因此在比对过程中一部分计算结果是相同的,可重复使用这部分计算结果。
地址 110819 辽宁省沈阳市和平区文化路3号巷11号