发明名称 基于核苷酸位差的频谱3-周期性信噪比获取方法
摘要 本发明公开一种基于核苷酸位差的频谱3-周期性信噪比计算方法,属于生物信息学中的基因识别领域。所述信噪比计算方法首先要将DNA序列映射为4个指示序列,然后分别统计并记录4个指示序列里任意两个“1”出现位置之差,并把这些不同的距离值所出现的次数累积存储到一维数组中,再利用余弦函数的周期性,根据诱导公式,最终计算出该DNA序列的信噪比。本发明解决了对于给定的DNA序列,计算其信噪比效率不高的问题。
申请公布号 CN103150491B 申请公布日期 2016.03.16
申请号 CN201310112959.X 申请日期 2013.04.03
申请人 河海大学 发明人 冯钧;陈焕霖;盛震宇;金圣韬;唐志贤;朱跃龙;李士进;万定生;徐黎明;许潇;冯读庆;姜康;朱康康;史涯晴;刘子源
分类号 G06F19/20(2011.01)I 主分类号 G06F19/20(2011.01)I
代理机构 南京苏高专利商标事务所(普通合伙) 32204 代理人 李玉平
主权项 一种基于核苷酸位差的频谱3‑周期性信噪比获取方法,其特征在于:主要包括记录各个核苷酸出现位差并累积统计到数组d[i]中和计算余弦函数周期<img file="FDA0000895507320000011.GIF" wi="277" he="141" />并通过取余操作把数组d[i]进行重新归并两部分,其中:所述记录位差包括对DNA序列进行Voss映射、对指示序列中任何两个“1”之间的位差的记录、以及位差值的累积次数的统计,所述计算余弦函数周期t包括通过取余操作使数组d[i]所有下标都落入[1,t]范围内,并把原有的值累积加到取余结果后所得的下标所对应的值当中;具体包括如下步骤:步骤1,记录DNA序列长度N;步骤2,对DNA序列进行Voss映射,得到四个指示序列{u<sub>A</sub>[n]}、{u<sub>T</sub>[n]}、{u<sub>G</sub>[n]}、{u<sub>C</sub>[n]},分别记录每两个“1”在所述序列中的位差,并把所有位差值出现的累积次数保存在数组d[i]中;步骤3,分别计算不同k对应下的<img file="FDA0000895507320000012.GIF" wi="306" he="142" />k=1,…,N‑1,k≠0,当k=0时直接转到步骤4即可;对于数组d[i]的下标只要不落入[1,t]范围内,都要进行取余操作,使数组d[i]所有下标都落入[1,t]范围内,并把原有的值累积加到取余结果后所得的下标所对应的值当中,即定义为:对于数组d[i],<img file="FDA0000895507320000013.GIF" wi="93" he="71" />只要<img file="FDA0000895507320000014.GIF" wi="198" he="79" />则令i<sub>2</sub>=i<sub>1</sub>modt,使得i<sub>2</sub>∈[1,t],令d[i<sub>2</sub>]=d[i<sub>2</sub>]+d[i<sub>1</sub>];步骤4,k≠0时,构造行向量L=[d[1],d[2],…d[t]]和列向量<maths num="0001" id="cmaths0001"><math><![CDATA[<mrow><mi>Q</mi><mo>=</mo><msup><mrow><mo>&lsqb;</mo><mi>c</mi><mi>o</mi><mi>s</mi><mrow><mo>(</mo><mfrac><mrow><mn>2</mn><mi>&pi;</mi><mo>*</mo><mi>k</mi></mrow><mi>N</mi></mfrac><mo>)</mo></mrow><mo>,</mo><mi>c</mi><mi>o</mi><mi>s</mi><mrow><mo>(</mo><mfrac><mrow><mn>2</mn><mi>&pi;</mi><mo>*</mo><mn>2</mn><mi>k</mi></mrow><mi>N</mi></mfrac><mo>)</mo></mrow><mo>,</mo><mo>...</mo><mi>c</mi><mi>o</mi><mi>s</mi><mrow><mo>(</mo><mfrac><mrow><mn>2</mn><mi>&pi;</mi><mo>*</mo><mi>t</mi><mi>k</mi></mrow><mi>N</mi></mfrac><mo>)</mo></mrow><mo>&rsqb;</mo></mrow><mi>T</mi></msup><mo>,</mo></mrow>]]></math><img file="FDA0000895507320000015.GIF" wi="941" he="142" /></maths>k=0时,构造行向量L=[d[1],d[2],…d[N]]和列向量Q=[1,1,…1]<sup>T</sup>;步骤5,利用公式P[k]=N+2LQ计算整个DNA序列S的功率谱序列P[k](k=1,…,N‑1);步骤6,计算总功率谱的平均值为<img file="FDA0000895507320000021.GIF" wi="278" he="190" />步骤7,计算信噪比<img file="FDA0000895507320000022.GIF" wi="246" he="182" />
地址 210098 江苏省南京市鼓楼区西康路1号