发明名称 用图形处理单元加速元基因组的物种分析的方法和系统
摘要 本发明公开了用图形处理单元加速元基因组的物种分析的方法和系统,在保持和现有Phymm系统相似准确性的同时,可以比现有的Phymm系统快至少两个数量级。其技术方案为:方法包括:从训练集中预先构建k阶马尔科夫模型;将构建好的k阶马尔科夫模型载入到图形处理单元中;将待分类的序列转换为寡核苷酸频数向量;将寡核苷酸频数向量载入到图形处理单元中;在图形处理单元中计算序列和每一个已知基因组的相似性分数;将这些相似性分数送回主内存;处理器用这些相似性分数最小的基因组的物种信息注释序列。
申请公布号 CN102789551B 申请公布日期 2015.02.18
申请号 CN201110125025.0 申请日期 2011.05.16
申请人 中国科学院上海生命科学研究院;上海生物信息技术研究中心;上海交通大学 发明人 贾鹏;韦朝春;刘雷;赵一雷
分类号 G06F19/18(2011.01)I 主分类号 G06F19/18(2011.01)I
代理机构 上海专利商标事务所有限公司 31100 代理人 施浩
主权项 一种用图形处理单元加速元基因组的物种分析的方法,包括:从训练集中预先构建k阶马尔科夫模型;将构建好的所述k阶马尔科夫模型载入到所述图形处理单元中;将待分类的序列转换为寡核苷酸频数向量;将所述寡核苷酸频数向量载入到所述图形处理单元中;在所述图形处理单元中计算所述序列和每一个已知基因组的相似性分数;将所述这些相似性分数送回主内存;处理器用所述这些相似性分数最小的基因组的物种信息注释所述序列;其中在所述k阶马尔科夫模型中,k阶马尔科夫的状态是指k个寡核苷酸,一个状态之后连接着四个状态,前一状态的后k-1个字符和后一状态的前k-1个字符相同;在计算所述序列和每一个已知基因组的相似性分数的步骤中包含了计算每一基因组的从前一个状态到后一个状态的概率:<maths num="0001" id="cmaths0001"><math><![CDATA[<mrow><msub><mi>kMM</mi><mrow><mi>i</mi><mo>,</mo><mi>mn</mi></mrow></msub><mo>=</mo><msub><mi>P</mi><mi>i</mi></msub><mrow><mo>(</mo><msub><mi>O</mi><mi>m</mi></msub><mo>|</mo><msub><mi>O</mi><mi>n</mi></msub><mo>)</mo></mrow><mo>=</mo><mfrac><mrow><msub><mi>F</mi><mi>i</mi></msub><mrow><mo>(</mo><msub><mi>O</mi><mi>m</mi></msub><mo>|</mo><msub><mi>O</mi><mi>n</mi></msub><mo>)</mo></mrow></mrow><mrow><msub><mi>F</mi><mi>i</mi></msub><mrow><mo>(</mo><msub><mi>O</mi><mi>m</mi></msub><mo>)</mo></mrow></mrow></mfrac></mrow>]]></math><img file="FDA0000616869940000011.GIF" wi="729" he="148" /></maths>其中O<sub>m</sub>和O<sub>n</sub>是长度为k的寡核苷酸,P<sub>i</sub>(O<sub>m</sub>|O<sub>n</sub>)在第i个基因组中是从状态O<sub>m</sub>转移到状态O<sub>n</sub>的概率,F<sub>i</sub>(O<sub>m</sub>|O<sub>n</sub>)是在第i个基因组中观测到从状态O<sub>m</sub>转移到状态O<sub>n</sub>的频数,F<sub>i</sub>(O<sub>m</sub>)是在第i个基因组中观测到状态O<sub>m</sub>的频数,kMM<sub>i,mn</sub>是第i个基因组从状态O<sub>m</sub>转移到状态O<sub>n</sub>的概率。
地址 200031 上海市岳阳路320号