发明名称 一种基于Top-n-gram的蛋白质远程同源性检测和折叠识别方法
摘要 一种基于Top-n-gram的蛋白质远程同源性检测和折叠识别方法,涉及一种蛋白质远程同源性检测和折叠识别方法。本发明为了解决现有的蛋白质远程同源性检测和折叠识别方法中,二进制谱无法找到最优阈值,无法区分氨基酸出现频率的差别的问题。具体步骤:一、运行PSI-BLAST,输入测试蛋白质序列进行多序列比对,计算氨基酸i的伪计数;二、生成频率谱;三、将频率谱转化为Top-n-gram;四、获得测试蛋白质序列对应的潜在语义表达向量;五、将测试蛋白质序列对应的潜在语义表达向量输入SVM分类器进行分类,得到预测结果。应用于蛋白质同源性检测和折叠识别领域。
申请公布号 CN102043910A 申请公布日期 2011.05.04
申请号 CN201010600321.7 申请日期 2010.12.22
申请人 哈尔滨工业大学 发明人 林磊;刘滨;孙承杰;王晓龙;刘秉权;刘远超
分类号 G06F19/16(2011.01)I;G06F19/18(2011.01)I;G06F19/22(2011.01)I 主分类号 G06F19/16(2011.01)I
代理机构 哈尔滨市松花江专利商标事务所 23109 代理人 张宏威
主权项 一种基于Top‑n‑gram的蛋白质远程同源性检测和折叠识别方法,其特征是,它的具体步骤为:步骤一:运行PSI‑BLAST,输入测试蛋白质序列进行多序列比对,计算氨基酸i的伪计数gi: <mrow> <msub> <mi>g</mi> <mi>i</mi> </msub> <mo>=</mo> <munderover> <mi>&Sigma;</mi> <mrow> <mi>j</mi> <mo>=</mo> <mn>1</mn> </mrow> <mn>20</mn> </munderover> <msub> <mi>f</mi> <mi>i</mi> </msub> <mo>*</mo> <mrow> <mo>(</mo> <msub> <mi>q</mi> <mi>ij</mi> </msub> <mo>/</mo> <msub> <mi>p</mi> <mi>j</mi> </msub> <mo>)</mo> </mrow> </mrow>其中fj是氨基酸j的观测频率,pj是氨基酸j的背景频率,qij是氨基酸i和氨基酸j之间对应的替换矩阵的分数;步骤二:根据氨基酸i的伪计数生成频率谱;步骤三:将频率谱转化为Top‑n‑gram;步骤四:通过统计每种Top‑n‑gram出现的次数,将测试蛋白质序列转化为固定长度的向量,然后构建词‑文档矩阵W;步骤五:对生成的词‑文档矩阵W进行奇异值分解,获得测试蛋白质序列对应的潜在语义表达向量;步骤六:将测试蛋白质序列对应的潜在语义表达向量输入SVM分类器进行分类,SVM分类器赋给测试蛋白质序列一个分数,分数值大于0的测试蛋白质序列具有同源性或折叠,从而得到预测结果。
地址 150001 黑龙江省哈尔滨市南岗区西大直街92号