发明名称 基于多实例多类标的马尔可夫链注释蛋白质功能的方法
摘要 本发明公开了一种基于多实例多类标的马尔可夫链注释蛋白质功能的方法,所述方法包括:从蛋白质全信息数据库中获取生物三域系统的蛋白质序列数据,所述的蛋白质中的每个结构域处理成一个特征向量,所述的蛋白质的功能是指基因本体中的分子功能;计算蛋白质数据集中每两个蛋白质之间的Hausdorff距离,并使用距离的倒数作为蛋白质之间的相似性度量;使用已注释功能的蛋白质数据学马尔可夫链模型,并根据学的模型注释未知功能的蛋白质。本发明使用多实例多类标学框架中的计算方法注释蛋白质的功能,使用Hausdorff距离计算蛋白质之间的相似性,学马尔可夫链模型计算蛋白质的类标概率分布,并根据概率分布注释未知功能的蛋白质。
申请公布号 CN105653885A 申请公布日期 2016.06.08
申请号 CN201610173526.9 申请日期 2016.03.23
申请人 华南理工大学 发明人 吴庆耀;谭明奎;陈健;韩超;宋恒杰
分类号 G06F19/00(2011.01)I 主分类号 G06F19/00(2011.01)I
代理机构 广州粤高专利商标代理有限公司 44102 代理人 何淑珍
主权项 基于多实例多类标的马尔可夫链注释蛋白质功能的方法,其特征在于:包括以下步骤:S1、从蛋白质全信息数据库中获取生物三域系统的蛋白质序列数据,所述的蛋白质中的每个结构域处理成一个特征向量,所述的蛋白质的功能是指基因本体中的分子功能;S2、计算蛋白质数据集中每两个蛋白质之间的Hausdorff距离,并使用距离的倒数作为蛋白质之间的相似性度量;S3、使用已注释功能的蛋白质数据学习马尔可夫链模型,并根据学习的模型注释未知功能的蛋白质。
地址 510640 广东省广州市天河区五山路381号