发明名称 基于灰色理论和分子指纹的药物-靶标结合预测方法
摘要 本发明公开了基于灰色理论和分子指纹的药物-靶标结合预测方法,基于灰色理论GM(1,1)模型生成蛋白质伪氨基酸成分,结合蛋白质序列氨基酸成分将靶标蛋白质序列转换成21维空间向量;通过药物分子指纹软件将药物分子描述成一个256维空间向量;将描述蛋白质序列的21维空间向量和描述药物分子的256维空间向量组合成277维空间向量,作为药物-靶标结合描述符;采用模糊K近邻法对训练集进行训练,得出预测器最佳参数,将药物-靶标结合描述符输入预测器预测药物和靶标是否有关联,本方法不需要测出蛋白质的三维结构,只需蛋白质的一维序列加上药物分子指纹就可预测药物与蛋白质是否可结合,预测成功率高。
申请公布号 CN102930169B 申请公布日期 2015.04.01
申请号 CN201210440292.1 申请日期 2012.11.07
申请人 景德镇陶瓷学院 发明人 肖绚;闵建亮
分类号 G06F19/00(2011.01)I;G06F19/18(2011.01)I 主分类号 G06F19/00(2011.01)I
代理机构 代理人
主权项 一种基于灰色理论和分子指纹的药物‑靶标结合预测方法,其特征在于,该预测方法包括以下步骤:步骤一,基于灰色理论GM(1,1)模型生成蛋白质伪氨基酸成分,结合蛋白质序列氨基酸成分将靶点蛋白质序列转换成21维空间向量;步骤二,通过药物分子指纹软件将药物分子描述成一个256维空间向量;步骤三,将描述蛋白质序列的21维空间向量和描述药物分子的256维空间向量组合成277维空间向量,作为药物‑靶标结合描述符;步骤四,采用模糊K近邻法对训练集进行训练,得出预测器最佳参数,将药物‑靶标结合描述符输入预测器预测药物和靶标是否有关联;基于灰色模型GM(1,1)的蛋白质靶标伪氨基酸成分离散模型如下:蛋白质一级结构是由20种英文字母A、C、D、E、F、G、H、I、K、L、M、N、P、Q、R、S、T、V、W和Y组成,这20个字母分别代表20种氨基酸,蛋白质一级结构决定了蛋白质的三维结构和功能;灰色模型GM(1,1)模型是将离散的随机数经过依次累加成算子,削弱其随机性,得到较有规律的生成数,然后建立微分方程、解方程进而建立模型,模型中有两个参数a是灰色发展系数,b是灰色输入系数,它们是描述序列特征的参数;<img file="213482dest_path_image002.GIF" wi="123" he="49" />其中:<img file="661781dest_path_image004.GIF" wi="209" he="217" /><img file="848043dest_path_image006.GIF" wi="91" he="147" />蛋白质离散模型常用于描述蛋白质序列,其中伪氨基酸成分法是最常有的,其公式如下:<img file="774410dest_path_image008.GIF" wi="207" he="27" />这里P表示蛋白质序列,前面20维<img file="854362dest_path_image010.GIF" wi="83" he="25" />向量表示20种氨基酸在序列中的比例,后面<img file="348928dest_path_image012.GIF" wi="15" he="19" />维向量为伪氨基酸成分,因为氨基酸成分将序列的前后顺序关系全部丢失,所以采用伪氨基酸成分用于描述序列中氨基酸的前后顺序关系,将参数a和b作为伪氨基酸成分,得到蛋白质序列的21维向量描述,<img file="22486dest_path_image014.GIF" wi="206" he="27" /><img file="752545dest_path_image016.GIF" wi="284" he="127" />这里m是指训练集中的药物‑靶标结合对数量;药物分子指纹描述如下:药物分子都是已知三维结构的,为了对药物‑靶标结合进行预测,采用分子指纹OpenBabel工具,将药物三维结构转换成数字向量,OpenBabel输出有四种格式 FP2, FP3, FP4 and MACCS,采用FP2 将药物分子三维结构转换成256维的空间向量,将此向量看作一个数字信号,对其进行离散傅里叶变换,得到256个频谱值,对其求模得出256个正实数作为描述药物三维结构的描述符<img file="827948dest_path_image018.GIF" wi="103" he="25" />,具体计算公式如下:<img file="618050dest_path_image020.GIF" wi="327" he="47" /><img file="778904dest_path_image022.GIF" wi="103" he="25" />这里<img file="781495dest_path_image024.GIF" wi="41" he="25" />是第FP2格式中的第i个数。
地址 333001 江西省景德镇市陶阳路27号