发明名称 一种可解释性的膜蛋白跨膜螺旋预测方法
摘要 本发明公开了一种可解释性的膜蛋白跨膜螺旋预测方法。首先利用PSI-BLAST程序获取蛋白质的进化信息,并使用滑动窗口技术抽取每个氨基酸残基的特征;然后,利用自组织神经网络(SOM)学跨膜螺旋在特征空间中的分布规律,将分布规律知识编码在SOM的权值向量中;最后,使用Wang-Mendel方法提取可解释性的模糊规则集;对于给定的待预测蛋白质的每个氨基酸残基使用模糊推理技术进行预测,得到预测曲线后,使用动态阈值分割技术确定每个氨基酸残基是否属于跨膜螺旋片段。优点在于:一是使用SOM学,挖掘跨膜螺旋分布规律知识并降低原始数据的噪声;二是使用模糊规则提取技术获取的跨膜螺旋预测模型具有很高的可解释性。
申请公布号 CN102831332A 申请公布日期 2012.12.19
申请号 CN201210261613.1 申请日期 2012.07.27
申请人 南京理工大学常熟研究院有限公司;南京理工大学 发明人 於东军;沈红斌;唐振民;杨静宇
分类号 G06F19/18(2011.01)I 主分类号 G06F19/18(2011.01)I
代理机构 代理人
主权项 1.一种可解释性的膜蛋白跨膜螺旋预测方法,其特征在于包括以下步骤:第一步:特征提取,将蛋白质序列中的氨基酸残基转换为向量形式表示;对于一个由<img file="587094DEST_PATH_IMAGE001.GIF" wi="14" he="16" />个氨基酸组成的蛋白质,通过 PSI-BLAST算法得到其特定位置得分矩阵(Position Specific Scoring Matrix, PSSM), 该矩阵为<img file="504234DEST_PATH_IMAGE001.GIF" wi="14" he="16" />行20列,先对该PSSM进行逐行标准化,然后使用滑动窗口技术得到每个氨基酸残基的特征矩阵,特征矩阵按列求均值,得到该残基的20维特征向量:<img file="470922DEST_PATH_IMAGE002.GIF" wi="145" he="30" />,其中表示第几个残基;第二步:模式特征分布规律学习,使用自组织映射神经网络(Self-organizing Map, SOM),在特征空间中学习样本的分布规律,并消除原始训练样本噪声,对于给定的训练样本集<img file="866131DEST_PATH_IMAGE003.GIF" wi="193" he="28" />,其中0表示非跨膜,1表示跨膜,使用批量学习算法来训练SOM,直到SOM收敛或是达到预先设定的学习步数;第三步:模糊规则提取,从训练好的SOM的权值向量(codebook vectors)提取模糊规则,使用Wang-Mendel规则提取算法从SOM的权值向量集中提取模糊规则集;第四步:蛋白质跨膜螺旋预测,对于给定的待预测蛋白质,使用上述步骤三中所提取的模糊规则集,应用模糊推理方法,对其中的氨基酸残基的跨膜螺旋性进行逐个预测,得到预测曲线,然后使用阈值分割的方法,确定每个残基是否属于跨膜螺旋片段。
地址 215513 江苏省苏州市常熟市经济技术开发区科创园研究院路5号