主权项 |
1.一种可解释性的膜蛋白跨膜螺旋预测方法,其特征在于包括以下步骤:第一步:特征提取,将蛋白质序列中的氨基酸残基转换为向量形式表示;对于一个由<img file="587094DEST_PATH_IMAGE001.GIF" wi="14" he="16" />个氨基酸组成的蛋白质,通过 PSI-BLAST算法得到其特定位置得分矩阵(Position Specific Scoring Matrix, PSSM), 该矩阵为<img file="504234DEST_PATH_IMAGE001.GIF" wi="14" he="16" />行20列,先对该PSSM进行逐行标准化,然后使用滑动窗口技术得到每个氨基酸残基的特征矩阵,特征矩阵按列求均值,得到该残基的20维特征向量:<img file="470922DEST_PATH_IMAGE002.GIF" wi="145" he="30" />,其中表示第几个残基;第二步:模式特征分布规律学习,使用自组织映射神经网络(Self-organizing Map, SOM),在特征空间中学习样本的分布规律,并消除原始训练样本噪声,对于给定的训练样本集<img file="866131DEST_PATH_IMAGE003.GIF" wi="193" he="28" />,其中0表示非跨膜,1表示跨膜,使用批量学习算法来训练SOM,直到SOM收敛或是达到预先设定的学习步数;第三步:模糊规则提取,从训练好的SOM的权值向量(codebook vectors)提取模糊规则,使用Wang-Mendel规则提取算法从SOM的权值向量集中提取模糊规则集;第四步:蛋白质跨膜螺旋预测,对于给定的待预测蛋白质,使用上述步骤三中所提取的模糊规则集,应用模糊推理方法,对其中的氨基酸残基的跨膜螺旋性进行逐个预测,得到预测曲线,然后使用阈值分割的方法,确定每个残基是否属于跨膜螺旋片段。 |