发明名称 使用KNN计算与相似性比对预测蛋白质亚细胞区间方法
摘要 本发明公开了一种使用KNN计算与相似性比对预测蛋白质亚细胞区间方法,其特征在于,包括以下步骤:步骤1、提取蛋白质序列数据集中所有蛋白质序列的AAC特征;步骤2、通过KNN算法,确定预测范围内的蛋白质序列集合;步骤3、进行Blast相似性比对计算,得到最高相似性序列;最高相似性序列所属的区间就是所预测序列的所属区间。本发明的预测准确率较高,尤其在传统方法预测准确率较低的亚细胞类上识别精度明显提高,对准确预测未知蛋白的亚细胞位置具有重要作用。
申请公布号 CN105760711A 申请公布日期 2016.07.13
申请号 CN201610072828.7 申请日期 2016.02.02
申请人 江南大学 发明人 张梁;薛卫;王雄飞;杨荣丽
分类号 G06F19/18(2011.01)I 主分类号 G06F19/18(2011.01)I
代理机构 无锡华源专利商标事务所(普通合伙) 32228 代理人 林弘毅;聂汉钦
主权项 一种使用KNN计算与相似性比对预测蛋白质亚细胞区间方法,其特征在于,包括以下步骤:步骤1、提取蛋白质序列数据集中所有蛋白质序列的AAC特征;步骤2、在蛋白质序列数据集中选取一条蛋白质序列设定为测试序列,其余蛋白质序列设定为训练集,通过KNN算法,确定预测范围内的蛋白质序列集合;步骤3、将所预测序列与预测范围内的蛋白质序列集合进行Blast相似性比对计算,得到最高相似性序列;最高相似性序列所属的区间就是所预测序列的所属区间。
地址 214122 江苏省无锡市滨湖区蠡湖大道1800号