发明名称 |
使用KNN计算与相似性比对预测蛋白质亚细胞区间方法 |
摘要 |
本发明公开了一种使用KNN计算与相似性比对预测蛋白质亚细胞区间方法,其特征在于,包括以下步骤:步骤1、提取蛋白质序列数据集中所有蛋白质序列的AAC特征;步骤2、通过KNN算法,确定预测范围内的蛋白质序列集合;步骤3、进行Blast相似性比对计算,得到最高相似性序列;最高相似性序列所属的区间就是所预测序列的所属区间。本发明的预测准确率较高,尤其在传统方法预测准确率较低的亚细胞类上识别精度明显提高,对准确预测未知蛋白的亚细胞位置具有重要作用。 |
申请公布号 |
CN105760711A |
申请公布日期 |
2016.07.13 |
申请号 |
CN201610072828.7 |
申请日期 |
2016.02.02 |
申请人 |
江南大学 |
发明人 |
张梁;薛卫;王雄飞;杨荣丽 |
分类号 |
G06F19/18(2011.01)I |
主分类号 |
G06F19/18(2011.01)I |
代理机构 |
无锡华源专利商标事务所(普通合伙) 32228 |
代理人 |
林弘毅;聂汉钦 |
主权项 |
一种使用KNN计算与相似性比对预测蛋白质亚细胞区间方法,其特征在于,包括以下步骤:步骤1、提取蛋白质序列数据集中所有蛋白质序列的AAC特征;步骤2、在蛋白质序列数据集中选取一条蛋白质序列设定为测试序列,其余蛋白质序列设定为训练集,通过KNN算法,确定预测范围内的蛋白质序列集合;步骤3、将所预测序列与预测范围内的蛋白质序列集合进行Blast相似性比对计算,得到最高相似性序列;最高相似性序列所属的区间就是所预测序列的所属区间。 |
地址 |
214122 江苏省无锡市滨湖区蠡湖大道1800号 |