发明名称 一种用最近邻检索实现的蛋白质亚细胞定位预测方法
摘要 一种用最近邻检索实现的蛋白质亚细胞定位预测方法,该方法包括以下步骤:(1)、以AAC特征向量作为蛋白序列的特征,用LSH方法将训练集中的各蛋白序列的AAC特征向量存放在多个哈希表中;(2)、预测时,用LSH方法计算出目标序列AAC特征向量在每一个哈希表中对应的哈希值,得到相似序列向量的集合;(3)、从得到的相似序列向量的集合中选取离目标序列AAC特征向量欧氏距离最近的Q个向量,用全局比对动态规划法计算目标序列AAC特征向量与前述Q个向量的向量间蛋白序列期望距离,将Q个向量中与目标序列期望距离最高的序列蛋白对应区间作为预测区间。
申请公布号 CN105046106A 申请公布日期 2015.11.11
申请号 CN201510411973.9 申请日期 2015.07.14
申请人 南京农业大学 发明人 薛卫;王雄飞;赵南;任守纲
分类号 G06F19/18(2011.01)I 主分类号 G06F19/18(2011.01)I
代理机构 南京天华专利代理有限责任公司 32218 代理人 王尧;夏平
主权项 一种用最近邻检索实现的蛋白质亚细胞定位预测方法,其特征是:该方法包括以下步骤:(1)、以AAC特征向量作为蛋白序列的特征,用LSH方法将训练集中的各蛋白序列的AAC特征向量存放在多个哈希表中;(2)、预测时,用LSH方法计算出目标序列AAC特征向量在每一个哈希表中对应的哈希值,得到相似序列向量的集合;(3)、从得到的相似序列向量的集合中选取离目标序列AAC特征向量欧氏距离最近的Q个向量,用全局比对动态规划法计算目标序列AAC特征向量与前述Q个向量的向量间蛋白序列期望距离,将Q个向量中与目标序列期望距离最高的序列蛋白对应区间作为预测区间。
地址 211225 江苏省南京市溧水区白马镇国家农业科技园南京农业大学基地