发明名称 基于支持向量机的剪接位点识别方法
摘要 本发明涉及一种基于支持向量机的剪接位点识别方法,包括:构建数据集,数据集包括训练数据集及测试数据集;提取训练数据集的剪接位点序列的特征向量,记为第一特征向量;提取训练数据集的剪接位点上游序列及下游序列的特征向量,记为第二特征向量;根据第一特征向量及第二特征向量选取所述训练数据集的特征向量,记为第三特征向量;根据第三特征向量,构建SVM分类器;根据分类器识别所述测试数据集的剪接位点。本发明采用训练数据集构建马尔可夫模型,用该模型参数将训练数据集及测试数据集转换成特征向量,并将该特征向量和剪接位点上、下游密码子使用偏性的特征向量,进行线性组合,以提取剪接位点邻近序列中更多信息,从而提高分类精度。
申请公布号 CN103902853A 申请公布日期 2014.07.02
申请号 CN201210572684.3 申请日期 2012.12.25
申请人 中国科学院深圳先进技术研究院 发明人 魏丹;姜青山;魏彦杰
分类号 G06F19/24(2011.01)I 主分类号 G06F19/24(2011.01)I
代理机构 深圳市科进知识产权代理事务所(普通合伙) 44316 代理人 宋鹰武
主权项 一种基于支持向量机的剪接位点识别方法,其特征在于,包括下述步骤:构建数据集,所述数据集包括训练数据集及测试数据集,所述训练数据集包括剪接位点序列,所述剪接位点序列包括真剪接位点序列和假剪接位点序列,所述真剪接位点序列即为正样本,所述假剪接位点序列即为负样本;提取所述训练数据集的剪接位点序列的特征向量,记为第一特征向量;提取所述训练数据集的剪接位点上游序列及下游序列的特征向量,记为第二特征向量;根据所述第一特征向量及第二特征向量选取所述训练数据集的特征向量,记为第三特征向量;根据所述第三特征向量,构建SVM分类器;根据所述分类器识别所述测试数据集的剪接位点。
地址 518055 广东省深圳市南山区西丽大学城学苑大道1068号