发明名称 基于R‑SVM和TPR规则的基因功能预测方法
摘要 基于R‑SVM和TPR规则的基因功能预测方法,涉及一种基因功能的预测方法。本发明可以实现对基因功能的预测,能够解决采用分类算法实现基因功能预测时所存在的多标签问题以及层级约束问题。本发明首先将已知功能的基因作为训练样本,构成训练集;针对GO注释方案中的每个节点,构造正样本集和负样本集;针对GO注释方案中的每个节点,选择对该节点的功能进行分类时贡献较大的属性;通过训练得到一组R‑SVM分类器并对未知样本进行分类预测,得到一组初步R‑SVM分类结果;将分类结果转化为后验概率值,使用针对有向无环图层级结构的带权重的TPR集成算法,实现基因功能的预测。本发明适用于基因功能的预测。
申请公布号 CN106126973A 申请公布日期 2016.11.16
申请号 CN201610452114.9 申请日期 2016.06.21
申请人 哈尔滨工业大学 发明人 冯收;付平;徐明珠;郑文斌;石金龙;邱传良;于鸿杰;阳彬
分类号 G06F19/18(2011.01)I;G06K9/62(2006.01)I 主分类号 G06F19/18(2011.01)I
代理机构 哈尔滨市松花江专利商标事务所 23109 代理人 杨立超
主权项 基于R‑SVM和TPR规则的基因功能预测方法,其特征在于包括以下步骤:步骤1、将已知功能的基因作为训练样本,构成训练集,并将每个基因表示成一个多维的向量,向量中的每个元素都被称为一个属性;步骤2、GO注释方案中的每个节点表示一个类标签,针对GO注释方案中的每个节点,首先将训练集中的各样本,按照改进的sibling原则构造正样本集和负样本集;步骤3、针对GO注释方案中的每个节点,对相应的数据集进行样本的属性选择,选择对该节点的功能进行分类时贡献较大的属性;步骤4、针对GO注释方案中的各个节点,采用R‑SVM分类器对各个节点的数据集进行训练;得到一组R‑SVM分类器;R‑SVM采用潜在最佳阈值选择的方法选择一组潜在最佳SVM阈值,而后使用最佳阈值估计的方法计算出最佳阈值,使之应用于SVM上;步骤5、每个节点对应一个分类器,GO注释方案中所有节点得到一组分类器;使用训练阶段得到的一组R‑SVM分类器对未知样本进行分类预测,得到一组初步R‑SVM分类结果;步骤6、使用sigmoid方法来将这组R‑SVM分类结果转化为后验概率值;步骤7、使用针对有向无环图层级结构的带权重的TPR集成算法,在保证最终的预测结果满足有向无环图层级约束要求的前提下,实现基因功能的预测。
地址 150001 黑龙江省哈尔滨市南岗区西大直街92号