发明名称 基于分子亲电矢量和扩展支持向量机的基因毒性概率预测方法
摘要 本发明涉及一种基于分子亲电矢量(MEV)和扩展支持向量机(SVM)的基因毒性概率预测方法,适用于根据有机化合物分子结构信息对该化合物进行虚拟毒性评价和筛选。首先,对输入分子结构使用基于文本的化学结构提问语言SMARTS和可编程原子分类PATTY回溯算法根据预定义规则进行原子分类;然后,根据半经验Hückel方法计算分子中每种原子类型的原子描述符(前线轨道电子密度、电子超离域度、原子π-电荷)建立描述分子的亲电性质的特征矢量MEV;最后,使用扩展的支持向量机方法(SVM)对分子的基因毒性数据和及其特征MEV进行统计学,得到该分子基因毒性的后验概率估计。
申请公布号 CN101131391A 申请公布日期 2008.02.27
申请号 CN200610030358.4 申请日期 2006.08.24
申请人 中国科学院上海药物研究所 发明人 蒋华良;罗小民;朱维良;陈凯先;郑明月;刘治国;薛春霞
分类号 G01N35/00(2006.01);G01N33/00(2006.01);C12Q1/68(2006.01);G06F17/00(2006.01) 主分类号 G01N35/00(2006.01)
代理机构 北京金信立方知识产权代理有限公司 代理人 朱梅;徐志明
主权项 1.一种基于分子亲电矢量(MEV)和扩展支持向量机(SVM)的基因毒性概率预测方法,适用于根据化合物分子结构信息对该化合物进行虚拟毒性评价和筛选,其特征在于,该方法步骤包括:a.对数据集中的化合物进行原子分类的步骤;b.计算分子中每种上述步骤所分类的原子类型的原子描述符;c.根据预定义规则,利用在上述步骤中获取的原子描述符和分子碎片模式构建特征MEV向量;d.使用基于F-score的递归特征消除(RFE)方法优化上述的MEV向量;e.使用支持向量机方法对训练集分子的基因毒性数据和及其特征MEV进行统计学习,得到观测值类成员的后验概率进而得到基因毒性的概率预测模型;f.根据得到的分子基因毒性的概率预测模型,使用C++开发模块化的分子基因毒性预测程序。
地址 201203上海市浦东新区张江高科技园区祖冲之路555号