主权项 |
一种采用定量结构活性关系预测有机化学品的鱼类生物富集因子的方法,其特征在于,搜集780种有机化合物的生物富集因子数据,采用密度泛函理论对780种有机化合物的分子结构进行优化,基于优化后的分子结构,从780种有机化合物的4885种分子描述符中初步筛选得到3480个描述符;其中初步筛选是去掉常数和近似常数的描述符,去掉至少有一个缺失值的描述符;所述的有机化合物包括多氯联苯、多溴联苯、全氟烷基酸、二恶英类、双酚A、农药;然后将上述的780种有机化合物按照4:1的比例分成训练集和验证集,训练集用于构建预测模型,验证集用于建模后的外部验证;采用逐步回归方法构建多元线性回归模型,该模型如下:logBCF=2.137+0.061×MLOGP2+0.034×F02[C‑Cl]‑0.312×nROH‑1.282×P‑117+0.323×Mor25m‑0.052×N%+0.080×X4v‑0.289×O–058‑1.137×LLS_01‑1.387×H4v+0.071×SM12_AEA(dm)‑0.269×O‑057其中,logBCF代表生物富集因子的对数,MLOGP2代表logK<sub>OW</sub>的平方,F02[C‑Cl]代表原子对C和Cl拓扑距离为2时出现的频率,nROH代表羟基的个数,P‑117代表分子中“X3‑P=X”结构的数量,Mor25m代表加权质量计算出的散射函数值,N%代表N原子的百分比,X4v是四价连接性指数,O‑058代表分子中“=O”结构的数量,LLS_01是一个类药指数,H4v代表氢加权范德华体积滞后4的自相关函数值,SM12_AEA(dm)代表加权偶极矩的12谱距增广边缘邻接矩阵值,O‑057代表酚、醇分子中“OH”的数量;特征向量欧几里德距离不大于1.438的化合物适用于本模型。 |