

1. 昆明理工大学建筑工程学院,昆明 650500 2. 云南省生态环境科学研究院,昆明 650034 3. 昆明理工大学环境科学与工程学院,昆明 650500

摘要:全氟化合物(perfluorinated compounds, PFCs)作为一种新兴有机污染物,因其环境持久性及生物富集性,对生态环境健康存在潜在风险。鉴于实验测定PFCs生物富集作用的局限性,为实现对PFCs生物富集因子(bioconcentration factor, BCF)的合理预测及其影响因素分析,本研究基于前人报道的log BCF实验数据,采用多元线性逐步回归方法建立了PFCs对鱼类肝脏生物富集作用的定量结构-活性关系(quantitative structure-activity relationship, QSAR)模型,并对该模型进行了全面验证与评估及机理解释。结果表明,所建QSAR模型的决定系数(R2=0.902)、内部验证指标外部验证指标等统计参数均符合建模标准,模型具备良好的拟合优度、稳健性和预测能力;Williams图显示所建模型具有较强的泛化能力。PFCs的分子体积(V)和分子表面电位的最小值(Vs,min)是影响其在鱼类肝脏中富集的重要原因,且分子体积起主导作用;PFCs的生物富集效应是疏水与氢键相互作用机制共同影响的结果。


随着工业化进程的不断加速,环境中的新兴污染物层出不穷,其风险防范工作已日益得到广泛关注。全氟化合物(perfluorinated compounds, PFCs)是化合物分子中与碳原子连接的氢原子全部被氟原子所取代的一类典型新兴持久性有机污染物[1]。PFCs因具有疏水疏油、表面活性等特性,被普遍应用于化工及日常消费品的生产中[2-3]。PFCs的生产使用及其前驱物质的转化,使其遍及各类水体[4]、空气[5]和土壤[6]等环境介质。PFCs稳定性强,可通过环境介质进入生物体内并富集,达到一定阈值时将会产生相应的毒效应,损害生物体神经[7]、生殖[8]和肝脏[9]系统等,严重危害人体健康。

生物富集因子(bioconcentration factor, BCF)是描述化合物在生物体内富集作用大小的重要参数。现今,PFCs及其衍生物层出不穷,但有关PFCs的生物富集性研究却极为有限。究其原因,主要受以下2个方面的制约:(1) BCF主要通过实验测定,但测定成本高、过程复杂、耗时长、可操作性低,且在时间上具有滞后性;(2) BCF的测定涉及动物试验,测定过程中的生态伦理问题不容忽视。及时、全面地完善和补充PFCs的生物富集效应理论对科学建立PFCs环境标准,准确评估PFCs的环境生态风险具有重要意义。

定量结构-活性关系(quantitative structure-activity relationship, QSAR)模型作为一种发展迅速、应用范围较广的理论预测工具,将化合物的分子结构与其性质之间建立函数关系,从而实现对化合物性质的有效预测[10]。利用QSAR模型可快速、准确地预测多种有机污染物的生物活性,例如芳香族化合物对厌氧菌群的毒性预测[11],含氧多环芳烃对斑马鱼胚胎的毒性预测等[12]。目前,关于PFCs生物富集性的预测模型还鲜有报道。

因此,鉴于实验研究的局限性及对PFCs生物富集效应理论研究的迫切需求,本研究在遵循国际经济合作与发展组织(Organization for Economic Cooperation and Development, OECD)提出的QSAR模型构建准则[13]的基础上建立PFCs在鱼类肝脏中生物富集的QSAR模型,并对该模型进行了全面验证与评估,以实现对鱼类肝脏中PFCs的log BCF的合理预测,为评估PFCs进入生物体内可能产生的损害奠定理论基础。同时,通过对QSAR模型的解释,为从分子角度阐述影响PFCs生物富集的主要因素提供了见解,对理解PFCs在生态系统中的迁移转化途径及规律具有一定的参考意义。

1 材料与方法(Materials and methods)

1.1 数据集的收集与处理

从PFCs对白鲢、罗非鱼和乌鳢肝脏的生物富集作用研究文献中收集了log BCF值[14-15],包括11种全氟烷基羧酸(perfluorinated carboxylic acids, PFCAs)、5种全氟烷基磺酸(perfluoroalkyl sulfonic acids, PFSAs)和1种全氟烷基磺酰胺(perfluoroalkane sulfonamides, FOSAs),涵盖了日常生活和工业领域中常见的PFCs。其中,针对白鲢的PFCs生物富集性研究以武汉汤逊湖为取样地[14],而对罗非鱼和乌鳢开展的相关实验以珠江三角洲为研究区域[15]。二者的实验方法相似,且均对不同鱼类的生活水体及其肝脏的PFCs浓度进行了测定。具体实验方法为:地表水样经滤膜过滤、固相萃取后进行PFCs本底浓度的测定;鱼体肝脏经研磨、冷冻和液液萃取后,测定其PFCs浓度。经预处理后,水体及鱼类肝脏中PFCs浓度的测定均采用高效液相色谱-串联质谱法,进而计算鱼体肝脏的log BCF值。

鱼类肝脏中PFCs的生物富集性与其生活水体中化合物的本底浓度有关[15]。经比较发现,当地表水中PFCs浓度相近时,罗非鱼和乌鳢肝脏对PFCs的富集差异不大,而PFCs更易在白鲢肝脏中形成富集,例如两地水体中全氟癸酸(perfluorodecanoic acid, PFDA)的环境浓度接近,但白鲢肝脏的log BCF值更大。

因建模数据来源于不同实验条件和实验环境,为减少分析的不确定性,按以下规则对原始数据进行处理:对所收集的同一PFCs的多个log BCF实验值,先剔除明显偏离整体数据样本的离群值,使得实验数据的变异系数≤15%,再取其平均值建立QSAR模型。原始数据经处理后,同一PFCs的log BCF实验值的变异系数均<15%,以其平均值为建模数据具有足够的稳健性,可支持QSAR分析[16-17]。17种PFCs的log BCF数值范围为1.82~5.29,跨度范围为3.47,平均值(mean)为3.51,所对应的标准偏差(standard deviation, SD)为1.10。所有数据均落在(mean-3SD, mean+3SD)区间范围内,满足建模的数据要求[18]。使用Excel软件随机选择数据集中80%的数据为训练集(14种PFCs),以建立QSAR模型;其余20%的数据为验证集(3种PFCs),用于对QSAR模型进行外部验证。

1.2 分子描述符的计算与筛选

量子化学描述符所代表的物理化学意义明确,有利于解释化合物对生物作用的反应机理。本研究运用Gaussian 09软件在B3LYP/6-31G*基组水平下优化PFCs的分子结构,以获得能量最低的PFCs稳定分子构型。采用Multiwfn程序[19]对优化后的PFCs分子结构进行计算,得到32个量子化学描述符,包括但不限于以下描述符:(1)与分子结构特征相关的描述符,如分子量、分子体积和分子表面积等;(2)与分子静电势相关的描述符,如分子静电势正值区域的平均值、分子表面静电势的平均偏差等;(3)与分子极性相关的描述符,如偶极矩、分子极性指数等。

为简化QSAR模型的构建过程,对所有描述符进行相关性分析,对相关系数0.95以上的描述符,只保留一个与log BCF之间相关系数较高的分子描述符。经筛选后,保留16个PFCs的分子描述符进入QSAR模型构建环节。PFCs的16个分子描述符的具体信息如表1所示。

表1 16个分子描述符的具体信息
Table 1 Specific information of 16 molecular descriptors

序号No.分子描述符名称Molecular descriptor name含义Description计算的基组水平The basis set level of the calculation1分子体积(V)Molecular volume (V)与分子的大小有关Related to the size of the moleculeB3LYP/def2-TZVP2分子表面电位的最小值(Vs,min)The minimum value of molecular surface potential (Vs,min)与分子接受质子形成氢键的能力有关Related to the ability of molecules to accept protons to form hydrogen bondsB3LYP/def2-TZVP3分子表面静电势的平均偏差(π)Average deviation of electrostatic potential on molecular surfaces (π)与分子的电荷分离有关Related to charge separation of moleculesB3LYP/def2-TZVP4最高占据分子轨道能量与最低未占据分子轨道能量的差值(Egap)The energy difference between the highest occupied molecular orbital and the lowest unoccupied molecular orbital (Egap)与分子电离的点位有关Related to the point of molecular ionizationB3LYP/def2-TZVP5以碳原子为探针原子的分子范德华势[20]的全局极小值(Vvdw)Global minima of molecular van der Waals potential[20] with carbon atoms as probe atoms (Vvdw)与分子间范德华相互作用有关Related to intermolecular van der Waals interactionsB3LYP/def2-TZVPD6分子静电势负值区域的表面积(S-)The surface area of the region where the molecular electrostatic potential is negative (S-)与分子的静电势有关Related to the electrostatic potential of the moleculeB3LYP/def2-TZVP7分子静电势正值区域的平均值(V+mean)The average value of the positive region of the molecular electrostatic potential (V+mean)与分子的静电势有关Related to the electrostatic potential of the moleculeB3LYP/def2-TZVP8分子表面平均局部离子化能的最大值(ALIEmax)The maximum average local ionization energy on the molecular (ALIEmax)与分子在空间任意点电离电子所需的平均能量有关Required to ionize electrons with molecules at any point in space average energyB3LYP/def2-TZVP9分子表面平均局部离子化能的最小值(ALIEmin)The minimum average local ionization energy on the molecular (ALIEmin)与分子在空间任意点电离电子所需的平均能量有关Required to ionize electrons with molecules at any point in space average energyB3LYP/def2-TZVP10分子极性指数(MPI)Molecular polarity index (MPI)与分子的极性有关Related to the polarity of the moleculeB3LYP/def2-TZVP11偶极矩(μ)Dipole moment (μ)与分子的极性有关Related to the polarity of the moleculeB3LYP/def2-TZVPD12第一超极化率(β)Magnitude of first hyperpolarizability (β)与分子的极性有关Related to the polarity of the moleculeB3LYP/def2-TZVPD13垂直电离能(VIP)Vertical ionization potential (VIP)与分子得失电子的能力有关Related to the ability of molecules to gain and lose electronsB3LYP/def2-TZVP14Mulliken电负性(XM)Mulliken electronegativity (XM)与分子得失电子的能力有关Related to the ability of molecules to gain and lose electronsB3LYP/def2-TZVP15电子硬度(η)Electronic hardness (η)与分子得失电子的能力有关Related to the ability of molecules to gain and lose electronsB3LYP/def2-TZVP16亲电指数(ωcubic)Electrophilic index (ωcubic)与分子得失电子的能力有关Related to the ability of molecules to gain and lose electronsB3LYP/def2-TZVP

1.3 QSAR模型的建立与验证

基于SPSS 26软件,以经筛选后所保留的16个分子描述符为自变量,log BCF为因变量进行逐步线性回归,得到包含不同个数分子描述符的QSAR模型。从模型的拟合优度、稳健性和预测能力3个方面考量模型性能,经比较分析后,确定本研究所建立的最终模型。

采用决定系数(R2)对QSAR模型的拟合优度进行评估;以内部验证指标评估QSAR模型的稳健性;利用验证集对QSAR模型进行外部验证,以外部验证指标评估QSAR模型的预测能力;对由QSAR模型所得的预测值进行残差分析,评估模型是否存在系统误差;由QSAR模型中所含分子描述符的显著性指标(P)和方差膨胀系数(VIF),判断各分子描述符是否具有显著性,以及描述符之间是否存在多重共线性。参照文献资料中的通用方法进行计算[21],其余统计参数由SPSS 26软件计算而得。

1.4 QSAR模型的应用域分析


2 结果(Results)

2.1 QSAR模型的建立与验证


表2 不同QSAR模型的统计参数
Table 2 Statistical parameters of QSAR model

模型Model训练集Training set测试集Validating setnR2Q2LOORMSEFPnQ2F1Q2F2Q2F3RMSE(1)140.8470.8000.44266.5390.00030.9540.9520.9410.254(2)140.9020.8520.36950.7840.00030.8550.8500.8140.451

Notes:n means the number of data set; RMSE means root mean square error; F means variance ratio; P means significance level, when P<0.05, the model is significant.

log BCF = 0.001641V+0.007


log BCF = 0.001577V-14.55Vs,min-14.90



两模型的建立均符合样本数/变量数≥5的建模经验规则[24]。由表2可知,两模型的根据模型应用的评估标准[21],表明两模型均具备良好的拟合优度、稳健性和预测能力,符合QSAR模型构建准则的要求。两模型的即两模型均不存在过度拟合现象[25]。在QSAR模型构建过程中,应考虑尽可能多的分子描述符,以提高其拟合优度与稳健性[26]。同时,当测试集中的样本数据相对较少,分析的不确定性将会有所提高[24]。另一方面,相比于单因子模型,双因子模型的解释能力更强。具有相同官能团的同系PFCs,随着碳链长度(CF2)的增加,其分子体积随之增加,log BCF值呈递增趋势。例如,全氟壬酸(perfluorononanoic acid, PFNA)与PFDA的分子表面电位的最小值相近,但因PFDA的分子体积较大,其log BCF也更大。非同系PFCs不仅存在碳链长度(CF2)的差异,其末端所带官能团也不同。通过对PFDA和全氟辛基磺酰胺(perfluorooctane sulfonamide, PFOSA)进行比较分析发现,PFOSA的分子体积小于PFDA,但其log BCF却更大,多因PFOSA的分子表面电位的最小值更小所致。双因子模型在对非同系PFCs的生物富集性作出定性机理解释的同时,还具有一定的定量分析意义。基于上述原因,本研究选择模型(2)为最终QSAR模型。

表3中给出了使用QSAR模型预测PFCs的log BCF值的具体结果。log BCF预测值与实验值之间的相关性如图1所示,所有数据点均分布在45°线附近,模型对PFCs的log BCF值预测精度较高。log BCF的残差分布如图2所示,所有残差均随机分布在基线两侧,无明显的规律性,模型不存在系统误差。

图1 实验值与QSAR模型预测值的相关性
Fig. 1 Experimental and predicted values of the QSAR model

图2 QSAR模型的残差分布图
Fig. 2 Residual diagram of the QSAR models

表3 QSAR模型参数与模型预测结果
Table 3 Model parameters and model predicting results

全氟化合物(PFCs)Perfluorinated compounds (PFCs)CAS分子结构Molecular structures分子描述符Molecular descriptors生物富集因子log BCFV/Bohr3Vs,min/eV实验值Exp.预测值Pred.残差Res.全氟丁酸Perfluorobutyric375-22-41 067.45-1.03152.031.790.24全氟戊酸perfluorovaleric acid2706-90-31 280.86-1.02021.821.96-0.14全氟己酸*Perfluorohexanoic acid*307-24-41 494.00-1.02212.572.330.24全氟庚酸Perfluoroheptanoic acid375-85-91 707.31-1.02182.612.66-0.05全氟辛酸Perfluorooctanoic acid335-67-11 920.77-1.01902.302.96-0.66全氟壬酸Perfluorononanoic acid375-95-12 133.68-1.02032.963.310.35全氟癸酸Perfluorodecanoic acid335-76-22 346.86-1.01983.813.640.17全氟十一酸Perfluoroundecanoic acid2058-94-82 560.05-1.01944.653.970.68全氟十二酸Perfluorododecanoic acid307-55-12 774.07-1.05775.084.860.22全氟十三酸*Perfluorotridecanoic acid*72629-94-82 986.35-1.01945.294.640.65全氟十四酸Perfluorotetradecanoic acid376-06-73 199.66-1.01994.984.99-0.01全氟丁烷磺酸Perfluorobutane sulfonic acid375-73-51 420.07-1.04202.672.500.17全氟己烷磺酸Perfluorohexane sulfonic acid355-46-41 846.81-1.04373.483.200.28全氟庚烷磺酸*Perfluoroheptane sulfonic acid*375-92-82 060.03-1.04553.203.56-0.36全氟辛烷磺酸Perfluorooctane sulfonic acid1763-23-12 273.14-1.04543.853.90-0.05全氟癸烷磺酸Perfluorodecane sulfonic acid335-77-32 699.39-1.04584.154.57-0.42全氟辛基磺酰胺Perfluorooctane sulfonamide754-91-62 312.04-1.07554.204.39-0.19

Notes:* Chemicals were in the validation set.


表4 QSAR模型中不同分子描述符的统计参数
Table 4 Statistical parameters of different Molecular descriptor

分子描述符Molecular descriptor显著性指标(P)Significance indicator (P)方差膨胀系数(VIF)Variance inflation factor (VIF)V0.0001.023Vs,min0.0301.023

2.2 QSAR模型的应用域分析


图3 QSAR模型的Williams图
Fig. 3 Williams diagram of the QSAR models
Note: When the absolute value of δ>3, it indicates that the predicted value of the sample is abnormal; if h exceeds the warning leverage value h*, it indicates that the structure of the sample is quite different from that in the training set.

2.3 log BCF的影响因素分析

由QSAR模型可知,PFCs的log BCF与其VVs,min有关,且与V呈正相关,与Vs,min呈负相关。经计算,QSAR模型中VVs,min的标准化回归系数[28]分别为0.885、-0.237,表明PFCs的V是影响其log BCF大小的主要因素。



3 讨论(Discussion)

本文基于17种PFCs的分子结构特性,建立鱼类肝脏中PFCs的log BCF的QSAR预测模型,与现有相关模型相比,本模型具有可靠性强、应用域广和作用机理清晰的特点。Liu等[33]以半最大效应浓度(log EC50)为单分子描述符建立了PFCs在青口贻贝中的生物富集性的QSAR模型(R2=0.999)。该模型具有高R2,但其建模数据集所含PFCs的数量较少(仅包含4种PFCs),模型的建模过程未完全遵循QSAR模型构建的五项准则[13],缺乏对QSAR模型外部预测能力的验证及对应用域的定义;此外,以log EC50为分子描述符建立QSAR模型,并非纯粹的“结构-性质”关系,该描述符多由实验测定,其实验结果受多因素影响,数据的准确性和可靠性受限,模型不确定性较高。本文建立的QSAR模型所采用的数据量有所增加,数据集的覆盖面有所加大;描述符由理论计算获得,数据稳定,可靠性佳,建模过程完全基于QSAR模型构建的准则框架[13],模型适用性较好;且经全面验证表明,本模型具备良好的拟合优度、稳健性和预测能力。Bhhatarai和Gramatica[34]分析了PFCs在虹鳟鱼体内的log BCF值随PFCs碳链长度的增加而增加,PFCs的疏水性越强越容易在鱼体组织中富集。这与本研究模型筛选出的表征疏水性的V值与PFCs在鱼类肝脏中生物富集性呈正相关的结果一致。本模型研究表明,除与疏水性相关的PFCs的分子体积外,与化合物氢键碱度相关的分子表面电位的最小值对PFCs的生物富集性也具有影响作用;对于非同系PFCs,模型可从定性与定量分析的角度予以阐释,丰富了PFCs生物富集效应研究理论。

综上所述,在适用范围内,本文所建的QSAR模型可预测目前大多数PFCs的log BCF值,从生物富集性角度,为PFCs的生态风险评估提供数据支持。


(1)结合多种机器学习方法,对PFCs的分子结构与log BCF之间进行线性与非线性拟合尝试,进一步提升QSAR模型的拟合优度、稳健性与预测能力。虽然大多数非线性模型属于“黑箱”模型,不利于作用机理的解释,但PFCs在生物体内的生物富集行为是一复杂过程,极有可能涉及非线性关系,因此,开展非线性模型的研究有利于完善PFCs的生物富集性理论体系。




Prediction of Bioconcentration Factor and Analysis of Influencing Factors of Perfluorinated Compounds in Fish Liver

Jiang Lan1, Xu Yue1,*, Zhang Xiaoyu2,#, Xu Bingfeng1, Xu Ximeng1, Ma Yixing3

1. Faculty of Civil Engineering and Mechanics, Kunming University of Science and Technology, Kunming 650500, China 2. Yunnan Research Academy of Eco-environmental Sciences, Kunming 650034, China 3. Faculty of Environmental Science and Engineering, Kunming University of Science and Technology, Kunming 650500, China

Abstract:As an emerging organic pollutant, perfluorinated compounds (PFCs) are considered to be a potential threat to the ecological environment due to their persistent, bioaccumulative, and toxic properties. Based on the previously reported experimental log bioconcentration factor (BCF) data, the multiple linear stepwise regression method was introduced to establish a quantitative structure-activity relationship (QSAR) model to predict the BCF of PFCs on fish liver and its impact mechanism, avoiding the limitations of experimental determination of PFCs bioaccumulation. Subsequently, the proposed model was validated and evaluated, and the identified impact mechanism was explained. The coefficient of determination (R2=0.902), internal validation metric demonstrated the good performance of the proposed model in terms of goodness of fit, robustness and prediction accuracy. Moreover, the Williams graph confirmed the strong generalization ability of the proposed model. Furthermore, molecular volume (V) and the minimum value of molecular surface potential (Vs, min) were identified as the key influencing factors affecting the enrichment of PFCs in fish liver, and the former played a dominant role. The bioaccumulation effect of PFCs was found to be the result of the interaction and co-influence of hydrophobic and hydrogen bonds.

Keywords:PFCs; fish liver; bioconcentration factor; QSAR







