机器学习在化合物属性预测中的应用

王紫维, 韩民, 金彪. 机器学习在化合物属性预测中的应用[J]. 环境化学, 2024, 43(1): 69-81. doi: 10.7524/j.issn.0254-6108.2023020306
引用本文: 王紫维, 韩民, 金彪. 机器学习在化合物属性预测中的应用[J]. 环境化学, 2024, 43(1): 69-81. doi: 10.7524/j.issn.0254-6108.2023020306
WANG Ziwei, HAN Min, JIN Biao. Applications of machine learning on compound property prediction[J]. Environmental Chemistry, 2024, 43(1): 69-81. doi: 10.7524/j.issn.0254-6108.2023020306
Citation: WANG Ziwei, HAN Min, JIN Biao. Applications of machine learning on compound property prediction[J]. Environmental Chemistry, 2024, 43(1): 69-81. doi: 10.7524/j.issn.0254-6108.2023020306

机器学习在化合物属性预测中的应用

    通讯作者: E-mail: jinbiao@gig.ac.cn; Tel: +86-20-83274209
  • 基金项目:
    国家重点研发计划重点专项(2019YFC1805500,2019YFC1805503)资助.

Applications of machine learning on compound property prediction

    Corresponding author: JIN Biao, jinbiao@gig.ac.cn
  • Fund Project: National Key Research and Development Plan (2019YFC1805500,2019YFC1805503).
  • 摘要: 化合物的属性预测是药物研发、毒理学研究、环境行为预测等工作的核心任务. 目前,人工合成的化学物质层出不穷,相关的实验研究数据在持续扩充,但实验研究数据远无法赶超新型化学物质的研发速度. 近年来,机器学习算法及模型在化合物属性预测方面展现了独特的优势和巨大的潜力,尤其在实验数据匮乏的情况下,提供了可靠的模型预测数据. 本文介绍了机器学习应用于化合物属性预测的主要流程步骤和相应的模块的内容,涵盖数据集、分子描述方法、模型性能评估指标和评估方法等. 同时,本文系统总结了机器学习方法在化合物物理化学性质预测、生物活性预测和毒性预测方面的应用实例,并从数据集、分子特征化、模型解释等方面分析并讨论了相关研究工作现存问题与未来挑战.
  • 如果大量含重金属的废水、固废等未经妥善处理直接排入环境,会造成地表水重金属污染[1]。同时,多种重金属复合污染的问题也越来越普遍[2]。重金属进入环境后,会随食物链不断富集,最后通过直接或间接摄入的方式进入人体,引起多种疾病,因而一直受到环保学者的广泛关注[3-4]。重金属不能被降解,只能通过改变其形态或价态的方式来降低其迁移能力和生物有效性。通常,重金属污染水体的治理方法主要有化学沉淀法、氧化还原、生物处理和吸附法[5-7]。随着环保标准越来越严,急切需要更有效的方法来处理重金属复合污染。锌(Zn)、镍(Ni)和铬(Cr)是水体中很常见的重金属污染物。其中,Zn和Ni主要以阳离子的形式存在于水体中,而Cr主要以Cr2O72−、CrO42−等阴离子的形式存在于水体中。对于这些以不同离子形态共存的重金属复合污染水体,其处理难度更大。

    零价铁(Fe0或ZVI)具有来源广泛、价格低廉、生态风险小和中等还原性(E0= -0.44V)的特点,已成为环境污染控制和修复的重要材料之一[8-10]。通过还原反应,Fe0可以处理标准电位比其高的重金属,例如Cr(Ⅵ)、Cu(Ⅱ)、Hg(Ⅱ)、Ag(Ⅰ)、As(Ⅴ)和Se(Ⅵ)等[11-14],但对于标准电位与其非常接近的重金属元素(Ni(Ⅱ)或Zn(Ⅱ)),则主要依靠铁腐蚀产物的吸附和共沉淀作用,处理效果都不够理想[9,15]。不管是通过Fe0的直接还原,还是通过铁腐蚀产物的吸附和共沉淀,都必须保证Fe0腐蚀反应的持续进行,从而不断释放电子并且产生新的腐蚀产物。常规的Fe0体系,由于产生的三价铁腐蚀产物覆盖在Fe0表面,抑制了Fe0腐蚀反应的持续进行,从而容易导致Fe0表面钝化,这是限制Fe0技术被广泛应用的关键瓶颈[16]。为了延缓Fe0表面钝化,很多学者提出了不同的方法,如酸洗[17]、超声处理[18]、弱磁场[19]、双金属体系[20]等。TANG等[21-22]通过直接加入或反应生成Fe3O4,形成复合体系Fe0/Fe3O4,可显著提高Fe0对Se(Ⅵ)的还原速率。由于Fe3O4是半导体,不会阻碍电子传递,从而可以持续保持Fe0的活性。同时,利用Fe3O4的磁性,能实现固-液的快速分离。目前,大多数的研究是直接加入Fe3O4或利用化学反应生成Fe3O4。这样做操作比较麻烦,且难以保证只生成Fe3O4,往往是不同铁氧化物/氢氧化物的混合物。如果能通过简单的方法,在Fe0表面只生成Fe3O4,则在实际应用中将更方便。基于上述研究,本研究通过简便方法,原位制备了Fe0/Fe3O4复合体系,并且考察了该体系同时去除Zn2+、Ni2+和Cr(Ⅵ) 3种重金属的效果和机理;通过批处理实验和连续进出水的流化床反应器考察了不同反应条件对复合体系去除这3种重金属的影响;并借助XRD、SEM和XPS,探讨了对不同金属的去除机理。

    还原铁粉(98%)(100目和400目)、锌标样、镍标样、铬标样、乙酸铵、乙酸、氯化锌(ZnCl2)、氯化镍、重铬酸钾、氯化亚铁、盐酸、硝酸、邻菲罗啉等试剂均为分析纯;溶液配制及材料制备均采用去离子水。

    1)批处理实验。称取0.15 g和0.25 g的铁粉置于20 mL血清瓶中,再加入14 mL去离子水和1 mL FeCl2储备液,此时反应瓶内顶部还有一定体积的空气,再密封后将反应瓶置于360°旋转的木箱中,以30 r·min−1的转速开始反应一定时间。预处理完成后,再用微量注射器加入300 μL的Zn2+、Ni2+和Cr(Ⅵ)的混合储备液,得到10 mg·L−1的Ni2+和Zn2+以及不同浓度的Cr(Ⅵ),再将反应瓶放入旋转箱中反应并开始计时,在预定时间每次取出2个反应瓶作为重复,打开塞子后先测定溶液pH,再经0.45 μm滤膜过滤,收集滤液测定Fe2+和重金属离子的浓度。在Fe2+的样品中加入2滴3 mol·L−1的HCl酸化保存待测。其余滤液加入1滴3 mol·L−1HNO3保存,待测金属离子。采用准一级(式(1))、准二级(式(2))动力学方程拟合各重金属去除情况。

    ln(qeqt)=lnqek1t (1)
    tqt=1k2qe2+1qet (2)

    式中:qe为平衡吸附量,mg·g−1qt为时间t的吸附量,mg·g−1t 为吸附时间,min;k1为准一级动力学方程常数,g·(mg·min)−1k2为准二级动力学方程常数,g·(mg·min)−1

    2)流化床反应器实验。使用纯水配制50 mmol·L−1FeCl2和30 mmol·L−1HCl混合液,进水中Zn、Ni和Cr的质量浓度均为10 mg·L−1。4个流化床反应器的操作条件见表1,流化床反应器的示意图见图1。通过可调式电子机械搅拌器搅动溶液,使铁粉悬浮于溶液中,防止铁粉沉积到反应器底部。反应器的有效体积为11.5 L。与批处理实验类似,流化床反应器也需经过预处理,先制备Fe0/Fe3O4复合体系。预处理过程中,只添加不同的氧化剂,反应2~3 d完成预处理,后再通入重金属模拟废水。模拟废水用自来水配置,为防止重金属沉淀,先用HCl将溶液pH调为7.0,再加入重金属试剂,采用连续进出水的方式运行。在反应区反应后,通过溢流口排出,固体会自动下沉流入反应区,从而保证出水所含悬浮物少,减少铁粉的流失。

    表 1  不同流化床反应器的操作参数
    Table 1.  Operation parameters of different fluidized bed reactors
    条件反应器铁粉粒径/目铁粉浓度/(g·L−1)预处理氧化剂预处理氧化剂浓度/(mg·L−1)水力停留时间/h搅拌器转速/(r·min−1)
    A40050K2Cr2O7205700
    B40070K2Cr2O7205700
    C40050DO(曝气)/5700
    D40050KNO3205700
     | Show Table
    DownLoad: CSV
    图 1  流化床反应器示意图.
    Figure 1.  A schematic of fluidized bed reactor.

    采用原子吸收光谱(PerkinElmer 900T)测定滤液中的Zn2+、Ni2+和总Cr;采用二苯碳酰二肼分光光度法测定Cr(Ⅵ);采用邻菲啰啉分光光度法(紫外可见光度计,TU-1810,北京普析)在波长510 nm测定Fe2+浓度。文中的结果均为2个平行样。

    在制备SEM样品时,按照批处理实验的条件,反应后分离固液,将固体在高纯氮气保护下干燥,再用SEM(日本电子,JSM-7500F)分析。在制备XPS样品时,为了增大待测元素的含量,所加入的各重金属浓度比实验高1倍,其它反应物均相应提高1倍。反应一定时间后,通过超声处理将铁腐蚀物从铁粉表面剥落下来,再过滤分离腐蚀物,通过连续吹入高纯氮气风干样品用于XPS(日本岛津,AXIS Supra)分析。XPS采用单色铝Kα X射线(hv=1 486.6 eV),管电压15 kV,管电流12 mA,功率180 W,步长为0.05 eV,分析Ni和Cr反应前后的价态变化,以C1s 284.5 eV校正结合能,采用XPSPEAK4.1软件分析结果。在制备XRD样品时,与批处理反应条件完全一样,而且反应后,无需任何处理,直接将铁粉分离,然后在高纯氮气气流下干燥,用于XRD分析(日本理学,Ultima IV)。

    图2可看出,复合体系的谱图与Fe3O4标样完全一致。这与SU等[23]制成的纳米Fe3O4峰形一致,表明预处理后,在铁表面形成了晶型完好且纯度很高的Fe3O4,没有其它晶态铁氧化物或氢氧化物峰。这说明,该预处理方法可以在Fe0表面生成了一层晶相单一的Fe3O4,形成了Fe0/Fe3O4复合体系。由图3可看出,反应前的铁粉表面光滑,铁粉颗粒不规则(图3(a))。这与前人的研究观察现象一致[24]。在厌氧条件下反应后,铁表面由于发生反应而变得粗糙,而且有一些白色的小点,可能是沉淀的重金属离子。由于没有强氧化剂的参与,铁腐蚀反应很慢,产生的腐蚀产物也很少(图3(b))。如图3(c)所示,在预处理后复合体系中铁腐蚀产物的表面有很多颗粒状和片状的晶体。这些晶体的形貌与Fe3O4(图3(d))的晶体形态非常相似[21]。WU等[25]经过酸预处理,反应后的铁腐蚀物主要是棒状和片状。这也再次证明腐蚀产物主要是Fe3O4,与图2中的XRD的结果吻合。由此可见,通过预处理可在Fe0表面形成一层晶型完好的Fe3O4

    图 2  预处理后,零价铁复合体系和四氧化三铁标样的XRD谱图
    Figure 2.  XRD pattern of hybrid system after pretreatment and magnetite standard.
    图 3  不同体系中铁粉表面和腐蚀产物的SEM图。
    Figure 3.  SEM images of Fe0 surface and corrosion products in different systems.

    1)不同铁粉用量和不同铁粉粒径的影响。为了评估Fe0/Fe3O4的活性,对Fe0/Fe3O4与Fe0处理Zn2+和Ni2+的效果进行了比较,结果见图4。显然,Fe0/Fe3O4的活性远高于Fe0。在相同铁粉用量下,反应24 h后,Fe0对Zn2+和Ni2+的去除率分别只有31%和20%;而Fe0/Fe3O4对Zn2+和Ni2+的去除率分别为93%和62%。因此,后续的实验只考察Fe0/Fe3O4在不同条件下对复合重金属离子的去除效果。

    图 4  铁粉用量和粒径对不同体系去除复合重金属的影响。
    Figure 4.  Effects of Fe0 dosage and particle size on the removal of multiple heavy metals in different systems.

    通常,铁粉粒径越小或铁粉用量越大,均会促进Fe0对污染物的去除[26]。由图4可以看出,随着铁粉粒径减小或铁粉用量的增加,Fe0/Fe3O4去除Ni2+和Zn2+的效率均升高。当加入0.15 g 100目的铁粉时,反应24 h以后,Zn2+的去除率为93%,而Ni2+去除率为62%。当铁粉用量增加到0.25 g或铁粉用量不变而粒径减小为400目时,Zn2+的去除率分别提高到95%和98%,而Ni2+去除率均约为70%。增加铁粉用量或减小铁粉粒径均可增加铁粉表面活性位点[24],从而提高反应速率。在相同条件下,Zn2+的去除率明显高于Ni2+,说明Zn2+更容易被吸附。由于Zn的标准电位(-0.76 V)比Fe(-0.44 V)低,Fe0不可能将Zn2+还原,只能通过铁腐蚀产物的吸附和共沉淀来去除。前人在研究微米或纳米Fe0处理Zn2+的过程中,也认为吸附和共沉淀是其去除机理[27-28]。由于Fe3O4的导电性,不会钝化铁表面,从而使铁腐蚀反应能够持续进行,不断产生新的铁腐蚀产物,从而能够持续地去除Ni2+和Zn2+

    2)预处理时,不同Fe2+浓度对重金属去除的影响。在Fe0预处理的时候,利用反应瓶溶液中的溶解氧(来自瓶中顶部空气中的氧气)作为氧化剂,借助溶液中的Fe2+,通过一系列化学反应在铁表面形成一层Fe3O4膜,从而得到Fe0/Fe3O4复合体系。因此,在预处理的时候,氧气和Fe2+的量都可能改变复合体系中Fe3O4的量,从而改变后续的反应速率。同时,Fe2+与Zn2+和Ni2+的价态一样、离子半径也相似,可能会对其吸附产生抑制作用。因此,预处理的时候,分别加入0.5、1.0和2.0 mmol·L−1Fe2+,考察其对不同重金属去除的影响。由图5(a)可知,预处理以后,溶液中还保留了大量的溶解态Fe2+。起始加入0.5、1.0和2.0 mmol·L−1 Fe2+,预处理后,分别检测到0.37、0.71和1.8 mmol·L−1溶解态的Fe2+。这表明在预处理阶段,只要少量的Fe2+就可以完成预处理。与重金属混合液反应后,Fe2+浓度逐渐升高,在前2 h内增加最快,随后逐渐减慢并趋于稳定。这说明,在反应过程中,伴随重金属的去除,可以释放出Fe2+。其中,Zn2+不可能与Fe0发生置换反应,只有Ni2+有可能被Fe0还原,释放等量的Fe2+[29-30]。但也有研究认为,当Zn2+吸附到铁腐蚀产物表面后,会通过水解过程释放等量的H+,这些H+再与Fe0反应,释放出与Zn2+等量的Fe2+[31]。由图5(b)、图5(c)可知,体系中过多的Fe2+会抑制Fe0/Fe3O4对Zn2+和Ni2+的去除,尤其对Ni2+的去除抑制作用更明显。当Fe2+起始浓度为0.5 mmol·L−1和1.0 mmol·L−1时,对Zn2+的去除影响不大,反应24 h以后,去除率均在90%左右;但当Fe2+起始浓度增加到2.0 mmol·L−1,在反应前8 h内,Zn2+去除速率最慢,但在24 h以后,去除率与其它Fe2+浓度的相当。这说明Fe2+对Zn2+去除的影响比较小,对于低浓度的Fe2+(≤2.0 mmol·L−1),可以忽略其影响。但对于Ni2+的去除,Fe2+的抑制作用非常明显,随着其浓度的增加,其抑制作用则增强。当预处理Fe2+为0.5 mmol·L−1时,Ni2+的去除效果最高,可以达到77%;但当Fe2+初始浓度分别为1.0 mmol·L−1和2.0 mmol·L−1时,Ni2+去除率分别只有65.48%和48.85%。这可能归因于以下2点:一是由于过多的Fe2+会抑制Fe0与Ni2+的置换反应(Fe0 + Ni2+→ Fe2+ + Ni0),从而不利于Ni2+的去除;二是由于Ni2+在铁氧化物表面的吸附能力比Zn2+和Fe2+差。

    图 5  预处理过程中,不同初始亚铁浓度对复合重金属去除的影响
    Figure 5.  Effect of different initial ferrous concentration on the removal of complex heavy metals during pretreatment.

    3)不同Cr(Ⅵ)浓度对Zn2+和Ni2+去除的影响。Cr(Ⅵ)是环境中很常见的重金属污染物,常与Zn2+和Ni2+等重金属共存于污染水体中。Cr(Ⅵ)的水溶性好,迁移能力很强,容易被生物利用。图6是不同浓度的Cr(Ⅵ)对Zn2+和Ni2+去除的影响。相比于不加Cr(Ⅵ)的体系,低浓度(10 mg·L−1)的Cr(Ⅵ)会显著促进Ni2+和Zn2+的去除,反应24 h后,Zn2+的去除率达到92%,Ni2+的去除率达到67.5%。但随Cr(Ⅵ)浓度的升高,其促进作用不明显,甚至在反应开始后的最初几个小时,反而抑制了Ni2+和Zn2+的去除,直到24 h后,Cr(Ⅵ)对Ni2+和Zn2+的去除最终表现为促进作用,且促进作用较小。Cr(Ⅵ)影响Zn2+和Ni2+去除的原因主要有2点:一是由于Cr(Ⅵ)的还原也会消耗Fe2+,从而减少了Fe2+的竞争吸附作用,有助于Zn2+和Ni2+的去除;二是由于Cr(Ⅵ)被还原为Cr(Ⅲ)后,与Fe(Ⅲ)形成共沉淀FexCr1-x(OH)3,附在Fe0表面,抑制了电子传递和Fe0的腐蚀反应,从而不利于Ni2+和Zn2+的去除[32-33]。相比于Zn2+和Ni2+,Cr(Ⅵ)在很短的时间内就被快速去除(图6(c))。这说明Fe0/Fe3O4可以快速去除Cr(Ⅵ)。对于相对低浓度的Cr(Ⅵ)与Zn2+和Ni2+共存时,Fe0/Fe3O4可以同时快速地去除3种重金属,但当Cr(Ⅵ)浓度过高时,只能有效地去除Cr(Ⅵ),而对Zn2+和Ni2+的去除效果并不理想。

    图 6  不同Cr(VI)浓度对复合重金属去除的影响
    Figure 6.  Effects of Cr(VI) concentration on the removal of multiple heavy metals.

    4)不同Fe2+预处理及其与Cr(Ⅵ)共存时对重金属去除的影响。根据以上结果,在预处理中,过高浓度的Fe2+不利于后续对Zn2+和Ni2+的去除。而低浓度的Cr(Ⅵ)会显著促进对Zn2+和Ni2+的去除。因此,单独考察了在预处理过程中加入不同初始浓度的Fe2+以及同时加入Fe2+和Cr(Ⅵ)对Fe0/Fe3O4去除Zn2+和Ni2+的影响。如图7所示,不加Cr(Ⅵ)时,预处理Fe2+浓度升高,不利于后续Zn2+和Ni2+的去除。这与前面的结果一致。在相同条件下,加入10 mg·L−1Cr(Ⅵ)后, Zn2+的去除率由74%提高到94%。Fe2+增加不利于Ni2+的去除,但在加入Cr(Ⅵ)后,Ni2+的去除率由26%提高到65%。加入Cr(Ⅵ)会消耗部分Fe2+,这也是其促进作用的原因之一。此外,有研究[34]表明,Fe(Ⅲ)与Cr(Ⅵ)还原产生的Cr(Ⅲ)形成CrxFe1-x(OH)3,该产物具有很好的混凝沉淀效果,能够吸附去除重金属离子。但是,产生的CrxFe1-x(OH)3覆盖在铁表面,由于其导电性差,不利于后续铁腐蚀反应的进行,因而对Ni2+和Zn2+的去除产生不利的影响。因此,Cr(Ⅵ)对Ni2+和Zn2+去除会受到Cr(Ⅵ)浓度变化的影响。

    图 7  不同起始Fe2+浓度和Cr(VI)对复合体系去除复合重金属的影响
    Figure 7.  Effects of different initial Fe2+ and Cr(VI) on multiple heavy metals removal in hybrid systems

    对所获得的实验结果分别用准一级动力学和准二级动力学模型进行了拟合。由图8可看出,不论哪种粒径的铁粉,对于Zn2+的去除,反应前10 min均非常迅速,很快就达到平衡。如图9所示,Ni2+的去除速率在反应初期慢很多,平衡吸附量也比Zn2+低。这说明Fe0对Zn2+的吸附性能要明显优于Ni2+。由表2可见,准二级动力学模型的可决系数R2要稍微优于准一级动力学模型,说明Fe0/Fe3O4对Zn2+和Ni2+的吸附更符合准二级动力学模型。这也表明在整个吸附过程中,化学吸附占主导地位。这与Fe0去除Zn2+和Ni2+的结论一致[35- 36]

    图 8  不同粒径的铁粉吸附Zn2+的动力学模型
    Figure 8.  Kinetic model of Zn2+ adsorption by different iron particles
    图 9  不同粒径的铁粉吸附Ni2+的动力学模型
    Figure 9.  Kinetic model of Ni2+ adsorption by different iron particles
    表 2  吸附动力学拟合参数
    Table 2.  Adsorption kinetics fitting parameters
    重金属铁粉粒径/目准一级动力学准二级动力学
    qe/(mg·g−1)K1/(min−1)R2qe/(mg·g−1)K2/(mg·(g·min)−1)R2
    Zn1000.7840.0310.9510.8170.0670.989
    4000.7590.0610.9440.7940.0980.986
    Ni1000.5700.0020.9590.6730.0040.978
    4000.6940.0020.9620.8070.0040.975
     | Show Table
    DownLoad: CSV

    1)不同铁粉浓度对复合重金属去除的影响。从前面的批处理实验结果可知,Fe0/Fe3O4是一个高活性的系统,可以持续有效地去除Zn2+、Ni2+。由图10可见,以K2Cr2O7作为预处理剂,当铁粉质量浓度从50 g·L−1提升到70 g·L−1时,Zn2+和Ni2+的去除率随之升高。当铁粉质量浓度70 g·L−1时,在22 d的运行时间内,Zn2+的去除率基本维持在90%左右,而Ni2+的去除率虽然波动较大,仍可维持在68%左右。但当铁粉质量浓度降到50 g·L−1时,在前7 d,Zn2+的去除率在80%~90%,然后逐渐降低,15 d以后,维持在62%;在第6~9天,Ni2+的去除率保持在70%左右,随后快速降低到30%左右,并一直保持到第22天。增加铁粉用量,单位体积内有更多的铁表面活性点位吸附Ni2+和Zn2+,其去除效果更好。这也与前面的批处理实验结果一致。对于50 g·L−1的铁粉用量,在起始阶段,其去除率就比70 g·L−1的铁粉用量下低,虽然随后差距缩小,但十几天以后,去除率远低于70 g·L−1。这可能是由于:在初始阶段,铁粉腐蚀产物的不断增加,减小了低浓度铁粉带来的影响;但是随着铁粉的不断消耗,产生的腐蚀产物越来越少,其处理效率也很快降低,但由于Zn2+和Ni2+的浓度不高(10 mg·L−1),因而依然可以保持相对稳定的去除效果。这说明50 g·L−1的铁粉用量过少,难以维持持续、有效的处理效果,最好要保持70 g·L−1或更高的铁粉质量浓度。对于Cr(Ⅵ)的处理效果,与前面批处理的结果一致,很快就被去除完全,因此,这里没有给出其结果。

    图 10  不同铁粉浓度对流化床反应器去除复合重金属去除的影响。
    Figure 10.  Effects of different dosage of iron powder on multiple heavy metals removal in fluidized bed reactor.

    2)不同氧化剂对复合重金属去除的影响。在预处理阶段,加入氧化剂才能生成复合体系。因此,比较了不同氧化剂(氧气、硝酸盐和重铬酸钾)对复合体系活性的影响,结果如图11所示。以氧气(空气)预处理制备的复合体系对Zn2+和Ni2+的去除率最高。连续运行22 d,Zn2+的去除效果一直可以保持在90%以上,而Ni2+的去除率在前18 d可稳定在在80%左右,随后去除率逐渐降低,到第22天的时候,只有50%。以重铬酸钾预处理时,在第一周内,Zn2+和Ni2+的去除效果持续升高,最高分别达到91%和72%,但随后又不断下降,尤其是Ni2+,在第10天的时候,去除率快速下降到~30%。以硝酸钾作为预处理剂,Ni2+和Zn2+的处理效果最差。在前10 d,对Zn2+的去除效果保持在90%左右,随后去除效果快速降低,而且不稳定。而对于Ni2+的去除,从一开始就持续下降,12 d以后,几乎没有去除。从3种体系中的pH来看,并没有明显差别(图11(c))。在3种氧化剂预处理体系中,Fe2+的浓度差别较大(图11(d))。在氧气体系中,Ni2+和Zn2+的去除效果最好,所以Fe2+的浓度一直最高;而另外2个反应器中的Fe2+最低,尤其是硝酸钾预处理的反应器,出水中的Fe2+仅有5 mg·L−1左右。与批处理实验的结果相似,出水中都没有检测到溶解态的Cr(Ⅵ)。这说明复合体系对Cr(Ⅵ)的处理效果有保障。总体而言,以氧气作为预处理剂的效果最好,其次是用重铬酸钾和硝酸钾的预处理。

    图 11  不同氧化剂预处理对流化床反应器去除复合重金属的影响。
    Figure 11.  Effects of different oxidants pretreatment on multiple heavy metals removal in fluidized bed reactor.

    3)4个反应器去除复合重金属的效果比较。图12展示了4个流化床反应器对Zn2+和Ni2+的处理效果。各流化床反应器的操作条件见表1。其中,由于4个反应器的出水中都未检测到溶解态的Cr(Ⅵ),故未提供其数据。由图12可看出,反应器C对Zn2+和Ni2+的处理效果最好,Zn2+的去除率都维持在90%以上;Ni2+在前17 d的去除率一直保持在80%左右,随后不断下降,到第22天,去除率降到50%。其次是反应器B,对Zn2+的去除效果基本保持在90%左右,尽管Ni2+的去除率在开始阶段波动很大,但运行7 d后也可稳定在68%左右。C反应器出水中的Fe2+浓度最高,这说明在Zn2+和Ni2+去除的同时释放出Fe2+,与前文的实验结果一致。尽管C反应器(50 g·L−1)的铁粉质量浓度比B反应器(70 g·L−1)低,但C反应器的处理效果最好,这说明以氧气作为预处理剂制备的复合体系活性最强。A反应器在前9 d对Ni2+和Zn2+的去除率较高,但随后快速下降,Fe2+浓度的变化趋势类似。D反应器的处理效果最差,不管是Zn2+还是Ni2+,去除率很快下降。综上所述,复合体系对Zn2+的去除效果要远远好于Ni2+,这与批处理实验的结果一致。4个反应器的Fe2+出水浓度与Ni2+和Zn2+的变化趋势一致。出水中的Fe2+浓度越高,Ni2+和Zn2+的去除效果也越好。这说明Ni2+和Zn2+的去除过程中,会直接或间接影响产生Fe2+

    图 12  4个流化床反应器去除复合重金属的情况
    Figure 12.  Removal of multiple heavy metals in the four fluidized bed reactors.

    4)重金属去除机理分析。批处理和流化床实验的结果均说明Fe0/Fe3O4具有很强的活性,可以持续地去除Cr(Ⅵ)、Zn2+和Ni2+。对三者的处理速率为Cr(Ⅵ)>Zn2+>Ni2+。在很短的时间内Cr(Ⅵ)就可以被快速去除。根据3种重金属和Fe0的标准电位,可以从理论上判断不同重金属的去除机理。根据Zn和Ni的标准电位,Fe0不可能还原Zn2+,只能通过铁腐蚀产物的吸附和共沉淀去除。Ni2+的标准电位稍微高于Fe0,其氧化还原反应的驱动力很小,还原反应的速率很慢,也可能不会发生氧化还原反应。Cr(Ⅵ)的标准电位为1.33V,远高于Fe0,因此,很容易被Fe2+和Fe0还原。为确定Cr(Ⅵ)和Ni2+的去除机理,通过XPS对反应前后Cr和Ni的价态进行了分析,结果如图13所示。反应前,Ni2+的2p3/2结合能在856.5 eV(图13(a)),反应后在852.6 eV处出现1个尖峰,归属于单质镍,856.5 eV处的峰变弱。这说明部分Ni2+被还原为Ni0,部分Ni(Ⅱ)可能是被吸附或共沉淀。在纳米Fe0去除Ni2+的过程中,也存在部分还原和部分吸附的现象[37-38]。由图13(b)可见,反应后Cr(Ⅵ)的2p1/2峰(579.2 eV)消失,而在577.1 eV处出现1个几乎相同的峰,可归于Cr(Ⅲ),说明Cr(Ⅵ)全部被还原为Cr(Ⅲ)。已有的研究[39-40]也表明Fe0可以有效地还原Cr(Ⅵ)为Cr(Ⅲ)。

    图 13  Ni、Cr反应前后的XPS高分辨率谱图
    Figure 13.  High resolution of XPS spectra of Ni and Cr before and after reaction.

    1)经过预处理后,在Fe0表面生成一层晶型完好、晶相单一的Fe3O4。复合体系的活性远高于单独的Fe0,显著提高其对Zn2+、Ni2+和Cr(Ⅵ)的去除率。

    2)增加铁粉用量或减小铁粉粒径均可提高对Zn2+和Ni2+的去除效果。Fe2+浓度升高对Fe0/Fe3O4去除Zn2+的影响不大,但会明显抑制对Ni2+的去除。10 mg·L−1Cr(Ⅵ)会促进Fe0/Fe3O4对Zn2+和Ni2+的去除,但过多的Cr(Ⅵ)由于与Fe(Ⅲ)共沉淀覆盖在Fe0表面,不利于铁腐蚀反应的进行,从而大大降低其促进作用。无论是改变铁粉用量、铁粉粒径、Fe2+或Cr(Ⅵ)浓度,还是预处理氧化剂的不同,对Cr(Ⅵ)的处理效果最好,其次是Zn2+和Ni2+

    3)在流化床反应器中,Fe0/Fe3O4可有效去除Zn2+、Ni2+和Cr(Ⅵ),增加铁粉用量可提高Zn2+和Ni2+的去除效果。相比于重铬酸钾和硝酸钾,以空气作为预处理辅助剂,制备的复合体系活性最强,能持续、有效地去除Zn2+和Ni2+

    4)在Fe0/Fe3O4中,Ni2+的去除机理为部分还原为单质镍、部分吸附或共沉淀,而Cr(Ⅵ)全部被还原为Cr(Ⅲ)。

  • 图 1  机器学习进行化合物属性预测的流程

    Figure 1.  Process for compound property prediction based on machine learning

    图 2  同分子的不同分子表示的示例[34]

    Figure 2.  An example of different molecular representations of the same molecule[34]

    图 3  化合物转换成分子图的示例

    Figure 3.  An example of a compound turning into a molecular graph

    图 4  RDkit将化合物SMILES转换为分子图像的示例

    Figure 4.  An example of RDkit transforming SMILES into the molecular image

    表 1  常见的公开数据库

    Table 1.  Common public databases

    数据库Database简要介绍 Brief introduction参考文献References
    PubChem有机小分子生物活性数据库,包含3个子数据库PubChem BioAssay ,PubChem Compound,PubChem Substance. [18]
    Chemspider小分子信息整合数据库,包含了分子简介、实验测定和实时估算的理化性质、毒性、Smile字符串等信息. [19]
    GDB-13有机小分子数据库,含有多达13个C、N、O、S和Cl原子的小有机分子. [20]
    GDB-17有机小分子数据库,含有1664亿个分子,组成中多达17个C、N、O、S和卤素等原子. [21]
    FreeSolv提供实验和计算的水合自由能的数据库. [22]
    ZINC可以进行虚拟筛选的数据库,汇总了化合物的购买信息和来自其他数据库的注释化合物. [23-25]
    ChEMBL一个大型的生物活性数据库,数据主要来源于文献提取和PCBA数据库. [26]
    DrugBank综合性药物数据库,包含有关药物的机制、相互作用和靶标的全面分子信息. [27]
    ToxCast来自EPA开展的一个利用高通量筛选方法和计算毒理学方法预测化合物毒性并进行优先级排序的研究项目,拥有约1800种化学品的数据. [28]
    PDBbind提供生物分子复合物的结合亲和力数据. [29]
    BindingDB收集了生物活性数据注释的小分子. [30]
    数据库Database简要介绍 Brief introduction参考文献References
    PubChem有机小分子生物活性数据库,包含3个子数据库PubChem BioAssay ,PubChem Compound,PubChem Substance. [18]
    Chemspider小分子信息整合数据库,包含了分子简介、实验测定和实时估算的理化性质、毒性、Smile字符串等信息. [19]
    GDB-13有机小分子数据库,含有多达13个C、N、O、S和Cl原子的小有机分子. [20]
    GDB-17有机小分子数据库,含有1664亿个分子,组成中多达17个C、N、O、S和卤素等原子. [21]
    FreeSolv提供实验和计算的水合自由能的数据库. [22]
    ZINC可以进行虚拟筛选的数据库,汇总了化合物的购买信息和来自其他数据库的注释化合物. [23-25]
    ChEMBL一个大型的生物活性数据库,数据主要来源于文献提取和PCBA数据库. [26]
    DrugBank综合性药物数据库,包含有关药物的机制、相互作用和靶标的全面分子信息. [27]
    ToxCast来自EPA开展的一个利用高通量筛选方法和计算毒理学方法预测化合物毒性并进行优先级排序的研究项目,拥有约1800种化学品的数据. [28]
    PDBbind提供生物分子复合物的结合亲和力数据. [29]
    BindingDB收集了生物活性数据注释的小分子. [30]
    下载: 导出CSV
  • [1] MARTIN Y C, KOFRON J L, TRAPHAGEN L M. Do structurally similar molecules have similar biological activity? [J]. Journal of Medicinal Chemistry, 2002, 45(19): 4350-4358. doi: 10.1021/jm020155c
    [2] PANDEY S, QU J X, STEVANOVIĆ V, et al. Predicting energy and stability of known and hypothetical crystals using graph neural network [J]. Patterns, 2021, 2(11): 100361. doi: 10.1016/j.patter.2021.100361
    [3] WALTERS W P, BARZILAY R. Applications of deep learning in molecule generation and molecular property prediction [J]. Accounts of Chemical Research, 2021, 54(2): 263-270. doi: 10.1021/acs.accounts.0c00699
    [4] HANSCH C, MALONEY P P, FUJITA T, et al. Correlation of biological activity of phenoxyacetic acids with Hammett substituent constants and partition coefficients [J]. Nature, 1962, 194(4824): 178-180.
    [5] CHERKASOV A, MURATOV E N, FOURCHES D, et al. QSAR modeling: Where have you been? Where are you going to? [J]. Journal of Medicinal Chemistry, 2014, 57(12): 4977-5010. doi: 10.1021/jm4004285
    [6] ZHONG S F, HU J J, YU X, et al. Molecular image-convolutional neural network (CNN) assisted QSAR models for predicting contaminant reactivity toward OH radicals: Transfer learning, data augmentation and model interpretation [J]. Chemical Engineering Journal, 2021, 408: 127998. doi: 10.1016/j.cej.2020.127998
    [7] GILMER J, SCHOENHOLZ S S, RILEY P F, et al. Neural message passing for Quantum chemistry[C]//Proceedings of the 34th International Conference on Machine Learning - Volume 70. August 6-11, 2017, Sydney, NSW, Australia. New York: ACM, 2017: 1263–1272.
    [8] YANG K, SWANSON K, JIN W G, et al. Analyzing learned molecular representations for property prediction [J]. Journal of Chemical Information and Modeling, 2019, 59(8): 3370-3388. doi: 10.1021/acs.jcim.9b00237
    [9] WEINREICH J, BROWNING N J, von LILIENFELD O A. Machine learning of free energies in chemical compound space using ensemble representations: Reaching experimental uncertainty for solvation [J]. The Journal of Chemical Physics, 2021, 154(13): 134113. doi: 10.1063/5.0041548
    [10] ZHANG D D, XIA S, ZHANG Y K. Accurate prediction of aqueous free solvation energies using 3D atomic feature-based graph neural network with transfer learning [J]. Journal of Chemical Information and Modeling, 2022, 62(8): 1840-1848. doi: 10.1021/acs.jcim.2c00260
    [11] RAZA A, BARDHAN S, XU L H, et al. A machine learning approach for predicting defluorination of per- and polyfluoroalkyl substances (PFAS) for their efficient treatment and removal [J]. Environmental Science & Technology Letters, 2019, 6(10): 624-629.
    [12] WALLACH I, DZAMBA M, HEIFETS A. AtomNet: A deep convolutional neural network for bioactivity prediction in structure-based drug discovery [J]. Mathematische Zeitschrift, 2015, 47(1): 34-46.
    [13] CHENG W X, NG C A. Using machine learning to classify bioactivity for 3486 per- and polyfluoroalkyl substances (PFASs) from the OECD list [J]. Environmental Science & Technology, 2019, 53(23): 13970-13980.
    [14] BERTONI M, DURAN-FRIGOLA M, BADIA-I-MOMPEL P, et al. Bioactivity descriptors for uncharacterized chemical compounds [J]. Nature Communications, 2021, 12(1): 3932. doi: 10.1038/s41467-021-24150-4
    [15] MUKHERJEE A, SU A, RAJAN K. Deep learning model for identifying critical structural motifs in potential endocrine disruptors [J]. Journal of Chemical Information and Modeling, 2021, 61(5): 2187-2197. doi: 10.1021/acs.jcim.0c01409
    [16] SUN X F, ZHANG X M, MUIR D C G, et al. Identification of potential PBT/POP-like chemicals by a deep learning approach based on 2D structural features [J]. Environmental Science & Technology, 2020, 54(13): 8221-8231.
    [17] WANG H B, WANG Z Y, CHEN J W, et al. Graph attention network model with defined applicability domains for screening PBT chemicals [J]. Environmental Science & Technology, 2022, 56(10): 6774-6785.
    [18] KIM S, CHEN J, CHENG T J, et al. PubChem in 2021: New data content and improved web interfaces [J]. Nucleic Acids Research, 2021, 49(D1): D1388-D1395. doi: 10.1093/nar/gkaa971
    [19] PENCE H E, WILLIAMS A. ChemSpider: An online chemical information resource [J]. Journal of Chemical Education, 2010, 87(11): 1123-1124. doi: 10.1021/ed100697w
    [20] BLUM L C, REYMOND J L. 970 million druglike small molecules for virtual screening in the chemical universe database GDB-13 [J]. Journal of the American Chemical Society, 2009, 131(25): 8732-8733. doi: 10.1021/ja902302h
    [21] RUDDIGKEIT L, van DEURSEN R, BLUM L C, et al. Enumeration of 166 billion organic small molecules in the chemical universe database GDB-17 [J]. Journal of Chemical Information and Modeling, 2012, 52(11): 2864-2875. doi: 10.1021/ci300415d
    [22] MOBLEY D L, GUTHRIE J P. FreeSolv: A database of experimental and calculated hydration free energies, with input files [J]. Journal of Computer-Aided Molecular Design, 2014, 28(7): 711-720. doi: 10.1007/s10822-014-9747-x
    [23] IRWIN J J, STERLING T, MYSINGER M M, et al. ZINC: A free tool to discover chemistry for biology [J]. Journal of Chemical Information and Modeling, 2012, 52(7): 1757-1768. doi: 10.1021/ci3001277
    [24] IRWIN J J, TANG K G, YOUNG J, et al. ZINC20-a free ultralarge-scale chemical database for ligand discovery [J]. Journal of Chemical Information and Modeling, 2020, 60(12): 6065-6073. doi: 10.1021/acs.jcim.0c00675
    [25] IRWIN J J, SHOICHET B K. ZINC: A free database of commercially available compounds for virtual screening [J]. Journal of Chemical Information and Modeling, 2005, 45(1): 177-182. doi: 10.1021/ci049714+
    [26] BENTO A P, GAULTON A, HERSEY A, et al. The ChEMBL bioactivity database: An update [J]. Nucleic Acids Research, 2014, 42(D1): D1083-D1090. doi: 10.1093/nar/gkt1031
    [27] WISHART D S, FEUNANG Y D, GUO A C, et al. DrugBank 5.0: A major update to the DrugBank database for 2018 [J]. Nucleic Acids Research, 2018, 46(D1): D1074-D1082. doi: 10.1093/nar/gkx1037
    [28] DIX D J, HOUCK K A, MARTIN M T, et al. The ToxCast program for prioritizing toxicity testing of environmental chemicals [J]. Toxicological Sciences, 2007, 95(1): 5-12. doi: 10.1093/toxsci/kfl103
    [29] LIU Z H, LI Y, HAN L, et al. PDB-wide collection of binding data: Current status of the PDBbind database [J]. Bioinformatics, 2015, 31(3): 405-412. doi: 10.1093/bioinformatics/btu626
    [30] GILSON M K, LIU T Q, BAITALUK M, et al. BindingDB in 2015: A public database for medicinal chemistry, computational chemistry and systems pharmacology [J]. Nucleic Acids Research, 2016, 44(D1): D1045-D1053. doi: 10.1093/nar/gkv1072
    [31] SHEN W X, ZENG X, ZHU F, et al. Out-of-the-box deep learning prediction of pharmaceutical properties by broadly learned knowledge-based molecular representations [J]. Nature Machine Intelligence, 2021, 3(4): 334-343. doi: 10.1038/s42256-021-00301-6
    [32] WANG L G, ZHAO L, LIU X, et al. SepPCNET: Deeping learning on a 3D surface electrostatic potential point cloud for enhanced toxicity classification and its application to suspected environmental estrogens [J]. Environmental Science & Technology, 2021, 55(14): 9958-9967.
    [33] TODESCHINI R, CONSONNI V. Molecular Descriptors for Chemoinformatics[M]. Wiley-VCH, 2009.
    [34] GRISONI F, CONSONNI V, TODESCHINI R. Impact of molecular descriptors on computational models [J]. Methods in Molecular Biology (Clifton, N. J. ), 2018, 1825: 171-209.
    [35] 吴萍, 孔德信. 分子相似性与MOLPRINT 2D的本地化 [J]. 计算机与应用化学, 2008, 25(4): 505-508. doi: 10.3969/j.issn.1001-4160.2008.04.027

    WU P, KONG D X. Molecular similarity and localization of MOLPRINT 2D [J]. Computers and Applied Chemistry, 2008, 25(4): 505-508(in Chinese). doi: 10.3969/j.issn.1001-4160.2008.04.027

    [36] KHAN A U. Descriptors and their selection methods in QSAR analysis: Paradigm for drug design [J]. Drug Discovery Today, 2016, 21(8): 1291-1302. doi: 10.1016/j.drudis.2016.06.013
    [37] CERETO-MASSAGUÉ A, OJEDA M J, VALLS C, et al. Molecular fingerprint similarity search in virtual screening [J]. Methods, 2015, 71: 58-63. doi: 10.1016/j.ymeth.2014.08.005
    [38] DURANT J L, LELAND B A, HENRY D R, et al. Reoptimization of MDL keys for use in drug discovery [J]. Journal of Chemical Information and Computer Sciences, 2002, 42(6): 1273-1280. doi: 10.1021/ci010132r
    [39] ROGERS D, HAHN M. Extended-connectivity fingerprints [J]. Journal of Chemical Information and Modeling, 2010, 50(5): 742-754. doi: 10.1021/ci100050t
    [40] BENDER A, MUSSA H Y, GLEN R C, et al. Similarity searching of chemical databases using atom environment descriptors (MOLPRINT 2D): Evaluation of performance [J]. Journal of Chemical Information and Computer Sciences, 2004, 44(5): 1708-1718. doi: 10.1021/ci0498719
    [41] MAURI A. alvaDesc: A Tool to Calculate and Analyze Molecular Descriptors and Fingerprints[M]// Ecotoxicological QSARs. New York: Humana, 2020: 801-820.
    [42] O'BOYLE N M, BANCK M, JAMES C A, et al. Open Babel: An open chemical toolbox [J]. Journal of Cheminformatics, 2011, 3: 33. doi: 10.1186/1758-2946-3-33
    [43] STEINBECK C, HAN Y Q, KUHN S, et al. The Chemistry Development Kit (CDK): An open-source Java library for Chemo- and Bioinformatics [J]. Journal of Chemical Information and Computer Sciences, 2003, 43(2): 493-500. doi: 10.1021/ci025584y
    [44] XIONG Z P, WANG D Y, LIU X H, et al. Pushing the boundaries of molecular representation for drug discovery with the graph attention mechanism [J]. Journal of Medicinal Chemistry, 2020, 63(16): 8749-8760. doi: 10.1021/acs.jmedchem.9b00959
    [45] WEININGER D. SMILES, a chemical language and information system. 1. introduction to methodology and encoding rules [J]. Journal of Chemical Information & Computer Sciences, 1988, 28(1): 31-36.
    [46] SANCHES-NETO F O, DIAS-SILVA J R, KENG QUEIROZ L H Jr, et al. “pySiRC”: Machine learning combined with molecular fingerprints to predict the reaction rate constant of the radical-based oxidation processes of aqueous organic contaminants [J]. Environmental Science & Technology, 2021, 55(18): 12437-12448.
    [47] ZHONG S F, ZHANG K, WANG D, et al. Shedding light on “Black Box” machine learning models for predicting the reactivity of HO radicals toward organic compounds [J]. Chemical Engineering Journal, 2021, 405: 126627. doi: 10.1016/j.cej.2020.126627
    [48] ZHONG S F, HU J J, FAN X D, et al. A deep neural network combined with molecular fingerprints (DNN-MF) to develop predictive models for hydroxyl radical rate constants of water contaminants [J]. Journal of Hazardous Materials, 2020, 383: 121141. doi: 10.1016/j.jhazmat.2019.121141
    [49] HELLER S R, McNAUGHT A, PLETNEV I, et al. InChI, the IUPAC international chemical identifier [J]. Journal of Cheminformatics, 2015, 7: 23. doi: 10.1186/s13321-015-0068-4
    [50] GOH G B, SIEGEL C, VISHNU A, et al. Chemception: A deep neural network with minimal chemistry knowledge matches the performance of expert-developed QSAR/QSPR models[J]. ArXiv, 2017, abs/1706.06689
    [51] GOH G B, SIEGEL C, VISHNU A, et al. ChemNet: A transferable and generalizable deep neural network for small-molecule property prediction[J]. ArXiv, 2017, abs/1712.02734
    [52] KORKMAZ S. Deep learning-based imbalanced data classification for drug discovery [J]. Journal of Chemical Information and Modeling, 2020, 60(9): 4180-4190. doi: 10.1021/acs.jcim.9b01162
    [53] WU Z Q, RAMSUNDAR B, FEINBERG E N, et al. MoleculeNet: A benchmark for molecular machine learning [J]. Chemical Science, 2017, 9(2): 513-530.
    [54] 徐玲玲, 迟冬祥. 面向不平衡数据集的机器学习分类策略 [J]. 计算机工程与应用, 2020, 56(24): 12-27. doi: 10.3778/j.issn.1002-8331.2007-0120

    XU L L, CHI D X. Machine learning classification strategy for imbalanced data sets [J]. Computer Engineering and Applications, 2020, 56(24): 12-27(in Chinese). doi: 10.3778/j.issn.1002-8331.2007-0120

    [55] NOBLE W S. What is a support vector machine? [J]. Nature Biotechnology, 2006, 24(12): 1565-1567. doi: 10.1038/nbt1206-1565
    [56] QUINLAN J R. Induction of decision trees [J]. Machine Learning, 1986, 1(1): 81-106.
    [57] BREIMAN L. Random forests [J]. Machine Learning, 2001, 45(1): 5-32. doi: 10.1023/A:1010933404324
    [58] SUTTON R S, BARTO A G. Reinforcement learning: An introduction [J]. IEEE Transactions on Neural Networks, 1998, 9(5): 1054.
    [59] MITCHELL J B O. Machine learning methods in chemoinformatics [J]. Wiley Interdisciplinary Reviews. Computational Molecular Science, 2014, 4(5): 468-481. doi: 10.1002/wcms.1183
    [60] GRAMATICA P. Principles of QSAR models validation: Internal and external [J]. QSAR & Combinatorial Science, 2007, 26(5): 694-701.
    [61] KAR S, ROY K, LESZCZYNSKI J. Applicability Domain: A Step Toward Confident Predictions and Decidability for QSAR Modeling[M]// Computational Toxicology, Part of the Methods in Molecular Biology book series. New York: Humana Press, 2018: 141-169.
    [62] 王中钰, 陈景文, 傅志强, 等. QSAR模型应用域的表征方法 [J]. 科学通报, 2022, 67(3): 255-266. doi: 10.1360/TB-2021-0406

    WANG Z Y, CHEN J W, FU Z Q, et al. Characterization of applicability domains for QSAR models [J]. Chinese Science Bulletin, 2022, 67(3): 255-266(in Chinese). doi: 10.1360/TB-2021-0406

    [63] WANG Z Y, CHEN J W, HONG H X. Developing QSAR models with defined applicability domains on PPARγ binding affinity using large data sets and machine learning algorithms [J]. Environmental Science & Technology, 2021, 55(10): 6857-6866.
    [64] BERENGER F, YAMANISHI Y. A distance-based Boolean applicability domain for classification of high throughput screening data [J]. Journal of Chemical Information and Modeling, 2019, 59(1): 463-476. doi: 10.1021/acs.jcim.8b00499
    [65] 郑玉婷, 乔显亮, 于洋, 等. 有机化学品生物富集因子定量结构-活性关系模型 [J]. 生态毒理学报, 2019, 14(2): 214-221. doi: 10.7524/AJE.1673-5897.20180718002

    ZHENG Y T, QIAO X L, YU Y, et al. Quantitative structure-activity relationship model for bioconcentration factors of organic chemicals [J]. Asian Journal of Ecotoxicology, 2019, 14(2): 214-221(in Chinese). doi: 10.7524/AJE.1673-5897.20180718002

    [66] 杨真真, 匡楠, 范露, 等. 基于卷积神经网络的图像分类算法综述 [J]. 信号处理, 2018, 34(12): 1474-1489. doi: 10.16798/j.issn.1003-0530.2018.12.009

    YANG Z Z, KUANG N, FAN L, et al. Review of image classification algorithms based on convolutional neural networks [J]. Journal of Signal Processing, 2018, 34(12): 1474-1489(in Chinese). doi: 10.16798/j.issn.1003-0530.2018.12.009

    [67] RIBEIRO M T, SINGH S, GUESTRIN C. “why should I trust You?”: Explaining the predictions of any classifier[C]//Proceedings of the 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. August 13-17, 2016, San Francisco, California, USA. New York: ACM, 2016: 1135-1144.
    [68] BARREDO ARRIETA A, DÍAZ-RODRÍGUEZ N, del SER J, et al. Explainable Artificial Intelligence (XAI): Concepts, taxonomies, opportunities and challenges toward responsible AI [J]. Information Fusion, 2020, 58: 82-115. doi: 10.1016/j.inffus.2019.12.012
    [69] PETCH J, DI S, NELSON W. Opening the black box: The promise and limitations of explainable machine learning in cardiology [J]. Canadian Journal of Cardiology, 2022, 38(2): 204-213. doi: 10.1016/j.cjca.2021.09.004
    [70] ANDREWS R, DIEDERICH J, TICKLE A B. Survey and critique of techniques for extracting rules from trained artificial neural networks [J]. Knowledge-Based Systems, 1995, 8(6): 373-389. doi: 10.1016/0950-7051(96)81920-4
    [71] LIU X, WANG X G, MATWIN S. Improving the interpretability of deep neural networks with knowledge distillation[C]//2018 IEEE International Conference on Data Mining Workshops (ICDMW). November 17-20, 2018, Singapore. IEEE, 2019: 905-912.
    [72] MASHAYEKHI M, GRAS R. Rule extraction from decision trees ensembles: New algorithms based on heuristic search and sparse group lasso methods [J]. International Journal of Information Technology & Decision Making, 2017, 16(6): 1707-1727.
    [73] GOLDSTEIN A, KAPELNER A, BLEICH J, et al. Peeking inside the black box: Visualizing statistical learning with plots of individual conditional expectation [J]. Journal of Computational and Graphical Statistics, 2015, 24(1): 44-65. doi: 10.1080/10618600.2014.907095
    [74] RIBEIRO M T, SINGH S, GUESTRIN C. Anchors: High-precision model-agnostic explanations[C]//Proceedings of the AAAI Conference on Artificial Intelligence, 2018: 1527-1535.
    [75] BACH S, BINDER A, MONTAVON G, et al. On pixel-wise explanations for non-linear classifier decisions by layer-wise relevance propagation [J]. PLoS One, 2015, 10(7): e0130140. doi: 10.1371/journal.pone.0130140
    [76] SELVARAJU R R, COGSWELL M, DAS A, et al. Grad-CAM: Visual explanations from deep networks via gradient-based localization[C]// 2017 IEEE International Conference On Computer Vision (ICCV). 2017: 618-626.
    [77] LUNDBERG S M, LEE S I. A unified approach to interpreting model predictions[C]//Proceedings of the 31st International Conference on Neural Information Processing Systems. December 4-9, 2017, Long Beach, California, USA. New York: ACM, 2017: 4768-4777.
    [78] HASEBE T. Knowledge-embedded message-passing neural networks: Improving molecular property prediction with human knowledge [J]. ACS Omega, 2021, 6(42): 27955-27967. doi: 10.1021/acsomega.1c03839
    [79] MATOS G D R, KYU D Y, LOEFFLER H H, et al. Approaches for calculating solvation free energies and enthalpies demonstrated with an update of the FreeSolv database [J]. Journal of Chemical and Engineering Data, 2017, 62(5): 1559-1569. doi: 10.1021/acs.jced.7b00104
    [80] VERMEIRE F H, GREEN W H. Transfer learning for solvation free energies: From quantum chemistry to experiments [J]. Chemical Engineering Journal, 2021, 418: 129307. doi: 10.1016/j.cej.2021.129307
    [81] SU A, RAJAN K. A database framework for rapid screening of structure-function relationships in PFAS chemistry [J]. Scientific Data, 2021, 8(1): 1-10. doi: 10.1038/s41597-020-00786-7
    [82] MA J S, SHERIDAN R P, LIAW A, et al. Deep neural nets as a method for quantitative structure-activity relationships [J]. Journal of Chemical Information and Modeling, 2015, 55(2): 263-274. doi: 10.1021/ci500747n
    [83] MAYR A, KLAMBAUER G, UNTERTHINER T, et al. DeepTox: Toxicity prediction using deep learning [J]. Frontiers in Environmental Science, 2016, 3: 80.
    [84] PU L M, NADERI M, LIU T R, et al. eToxPred: A machine learning-based approach to estimate the toxicity of drug candidates [J]. BMC Pharmacology and Toxicology, 2019, 20(1): 2. doi: 10.1186/s40360-018-0282-6
    [85] ALVES V, MURATOV E, CAPUZZI S, et al. Alarms about structural alerts [J]. Green Chemistry, 2016, 18(16): 4348-4360. doi: 10.1039/C6GC01492E
    [86] WU X D, KUMAR V, QUINLAN J R, et al. Top 10 algorithms in data mining [J]. Knowledge and Information Systems, 2008, 14(1): 1-37. doi: 10.1007/s10115-007-0114-2
    [87] JIMÉNEZ-LUNA J, GRISONI F, SCHNEIDER G. Drug discovery with explainable artificial intelligence [J]. Nature Machine Intelligence, 2020, 2(10): 573-584. doi: 10.1038/s42256-020-00236-4
    [88] CHEN D, GAO K F, NGUYEN D D, et al. Algebraic graph-assisted bidirectional transformers for molecular property prediction [J]. Nature Communications, 2021, 12(1): 1-9. doi: 10.1038/s41467-020-20314-w
    [89] RODRÍGUEZ-PÉREZ R, BAJORATH J. Explainable machine learning for property predictions in compound optimization [J]. Journal of Medicinal Chemistry, 2021, 64(24): 17744-17752. doi: 10.1021/acs.jmedchem.1c01789
  • 加载中
    Created with Highcharts 5.0.7访问量Chart context menu近一年内文章摘要浏览量、全文浏览量、PDF下载量统计信息摘要浏览量全文浏览量PDF下载量2024-052024-062024-072024-082024-092024-102024-112024-122025-012025-022025-032025-040Highcharts.com
    Created with Highcharts 5.0.7Chart context menu访问类别分布DOWNLOAD: 11.3 %DOWNLOAD: 11.3 %HTML全文: 53.7 %HTML全文: 53.7 %摘要: 35.0 %摘要: 35.0 %DOWNLOADHTML全文摘要Highcharts.com
    Created with Highcharts 5.0.7Chart context menu访问地区分布其他: 84.7 %其他: 84.7 %Beijing: 2.3 %Beijing: 2.3 %Chang'an: 0.6 %Chang'an: 0.6 %Dalian: 0.6 %Dalian: 0.6 %Fremont: 0.6 %Fremont: 0.6 %Guangzhou: 0.6 %Guangzhou: 0.6 %Hangzhou: 0.6 %Hangzhou: 0.6 %Qinnan: 1.7 %Qinnan: 1.7 %Shenyang: 0.6 %Shenyang: 0.6 %Suzhou: 0.6 %Suzhou: 0.6 %Xintai: 0.6 %Xintai: 0.6 %XX: 5.6 %XX: 5.6 %内网IP: 0.6 %内网IP: 0.6 %泰州: 0.6 %泰州: 0.6 %其他BeijingChang'anDalianFremontGuangzhouHangzhouQinnanShenyangSuzhouXintaiXX内网IP泰州Highcharts.com
图( 4) 表( 1)
计量
  • 文章访问数:  5230
  • HTML全文浏览数:  5230
  • PDF下载数:  193
  • 施引文献:  0
出版历程
  • 收稿日期:  2023-02-03
  • 录用日期:  2023-04-06
  • 刊出日期:  2024-01-27
王紫维, 韩民, 金彪. 机器学习在化合物属性预测中的应用[J]. 环境化学, 2024, 43(1): 69-81. doi: 10.7524/j.issn.0254-6108.2023020306
引用本文: 王紫维, 韩民, 金彪. 机器学习在化合物属性预测中的应用[J]. 环境化学, 2024, 43(1): 69-81. doi: 10.7524/j.issn.0254-6108.2023020306
WANG Ziwei, HAN Min, JIN Biao. Applications of machine learning on compound property prediction[J]. Environmental Chemistry, 2024, 43(1): 69-81. doi: 10.7524/j.issn.0254-6108.2023020306
Citation: WANG Ziwei, HAN Min, JIN Biao. Applications of machine learning on compound property prediction[J]. Environmental Chemistry, 2024, 43(1): 69-81. doi: 10.7524/j.issn.0254-6108.2023020306

机器学习在化合物属性预测中的应用

    通讯作者: E-mail: jinbiao@gig.ac.cn; Tel: +86-20-83274209
  • 1. 中国科学院广州地球化学研究所,有机地球化学国家重点实验室,广州,510640
  • 2. 中国科学院深地科学卓越创新中心,广州,510640
  • 3. 中国科学院大学,北京,100049
基金项目:
国家重点研发计划重点专项(2019YFC1805500,2019YFC1805503)资助.

摘要: 化合物的属性预测是药物研发、毒理学研究、环境行为预测等工作的核心任务. 目前,人工合成的化学物质层出不穷,相关的实验研究数据在持续扩充,但实验研究数据远无法赶超新型化学物质的研发速度. 近年来,机器学习算法及模型在化合物属性预测方面展现了独特的优势和巨大的潜力,尤其在实验数据匮乏的情况下,提供了可靠的模型预测数据. 本文介绍了机器学习应用于化合物属性预测的主要流程步骤和相应的模块的内容,涵盖数据集、分子描述方法、模型性能评估指标和评估方法等. 同时,本文系统总结了机器学习方法在化合物物理化学性质预测、生物活性预测和毒性预测方面的应用实例,并从数据集、分子特征化、模型解释等方面分析并讨论了相关研究工作现存问题与未来挑战.

English Abstract

  • 化合物的属性预测在药物研发、材料设计、毒理学研究等领域发挥了重要的作用,与人类生活息息相关[1-2]. 化合物属性预测的相关研究可追溯到药物合成的早期研究,当时主要是化学家通过重复实验,进行测试和验证并获取各类化学信息,合成目标分子[3]. 由于重复实验耗时长、成本高,科学家基于构效关系(SAR)发展出了定量-构效关系,为化合物结构与其性质之间建立了数学关系框架. 1962年,Hansch等首次实践了定量-构效关系(QSAR),成为该领域具有里程碑意义的事件,也是化合物属性预测研究迈入新阶段的标志[4]. 随后,Hansch在1964年提出了Hansch方程,这个发现为QSAR模型运行提供了一种新方法. 但传统QSAR模型一般使用一些常见的分子描述符来预测化合物属性,然而化合物结构多样,少量的分子描述符很难全面地描述化合物的结构信息,这使得模型很难精准预测化合物性质. 同时,随着研究数据集增大、描述符增多,传统的方法难以拟合化学结构与性质之间的复杂关系. 因此,需要比传统统计工具更先进、更强大的计算和数据分析方法.

    机器学习(特别是深度学习),由于其强大的计算和数据分析能力,已被用于解决以上QSAR研究中的问题. 例如,研究人员通过机器学习或深度学习方法将三维甚至更高维分子结构与其属性联系起来,弥补了传统的化合物属性预测方法的不足之处,大力推动了化合物属性研究的发展[5-6].

    近年来,机器学习在化合物属性的预测研究上表现出不俗的潜力,因此这方面的研究也逐年增多. 比如在理化性质方面,在机器学习的帮助下,预测分子的原子化能、振动频率、溶剂化自由能、计算键离能等,成本更低,结果准确可靠,计算速度更快[7-11];在生物活性方面,建模方面逐步引入了神经网络算法、分子图等,所构建模型性能更优异,结果可靠[12-14];在毒性方面,根据机器学习建立的模型可以非常有效地识别有毒分子和预测特定毒性,可筛选确认之前未曾识别出的危险化学品[15-17]. 本文主要介绍机器学习在化合物属性预测方面的应用过程及相应的模块内容,并结合应用实例总结和展望机器学习在该应用方面现存的问题和机遇.

    • 在实际应用中,用机器学习预测化合物属性的整体过程如下所述,见图1.

      (1)构建数据集:数据集一般来源于公开的数据库、实验记录数据、研究收集的文献;

      (2)数据预处理;主要包括分子特征化和数据集划分;

      (3)模型构建:主要包括模型训练、算法选择、模型的应用域、模型评估这四方面内容;

      (4)模型解释:解释机器学习模型的预测机制.

    • 构建数据集是构建模型进行化合物属性预测之前的必要准备,模型的工作主要基于数据运行,数据集的质量影响了模型预测结果的可靠性以及准确性. 目前众多研究工作一般通过以下几种途径进行数据集的构建:(1)根据实验所得数据构建数据集;(2)从公开的数据库中下载研究所需要的数据,并整理成数据集;(3)提取他人发表在期刊、专利中的数据,整理成数据集;(4)前述3种方式的组合形式.

      实验室所记录的数据比较全面,是构建数据集的来源之一. 实验所得数据一般分为纸质记录数据和电子记录数据,其中,电子记录数据可用于数据集构建和数据挖掘,但由于实验数据为实验者所有,大多用于进行数据存档和知识产权维权,难以获得全面的数据来进行数据挖掘. 同时,他人发表在期刊、专利中的数据相对于实验所记录的数据大多数都经过文章作者精心筛选,没有展示相关实验失败的数据. 失败数据的缺乏可能会造成信息缺失,从而导致构建的模型不能进行准确地预测.

      构建数据集最常用的方法是从公开的数据库获取研究要用的数据. 经过多年的发展,目前也有许多可免费获取化学数据的公开数据库,部分较常见的公开数据库可见表1.

    • 分子特征化是把化合物的化学结构编码成机器学习算法能识别的模式. 不同的分子特征化方式提取的分子信息有所差异,直接影响模型的预测效果,因此是化合物属性预测的重要部分. 常见的分子特征化方法有分子描述符、分子图、分子线性表示、分子图像[31],以及三维分子表面点云[32].

      (1)分子描述符

      分子描述符与分子结构的关系密切,可以有效地表示相应的化学信息[33]. 分子描述符按照复杂程度,可分为零维、一维、二维、三维等(见图2[34]. 零维描述符是最简单的分子描述符,其信息含量低,可表示原子数、原子性质总和、分子量等;一维描述符表示一些官能团、分子片段、取代基等信息,如分子量、摩尔折射率、辛醇/水分配系数的对数等;二维描述符可描述从二维分子表示计算得到的性质;三维描述符信息含量很高,可描述原子的性质、连通性以及分子的空间构型,可用于确定化合物的活性构象等问题;四维描述符可以定量识别和描述分子与受体活性位点之间的相互作用[34].

      分子描述符按照定量和定性分类,可分为定量分子描述符和定性分子描述符. 定量分子描述符有分子场描述符、分子形状描述符、物理化学描述符、基于组成信息的描述符等[35]. 定性分子描述符一般指分子指纹,分子指纹又称二元指纹,采用二进制编码相关的化学信息,指纹所具有的化学信息内容一般为化学图中的原子、键类型和距离等,是化学结构的表示,常被用于分子相似性/多样性问题[34, 36].

      常见的分子指纹可主要分为基于子结构的指纹、基于拓扑或路径的指纹和圆形指纹、药效团指纹等[37]. 基于子结构的指纹主要有MACCS指纹[38]、PubChem指纹、BCI指纹、TGD和TGT指纹等. 基于拓扑或路径的指纹主要有Daylight指纹(Daylight fingerprint)和Tree指纹(Tree fingerprint). 圆形指纹主要有扩展连通性指纹(ECFP/Morgan Fingerprint)[39]、FCFP(Functional-Class Fingerprints)、Molprint2D[40].

      常用于计算分子指纹的软件或工具包有alvaDesc[41]、RDkit、Open Babel[42]、CDK[43]、ChemFP、OEChem TK、Molecular Operating Environment (MOE)、JChem from ChemAxon、Pipeline Pilot from Accelrys等.

      (2)分子图

      分子图是指化合物用图进行表示,是化合物的拓扑表示. 在分子图中,原子用节点表示,分子键用边表示,示例可见图3. 分子图降低了分子结构表示的复杂性,可以捕捉到分子中原子核与电子间的关键的相互作用. 此外,图神经网络(GNN)模型从分子图进行学习表示可以得到很好的处理效果,减少了相应的特征工程的工作,能进行更好的分子性质预测,如Attentive FP[44]、D-MPNN[8].

      (3)分子线性表示

      分子线性表示最常用的有两种:简化分子线性输入规范(Simplified molecular input line entry system, SMILES)和国际化合物标识符(International Chemical Identifier, InChI). SMILES是一种利用ASCII编码表示分子结构的线性符号,是化学家为了进行化学方面的机器计算而设计的化学符号语言,是根据相应的规则对化学结构简化的二维价键图[45]. SMILES既可以与化学数据库使用,又可以节省存储空间,为化学数据的输入提供了一种更简便的方式. 化合物的“SMILES”字符串可通过一些软件或程序获得,如ChemDraw、OpenBabel、CIRpy [46](https://github.com/mcs07/CIRpy)等,同时也可以通过网站获得化合物的“SMILES”字符串,如PubChem. “SMILES”字符串除了可以直接作为模型的输入,也可以通过一些软件或程序转换为其他分子特征化形式,再作为模型的输入[6, 46-48]. 通用的SMILES基于CANGEN算法衍生了规范的SMILES(Canonical SMILES),但其算法具有盈利性质,从而存在无法自由使用的问题. InChI[49]是一个非盈利的、免费的化学标识,在描述分子方面具有严格的唯一性,在层状设计时考虑了分子结构,容易获得和生成,可以由InChI软件或者利用通用的化学绘图软件生成. 因此,InChI也被许多化学数据库使用.

      (4)分子图像

      分子图像是将分子结构或坐标映射到图像上后,作为模型的输入数据用于模型训练,从而进行分子性质预测[50]. 比如,可以通过OpenBabel、Pybel和RDKit等化学信息软件将SMILES解码为对应的分子二维结构,再将其生成的坐标映射到网格上,形成分子图像,示例可见图4. 对于所生成的图像可再进行一个“灰色编码”或者更为复杂的“颜色编码”,表示出原子/键属性,再用于卷积神经网络(CNN)算法进行训练[50-51].

    • 整理好研究所需的数据集之后,应及时对数据进行划分,数据划分对于所建机器学习模型的泛化能力有一定影响. 一般,数据集按比例随机划分为3部分:训练集、测试集、验证集,其中,训练集一般用于模型的训练,测试集用于模型的性能评估,验证集用于超参数的优化[52-53]. 但是,研究过程中数据集划分的具体的分配比例应按照研究需要进行选择,比如,有研究按8:1:1的比例划分成训练集、验证集和测试集[47];也有研究先将数据集按4:1的比例随机分成两部分:训练集和测试集,随后在训练过程中随机抽取10%的训练集数据作为验证集数据[52].

      当机器学习应用于分类问题时,可能会碰到数据集中各类别样本数量分布不均衡的问题,即数据集中某一类别的样本数量远远高于另一类. 不平衡数据会影响模型的性能,因此,在数据集划分后需对训练集数据进行不平衡处理. 目前进行不平衡数据处理的方法主要有数据重构和分类模型改进.

      数据重构策略可分为特征选择和重采样技术[54]. 特征选择方法主要分成3类:过滤式、包裹式和嵌入式. 重采样技术是通过调整多数类和少数类的分布,削弱数据集不平衡的程度,主要包括欠采样、过采样、混合采样. 欠采样通过减少多数类中的样本数量,以平衡多数类和少数类;过采样通过增加少数类中的样本数量,以均衡数据集;混合采样通过将过采样和欠采样组合在一起,提高分类性能[52].

      分类模型改进策略主要从分类算法和分类思想对不平衡数据集进行优化和改进. 分类算法主要有K最近邻、支持向量机、决策树、朴素贝叶斯、神经网络算法;分类思想主要有代价敏感学习、集成学习、单类学习、主动学习[54].

    • 模型训练是指通过训练集数据进行拟合模型、学习模型参数的过程. 在这个过程,需要选择合适的算法进行训练. 算法是机器学习的核心内容,没有算法,机器学习模型将无法运行. 目前,机器学习的算法按照是否有人类监督训练,可分为监督式学习、无监督式学习、半监督式学习、强化学习这4个主要类型. 监督式学习可以处理有标记的训练数据,其算法主要有K-近邻算法、线性回归、逻辑回归、支持向量机(SVM)[55]、神经网络、决策树[56]和随机森林(RF)[57]. 无监督式学习使用的数据是没有标记的,其算法主要可分为聚类算法、可视化和降维算法、关联规则学习算法. 聚类算法主要有k-平均算法、分层聚类分析、最大期望算法等;可视化和降维算法主要有主成分分析(PCA)、核主成分分析(Kernel PCA)、局部线性嵌入(LLE)、t-分布随机近临嵌入(t-SNE);关联规则学习算法主要有Apriori、Eclat. 半监督式学习可以处理部分标记(大量未标记和少量标记)的数据,其主要为监督式学习算法与无监督式学习算法的结合. 强化学习[58]是学习到行动的一种映射,通过不断试错,寻找到能够最大化预期的路径,并对能最大化预期的行动进行奖励,主要涉及到的策略是试错搜索和延迟奖励,这两种策略是强化学习的最明显最重要的特征. 在化合物属性预测中,常用的是监督学习模式[59]、半监督式学习;常用的算法有随机森林[57]、支持向量机[55]、朴素贝叶斯、神经网络、梯度提升决策树(GBDT)、极限梯度提升算法(XGBoost)、线性回归、决策树[56]、逻辑回归等算法.

    • 在化学信息研究中,为了更高效地进行化合物属性的预测,通常将机器学习方法应用于定量构效关系中,其中涉及到的模型应用域(AD)一般指化学空间中由描述符和模型响应定义的一个理论域,其任务是定义一个模型可以被使用的边界,并提供可靠的预测[60-61]. 当要预测的分子在所定义的AD范围内时,使用该模型进行预测才可靠,否则该模型不适用.

      对于模型应用域的表征,已有学者在这个方面进行过总结,不同的学者考虑的角度不同,进行的归类方式和描述称呼各有不同. Kar等[61]根据不同假设将AD的定义方法分为6大类:描述符空间中基于范围的方法、基于距离的方法、几何方法、概率密度分布、响应变量的范围、其他方法,而王中钰等[62]根据AD的概念将其分为描述符域、结构域、机理域3个大类,再从这3大类中对AD的表征方法进行细分. 此外,也有一些学者提出或开发了新的应用域表征方法或应用域算法,如Wang等人[63] 基于指纹特异性相似性阈值,开发了新的AD表征方法—ADfingerprint,并证明其性能优于一些传统的AD表征方法; Berenger等[64]对于创建的应用域较为复杂并难以理解的现状,提出了基于距离的Boolean应用域算法(DBBAD). 虽然AD表征方法的描述各有异同,但最常用的几种表征方法一般为欧式距离、Tanimoto指数、杠杆方法、马氏距离、核密度估计(KDE)、基于范围的超矩形等方法. 连续数据的研究,一般选用欧式距离定义模型应用域[65];而针对二进制数据或者想要进行分子相似度的比较的研究,一般选用Tanimoto指数定义模型应用域[47-48].

    • 模型的性能评估是对所构建的模型的泛化能力进行评估,有助于判定模型的工作性能和开发适合研究数据的最佳模型,主要包括了性能度量、评估方法、过拟合或欠拟合、超参数调优、泛化能力这几个方面的内容. 模型泛化能力是指所构建的模型经过在训练集数据的训练之后,在新数据上的适应能力. 过拟合和欠拟合都是模型泛化能力不好的行为表示. 过拟合指模型过度学习训练集数据,使得模型过为复杂,不能在除训练集外的数据集上得到好表现;欠拟合指模型过为简单,学习能力差,无法学到数据的内在特点,无法判定其潜在的趋势[66].

      模型性能的评估方法常见的有留出法(hold-out)、交叉验证法(cross validation)、自助法(bootstrapping). 在模型评估的实际情况中,一般先用评估方法对模型进行数据集划分,再在测试集上用评估指标对模型性能进行评估. 比如,Korkmaz[52]在研究中先用留出法将数据集划分为80%的训练集和20%的测试集,之后用计算了几个性能指标对模型进行了性能评估.

      在化合物属性预测方面的应用,主要可将机器学习任务分为回归问题和分类问题两方面. 在性能度量涉及到的性能指标方面,回归问题和分类问题所用到的性能评价指标并不完全一致. 回归问题常用到的评价指标有均方根误差(root mean squared error, RMSE)、平均绝对误差(mean absolute error, MAE)、均方误差(mean square error, MSE)、均方根对数误差(root mean squared logarithmic error, RMSLE)、决定系数(coefficient of determination, R2)和预测平方相关系数(predictive squared correlation coefficient, Q2)等. 分类问题常用到的评价指标有准确率(accuracy, acc)、错误率(error)、精确率(precision rate, p)、召回率(recall rate, r)、F1分数(F1-score)、ROC曲线(receiver operating characteristic)、AUC(area under curve) 等. 分类问题的数据集并不一定平衡,在大多应用情况下都会出现数据分布不均导致数据不平衡的现象,这种情况下,首先要在训练集上进行数据不平衡处理,之后再用测试集对其进行评估. 针对不平衡数据集,准确率往往无法作为主要的判断指标,因此一般可采用前文所提到的精确率、召回率、F1分数以及均衡准确率(balanced accuracy)和G-mean[54]. 除了上述的指标外,还有一些其他的指标,如鲁棒性、PRC(精确-召回曲线)等. 在实际的应用情况中,指标的选择应根据数据的情况和研究需要来进行选择.

    • 模型解释是对模型的预测机制进行解析的过程,有利于研究者做出更好的决策,并建立起对模型的理解和信任[67-68]. 模型根据解释的难易程度,可以分为“白盒”模型和“黑盒”模型. “白盒”模型又可称为可解释性模型,创建其模型的算法透明度低,解释简单,更易被人们理解. 可解释性模型一般指由线性回归、逻辑回归、其他线性扩展、决策树等算法构建的模型. 建立“黑盒”模型后再进行解释这一行为也可称为事后可解释性,进行事后可解释的方法主要可以分为两大类:全局解释和局部解释,全局解释是对模型整体进行解释,而局部解释是对单个预测进行解释[69].

      全局解释的方法主要有部分依赖图(partial dependence plot, PDP) 、累积局部效应 (accumulated local effects plot, ALE) 、规则提取[70]、模型蒸馏[71]、稀疏集团套索(sparse group lasso, SGL)[72]、全局Shapley值等. 局部解释的方法主要有个体条件期望(individual conditional expectation, ICE)[73]、 敏感性分析、局部可解释的模型无关阐释(local interpretable model-agnostic explanations, LIME)[67]、Anchor[74]、基于局部规则的黑盒模型的分层相关性传播(LRP)[75]、类激活映射(class activation mapping, CAM)、梯度加权类激活映射(Grad-CAM)[76]、SHAP(shapley additive exPlanations)[77]等. 在化合物属性预测方面,比较常用的解释方法有PDP、 ALE、 ICE、 Grad-CAM、Shapley Value、SHAP等. 如Zhong等[6]利用Grad-CAM来解释构建的CNN模型通过选择分子图像的哪些特征来进行预测. Sanches-Neto等[46]在预测水中有机污染物自由基氧化过程的反应速率常数的研究中,利用SHAP方法解释了反应过程中相关的结构分子特征,将氧原子所做的贡献从氧原子与碳原子的比例(#O:C)的贡献区分出来.

    • 机器学习中的神经网络算法可被用于量子化学性质预测. 比如,2017年,由Gilmer等[7]提出来的应用于分子图的监督学习框架——消息传递神经网络(message passing neural networks, MPNNs),更易理解图的结构数据与模型之间的关系. 他们基于MPNNs进行建模,采用QM9数据集的数据,对分子的原子化能、振动频率、最高占据分子轨道(HOMO)、最低未占据分子轨道(LUMO)、偶极矩等性质进行了预测,结果表明利用机器学习进行分子性质预测的成本比密度泛函理论(DFT)计算低且计算速度更快,计算样本误差比DFT小,在大型图中应用良好. 之后,有学者在MPNNs的基础上进行改动,提出了知识嵌入消息传递神经网络(KEMPNN)[78]. KEMPNN在MPNN中的消息传递阶段添加了知识注意机制作为一项加权项,采用两个数据集共同训练MPNN,并在ESOL,FreeSolv, Lipophilicity以及聚合物性能数据集上进行了测评,与MPNN进行了对比. 结果表明,KEMPNN比MPNN的模型的预测精度更高,并且发现了KEMPNN在小数据集上的预测效果可与基于描述符的方法相当甚至更好.

      溶剂化自由能与许多物理化学性质密切相关,在药物发现方面有重要的影响,但溶剂化自由能的实验数据较少,且实验成本昂贵. 尽管已经有一些相应的溶剂模型可预测溶剂化自由能,使得费用成本有所降低,但其准确性较低. 相比之下,机器学习在溶剂化自由能预测方面更具优势,既不会产生昂贵的费用,又保证了较高的溶剂化自由能预测准确率[10, 79]. 如,Yang等[8]在MPNN的基础上构建了一个基于定向键的消息传递方式,并结合分子水平特征和分子式构建了新的模型D-MPNN,在FreeSolv数据集上表现出比其他基准模型更好的性能;Weinreich等[9]提出了一个以核岭回归(KRR)算法作为监督机器方法的自由能机器学习模型(FML),并在FreeSolv数据集和QM9数据集上进行了溶剂化自由能预测,模型误差与最好的物理预测方法相当,但计算成本更低,并且可在较小数据集上达到溶剂化的实验不确定度. 需要指出的是,机器学习在溶剂化自由能预测方面存在数据稀缺的问题,深度学习的模型在小数据集上容易过拟合,性能差. 鉴于此, Vermeire等[80]基于D-MPNN构建了一个模型,通过引入一种结合量子化学和实验数据的迁移学习方法使模型在溶剂化自由能预测方面的性能得到了显著提升;Zhang等[10]提出一个基于GNN 和3D原子特征的深度学习(DL)模型构架,GNN以主领域聚合PNAConv作为编码器,并将其与迁移学习策略相结合,进行模型微调后在FreeSolv数据集进行溶剂化自由能预测并得到了目前最好的性能,RMSE为0.719 kcal·mol−1,MAE为0.417 kcal·mol−1,显著提高了GNN模型在溶剂化自由能预测方面的学习能力,为处理小型实验数据集提供了思考方向.

      此外,机器学习在预测化合物的其他性质方面也有不错的表现,以全氟化合物(PFASs)理化性质预测为例. 在全氟化合物(PFASs)理化性质预测方面,Raza等[11]在2019年提出了第一个利用机器学习来预测各种PFAS结构中的C—F键解离能的应用. 这个应用高效可靠准确,训练数据时间短,预测C—F键解离能的时间不超过1 s,偏差小于0.70 kcal·mol−1,不需量子力学计算,计算成本更低,有助于PFAS和高效处理与去除. 之后,有学者[81]于2021年构建了一个数据库框架,所构建PFAS-Map可以预测未测定的PFAS化学品的基本物理性质,可视化PFAS活性/性质关系的实验数据趋势,发现隐藏的结构 - 毒性关系.

    • 机器学习在上世纪就开始用于进行生物活性预测. 在20世纪90年代,神经网络算法广泛应用于定量结构-活性关系,但由于其算法的局限性,在2000年早期被SVM和RF取代. 近些年,神经网络算法逐步改进,引起了人们的关注,发现改进后的神经网络算法在生物活性预测方面颇具优势. 2015年,Ma和Dahl等[82]采用“原子对”描述符和“供体-受体对”描述符的并集作为描述符来训练模型,并将深度神经网络(DNN)的性能评估参数R2与RF模型在15个数据集(Merck公司内部的数据集)上进行比较,结果表明DNN在大多数情况下预测性能都优于RF模型,在计算时间和成本方面甚至比RF更有优势,可作为一种实用的QSAR方法. 但需要指出的是,该项研究也存在局限性,无法阐明分子间未完成的潜在相互作用. 针对这些缺点,Wallach等[12]建立了第一个基于结构的深度卷积神经网络—AtomNet,可应用于小分子生物活性预测. 他们将AtomNet与DNN技术进行对比,发现AtomNet可为目标预测出新的活性分子,所构建的模型能发现任意的分子特征,可描述配体和目标之间的相互作用;同时,在3个基准上做了应用,结果表明AtomNet表现出色,在DUDE基准测试中有一半的目标的AUC为0.9,远超以前的对接方法.

      此外,2019年,Cheng和Ng[13]在前人的基础上建立了ML-QSAR模型预测全氟化合物(PFASs)的生物活性,引入了基于图的模型,预测了OECD名单中未经测试的PFASs的生物活性. 在整个过程中,基于自行收集整理的PFASs数据库训练和评估了5种机器学习模型,采用了ECFP、图卷积、weave特征3种方法进行分子特征化,网格搜索和贝叶斯优化技术进行超参数调优,基于距离的方法确定QSAR模型的AD值,结果表明,多任务神经网络模型和基于图的图卷积模型性能优异,但构建的模型不能提供有关效应强度或剂量反应的信息,有进一步发展的空间. 此外,不同于常用于化合物活性预测的结构-活性关系(SAR) 模型, Bertoni等[14]于2021年构建了一个深度神经网络的集合—SigAR(signature–activity relationship)模型预测分子的生物活性,让机器学习从化合物的CC signatures(基于一个小分子生物活性特征集合开发的分子表征方法)中学习活性特征,并用MoleculeNet中的9个数据集评估了SigAR. 其结果表明,相较于基于化学描述符的方法,SigAR的性能更好.

    • 对化合物的毒性进行预测,是药物研发的一部分,对于药物研发的成本和成功率有重要影响. 同时,化合物毒性预测也是化学品风险评估的一部分内容,但基于动物实验的毒性预测,时间周期长,成本开支大. 此外,人工合成化合物的种类在逐渐增多,在日常生活中随处可见,识别危险化学品的潜在毒性是有必要的,对化合物进行毒性预测的需求在持续增长. 机器学习应用于化合物的毒性预测具有降低成本和加快研究速度的特点,因此,机器学习在化合物毒性预测方面的研究一直以来都是热点研究领域,相关的研究也比较多.

      2008年,美国的EPA、NIH和FDA开展了Tox21计划,这个计划汇总了许多化合物的毒性数据,推动了机器学习在预测化学品的潜在毒性和评估化学品风险的进程. 2016年,Mary等[83]开发了适用于毒性预测的集成模型—DeepTox,并将其运用于Tox21挑战赛上. 他们采用了化合物的大量的静态特征(如, MACCS指纹、PubChem子结构指纹等)和动态特征(如,ECFP指纹、径向2D指纹等)作为机器学习的输入,并对DeepTox中的每个机器学习算法模型进行了性能评估,比较了各算法的AUC值,结果表明DNN优于SVM、RF、弹性网(ElNet). 同时,由DNN主导的DeepTox应用于预测化合物毒性,取得了Tox21大挑战的冠军. 2019年,Pu等[84]基于机器学习技术开发了一个新的程序—eToxPred,可以直接从分子指纹预测小型化合物的毒性. eToxPred采用额外树(Extra Trees, ET)算法作为毒性预测的默认分类器,并在不同的数据集上与线性判别分析(LDA),多层感知器(MLP),随机森林(RF)算法进行了性能对比. 结果表明,使用分子指纹作为输入,基于ET的分类器性能普遍高于LDA和MLP,仅在一个组合数据集上略低于RF,可以非常有效地识别有毒分子和预测特定毒性.

      在化合物毒性评估方面,常用结构警报(structural alerts, SAs)作为识别危险化学品的潜在毒性的方法,但SAs的准确性有限,有时在无毒化合物中也会发现SAs[85]. Mukherjee等[15]引入了一个新概念——“关键结构图案”(critical structural motif, CSM),CSM包含了SAs的特异性. 同时,他们用SMILES字符串作为模型输入,开发了一个基于卷积神经网络(CNN)的多输出分类的深度学习模型--VisualTox,并在不同的化学数据上进行了训练,通过识别 CSM来预测内分泌干扰物质(ECD)的毒性,提供了一种理解化学毒性来源的新方法.

      此外,持久性有机污染物(POPs)和持久性、生物累积性和毒性物质(PBT)对生态环境和人类健康都有重大影响,PBT/POP类化学品也备受人们的关注. Sun等[16]于2020年采用基于2424个分子描述的二维表示矩阵(MDRM)作为模型输入,开发了一个深度卷积神经网络(DCNN)模型来筛选化学品库中潜在的PBT/POP类物质,并采用k折交叉验证法和专家经验判断方法对模型性能进行评价,得到模型的预测精度可达90.4%. 但需要指出的是,DCNN模型是一个“黑盒”模型,基本不可得到有效的解释. 最近,Wang等[17]利用一个包含14994种PBT和non-PBT物质的化学数据库,基于图注意力网络(graph attention networks, GATs)架构,构建了可筛选PBT化学品并具有可解释性的GAT模型. GATs是一种较先进的GNN,为分子图的每个节点引入了注意权重参数(PAW),可反映节点对预测端点的贡献,关注与目标任务相关的重要局部结构,具有模型可解释性. 他们在AD表征方面,提出并采用了一种新的方法—ADFP-AC,使GAT模型更加可靠;在模型性能方面,将具有ADFP-AC表征的GAT模型与DCNN模型、传统的机器学习方法(如随机森林、支持向量机)和根据不同分子特征化方法建立的QSAR模型进行性能对比,发现GAT模型的性能最佳. 在建立好GAT模型之后,他们还将其应用在中国现有化学物质清单(IECSC)上,从中确定了8类之前未确认的化合物类别为PBT化学品.

    • 目前,在构建数据集的过程中,研究者往往面临以下3个问题,包括数据量不足、数据质量不高以及数据不平衡. 针对数据量不足问题,虽然前文介绍了一些相关的公开数据库,但这些数据库对于研究人员来说,数量还是较少,而且数据不够全面,很多重要的化学信息被收集在商业数据库中或其他难以获取的数据库中. 此外,虽然公开的一些大型化学数据库数据多,规模大,但是拥有的标签数据并不多. 这种情况限制了监督学习在化合物属性预测方面进行更深入的研究[51]. 这些都使得研究人员无法得到足够的数据,利用机器学习在化合物属性层面进行一个更好的突破. 面临的问题之二是数据的质量不高. 有些数据来自于实验记录,虽然实验记录数据能得到更多、更为全面的数据,但公开的实验数据如何保证质量,也是值得思考的问题. 面临的问题之三是数据不平衡问题. 虽然机器学习有许多经典的分类算法,如朴素贝叶斯、KNN、基于神经网络的分类算法等,这些算法尽可能地保留了原数据所有的信息,但是由于这些算法的假设都是基于平衡的样本数据,所以当数据有少数类和多数类的情况出现时,这些算法皆会更倾向于多数类数据[86]. 对此,许多学者提出了一些数据不平衡处理方法,如过采样、欠采样、混合采样和特征选择等,这些处理方法在一定程度上能够缓解不平衡问题,但都存在不足. 比如,欠采样方法虽然简单又效果好,但是容易忽略多数类数据的内在特征信息,影响模型的泛化能力.

    • 分子特征化方法是化合物属性预测中的重点之一,决定了模型的性能和解释. 目前,分子特征化方法能够表征的信息很多,比如,定量分子描述符可以量化Hammett常数、偶极矩、HOMO和LUMO能量等信息,为化合物的性质预测提供了良好的输入信息. 但目前还没有可以完整表达原始分子信息的特征化方式[87].

      此外,虽然分子指纹种类也颇多,但目前主要还是用二维(2D)分子指纹来做相应的研究,高维度的分子指纹设计较为困难,这导致了现有的分子指纹种类缺少对分子立体结构描述的三维结构信息. 对于此类问题,近些年也有学者提出了代数图、代数拓扑、微分几何等分子三维结构信息的表示方法,但是这些方法较为依赖分子结构的可用性[88]. 分子特征化方法在描述分子的立体化学信息方面还有许多空间可以提升.

    • 模型的可解释性是模型的重要部分,是可信性的前提,如何让模型的工作机制更为透明,获得人们的理解和信任,这是值得讨论和重视的. 可解释的机器学习模型没有“黑盒”模型的特征,更易被理解,透明度高. 相较于可解释的机器学习模型,具有“黑盒”特征的机器学习模型虽然更难进行直观的解释,但是其性能更高,预测效果更好. 因此,如何对“黑盒”模型进行更好的解释,增加模型的可解释性,需要更多的研究来进行探究. 同时,现在缺乏明确的模型的可解释性基准,没有严格的方法来评估和比较模型解释方法[89].

    • 机器学习在化合物属性预测方面的应用不断拓展,不仅提高了预测结果的准确性,而且为评估新化学物质的环境风险提供了新方法. 其中,深度学习算法更适用于大数据集,而机器学习算法应用在小数据集更具优势. 但是,机器学习在化合物属性预测中的应用仍存在未知和挑战,这些亟待解决的问题将是未来研究工作的焦点. 机器学习(特别是深度学习)将会与量子力学、毒理学、量子化学、电化学等深度融合,在药物研发、毒理学研究、环境行为预测、材料研发等领域继续发挥重要作用.

    参考文献 (89)

返回顶部

目录

/

返回文章
返回