基于自然语言处理和机器学习的疑似土壤污染企业识别

黄国鑫, 朱守信, 王夏晖, 田梓, 季国华, 卢然, 崔轩, 陈茜. 基于自然语言处理和机器学习的疑似土壤污染企业识别[J]. 环境工程学报, 2020, 14(11): 3234-3242. doi: 10.12030/j.cjee.202007079
引用本文: 黄国鑫, 朱守信, 王夏晖, 田梓, 季国华, 卢然, 崔轩, 陈茜. 基于自然语言处理和机器学习的疑似土壤污染企业识别[J]. 环境工程学报, 2020, 14(11): 3234-3242. doi: 10.12030/j.cjee.202007079
HUANG Guoxin, ZHU Shouxin, WANG Xiahui, TIAN Zi, JI Guohua, LU Ran, CUI Xuan, Chen Xi. Natural language processing and machine learning-based suspected soil contamination enterprise identification[J]. Chinese Journal of Environmental Engineering, 2020, 14(11): 3234-3242. doi: 10.12030/j.cjee.202007079
Citation: HUANG Guoxin, ZHU Shouxin, WANG Xiahui, TIAN Zi, JI Guohua, LU Ran, CUI Xuan, Chen Xi. Natural language processing and machine learning-based suspected soil contamination enterprise identification[J]. Chinese Journal of Environmental Engineering, 2020, 14(11): 3234-3242. doi: 10.12030/j.cjee.202007079

基于自然语言处理和机器学习的疑似土壤污染企业识别

    作者简介: 黄国鑫(1980—),男,博士,副研究员。研究方向:土壤和地下水污染防治。E-mail:huanggx@caep.org.cn
    通讯作者: 王夏晖(1975—),男,博士,研究员。研究方向:生态保护修复及土壤污染防治。E-mail:wangxh@caep.org.cn
  • 基金项目:
    国家重点研发计划项目(2018YFC1800205);生态环境部环境规划院青年科技创新基金(2018年度)
  • 中图分类号: X322

Natural language processing and machine learning-based suspected soil contamination enterprise identification

    Corresponding author: WANG Xiahui, wangxh@caep.org.cn
  • 摘要: 针对污染场地识别的精准性不高、科学性不足、全面性不够和数据共享难度大等问题,以南方某地级市为研究区,借助大数据平台,基于自然语言处理和机器学习,通过引入摘要中热词权重构建改进型朴素贝叶斯模型,并对兴趣点(POI)数据进行中类行业预测和污染企业识别。结果表明,与随机森林算法和XGBoost算法相比,朴素贝叶斯算法的性能最佳;企业名称+经营范围构建有语义词汇库后,朴素贝叶斯算法的准确率、召回率和综合评价指标(F1)值得到大幅提升,分别提高了0.23、0.23和0.23;采用权重1.27和平滑参数α为1.10后,建立了改进型朴素贝叶斯模型,实现了行业类别预测,相应的准确率、召回率和F1值分别为0.63、0.62和0.63;识别出研究区中26个疑似土壤污染行业有关1774家企业。改进型朴素贝叶斯模型能够有效地预测疑似土壤污染企业,具有较好的准确率与召回率,能够为场地污染识别与风险管控实践提供理论依据和设计参数。
  • 厌氧发酵是一种能够有效实现有机废物资源化和能源化的生物反应过程[1]。在我国,餐厨垃圾(FW)每年的产生量约为6×107 t,占城市固体废弃物总量的40%以上[2]。FW主要由易于降解的碳水化合物、蛋白质和脂质组成,具有较高的产甲烷潜力[3-4]。但是,单独发酵FW时,由于FW水解速度较快会积累挥发性脂肪酸(VFA),易发生系统抑制崩溃的后果[5]。已经有研究证明将剩余活性污泥(WAS)添加到FW厌氧发酵系统提高混合发酵运行性能的可行性[6]。与单独FW或WAS厌氧发酵相比,将2者进行厌氧混合发酵能够促使微生物发挥协同作用,稳定厌氧发酵性能。

    目前,有关FW和WAS厌氧混合发酵系统的构型主要采用间歇进料的连续搅拌反应器(CSTR)[7-8]。然而,CSTR不能实现污泥停留时间(SRT)和水力停留时间(HRT)的有效分离,使得微生物难以持留,难以保障微生物的持续生长,而且CSTR的间歇式进料方式容易引起负荷冲击。动态膜生物反应器(DMBR)使用在膜基材表面上沉积/吸附形成的滤饼层作为过滤层,能有效防止生长缓慢的厌氧微生物尤其是产甲烷菌的流失,提供了较长SRT来维持大量微生物种群生长[9]。已有研究利用板框内置式膜组件,采用连续流运行模式,在2.8 g·L−1·d−1的负荷下,实现了基于DMBR进行玉米秸秆和FW的混合发酵[10]。连续流进料方式可以有效缓解间歇式进料方式引起的基质冲击,增加系统的缓冲能力。目前,有关连续流动态膜厌氧混合发酵系统的稳定运行的解析鲜见报道。

    在厌氧混合发酵系统中,基质的混合比例是影响厌氧发酵的关键参数,李浩等[11]的研究结果表明,在FW和WAS厌氧混合发酵过程中,FW所占比例影响混合发酵的反应速率。同时,厌氧发酵系统的最优基质混合比也会随着系统的长期运行和菌群结构的驯化改变而变化[12]。食微比(F/M)是衡量有机负荷的重要参数[13],F/M与基质种类和接种物中微生物菌群密切相关,不同的F/M会影响系统的效能潜力。截至目前,很少有研究考虑基质混合比(FW/WAS)和F/M对厌氧混合发酵系统长期运行的影响。

    本研究构建了FW和WAS的外置式动态膜厌氧混合发酵系统。在连续流条件下启动动态膜厌氧混合发酵系统,以实现系统的稳定运行;同时,对DMBR运行过程中动态膜的形成和固液分离的效果进行解析。通过FW/WAS的产甲烷潜能和动力学实验,优化连续流厌氧混合发酵系统的因素,结合F/M 动力学实验,评价FW/WAS与F/M对连续流厌氧混合发酵系统运行效能的影响。

    本研究使用的外置式动态膜生物反应器如图1所示。反应器的有效体积为9.0 L,外部使用水浴层和恒温槽来控制反应器的温度为 (39±1) ℃,基质罐连接4 ℃恒温冷水浴。外置式膜组件由300目不锈钢筛网定制加工而成,平均孔径为48 µm,有效过滤面积为0.047 m2。系统的运行模式为连续进出料,产生的生物气通过水封瓶后用湿式气体流量计计量产气量。通过曝气泵将系统内顶空生物气泵入膜组件腔体底部,对膜组件进行气擦洗后回流至系统内;同时,通过反洗曝气泵将系统内顶空生物气定期泵入膜组件腔体外侧,对膜组件进行气反洗后回流至系统内。当膜组件和出料泵间跨膜压差增加到40 kPa时,开启反洗曝气泵进行气反洗,反洗强度为10 L·min−1,气反洗时间为10 min。当进行气反洗不能提高膜通量时,通过增大曝气泵流量、回流量或气反洗频率进行调控。

    图 1  DMBR实验装置流程示意图
    Figure 1.  Schematic diagram of dynamic membrane bioreactor (DMBR)

    本研究所采用的FW依据学生食堂餐厨剩余物的主要成分进行人工模拟配制[14],WAS取自西安市第五污水处理厂,2者混合后添加微量元素作为最终混合基质[8]。启动阶段FW和WAS的混合比例为4∶1(基于湿重),该最优混合基质比是启动前期批次实验优化的结果[15]。研究所用接种污泥为FW和WAS中温厌氧CSTR的排泥[15],接种体积为9.0 L。本研究中使用的FW、WAS、混合基质和接种污泥的理化特性如表1所示。

    表 1  基质和接种污泥的理化特性
    Table 1.  Physicochemical properties of substrate and seed sludge
    供试对象TS/(g·L−1)VS/(g·L−1)TCOD/(g·L−1)SCOD/(g·L−1)pH乙酸/(g·L−1)蛋白质/(g·L−1)多糖/(g·L−1)NH4+-N/(g·L−1)
    FW140.0±15.3134.0±13.2220.0±18.5104.0±8.34.41.7302.74±0.0385.30±4.100.31±0.01
    WAS56.0±8.330.4±4.252.2±7.3
    混合基质124.0±0.6115.0±0.5181.0±2.374.5±1.43.90.001±0.0008.20±0.122.71±0.030.10±0.01
    接种污泥39.1±0.619.7±1.527.2±0.33.1±0.07.90.003±0.0000.81±0.030.27±0.022.62±0.17
      注:“—”表示未测定。
     | Show Table
    DownLoad: CSV

    设置DMBR系统的初始OLR和HRT分别为(1.84±0.45) g·L−1·d−1和62.5 d,启动运行72 d,测定系统的运行性能参数和动态膜截留性能。启动阶段运行结束后,采用批次实验进行FW/WAS和F/M参数优化,实验设置见表2。FW/WAS批次实验在F/M为0.145 (基于VS)时共设置7组,其中2组为FW和WAS单发酵。F/M批次实验在FW/WAS为4.4∶1时共设置8组。所有批次实验均在120 mL血清瓶中分批进行,同时设置空白组。其中,空白组与实验组均设置2组平行。当混合基质和接种污泥加入血清瓶摇晃均匀后,用氮气吹脱约3 min,橡皮塞封瓶后置于39 ℃恒温摇床内,摇床转速为120 r·min−1,2 min后血清瓶顶空放气,定时测定气组和气量。

    表 2  批次实验的运行设置
    Table 2.  Operating characteristics of the batch experiments
    实验项目FW/WASF/M接种物/mLFW/mLWAS/mL混合基质/mL蒸馏水/mL
    FW单发酵1∶00.206300.90503.095
    WAS单发酵0∶10.2063004.0000
    FW/WAS混合发酵3∶10.206300.6801.0002.320
    FW/WAS混合发酵4∶10.206300.7250.8002.475
    FW/WAS混合发酵4.4∶10.206300.7400.7402.520
    FW/WAS混合发酵5∶10.206300.7550.6702.575
    FW/WAS混合发酵6∶10.206300.7750.5752.650
    F/M混合发酵4.4∶10.090300.96014.040
    F/M混合发酵4.4∶10.176301.86513.135
    F/M混合发酵4.4∶10.354303.75011.250
    F/M混合发酵4.4∶14.4∶10.4720.56730305.0006.00010.0009.000
    F/M混合发酵
    F/M混合发酵4.4∶10.708307.5007.500
    F/M混合发酵4.4∶10.9443010.0005.000
    F/M混合发酵4.4∶11.4173015.0000
      注:“—”表示不适用。
     | Show Table
    DownLoad: CSV

    TS、VS、COD、碱度和NH4+-N的测定采用标准方法[16]。pH采用便携式pH计进行测定(pHS-25型,上海精密科学仪器有限公司)。蛋白质和多糖分别采用Folin-酚试剂法[17]和硫酸-蒽酮法[18]。CH4、CO2、N2、H2和VFA均采用气相色谱法进行测定[8]。浊度采用便携式浊度仪 (Turb®355 IR,德国赛莱默公司) 测定。采用修正的Gompertz方程 (公式1) 拟合批次实验数据,以确定产甲烷潜力、最大产甲烷速率和延滞期[19-20]。采用一级动力学模型 (公式2) 进行数据拟合可得水解常数[21]

    P=P0exp{exp[Rmaxe(t0t)/P0+1] (1)
    P=P0[1exp(kt)] (2)

    式中:P为生物气产量,mL;P0为生物气潜能,mL;Rmax为最大生物气产生速率,mL·d−1t0为延滞期,d;k为产甲烷速率常数,d−1

    在HRT和OLR分别为62.5 d和(1.84±0.45) g·L−1·d−1的初始条件下,启动连续流FW和WAS厌氧混合发酵动态膜生物反应器。反应器启动运行过程中,系统的生物气产量、甲烷产量和甲烷占比如图2(a)所示。前5 d启动过程中,系统的生物气产量、甲烷产量和甲烷占比逐渐增加,然后趋于稳定。72 d的运行过程中,系统的平均生物气产量达到(0.60±0.11) L·L−1·d−1,平均甲烷产量达到(0.41±0.08) L·L−1·d−1,甲烷占比稳定在66%~71%,平均甲烷占比达到69.00%。pH和VFA的变化趋势能够直观的表明反应器的运行状况。如图2(b)所示,启动过程中,系统的pH始终稳定在7.6~8.0,在产甲烷菌最适pH(7.0~8.0)内[8]。本研究VFA最大质量浓度仅为284 mg·L−1,无VFA积累现象。这表明,连续流动态膜混合发酵系统启动成功[22]。如图2(c)所示,TVFA/碱度最大值仅为0.024,低于阈值0.4[23]。VFA和TVFA/碱度均未超过阈值,这表明厌氧发酵系统稳定性良好。厌氧发酵系统成功启动后,系统的平均TVFA质量浓度为(15.9±1.89) mg·L−1,低于产甲烷菌TVFA的抑制浓度5 000 mg·L−1,相应的总碱度为11 000~14 000 mg·L−1,也在稳定运行范围内[24]。上述结果表明,连续流FW和WAS厌氧混合发酵DMBR启动成功且能稳定运行。此外,对系统进行物料平衡分析可知,在该系统基质VSS的生物降解转化去除率为84%±3.8%,去除单位质量COD的基质甲烷产量为(294±13) mL。

    图 2  DMBR的运行性能图
    Figure 2.  Operating performance of DMBR system

    本实验的反应器装置为外置式的柱型动态膜组件,开启出料泵后,反应器内污泥先通过回流泵进入膜组件腔体内部,当回流污泥充满膜组件内部腔体后附着在动态膜基材上,逐渐形成过滤层。在第35 d膜组件清洗后,动态膜组件的跨膜压差、膜通量和浊度变化如图3所示。前4 h,动态膜组件的跨膜压差快速升高,由8.34 kPa增至22.3 kPa,相应的出料浊度由252 NTU降低至90.4 NTU,通量降低至0.42 L·m−2·h−1,2者均呈现快速下降的趋势。这是因为,动态膜组件腔体内充满了污泥,污泥开始附着在动态膜基材上,具有一定的截留效果。从4 h至21 h,通量降低了约40% (由0.42 L·m−2·h−1降至0.25 L·m−2·h−1) ,浊度也降至100 NTU以下,表明动态膜逐渐形成。随着过滤过程的进行,通量下降速度减缓,出料浊度趋于稳定。约40 h后,出料浊度稳定在50 NTU,通量在0.2 L·m−2·h−1左右。动态膜层逐渐增厚,进入稳定过滤阶段,具有稳定的截留效果。此外,当跨膜压差增至40 kPa时,进行动态膜气反洗后,能够快速形成动态膜,相应的压差逐渐增加 (如图3),长期运行过程中动态膜跨膜压差呈现周期性变化。袁宏林等[10]采用相同材质和孔径的动态膜基材,以玉米秸秆和FW为混合基质进行厌氧混合发酵,也获得了较优的固液分离效果,相应的有机物截留率达到95.9%,与本研究动态膜截留效果相当。通过借用在大孔径膜基材上形成的滤饼层作为过滤层,能够将传统膜生物反应器运行中存在的“膜污染”瓶颈问题转化为过滤层加以利用。本研究虽然对动态膜的过滤周期进行了表征,但仍需进一步解析动态膜滤饼层的过滤机理。此外,对接种物、运行末期动态膜滤饼层和系统排泥进行宏全基因组菌群分析可知:混合发酵系统以细菌为主,其中细菌主要包括Bacteroidetes (30.5%~44.6%) 、Chloroflexi (10.5%~24.5%) 和Firmicutes (23.1%~36.5%) ,古菌主要包括Methanosarcina (53.0%~97.9%) 和Methanobacterium (0.16%~18.7%) 。不同的微生物菌群结构组成及其变化,对于动态膜的形成和过滤效能均有一定程度的影响,但其作用机理仍需进一步研究。

    图 3  DMBR系统运行过程中跨膜压差、通量和浊度的变化
    Figure 3.  Changes of trans-membrane pressure (TMP), flux and turbidity during the operation period in DMBR system

    为进一步揭示动态膜过滤截留效能的周期稳定性,在反应器运行的第7、15、21、28、41、53和60 d取样分析动态膜过滤液中TCOD、蛋白质及多糖质量浓度。如图4(a)所示,出料TCOD均低于3 g·L−1,且动态膜对TCOD的截留率可达到99.5%,最终可稳定在99%以上。这表明,该外置式动态膜组件可实现较好的出料质量,实现有机物和微生物的稳定截留。如图4(b)所示,经过动态膜出料的蛋白质和多糖质量浓度均低于300 mg·L−1,相应的蛋白质和多糖截留率均不低于95%。其中,出料蛋白质质量浓度始终高于多糖,主要由于混合基质中蛋白质质量浓度是多糖质量浓度的3倍以上 (表1) ;同时,出料蛋白质质量浓度逐渐下降,相应的去除率逐渐增加。分析其原因主要是,由于形成的动态膜对蛋白质的截留效果逐渐增强;相反,出料多糖质量浓度略有增加,相应的多糖截留率略有降低,但仍维持较高水平 (>95%) ,也与动态膜的过滤效能密切相关。动态膜滤饼层中蛋白质和多糖以及凝胶层对混合发酵系统中物质的截留作用是目前膜生物反应器探究的热点,相应的过滤截留机理有待进一步深入解析,以实现动态膜对蛋白质和多糖的截留调控。

    图 4  DMBR系统长期运行过程中出料性能
    Figure 4.  Permeate characteristics of the DMBR system during the long-term operation

    1) FW/WAS的优化。如表3所示,一级动力学模型和修正的Gompertz模型的拟合相关系数分别为0.971~0.991和0.975~0.987。这表明,2者均可较好地拟合FW和WAS厌氧发酵系统的累积产甲烷量。FW和WAS混合发酵的t0值趋近于0,表明FW和WAS混合发酵产甲烷基本无延滞期。在F/M为0.206条件下,不同FW/WAS的单位基质累积产甲烷量如图5所示。当厌氧发酵时间约为15 d时,FW/WAS等于4∶1和4.4∶1的单位基质累积产甲烷量明显高于3∶1、5∶1和6∶1时的单位基质累积产甲烷量。这表明,FW/WAS等于4∶1或4.4∶1时,FW和WAS混合发酵产甲烷的互促效果最佳。在FW/WAS为4∶1和4.4∶1时,运用Gompertz模型拟合分析可得P0Rmax,如表3所示。可看出,在4.4∶1时,可获得更高的产甲烷潜能和最大生物气产率。如图6所示,当FW/WAS为4∶1和6∶1外,混合发酵的实际甲烷产率相对于单独发酵的加权平均值 (即理论甲烷产量) 均有不同程度的提升 (7.1%~15.2%)。其中,FW/WAS为4.4∶1时,相应的甲烷产量提升率最高。对比先前优化结果可发现[1],FW和WAS厌氧混合发酵系统经过长期驯化,最优基质混合比由初始最优值4∶1逐渐变为4.4∶1。因此,定期调整优化FW/WAS有利于厌氧混合发酵系统获得更高的产甲烷效能。

    表 3  不同FW/WAS和F/M通过修正Gompertz模型和一级动力学模型拟合后产甲烷性能参数
    Table 3.  Kinetic parameters of CH4 production with respect to different FW/WAS and F/M obtained from the modified Gompertz model and first-order model
    实验项目FW/WASF/M修正的Gompertz模型一级动力学模型
    P0/mLRmax/mLt0/dR2P0/mLk/d-1R2
    FW单发酵1∶00.2061640.20.975170.2870.971
    WAS单发酵0∶10.206325220.70.9843440.0220.988
    FW/WAS混合发酵3∶10.20670600.984740.1600.993
    FW/WAS混合发酵4∶10.206781000.982860.1690.989
    FW/WAS混合发酵4.4∶10.206821100.985880.1720.994
    FW/WAS混合发酵5∶10.20667900.987740.1790.990
    FW/WAS混合发酵6∶10.20663800.985680.1810.991
    F/M混合发酵4.4∶10.0905110500.985512.6100.977
    F/M混合发酵4.4∶10.176918500.979911.6100.989
    F/M混合发酵4.4∶10.3541669900.9691690.9680.981
    F/M混合发酵4.4∶10.47221912600.9802230.8740.987
    F/M混合发酵4.4∶10.56724011800.9822460.7510.990
    F/M混合发酵4.4∶10.70827710600.9892860.5750.996
    F/M混合发酵4.4∶10.944325430.020.9944020.1350.984
    F/M混合发酵4.4∶11.417002.00.902000
     | Show Table
    DownLoad: CSV
    图 5  不同FW/WAS下,厌氧混合发酵的单位基质累积产甲烷量
    Figure 5.  Cumulative CH4 production with same volatile substrate under different FW/WAS ratios
    图 6  不同FW/WAS下,FW和WAS单发酵和混合发酵的单位基质最大累积产甲烷量和甲烷产量提升率
    Figure 6.  Maximum and theoretical cumulative CH4 production with same volatile substrate of mono- and co-digestion, and CH4 production enhancement percentage of co-digestion under different FW/WAS ratios

    2) F/M实验。将FW/WAS的最优值4.4∶1作为基质混合比,使用相同接种物评价F/M的影响。不同F/M下,FW和WAS厌氧发酵系统的累积产甲烷量如图7所示。当厌氧发酵时间约为12 d,F/M分别为0.09、0.176、0.354、0.472、0.567、0.708和0.944时,相应的甲烷产量对应为54.0、94.8、192、236、264、298和317 mL。如表3所示,运用Gompertz模型模拟分析可知相应的产甲烷潜能分别为51、91、166、219、240、277和325 mL,模型拟合相关系数为0.969~0.994,这表明拟合结果与实际吻合较好。此外,FW和WAS混合发酵的t0值也都趋于0,与前述结果一致。如图7和表3所示,当F/M为1.42时,累积产甲烷量和Rmax均为负值,这表明该结果无法用一级动力学模型和Gompertz模型拟合。其原因在于,在此负荷下,产甲烷菌的活性受到严重抑制。当F/M由0.090增至0.944时,累积产甲烷量和P0逐渐增加。当F/M为0.944时,与F/M为0.708相比,Rmax由106 mL降至43 mL,k由0.575 d−1降为0.135 d−1,分别降低了59.8%和76.5%。这表明,当F/M>0.708时,FW和WAS 混合发酵产甲烷的速率减缓。综上,FW和WAS厌氧混合发酵的最大耐受F/M为0.944,且当F/M>0.708时,相应的产甲烷速率减缓。

    图 7  不同F/M下,厌氧混合发酵的累积产甲烷量
    Figure 7.  Cumulative CH4 production in the anaerobic co-digestion system under different F/M ratio

    1) 在较低的有机负荷条件下能够实现连续流FW和WAS厌氧动态膜混合发酵系统的启动及其长期稳定运行,且系统碱度缓冲能力强、无酸累积,系统甲烷产量稳定。

    2) 在连续流厌氧动态膜系统启动和长期运行过程中,能短时间形成动态膜,且对TCOD、蛋白质和多糖具有良好的截留率 (>95%) ,固液分离效果显著且能实现低浊度出料 (<50 NTU) 。

    3) 厌氧动态膜混合发酵系统长期运行后,最优混合基质比为4.4∶1,同时,该系统的最大食微比为0.944,为该系统后续运行效能的优化提升提供了调控依据,以最大限度的快速实现连续流动态膜混合发酵系统的高效稳定运行。

  • 图 1  大数据平台架构

    Figure 1.  Big data platform framework

    图 2  基于改进型朴素贝叶斯算法的行业类别预测模型

    Figure 2.  Improved naive Bayesian algorithm-based industry category prediction model

    图 3  8个基于多源数据的土壤污染重点行业词云

    Figure 3.  Eight word clouds based on the multi-source data-based soil contamination key middle-class industry

    图 4  不同权重引起的朴素贝叶斯算法性能比较

    Figure 4.  Performance comparison of the naive Bayesian algorithm by different weights

    图 5  不同平滑参数α引起的朴素贝叶斯算法性能比较

    Figure 5.  Performance comparison of the naive Bayesian algorithm by different α parameter values

    图 6  研究区中行业企业空间分布

    Figure 6.  Spatial distribution of the industry enterprises in the study area

    表 1  自关联表

    Table 1.  Self-correlation table

    当前类别标识类别名称分类说明上级类别标识
    193毛皮鞣制及制品加工
    1 931毛皮鞣制加工指带毛动物生皮经鞣制等化学和物理方法处理后,保持其绒毛形态及特点的毛皮(又称裘皮)的生产活动193
      注:“毛皮鞣制加工”为小类名称;“毛皮鞣制及制品加工”为中类名称。
    当前类别标识类别名称分类说明上级类别标识
    193毛皮鞣制及制品加工
    1 931毛皮鞣制加工指带毛动物生皮经鞣制等化学和物理方法处理后,保持其绒毛形态及特点的毛皮(又称裘皮)的生产活动193
      注:“毛皮鞣制加工”为小类名称;“毛皮鞣制及制品加工”为中类名称。
    下载: 导出CSV

    表 2  不同行业分类预测算法性能比较

    Table 2.  Performance comparison of the different industry category prediction algorithms

    算法类型PRF1
    随机森林0.280.280.28
    XGBoost0.310.290.30
    朴素贝叶斯0.350.360.35
    算法类型PRF1
    随机森林0.280.280.28
    XGBoost0.310.290.30
    朴素贝叶斯0.350.360.35
    下载: 导出CSV

    表 3  不同有语义词汇库构建方法引起的朴素贝叶斯算法性能比较

    Table 3.  Performance comparison of the naive Bayesian algorithm by different sematic database construction methods

    有语义词汇库构建方法PRF1
    企业名称0.350.380.36
    企业名称+经营范围0.580.610.59
    有语义词汇库构建方法PRF1
    企业名称0.350.380.36
    企业名称+经营范围0.580.610.59
    下载: 导出CSV

    表 4  改进型朴素贝叶斯模型的预测结果

    Table 4.  Prediction results of the improved naive Bayesian algorithm

    序号中类行业名称企业数量/家序号中类行业名称企业数量/家
    1金属表面处理及热处理加工20714其他仓储业51
    2铁合金冶炼19615炼铁48
    3专用化学产品制造16716电池制造46
    4农药制造11817皮革鞣制加工47
    5常用有色金属冶炼11318环境卫生管理40
    6基础化学原料制造10219贵金属冶炼23
    7合成材料制造10020炸药、火工及焰火产品制造11
    8毛皮鞣制及制品加工9421常用有色金属矿采选10
    9涂料、油墨、颜料及类似产品制造8522铁矿采选9
    10环境治理业8223棉纺织及印染精加工5
    11纸浆制造8024稀有稀土金属矿采选1
    12炼钢7325贵金属矿采选1
    13稀有稀土金属冶炼6426化学药品原料药制造1
    序号中类行业名称企业数量/家序号中类行业名称企业数量/家
    1金属表面处理及热处理加工20714其他仓储业51
    2铁合金冶炼19615炼铁48
    3专用化学产品制造16716电池制造46
    4农药制造11817皮革鞣制加工47
    5常用有色金属冶炼11318环境卫生管理40
    6基础化学原料制造10219贵金属冶炼23
    7合成材料制造10020炸药、火工及焰火产品制造11
    8毛皮鞣制及制品加工9421常用有色金属矿采选10
    9涂料、油墨、颜料及类似产品制造8522铁矿采选9
    10环境治理业8223棉纺织及印染精加工5
    11纸浆制造8024稀有稀土金属矿采选1
    12炼钢7325贵金属矿采选1
    13稀有稀土金属冶炼6426化学药品原料药制造1
    下载: 导出CSV
  • [1] 宋昕, 林娜, 殷鹏华. 中国污染场地修复现状及产业前景分析[J]. 土壤, 2015, 47(1): 1-7.
    [2] 李梦瑶. 中国污染场地环境管理存在的问题及对策[J]. 中国农学通报, 2010, 26(24): 338-342.
    [3] 王夏晖. 大数据: 场地污染智能识别与风险精准管控驱动力[J]. 环境保护, 2019, 47(3): 14-16.
    [4] FAZIO M, CELESTI A, PULIAFITO A, et al. Big data storage in the cloud for smart environment monitoring[J]. Procedia Computer Science, 2015, 52: 500-506. doi: 10.1016/j.procs.2015.05.023
    [5] 李赛. 大数据环境下突发事件应急决策支持系统研究[D]. 武汉: 华中师范大学, 2016.
    [6] 周煜申, 康望星, 沈存, 等. 大数据在水环境综合评价预警中的应用研究[J]. 江苏科技信息, 2017, 34(35): 52-54. doi: 10.3969/j.issn.1004-7530.2017.35.018
    [7] HENGL T, DE JESUS J M, HEUVELINK G B M, et al. SoilGrids250m: Global gridded soil information based on machine learning[J]. Plos One, 2017, 12(2): 1-40.
    [8] 马丽萍, 曹国良, 郝国朝. 基于大数据的大气污染防治方式优化探究-以西安市为例[J]. 环境与可持续发展, 2018, 43(2): 54-56. doi: 10.3969/j.issn.1673-288X.2018.02.014
    [9] 铁晓波. 大数据平台下基于人工免疫系统的MBR膜污染研究[D]. 天津: 天津工业大学, 2017.
    [10] 赵苗苗, 赵师成, 张丽云, 等. 大数据在生态环境领域的应用进展与展望[J]. 应用生态学报, 2017, 28(5): 1727-1734.
    [11] WANG D S, LIU J Z, ZHU A X, et al. Automatic extraction and structuration of soil-environment relationship information from soil survey reports[J]. Journal of Integrative Agriculture, 2019, 18(2): 328-339. doi: 10.1016/S2095-3119(18)62071-4
    [12] CHEN S, LIANG Z, WEBSTER R, et al. A high-resolution map of soil pH in China made by hybrid modelling of sparse soil data and environmental covariates and its implications for pollution[J]. Science of the Total Environment, 2019, 655: 273-283. doi: 10.1016/j.scitotenv.2018.11.230
    [13] JIA X, HU B, MARCHANT B P, et al. A methodological framework for identifying potential sources of soil heavy metal pollution based on machine learning: A case study in the Yangtze Delta, China[J]. Environmental Pollution, 2019, 250: 601-609. doi: 10.1016/j.envpol.2019.04.047
    [14] NASFI R, AMAYRI M, BOUGUILA N. A novel approach for modeling positive vectors with inverted Dirichlet-based hidden Markov models[J]. Knowledge-Based Systems, 2020, 192: 1-17.
    [15] ARPAIA P, CESARO U, CHADLI M, et al. Fault detection on fluid machinery using Hidden Markov Models[J]. Measurement, 2020, 151: 1-7.
    [16] 黄春梅, 王松磊. 基于词袋模型和TF-IDF的短文本分类研究[J]. 软件工程, 2020, 23(3): 1-3.
    [17] 王方伟, 杨少杰, 赵冬梅, 等. 基于改进TF-IDF的多态蠕虫特征自动提取算法[J]. 华中科技大学学报(自然科学版), 2020, 48(2): 79-84.
    [18] 何敏, 武德安, 吴磊. 基于MapReduce的平均多项朴素贝叶斯文本分类[J]. 计算机应用研究, 2016, 33(1): 115-117. doi: 10.3969/j.issn.1001-3695.2016.01.027
    [19] 赵博文, 王灵矫, 郭华. 基于泊松分布的加权朴素贝叶斯文本分类算法[J]. 计算机工程, 2020, 46(4): 91-96.
    [20] 徐光美, 刘宏哲, 张敬尊, 等. 用平滑方法改进多关系朴素贝叶斯分类[J]. 计算机工程与应用, 2017, 53(5): 69-72. doi: 10.3778/j.issn.1002-8331.1507-0161
    [21] 陈凯, 黄英来, 高文韬, 等. 一种基于属性加权补集的朴素贝叶斯文本分类算法[J]. 哈尔滨理工大学学报, 2018, 23(4): 69-74.
  • 加载中
    Created with Highcharts 5.0.7访问量Chart context menu近一年内文章摘要浏览量、全文浏览量、PDF下载量统计信息摘要浏览量全文浏览量PDF下载量2024-052024-062024-072024-082024-092024-102024-112024-122025-012025-022025-032025-040Highcharts.com
    Created with Highcharts 5.0.7Chart context menu访问类别分布DOWNLOAD: 3.9 %DOWNLOAD: 3.9 %HTML全文: 90.9 %HTML全文: 90.9 %摘要: 5.3 %摘要: 5.3 %DOWNLOADHTML全文摘要Highcharts.com
    Created with Highcharts 5.0.7Chart context menu访问地区分布其他: 95.6 %其他: 95.6 %XX: 2.9 %XX: 2.9 %上海: 0.1 %上海: 0.1 %北京: 0.8 %北京: 0.8 %晋城: 0.1 %晋城: 0.1 %深圳: 0.2 %深圳: 0.2 %运城: 0.1 %运城: 0.1 %郑州: 0.1 %郑州: 0.1 %重庆: 0.1 %重庆: 0.1 %其他XX上海北京晋城深圳运城郑州重庆Highcharts.com
图( 6) 表( 4)
计量
  • 文章访问数:  4181
  • HTML全文浏览数:  4181
  • PDF下载数:  106
  • 施引文献:  0
出版历程
  • 收稿日期:  2020-07-11
  • 录用日期:  2020-10-26
  • 刊出日期:  2020-11-10
黄国鑫, 朱守信, 王夏晖, 田梓, 季国华, 卢然, 崔轩, 陈茜. 基于自然语言处理和机器学习的疑似土壤污染企业识别[J]. 环境工程学报, 2020, 14(11): 3234-3242. doi: 10.12030/j.cjee.202007079
引用本文: 黄国鑫, 朱守信, 王夏晖, 田梓, 季国华, 卢然, 崔轩, 陈茜. 基于自然语言处理和机器学习的疑似土壤污染企业识别[J]. 环境工程学报, 2020, 14(11): 3234-3242. doi: 10.12030/j.cjee.202007079
HUANG Guoxin, ZHU Shouxin, WANG Xiahui, TIAN Zi, JI Guohua, LU Ran, CUI Xuan, Chen Xi. Natural language processing and machine learning-based suspected soil contamination enterprise identification[J]. Chinese Journal of Environmental Engineering, 2020, 14(11): 3234-3242. doi: 10.12030/j.cjee.202007079
Citation: HUANG Guoxin, ZHU Shouxin, WANG Xiahui, TIAN Zi, JI Guohua, LU Ran, CUI Xuan, Chen Xi. Natural language processing and machine learning-based suspected soil contamination enterprise identification[J]. Chinese Journal of Environmental Engineering, 2020, 14(11): 3234-3242. doi: 10.12030/j.cjee.202007079

基于自然语言处理和机器学习的疑似土壤污染企业识别

    通讯作者: 王夏晖(1975—),男,博士,研究员。研究方向:生态保护修复及土壤污染防治。E-mail:wangxh@caep.org.cn
    作者简介: 黄国鑫(1980—),男,博士,副研究员。研究方向:土壤和地下水污染防治。E-mail:huanggx@caep.org.cn
  • 1. 生态环境部环境规划院,北京 100012
  • 2. 中国地质大学(北京)水资源与环境学院,北京 100083
基金项目:
国家重点研发计划项目(2018YFC1800205);生态环境部环境规划院青年科技创新基金(2018年度)

摘要: 针对污染场地识别的精准性不高、科学性不足、全面性不够和数据共享难度大等问题,以南方某地级市为研究区,借助大数据平台,基于自然语言处理和机器学习,通过引入摘要中热词权重构建改进型朴素贝叶斯模型,并对兴趣点(POI)数据进行中类行业预测和污染企业识别。结果表明,与随机森林算法和XGBoost算法相比,朴素贝叶斯算法的性能最佳;企业名称+经营范围构建有语义词汇库后,朴素贝叶斯算法的准确率、召回率和综合评价指标(F1)值得到大幅提升,分别提高了0.23、0.23和0.23;采用权重1.27和平滑参数α为1.10后,建立了改进型朴素贝叶斯模型,实现了行业类别预测,相应的准确率、召回率和F1值分别为0.63、0.62和0.63;识别出研究区中26个疑似土壤污染行业有关1774家企业。改进型朴素贝叶斯模型能够有效地预测疑似土壤污染企业,具有较好的准确率与召回率,能够为场地污染识别与风险管控实践提供理论依据和设计参数。

English Abstract

  • 近年来,场地土壤污染问题越来越受到公众和社会的关注[1-2]。我国在汲取国外近40年治理经验的基础上,提出了“预防为主,保护优先,风险管控”的场地土壤污染防治策略,初步形成了包括法律、法规、导则、指南和规章在内的一整套相对较为完善的场地土壤风险管控体系。尽管如此,我国场地土壤污染风险管理依然处于刚刚起步阶段,尤其是土壤污染底数不清。目前,主要采用现场踏勘、人员访谈、资料分析并结合日常监管等方式进行疑似污染场地识别,但是,这些传统方式的精准性不高、科学性不足、全面性不够,工作效率较低。

    近年来,大数据在生态环境保护领域的研究与应用得到了快速发展[3-10],特别是利用大数据开展土壤污染风险识别与风险管控的研究越来越受到研究者的关注[11-13]。针对非结构化调查报告,利用自然语言处理,自动提取和生成结构化土壤污染信息,实现土壤数据分析已见报道[11]。有学者基于第二次土地调查数据,结合高程、地貌、土地类型等17个环境协变量数据,利用随机森林、极端梯度提升等,绘制了高精度的全国土壤pH空间分布地图,并推测了土壤重金属环境容量[12]。值得一提的是,JIA等[13]考虑到政府部门间存在数据孤岛、数据共享难度大等问题,以长江三角洲地区为研究区,基于兴趣点(Point Of Interest)的非结构化文本数据,利用多项式朴素贝叶斯算法,识别了疑似土壤污染企业,对场地调查评估、风险管控等环境管理提供了良好的决策支撑作用。但是,该研究仅能识别《国民经济行业分类》(GB/T 4754-2017)中大类行业企业,利用企业名称构建有语义词汇库,且未构建无语义词汇库[13]。识别中类甚至小类行业以提高预测精度、增加有语义词汇库库容以克服朴素贝叶斯算法的过度拟合和零概率现象、构建无语义词汇库以降低维数和提高运算速度等已成为疑似土壤污染企业识别中迫切需要解决的问题。

    鉴于此,本研究以南方某地级市为研究区,借助大数据平台,基于自然语言处理和机器学习,尝试利用改进型朴素贝叶斯算法,预测POI数据中企业所属中类行业类别,识别疑似土壤污染企业,以期为场地污染识别与风险管控实践提供理论依据和设计参数。

  • 1)基础数据。国民经济行业分类数据(1 700条):小类行业名称、中类行业名称和分类说明。污染企业数据(62×104条):企业名称、行业类别和经营范围。POI数据(9 900条):企业名称和经纬度坐标。疑似土壤污染行业数据(38条):中类行业名称和特征污染物。日常监管数据(221条):企业名称和经纬度坐标。

    2)数据预处理。剔除标点符号、英文字母、数字等词汇;通过pynlpir辅助函数进行降噪;进行唯一性检查、去重、人工补缺和精度归一化处理;利用自行设计的自关联表(表1)对小类行业名称及其分类说明向上聚合至所属中类。

  • 1)硬件环境。管理服务器2台,用于CDH Manager管理和Zookeeper分布式协调服务,并作为Hive数据仓库入口;计算服务器4台,作为Impala、Spark的计算节点和Hbase节点,其中2台还用于Zookeeper分布式协调服务,并作为Redis数据库。服务器的核心组件为CPU:12核心、线程数2个/核心、主频2.2 GHz、三级缓存16.5 MB。内存:总容量128 GB、单挑容量16 GB、规格DDR4、工作频率2 400 MHz。磁盘:系统盘容量600 GB、数据盘容量2 TB、接口形式SAS。RAID卡:支持RAID0、RAID1、RAID5、RAID10、RAID50、JBOD等模式。网络:带宽10 Gbps。系统:CentOS 7.4。

    2)软件环境。核心组件为JDK 1.8、Python 3.7、Scala 2.11.x、OpenSSL、Niginx、Tomcat、Libgfortran 4.6+、Apache Hadoop 2.x、Apache Zookeeper 3.4.x、Apache Hive 2.1.x、Apache HBase 1.2.x、Hue 3.9.x、Apache Impala 2.12.x、Apache Parquet 2.1.x、Apache Spark 1.6.x、Apache Spark2 2.4.x、Redis 4.x、MongoDB 4.2.x、PostgreSQL 9.4.x、CDH 5.16、ArcGIS 10.2.2、Echart 4.8.0-release。

  • 基于大数据存储和处理的需要,于CentOS7.4集群,运用分布式技术,搭建大数据平台架构,主要由数据资源汇聚层、数据平台层、分析处理层、前端展示层和数据访问层等5个功能层组成(图1),能够满足行业分类预测、污染企业识别、ArcGIS平台与大数据平台交互、可视化展示等需求。

  • 1)特征工程处理:针对国民经济行业分类数据、污染企业数据和POI数据,首先,采用隐马尔可夫模型[14-15]、Viterbi算法和jieba分词引擎进行中文分词,并采用cut函数提取和剔除地名、“公司”“有限”“有限责任”等对行业类别预测无意义的词汇组成无语义词汇库,剩余的词汇组成有语义词汇库;其次,采用词频-逆文本频率算法[16-17]统计各个样本中位于有语义词汇库内词汇词频,其中min_df下频率值调整为0.15、max_df上频率值调整为0.90;然后,再次人工过滤并剔除出现次数多且对行业类别预测无意义的词汇,并将其增补进无语义词汇库,同时剩余的词汇作为特征词组成最终的有语义词汇库;最后,采用词频-逆文本频率算法重新统计各个样本中特征词词频(式(1)~式(3))。

    特征词正向词频(tfi,j)计算见式(1),特征词逆向文本频率(idfj)计算见式(2),特征词词频(tfidfi,j)计算见式(3)。

    式中:tfi,j为第i个特征词在第j个污染企业名称中的词频;ni,j为第i个特征词在第j个污染企业名称中的出现次数;kni,j为第j个污染企业名称中全部k个特征词出现次数的总和。

    式中:idfj为第i个特征词的逆向文本频率;|D|为有语义词汇库内所有污染企业名称的总数;dj为第j个污染企业名称;|{j:widj}|为包含第i个特征词的污染企业名称的总和。

    式中:tfidfi,j为第i个特征词在第j个污染企业名称中的权重;tfi,j同式(1);tfidfi,j同式(2)。

    2)摘要构建:按小类行业,将行业名称和分类说明中由高至低排在前100位的有语义词汇组成热词;然后,利用自关联表对各小类行业的热词向上聚合至所属中类,形成代表中类行业的摘要。

    3)行业类别预测模型构建与训练:首先,结合摘要,将特征词与摘要进行匹配,匹配上时将特征词词频乘以权重作为其特征值,匹配不上时则将特征词词频作为其特征值;其次,使用训练数据集训练基于改进型朴素贝叶斯算法的预测模型[18-19](图2),在此过程中,使用10折交叉验证的网格搜索方法调整拉普拉斯平滑法[20]中平滑参数α,使用5次验证集的平均准确率最高值作为最佳参数;最后,通过检验数据集的准确率、召回率和F1值评估模型,获取改进型行业类别预测模型。

    4) POI数据的行业类别预测:将POI数据输入已经训练好的改进型朴素贝叶斯模型,预测各企业所属行业。

    5)污染企业识别:从POI数据的预测结果中提取疑似土壤污染行业数据涉及的中类行业,将其对应的企业作为疑似土壤污染企业。

  • 1)不同行业词云构建:采用隐马尔可夫模型、viterbi算法和jieba分词引擎,对污染企业数据(含企业名称和经营范围)进行中文分词;然后,利用相同词汇累加方法,统计有语义词汇库中词汇出现的次数;最后,使用Python中word cloud库绘制不同行业词云。

    2)行业分类预测算法筛选:将污染企业数据集按9∶1比例划分为训练数据集和检验数据集;在此基础上,比较随机森林、XGBoost和朴素贝叶斯3种算法,通过分别比较准确率、召回率和F1值,确定最佳的行业分类预测算法。

    3)有语义词汇库构建方法比选:利用企业名称和企业名称+经营范围分别构建有语义词汇库,通过分别比较朴素贝叶斯算法的准确率、召回率和F1值,确定最佳的有语义词汇库构建方法。

    4)朴素贝叶斯模型改进:结合摘要,通过比较不同权重和平滑参数α引起的朴素贝叶斯算法的准确率、召回率和F1值,确定改进型朴素贝叶斯模型。

    5)行业企业空间分布结果分析:在ArcGIS平台上,以南方某地级市作为研究区,将POI疑似土壤污染企业和日常监管企业分行业进行空间分布,分析行业分类预测和污染企业识别的实际效果。

  • 行业分类预测的准确率计算见式(4),行业分类预测的召回率计算见式(5),行业分类预测的F1值计算见式(6)。

    式中:P为准确率,预测正确的样本占所有样本的比例;n为所有样本个数;nc为预测正确的样本个数。

    式中:R为召回率,预测正确的样本占某个行业所有样本的比例;nc同公式(1);m为某个行业所有样本个数。

    式中:F1为综合评价指标值;P同式(4);R同式(5)。

  • 针对有语义词汇库中多于40×104个词汇,采用颜色区分词汇,采用字体大小区分出现频率,经统计形成不同土壤污染重点行业词云,部分行业词云见图3。由图3可知,农药制造行业的高频词汇为化工、生物科技、科技;化学药品原料制造行业的高频词汇为制药、药业;合成材料制造行业的高频词汇为科技、材料、化工;基础化学原料制造行业的高频词汇为化工、贸易、商贸;常用有色金属冶炼行业的高频词汇为有色金属、矿业金属;涂料、油墨、颜料及类似产品制造行业的高频词汇为化工、涂料、科技、材料;皮革鞣制加工行业的高频词汇为皮革、皮业、皮革制品;金属表面处理及热处理加工行业的高频词汇为电镀、电镀厂、金属表面。可知,词云有助于初步地认知和感知不同行业特点,并为后续行业分类预测和污染企业识别提供前提基础。

  • 随机森林、XGBoost和朴素贝叶斯等行业分类算法引起的准确率、召回率和F1值变化见表2。准确率衡量算法分类结果的准确性,召回率衡量算法分类结果的完整性,而F1值则是综合考虑前述2个因素衡量算法分类结果效果。由表2可知,无论从准确率还是召回率亦或F1值上看,不同算法的分类性能存在一定差异,且朴素贝叶斯算法的性能优于随机森林算法和XGBoost算法。其中,前者比后者在准确率上分别提高了0.07和0.04;在召回率上分别提高0.08和0.07;在F1值上分别提高0.07和0.05。因此,采用朴素贝叶斯算法进行行业分类预测,尽管该算法的性能还有待提高。

  • 利用企业名称和企业名称+经营范围分别构建有语义词汇库,2种构建方法引起的朴素贝叶斯算法的准确率、召回率和F1值变化见表3。由表3可知,与仅采用企业名称相比,采用企业名称+经营范围构建有语义词汇库后,朴素贝叶斯算法的准确率、召回率和F1值得到大幅提升,分别提高了0.23、0.23和0.23,这缘于经营范围扩充了有语义词汇库库容,减少了POI企业名称向量化时新词汇特征的损失。因此,采用企业名称+经营范围构建有语义词汇库。

  • 不同权重和平滑参数α分别引起的朴素贝叶斯算法的准确率、召回率和F1值变化见图4图5。由图4可知,与对照组(权重为1)相比,当权重为1.15和1.30时准确率、召回率和F1值均变化不大;当权重为1.27时三者数值则分别提高了0.05、0.07和0.06,表明权重1.27为最佳值。显然,该最佳值明显提升了具有行业分类特征的特征词的特征值,规避了训练集中各行业样本数分布不均造成朴素贝叶斯算法倾向于大类、忽略小类的现象[21],进而提高了该算法的性能。

    尽管前述利用经营范围扩充了有语义词汇库,但是依然不可能穷举所有的特征词,故在对POI企业名称向量化时仍然会损失新词汇的特征,从而会产生过度拟合现象。另外,在计算先验概率时,若POI企业名称的某个特征词在训练数据集中某个行业类别中没有特征值,则会发生零概率现象[20]。据此,在计算后验概率时,利用平滑参数α力求缓解过度拟合和零概率现象,从而优化朴素贝叶斯算法。由图5可知,当平滑参数α为1.10~1.15时,准确率、召回率和F1值均变化不大,分别为0.61~0.63、0.66~0.68、0.64~0.65;而且,平滑参数α为1.10时,识别效果最好。

  • 研究区的POI数据所属疑似土壤污染行业企业的预测结果见表4,相应的POI企业和日常监管企业的空间分布见图6。由表4图6可知,从行业上看,预测疑似土壤污染行业26个,主要为金属表面处理及热处理加工、铁合金冶炼、专用化学产品制造、农药制造、常用有色金属冶炼、基础化学原料制造和合成材料制造(各行业企业均≥100家);同时,现有日常监管中未关注农药制造(118家)、化学药品原料药制造(1家)、棉纺织及印染精加工(5家)、环境治理业(82家)、皮革鞣制加工(47家)、贵金属冶炼(23家)等行业;从数量上看,识别疑似土壤污染企业1 774家,远远多于日常监管掌握的221家企业;从空间分布上看,各区(市、县)均存在企业集聚区,特别是在A、B、C区的企业分布最为集中。以上结果表明,后续应强化对新识别的行业、企业及其集聚区的土壤污染隐患排查与风险管理。另外,本研究未考虑企业生产规模、生产年限、地块利用历史等因素,对于零星分布的企业同样应做好监管。

  • 1)在行业分类预测时,朴素贝叶斯算法的性能优于随机森林算法和XGBoost算法的性能。

    2)与仅采用企业名称相比,采用企业名称+经营范围构建有语义词汇库后,朴素贝叶斯算法的准确率、召回率和F1值均得到大幅提升,可将其作为最佳的有语义词汇库构建方法。

    3)采用权重1.27和平滑参数α为1.10后,建立了改进型朴素贝叶斯模型,相应的准确率、召回率和F1值分别为0.63、0.62和0.63,进而获得了最佳的分类预测性能。

    4)利用改性型朴素贝叶斯模型识别出研究区中28个疑似土壤污染行业有关1774家企业,其在各区(市、县)均存在集聚区,特别是在A、B、C区最为集中。

参考文献 (21)

返回顶部

目录

/

返回文章
返回