基于自然语言处理和机器学习的疑似土壤污染企业识别

黄国鑫, 朱守信, 王夏晖, 田梓, 季国华, 卢然, 崔轩, 陈茜. 基于自然语言处理和机器学习的疑似土壤污染企业识别[J]. 环境工程学报, 2020, 14(11): 3234-3242. doi: 10.12030/j.cjee.202007079
引用本文: 黄国鑫, 朱守信, 王夏晖, 田梓, 季国华, 卢然, 崔轩, 陈茜. 基于自然语言处理和机器学习的疑似土壤污染企业识别[J]. 环境工程学报, 2020, 14(11): 3234-3242. doi: 10.12030/j.cjee.202007079
HUANG Guoxin, ZHU Shouxin, WANG Xiahui, TIAN Zi, JI Guohua, LU Ran, CUI Xuan, Chen Xi. Natural language processing and machine learning-based suspected soil contamination enterprise identification[J]. Chinese Journal of Environmental Engineering, 2020, 14(11): 3234-3242. doi: 10.12030/j.cjee.202007079
Citation: HUANG Guoxin, ZHU Shouxin, WANG Xiahui, TIAN Zi, JI Guohua, LU Ran, CUI Xuan, Chen Xi. Natural language processing and machine learning-based suspected soil contamination enterprise identification[J]. Chinese Journal of Environmental Engineering, 2020, 14(11): 3234-3242. doi: 10.12030/j.cjee.202007079

基于自然语言处理和机器学习的疑似土壤污染企业识别

    作者简介: 黄国鑫(1980—),男,博士,副研究员。研究方向:土壤和地下水污染防治。E-mail:huanggx@caep.org.cn
    通讯作者: 王夏晖(1975—),男,博士,研究员。研究方向:生态保护修复及土壤污染防治。E-mail:wangxh@caep.org.cn
  • 基金项目:
    国家重点研发计划项目(2018YFC1800205);生态环境部环境规划院青年科技创新基金(2018年度)
  • 中图分类号: X322

Natural language processing and machine learning-based suspected soil contamination enterprise identification

    Corresponding author: WANG Xiahui, wangxh@caep.org.cn
  • 摘要: 针对污染场地识别的精准性不高、科学性不足、全面性不够和数据共享难度大等问题,以南方某地级市为研究区,借助大数据平台,基于自然语言处理和机器学习,通过引入摘要中热词权重构建改进型朴素贝叶斯模型,并对兴趣点(POI)数据进行中类行业预测和污染企业识别。结果表明,与随机森林算法和XGBoost算法相比,朴素贝叶斯算法的性能最佳;企业名称+经营范围构建有语义词汇库后,朴素贝叶斯算法的准确率、召回率和综合评价指标(F1)值得到大幅提升,分别提高了0.23、0.23和0.23;采用权重1.27和平滑参数α为1.10后,建立了改进型朴素贝叶斯模型,实现了行业类别预测,相应的准确率、召回率和F1值分别为0.63、0.62和0.63;识别出研究区中26个疑似土壤污染行业有关1774家企业。改进型朴素贝叶斯模型能够有效地预测疑似土壤污染企业,具有较好的准确率与召回率,能够为场地污染识别与风险管控实践提供理论依据和设计参数。
  • 我国畜禽粪便污染物总量已达近40×108 t,有效处理量不足50%,其中猪粪占总量比最大,为36.71%[1-4]。清粪工作是解决规模化猪场环境污染的重要内容。在清粪工艺中,干清粪工艺具有机械化程度高、粪中营养成分损失小、耗水量少、可减少污水中大部分污染物(以COD与BOD类指标表征)等优势[5-6]。从清洁生产角度考虑,干清粪工艺是规模化猪场清理猪粪时的首选[7]。干清粪工艺得到的猪粪固含量高、水分含量少,后续输送特别是管道抽吸过程中难度较大。这是由于猪粪含固率变化导致其黏性变化,从而影响了管内流动阻力。因此,对流动黏性阻力这一物理特性进行专门研究是很有必要的,其对运输、搅拌、混合等传质传热过程[8-10]同样有重要影响,属于基础性工艺设计因素。

    国内外许多学者对畜禽粪污或类似物料的流变特性和输送性能已有过研究。石惠娴等[10]验证了猪粪为非牛顿流体中的假塑性流体,可使用幂律模型描述切应力与剪切速率之间的关系。LANDRY等[11]拟合了猪粪稠度系数与含固率的函数关系,建立特定剪切速率条件下表观黏度与含固率的函数表达式。刘刈等[12]考察了包括猪粪在内的6种畜禽养殖场废弃物悬浮分散系的流变特性,研究了物料浓度、温度和发酵时间等因素对粪污黏度的影响,以及猪粪表观黏度随温度的变化趋势,分析了颗粒溶解到液相使其浓度增大并产生表观黏度增大的现象。王少勇等[13]测试不同工况下膏体管道输送的黏度-剪切速率流动曲线,采用Herschel-Bulkey模型进行回归分析,获得了管道输送膏体的流变参数。刘晓辉等[14]对具有非牛顿流体特性的膏体尾矿进行管道输送关键工艺参数研究,实现了对膏体在管内流动时流动阻力的精确测算。

    然而,对畜禽粪污在管道抽吸过程的非牛顿流体流动阻力特性的研究还较少,还需考虑各种浓度、抽吸压力、抽吸管径及自然放置时间等关键影响因素,并进行系统地理论分析,以便为相关的环保工艺与设备研发提供设计参数。本研究以实验为基础,分析在猪粪管道抽吸过程中影响抽吸流量的主要因素,以及猪粪在管道内流动时非牛顿流体阻力特性的影响机理,以期为畜禽粪污环保处理等相关领域提供参考。

    新鲜猪粪,不同的猪粪含固率由未稀释新鲜干猪粪添加适当自来水调配获取。

    实验装置示意图见图1。黏度相关特性的测量仪器为LVDV-II+Pro旋转型黏度计(美国Brookfield公司)。

    图 1  实验装置示意图
    Figure 1.  Schematic diagram of experimental setup

    本实验模拟实际管道抽吸粪污的过程,在真空容器间连接不同管径的塑料波纹软管,改变可能影响抽吸流量及流动阻力特性的操作参数,如猪粪含固率、抽吸真空度、抽吸管径和自然放置时间(自然放置的实验环境为室内常温(20 ℃左右))等。

    根据能量守恒伯努利方程,建立各压头之间的平衡关系式[15](式(1)和式(2))。

    Pρ=gΔZ+u22+hf (1)
    hf=4fLDu22 (2)

    式中:P为抽吸真空度,kPa;ρ为猪粪密度,kg·m−3g为重力加速度,取9.81 m·s−2L为抽吸管道总长度,取1.5 m;D为抽吸管道内径,m;ΔZ为储粪桶1液面到真空容器3抽吸口的竖向高度,m;u为管道内流体平均流速,m·s−1hf为管内流动阻力,m2·s−2f为实验范宁(Fanning)摩擦因子。由于储粪桶截面积较管道截面积大很多,其液位变化可以忽略。

    图2QxDP分别表示抽吸流量、猪粪含固率、抽吸管径和抽吸真空度。图2(a)为抽吸管径为0.03 m时、不同抽吸真空度下,猪粪含固率对抽吸流量的影响。图2(a)内容显示,随着猪粪含固率增加,抽吸流量逐渐减少。且在高抽吸真空度条件下,由于负压压头动力大,其对应的抽吸流量也大。用小抽吸管径(0.015 m,图2(b))同样表现出类似的猪粪含固率和抽吸真空度之间的影响特点。图2(a)图2(b)不同处在于:较大管径条件下,猪粪含固率低于10%时,含固率对抽吸流量的影响并不明显;含固率超过10%后,抽吸流量值才快速下降,整体上抽吸流量与猪粪含固率更符合二次曲线关系;而较小管径条件下,猪粪含固率对抽吸流量的影响显现线性关系(二次项系数接近0),特别是在低抽吸真空度条件下,线性关系更加显著。

    图 2  不同条件下抽吸流量的变化
    Figure 2.  Changes of suction flow under different conditions

    抽吸流量随猪粪含固率增大而减少,说明猪粪固形物增大了管道阻力,这是由猪粪的流体本征特性决定的。从图3可知,随着猪粪含固率增加,流变指数不断下降,从含固率为2%时流变指数接近1,逐渐降至含固率为20%时接近0.3。n为流变指数,是代表流体流动规律的重要指标[16-17],其值在0<n<1时,代表猪粪的流动规律符合假塑性非牛顿流体流动规律,且n值越小代表非牛顿流体特性越强,对应于管道抽吸猪粪过程中管内黏性摩擦力及流动阻力表现越大,带来了表观上抽吸流量减少的效果。

    图 3  流变指数随含固率的变化
    Figure 3.  Change of rheological index n with TS

    猪粪含固率为2%时,此时流变指数为0.952 3,最接近牛顿流体。图4(a)为不同抽吸管径对抽吸流量的影响,可以看出抽吸流量随抽吸管径增大是快速增加的[18],即大管径有更小的相对抽吸阻力,且不同抽吸真空度条件下抽吸流量与抽吸管径之间均呈约1.3次方的幂指数学关系。对于牛顿流体,流体黏度是不受流动速度梯度(剪切速率)影响的,即管径变化带来的管道速度梯度不会对黏性产生影响,抽吸流量表现出了只随抽吸管径变化的特点,抽吸流量和抽吸管径之间存在了一定的幂指数学关系。对于猪粪含固率为20%(图4(b)),此时流变指数为0.300 4,非牛顿流体特性最强)时,抽吸流量随抽吸管径增大同样是快速增加的,但由于非牛顿流体的黏性受流体速度梯度(剪切速率)影响较大,抽吸管径变成了同时影响流体黏性特征的重要间接因素[18],抽吸流量和抽吸管径之间的幂指关系因此变得非常复杂且不再有统一指数数值。

    图 4  不同含固率条件下管径对抽吸流量的影响
    Figure 4.  The effect of diameter on suction flow at different TS

    由于在实际情况下,畜禽粪污通常不能被及时清运,所以应重点研究猪粪自然放置时间对抽吸流量的影响。当抽吸管径为0.03 m,抽吸真空度为−50 kPa时,图5表明在不同含固率条件下,抽吸流量随自然放置时间延长均有少量下降,说明自然放置时间会对管道阻力产生增大效应,而且这种增大效应并没有受到猪粪含固率的影响。图6分析了猪粪低含固率为4%和高含固率为16%时,在抽吸实验前(未自然放置)和抽吸实验后(自然放置末期)流变指数的变化,发现流变指数均有所下降。猪粪含固率为4%时其流变指数从0.916 6降至0.832 0,猪粪含固率为16%时其流变指数从0.451 1降至0.408 0,说明当猪粪的非牛顿流体特性增强时,间接增大了猪粪在管内流动时的流动阻力。

    图 5  自然放置时间对抽吸流量的影响
    Figure 5.  Effect of natural placement time on suction flow
    图 6  流变指数的变化
    Figure 6.  Changes of rheological index

    猪粪在管道内流动时,流动阻力的影响因素涉及猪粪在自然放置过程中(本实验在室内环境温度20 ℃左右条件下进行)可能发生的复杂物理变化和生化过程,其包括猪粪中的颗粒性物质发生部分降解、固相颗粒尺寸与分布变化[12]、部分大分子向小分子转变、流体内微气泡产生及与颗粒夹杂等。最终在微观上,增强了猪粪中各种微颗粒之间相互作用力,故宏观上表现出了黏性阻力增大的现象。根据图7显示的本研究工况下的平均情况,在管道抽吸不同含固率猪粪过程中,流量的平均降低率随自然放置时间不断增加。自然放置时间从5 d增加到25 d后,其抽吸流量的平均降低率从4.6%增加到26.2%;且15 d内,降低率不显著(8.3%以内);而15 d后明显扩大,25 d后达到26.2%。结果说明,在自然放置过程中,随着时间的推进,猪粪对管道的阻力逐渐增大。

    图 7  抽吸流量的平均降低率
    Figure 7.  Average reduction of suction flow

    范宁摩擦因子用于计算管道对流体流动时摩擦阻力的大小[19-21]。范宁摩擦因子数值越大表示管道阻力越强。由图8(a)可知,在抽吸管径为0.02 m,抽吸真空度为-70 kPa的条件下,实验测定的范宁摩擦因子随猪粪含固率增大而增大,与抽吸流量随猪粪含固率变化呈相反的对应关系。从曲线变化趋势来看,特别在高含固率(>16%)下,实验范宁摩擦因子的增大明显,说明从流动阻力特性角度来说,不宜在高含固率条件下进行粪污抽吸。虽然抽吸流量随抽吸管径增大而迅速增加(见图4),但当含固率为12%,抽吸真空度为-70 kPa时,实验范宁摩擦因子亦随抽吸管径增大而增大(图8(b))。这是由于抽吸管道内壁面积(与流体接触的摩擦面)是随抽吸管径增大而增加的[22]

    图 8  实验范宁摩擦因子的变化
    Figure 8.  Change of experimental Funning Friction Factor

    雷诺数同样是表征流体流动特性的重要物理量。雷诺数较小说明黏性阻力对流场的影响大于惯性力[21, 23]。从抽吸实验结果来看,由于猪粪黏性阻力较大,实验计算得到的非牛顿流体雷诺数均较小,与实验范宁摩擦因子之间表现出明显的层流特征[15]关系(见图8(c))。图8(c)显示部分代表性实验数据点,最大实验范宁摩擦因子达到3.020 0,而最小实验范宁摩擦因子为0.006 6,最大实验雷诺数达到2 435,而最小实验雷诺数仅有10左右,显示出管道抽吸猪粪过程中阻力特征变化范围较大。另外,由于存在层流关系,由图8(a)图8(b)可以看出,实验雷诺数与猪粪含固率及抽吸管径的对应关系,同实验范宁摩擦因子的情况相反。

    1)随着猪粪含固率从2%增加到20%,其流变指数从0.952 3降至0.300 4,导致管道阻力上升,抽吸流量减少,整体上抽吸流量与含固率符合二次曲线关系;抽吸流量随抽吸管径呈幂指增长关系,当猪粪的非牛顿流体特性增强时,管径间接成为影响管道内非牛顿流体黏性阻力的重要因素。

    2)在自然放置过程中,不同含固率下猪粪的抽吸流量随自然放置时间的延长有所下降,同时流变指数亦有所下降;抽吸流量的平均降低率随自然放置时间不断增加。15 d内降幅较小,15 d后降幅明显扩大,最大达到了26.2%(25 d),越到后期其影响越明显。

    3)本研究条件下的范宁摩擦因子范围为0.006 6~3.020 0,非牛顿流体雷诺数范围为10~2 435,二者符合管道层流流动特征关系。实验范宁摩擦因子随含固率增大而增大,特别在高含固率(>16%)下增速最为显著。从非牛顿流体流动阻力特性角度来说,不宜在高含固率条件下进行粪污抽吸。

  • 图 1  大数据平台架构

    Figure 1.  Big data platform framework

    图 2  基于改进型朴素贝叶斯算法的行业类别预测模型

    Figure 2.  Improved naive Bayesian algorithm-based industry category prediction model

    图 3  8个基于多源数据的土壤污染重点行业词云

    Figure 3.  Eight word clouds based on the multi-source data-based soil contamination key middle-class industry

    图 4  不同权重引起的朴素贝叶斯算法性能比较

    Figure 4.  Performance comparison of the naive Bayesian algorithm by different weights

    图 5  不同平滑参数α引起的朴素贝叶斯算法性能比较

    Figure 5.  Performance comparison of the naive Bayesian algorithm by different α parameter values

    图 6  研究区中行业企业空间分布

    Figure 6.  Spatial distribution of the industry enterprises in the study area

    表 1  自关联表

    Table 1.  Self-correlation table

    当前类别标识类别名称分类说明上级类别标识
    193毛皮鞣制及制品加工
    1 931毛皮鞣制加工指带毛动物生皮经鞣制等化学和物理方法处理后,保持其绒毛形态及特点的毛皮(又称裘皮)的生产活动193
      注:“毛皮鞣制加工”为小类名称;“毛皮鞣制及制品加工”为中类名称。
    当前类别标识类别名称分类说明上级类别标识
    193毛皮鞣制及制品加工
    1 931毛皮鞣制加工指带毛动物生皮经鞣制等化学和物理方法处理后,保持其绒毛形态及特点的毛皮(又称裘皮)的生产活动193
      注:“毛皮鞣制加工”为小类名称;“毛皮鞣制及制品加工”为中类名称。
    下载: 导出CSV

    表 2  不同行业分类预测算法性能比较

    Table 2.  Performance comparison of the different industry category prediction algorithms

    算法类型PRF1
    随机森林0.280.280.28
    XGBoost0.310.290.30
    朴素贝叶斯0.350.360.35
    算法类型PRF1
    随机森林0.280.280.28
    XGBoost0.310.290.30
    朴素贝叶斯0.350.360.35
    下载: 导出CSV

    表 3  不同有语义词汇库构建方法引起的朴素贝叶斯算法性能比较

    Table 3.  Performance comparison of the naive Bayesian algorithm by different sematic database construction methods

    有语义词汇库构建方法PRF1
    企业名称0.350.380.36
    企业名称+经营范围0.580.610.59
    有语义词汇库构建方法PRF1
    企业名称0.350.380.36
    企业名称+经营范围0.580.610.59
    下载: 导出CSV

    表 4  改进型朴素贝叶斯模型的预测结果

    Table 4.  Prediction results of the improved naive Bayesian algorithm

    序号中类行业名称企业数量/家序号中类行业名称企业数量/家
    1金属表面处理及热处理加工20714其他仓储业51
    2铁合金冶炼19615炼铁48
    3专用化学产品制造16716电池制造46
    4农药制造11817皮革鞣制加工47
    5常用有色金属冶炼11318环境卫生管理40
    6基础化学原料制造10219贵金属冶炼23
    7合成材料制造10020炸药、火工及焰火产品制造11
    8毛皮鞣制及制品加工9421常用有色金属矿采选10
    9涂料、油墨、颜料及类似产品制造8522铁矿采选9
    10环境治理业8223棉纺织及印染精加工5
    11纸浆制造8024稀有稀土金属矿采选1
    12炼钢7325贵金属矿采选1
    13稀有稀土金属冶炼6426化学药品原料药制造1
    序号中类行业名称企业数量/家序号中类行业名称企业数量/家
    1金属表面处理及热处理加工20714其他仓储业51
    2铁合金冶炼19615炼铁48
    3专用化学产品制造16716电池制造46
    4农药制造11817皮革鞣制加工47
    5常用有色金属冶炼11318环境卫生管理40
    6基础化学原料制造10219贵金属冶炼23
    7合成材料制造10020炸药、火工及焰火产品制造11
    8毛皮鞣制及制品加工9421常用有色金属矿采选10
    9涂料、油墨、颜料及类似产品制造8522铁矿采选9
    10环境治理业8223棉纺织及印染精加工5
    11纸浆制造8024稀有稀土金属矿采选1
    12炼钢7325贵金属矿采选1
    13稀有稀土金属冶炼6426化学药品原料药制造1
    下载: 导出CSV
  • [1] 宋昕, 林娜, 殷鹏华. 中国污染场地修复现状及产业前景分析[J]. 土壤, 2015, 47(1): 1-7.
    [2] 李梦瑶. 中国污染场地环境管理存在的问题及对策[J]. 中国农学通报, 2010, 26(24): 338-342.
    [3] 王夏晖. 大数据: 场地污染智能识别与风险精准管控驱动力[J]. 环境保护, 2019, 47(3): 14-16.
    [4] FAZIO M, CELESTI A, PULIAFITO A, et al. Big data storage in the cloud for smart environment monitoring[J]. Procedia Computer Science, 2015, 52: 500-506. doi: 10.1016/j.procs.2015.05.023
    [5] 李赛. 大数据环境下突发事件应急决策支持系统研究[D]. 武汉: 华中师范大学, 2016.
    [6] 周煜申, 康望星, 沈存, 等. 大数据在水环境综合评价预警中的应用研究[J]. 江苏科技信息, 2017, 34(35): 52-54. doi: 10.3969/j.issn.1004-7530.2017.35.018
    [7] HENGL T, DE JESUS J M, HEUVELINK G B M, et al. SoilGrids250m: Global gridded soil information based on machine learning[J]. Plos One, 2017, 12(2): 1-40.
    [8] 马丽萍, 曹国良, 郝国朝. 基于大数据的大气污染防治方式优化探究-以西安市为例[J]. 环境与可持续发展, 2018, 43(2): 54-56. doi: 10.3969/j.issn.1673-288X.2018.02.014
    [9] 铁晓波. 大数据平台下基于人工免疫系统的MBR膜污染研究[D]. 天津: 天津工业大学, 2017.
    [10] 赵苗苗, 赵师成, 张丽云, 等. 大数据在生态环境领域的应用进展与展望[J]. 应用生态学报, 2017, 28(5): 1727-1734.
    [11] WANG D S, LIU J Z, ZHU A X, et al. Automatic extraction and structuration of soil-environment relationship information from soil survey reports[J]. Journal of Integrative Agriculture, 2019, 18(2): 328-339. doi: 10.1016/S2095-3119(18)62071-4
    [12] CHEN S, LIANG Z, WEBSTER R, et al. A high-resolution map of soil pH in China made by hybrid modelling of sparse soil data and environmental covariates and its implications for pollution[J]. Science of the Total Environment, 2019, 655: 273-283. doi: 10.1016/j.scitotenv.2018.11.230
    [13] JIA X, HU B, MARCHANT B P, et al. A methodological framework for identifying potential sources of soil heavy metal pollution based on machine learning: A case study in the Yangtze Delta, China[J]. Environmental Pollution, 2019, 250: 601-609. doi: 10.1016/j.envpol.2019.04.047
    [14] NASFI R, AMAYRI M, BOUGUILA N. A novel approach for modeling positive vectors with inverted Dirichlet-based hidden Markov models[J]. Knowledge-Based Systems, 2020, 192: 1-17.
    [15] ARPAIA P, CESARO U, CHADLI M, et al. Fault detection on fluid machinery using Hidden Markov Models[J]. Measurement, 2020, 151: 1-7.
    [16] 黄春梅, 王松磊. 基于词袋模型和TF-IDF的短文本分类研究[J]. 软件工程, 2020, 23(3): 1-3.
    [17] 王方伟, 杨少杰, 赵冬梅, 等. 基于改进TF-IDF的多态蠕虫特征自动提取算法[J]. 华中科技大学学报(自然科学版), 2020, 48(2): 79-84.
    [18] 何敏, 武德安, 吴磊. 基于MapReduce的平均多项朴素贝叶斯文本分类[J]. 计算机应用研究, 2016, 33(1): 115-117. doi: 10.3969/j.issn.1001-3695.2016.01.027
    [19] 赵博文, 王灵矫, 郭华. 基于泊松分布的加权朴素贝叶斯文本分类算法[J]. 计算机工程, 2020, 46(4): 91-96.
    [20] 徐光美, 刘宏哲, 张敬尊, 等. 用平滑方法改进多关系朴素贝叶斯分类[J]. 计算机工程与应用, 2017, 53(5): 69-72. doi: 10.3778/j.issn.1002-8331.1507-0161
    [21] 陈凯, 黄英来, 高文韬, 等. 一种基于属性加权补集的朴素贝叶斯文本分类算法[J]. 哈尔滨理工大学学报, 2018, 23(4): 69-74.
  • 加载中
    Created with Highcharts 5.0.7访问量Chart context menu近一年内文章摘要浏览量、全文浏览量、PDF下载量统计信息摘要浏览量全文浏览量PDF下载量2024-052024-062024-072024-082024-092024-102024-112024-122025-012025-022025-032025-040Highcharts.com
    Created with Highcharts 5.0.7Chart context menu访问类别分布DOWNLOAD: 5.3 %DOWNLOAD: 5.3 %HTML全文: 86.0 %HTML全文: 86.0 %摘要: 8.7 %摘要: 8.7 %DOWNLOADHTML全文摘要Highcharts.com
    Created with Highcharts 5.0.7Chart context menu访问地区分布其他: 89.7 %其他: 89.7 %Beersheba: 0.1 %Beersheba: 0.1 %Beijing: 2.8 %Beijing: 2.8 %Chang'an: 0.1 %Chang'an: 0.1 %Chiyoda: 0.1 %Chiyoda: 0.1 %Chongqing: 0.2 %Chongqing: 0.2 %Dongshiyang: 0.1 %Dongshiyang: 0.1 %Gulan: 0.1 %Gulan: 0.1 %Hyderabad: 0.1 %Hyderabad: 0.1 %Ismailia: 0.1 %Ismailia: 0.1 %Kunming: 0.1 %Kunming: 0.1 %Kunshan: 0.1 %Kunshan: 0.1 %Nanjing: 0.1 %Nanjing: 0.1 %Saint-Constant: 0.1 %Saint-Constant: 0.1 %Shanghai: 0.6 %Shanghai: 0.6 %Shenyang: 0.1 %Shenyang: 0.1 %Shenzhen: 0.1 %Shenzhen: 0.1 %Swindon: 0.1 %Swindon: 0.1 %Tehran: 0.3 %Tehran: 0.3 %Wuhan: 0.3 %Wuhan: 0.3 %Wuxi: 0.1 %Wuxi: 0.1 %XX: 3.4 %XX: 3.4 %Yuncheng: 0.1 %Yuncheng: 0.1 %Zunyi Shi: 0.1 %Zunyi Shi: 0.1 %上海: 0.1 %上海: 0.1 %北京: 0.1 %北京: 0.1 %天津: 0.1 %天津: 0.1 %杭州: 0.1 %杭州: 0.1 %武汉: 0.1 %武汉: 0.1 %济南: 0.1 %济南: 0.1 %深圳: 0.4 %深圳: 0.4 %西安: 0.1 %西安: 0.1 %运城: 0.1 %运城: 0.1 %其他BeershebaBeijingChang'anChiyodaChongqingDongshiyangGulanHyderabadIsmailiaKunmingKunshanNanjingSaint-ConstantShanghaiShenyangShenzhenSwindonTehranWuhanWuxiXXYunchengZunyi Shi上海北京天津杭州武汉济南深圳西安运城Highcharts.com
图( 6) 表( 4)
计量
  • 文章访问数:  4174
  • HTML全文浏览数:  4174
  • PDF下载数:  106
  • 施引文献:  0
出版历程
  • 收稿日期:  2020-07-11
  • 录用日期:  2020-10-26
  • 刊出日期:  2020-11-10
黄国鑫, 朱守信, 王夏晖, 田梓, 季国华, 卢然, 崔轩, 陈茜. 基于自然语言处理和机器学习的疑似土壤污染企业识别[J]. 环境工程学报, 2020, 14(11): 3234-3242. doi: 10.12030/j.cjee.202007079
引用本文: 黄国鑫, 朱守信, 王夏晖, 田梓, 季国华, 卢然, 崔轩, 陈茜. 基于自然语言处理和机器学习的疑似土壤污染企业识别[J]. 环境工程学报, 2020, 14(11): 3234-3242. doi: 10.12030/j.cjee.202007079
HUANG Guoxin, ZHU Shouxin, WANG Xiahui, TIAN Zi, JI Guohua, LU Ran, CUI Xuan, Chen Xi. Natural language processing and machine learning-based suspected soil contamination enterprise identification[J]. Chinese Journal of Environmental Engineering, 2020, 14(11): 3234-3242. doi: 10.12030/j.cjee.202007079
Citation: HUANG Guoxin, ZHU Shouxin, WANG Xiahui, TIAN Zi, JI Guohua, LU Ran, CUI Xuan, Chen Xi. Natural language processing and machine learning-based suspected soil contamination enterprise identification[J]. Chinese Journal of Environmental Engineering, 2020, 14(11): 3234-3242. doi: 10.12030/j.cjee.202007079

基于自然语言处理和机器学习的疑似土壤污染企业识别

    通讯作者: 王夏晖(1975—),男,博士,研究员。研究方向:生态保护修复及土壤污染防治。E-mail:wangxh@caep.org.cn
    作者简介: 黄国鑫(1980—),男,博士,副研究员。研究方向:土壤和地下水污染防治。E-mail:huanggx@caep.org.cn
  • 1. 生态环境部环境规划院,北京 100012
  • 2. 中国地质大学(北京)水资源与环境学院,北京 100083
基金项目:
国家重点研发计划项目(2018YFC1800205);生态环境部环境规划院青年科技创新基金(2018年度)

摘要: 针对污染场地识别的精准性不高、科学性不足、全面性不够和数据共享难度大等问题,以南方某地级市为研究区,借助大数据平台,基于自然语言处理和机器学习,通过引入摘要中热词权重构建改进型朴素贝叶斯模型,并对兴趣点(POI)数据进行中类行业预测和污染企业识别。结果表明,与随机森林算法和XGBoost算法相比,朴素贝叶斯算法的性能最佳;企业名称+经营范围构建有语义词汇库后,朴素贝叶斯算法的准确率、召回率和综合评价指标(F1)值得到大幅提升,分别提高了0.23、0.23和0.23;采用权重1.27和平滑参数α为1.10后,建立了改进型朴素贝叶斯模型,实现了行业类别预测,相应的准确率、召回率和F1值分别为0.63、0.62和0.63;识别出研究区中26个疑似土壤污染行业有关1774家企业。改进型朴素贝叶斯模型能够有效地预测疑似土壤污染企业,具有较好的准确率与召回率,能够为场地污染识别与风险管控实践提供理论依据和设计参数。

English Abstract

  • 近年来,场地土壤污染问题越来越受到公众和社会的关注[1-2]。我国在汲取国外近40年治理经验的基础上,提出了“预防为主,保护优先,风险管控”的场地土壤污染防治策略,初步形成了包括法律、法规、导则、指南和规章在内的一整套相对较为完善的场地土壤风险管控体系。尽管如此,我国场地土壤污染风险管理依然处于刚刚起步阶段,尤其是土壤污染底数不清。目前,主要采用现场踏勘、人员访谈、资料分析并结合日常监管等方式进行疑似污染场地识别,但是,这些传统方式的精准性不高、科学性不足、全面性不够,工作效率较低。

    近年来,大数据在生态环境保护领域的研究与应用得到了快速发展[3-10],特别是利用大数据开展土壤污染风险识别与风险管控的研究越来越受到研究者的关注[11-13]。针对非结构化调查报告,利用自然语言处理,自动提取和生成结构化土壤污染信息,实现土壤数据分析已见报道[11]。有学者基于第二次土地调查数据,结合高程、地貌、土地类型等17个环境协变量数据,利用随机森林、极端梯度提升等,绘制了高精度的全国土壤pH空间分布地图,并推测了土壤重金属环境容量[12]。值得一提的是,JIA等[13]考虑到政府部门间存在数据孤岛、数据共享难度大等问题,以长江三角洲地区为研究区,基于兴趣点(Point Of Interest)的非结构化文本数据,利用多项式朴素贝叶斯算法,识别了疑似土壤污染企业,对场地调查评估、风险管控等环境管理提供了良好的决策支撑作用。但是,该研究仅能识别《国民经济行业分类》(GB/T 4754-2017)中大类行业企业,利用企业名称构建有语义词汇库,且未构建无语义词汇库[13]。识别中类甚至小类行业以提高预测精度、增加有语义词汇库库容以克服朴素贝叶斯算法的过度拟合和零概率现象、构建无语义词汇库以降低维数和提高运算速度等已成为疑似土壤污染企业识别中迫切需要解决的问题。

    鉴于此,本研究以南方某地级市为研究区,借助大数据平台,基于自然语言处理和机器学习,尝试利用改进型朴素贝叶斯算法,预测POI数据中企业所属中类行业类别,识别疑似土壤污染企业,以期为场地污染识别与风险管控实践提供理论依据和设计参数。

  • 1)基础数据。国民经济行业分类数据(1 700条):小类行业名称、中类行业名称和分类说明。污染企业数据(62×104条):企业名称、行业类别和经营范围。POI数据(9 900条):企业名称和经纬度坐标。疑似土壤污染行业数据(38条):中类行业名称和特征污染物。日常监管数据(221条):企业名称和经纬度坐标。

    2)数据预处理。剔除标点符号、英文字母、数字等词汇;通过pynlpir辅助函数进行降噪;进行唯一性检查、去重、人工补缺和精度归一化处理;利用自行设计的自关联表(表1)对小类行业名称及其分类说明向上聚合至所属中类。

  • 1)硬件环境。管理服务器2台,用于CDH Manager管理和Zookeeper分布式协调服务,并作为Hive数据仓库入口;计算服务器4台,作为Impala、Spark的计算节点和Hbase节点,其中2台还用于Zookeeper分布式协调服务,并作为Redis数据库。服务器的核心组件为CPU:12核心、线程数2个/核心、主频2.2 GHz、三级缓存16.5 MB。内存:总容量128 GB、单挑容量16 GB、规格DDR4、工作频率2 400 MHz。磁盘:系统盘容量600 GB、数据盘容量2 TB、接口形式SAS。RAID卡:支持RAID0、RAID1、RAID5、RAID10、RAID50、JBOD等模式。网络:带宽10 Gbps。系统:CentOS 7.4。

    2)软件环境。核心组件为JDK 1.8、Python 3.7、Scala 2.11.x、OpenSSL、Niginx、Tomcat、Libgfortran 4.6+、Apache Hadoop 2.x、Apache Zookeeper 3.4.x、Apache Hive 2.1.x、Apache HBase 1.2.x、Hue 3.9.x、Apache Impala 2.12.x、Apache Parquet 2.1.x、Apache Spark 1.6.x、Apache Spark2 2.4.x、Redis 4.x、MongoDB 4.2.x、PostgreSQL 9.4.x、CDH 5.16、ArcGIS 10.2.2、Echart 4.8.0-release。

  • 基于大数据存储和处理的需要,于CentOS7.4集群,运用分布式技术,搭建大数据平台架构,主要由数据资源汇聚层、数据平台层、分析处理层、前端展示层和数据访问层等5个功能层组成(图1),能够满足行业分类预测、污染企业识别、ArcGIS平台与大数据平台交互、可视化展示等需求。

  • 1)特征工程处理:针对国民经济行业分类数据、污染企业数据和POI数据,首先,采用隐马尔可夫模型[14-15]、Viterbi算法和jieba分词引擎进行中文分词,并采用cut函数提取和剔除地名、“公司”“有限”“有限责任”等对行业类别预测无意义的词汇组成无语义词汇库,剩余的词汇组成有语义词汇库;其次,采用词频-逆文本频率算法[16-17]统计各个样本中位于有语义词汇库内词汇词频,其中min_df下频率值调整为0.15、max_df上频率值调整为0.90;然后,再次人工过滤并剔除出现次数多且对行业类别预测无意义的词汇,并将其增补进无语义词汇库,同时剩余的词汇作为特征词组成最终的有语义词汇库;最后,采用词频-逆文本频率算法重新统计各个样本中特征词词频(式(1)~式(3))。

    特征词正向词频(tfi,j)计算见式(1),特征词逆向文本频率(idfj)计算见式(2),特征词词频(tfidfi,j)计算见式(3)。

    式中:tfi,j为第i个特征词在第j个污染企业名称中的词频;ni,j为第i个特征词在第j个污染企业名称中的出现次数;kni,j为第j个污染企业名称中全部k个特征词出现次数的总和。

    式中:idfj为第i个特征词的逆向文本频率;|D|为有语义词汇库内所有污染企业名称的总数;dj为第j个污染企业名称;|{j:widj}|为包含第i个特征词的污染企业名称的总和。

    式中:tfidfi,j为第i个特征词在第j个污染企业名称中的权重;tfi,j同式(1);tfidfi,j同式(2)。

    2)摘要构建:按小类行业,将行业名称和分类说明中由高至低排在前100位的有语义词汇组成热词;然后,利用自关联表对各小类行业的热词向上聚合至所属中类,形成代表中类行业的摘要。

    3)行业类别预测模型构建与训练:首先,结合摘要,将特征词与摘要进行匹配,匹配上时将特征词词频乘以权重作为其特征值,匹配不上时则将特征词词频作为其特征值;其次,使用训练数据集训练基于改进型朴素贝叶斯算法的预测模型[18-19](图2),在此过程中,使用10折交叉验证的网格搜索方法调整拉普拉斯平滑法[20]中平滑参数α,使用5次验证集的平均准确率最高值作为最佳参数;最后,通过检验数据集的准确率、召回率和F1值评估模型,获取改进型行业类别预测模型。

    4) POI数据的行业类别预测:将POI数据输入已经训练好的改进型朴素贝叶斯模型,预测各企业所属行业。

    5)污染企业识别:从POI数据的预测结果中提取疑似土壤污染行业数据涉及的中类行业,将其对应的企业作为疑似土壤污染企业。

  • 1)不同行业词云构建:采用隐马尔可夫模型、viterbi算法和jieba分词引擎,对污染企业数据(含企业名称和经营范围)进行中文分词;然后,利用相同词汇累加方法,统计有语义词汇库中词汇出现的次数;最后,使用Python中word cloud库绘制不同行业词云。

    2)行业分类预测算法筛选:将污染企业数据集按9∶1比例划分为训练数据集和检验数据集;在此基础上,比较随机森林、XGBoost和朴素贝叶斯3种算法,通过分别比较准确率、召回率和F1值,确定最佳的行业分类预测算法。

    3)有语义词汇库构建方法比选:利用企业名称和企业名称+经营范围分别构建有语义词汇库,通过分别比较朴素贝叶斯算法的准确率、召回率和F1值,确定最佳的有语义词汇库构建方法。

    4)朴素贝叶斯模型改进:结合摘要,通过比较不同权重和平滑参数α引起的朴素贝叶斯算法的准确率、召回率和F1值,确定改进型朴素贝叶斯模型。

    5)行业企业空间分布结果分析:在ArcGIS平台上,以南方某地级市作为研究区,将POI疑似土壤污染企业和日常监管企业分行业进行空间分布,分析行业分类预测和污染企业识别的实际效果。

  • 行业分类预测的准确率计算见式(4),行业分类预测的召回率计算见式(5),行业分类预测的F1值计算见式(6)。

    式中:P为准确率,预测正确的样本占所有样本的比例;n为所有样本个数;nc为预测正确的样本个数。

    式中:R为召回率,预测正确的样本占某个行业所有样本的比例;nc同公式(1);m为某个行业所有样本个数。

    式中:F1为综合评价指标值;P同式(4);R同式(5)。

  • 针对有语义词汇库中多于40×104个词汇,采用颜色区分词汇,采用字体大小区分出现频率,经统计形成不同土壤污染重点行业词云,部分行业词云见图3。由图3可知,农药制造行业的高频词汇为化工、生物科技、科技;化学药品原料制造行业的高频词汇为制药、药业;合成材料制造行业的高频词汇为科技、材料、化工;基础化学原料制造行业的高频词汇为化工、贸易、商贸;常用有色金属冶炼行业的高频词汇为有色金属、矿业金属;涂料、油墨、颜料及类似产品制造行业的高频词汇为化工、涂料、科技、材料;皮革鞣制加工行业的高频词汇为皮革、皮业、皮革制品;金属表面处理及热处理加工行业的高频词汇为电镀、电镀厂、金属表面。可知,词云有助于初步地认知和感知不同行业特点,并为后续行业分类预测和污染企业识别提供前提基础。

  • 随机森林、XGBoost和朴素贝叶斯等行业分类算法引起的准确率、召回率和F1值变化见表2。准确率衡量算法分类结果的准确性,召回率衡量算法分类结果的完整性,而F1值则是综合考虑前述2个因素衡量算法分类结果效果。由表2可知,无论从准确率还是召回率亦或F1值上看,不同算法的分类性能存在一定差异,且朴素贝叶斯算法的性能优于随机森林算法和XGBoost算法。其中,前者比后者在准确率上分别提高了0.07和0.04;在召回率上分别提高0.08和0.07;在F1值上分别提高0.07和0.05。因此,采用朴素贝叶斯算法进行行业分类预测,尽管该算法的性能还有待提高。

  • 利用企业名称和企业名称+经营范围分别构建有语义词汇库,2种构建方法引起的朴素贝叶斯算法的准确率、召回率和F1值变化见表3。由表3可知,与仅采用企业名称相比,采用企业名称+经营范围构建有语义词汇库后,朴素贝叶斯算法的准确率、召回率和F1值得到大幅提升,分别提高了0.23、0.23和0.23,这缘于经营范围扩充了有语义词汇库库容,减少了POI企业名称向量化时新词汇特征的损失。因此,采用企业名称+经营范围构建有语义词汇库。

  • 不同权重和平滑参数α分别引起的朴素贝叶斯算法的准确率、召回率和F1值变化见图4图5。由图4可知,与对照组(权重为1)相比,当权重为1.15和1.30时准确率、召回率和F1值均变化不大;当权重为1.27时三者数值则分别提高了0.05、0.07和0.06,表明权重1.27为最佳值。显然,该最佳值明显提升了具有行业分类特征的特征词的特征值,规避了训练集中各行业样本数分布不均造成朴素贝叶斯算法倾向于大类、忽略小类的现象[21],进而提高了该算法的性能。

    尽管前述利用经营范围扩充了有语义词汇库,但是依然不可能穷举所有的特征词,故在对POI企业名称向量化时仍然会损失新词汇的特征,从而会产生过度拟合现象。另外,在计算先验概率时,若POI企业名称的某个特征词在训练数据集中某个行业类别中没有特征值,则会发生零概率现象[20]。据此,在计算后验概率时,利用平滑参数α力求缓解过度拟合和零概率现象,从而优化朴素贝叶斯算法。由图5可知,当平滑参数α为1.10~1.15时,准确率、召回率和F1值均变化不大,分别为0.61~0.63、0.66~0.68、0.64~0.65;而且,平滑参数α为1.10时,识别效果最好。

  • 研究区的POI数据所属疑似土壤污染行业企业的预测结果见表4,相应的POI企业和日常监管企业的空间分布见图6。由表4图6可知,从行业上看,预测疑似土壤污染行业26个,主要为金属表面处理及热处理加工、铁合金冶炼、专用化学产品制造、农药制造、常用有色金属冶炼、基础化学原料制造和合成材料制造(各行业企业均≥100家);同时,现有日常监管中未关注农药制造(118家)、化学药品原料药制造(1家)、棉纺织及印染精加工(5家)、环境治理业(82家)、皮革鞣制加工(47家)、贵金属冶炼(23家)等行业;从数量上看,识别疑似土壤污染企业1 774家,远远多于日常监管掌握的221家企业;从空间分布上看,各区(市、县)均存在企业集聚区,特别是在A、B、C区的企业分布最为集中。以上结果表明,后续应强化对新识别的行业、企业及其集聚区的土壤污染隐患排查与风险管理。另外,本研究未考虑企业生产规模、生产年限、地块利用历史等因素,对于零星分布的企业同样应做好监管。

  • 1)在行业分类预测时,朴素贝叶斯算法的性能优于随机森林算法和XGBoost算法的性能。

    2)与仅采用企业名称相比,采用企业名称+经营范围构建有语义词汇库后,朴素贝叶斯算法的准确率、召回率和F1值均得到大幅提升,可将其作为最佳的有语义词汇库构建方法。

    3)采用权重1.27和平滑参数α为1.10后,建立了改进型朴素贝叶斯模型,相应的准确率、召回率和F1值分别为0.63、0.62和0.63,进而获得了最佳的分类预测性能。

    4)利用改性型朴素贝叶斯模型识别出研究区中28个疑似土壤污染行业有关1774家企业,其在各区(市、县)均存在集聚区,特别是在A、B、C区最为集中。

参考文献 (21)

返回顶部

目录

/

返回文章
返回