基于自然语言处理和机器学习的疑似土壤污染企业识别

黄国鑫; 朱守信; 王夏晖; 田梓; 季国华; 卢然; 崔轩; 陈茜

doi:10.12030/j.cjee.202007079

基于自然语言处理和机器学习的疑似土壤污染企业识别

1.
生态环境部环境规划院，北京 100012
2.
中国地质大学(北京)水资源与环境学院，北京 100083

作者简介: 黄国鑫(1980—)，男，博士，副研究员。研究方向：土壤和地下水污染防治。E-mail：huanggx@caep.org.cn

通讯作者: 王夏晖(1975—)，男，博士，研究员。研究方向：生态保护修复及土壤污染防治。E-mail：wangxh@caep.org.cn;

基金项目:
国家重点研发计划项目(2018YFC1800205)；生态环境部环境规划院青年科技创新基金(2018年度)
中图分类号: X322

Natural language processing and machine learning-based suspected soil contamination enterprise identification

1.
Chinese Academy for Environmental Planning, Beijing 100012, China
2.
School of Water Resources and Environment, China University of Geosciences (Beijing), Beijing 100083, China

Corresponding author: WANG Xiahui, wangxh@caep.org.cn ;

摘要: 针对污染场地识别的精准性不高、科学性不足、全面性不够和数据共享难度大等问题，以南方某地级市为研究区，借助大数据平台，基于自然语言处理和机器学习，通过引入摘要中热词权重构建改进型朴素贝叶斯模型，并对兴趣点(POI)数据进行中类行业预测和污染企业识别。结果表明，与随机森林算法和XGBoost算法相比，朴素贝叶斯算法的性能最佳；企业名称+经营范围构建有语义词汇库后，朴素贝叶斯算法的准确率、召回率和综合评价指标(F₁)值得到大幅提升，分别提高了0.23、0.23和0.23；采用权重1.27和平滑参数α为1.10后，建立了改进型朴素贝叶斯模型，实现了行业类别预测，相应的准确率、召回率和F₁值分别为0.63、0.62和0.63；识别出研究区中26个疑似土壤污染行业有关1774家企业。改进型朴素贝叶斯模型能够有效地预测疑似土壤污染企业，具有较好的准确率与召回率，能够为场地污染识别与风险管控实践提供理论依据和设计参数。
- 土壤污染 /
- 自然语言处理 /
- 机器学习 /
- 中类行业 /
- 污染企业识别 /
- 改进型朴素贝叶斯模型
Abstract: Aiming at the problems of low accuracy, inadequate scientific basis, bad wholeness and the difficulty in data sharing of soil contamination identification, a typical city in South China was selected as the research area. Based on the natural language processing and machine learning, an improved naive Bayesian model was constructed by the weights of hot words from an abstract and then utilized to predict the middle-class industries and identify the relevant contamination enterprises from point of interest (POI) data with a big data platform. The results showed that the performance of the naive Bayesian aggregation was better than that of random forest and XGBoost aggregations; the precision, recall and F₁ values of the naive Bayesian aggregation were improved by 0.23, 0.23 and 0.23 after the semantic vocabulary database was constructed by enterprise name and business scope; the naive Bayesian model that constructed under the weight of 1.27 and smoothing parameter α value of 1.10 could be used for the prediction of the middle-class industries with the precision, recall and F₁ value of 0.63, 0.62 and 0.63, respectively, and 1774 suspected soil contamination enterprises affiliated to 26 industry categories were identified in the research area. Therefore, the improved naive Bayesian model with the good precision and recall values can be effectively used to predict the suspected contamination enterprises, and provides the theoretical bases and design parameters for site contamination identification and risk management.
- soil contamination /
- natural language processing /
- machine learning /
- middle-class industries /
- contamination enterprise identification /
- improved naive Bayesian model

厌氧发酵是一种能够有效实现有机废物资源化和能源化的生物反应过程^[1]。在我国，餐厨垃圾(FW)每年的产生量约为6×10⁷ t，占城市固体废弃物总量的40%以上^[2]。FW主要由易于降解的碳水化合物、蛋白质和脂质组成，具有较高的产甲烷潜力^[3-4]。但是，单独发酵FW时，由于FW水解速度较快会积累挥发性脂肪酸(VFA)，易发生系统抑制崩溃的后果^[5]。已经有研究证明将剩余活性污泥(WAS)添加到FW厌氧发酵系统提高混合发酵运行性能的可行性^[6]。与单独FW或WAS厌氧发酵相比，将2者进行厌氧混合发酵能够促使微生物发挥协同作用，稳定厌氧发酵性能。

目前，有关FW和WAS厌氧混合发酵系统的构型主要采用间歇进料的连续搅拌反应器(CSTR)^[7-8]。然而，CSTR不能实现污泥停留时间(SRT)和水力停留时间(HRT)的有效分离，使得微生物难以持留，难以保障微生物的持续生长，而且CSTR的间歇式进料方式容易引起负荷冲击。动态膜生物反应器(DMBR)使用在膜基材表面上沉积/吸附形成的滤饼层作为过滤层，能有效防止生长缓慢的厌氧微生物尤其是产甲烷菌的流失，提供了较长SRT来维持大量微生物种群生长^[9]。已有研究利用板框内置式膜组件，采用连续流运行模式，在2.8 g·L⁻¹·d⁻¹的负荷下，实现了基于DMBR进行玉米秸秆和FW的混合发酵^[10]。连续流进料方式可以有效缓解间歇式进料方式引起的基质冲击，增加系统的缓冲能力。目前，有关连续流动态膜厌氧混合发酵系统的稳定运行的解析鲜见报道。

在厌氧混合发酵系统中，基质的混合比例是影响厌氧发酵的关键参数，李浩等^[11]的研究结果表明，在FW和WAS厌氧混合发酵过程中，FW所占比例影响混合发酵的反应速率。同时，厌氧发酵系统的最优基质混合比也会随着系统的长期运行和菌群结构的驯化改变而变化^[12]。食微比(F/M)是衡量有机负荷的重要参数^[13]，F/M与基质种类和接种物中微生物菌群密切相关，不同的F/M会影响系统的效能潜力。截至目前，很少有研究考虑基质混合比(FW/WAS)和F/M对厌氧混合发酵系统长期运行的影响。

本研究构建了FW和WAS的外置式动态膜厌氧混合发酵系统。在连续流条件下启动动态膜厌氧混合发酵系统，以实现系统的稳定运行；同时，对DMBR运行过程中动态膜的形成和固液分离的效果进行解析。通过FW/WAS的产甲烷潜能和动力学实验，优化连续流厌氧混合发酵系统的因素，结合F/M 动力学实验，评价FW/WAS与F/M对连续流厌氧混合发酵系统运行效能的影响。

1. 材料与方法

1.1 实验装置

本研究使用的外置式动态膜生物反应器如图1所示。反应器的有效体积为9.0 L，外部使用水浴层和恒温槽来控制反应器的温度为 (39±1) ℃，基质罐连接4 ℃恒温冷水浴。外置式膜组件由300目不锈钢筛网定制加工而成，平均孔径为48 µm，有效过滤面积为0.047 m²。系统的运行模式为连续进出料，产生的生物气通过水封瓶后用湿式气体流量计计量产气量。通过曝气泵将系统内顶空生物气泵入膜组件腔体底部，对膜组件进行气擦洗后回流至系统内；同时，通过反洗曝气泵将系统内顶空生物气定期泵入膜组件腔体外侧，对膜组件进行气反洗后回流至系统内。当膜组件和出料泵间跨膜压差增加到40 kPa时，开启反洗曝气泵进行气反洗，反洗强度为10 L·min⁻¹，气反洗时间为10 min。当进行气反洗不能提高膜通量时，通过增大曝气泵流量、回流量或气反洗频率进行调控。

图 1 DMBR实验装置流程示意图

Figure 1. Schematic diagram of dynamic membrane bioreactor (DMBR)

下载: 全尺寸图片幻灯片

1.2 基质和接种污泥

本研究所采用的FW依据学生食堂餐厨剩余物的主要成分进行人工模拟配制^[14]，WAS取自西安市第五污水处理厂，2者混合后添加微量元素作为最终混合基质^[8]。启动阶段FW和WAS的混合比例为4∶1(基于湿重)，该最优混合基质比是启动前期批次实验优化的结果^[15]。研究所用接种污泥为FW和WAS中温厌氧CSTR的排泥^[15]，接种体积为9.0 L。本研究中使用的FW、WAS、混合基质和接种污泥的理化特性如表1所示。

表 1 基质和接种污泥的理化特性

Table 1. Physicochemical properties of substrate and seed sludge

供试对象	TS/(g·L⁻¹)	VS/(g·L⁻¹)	TCOD/(g·L⁻¹)	SCOD/(g·L⁻¹)	pH	乙酸/(g·L⁻¹)	蛋白质/(g·L⁻¹)	多糖/(g·L⁻¹)	NH₄⁺-N/(g·L⁻¹)
FW	140.0±15.3	134.0±13.2	220.0±18.5	104.0±8.3	4.4	1.730	2.74±0.03	85.30±4.10	0.31±0.01
WAS	56.0±8.3	30.4±4.2	52.2±7.3	—	—	—	—	—	—
混合基质	124.0±0.6	115.0±0.5	181.0±2.3	74.5±1.4	3.9	0.001±0.000	8.20±0.12	2.71±0.03	0.10±0.01
接种污泥	39.1±0.6	19.7±1.5	27.2±0.3	3.1±0.0	7.9	0.003±0.000	0.81±0.03	0.27±0.02	2.62±0.17
注：“—”表示未测定。

| Show Table

DownLoad: CSV

1.3 实验设置

设置DMBR系统的初始OLR和HRT分别为(1.84±0.45) g·L⁻¹·d⁻¹和62.5 d，启动运行72 d，测定系统的运行性能参数和动态膜截留性能。启动阶段运行结束后，采用批次实验进行FW/WAS和F/M参数优化，实验设置见表2。FW/WAS批次实验在F/M为0.145 (基于VS)时共设置7组，其中2组为FW和WAS单发酵。F/M批次实验在FW/WAS为4.4∶1时共设置8组。所有批次实验均在120 mL血清瓶中分批进行，同时设置空白组。其中，空白组与实验组均设置2组平行。当混合基质和接种污泥加入血清瓶摇晃均匀后，用氮气吹脱约3 min，橡皮塞封瓶后置于39 ℃恒温摇床内，摇床转速为120 r·min⁻¹，2 min后血清瓶顶空放气，定时测定气组和气量。

表 2 批次实验的运行设置

Table 2. Operating characteristics of the batch experiments

实验项目	FW/WAS	F/M	接种物/mL	FW/mL	WAS/mL	混合基质/mL	蒸馏水/mL
FW单发酵	1∶0	0.206	30	0.905	0	—	3.095
WAS单发酵	0∶1	0.206	30	0	4.000	—	0
FW/WAS混合发酵	3∶1	0.206	30	0.680	1.000	—	2.320
FW/WAS混合发酵	4∶1	0.206	30	0.725	0.800		2.475
FW/WAS混合发酵	4.4∶1	0.206	30	0.740	0.740		2.520
FW/WAS混合发酵	5∶1	0.206	30	0.755	0.670		2.575
FW/WAS混合发酵	6∶1	0.206	30	0.775	0.575		2.650
F/M混合发酵	4.4∶1	0.090	30	—		0.960	14.040
F/M混合发酵	4.4∶1	0.176	30			1.865	13.135
F/M混合发酵	4.4∶1	0.354	30			3.750	11.250
F/M混合发酵	4.4∶14.4∶1	0.4720.567	3030			5.0006.000	10.0009.000
F/M混合发酵	4.4∶14.4∶1	0.4720.567	3030			5.0006.000	10.0009.000
F/M混合发酵	4.4∶1	0.708	30			7.500	7.500
F/M混合发酵	4.4∶1	0.944	30			10.000	5.000
F/M混合发酵	4.4∶1	1.417	30			15.000	0
注：“—”表示不适用。

| Show Table

DownLoad: CSV

1.4 测定项目和方法

TS、VS、COD、碱度和NH₄⁺-N的测定采用标准方法^[16]。pH采用便携式pH计进行测定(pHS-25型，上海精密科学仪器有限公司)。蛋白质和多糖分别采用Folin-酚试剂法^[17]和硫酸-蒽酮法^[18]。CH₄、CO₂、N₂、H₂和VFA均采用气相色谱法进行测定^[8]。浊度采用便携式浊度仪 (Turb^®355 IR，德国赛莱默公司) 测定。采用修正的Gompertz方程 (公式1) 拟合批次实验数据，以确定产甲烷潜力、最大产甲烷速率和延滞期^[19-20]。采用一级动力学模型 (公式2) 进行数据拟合可得水解常数^[21]。

$P = P_{0}\cdot \exp\{-\exp[R_{{\rm{max}}}\cdot {\rm{e}}\cdot(t_{0} - t)/P_{0}+1]$

$(1)$

$P = P_{0} \cdot [1-\exp(-kt)]$

$(2)$

式中：P为生物气产量，mL；P₀为生物气潜能，mL；R_max为最大生物气产生速率，mL·d⁻¹；t₀为延滞期，d；k为产甲烷速率常数，d⁻¹。

2. 结果与讨论

2.1 反应装置的启动及运行性能

在HRT和OLR分别为62.5 d和(1.84±0.45) g·L⁻¹·d⁻¹的初始条件下，启动连续流FW和WAS厌氧混合发酵动态膜生物反应器。反应器启动运行过程中，系统的生物气产量、甲烷产量和甲烷占比如图2(a)所示。前5 d启动过程中，系统的生物气产量、甲烷产量和甲烷占比逐渐增加，然后趋于稳定。72 d的运行过程中，系统的平均生物气产量达到(0.60±0.11) L·L⁻¹·d⁻¹，平均甲烷产量达到(0.41±0.08) L·L⁻¹·d⁻¹，甲烷占比稳定在66%~71%，平均甲烷占比达到69.00%。pH和VFA的变化趋势能够直观的表明反应器的运行状况。如图2(b)所示，启动过程中，系统的pH始终稳定在7.6~8.0，在产甲烷菌最适pH(7.0~8.0)内^[8]。本研究VFA最大质量浓度仅为284 mg·L⁻¹，无VFA积累现象。这表明，连续流动态膜混合发酵系统启动成功^[22]。如图2(c)所示，TVFA/碱度最大值仅为0.024，低于阈值0.4^[23]。VFA和TVFA/碱度均未超过阈值，这表明厌氧发酵系统稳定性良好。厌氧发酵系统成功启动后，系统的平均TVFA质量浓度为(15.9±1.89) mg·L⁻¹，低于产甲烷菌TVFA的抑制浓度5 000 mg·L⁻¹，相应的总碱度为11 000~14 000 mg·L⁻¹，也在稳定运行范围内^[24]。上述结果表明，连续流FW和WAS厌氧混合发酵DMBR启动成功且能稳定运行。此外，对系统进行物料平衡分析可知，在该系统基质VSS的生物降解转化去除率为84%±3.8%，去除单位质量COD的基质甲烷产量为(294±13) mL。

图 2 DMBR的运行性能图

Figure 2. Operating performance of DMBR system

下载: 全尺寸图片幻灯片

2.2 动态膜的截留性能

本实验的反应器装置为外置式的柱型动态膜组件，开启出料泵后，反应器内污泥先通过回流泵进入膜组件腔体内部，当回流污泥充满膜组件内部腔体后附着在动态膜基材上，逐渐形成过滤层。在第35 d膜组件清洗后，动态膜组件的跨膜压差、膜通量和浊度变化如图3所示。前4 h，动态膜组件的跨膜压差快速升高，由8.34 kPa增至22.3 kPa，相应的出料浊度由252 NTU降低至90.4 NTU，通量降低至0.42 L·m⁻²·h⁻¹，2者均呈现快速下降的趋势。这是因为，动态膜组件腔体内充满了污泥，污泥开始附着在动态膜基材上，具有一定的截留效果。从4 h至21 h，通量降低了约40% (由0.42 L·m⁻²·h⁻¹降至0.25 L·m⁻²·h⁻¹) ，浊度也降至100 NTU以下，表明动态膜逐渐形成。随着过滤过程的进行，通量下降速度减缓，出料浊度趋于稳定。约40 h后，出料浊度稳定在50 NTU，通量在0.2 L·m⁻²·h⁻¹左右。动态膜层逐渐增厚，进入稳定过滤阶段，具有稳定的截留效果。此外，当跨膜压差增至40 kPa时，进行动态膜气反洗后，能够快速形成动态膜，相应的压差逐渐增加 (如图3)，长期运行过程中动态膜跨膜压差呈现周期性变化。袁宏林等^[10]采用相同材质和孔径的动态膜基材，以玉米秸秆和FW为混合基质进行厌氧混合发酵，也获得了较优的固液分离效果，相应的有机物截留率达到95.9%，与本研究动态膜截留效果相当。通过借用在大孔径膜基材上形成的滤饼层作为过滤层，能够将传统膜生物反应器运行中存在的“膜污染”瓶颈问题转化为过滤层加以利用。本研究虽然对动态膜的过滤周期进行了表征，但仍需进一步解析动态膜滤饼层的过滤机理。此外，对接种物、运行末期动态膜滤饼层和系统排泥进行宏全基因组菌群分析可知：混合发酵系统以细菌为主，其中细菌主要包括Bacteroidetes (30.5%~44.6%) 、Chloroflexi (10.5%~24.5%) 和Firmicutes (23.1%~36.5%) ，古菌主要包括Methanosarcina (53.0%~97.9%) 和Methanobacterium (0.16%~18.7%) 。不同的微生物菌群结构组成及其变化，对于动态膜的形成和过滤效能均有一定程度的影响，但其作用机理仍需进一步研究。

图 3 DMBR系统运行过程中跨膜压差、通量和浊度的变化

Figure 3. Changes of trans-membrane pressure (TMP), flux and turbidity during the operation period in DMBR system

下载: 全尺寸图片幻灯片

为进一步揭示动态膜过滤截留效能的周期稳定性，在反应器运行的第7、15、21、28、41、53和60 d取样分析动态膜过滤液中TCOD、蛋白质及多糖质量浓度。如图4(a)所示，出料TCOD均低于3 g·L⁻¹，且动态膜对TCOD的截留率可达到99.5%，最终可稳定在99%以上。这表明，该外置式动态膜组件可实现较好的出料质量，实现有机物和微生物的稳定截留。如图4(b)所示，经过动态膜出料的蛋白质和多糖质量浓度均低于300 mg·L⁻¹，相应的蛋白质和多糖截留率均不低于95%。其中，出料蛋白质质量浓度始终高于多糖，主要由于混合基质中蛋白质质量浓度是多糖质量浓度的3倍以上 (表1) ；同时，出料蛋白质质量浓度逐渐下降，相应的去除率逐渐增加。分析其原因主要是，由于形成的动态膜对蛋白质的截留效果逐渐增强；相反，出料多糖质量浓度略有增加，相应的多糖截留率略有降低，但仍维持较高水平 (>95%) ，也与动态膜的过滤效能密切相关。动态膜滤饼层中蛋白质和多糖以及凝胶层对混合发酵系统中物质的截留作用是目前膜生物反应器探究的热点，相应的过滤截留机理有待进一步深入解析，以实现动态膜对蛋白质和多糖的截留调控。

图 4 DMBR系统长期运行过程中出料性能

Figure 4. Permeate characteristics of the DMBR system during the long-term operation

下载: 全尺寸图片幻灯片

2.3 运行参数的优化调控

1) FW/WAS的优化。如表3所示，一级动力学模型和修正的Gompertz模型的拟合相关系数分别为0.971~0.991和0.975~0.987。这表明，2者均可较好地拟合FW和WAS厌氧发酵系统的累积产甲烷量。FW和WAS混合发酵的t₀值趋近于0，表明FW和WAS混合发酵产甲烷基本无延滞期。在F/M为0.206条件下，不同FW/WAS的单位基质累积产甲烷量如图5所示。当厌氧发酵时间约为15 d时，FW/WAS等于4∶1和4.4∶1的单位基质累积产甲烷量明显高于3∶1、5∶1和6∶1时的单位基质累积产甲烷量。这表明，FW/WAS等于4∶1或4.4∶1时，FW和WAS混合发酵产甲烷的互促效果最佳。在FW/WAS为4∶1和4.4∶1时，运用Gompertz模型拟合分析可得P₀和R_max，如表3所示。可看出，在4.4∶1时，可获得更高的产甲烷潜能和最大生物气产率。如图6所示，当FW/WAS为4∶1和6∶1外，混合发酵的实际甲烷产率相对于单独发酵的加权平均值 (即理论甲烷产量) 均有不同程度的提升 (7.1%~15.2%)。其中，FW/WAS为4.4∶1时，相应的甲烷产量提升率最高。对比先前优化结果可发现^[1]，FW和WAS厌氧混合发酵系统经过长期驯化，最优基质混合比由初始最优值4∶1逐渐变为4.4∶1。因此，定期调整优化FW/WAS有利于厌氧混合发酵系统获得更高的产甲烷效能。

表 3 不同FW/WAS和F/M通过修正Gompertz模型和一级动力学模型拟合后产甲烷性能参数

Table 3. Kinetic parameters of CH₄ production with respect to different FW/WAS and F/M obtained from the modified Gompertz model and first-order model

实验项目	FW/WAS	F/M	修正的Gompertz模型				一级动力学模型
实验项目	FW/WAS	F/M	P₀/mL	R_max/mL	t₀/d	R²	P₀/mL	k/d^-1	R²
FW单发酵	1∶0	0.206	16	4	0.2	0.975	17	0.287	0.971
WAS单发酵	0∶1	0.206	325	22	0.7	0.984	344	0.022	0.988
FW/WAS混合发酵	3∶1	0.206	70	6	0	0.984	74	0.160	0.993
FW/WAS混合发酵	4∶1	0.206	78	10	0	0.982	86	0.169	0.989
FW/WAS混合发酵	4.4∶1	0.206	82	11	0	0.985	88	0.172	0.994
FW/WAS混合发酵	5∶1	0.206	67	9	0	0.987	74	0.179	0.990
FW/WAS混合发酵	6∶1	0.206	63	8	0	0.985	68	0.181	0.991
F/M混合发酵	4.4∶1	0.090	51	105	0	0.985	51	2.610	0.977
F/M混合发酵	4.4∶1	0.176	91	85	0	0.979	91	1.610	0.989
F/M混合发酵	4.4∶1	0.354	166	99	0	0.969	169	0.968	0.981
F/M混合发酵	4.4∶1	0.472	219	126	0	0.980	223	0.874	0.987
F/M混合发酵	4.4∶1	0.567	240	118	0	0.982	246	0.751	0.990
F/M混合发酵	4.4∶1	0.708	277	106	0	0.989	286	0.575	0.996
F/M混合发酵	4.4∶1	0.944	325	43	0.02	0.994	402	0.135	0.984
F/M混合发酵	4.4∶1	1.417	0	0	2.0	0.902	0	0	0

| Show Table

DownLoad: CSV

图 5 不同FW/WAS下，厌氧混合发酵的单位基质累积产甲烷量

Figure 5. Cumulative CH₄ production with same volatile substrate under different FW/WAS ratios

下载: 全尺寸图片幻灯片

图 6 不同FW/WAS下，FW和WAS单发酵和混合发酵的单位基质最大累积产甲烷量和甲烷产量提升率

Figure 6. Maximum and theoretical cumulative CH₄ production with same volatile substrate of mono- and co-digestion, and CH₄ production enhancement percentage of co-digestion under different FW/WAS ratios

下载: 全尺寸图片幻灯片

2) F/M实验。将FW/WAS的最优值4.4∶1作为基质混合比，使用相同接种物评价F/M的影响。不同F/M下，FW和WAS厌氧发酵系统的累积产甲烷量如图7所示。当厌氧发酵时间约为12 d，F/M分别为0.09、0.176、0.354、0.472、0.567、0.708和0.944时，相应的甲烷产量对应为54.0、94.8、192、236、264、298和317 mL。如表3所示，运用Gompertz模型模拟分析可知相应的产甲烷潜能分别为51、91、166、219、240、277和325 mL，模型拟合相关系数为0.969~0.994，这表明拟合结果与实际吻合较好。此外，FW和WAS混合发酵的t₀值也都趋于0，与前述结果一致。如图7和表3所示，当F/M为1.42时，累积产甲烷量和R_max均为负值，这表明该结果无法用一级动力学模型和Gompertz模型拟合。其原因在于，在此负荷下，产甲烷菌的活性受到严重抑制。当F/M由0.090增至0.944时，累积产甲烷量和P₀逐渐增加。当F/M为0.944时，与F/M为0.708相比，R_max由106 mL降至43 mL，k由0.575 d⁻¹降为0.135 d⁻¹，分别降低了59.8%和76.5%。这表明，当F/M＞0.708时，FW和WAS 混合发酵产甲烷的速率减缓。综上，FW和WAS厌氧混合发酵的最大耐受F/M为0.944，且当F/M＞0.708时，相应的产甲烷速率减缓。

图 7 不同F/M下，厌氧混合发酵的累积产甲烷量

Figure 7. Cumulative CH₄ production in the anaerobic co-digestion system under different F/M ratio

下载: 全尺寸图片幻灯片

3. 结论

1) 在较低的有机负荷条件下能够实现连续流FW和WAS厌氧动态膜混合发酵系统的启动及其长期稳定运行，且系统碱度缓冲能力强、无酸累积，系统甲烷产量稳定。

2) 在连续流厌氧动态膜系统启动和长期运行过程中，能短时间形成动态膜，且对TCOD、蛋白质和多糖具有良好的截留率 (>95%) ，固液分离效果显著且能实现低浊度出料 (<50 NTU) 。

3) 厌氧动态膜混合发酵系统长期运行后，最优混合基质比为4.4∶1，同时，该系统的最大食微比为0.944，为该系统后续运行效能的优化提升提供了调控依据，以最大限度的快速实现连续流动态膜混合发酵系统的高效稳定运行。

图 1 大数据平台架构

Figure 1. Big data platform framework

下载: 全尺寸图片幻灯片

图 2 基于改进型朴素贝叶斯算法的行业类别预测模型

Figure 2. Improved naive Bayesian algorithm-based industry category prediction model

下载: 全尺寸图片幻灯片

图 3 8个基于多源数据的土壤污染重点行业词云

Figure 3. Eight word clouds based on the multi-source data-based soil contamination key middle-class industry

下载: 全尺寸图片幻灯片

图 4 不同权重引起的朴素贝叶斯算法性能比较

Figure 4. Performance comparison of the naive Bayesian algorithm by different weights

下载: 全尺寸图片幻灯片

图 5 不同平滑参数α引起的朴素贝叶斯算法性能比较

Figure 5. Performance comparison of the naive Bayesian algorithm by different α parameter values

下载: 全尺寸图片幻灯片

图 6 研究区中行业企业空间分布

Figure 6. Spatial distribution of the industry enterprises in the study area

下载: 全尺寸图片幻灯片

表 1 自关联表

Table 1. Self-correlation table

当前类别标识	类别名称	分类说明	上级类别标识
193	毛皮鞣制及制品加工	—	—
1 931	毛皮鞣制加工	指带毛动物生皮经鞣制等化学和物理方法处理后，保持其绒毛形态及特点的毛皮(又称裘皮)的生产活动	193
注：“毛皮鞣制加工”为小类名称；“毛皮鞣制及制品加工”为中类名称。

下载: 导出CSV

表 2 不同行业分类预测算法性能比较

Table 2. Performance comparison of the different industry category prediction algorithms

算法类型	P	R	F₁
随机森林	0.28	0.28	0.28
XGBoost	0.31	0.29	0.30
朴素贝叶斯	0.35	0.36	0.35

下载: 导出CSV

表 3 不同有语义词汇库构建方法引起的朴素贝叶斯算法性能比较

Table 3. Performance comparison of the naive Bayesian algorithm by different sematic database construction methods

有语义词汇库构建方法	P	R	F₁
企业名称	0.35	0.38	0.36
企业名称+经营范围	0.58	0.61	0.59

下载: 导出CSV

表 4 改进型朴素贝叶斯模型的预测结果

Table 4. Prediction results of the improved naive Bayesian algorithm

序号	中类行业名称	企业数量/家	序号	中类行业名称	企业数量/家
1	金属表面处理及热处理加工	207	14	其他仓储业	51
2	铁合金冶炼	196	15	炼铁	48
3	专用化学产品制造	167	16	电池制造	46
4	农药制造	118	17	皮革鞣制加工	47
5	常用有色金属冶炼	113	18	环境卫生管理	40
6	基础化学原料制造	102	19	贵金属冶炼	23
7	合成材料制造	100	20	炸药、火工及焰火产品制造	11
8	毛皮鞣制及制品加工	94	21	常用有色金属矿采选	10
9	涂料、油墨、颜料及类似产品制造	85	22	铁矿采选	9
10	环境治理业	82	23	棉纺织及印染精加工	5
11	纸浆制造	80	24	稀有稀土金属矿采选	1
12	炼钢	73	25	贵金属矿采选	1
13	稀有稀土金属冶炼	64	26	化学药品原料药制造	1

下载: 导出CSV

[1]	宋昕, 林娜, 殷鹏华. 中国污染场地修复现状及产业前景分析[J]. 土壤, 2015, 47(1): 1-7.
[2]	李梦瑶. 中国污染场地环境管理存在的问题及对策[J]. 中国农学通报, 2010, 26(24): 338-342.
[3]	王夏晖. 大数据: 场地污染智能识别与风险精准管控驱动力[J]. 环境保护, 2019, 47(3): 14-16.
[4]	FAZIO M, CELESTI A, PULIAFITO A, et al. Big data storage in the cloud for smart environment monitoring[J]. Procedia Computer Science, 2015, 52: 500-506. doi: 10.1016/j.procs.2015.05.023
[5]	李赛. 大数据环境下突发事件应急决策支持系统研究[D]. 武汉: 华中师范大学, 2016.
[6]	周煜申, 康望星, 沈存, 等. 大数据在水环境综合评价预警中的应用研究[J]. 江苏科技信息, 2017, 34(35): 52-54. doi: 10.3969/j.issn.1004-7530.2017.35.018
[7]	HENGL T, DE JESUS J M, HEUVELINK G B M, et al. SoilGrids250m: Global gridded soil information based on machine learning[J]. Plos One, 2017, 12(2): 1-40.
[8]	马丽萍, 曹国良, 郝国朝. 基于大数据的大气污染防治方式优化探究-以西安市为例[J]. 环境与可持续发展, 2018, 43(2): 54-56. doi: 10.3969/j.issn.1673-288X.2018.02.014
[9]	铁晓波. 大数据平台下基于人工免疫系统的MBR膜污染研究[D]. 天津: 天津工业大学, 2017.
[10]	赵苗苗, 赵师成, 张丽云, 等. 大数据在生态环境领域的应用进展与展望[J]. 应用生态学报, 2017, 28(5): 1727-1734.
[11]	WANG D S, LIU J Z, ZHU A X, et al. Automatic extraction and structuration of soil-environment relationship information from soil survey reports[J]. Journal of Integrative Agriculture, 2019, 18(2): 328-339. doi: 10.1016/S2095-3119(18)62071-4
[12]	CHEN S, LIANG Z, WEBSTER R, et al. A high-resolution map of soil pH in China made by hybrid modelling of sparse soil data and environmental covariates and its implications for pollution[J]. Science of the Total Environment, 2019, 655: 273-283. doi: 10.1016/j.scitotenv.2018.11.230
[13]	JIA X, HU B, MARCHANT B P, et al. A methodological framework for identifying potential sources of soil heavy metal pollution based on machine learning: A case study in the Yangtze Delta, China[J]. Environmental Pollution, 2019, 250: 601-609. doi: 10.1016/j.envpol.2019.04.047
[14]	NASFI R, AMAYRI M, BOUGUILA N. A novel approach for modeling positive vectors with inverted Dirichlet-based hidden Markov models[J]. Knowledge-Based Systems, 2020, 192: 1-17.
[15]	ARPAIA P, CESARO U, CHADLI M, et al. Fault detection on fluid machinery using Hidden Markov Models[J]. Measurement, 2020, 151: 1-7.
[16]	黄春梅, 王松磊. 基于词袋模型和TF-IDF的短文本分类研究[J]. 软件工程, 2020, 23(3): 1-3.
[17]	王方伟, 杨少杰, 赵冬梅, 等. 基于改进TF-IDF的多态蠕虫特征自动提取算法[J]. 华中科技大学学报(自然科学版), 2020, 48(2): 79-84.
[18]	何敏, 武德安, 吴磊. 基于MapReduce的平均多项朴素贝叶斯文本分类[J]. 计算机应用研究, 2016, 33(1): 115-117. doi: 10.3969/j.issn.1001-3695.2016.01.027
[19]	赵博文, 王灵矫, 郭华. 基于泊松分布的加权朴素贝叶斯文本分类算法[J]. 计算机工程, 2020, 46(4): 91-96.
[20]	徐光美, 刘宏哲, 张敬尊, 等. 用平滑方法改进多关系朴素贝叶斯分类[J]. 计算机工程与应用, 2017, 53(5): 69-72. doi: 10.3778/j.issn.1002-8331.1507-0161
[21]	陈凯, 黄英来, 高文韬, 等. 一种基于属性加权补集的朴素贝叶斯文本分类算法[J]. 哈尔滨理工大学学报, 2018, 23(4): 69-74.

点击查看大图

图( 6) 表( 4)

计量

文章访问数: 4181
HTML全文浏览数: 4181
PDF下载数: 106
施引文献: 0

1. 材料与方法
1.1 实验装置
1.2 基质和接种污泥
1.3 实验设置
1.4 测定项目和方法
2. 结果与讨论
2.1 反应装置的启动及运行性能
2.2 动态膜的截留性能
2.3 运行参数的优化调控
3. 结论

全文HTML

近年来，场地土壤污染问题越来越受到公众和社会的关注^[1-2]。我国在汲取国外近40年治理经验的基础上，提出了“预防为主，保护优先，风险管控”的场地土壤污染防治策略，初步形成了包括法律、法规、导则、指南和规章在内的一整套相对较为完善的场地土壤风险管控体系。尽管如此，我国场地土壤污染风险管理依然处于刚刚起步阶段，尤其是土壤污染底数不清。目前，主要采用现场踏勘、人员访谈、资料分析并结合日常监管等方式进行疑似污染场地识别，但是，这些传统方式的精准性不高、科学性不足、全面性不够，工作效率较低。

近年来，大数据在生态环境保护领域的研究与应用得到了快速发展^[3-10]，特别是利用大数据开展土壤污染风险识别与风险管控的研究越来越受到研究者的关注^[11-13]。针对非结构化调查报告，利用自然语言处理，自动提取和生成结构化土壤污染信息，实现土壤数据分析已见报道^[11]。有学者基于第二次土地调查数据，结合高程、地貌、土地类型等17个环境协变量数据，利用随机森林、极端梯度提升等，绘制了高精度的全国土壤pH空间分布地图，并推测了土壤重金属环境容量^[12]。值得一提的是，JIA等^[13]考虑到政府部门间存在数据孤岛、数据共享难度大等问题，以长江三角洲地区为研究区，基于兴趣点(Point Of Interest)的非结构化文本数据，利用多项式朴素贝叶斯算法，识别了疑似土壤污染企业，对场地调查评估、风险管控等环境管理提供了良好的决策支撑作用。但是，该研究仅能识别《国民经济行业分类》(GB/T 4754-2017)中大类行业企业，利用企业名称构建有语义词汇库，且未构建无语义词汇库^[13]。识别中类甚至小类行业以提高预测精度、增加有语义词汇库库容以克服朴素贝叶斯算法的过度拟合和零概率现象、构建无语义词汇库以降低维数和提高运算速度等已成为疑似土壤污染企业识别中迫切需要解决的问题。

鉴于此，本研究以南方某地级市为研究区，借助大数据平台，基于自然语言处理和机器学习，尝试利用改进型朴素贝叶斯算法，预测POI数据中企业所属中类行业类别，识别疑似土壤污染企业，以期为场地污染识别与风险管控实践提供理论依据和设计参数。

3. 结论

1)在行业分类预测时，朴素贝叶斯算法的性能优于随机森林算法和XGBoost算法的性能。

2)与仅采用企业名称相比，采用企业名称+经营范围构建有语义词汇库后，朴素贝叶斯算法的准确率、召回率和F₁值均得到大幅提升，可将其作为最佳的有语义词汇库构建方法。

3)采用权重1.27和平滑参数α为1.10后，建立了改进型朴素贝叶斯模型，相应的准确率、召回率和F₁值分别为0.63、0.62和0.63，进而获得了最佳的分类预测性能。

4)利用改性型朴素贝叶斯模型识别出研究区中28个疑似土壤污染行业有关1774家企业，其在各区(市、县)均存在集聚区，特别是在A、B、C区最为集中。

参考文献 (21)

基于自然语言处理和机器学习的疑似土壤污染企业识别

作者简介: 黄国鑫(1980—)，男，博士，副研究员。研究方向：土壤和地下水污染防治。E-mail：huanggx@caep.org.cn

通讯作者: 王夏晖(1975—)，男，博士，研究员。研究方向：生态保护修复及土壤污染防治。E-mail：wangxh@caep.org.cn;

Natural language processing and machine learning-based suspected soil contamination enterprise identification

Corresponding author: WANG Xiahui, wangxh@caep.org.cn ;

1. 材料与方法

1.1 实验装置

1.2 基质和接种污泥

1.3 实验设置

1.4 测定项目和方法

2. 结果与讨论

2.1 反应装置的启动及运行性能

2.2 动态膜的截留性能

2.3 运行参数的优化调控

3. 结论

计量

出版历程

基于自然语言处理和机器学习的疑似土壤污染企业识别

通讯作者: 王夏晖(1975—)，男，博士，研究员。研究方向：生态保护修复及土壤污染防治。E-mail：wangxh@caep.org.cn;

作者简介: 黄国鑫(1980—)，男，博士，副研究员。研究方向：土壤和地下水污染防治。E-mail：huanggx@caep.org.cn 1. 生态环境部环境规划院，北京 100012 2. 中国地质大学(北京)水资源与环境学院，北京 100083

English Abstract

Natural language processing and machine learning-based suspected soil contamination enterprise identification

Corresponding author: WANG Xiahui, wangxh@caep.org.cn ;

全文HTML

1.1. 基础数据及预处理

1.2. 大数据软硬件环境

1.3. 大数据技术架构

1.4. 基于改进型朴素贝叶斯算法的中类行业类别预测与污染企业识别

1.5. 实验设计

1.6. 数据分析方法

2.1. 不同土壤污染重点行业词云

2.2. 行业分类预测算法筛选

2.3. 有语义词汇库构建方法

2.4. 朴素贝叶斯模型优化

2.5. 行业企业空间分布

目录

全文HTML

1.1. 基础数据及预处理

1.2. 大数据软硬件环境

1.3. 大数据技术架构

1.4. 基于改进型朴素贝叶斯算法的中类行业类别预测与污染企业识别

1.5. 实验设计

1.6. 数据分析方法

2.1. 不同土壤污染重点行业词云

2.2. 行业分类预测算法筛选

2.3. 有语义词汇库构建方法

2.4. 朴素贝叶斯模型优化

2.5. 行业企业空间分布

作者简介: 黄国鑫(1980—)，男，博士，副研究员。研究方向：土壤和地下水污染防治。E-mail：huanggx@caep.org.cn
1. 生态环境部环境规划院，北京 100012

2. 中国地质大学(北京)水资源与环境学院，北京 100083