基于自然语言处理和机器学习的疑似土壤污染企业识别

黄国鑫; 朱守信; 王夏晖; 田梓; 季国华; 卢然; 崔轩; 陈茜

doi:10.12030/j.cjee.202007079

生态环境部环境规划院，北京 100012

中国地质大学(北京)水资源与环境学院，北京 100083

作者简介: 黄国鑫(1980—)，男，博士，副研究员。研究方向：土壤和地下水污染防治。E-mail：huanggx@caep.org.cn

通讯作者: 王夏晖(1975—)，男，博士，研究员。研究方向：生态保护修复及土壤污染防治。E-mail：wangxh@caep.org.cn;

基金项目:

国家重点研发计划项目(2018YFC1800205)；生态环境部环境规划院青年科技创新基金(2018年度)

中图分类号: X322

Natural language processing and machine learning-based suspected soil contamination enterprise identification

Chinese Academy for Environmental Planning, Beijing 100012, China

School of Water Resources and Environment, China University of Geosciences (Beijing), Beijing 100083, China

Corresponding author: WANG Xiahui, wangxh@caep.org.cn ;

摘要: 针对污染场地识别的精准性不高、科学性不足、全面性不够和数据共享难度大等问题，以南方某地级市为研究区，借助大数据平台，基于自然语言处理和机器学习，通过引入摘要中热词权重构建改进型朴素贝叶斯模型，并对兴趣点(POI)数据进行中类行业预测和污染企业识别。结果表明，与随机森林算法和XGBoost算法相比，朴素贝叶斯算法的性能最佳；企业名称+经营范围构建有语义词汇库后，朴素贝叶斯算法的准确率、召回率和综合评价指标(F₁)值得到大幅提升，分别提高了0.23、0.23和0.23；采用权重1.27和平滑参数α为1.10后，建立了改进型朴素贝叶斯模型，实现了行业类别预测，相应的准确率、召回率和F₁值分别为0.63、0.62和0.63；识别出研究区中26个疑似土壤污染行业有关1774家企业。改进型朴素贝叶斯模型能够有效地预测疑似土壤污染企业，具有较好的准确率与召回率，能够为场地污染识别与风险管控实践提供理论依据和设计参数。

Abstract: Aiming at the problems of low accuracy, inadequate scientific basis, bad wholeness and the difficulty in data sharing of soil contamination identification, a typical city in South China was selected as the research area. Based on the natural language processing and machine learning, an improved naive Bayesian model was constructed by the weights of hot words from an abstract and then utilized to predict the middle-class industries and identify the relevant contamination enterprises from point of interest (POI) data with a big data platform. The results showed that the performance of the naive Bayesian aggregation was better than that of random forest and XGBoost aggregations; the precision, recall and F₁ values of the naive Bayesian aggregation were improved by 0.23, 0.23 and 0.23 after the semantic vocabulary database was constructed by enterprise name and business scope; the naive Bayesian model that constructed under the weight of 1.27 and smoothing parameter α value of 1.10 could be used for the prediction of the middle-class industries with the precision, recall and F₁ value of 0.63, 0.62 and 0.63, respectively, and 1774 suspected soil contamination enterprises affiliated to 26 industry categories were identified in the research area. Therefore, the improved naive Bayesian model with the good precision and recall values can be effectively used to predict the suspected contamination enterprises, and provides the theoretical bases and design parameters for site contamination identification and risk management.

Key words:

soil contamination /
natural language processing /
machine learning /
middle-class industries /
contamination enterprise identification /
improved naive Bayesian model

当前类别标识

类别名称

分类说明

上级类别标识

193

毛皮鞣制及制品加工

—

1 931

毛皮鞣制加工

指带毛动物生皮经鞣制等化学和物理方法处理后，保持其绒毛形态及特点的毛皮(又称裘皮)的生产活动

193

　　注：“毛皮鞣制加工”为小类名称；“毛皮鞣制及制品加工”为中类名称。

算法类型

F₁

随机森林

0.28

XGBoost

0.31

0.29

0.30

朴素贝叶斯

0.35

0.36

0.35

有语义词汇库构建方法

F₁

企业名称

0.35

0.38

0.36

企业名称+经营范围

0.58

0.61

0.59

序号

中类行业名称

企业数量/家

序号

中类行业名称

企业数量/家

金属表面处理及热处理加工

207

其他仓储业

铁合金冶炼

196

炼铁

专用化学产品制造

167

电池制造

农药制造

118

皮革鞣制加工

常用有色金属冶炼

113

环境卫生管理

基础化学原料制造

102

贵金属冶炼

合成材料制造

100

炸药、火工及焰火产品制造

毛皮鞣制及制品加工

常用有色金属矿采选

涂料、油墨、颜料及类似产品制造

铁矿采选

环境治理业

棉纺织及印染精加工

纸浆制造

稀有稀土金属矿采选

炼钢

贵金属矿采选

稀有稀土金属冶炼

化学药品原料药制造

基于自然语言处理和机器学习的疑似土壤污染企业识别

通讯作者: 王夏晖(1975—)，男，博士，研究员。研究方向：生态保护修复及土壤污染防治。E-mail：wangxh@caep.org.cn;

作者简介: 黄国鑫(1980—)，男，博士，副研究员。研究方向：土壤和地下水污染防治。E-mail：huanggx@caep.org.cn
1. 生态环境部环境规划院，北京 100012

2. 中国地质大学(北京)水资源与环境学院，北京 100083

收稿日期: 2020-07-11

录用日期: 2020-10-26

网络出版日期: 2020-11-11

基金项目:

国家重点研发计划项目(2018YFC1800205)；生态环境部环境规划院青年科技创新基金(2018年度)

关键词:

Natural language processing and machine learning-based suspected soil contamination enterprise identification

Corresponding author: WANG Xiahui, wangxh@caep.org.cn ;

1. Chinese Academy for Environmental Planning, Beijing 100012, China

2. School of Water Resources and Environment, China University of Geosciences (Beijing), Beijing 100083, China

Received Date: 2020-07-11

Accepted Date: 2020-10-26

Available Online: 2020-11-11

Keywords:

soil contamination /
natural language processing /
machine learning /
middle-class industries /
contamination enterprise identification /
improved naive Bayesian model

全文HTML

近年来，场地土壤污染问题越来越受到公众和社会的关注^[1-2]。我国在汲取国外近40年治理经验的基础上，提出了“预防为主，保护优先，风险管控”的场地土壤污染防治策略，初步形成了包括法律、法规、导则、指南和规章在内的一整套相对较为完善的场地土壤风险管控体系。尽管如此，我国场地土壤污染风险管理依然处于刚刚起步阶段，尤其是土壤污染底数不清。目前，主要采用现场踏勘、人员访谈、资料分析并结合日常监管等方式进行疑似污染场地识别，但是，这些传统方式的精准性不高、科学性不足、全面性不够，工作效率较低。

近年来，大数据在生态环境保护领域的研究与应用得到了快速发展^[3-10]，特别是利用大数据开展土壤污染风险识别与风险管控的研究越来越受到研究者的关注^[11-13]。针对非结构化调查报告，利用自然语言处理，自动提取和生成结构化土壤污染信息，实现土壤数据分析已见报道^[11]。有学者基于第二次土地调查数据，结合高程、地貌、土地类型等17个环境协变量数据，利用随机森林、极端梯度提升等，绘制了高精度的全国土壤pH空间分布地图，并推测了土壤重金属环境容量^[12]。值得一提的是，JIA等^[13]考虑到政府部门间存在数据孤岛、数据共享难度大等问题，以长江三角洲地区为研究区，基于兴趣点(Point Of Interest)的非结构化文本数据，利用多项式朴素贝叶斯算法，识别了疑似土壤污染企业，对场地调查评估、风险管控等环境管理提供了良好的决策支撑作用。但是，该研究仅能识别《国民经济行业分类》(GB/T 4754-2017)中大类行业企业，利用企业名称构建有语义词汇库，且未构建无语义词汇库^[13]。识别中类甚至小类行业以提高预测精度、增加有语义词汇库库容以克服朴素贝叶斯算法的过度拟合和零概率现象、构建无语义词汇库以降低维数和提高运算速度等已成为疑似土壤污染企业识别中迫切需要解决的问题。

鉴于此，本研究以南方某地级市为研究区，借助大数据平台，基于自然语言处理和机器学习，尝试利用改进型朴素贝叶斯算法，预测POI数据中企业所属中类行业类别，识别疑似土壤污染企业，以期为场地污染识别与风险管控实践提供理论依据和设计参数。

3. 结论

1)在行业分类预测时，朴素贝叶斯算法的性能优于随机森林算法和XGBoost算法的性能。

2)与仅采用企业名称相比，采用企业名称+经营范围构建有语义词汇库后，朴素贝叶斯算法的准确率、召回率和F₁值均得到大幅提升，可将其作为最佳的有语义词汇库构建方法。

3)采用权重1.27和平滑参数α为1.10后，建立了改进型朴素贝叶斯模型，相应的准确率、召回率和F₁值分别为0.63、0.62和0.63，进而获得了最佳的分类预测性能。

4)利用改性型朴素贝叶斯模型识别出研究区中28个疑似土壤污染行业有关1774家企业，其在各区(市、县)均存在集聚区，特别是在A、B、C区最为集中。

参考文献 (21)

[1]	宋昕, 林娜, 殷鹏华. 中国污染场地修复现状及产业前景分析[J]. 土壤, 2015, 47(1): 1-7.
[2]	李梦瑶. 中国污染场地环境管理存在的问题及对策[J]. 中国农学通报, 2010, 26(24): 338-342.
[3]	王夏晖. 大数据: 场地污染智能识别与风险精准管控驱动力[J]. 环境保护, 2019, 47(3): 14-16.
[4]	FAZIO M, CELESTI A, PULIAFITO A, et al. Big data storage in the cloud for smart environment monitoring[J]. Procedia Computer Science, 2015, 52: 500-506. doi: 10.1016/j.procs.2015.05.023
[5]	李赛. 大数据环境下突发事件应急决策支持系统研究[D]. 武汉: 华中师范大学, 2016.
[6]	周煜申, 康望星, 沈存, 等. 大数据在水环境综合评价预警中的应用研究[J]. 江苏科技信息, 2017, 34(35): 52-54. doi: 10.3969/j.issn.1004-7530.2017.35.018
[7]	HENGL T, DE JESUS J M, HEUVELINK G B M, et al. SoilGrids250m: Global gridded soil information based on machine learning[J]. Plos One, 2017, 12(2): 1-40.
[8]	马丽萍, 曹国良, 郝国朝. 基于大数据的大气污染防治方式优化探究-以西安市为例[J]. 环境与可持续发展, 2018, 43(2): 54-56. doi: 10.3969/j.issn.1673-288X.2018.02.014
[9]	铁晓波. 大数据平台下基于人工免疫系统的MBR膜污染研究[D]. 天津: 天津工业大学, 2017.
[10]	赵苗苗, 赵师成, 张丽云, 等. 大数据在生态环境领域的应用进展与展望[J]. 应用生态学报, 2017, 28(5): 1727-1734.
[11]	WANG D S, LIU J Z, ZHU A X, et al. Automatic extraction and structuration of soil-environment relationship information from soil survey reports[J]. Journal of Integrative Agriculture, 2019, 18(2): 328-339. doi: 10.1016/S2095-3119(18)62071-4
[12]	CHEN S, LIANG Z, WEBSTER R, et al. A high-resolution map of soil pH in China made by hybrid modelling of sparse soil data and environmental covariates and its implications for pollution[J]. Science of the Total Environment, 2019, 655: 273-283. doi: 10.1016/j.scitotenv.2018.11.230
[13]	JIA X, HU B, MARCHANT B P, et al. A methodological framework for identifying potential sources of soil heavy metal pollution based on machine learning: A case study in the Yangtze Delta, China[J]. Environmental Pollution, 2019, 250: 601-609. doi: 10.1016/j.envpol.2019.04.047
[14]	NASFI R, AMAYRI M, BOUGUILA N. A novel approach for modeling positive vectors with inverted Dirichlet-based hidden Markov models[J]. Knowledge-Based Systems, 2020, 192: 1-17.
[15]	ARPAIA P, CESARO U, CHADLI M, et al. Fault detection on fluid machinery using Hidden Markov Models[J]. Measurement, 2020, 151: 1-7.
[16]	黄春梅, 王松磊. 基于词袋模型和TF-IDF的短文本分类研究[J]. 软件工程, 2020, 23(3): 1-3.
[17]	王方伟, 杨少杰, 赵冬梅, 等. 基于改进TF-IDF的多态蠕虫特征自动提取算法[J]. 华中科技大学学报(自然科学版), 2020, 48(2): 79-84.
[18]	何敏, 武德安, 吴磊. 基于MapReduce的平均多项朴素贝叶斯文本分类[J]. 计算机应用研究, 2016, 33(1): 115-117. doi: 10.3969/j.issn.1001-3695.2016.01.027
[19]	赵博文, 王灵矫, 郭华. 基于泊松分布的加权朴素贝叶斯文本分类算法[J]. 计算机工程, 2020, 46(4): 91-96.
[20]	徐光美, 刘宏哲, 张敬尊, 等. 用平滑方法改进多关系朴素贝叶斯分类[J]. 计算机工程与应用, 2017, 53(5): 69-72. doi: 10.3778/j.issn.1002-8331.1507-0161
[21]	陈凯, 黄英来, 高文韬, 等. 一种基于属性加权补集的朴素贝叶斯文本分类算法[J]. 哈尔滨理工大学学报, 2018, 23(4): 69-74.