基于极限学习机算法对太湖东部湖区水源地总磷数据的自动监测分析

崔嘉宇; 郭蓉; 张悦; 徐亮; 钟声; 董圆媛; 李心雨

doi:10.12030/j.cjee.202009182

基于极限学习机算法对太湖东部湖区水源地总磷数据的自动监测分析

1.
江苏省环境监测中心，南京 210019
2.
江苏省苏力环境科技有限责任公司，南京 210036
3.
南京大学环境学院，南京 210093

作者简介: 崔嘉宇(1988—)，男，硕士，工程师。研究方向：水环境监测、分析。E-mail：cjy19881029@163.com

通讯作者: 郭蓉(1985—)，女，硕士，高级工程师。研究方向：水环境监测与污染防治。E-mail：guorong@jshb.gov.cn;

基金项目:
国家水体污染控制与治理科技重大专项(2017ZX07302-003)；2018年江苏省环保科研课题(重大技术攻关类)(2018008)；江苏省环境监测科研基金项目(2003)
中图分类号: X832；X524

Analysis of automatic monitoring data of total phosphorus in drinking water source in east Taihu Lake based on improved extreme learning machine algorithm

1.
Jiangsu Environmental Monitoring Center, Nanjing 210019, China
2.
Jiangsu Suli Environmental Science and Technology Co., Ltd, Nanjing 210036, China
3.
School of the Environment, Nanjing University, Nanjing 210093, China

Corresponding author: GUO Rong, guorong@jshb.gov.cn ;

摘要: 对太湖东部湖区金墅港和渔洋山水源地总磷自动监测值与实验室监测值进行比对分析，基于相关性分析，选取对自动监测总磷浓度影响较大的浊度、蓝绿藻和叶绿素等指标，提出可选择极限学习机隐层节点的改进极限学习机模型(IELM)修正自动监测总磷数据。结果表明，总磷自动监测值相对实验室监测值偏差较大，绝对误差范围在0.05~0.112 mg·L⁻¹，平均绝对误差为0.017 mg·L⁻¹。若以相对误差小于或等于30%作为比对合格的标准值，总磷自动监测数据合格率仅为52.9%。经过IELM算法模型训练和测试，训练均方误差为0.000 073 5，测试均方误差为0.000 103。经过模型修正后的自动监测总磷数据更接近实验室监测值，其平均绝对误差降低0.026 mg·L⁻¹，平均相对误差降低45%。按比对误差30%计算，模型修正后的总磷自动监测数据合格率为92.0%，可应用于自动监测总磷数据的修正。
- 总磷 /
- 自动监测 /
- 改进极限学习机 /
- 隐层节点 /
- 修正数据
Abstract: A comparative analysis was performed on the concentration of total phosphorus measured in the Jinshugang and Yuyangshan drinking water source areas in East Taihu Lake by automatic water monitoring and the laboratory method. Three key factors were found to influence the automatic monitoring of total phosphorus according to a correlation analysis, i.e. water turbidity, algal density and chlorophyll-a. The three parameters were introduced into the improved extreme learning machine model (IELM) for correction of automatic water monitoring data of total phosphorus. Compared with laboratory method, the total phosphorus concentrations measured by automatic water monitoring were shown to have relatively large errors with absolute error ranging between 0.05 mg·L⁻¹ and 0.112 mg·L⁻¹ and the mean absolute error being 0.017 mg·L⁻¹. The training error was 0.0000735 and test error was 0.000103 after the training and testing of the IELM model. The measurement results by the application of IELM showed better performance. With 30% of relative error rate as judgment criteria, the eligible rates increased from 52.9% to 92.0%, the absolute error decreased by 0.026 mg/L on average, and the relative error rate dropped by 45%. The results in this study show the promise of application of IELM model in correction of automatic monitoring of total phosphorus in the field.
- total phosphorus /
- automatic monitoring /
- improved extreme learning machine algorithm /
- hidden node /
- corrected data

总磷(total phosphorus，TP)是表征水体富营养化程度的重要污染特征因子，是评价水质的重要指标之一。磷是促进生物生长的重要元素，水体环境中磷浓度过高会导致藻类过度繁殖，造成水体富营养化^[1]。目前，我国国标规定的TP测定方法为钼酸铵分光光度法(GB 11893-1989)。传统的TP监测具有准确性高、抗干扰性强、质控体系完善等优点，但需要占用大量时间、人力和物力，难以实时反映水质变化情况，故无法满足水源地水质安全监控需求。水中TP的自动监测可实现实时在线监测，已经成为环保、水利等部门水质监测的主要手段^[2]。然而，传统TP自动监测方法的抗干扰性弱，易受水体色度与浊度(Turb)的变化及样品处理条件等干扰^[3]，不确定性较高，且监测结果与同步实验室的结果相比存在一定差异，故无法精准反映水体的实际情况。

近年来，人工神经网络广泛应用于水质研究。传统的神经网络通过误差反馈不断调整权重可解决一些实际问题，但梯度下降算法容易导致学习陷入局部最优状态、学习过程耗时长等问题。针对上述问题，HUANG等^[4-5]提出了极限学习机算法(extreme learning machine，ELM)。该算法由广义逆直接求得输出层权重，在确保精度的同时提升了算法的学习速度。ELM已被探索应用于环境领域的研究中。张颖等^[6]基于粒子群算法优化的极限学习机对淮河水质进行类别判定；崔东文^[7]构建了基于ELM的湖库TP、TN模型，具备参数选择简便、训练速度快、不会陷入局部最优值等优点；边冰等^[8]验证了深度极限学习机在水质预测方面具备合理性和可行性。

本研究基于江苏省环境监测中心在太湖东部湖区金墅港和渔洋山水源地建设的2个水质自动监测站TP数据，分析TP自动监测与实验室监测的差距及其影响因素。采用改进的极限学习机算法，建立包含TP自动监测数据、相关影响因子及TP实验室监测数据的学习机模型，修正TP自动监测数据，以便进一步缩小与实验室数据的差异，更好地表征水源地TP的真实状况，为太湖环境综合治理提供参考。

1. 材料与方法

1.1 研究区域概况

太湖富营养化问题突出。多年来，大多研究集中在蓝藻水华问题形势严峻的太湖西部和北部区域^[9]，而对太湖东部湖区的研究相对较少。根据江苏省环境监测中心长期水质及卫星遥感监测结果，2016年前，太湖东部湖区水质较好，TP较低，未曾出现蓝藻水华现象；而2016年以后，太湖东部湖区开始出现蓝藻水华，同时TP逐渐升高。一是由于入湖的磷污染物大幅增加，并通过湖体水动力变化，逐年从西向东迁移^[10]；二是由于东太湖水生植被的大量减少，沉水植物对磷元素的吸收相应减少，增加了风浪对底泥扰动导致的内源性营养盐的释放^[11]。此外，TP变化还与风向、风速等因素密切相关^[12]。2019年个别月份，太湖东部湖区金墅港和渔洋山水源地的TP甚至超过地表水环境质量标准(GB 3838-2002)集中式生活饮用水源地二级保护区Ⅲ类标准值，直接威胁饮用水水源地水质安全。

1.2 数据处理

太湖东部湖区金墅港、渔洋山水源地(位置如图1所示)的TP自动监测数据频次为每2 h一次，较高的数据量可实现TP的有效监测。目前，这2处水源地的TP自动监测仪器是日本岛津TNP4110，测定原理是采用碱性过硫酸钾消解-紫外分光光度法分析水样中的TP，仪器稳定性好，分析方法符合国家环境保护行业标准HJ 103-2003的要求。然而，若出现较大风浪导致水体浑浊，以及水体中出现过多蓝藻颗粒等情况时，会干扰TP消解和比色过程，此时TP的测定浓度并不能准确反映TP的实际情况^[13]。本研究选用金墅港、渔洋山水源地2016年1月—2020年4月的TP自动监测数据，与实验室监测数据进行比对分析。实验室监测数据频次为每月一次，方式为手工采样。采样点位于自动监测站取水口，样品的采集、运输、保存均执行地表水采样技术规范(HJ 91-2002、HJ 493-2009)。实验室分析采用钼酸铵分光光度法(GB 11893-1989)。实验室监测数据能准确反映水源地TP，可作为TP自动监测数据的真值。比对分析时，自动监测选用在采样时间上与实验室手工采样时间最为临近的一组数据，时间差为0~59 min。

图 1 太湖饮用水水源地监测点位分布图

Figure 1. Monitoring sites in drinking water source in east Taihu Lake

下载: 全尺寸图片幻灯片

1.3 研究方法

极限学习机(ELM)是一个单隐层的神经网络，是在Moore-Penrose矩阵理论基础上提出的快速学习算法^[14-15]。相较传统的神经网络具有训练速度快、参数选择简单、不易陷入局部最优等特点，可运用于水质评价和水质预测等方面。已有研究^[16]表明，ELM 网络模型已在多输入、多输出的水质预测中取得了较好的效果。

根据极限学习机理论^[4-5]，对于一个有L个节点的单隐层神经网络可表示为式(1)。