上海品茶

您的当前位置:上海品茶 > 报告分类 > PDF报告下载

8、梁中耀-基于机器学习的蓝藻预测预警方法研究(24页).pdf

编号:91486 PDF 24页 1.58MB 下载积分:VIP专享
下载报告请您先登录!

8、梁中耀-基于机器学习的蓝藻预测预警方法研究(24页).pdf

1、基于机器学习基于机器学习的的蓝藻预测预警蓝藻预测预警方法研究方法研究1 北京英特北京英特-锐锐思计算智能实验室思计算智能实验室2 北京大学北京大学第五届中国水环境模型与智能决策研讨会第五届中国水环境模型与智能决策研讨会云南云南 玉溪玉溪2018年年10月月Email:1邹锐邹锐1,2、梁中耀、梁中耀2、刘永、刘永21 1 大数据时代:大数据时代:水质预测预警的机遇与挑战水质预测预警的机遇与挑战21 1.1.1 水质管理进入大数据时代水质管理进入大数据时代 水质管理大数据水质管理大数据(Big or Intensive Data)的来源的来源 手动监测数据的时空累积和开放获取手动监测数据的时空累

2、积和开放获取 自动监测站的建立和自动监测站的建立和自动监测数据自动监测数据的开放获取的开放获取 遥感解译遥感解译 高高精度精度水质模型的水质模型的输出输出结果结果 水质管理:预测和预警水质管理:预测和预警 预测预测:水质:水质指标指标(未来时刻未来时刻)的的浓度值浓度值 预警预警:水质指标:水质指标未来时刻的未来时刻的达标达标(超过特定阈值超过特定阈值)状况状况 蓝藻的预测和预警蓝藻的预测和预警 富营养化和藻类水华:危害严重,形势严峻富营养化和藻类水华:危害严重,形势严峻 大大数据时代数据时代(长时间连续观测数据长时间连续观测数据):如何进行有效的预测预警:如何进行有效的预测预警31.21.2

3、 自动监测数据自动监测数据预测和预警:机遇预测和预警:机遇和和挑战挑战 自动监测数据自动监测数据 VS VS 常规监测数据常规监测数据数据数据自动监测自动监测常规监测常规监测频次频次高高(秒、小时、天秒、小时、天)低低(周、月周、月)数据量数据量大大(M、G)小小(K)自相关自相关强强弱、无弱、无42 2 一种思路:一种思路:“水质模型“水质模型-机器学习”机器学习”52.12.1 如何解决传统方法失效问题如何解决传统方法失效问题()()()()()11111,=,tfttftittitCttCttttttottotttfWhxbiWhxbCtanh WhxbCfCiCoWhxbhotanh

4、C=+=+=+=+=()()()()()()123456 回归方法:共线性、非线性回归方法:共线性、非线性 一般机器学习方法:高维度一般机器学习方法:高维度 普通普通递归递归神经网络:神经网络:误差爆炸或消失误差爆炸或消失无法解决长时依赖问题无法解决长时依赖问题(最多最多10步步)LSTM:保证短期记忆能力的条件下,时滞步长可达保证短期记忆能力的条件下,时滞步长可达1000技术关键:技术关键:Constant Error Backpropagation6 数据数据-模型融合的模型融合的3种方式种方式 在自动监测时间序列缺乏的条件下,通过能够准确描述湖泊系统动态的高度非在自动监测时间序列缺乏的条

5、件下,通过能够准确描述湖泊系统动态的高度非线性动力学模型线性动力学模型(可靠的水质模型可靠的水质模型),获取次生大数据,获取次生大数据72.22.2 如何解决自动监测数据匮乏的问题如何解决自动监测数据匮乏的问题水质模型 湖泊系统次生大数据 观测大数据3 3 案例介绍案例介绍8 输入输入(4(4类类9 9个个)模型结构:模型结构:隐层隐层个数个数1 1(138)(138)、4 4(145)(145)、1010(145)(145)、2020(153)(153)、3030(152)(152)、4040(148)(148)、6060(103)(103)、8080(106)(106)边界边界条件条件天数

6、天数5 5(227)(227)、1010(227)(227)、2020(226)(226)、4040(225)(225)、6060(185)(185)3.13.1 LSTMLSTM模型模型(1)(1)水温:水温:TEMTEM(2)(2)生物量:生物量:CHLCHL、CHCCHC(3)(3)磷:磷:TPTP、TPNTPN、PO4PO4(4)(4)氮:氮:TNTN、TNNTNN、TINTIN1234560.000.100.200.30输入变量个数的出现频率93.23.2 模型输出结果模型输出结果 模型输出与分析对象模型输出与分析对象1090个个LSTM模型,每个模型有模型,每个模型有15组组(实际

7、值实际值 vs 预测预测值,值,预测预测2,4,6,30天天)Chla浓度输出浓度输出占用占用1.58 G存储空间,存储空间,Train文件夹文件夹 1.27 G+Test文件夹文件夹 0.31 G,各,各有有1006个个csv文件文件每个每个Train文件夹中文件夹中csv文件的文件的Chla输出:输出:2877行行 15组组(30列列),共共8600多多万个数据万个数据每个每个Test文件夹中文件夹中csv文件的文件的Chla输出:输出:693行行 15组组(30列列),共,共2000多万多万个个数据数据 回答哪些问题回答哪些问题?模型效果模型效果:能否满足:能否满足CHL的预测与预警效果

8、的预测与预警效果预测与预警效果的影响因素:哪些是重要的预测与预警效果的影响因素:哪些是重要的?指导未来自动监测指导未来自动监测#预警效果对阈值的稳健性:预警效果对阈值的稳健性:80 g/L、100 g/L?103.33.3 模型评价指标模型评价指标 预测预测()()21211niiiniiyyNSEyy=()21TtttyyRMSEn=11TttttyyMAPETy=预警预警()1AccuracyPrecisionRecall2Precision RecallPrecision RecallTPTNTPFPFNTNTPTPFPTPTPFNF+=+=+=+=+过拟合:比较训练样本和检验样本的过拟

9、合:比较训练样本和检验样本的NSENSE114 4 预测效果和影响因素预测效果和影响因素1213很好一般很差0123(a)Density Function0.00.51.0-0.50.00.51.0(b)Distribution FunctionNSE4.14.1 LSTM模型效果评估模型效果评估 NSENSE的分布的分布大量模型可达很好预测效果满意满意(0.65):54.3%较好较好(0.80):18.8%很好很好(0.90):2.6%0.394(a)LSTM因子重要度0.000.050.100.150.200.25(b)RF错误概率TEMTPTNCHLLatentPO

10、4TINPreDayBorder3.9%3.9%4.24.2 预测效果的影响因素预测效果的影响因素 第一次随机森林模型第一次随机森林模型 预测变量:离散化的预测变量:离散化的NSE(0.394)High(77.4%);Low(22.6%)输入变量:输入变量:变量名称变量名称变量类型变量类型变量水平变量水平TEMTEM因子因子2个:个:Y、NPO4PO4因子因子2个:个:Y、NTINTIN因子因子2个:个:Y、NCHLCHL因子因子3个:个:CHL、CHC、NCHTPTP因子因子3个:个:TP、TPN、NTPTNTN因子因子3个:个:TN、TNN、NTN隐层个数隐层个数数值数值8个:个:1、4、

11、10、20、30、40、60、80边界天数边界天数数值数值5个:个:5、10、20、40、60预测天数预测天数数值数值15个:个:230的偶数的偶数 结果:因子重要度结果:因子重要度154.24.2 预测效果的影响因素预测效果的影响因素-0.500.51TEMPO4TINNTPTPTPNNTNTNTNNCHCCHLNCH有有无无P PNNB BTNN&TPNTNN&TPN 包含包含TEM则则NSE均较高,模型均为均较高,模型均为High 包含包含CHL或或CHC则则NSE均较高,模型均为均较高,模型均为High 包含包含TPN或或TNN模型可以为模型可以为Low 但当但当TPN或或TNN与与T

12、EM或或CHL(CHC)同时作为同时作为输入变量时,模型均为输入变量时,模型均为High164.24.2 预测效果的影响因素预测效果的影响因素 第二次随机森林模型第二次随机森林模型 预测变量:预测变量:NSE(0.394)04812(a)LSTM因子重要度0.250.500.751.00(b)RF方差解释率CHLPreDayTEMTPTNLatentPO4TINBorder0.730.730.40.60.81.0TEMNTPTPTPNCHCCHLNCH0.680.700.725204060(a)边界条件天数80(b)隐层个数174.24.2 预测效果的影响因素预测效果的影

13、响因素TEM,CHL(CHC),TPN(TP)TEM+CHL(CHC)+TPN(TP)组合组合 平均效果:平均效果:30天内天内0.65,14天内天内0.8 最佳效果最佳效果:30天天内内0.8,16天天内内0.90.40.60.81.01230.50.60.70.80.91.0481216202428预测天数Mean(1)Mean(2)Mean(3)Max(3)184.34.3 预警效果的影响因素预警效果的影响因素 CHLCHL的分布的分布:阈值阈值=100 g/L=100 g/L0.0000.010(a)概率密度0501001500.000.501.00(b)累积概率密度0.70.7 响应

14、变量:预警评价指标响应变量:预警评价指标?有有警:准确率警:准确率?有效率?有效率?无无警:准确率警:准确率?有效率有效率?TPPRW=TP+FNTPEFW=TP+FPTNPRC=TN+FPTNEFC=TN+FNCHL(g/L)0.540.750.920.83194.34.3 预警效果的影响因素预警效果的影响因素 第三次随机森林模型第三次随机森林模型 预测变量预测变量:PRW(预警准确率预警准确率)0102030(a)LSTM因子重要度0.250.500.75(b)RF方差解释率CHLPreDayTEMLatentTPTNBorderPO4TIN0.000.501.00TEMNTPTPTPNC

15、HCCHLNCH0.40.50.6420406080(a)隐层个数481216202428(b)预测天数204.34.3 预警效果的影响因素预警效果的影响因素TEM,CHL(CHC)0.30.40.50.60.70.80.91.0481216202428预测天数TEM+CHL+Latent40TEM+CHL+Latent0.6,12天天0.7 最佳效果最佳效果:可高达:可高达0.91.00.50.70.902468EFWPRCEFC有警有警准确率为准确率为70%70%有效率为有效率为75%75%无无警警准确率为准确率为90%90%有效率为有效率为86%86%215 5 结论结论225 5 结论

16、结论 案例:案例:CHLCHL预测预警预测预警 TEM+CHL+TPTEM+CHL+TP为影响预测预警效果的主要因子为影响预测预警效果的主要因子 预警效果预警效果(PRW)(PRW)则随着则随着预测天数预测天数而较快地递减而较快地递减 EFDC+LSTM+RFEFDC+LSTM+RF方法体系方法体系 自动监测数据缺乏时,产生高频数据的明智之举自动监测数据缺乏时,产生高频数据的明智之举(次生大数据次生大数据)高频监测数据高频监测数据下下水质影响因子的识别方法,有利于提高对水环境系统的认知水质影响因子的识别方法,有利于提高对水环境系统的认知 未来研究未来研究预警效果与预警阈值预警效果与预警阈值的的稳健性稳健性提高提高较长期较长期(例如例如1515天天)的预警效果的预警效果真实真实的自动监测数据:的自动监测数据:预处理预处理&应用应用23谢谢各位老师和同学谢谢各位老师和同学敬请批评指正敬请批评指正24

友情提示

1、下载报告失败解决办法
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。

本文(8、梁中耀-基于机器学习的蓝藻预测预警方法研究(24页).pdf)为本站 (云闲) 主动上传,三个皮匠报告文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三个皮匠报告文库(点击联系客服),我们立即给予删除!

温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。
会员购买
客服

专属顾问

商务合作

机构入驻、侵权投诉、商务合作

服务号

三个皮匠报告官方公众号

回到顶部