上海419网(爱上海419/上海龙凤419)

《黄国鑫-第六届中国国际土壤与地下水高峰论坛（已加密）.pdf》由会员分享，可在线阅读，更多相关《黄国鑫-第六届中国国际土壤与地下水高峰论坛（已加密）.pdf（40页珍藏版）》请在三个皮匠报告上搜索。

1、大数据支持的区域土壤污染风险管控决策方法研究Studies on big data-supported decision-making methods for risk control of region-scale soil contamination黄国鑫黄国鑫博士博士研究员研究员 2022年年08月月17日日汇汇报报提提纲纲研究背景与进展13结语风险管控决策系列方法开发2 2研究背景与进展1政府数据开源数据爬取数据p中国科学院数据云p地理空间数据云p地理国情监测云p中国知网平台pp互联网（社交平台、电商）p移动互联网（微信、QQ、短信）p物联网（视频采集器、传感器）p我国

2、场地污染大数据的数据来源与基础土壤和地下水污染大数据：指面向土壤生态环境保护与管理决策的应用服务需要，组织起来的一个超大、难以用现有常规的数据库管理技术和工具处理的数据集。p“七五”土壤背景值调查p全国土壤污染状况调查p全国土壤污染状况详查p全国三次污染源普查p建设项目环境影响评价p疑似污染场地调查、风险评价和治理修复p我国土壤污染我国土壤污染大数据大数据基本形成基本形成我国土壤污染大数据基本形成基于Web of Science核心数据库，利用“土壤污染”“重金属”“风险识别”“风险管控”等主题词，对2010年-2020年文献进行词频分析，分别分析了大数据、传统风险

3、管控研究热点。传统场地污染风险管控研究时序演化分析“大数据和机器学习”为关键词的高频词汇时序演化分析总体总体研究进展研究进展与趋势：与趋势：大数据大数据支持土壤支持土壤污染污染风险管控风险管控研究进展研究进展例例1：基于：基于NLP的的土壤数据提取与结构化土壤数据提取与结构化利用自然语言处理方法，自动提取和结构化文本中的土壤环境信息。基于知识工程法获取信息的流程图（适用于书写格式统一的信息，如坡度、海拔、温度、降水、无霜期）基于随机条件场（CRF）法获取信息的流程图（适用于书写格式非统一的信息，如地形、母质）第一步：

4、知识架构构建第二步：基于规则和统计的信息提取TextsSentence segmentationSentence setDictionaryClause selection for target variableChinese word segmentationPart-of-speech taggingRulebaseExtraction of variable valueTextsAnnotationTraining setValidation setModel trainingCRFs modelPreprocessingEvaluationVariable valuePredictNe

5、w textPreprocessingFeature vectorTheme of frame:value Soil type Elevation:value Landform:value Parent material:value Soil sample Elevation:value Frost-free period:value Annual precipitation:value Wang et al.,2019321j.XnX2X1ymy1借助武汉6个城镇1161个土壤点位数据，以径向基函数神经网络（RBFNN）为基础，利用基于自适应学习的微粒群优化（SLPSO）产生RBFNN输出层

6、的权重和偏差，利用基于自适应调整的均方根反向传播（ARMSProp）优化RBFNN全部参数，进而构建基于深层复合模型（DCM）的土壤重金属浓度预测方法，优化了RBFNN的初始变量、加快了其收敛速度、改进了预测效果。p 不同函数条件下SLPSO的均值和标准偏差均低于其他方法，表明其收敛准确度优于其他方法。Cao and Zhang,2021DCM架构RBFNN结构不同预测模型的土壤Ni浓度预测（RRBFNN-RBFNN+均方根反向传播(RMSProp)；ARBFNN-RBFNN+ARMSProp）迭代后粒子值的均值和标准偏差（PSO-微粒群优化；GPSO-线性转换PSO）Input layerH

7、idden layerOuput layerFunctionAlgorithmMean valueStandard deviationSpherePSO4.50E+034.31E+02 GPSO2.93E+034.99E+02 SLPSO3.75E+021.31E+00QuadricPSO6.29E+041.70E+04 GPSO1.36E+042.90E+03 SLPSO1.65E+035.92E+01Schwefels P2.22PSO2.85E+025.18E+02 GPSO1.78E+013.16E+02 SLPSO5.25E+003.03E-01.研究进展研究进展例例2：基于基于D

8、CM的土壤重金属浓度预测的土壤重金属浓度预测借助98个土壤样品、1960个测试点位数据，围绕野外现场快速检测的可见红外光光谱（350-2500nm），通过深度学习和传统机器学习算法比选，建立基于大数据深度挖掘的土壤As、Cu、Pb预测方法，其中CACNN的准确度最高（相应的R2值分别为0.86、0.74和0.82），缘于卷积自编码器对多维输入数据的高效降维和对多种重金属相关特征的高效分离。深度学习和传统机器学习算法架构：深度学习和传统机器学习算法架构：a-卷神经网络（CNN）；b-配有卷积自编码器的CNN（CACNN）；c-人工神经网络（ANN）；d-随机森林回归（RFR）；e-ANN+主成分

9、分析（PCA）；f-RFR+PCAp 深度学习算法优于传统机器学习算法。深度学习算法优于传统机器学习算法。p CNNCNN和和CACNNCACNN展现出合理的决定系数。展现出合理的决定系数。Pyo et al.,2020野外现场土壤样品快速检测的可见红外光谱仪野外现场土壤样品快速检测的可见红外光谱仪研究进展研究进展例例3：基于：基于CNN的土壤重金属现场快速检测的土壤重金属现场快速检测风险管控决策系列方法开发2 2020301区域土壤重金属污染贡献因子识别混合模型区域土壤重金属污染风险区划分和识别方法基于POI数据的疑似土壤污染企业智能识别方法请在此输入您的标题方法方法：基于基于POI数据的

10、疑似数据的疑似土壤土壤污染污染企业企业智能识别智能识别方法方法p 大数据平台方法方法：基于基于POI数据的疑似数据的疑似土壤土壤污染污染企业企业智能识别智能识别方法方法p 软硬件核心组件结果输出名称分词词频分析模型加载分类预测国民经济行业分类（GB/T 4754-2017)（大中小类行业名称及说明）组织机构代码（企业名称及所属行业）POI兴趣点（企业名称及经纬度）模型应用模型开发模型选取数据输入输入评价预测特征提取清洗企业信息提取无效数据过滤语义分词无意义词语筛除分类词频统计数据抽样随机抽取已知企业数据分类验证模型构建高斯朴素贝叶斯随机森林XGBoost分类结果选取比较验证模型分类效果算法构建

11、根据词频构建构建概率函数模型开发先验概率评价预测函数构造模型优化分词评价函数Alpha函数评价模型部署模型确定算法导出p 大数据框架利用兴趣点（POI)数据进行疑似土壤污染企业识别的大数据架构例：北京市诺银电镀加工有限公司北京市/有限/公司诺银/电镀/加工表面热处理加工行业疑似土壤污染企业方法方法：基于基于POI数据的疑似数据的疑似土壤土壤污染污染企业企业智能识别智能识别方法方法利用隐马尔可夫(H M M)算法进行中文分词基于词频-逆文本频率算法进行词频统计kjijii,jnntf,jjdijDidf：logi,ji,ji,jiidftfd

12、ftfp 大数据算法利用基于权重和摘要的改进型朴素贝叶斯利用基于权重和摘要的改进型朴素贝叶斯（NB）分类器进行中类行业预测）分类器进行中类行业预测不同行业词云统计不同行业词云统计方法方法：基于基于POI数据的疑似数据的疑似土壤土壤污染污染企业企业智能识别智能识别方法方法企业名称分词行业属性关键词频交叉验证结果输出WY1Y2Y3YnX1X2X3XnFXX公司XX冶金XX炼钢XX化工炼铁有色金属冶炼皮革鞣制加工纸浆制造疑似土壤污染企业预测交叉验证与预测数据分类样本数量分割占比数据样本训练集58013290%验证集6445910%待分类数据1988100%p 使用极限

13、梯度提升（XGBoost）、朴素贝叶斯（NB）和随机森林（RF）3种分类器对比分析中类行业类别预测的效果。p 采用基于5次10折交叉验证的网格搜索方法评估3种分类器的性能。p 利用准确率（P）、召回率（R）和F1值评估3种分类器的预测准确性。p 实验设计方法方法：基于基于POI数据的疑似数据的疑似土壤土壤污染污染企业企业智能识别智能识别方法方法p确定最佳的中类行业类别预测分类器为NB。与XGBoost和RF 2个分类器相比，NB分类器具有更大的P值（0.35）、R值（0.36）和F1值（0.35）。p确定最佳的特征词权重为1.27。随着特征词权重从1.00增加至1.27再增加至1.30，P值、

14、R值和F1值分别从0.58、0.61和0.59缓慢升高至0.63、0.68和0.65，然后快速降低至0.59、0.60和0.59。p 行业分类器筛选与优化方法方法：基于基于POI数据的疑似数据的疑似土壤土壤污染污染企业企业智能识别智能识别方法方法（a）（b）p确定最佳的平滑参数为1.10。在平滑参数为1.10时，获得最大的P值（0.63）、R值（0.68）和F1值（0.65）。该参数值可缓解过拟合和零概率现象。p确定最佳的数据增强方式为企业名称+经营范围+污染物特性。当使用企业名称+经营范围+污染物特性构建有语义词汇库时，获得理想的P值（0.87）、R值（0.86）和F1值（0.86）方法方法

15、：基于基于POI数据的疑似数据的疑似土壤土壤污染污染企业企业智能识别智能识别方法方法p 行业分类器筛选与优化（c）（d）-基于企业名称；-企业名称+经营范围；-企业名称+经营范围+污染物特性识别出研究区中250个疑似污染企业，涉及25个中类行业。确定了排名前3的中类行业，分别是金属表面处理及热处理加工（25家）=常用有色金属冶炼（25家）炼钢（20家）。行业中类（代码）行业大类（代码）疑似污染企业数量（家）铁矿采选(081)黑色金属矿采选业(08)4常用有色金属矿采选(091)有色金属矿采选业(09)4贵金属矿采选(092)有色金属矿采选业(09)1稀有稀土金属矿采选(093)有色金属矿采选业

16、(09)1皮革鞣制加工(191)皮革、毛皮、羽毛及其制品和制鞋业(19)6毛皮鞣制及制品加工(193)皮革、毛皮、羽毛及其制品和制鞋业(19)18纸浆制造(221)造纸和纸制品业(22)10基础化学原料制造(261)化学原料和化学制品制造业(26)14农药制造(263)化学原料和化学制品制造业(26)12涂料、油墨、颜料及类似产品制造(264)化学原料和化学制品制造业(26)4合成材料制造(265)化学原料和化学制品制造业(26)15专用化学产品制造（266）化学原料和化学制品制造业(26)15炸药、火工及焰火产品制造(267)化学原料和化学制品制造业(26)2炼铁(311)黑色金属冶炼和压延

17、加工业(31)12炼钢(312)黑色金属冶炼和压延加工业(31)20钢压延加工(313)黑色金属冶炼和压延加工业(31)1铁合金冶炼(314)黑色金属冶炼和压延加工业(31)19常用有色金属冶炼(321)有色金属冶炼和压延加工业(32)25贵金属冶炼(322)有色金属冶炼和压延加工业(32)1稀有稀土金属冶炼(323)有色金属冶炼和压延加工业(32)7金属表面处理及热处理加工(336)金属制品业(33)25电池制造(384)电气机械和器材制造业(38)4其他仓储业(599)装卸搬运和仓储业(59)12环境治理业(772)生态保护和环境治理业(77)14环境卫生管理(782)公共设施管理业(78

18、)4研研究究区区疑疑似似污污染染企企业业识识别别结结果果方法方法：基于基于POI数据的疑似数据的疑似土壤土壤污染污染企业企业智能识别智能识别方法方法p 识别结果分析利用最优的NB分类器（特征词权重为1.27、平滑参数为1.10和企业名称+经营范围+污染物特性增强有语义词汇库）进行研究区中疑似污染企业识别。p 创新性分析建立无语义词库创新点创新点1引入“经营范围”“特征污染物”数据创新点创新点2建立“摘要”，赋予“权重”创新点创新点3黄国鑫等，2020减少计算工作量，提高计算速度，提高预测准确性，实现中类行业预测。王夏晖等，2021方法方法：基于基于POI数据的疑似数据的疑似土壤土壤污染污染企业

19、企业智能识别智能识别方法方法p 技术路线首先，自然语言处理（NLP）+隐马尔可夫（HMM）+朴素贝叶斯（NB）对POI数据进行中类行业类别划分，识别疑似污染企业。其次，核密度评估（KDE）获取疑似污染企业空间分布。再次，随机森林（RF）+反距离加权（IDW）预测重金属浓度，评估贡献因子的贡献，获取重金属空间分布（定量）。最后，双变量局部莫兰指数（BLMI）建立重金属浓度和贡献因子之间的空间聚类和自相关关系（定性）。方法方法：区域土壤重金属污染贡献因子识别：区域土壤重金属污染贡献因子识别混合模型混合模型p 模拟软件方法方法：区域土壤重金属污染贡献因子识别：区域土壤重金属污染贡献因子识别混合模型

20、混合模型p 数据收集577条土壤数据：577个土壤点位的重金属数据（577条）。9个贡献因子数据：疑似污染企业（250家）、矿山（29家）、土壤pH（577条）、土壤有机质（577条）、土壤类型（栅格）、土地利用类型（栅格）、高程（栅格）、河流（矢量）、人口（矢量）。https:/p 数据收集p 土壤重金属污染统计性描述分析 CdCdAsAsHgHgAs、Cd和和Hg浓度范围分别为浓度范围分别为0.26-344.0、0.02-13.96和和0.01-1.51mg/kg，平均值分别为，平均值分别为24.03、0.66和和0.17mg/kg，上四分位数分别为，上四分位数分别为26.08、0.61、

21、0.21mg/kg。As、Cd和和Hg的的背景值分别为背景值分别为22.57、0.55和和0.19mg/kg。As、Cd和和Hg的最大值、平均值、的最大值、平均值、上四分位数上四分位数均超过背景值。均超过背景值。方法方法：区域土壤重金属污染贡献因子识别混合模型：区域土壤重金属污染贡献因子识别混合模型研究区土壤重金属受到人类活动影响。研究区土壤重金属受到人类活动影响。p 重金属浓度预测及空间分布识别 RFRF的预测性能较的预测性能较好，拟合系数（好，拟合系数（R R2 2）高于现有文献中预高于现有文献中预测性能（测性能（As As 0.760.76、Cd Cd 0.600.60和和 Hg Hg

22、0 0.4646）（N=241N=241）（）（Zhang Zhang et al.,2021et al.,2021）。）。AsAs、CdCd和和HgHg高值高值区域主要分布在中区域主要分布在中部地区。部地区。HgHg未超农用地风未超农用地风险管控筛选险管控筛选值（值（GB GB -2018）。）。CdCdAsAsHgHgCdCdAsAsHgHg方法方法：区域土壤重金属污染贡献因子识别：区域土壤重金属污染贡献因子识别混合模型混合模型p 贡献因子的空间分布存在2个疑似污染企业热区，主要分布在研究区中北部；在中北部，具有较高的土壤pH、土壤SOM、人口和建设用地面积

23、，但具有较低的高程。企业企业pHpH有机质有机质高程高程人口人口密度密度土地土地利用利用方法方法：区域土壤重金属污染贡献因子识别：区域土壤重金属污染贡献因子识别混合模型混合模型研究区土壤重金属受到工业活动影响。p 贡献因子的定量评估及主控因子识别 As的前四个贡献因子：企业（24.34%）、河流（21.44%）、土壤pH（16.89%）和土壤有机质（15.38%）。Cd的前四个贡献因子：土壤有机质（39.65%）、高程（24.25%）、人口（14.43%）和土地利用（7.37%）。Hg的前四个贡献因子：高程（35.10%）、土壤pH（15.03%）、人口（14.67%）和土壤有机质（9.44%

24、）。AsAsC Cd dH Hg g方法方法：区域土壤重金属污染贡献因子识别：区域土壤重金属污染贡献因子识别混合模型混合模型在构建基于RF的重金属浓度预测模型过程中，训练集之外的样本（即袋外样本，out of bag(OOB)samples）通过内部交叉验证被用于评估模型的预测性能和评估环境协变量对模型的重要性，进而获取贡献因子的贡献率。除高程外，不同重金属与其主控因子展现出高-高聚类特点。AsAsC Cd dH Hg g 疑似污染企业疑似污染企业河流河流 pH pH 有机质有机质有机质有机质高程高程人口密度人口密度土地土地利用利用高程高程 pH pH 人口密度人口密度有机质有机

25、质p 主控因子的定性评估及空间聚类表征提出不同重金属污染的风险管控措施：砷企业清洁生产、自行监测、涉砷企业防渗、河道清淤、未污染河水灌溉(G u o x i n Huang et al.,JHM,2022)方法方法：区域土壤重金属污染贡献因子识别：区域土壤重金属污染贡献因子识别混合模型混合模型区域尺度地下水污染脆弱性评价区域尺度地下水污染脆弱性评价p 技术路线方法方法：区域土壤重金属污染风险区划分和识别：区域土壤重金属污染风险区划分和识别方法方法首先，随机森林（RF）用于预测土壤重金属浓度，计算每个环境协变量的相对重要性。其次，反距离加权（IDW）用于表征重金属浓度的空间分

26、布。最后，模糊 C 均值（FCM）用于确定风险区分类的最佳数量和划分重金属的污染区域。区域尺度地下水污染脆弱性评价区域尺度地下水污染脆弱性评价p 数据预处理预处理方法：针对字符串型环境协变量（土壤类型、土地利用、植被覆盖和地貌），采用描述性统计方法计算并验证数据的具体分布情况，并按一定规则将字符串变量转化为数值变量（Wu et al.,2016）。数据转换规则：（1）具有正态分布的统计类型用土壤重金属浓度的算术平均值表示；（2）具有对数正态分布的统计类型用土壤重金属浓度的几何平均值表示；（3）具有偏态分布的单位用土壤重金属浓度的中位数来表示。环境协变量环境协变量统计统计分类分类土壤样品

27、土壤样品（个）（个）浓度（浓度（mg/kgmg/kg）AsAsCdCdCrCrCuCuHgHgNiNiPbPbZnZn植被覆盖植被覆盖针叶林针叶林19219214.0814.080.270.2756.4256.4219.8419.840.140.1418.2218.2252.7852.7880.0280.02阔叶林阔叶林646411.2311.230.300.3053.1753.1719.0419.040.190.1910.8410.8474.8174.8188.6788.67灌丛灌丛21721714.2114.210.260.2656.6856.6820.9420.940.140.1414.

28、5114.5156.3856.3888.3188.31栽培植物栽培植物979713.7613.760.320.3254.7354.7319.6819.680.140.1415.3215.3256.7956.7982.9082.90草丛草丛7 727.7227.720.510.5162.1062.1021.8721.870.160.1620.5020.5057.7557.7587.9287.92地貌地貌平原平原18418417.5217.520.380.3865.1465.1423.023.00.180.1815.6015.6057.9857.98101.35101.35丘陵丘陵29629610

29、.1310.130.250.2544.5644.5616.8016.800.130.1312.1412.1459.5059.5074.2974.29盆地盆地5 562.1762.170.640.6470.1270.1225.1025.100.190.1927.0127.0166.9066.9097.2397.23山地山地181832.5832.580.250.2520.2720.270.150.1511.4911.4943.1743.1755.2155.21山谷山谷282844.3944.390.200.2033.1733.170.110.1123.9323.9346.2346.2396.72

30、96.72坡地坡地464624.8324.830.260.2683.4683.4629.8029.800.210.2117.4517.4552.8152.81104.62104.62方法方法：区域土壤重金属污染风险区划分和识别：区域土壤重金属污染风险区划分和识别方法方法p 土壤重金属污染统计性描述分析各重金属浓度均值大于中位数，表明重金属分布不均匀。As、Cd、Cr、Cu和Zn浓度均值大于当地背景值，推测受到人类活动影响。重金属最小值（mg/kg）最大值（mg/kg）中位数（mg/kg）平均值（mg/kg）标准差变异系数（%）背景值（mg/kg）偏度峰度As0.26344.014.0124.0

31、333.6514022.574.3426.21Cd0.0213.960.250.661.322000.555.3736.27Cr4.0885.6056.3357.4649.468652.228.81138.24Cu2.20475.020.2829.5445.1215325.985.9842.91Hg0.011.510.140.170.14820.194.2026.83Ni2.68387.8015.018.9726.7914122.619.14103.22Pb9.392588.1156.0681.72141.5317387.6711.59181.59Zn11.058162.4279.0128.6

32、8409.9231999.4815.85283.86方法方法：区域土壤重金属污染风险区划分和识别：区域土壤重金属污染风险区划分和识别方法方法p 预测模型筛选与优化以均方根误差（RMSE）最小、拟合系数（R2）最大为原则选取最佳土壤污染预测模型（Jia et al.，2017）。ModelAsCdCrCuHgNiPbZn多元线性回归（MLR）RMSE19.941.0823.8262.660.0911.9555.47100.26R20.330.630.540.300.550.430.420.49随机森林（RF）RMSE19.230.9821.5762.370.0910.5659.88105.88R

33、20.860.850.780.850.840.780.790.76 MLR对Cd、Hg和Cr的预测精度较高，对Zn、Ni和Pb的精度略低，对As和Cu最低。RF对As、Cd、Cu和Hg的预测精度最高，对Pb、Cr、Ni和Zn的准确度略低。总体来看，RF与MLR相比，RF能更好地预测土壤中8种重金属浓度。方法方法：区域土壤重金属污染风险区划分和识别：区域土壤重金属污染风险区划分和识别方法方法以均方根误差(RMSE)最小、拟合系数(R2)最大为原则选取最佳RF模型参数(Jia et al.，2017)。p 土壤污染浓度预测模型筛选与优化重金属重金属n ntreetreem mtrytryR R2

34、2RMSERMSE(mg(mg/kgkg)重金属重金属n ntreetreem mtrytryR R2 2RMSERMSE(mg/kg(mg/kg1 1)AsAs50501 10.97160.971619.626619.6266CdCd50501 10.96230.96230.90890.90893 30.91180.911819.776419.77643 30.88820.88820.98730.98735 50.84670.846719.365519.36555 50.83800.83801.00911.00919 90.75530.755319.075119.07519 90.74660

35、.74661.02961.02962002001 10.97920.979219.633019.63302002001 10.97170.97170.91130.91133 30.91950.919519.648519.64853 30.90310.90310.96230.96235 50.85920.859219.207119.20715 50.84630.84630.99300.99309 90.76440.764419.172419.17249 90.75390.75391.04401.04408008001 10.97870.978719.541219.54128008001 10.9

36、7480.97480.91740.91743 30.92120.921219.218019.21803 30.91390.91390.95250.95255 50.86030.860319.232919.23295 50.85290.85290.98830.98839 90.77290.772919.137619.13769 90.76310.76311.04151.04 10.97890.978919.553219.5532100010001 10.97430.97430.91840.91843 30.92130.921319.226519.22653 30.91220

37、.91220.95910.95915 50.8600.86019.254219.25425 50.85120.85120.99640.99649 90.77310.773119.213419.21349 90.76290.76291.04541.0454当ntree=800和mtry=1时，预测性能最佳。方法方法：区域土壤重金属污染风险区划分和识别：区域土壤重金属污染风险区划分和识别方法方法RF预测的8种土壤重金属预测浓度与实测浓度相关关系散点图p 土壤污染浓度预测模型筛选与优化8种重金属浓度的拟合回归线均小于1:1线，说明重金属预测值在高浓度情况下被一定程度低估。方法方法：区域土壤重金属污染

38、风险区划分和识别：区域土壤重金属污染风险区划分和识别方法方法p 重金属污染空间分布特征分析p As在东北部和中部较高；Cd的空间分布与Cu、Hg、Pb、Zn的空间分布相似，主要集中在中北部和中南部；Cr和Ni在东北部较高。p 中北部的重金属污染空间分布与人口、疑似污染企业和交通的分布空间分布保持较好的一致性。利用ArcGIS中反距离加权进行空间插值分析，结合0.50.5km网格空间叠加工具，刻画8种土壤重金属分布特征。方法方法：区域土壤重金属污染风险区划分和识别：区域土壤重金属污染风险区划分和识别方法方法p 土壤污染的影响因子识别As：企业距离(22%)河流距离(17%)pH(12%)；Cd：

39、pH(32%)SOM(23%)人口密度(15%)；Cr：人口密度(16%)企业距离(15%)地形(14%)；Cu：企业距离(21%)pH(20%)河流距离(18%)。方法方法：区域土壤重金属污染风险区划分和识别：区域土壤重金属污染风险区划分和识别方法方法p 重金属污染的影响因子识别Hg：SOM(29%)人口密度(14%)高程(13%)；Ni：企业距离(19%)pH(18%)道路距离(15%)；Pb：河流距离(20%)pH(18%)道路距离(12%)；Zn：pH(27%)河流距离(17%)高程(15%)。方法方法：区域土壤重金属污染风险区划分和识别：区域土壤重金属污染风险区划分和识别方法方法u

40、聚类分析是一种将研究对象划分为相对同质聚类的数据挖掘技术，具有聚类内具有相似性、聚类间则不相似的特点(Saeed et al.，2013)，主要解决大样本数据分析中确定最优分类个数的问题。u 一般地，模糊性能指数（FPI）分布在01之间，其指数值越小，表明聚类时共用数据量越少，划分区域越明显；归一化分类熵（NCE）越小，表明分区时分解量越大。当模糊性能指数和归一化分类熵同时达到最小值时的聚类数为模型的最佳聚类数(Breunig et al.,2020;Farid et al.,2016)。p 重金属污染风险区划分未考虑土壤重金属浓度的分类数量考虑土壤重金属浓度的分类数量方法方法：区域土壤重金属

41、污染风险区划分和识别：区域土壤重金属污染风险区划分和识别方法方法（a）（b）A区面积较大，主要分布在中部及东北部。B区分为两部分，分别位于西部和东南部。A区面积较大，主要分布在中部及东北部。B区主要分布在A区周边及东北部边缘。C区分为两部分，分别位于西部和东南部。D区主要分布在东南部边缘。未考虑土壤重金属浓度的分区结果未考虑土壤重金属浓度的分区结果考虑土壤重金属浓度的分区结果考虑土壤重金属浓度的分区结果p 重金属污染风险区划分方法方法：区域土壤重金属污染风险区划分和识别：区域土壤重金属污染风险区划分和识别方法方法p A区（高风险）：Cd、Cr、Hg、Ni相对较高；土壤pH相对较高；距离企业最近

42、；人口密度最大。加强企业监管，减少三废排放，防止污染泄露；加强生活污水和垃圾集中处理；监控pH变化。p B区（中风险）：As、Cu、Pb和Zn相对较高；距离企业较近；人口密度较大。加强企业监管；减少生活污染物排放。p C区（低风险）：重金属较低；高程大；人口密度低；距离企业、矿山和道路最远。加强建设用地准入。p D区（低风险）：重金属较低；高程大；人口密度低；距离企业、矿山和道路最远。加强建设用地准入。考虑土壤重金属浓度条件下4个风险区的土壤及环境协变量特征变量量纲A区B区C区D区企业km2.294.0511.2822.60矿山km3.445.185.253.49道路km0.761.802.0

43、73.89河流km1.756.822.351.39人口cap/km222.37209.07186.04196.41高程m134.47372.84348.97382.12SOMg/kg16.6318.1619.3815.43pH/5.985.375.074.97Asmg/kg24.7233.6511.4912.24Cdmg/kg0.830.480.270.16Crmg/kg64.8653.4832.1144.79Cumg/kg30.0631.1621.6715.07Hgmg/kg0.190.160.140.13Nimg/kg21.9418.259.4210.98Pbmg/kg81.3994.6090.9562.26Znmg/kg139.61148.5182.4450.65p 重金属污染风险区识别方法方法：区域土壤重金属污染风险区划分和识别：区域土壤重金属污染风险区划分和识别方法方法3结结语语展望展望大数据驱动区域土壤污染风险管控实现从场地污染数据向场地污染信息的转变-用数据说话实现从粗放管理向精细管理的转变-用数据管理实现从被动响应向主动预见的转变-用数据分析实现从专家经验判断向大数据科学决策的转变-用数据决策实现从低效率高成本向高效率低成本的转变-用数据增效