上海品茶

您的当前位置:上海品茶 > 报告分类 > PDF报告下载

常亚敏-GeoScene时空数据治理能力.pdf

编号:128957 PDF 49页 5.09MB 下载积分:VIP专享
下载报告请您先登录!

常亚敏-GeoScene时空数据治理能力.pdf

1、GeoScene空间数据治理能力介绍易智瑞信息技术有限公司常亚敏1.数据治理背景2.GeoScene 时空数据治理能力3.GeoScene 数据治理场景及案例4.优势特性总结目 录1.数据治理背景DAMA(Data Management Association,国际数据管理协会)数据管理知识体系数据治理是对数据资产的管理活动行使权力和控制的活动集合(规划、监控和执行)数据治理职能是指导所有其他数据管理领域的活动数据治理的目的是确保根据数据管理制度和最佳实践正确地管理数据。包括战略、制度、标准和质量、监督、合规、问题管理、数据管理項目、数据资产估值DCMM(Data Management Cap

2、ability Maturity Assessment Model)数据管理能力成熟度评估模型,工信部牵头发布数据治理能力域:数据治理组织、数据治理制度、数据治理沟通DGI(Data Governance Institute,数据治理研究所)数据治理框架5W1H法则:WHY,WHAT,WHO,WHEN,HOW,WHERE 数据治理愿景目标、治理内容、利益干系人、行动计划、治理流程、水平定位数据治理概念Data GovernanceDAMA数据管理知识体系数据治理没有严格的定义,一些国际和国内机构提出了一整套数据治理知识体系和模型框架,用于指导企业级的数据治理活动。通俗的讲,数据治理是对数据进行

3、处置、格式化、规范化的过程,解决数据从不可用、不好用到可用、好用的过程数据分析过程往往没有那么顺畅和理想数据存在问题,清洗数据费时费力探索性分析阶段,反复进行数据处理与模型验证为什么需要数据治理收集数据收集数据数据分析数据分析数据处理数据处理数据清洗数据清洗数据融合数据融合Happy families are all alike;every unhappy family is unhappy in its own way.Leo TolstoyLike families,tidy datasets are all alike,but every messy dataset is messy i

4、n its own way.Hadley Wickham,Tidy data tidyr理想的数据分析 VS 实际的数据分析数据数据分析分析数据数据处理处理数据数据融合融合数据数据清洗清洗收集收集数据数据各业务系统积累数十年的数据,即使在当前信息化的问题初步解决的情况下,仍然存在数据产生/管理的混乱;往往通过离线拷贝方式交换数据,数据版本混乱,难以追溯数据的问题缺少统一管理平台;系统内部,存储分散、交换困难,难以集中应用、共享成效;跨系统、不同管理组织、不同标准的数据难以统一管理车辆不在道路农田数据压盖未融合的数据,难以进行深度分析;如数据分散、质量等问题,也为数据融合制造了困难 历史数据缺少

5、过程管理 数据分散 数据质量参差不齐 未融合,难以深度挖掘缺少数据治理Garbage in Garbage out时空数据组成1基础时空数据矢量数据影像数据高程模型数据地理实体数据地名地址数据三维模型数据测绘产品数据2公共专题数据法人数据人口数据宏观经济数据民生兴趣点数据地理国情普查与监测数据3物联网实时感知数据实时位置信息、影像和视频交通、环保、水利、气象等监控与监测数据4互联网在线抓取数据采用网络爬虫等技术,在线抓取完成任务所缺失的数据时空数据特征2、数据范畴1、来源多样性4、数据量巨大且快速增长类型:点、线、面3、数据组织结构多样性城市级手机信令数据,每天超过10亿条城市级车辆运行轨迹数

6、据,每天超过1亿条国家级国土三调矢量数据超过1TBHDFS文件存储数据库存储格式:Shp、HDFS、PG人类活动产生自然存在空间属性空间尺度时间特性E116.40N39.9时空大数据治理的问题2、数据的感知如何快速了解数据的信息,洞察数据结构4、计算效率数据量大的情况下,如何高效计算能否采用最新的数据存储和计算引擎1、数据的组织和管理如何将离散的的、不同来源、类型、存储格式的数据进行组织管理必要时还需要做数据类型转换3、数据处理工具是否有全面、易用的工具,应对时空数据的数据质量问题和清洗处理2.GeoScene时空数据治理能力GeoScene时空大数据治理架构应用层算法层数据层技术层 CSV数

7、据读取 Shp数据读取 Parquet、ORC数据读取文件型数据源 Oracle数据源 PostgreSQL数据源 Hbase数据源 FileGDB数据源数据库数据源分布式文件系统 HDFS云存储 阿里云 华为云 AWS云存储 微软云存储汇总数据查找位置数据丰富模式分析临近分析管理数据空间分析工具机器学习工具集数据预处理分类与回归聚类大数据基础工具集数据读取数据输出数据清洗空间数据检测数据处理空间几何计算数理统计计算文本计算大数据分析工具集位置分析数据丰富模式分析临近分析空间分析模型算子异常值检测拓扑检测检测差异多边形检测空几何检测工具数据资源数据治理空间分析在线建模资源可管数据可视模式洞察过

8、程追溯任务监控共享协作深度分析自然资源农业气象交通行业城市治理功能模块应用场景数据血缘关系追溯GeoScene GeoAnalytics Server PlusSpark分布式计算框架(支持 Yarn,Standalone 及Local 模式)RunPython ScriptGeoScene时空大数据治理流程数据抽取数据转换数据质检数据清洗数据融合数据服务数据应用 CSV数据读取 Shp数据读取 Parquet、ORC数据读取文件型数据源 Oracle数据源 PostgreSQL数据源 Hbase数据源 FileGDB数据源读取数据库数据源分布式文件系统 HDFS云存储 阿里云 华为云 AWS

9、云存储 微软云存储连接描述感知监测关系追溯时空数据体检套餐差异检测配置检查策略体检规则设置定义体检套餐压盖检测拓扑检查空值检测空间投影数据偏移数据清洗节点计算质心提取数据融合数据追加空间融合属性融合数据状态管理时空关系追溯时空语义描述属性连接空间连接大数据分析服务交通大数据手机信令分析自然资源大数据工具服务算子服务模型服务接口服务资源管理服务算子算法工具模型应用决策GeoScene时空数据治理能力多源数据汇集与管理适配多种主流数据存储类型全流程数据治理覆盖全流程的治理工具数据状态与结构感知数据源状态监控细粒度、多维度结构感知数据血缘关系追溯记录数据流转过程中的每一步变化一体化数据体检套餐式体检

10、工具合集,提升数据质检效率分隔文件(.csv、.tsv 和.txt)Shapefile Parquet 文件(.gz.parquet)ORC 文件(.orc.crc)FileGDB(.gdb)PostgreSQLHbaseHDFSGIS Server共享目录FileGDBPostgreSQLHbaseHDFS共享目录DataStore数据汇集支持不同数据源接入和抽取转换两种方式数据接入:通过注册资源池实现多种来源、多种格式的数据对接,逻辑注册,避免数据冗余抽取转换:支持不同来源数据存储形式转换,数据实体抽取,根据需求灵活转换PostgreSQLOracleGIS ServerHDFSHBase

11、共享目录2.1多源数据汇集与管理适配多种主流空间数据存储类型涵盖关系型、非关系型数据源、文件型数据源、分布式文件系统数据抽取转换数据汇集支持多种数据格式包括点、线、面空间数据及非空间表数据输入数据源:输出数据源:资源池:注册到GA+大数据平台中的数据源,统一称为资源池。非数据集中存储。连接配置编辑共享删除2.1多源数据汇集与管理2.1多源数据汇集与管理资源池管理连接:接入PostgreSQL、GIS Server、HDFS、HBase、共享目录等数据源,细分数据库类型配置:数据项注册,支持手动模式与自动模式,查看、统计、清空资源池更新内容编辑:编辑数据源信息共享:共享级别与范围,设置读写权限删

12、除:删除数据源注册信息细分PG数据库,企业级地理数据库,PostGIS2.1多源数据汇集与管理数据项管理添加:支持资源池注册、单项数据注册、本地文件上传到资源池配置:配置数据名称、几何类型、空间参考、时间字段删除:删除数据项注册信息,不删除原始数据回溯:追溯数据血缘关系有了数据目录,下一步是要观察、初步了解数据信息GeoScene解决数据感知核心问题:有什么、在哪里、如何用,让用户更快速、更深刻地感知数据2.2数据状态与结构感知GeoScene GA+通过解析元数据,动态执行属性统计,洞察数据结构:数据位置 数据格式 数据类别 数据结构 时空范畴 数据分布 复杂程度普通桌面软件了解数据大致信息

13、 空间参考 几何类型想进一步了解数据信息 文件不可读 数据量大,打开数据加载缓慢,甚至软件卡死 数据变化不可知2.2数据状态与结构感知感知数据源状态监控数据源连接状态是否正常原始数据变化:更新、删除、新增感知资源池数据结构数据类型分布数据量分布空间数据几何类型分布感知数据项详细结构数据来源文件类型2.2数据状态与结构感知感知数据源状态监控数据源连接状态是否正常原始数据变化:更新、删除、新增感知资源池数据结构数据类型分布数据量分布空间数据几何类型分布感知数据项详细结构数据来源文件类型2.2数据状态与结构感知属性字段统计,了解数据分布状况感知数据源状态感知资源池数据结构感知数据项详细结构数据来源文

14、件类型空间几何类型坐标系字段结构属性字段统计数据整体复杂度(面数据)提供覆盖全流程的数据质检、清洗、处理、融合工具2.3全流程数据治理数据质检拓扑检测属性字段检测异常要素检测空间关系检测要素差异对比检测数据清洗删除面积异常多边形删除长度异常线删除字段数据处理多边形质心提取节点抽稀线转面空间偏移空间投影多部件转单部件数据融合图层融合边界融合连接要素数据治理:提供常用工具集空间分析、在线建模:更全面、更细粒度的治理和分析工具 数据治理数据质检针对时空数据常见的数据质量问题,提供多种数据质检工具2.3全流程数据治理同一要素自相交多部件数据检测多边形面积为负数异常多边形GPS飞点拓扑检测 检测拓扑 空

15、间自相交检测 检测空几何 检测多边形岛 检测多边形异常外环 检测多边形异常内环异常要素检测狭长多边形检测检测长度异常线检测面积异常多边形空间关系检测检测压盖多边形属性字段检测检测异常值检测空值要素对比检测检测差异多边形常见问题GeoScene质检工具 数据治理数据清洗、处理、融合对于数据质检结果,提供对应的数据处理工具2.3全流程数据治理拓扑检测检测拓扑(输出正常要素)几何拓扑校正检测空几何(输出正常要素)属性字段检测异常要素检测删除长度异常线删除字段删除面积异常多边形删除字段属性过滤变更字段名变更字段类型计算字段补全空值 空间分析共用工程,提供提供了数十种数据分析工具,支持即拿即用、接口调用

16、2.3全流程数据治理聚合点构建多变量格网描述数据集连接要素范围内汇总汇总属性重新构建追踪检测事件查找相似位置查找驻留位置从多变量网格丰富计算动态统计数据计算密度查找热点OD分析创建缓冲区分析追踪邻域事件计算字段边界融合合并图层叠加图层数据去重属性过滤拓扑分析空间投影裁剪图层查找点聚类基于森林的分类与回归广义线性回归K均值聚类高斯混合聚类朴素贝叶斯分类(训练)朴素贝叶斯分类(预测)决策树分类与回归(训练)决策树分类与回归(预测)主成分分析逻辑回归分析地理加权回归数据抽取、空间计算、模式分析、机器学习、洞察预测即拿即用分析工具、接口调用 在线建模拖拽式建模,以最细微的分析工具算子,灵活构建业务模型

17、,实现数据治理流程复用零编程,快速上手150+细粒度模型算子业务逻辑直观计算过程清晰模型可共享,提高协作效率2.3全流程数据治理2.3全流程数据治理 在线建模提供150+模型算子,支撑业务需求灵活组合大数据基础工具集大数据分析工具集机器学习工具集空间分析相交叠加分析擦除叠加分析联合叠加分析标识叠加分析差异叠加分析裁剪图层数据预处理数据去重主成分分析分类与回归朴素贝叶斯分类(训练)朴素贝叶斯分类(预测)决策树分类与回归(训练)决策树分类与回归(预测)广义线性回归(训练)广义线性回归(预测)地理加权回归分析随机森林分类与回归分析(训练)随机森林分类与回归分析(预测)聚类K均值聚类高斯混合聚类点聚类

18、(DBSCAN)点聚类(HDBSCAN)数据处理多边形多部件转单部件节点抽稀多边形质心提取几何拓扑校正空间偏移线转面空间投影图层融合边界融合追加数据空间连接_一对一连接属性连接_一对一连接字段计算补全空值数理统计计算最大值最小值平均值求和方差标准差向上取整生成随机数平方根数值型字段分组统计几何计算角度计算长度计算平面面积计算测地面积计算一般面积计算多边形质心计算多边形部件数计算线节点数计算多边形节点数计算空间要素节点数统计空间数据检测检测空几何检测空值检测异常值空间自相交检测检测拓扑检测多边形岛狭长型多边形检测检测多边形异常外环检测多边形异常内环检测面积异常多边形检测长度异常线检测差异多边形检

19、测压盖多边形检测连续时空异常点文本计算查找文本从左侧提取文本从右侧提取文本小写文本大写文本从中间提取文本分割文本删除文本首尾空格Url编码置换文本数据输出写出要素服务(PG库)写出要素服务(ES库)写出到大数据共享Shapefile格式写出到大数据共享Parquet格式写出到大数据共享CSV格式写出到大数据共享ORC格式写出到Oracle(ST_GEOMETRY)写出到Oracle(SDO_GEOMETRY)写出到Oracle(非空间表)写出到PostgreSQL(SDE)写出到Postgis SDE数据库写出到Postgis数据库写出到PostgreSQL(非空间表)写出本地Shapefil

20、e写出本地FileGDB写出本地CSV文件(空间表)写出本地CSV文件(非空间表)写出本地GEOJSON文件写出本地JSON文件(非空间表)写出到HBase数据库写出到资源池写出文本数据清洗字段过滤条件过滤范围过滤多边形过滤变更字段名变更字段类型删除字段删除面积异常多边形删除长度异常线删除连续时空异常点数据读取读取托管要素服务读取大数据文件共享图层读取地图要素服务读取Oracle数据源读取Oracle非空间表读取PostgreSQL SDE数据源读取Postgis SDE数据源读取PostGIS数据源读取PostgreSQL非空间数据源读取Shapefile文件读取FileGDB图层读取CSV

21、文件读取GeoJSON文件读取JSON文件读取HBase数据源汇总数据四边形聚合点六边形聚合点多边形聚合点四边形范围内汇总六边形范围内汇总多边形范围内汇总属性汇总获取数据集样本获取数据集空间范围构建四边形多变量格网构建六边形多变量格网连接要素重新构建追踪汇总中心和离差位置分析检测事件查找驻留位置查找相似位置模式分析四边形计算密度六边形计算密度查找热点OD分析数据丰富计算动态统计数据从多变量格网丰富数据临近分析创建缓冲区分析邻域分组统计追踪邻域事件数据洞察的“窗口”了解属性值和汇总字段统计数据。使用样本图层可视化大数据。绘制样本,而不是绘制一百万个要素。在针对更长时间和更大规模的处理进行调整前,

22、使用数据样本运行工作流。2.3全流程数据治理获取数据集样本描述数据集获取数据集空间范围汇总属性工具算子定制面图层的质检工具合集,一体化、一次性体检,输出详细、交互式的体检报告2.4一体化数据体检|体检报告检测结果加载至地图一键定位异常要素|体检套餐2.4一体化数据体检示例6项问题一次性检测原始数据:shp文件数据量:3万检测内容:检测自相交 检测压盖多边形 检测拓扑 检测空几何 检测多边形异常外环 检测多边形异常内环耗时:1min检测异常结果:1000+异常要素记录数据产生的链路,便于进行过程跟踪和回溯处理时间数据存储类型数据总量分析操作数据详情2.5数据血缘关系追溯2.5数据血缘关系追溯示例

23、数据抽取检测压盖属性过滤叠加分析数据去重能力小结强大的数据源汇集能力深刻的数据洞察力全面覆盖、易用的工具全过程追溯能力更智能的数据体检策略+3.GeoScene数据治理应用场景及案例业务用户,直接使用合作伙伴,应用集成用户和适用场景 调用在线建模模型,业务场景建设和系统集成 调用数据治理工具,形成业务工具集 调用大数据分析工具,提供大数据分析能力 支撑数据中台建设、各种业务平台建设自然资源行业交通行业其他行业调查院监测院规划院信息中心交科院 规划院信息中心业务处室信息中心业务处室最终用户GA+提供的数据治理模块、在线建模模块、空间大数据分析工具集、以及二次开发接口,为不同用户群体提供了支撑,同

24、时为数据中台建设、国土空间基础信息平台建设、CIM平台建设,提供空间基础设施支撑。工程院房屋数据治理分析场景1、数据概况农村房屋住宅面图层数据量15万+数据存在的问题1)字段多达50+,与分析关系不大2)部分字段存在空值和异常值3)数据不能直接参与计算,需要做转换处理使用在线建模完成数据治理 空间分析模块进行数据洞察和可视化分析框架房屋数据治理分析场景2、数据预处理数据体检使用GeoScene GA+大数据分析软件数据治理模块中的数据体检功能对数据进行检测,并生成交互式体检报告通过数据洞察查看属性字段数据分布,以建造时间为例,存在大量空值和异常值。房屋数据治理分析场景2、数据预处理数据过滤1)

25、过滤目标字段:原始数据有55个字段,根据分析目标,过滤分析涉及的相关字段2)过滤房屋类型:数据混合了独立住宅、集合住宅、住宅辅助用房三类,在后续结构类型细分中内容不同,仅保留研究的目标独立住宅。2、数据预处理数据清洗1)房龄计算:利用建造时间计算房龄,过滤建造时间为空或者建造时间早于1900年的数据2)户主年龄计算:默认年龄范围为0-120岁,通过该功能检测户主年龄的异常值,并输出正常年龄范围3)变更常住人口字段类型:由于常住人口字段为字符串类型,在进行统计之前需将其转换为数值型4)房屋结构字段计算:将所有的房屋按照结构类型字典赋予结构属性5)危房筛选:筛选出有明显可见的裂缝,变形,倾斜的房屋

26、房屋数据治理分析场景房屋数据治理分析场景房屋数量常住人口数量场景一:房屋分布特征房屋数量、房龄、与常住人口数量、户主年龄的关系按四边形范围汇总,将以上变量连接到渔网中,统计每1k的房屋数量、房屋平均年龄、总常住人口、户主平均年龄,分析房屋分布与人口分布的空间特征。从空间统计图中可以看出常住人口与房屋数量呈正相关,房屋集中区域人口也较集中人在哪里,房子在哪里3、分析场景和数据洞察房屋数据治理分析场景房屋年龄Avg=18.2年户主年龄Avg=53.3岁场景一:房屋分布特征房屋数量、房龄、与常住人口数量、户主年龄的关系按四边形范围汇总,将以上变量连接到渔网中,统计每1k的房屋数量、房屋平均年龄、总常

27、住人口、户主平均年龄,分析房屋分布与人口分布的空间特征。房屋年龄和户主年龄分布呈正相关70后,35岁左右完成了置业3、分析场景和数据洞察房屋数据治理分析场景房屋数量场景一:房屋分布特征两组变量,房屋数量、常住人口数量与房屋年龄、户主年龄之间呈现负相关。人口迁移趋势人口和居住分布向县城的中心区域流动老龄化问题凸显:老年人的居住环境未来可能成为需要关注的问题常住人口数量房屋年龄Avg=18.2年户主年龄Avg=53.3岁3、分析场景和数据洞察房屋数据治理分析场景场景二:危房特征墙体是否出现裂缝、变形和倾斜与房屋年龄、房屋结构类型的关系与整体房屋特征相比房屋年龄:平均年龄超出整体水平两倍结构类型:整体:砌体结构比例最高危房:土木/土石结构比例最高且房屋年龄高于该类型平均水平3、分析场景和数据洞察全部房屋危房18.2年 vs 39.1年44494856房屋数据治理分析场景示例房屋数据治理分析4.产品优势特性GA+做到了什么?资源资源可可管管数据数据可视可视模式洞察模式洞察共享共享协作协作任务任务监控监控深度分析深度分析过程过程追溯追溯用户友好,化难为易数据结构洞察一体化数据体检在线拖拽式建模1全流程覆盖从数据治理业务场景出发贴合使用流程覆盖各环节要求23产品优势特性全方位支撑适配多类型数据源丰富的工具和算子全方位支撑治理需求感谢聆听

友情提示

1、下载报告失败解决办法
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。

本文(常亚敏-GeoScene时空数据治理能力.pdf)为本站 (2200) 主动上传,三个皮匠报告文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三个皮匠报告文库(点击联系客服),我们立即给予删除!

温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。
会员购买
客服

专属顾问

商务合作

机构入驻、侵权投诉、商务合作

服务号

三个皮匠报告官方公众号

回到顶部