《2020年终大会-数据治理:15-5.pdf》由会员分享,可在线阅读,更多相关《2020年终大会-数据治理:15-5.pdf(25页珍藏版)》请在三个皮匠报告上搜索。
1、数据资产治理 见风 建峰 建锋 剑锋 剑峰 数据 理 治 为整治,关注数据质量,保障 数据稳定性、准确性,合理控 制数据生命周期,降低成本 复杂业务场景下,由系统或人 沉淀下来的大数据 为梳理和管理,数据的基本信 息、状态、关联关系等,搞清 有哪些数据、从哪来到哪去应 用到何处等 what why how 质量和成本 最直接影响业务/应用 数据内容质量 准确性规范性及时性认可度 狭义的质量广义的质量:质量分 影响业务 稳定性 影响用户 数据价值 什么是数据质量? 内容质量校验 数据量波动 文件数 主键唯一 系统自动 自定义 预定义 非空、数值范围、枚举 表行数/大小等的波动或范围 自定义SQL
2、 人为配置 质量分 规范性 名称、注释等 deadline配置 质量规则配置情况 及时性 超时情况 deadline临 近情况 准确性 错误次数 校验失败情况 分区连续性 认可度 下游依赖数 收藏/关注次数 搜索次数 使用次数 分类+细则/权重 得分 58.6 得分94 权重10 得分0 权重30 得分52 权重10 得分88 权重50 得分100 权重40 得分0 权重100 得分40 权重30 得分100 权重40 得分90 权重60 得分70 权重20 得分80 权重60 权重 凑百 提质手段 DDL入口限制 deadline临近预警 静态检查 预防问题 任务超时 校验失败/屡败 长耗时
3、导入任务 发现异常 分布/趋势 异常明细 红黑榜单 质量大盘 主题告警 专项推进 推进优化 提质效果 稳定性 Deadline单一告警人清零 单一告警规则清零 失败规则收敛90%+ 及时性 清理90%屡超deadline 任务清理20%无用规则 长耗时datax任务清零 规范性 消除99%同义不同名表 业务域归属率提升至95%+ 承诺产出异常清零 准确性 消灭95%屡败规则 失败率从11%降到1.25% 中间层质量分从60提升至80+ 资产成本量化 Hadoop Hbase Flink Hive表 Hbase表 Flink任务 Spark任务 总资源量 权重 合理水位 存储 计算 时间 成本 数量单价 资产成本量化(离线计算为例) 数据成本 资源单价 总成本资源总量稀缺性合理水位 消耗资源 存储计算时间 total_costtotal_cpu total_memory cpu_weight