《2019年陌陌数据治理方面的思考与系统实践.pdf》由会员分享,可在线阅读,更多相关《2019年陌陌数据治理方面的思考与系统实践.pdf(19页珍藏版)》请在三个皮匠报告上搜索。
1、2019中中 国国 数数 据据 智智 能能 管管 理理 峰峰 会会陌陌数据治理方面的思考与系统实践2019-07-192019中中 国国 数数 据据 智智 能能 管管 理理 峰峰 会会2019中中 国国 数数 据据 智智 能能 管管 理理 峰峰 会会业务技术业务技术业务诉求业务诉求日志源数据应用方数据资产1 1 数据生产数据生产与保障与保障2 数据使用数据使用赋能赋能3 3 基础能力基础能力开放开放离不开数据TEAM团队介绍陌陌陌陌-数据基础架构团队数据基础架构团队数据仓库/数据系统|数据平台2019中中 国国 数数 据据 智智 能能 管管 理理 峰峰 会会WHY为什么上层建筑上层建筑经济基础
2、经济基础数据标准体系数据治理系统数据平台规模业务复杂程度数据使用范围业务体系量级决定决定反作用反作用数据生产力发展数据生产力发展StartUpBusinessPlatFormDataSet:DataUser:Solution:100+10+WhatEver1000+100+DataWarehouse10000+1000+DataLake2019中中 国国 数数 据据 智智 能能 管管 理理 峰峰 会会WHAT是什么高效率高效率&易使用易使用工具化工具化&自动化自动化标准化标准化&规范化规范化数据治理数据治理方法论方法论什么是什么是数据仓库数据仓库2019中中 国国 数数 据据 智智 能能 管管
3、 理理 峰峰 会会WHO谁需要业务方业务方算法策略算法策略数据仓库数据仓库技术技术谁需要用数据谁需要用数据谁管理规整数据谁管理规整数据+2019中中 国国 数数 据据 智智 能能 管管 理理 峰峰 会会DATALAYOUT数据分层技术有什么技术有什么业务要什么业务要什么仓库存什么仓库存什么底体设计底体设计顶体设计顶体设计业务应用层业务应用层中间汇总层中间汇总层基础加工层基础加工层原始接入层原始接入层OLAPOLAP分析报表分析报表|DashboardDashboard|用户标签服务用户标签服务 DataChangeLogDataChangeLog|EventLogEventLog|DataBa
4、seSnapshotDataBaseSnapshot字段命名统一字段命名统一|度量单位统一度量单位统一|异常数据处理异常数据处理 对象维度信息对象维度信息|主题汇总信息主题汇总信息|维度汇总信息维度汇总信息 业务指标与维度分析计算密集型数据服务多方复用的中间结果关联紧密的维度 JOIN数据库 Schema字段业务含义事件埋点信息2019中中 国国 数数 据据 智智 能能 管管 理理 峰峰 会会DATAFLOW&DATAMODEL数据流&数据模型粒度粒度维度维度事件明细事件明细事件多维汇总事件多维汇总对象明细对象明细对象维度对象维度对象事件汇总对象事件汇总汇总多维汇总多维报表报表粒度变化粒度变化
5、/维度变化维度变化1.维度越来越少-区分粒度的信息减少数据流设计数据流设计1.维度的取舍与命名-哪些信息在哪一粒度下有效数据表设计数据表设计度量度量2019中中 国国 数数 据据 智智 能能 管管 理理 峰峰 会会UNIFORM&STANDARD规范&标准1.表名规范-分层名+业务数据流名+维度内容名+粒度名2.字段名规范-相同实体对象标志一致|相同描述维度名称一致3.维度值规范-异常取值逻辑与结果一致|度量实体单位一致 表征统一表征统一1.统一处理逻辑所处层级-事件分流在基础加工层做|主题维度汇聚在中间汇总层做2.指标处理逻辑统一-精确度统一|定义原则统一3.库作用统一-线上库生产SLA|线
6、下库业务测试|临时库 Ad-hoc 使用 逻辑统一逻辑统一1.新人学习培养-快速掌握学习迁移2.提高用户使用-培训文档|需求模板 知识沉淀知识沉淀质量质量易操作易操作易管理易管理+2019中中 国国 数数 据据 智智 能能 管管 理理 峰峰 会会PROJECT FLOW项目流程功能开发时功能开发时补充设计补充设计功能迭代时功能迭代时初始化构建数据设计业务发现遗漏时数据流合并分裂数据模型变更数据流与模型设计2019中中 国国 数数 据据 智智 能能 管管 理理 峰峰 会会PROCESS角色与流程需求方需求方数据产品数据产品|分析分析数据仓库数据仓库技术开发技术开发应用需求应用需求数据需求数据需求
7、模型评审模型评审仓库测试仓库测试验收上线验收上线数据交付数据交付流程流程/角色角色负责参与2019中中 国国 数数 据据 智智 能能 管管 理理 峰峰 会会TOOLS&AUTOMATION自动化&工具化 元数据管理元数据管理 数据血缘数据血缘 数据质量数据质量2019中中 国国 数数 据据 智智 能能 管管 理理 峰峰 会会TOOLS&AUTOMATION元数据管理数据洞察-业务,标签搜索|scheme信息仓库存储信息/质量报告数据集成-数据源信息|同步配置数据开发-作业配置|调度配置运维管理-运行日志|监控报警信息|资源成本-存储管理:|:|:|:|:|:|2019中中 国国 数数 据据 智
8、智 能能 管管 理理 峰峰 会会TOOLS&AUTOMATION数据血缘数仓血缘-表、字段血缘|作业|应用血缘应用-冷热数据分析|链路分析-质量故障的数据修复(N eo4j)2019中中 国国 数数 据据 智智 能能 管管 理理 峰峰 会会TOOLS&AUTOMATION数据质量支持多规则的数据质量报告-完整性|准确性|及时性数据质量故障的熔断-阻止下游扩散智能报警-延迟,异常波动|故障报告2019中中 国国 数数 据据 智智 能能 管管 理理 峰峰 会会WHATS MORE更进一步呢?数据成本管理-计算成本数据服务-用户标签及画像.数据产品-用户行为分析.实时应用-实时订单.2019中中 国国 数数 据据 智智 能能 管管 理理 峰峰 会会数仓架构图2019中中 国国 数数 据据 智智 能能 管管 理理 峰峰 会会SKILL MODEL能力模型1.较强的主观能动性,团队合作意识强-沟通业务需求,优化数据使用流程2.掌握社交数据仓库设计模式-了解不同存储数据库设计方法并能够互相转化 KV,关系数据,图数据3.较强的程序化,工具化意识-提高效率,解放生产力4.熟悉业务分析诉求-紧跟业务迭代,熟知业务变迁业务知识工具技术逻辑梳理团队交流2019中中 国国 数数 据据 智智 能能 管管 理理 峰峰 会会THANK YOU!