《5.快手元数据平台化建设及应用场景-薛言.pdf》由会员分享,可在线阅读,更多相关《5.快手元数据平台化建设及应用场景-薛言.pdf(26页珍藏版)》请在三个皮匠报告上搜索。
1、快元数据平台化建设及应场景 薛-数据平台架构师 我介绍 薛 数据平台架构师 前负责元数据系统建设及应 加快3年,负责过数据同步、报表平台 录 01 02 03 04 应场景 建设过程及现状 未来规划 背景介绍 01 02 03 04 应场景 建设过程及现状 未来规划 背景介绍 对 的 问 题 什么是元数据 背景介绍:什么是元数据 元数据 元数据是关于数据的组织、数据域及其关系的信息,简之, 元数据就是关于数据的数据。 数据表Hive表、Clickhouse表、Druid数据源、Kafka Topic 产任务离线调度任务、数据同步任务、实时计算任务 关联关系Hive表与Hive库、指标维度与绑定
2、数据表的关系 缘关系数据与数据、任务与任务的上下游关系 要计算的指标可以依赖哪些数据,某个数据的径是什么? 怎样找到需要的数据 如何梳理出上下游关系 准确效的梳理出数据间或是任务间的上下游关系,并识别出关键产链路? 数据治理靠什么来驱动 资源治理、规范治理等靠什么来驱动?如何衡量治理的效果? 对海量的数据资产,如何确认归属、进分级分类、维护数据径、保护隐私数据不被泄漏? 海量数据资产该如何管理 背景介绍:对的问题 01 02 03 04 应场景 建设过程及现状 未来规划 背景介绍 如何抽象和管理 当 前 系 统 架 构 元数据系统发展 内容:Hive相关、KafkaTopic、Druid 平台
3、能:元数据管理、搜索、离线缘 服务能:简单查询API 存储:MySql、Redis、ES 内容:Hive相关 能:简单查询API 存储:Mysql 早期 发展期 内容:Hive相关、指标维度、离线调度任务、画像标签 平台能:搜索、实时缘、分类检索、案例分享、资产管理 服务能:简单查询、定义查询、离线元数据仓库 存储:Mysql、Redis、ES、图引擎 现状 建设过程及现状:元数据系统发展 建设过程及现状:如何抽象和管理 某种元数据的个实例,有唯标识,包含组属性 u 实体 构成实体的基本单位,可以是简单类型,也可以是复杂类型,由属性名、 值类型及属性值构成 u 属性 两个实体间的关联关系,可以是物理关系,也可以是逻辑关系,由关系名 和两个端点的唯标识构成 u 关系 三段式,由公司域、资产域、唯ID构成 u 全局唯标识-URN 建设过程及现状:如何抽象和管理 引擎或平台提供的基本信息, 般直