《3.Flink助力美团数仓增量生产的.pdf》由会员分享,可在线阅读,更多相关《3.Flink助力美团数仓增量生产的.pdf(34页珍藏版)》请在三个皮匠报告上搜索。
1、鞠大升 美团研究员、实时计算负责人 Flink 助力美团数仓增量生产 Flink 助力美团数仓增量生产 大纲 数仓增量生产流式数据集成 Increment Data Integration 流式数据处理 Increment Data Process Contents 流式 OLAP 应用 Increment OLAP 未来规划 Future Increment Data Process of Data Warehouse 0102030405 01美团数仓架构和增量生产 美团数仓架构 数据安全 受限域认证系统 万象平台 应用层权限系统 将军令安全审计系统 天眼 元数据与血缘 统一元数据中心全链
2、路血缘 数据集成 数据处理 数据消费数据应用 Spark Flink Hdfs/Hive Kafka MySQL MySQL KV MySQL OLAP 多维分析 MySQL Presto即席查询 数据服务 报表分析 即席分析 文件下载 加工层权限系统 河图 用户行为数据 DB 数据 日志数据 文件数据 日志收集系统 DB 收集系统 文件上传系统 用户行为收集系统 Datalink 机器数 作业数Topic 数 60003000050000 高峰流量 1.8亿/s 美团 Flink 应用概况 1. 实时数仓、经营分析、运营分析、实时营销 2. 推荐、搜索 3. 风控、系统监控 4. 安全审计
3、美团 Flink 应用场景 实时数仓 vs. 数仓增量生产 离线数仓 T+1实时数仓 T 离线数仓 时效性 质量 成本 实时 Realtime 准时 Ontime 实时数仓 实时 成本 数仓增量生产T+?/n 数仓增量生产 准时 成本 质量:问题及时发现 1. 能够及时发现数据质量问题,避免 T+1 修复数据; 2. 充分利用资源,提前数据产出时间; 数仓增量生产的优势 02流式数据集成 数据集成 V1.0 Kafka DB数据 DB收集系统 批量传输 Binlog数据 DBHDFS/HIVE ODS 数据集成 V2.0 DB数据 批量传输 Binlog数据 DBHDFS/HIVE 原始数据 流式传输 ODS Kafka Kafka2Hive Merge Camus批量 - SparkStreaming - Flink Kafka 数据集成 V3.0 DB数据 批量传输 Binlog数据