《作业帮-Doris在数仓中的实践 - DorisMeetup.pdf》由会员分享,可在线阅读,更多相关《作业帮-Doris在数仓中的实践 - DorisMeetup.pdf(35页珍藏版)》请在三个皮匠报告上搜索。
1、Doris 在作业帮实时数仓中的应用&实践 糜利敏 1 目录 业务与背景介绍 基于Doris的实时查询系统 未来规划 2 业务与背景介绍-数仓逻辑分层 3 ODS DWD DWS ADS 数据流动方向 业务侧日志。如Mysql-Binlog、前端打点日志等 大数据团队 业务线团队 明细事实数据。如每个学生在每个题目的做题情况 聚合事实数据。如每个学生在所有题目的做题情况 业务侧应用数据。如某个课程、部门下的学生答题情况;流量分析等 数据摄入 实时聚合离线聚合 明细查询聚合查询 业务与背景介绍-过去的业务支持模式 Druid 大数据团队 业务线团队 API 数据清洗 Kafka 大数据团队 业务
2、线团队 Spark ES 数据清洗 ES 大数据团队 业务线团队 API 业务线构建成本高 重复建设、且无法复用 case by case 建设 效率低,维护成本高 非标接口 需独立维护 不支持明细 Spark 大数据团队 业务线团队 ES 业务线裸查ES 学习成本高、性能差 稳定性差、Sql不完备 4 业务与背景介绍-总体架构图 Doris On ES OpenAPI Flink-Sql Flume Canal Doris 实时查询 数据清洗 数据摄入 Kafka Kafka 流量类分析工作台 5 Spark Druid/ES/ Kafka/API/ 业务与背景介绍-效果 6 过去现在收益
3、技术选型:Spark/API/ES/ 开发、联调 基础数据写入Doris/ES 业务侧基于Sql进行查询 交付效率:数人周/月 - 小时 裸用ES,千万级数据查询 十小 时+ 前端基于Mysql做报表 Doris/Doris on ES高性能查询ES:十小时 - 分钟级 Doris:分钟级 - 秒级 Doris 易运维(无第三方组件、Mysql接口)、社区支持度好 目前半年时间,7+业务线。近1T数据 0事故(=P2) 目录 业务与背景问题介绍 基于Doris的实时查询系统 系统选型&原理 应用实践 未来规划 7 基于Doris的实时查询系统-业务场景 BI、报表 PV、UV 日活 特点:明细、聚合 聚合:作业帮 主APP在某一天的活跃用户 明细:作业帮 主App各个小时段各个版本下的活跃用户 DateAppActUV 2020-05-01zuoyebang100 DateHourAppv