上海品茶

您的当前位置:上海品茶 > 报告分类 > PDF报告下载

龙逸尘-腾讯云原生实时数仓建设实践 .pdf

编号:101856 PDF 38页 10.15MB 下载积分:VIP专享
下载报告请您先登录!

龙逸尘-腾讯云原生实时数仓建设实践 .pdf

1、龙逸尘/腾讯大数据高级工程师腾讯云原生实时数仓建设实践腾讯云原生实时数仓建设实践The Practice of Constructing Cloud Native Real-time Data Warehouse in Tencent实时数仓实时数仓挑战挑战#1实时数仓实时数仓演进演进#2实时数仓实时数仓实践实践#3实时数仓实时数仓展望展望#4目录目录#1#1实时数仓挑战实时数仓挑战实时数仓应用特点1 万+作业数57 万集群总核数65 万亿日均消息量时效性时效性架构复杂度架构复杂度成本成本数据准确性数据准确性实时数仓技术挑战#2 2实时数仓演进实时数仓演进全流程 T+0 级时效统一并简化数仓架

2、构保障数据准确性降低计算与存储成本实时数仓功能需求实时数仓演进-离线数仓数据源ODSODSDWDDWDDWSDWS离线数仓ADSADS用户ETLETLClickHouse 提供秒级查询能力实时数仓演进 Lambda 架构数据源ODSODSDWDDWDDWSDWS实时数仓ADSADS用户ETLETL实时数仓演进 Kappa 架构数据源ODSODSDWDDWDDWSDWS实时数仓ADSADS用户支持流、批写入支持增量读取基于快照回溯历史数据对大规模数据集进行更新删除提供 ACID 语义实时数仓演进-Iceberg 关键特性支持表、分区的Schama 变更抽象的表格式与计算存储引擎解耦实时数仓演进

3、基于数据湖 Iceberg 的架构数据源ODSODSDWDDWDDWSDWS实时数仓ADSADS用户实时数仓演进 云原生的价值 存算耦合 资源利用率低 成本高昂传统实时数仓痛点 存算分离 弹性计算 降低成本云原生架构的优势K8sCOS实时数仓演进 云原生实时数仓架构数据源实时数仓ODSODSDWDDWDDWSDWSADSADS用户台租户管理公共服务存储层计算层数据加速资源调度计算分析存储格式数据存储数据组织元数据管理数据血缘数据质量权限管理实时数仓演进 云原生实时数仓生态体系#3 3实时数仓实践实时数仓实践存算分离实践ClickHouse#2弹性计算实践Flink on Kubernetes#

4、1弹性存储实践Iceberg#3分析云原生实时数仓建设实践ServerlessServerless调度能力调度能力扩缩容速度扩缩容速度诊断调优诊断调优Flink on Kubernetes 面临的挑战DeploymentFlink on Kubernetes 方案IngressManagerFlink ClientDFS ServiceJobManagerDispatcherJobMasterResourceManagerInitialContainerPodTaskManagerInitialContainerK8s MasterConfigMapsServiceHA ServiceLogL

5、istenerFlink on Kubernetes-ServerlessManagerK8s MasterCVMPodJobManagerPodTaskManager1.提前购买 CVM2.申请资源3.申请 PodManagerK8s Master腾讯资源池PodJobManagerPodTaskManager1.申请资源2.按需申请 Pod4.调度 Pod3.调度 PodFlink on Kubernetes 自定义调度器Flink on Kubernetes AutoPilotFlink on Kubernetes 加速作业扩缩容Kubernetes MasterJobManager D

6、eploymentTaskManager PodSlot 1ResourceManagerSlotManagerInit-container1 申请 SlotJobMasterSlotPoolSlot 2Slot N2 申请 Pod3 通知申请进展3 分配并启动 Pod4 向 RM 注册 Slot5 注册成功6 不断重试注册 Slot7 直到注册成功Slot 38 提供 Slot 额度9 分发 JobGraph1.Pod 启动慢2.Slot 注册慢定制化 Flink 镜像按需裁剪用户依赖与 Flink 镜像分离梳理 Slot 注册流程延迟加载非必要逻辑预下载并绑定任务资源通过 ENI 直接通信

7、减少带宽损耗申请冗余TaskManagerClickHouse 面临的挑战 存储与计算资源耦合 数据无法自动均衡 不具备弹性计算能力ClickHouse 存算分离方案设计元数据服务层:存储集群关键元数据。计算层:计算层节点无状态。每个计算节点都能完整执行SQL,拥有本地缓存,并存储所需的索引等数据。具备秒级弹性能力。存储层:使用云原生共享存储服务,例如对象存储 COS。ClickHouse 存算分离方案设计全局数据集按 Bucket 划分,Bucket 与节点的所属关系由元数据服务统一管理。弹性伸缩时,Bucket 与节点所属关系重新计算。ClickHouse 存算分离方案设计扩容节点时,只需

8、加载该节点所需的 Bucket 元数据,实现数据 Zero-Copy.Flink ClickHouse Connector 设计基于 FLIP-27 构造 ClickHouse SourceFlink ClickHouse Connector 设计ClickHouse Sink 实现:直连写本地表支持随机、轮询、散列等多种写分片方式ClickHouse Upsert Sink 设计Flink 回撤流CollapsingMergeTreeusercntsignMary11Mary1-1Mary21Iceberg 面临的挑战底层存储局限性HDFS 和对象存储各有不足小文件问题Iceberg 写入生

9、成大量小文件查询性能不足对象存储海量文件操作能力有限Iceberg 实践 底层存储替换 小文件多,NameNode 压力很大 基于传统 Hadoop 生态,扩展能力弱 成本高昂HDFS 的不足 无单点问题,可支持海量文件存储 与计算引擎解耦,可无限拓展 按量计费,成本可控对象存储的优势Iceberg 实践 对象存储能力补齐 对象存储没有原生 Rename 语义 对象存储 List 操作性能弱 失去本地化优势,查询缓慢对象存储的局限 提供多版本,无需 Rename 自身存储分区文件列表,无需 List 引入稀疏索引,结合谓词下推,减少文件扫描量,加速查询Iceberg 的优势Iceberg 实践 数据优化服务实时小文件合并过期快照清理遗留文件清理Iceberg 实践 查询三级加速 计算端 缓存加速利用计算集群本地的内存/磁盘资源缓存热数据,提供 DataLocalization 能力 可用区端 数据加速器各可用区单独部署的高速缓存集群,加速本可用区的数据访问,提供超大带宽与超低时延 数据端 元数据加速独立元数据服务,提供兼容HDFS 件系统语义的元数据操作能数据加速器COS 对象存储缓存加速数据加速器可用区 1缓存加速可用区 2元数据加速云原生实时数仓建设收益总结#4 4实时数仓展望实时数仓展望流批一体内核能力提升场景适配实时数仓展望THANKS

友情提示

1、下载报告失败解决办法
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。

本文(龙逸尘-腾讯云原生实时数仓建设实践 .pdf)为本站 (云闲) 主动上传,三个皮匠报告文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三个皮匠报告文库(点击联系客服),我们立即给予删除!

温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。
会员购买
客服

专属顾问

商务合作

机构入驻、侵权投诉、商务合作

服务号

三个皮匠报告官方公众号

回到顶部