《火山引擎:如何构建企业级云原生计算基础设施(2023)(15页).pdf》由会员分享,可在线阅读,更多相关《火山引擎:如何构建企业级云原生计算基础设施(2023)(15页).pdf(15页珍藏版)》请在三个皮匠报告上搜索。
1、2023/5/221!#$%&()*+,-./0郑晓明火山引擎云原生计算架构师22.云原生大数据应用场景磅1.云原生大数据整体架构()*123456#4云原生技术有利于各组织在公有云、私有云和混合云等新型动态环境中,构建和运行可弹性扩展的应用。云原生的代表技术包括容器、服务网格、微服务、不可变基础设施和声明式 API。这些技术能够构建容错性好、易于管理和便于观察的松耦合系统。结合可靠的自动化手段,云原生技术使工程师能够轻松地对系统作出频繁和可预测的重大变更。!#$%Docker 开创全新的容器时代!#$Kubernetes 成为容器编排事实标准!#%云原生+&(CNCF 重新定义云原生!#)利
2、用云计算的特性、发挥云计算的潜力,让应用产生更大的价值云原生概述5构建大数据计算平台面临的问题平台管理混乱平台管理混乱资源无法统一调度,独占资源消耗大数据上下游需要依靠人工识别作业开发门槛高作业开发门槛高作业开发调试繁琐作业故障定位耗时耗力平台交互不统一,上下游生态连接不便捷建设架构复杂,烟囱式建设架构复杂,烟囱式实时链路端到端架构设计复杂技术链路分散,资源浪费且不敏捷传统架构迁移到云原生架构改造量大!#6云原生大数据整体架构大数据平台现存痛点大数据平台现存痛点大数据架构复杂,使用成本高;传统大数据部署方式资源使用效率低,运维不够便捷;实时场景多,传统的数据开发不能满足实时要求。云原生计算价值
3、点云原生计算价值点一站式大数据管理平台,支持实时和离线计算,便捷的运维开发;基于云原生技术部署,高效的资源管理和调度,提升资源利用率;字节跳动深度优化的实时计算链路,提供消息队列消息队列-实时计算实时计算-实时服务实时服务的全链路场景。!#$%&()*(+,-./,-.0123456!#$%&()*789:(;?(!#$%+,-./AB(2CDE9:FGHI&JK%L$9:MNOP-QRSTUVOWXYZB_!#$%&()*&+,-./0123-.!#$%&$%01abc(456789:;!#$%&(%)*+,#-./01234?56789&:;7云原生资源调度-作业提交方式:【Serverl
4、ess YARN、Arcee】!#$#%&()*+,-()*./01+234567YARN 和 K8s 混合调度原有大数据作业少量修改,平滑业务迁移(#8+9:;?#计算引擎 Flink 全生命周期管理,支持批量作业重启策略更精细的采集日志信息,跟踪作业运行状态两种不同的云原生化作业部署提交方式两种不同的云原生化作业部署提交方式8云原生资源调度-统一资源湖:【GRO-agent、GRO-Schedule、Reslake】ABCDE FGHIJResLake 具有资源的全局视图、全局资源池维度 Quota 管控不限机房、不限集群,以最优资源利用率为最终调度目标CDKLMFGNIOGPIJ更优隔离
5、控制:除 CPU/内存,还包括磁盘 IO、网络带宽多种资源调度策略:优先级调度、GANG、DRF 调度等单集群 Quota 管控与调度效率:Qos更精细、效率更高更多功能:队列资源上报、作业状态、计量、Event、HS 等!#$%&9构建云原生大数据平台收益()*#+,-./-在离线资源混部-资源池统一调度012345678-自由弹性扩展*#9:;?./-统一安装、部署及参数管理-统一生命周期管理()*123789:11银行客户基于云原生大数据调度提升资源利用效率云原生调度组件管理日志审计监控报警容灾、高可用ReslakeGROYodelArceeKubernetes 集群原有 节点出让业务场
6、景业务场景23流式流式(近线近线)离线训练离线训练查询分析查询分析批处理批处理业务特点运行时长长期运行长期运行天级分钟小时级分钟小时级核心指标响应时间消费积压吞吐量运行时长吞吐量Task模型BAGDAGDAGDAGDAG优先级高高中/低中/低中/低K8s 负载业务负载统一资源池QRST项目痛点项目痛点:现有 Kubernetes 集群和大数据集群日常 CPU 利用率不高,离线计算波峰时仍需要扩容;UVWX在离线资源可以灵活的相互转换,大数据集群在基本不改造的情况下提交任务到 K8s 集群;统一的 Quota 计费与管理机制;大数据集群通过节点出让的方式实现资源共用。YZ虚拟队列支持 Min-m
7、ax 调度,满足弹性调度场景;队列优先级设置,保证高优先级业务 SLA;融合 YARN 和 K8s 调度最佳实践(GANG,DRF等);队列资源隔离和强占出让设计。12行业头部证券基于 Flink 逐步构建新一代大数据架构QRST某行业头部证券公司基于云原生构建使业务敏捷和运维便捷的基础设施。大数据的云原生化是重要的战略方向,实现实时计算 Flink 的云原生化是重要的里程碑。_大数据集群独占集群,无法混合部署和调度;现有开源平台稳定性弱,容灾演练和日常运维故障率高;大数据配置复杂,资源浪费,期望系统自动和半自动调优能力。9:;aUbcd1.自研大数据引擎 Operator,实现云原生引擎全生
8、命周期管理;2.独有的资源调度模块,实现实时Flink和离线计算引擎调度和混部;3.自动和半自动调优,向云原生数仓演进。efghijklcd1.超过 30+项 Flink 引擎优化,高可靠,开箱即用平台;2.自研 CloudFS 实现 Flink 跨数据中心容灾;3.多环境管理实现测试和生产隔离管理和信息同步。!#$%&()*13云原生大数据场景概览?(=A(=BCDEFGHBIJKLMNOPQRSTUVS&2W42 XYZS_GHabcdmnCD9:;opqrefs2tuvefg%&ehi%)*jk_ lm0%n)!o*npqrsbctu*vvvvvv456wxyz|vvvvvvrsh*6rsvvvvvvhrsbc=rs“”0/./;eL DL MIMP-da”789:;=(“a_(=_”DS*3/=”S0 JXYSn2/1”_dL=03/2/;1D=M?ABCD!#$1/8C?EFG58:+DHIJG(rsbcrsbc7HKFDKIJLM14交流和支持技术交流请扫码添加!关注公众号,了解更多内容!扫码加入活动群!关注火山引擎开发者社区公众号