《火山引擎:云原生大数据——企业智能新基石(15页).pdf》由会员分享,可在线阅读,更多相关《火山引擎:云原生大数据——企业智能新基石(15页).pdf(15页珍藏版)》请在三个皮匠报告上搜索。
1、云原生大数据企业智能新基石王磊火山引擎 云原生计算资深产品专家目录云原生大数据使用&运维方式的变化1字节跳动云原生大数据平台架构分享2新架构下用户场景和价值3最佳实践:业务诉求与实践收益4/CONTENTS(一)云原生大数据带来大数据使用和运维方式变化云原生大数据组件管理和发布运维管理数据管理节点传统模式云原生模式统一 Portal运维1运维管理数据管理节点运维1运维管理数据管理节点运维1资源按需调用,资源池统一调度Flink 集群业务1业务2业务3业务4一键开通,按需部署,统一运维集群搭建耗时耗力,运维孤岛和数据孤岛资源独占,峰值不满足,平时有空闲云原生大数据是大数据平台新一代架构和运行形态
2、。是一种以平台云原生化部署,计算云原生调度,存储统一负载为特点,可以支持多种计算负载,计算调度更弹性,存储效能更高的大数据处理和分析平台。Spark 集群ES 集群Kafka 集群业务1业务2n业务3业务4云原生大数据架构升级遇到的挑战 如何实现基于 K8s 的多租户管控,资源隔离如何像 YARN 的队列机制那样管理?如何能够让 Kube-Schedule 的调度能力升级,从性能和功能上满足千万级大数据作业的调度能力?已有的传统 Hadoop 大数据作业如何迁移到云原生大数据平台?(二)云原生大数据功能架构图(3大平台1大支撑体系)元数据管理数据网关服务云原生 Flink云原生 Spark云原
3、生消息引擎开放平台租户和用户管理数据源管理生态整合服务调度平台组件管理日志审计监控报警容灾管理统一存储(CloudFS)兼容 HDFS 语义TOS 透明加速缓存加速引擎平台实时服务分析引擎云原生日志搜索公共云 容器服务私有云 开源 K8s多云部署和调度统一资源池云原生 YARN云原生 Operator插件化计算引擎是多场景集成的关键计算引擎可插拔化设计,灵活配置选用开源组件插件化集成设计统一计算资源调度跨云资源配额管理,跨域业务高可用计算负载统一调度,在离线混部兼容 YARN 资源负载,平滑迁移 Hadoop 负载统一引擎云原生生命周期管理统一存储资源负载增强 HDFS 服务,适配对象存储,跨
4、多云容灾增强消息队列、数据湖,数据仓,日志服务,存算分离统一存储,减少数据复制运维管理权限管理项目管理作业开发任务调度数据湖管理集群管理多环境管理开放平台:开放和插件化集成,尊重用户使用已有工作习惯信息门户数据工程数据科学开源大数据探索分析、可视化报表平台。Hadoop 集群权限框架,管理基于 YARN的 Hadoop 生态圈的所有数据权限。一款基于 Web 的Notebook 产品,能够交互式数据分析。分布式数据工作流任务调度系统,主要解决数据研发 ETL 错综复杂的依赖关系。开源工作流管理平台。开源大数据元数据管理和数据治理平台数据科学集成环境端到端开源机器学习平台一站式元数据治理平台。用
5、于并行和分布式 Python 的开源项目开放平台引擎平台调度平台引擎平台:计算引擎和云原生深度融合,向自动调优方向演进 部署和管理 K8s 集群 应用自己管理容器和镜像 资源池化:对底层 K8s 资源无感知 资源混部:在离线作业共享集群资源只关注作业资源的额度和并行度 平滑演进:YARN 作业和 K8s 作业混部 虚拟队列:支持跨集群和机房作业自动调度 利用闲置资源:利用超发和驱逐机制利用空闲资源 引擎半自动调优:利用智能团队推荐任务配置参数,人工确认下发 全局自动容灾:实现跨机房自动调度和容灾 资源自动优化:没有负载的时候资源使用可以减低到0;毫秒级的冷启动延时 引擎自动调优:全自动作业调优
6、、优化使用资源,包括计算网络和内存Phase 1Phase 2Phase 3Phase 4开放平台引擎平台调度平台云原生消息引擎云搜索引擎云原生数据湖云原生数仓存储能力共用统一数据 Copy,减少数据卸载统一数据容灾,保证高可靠要求多Kubernetes 集群CloudFS缓存加速统一管理和调度统一资源调度和复用统一数据权限,降低安全风险存算分离降低扩缩容和数据 Rebalance 时间存算按需扩缩容管理和调度引擎平台:统一管理调度、统一存储、存算分离对象存储TOS基础资源(计算&存储)计算引擎开放平台引擎平台调度平台云原生调度平台1:两种不同的云原生化作业部署提交方式Serverless Y
7、ARN,兼容 YARN 提交方式,业务平滑演进YARN 和 K8s 混合调度原有大数据作业少量修改,平滑业务迁移Arcee,云原生 Operator计算引擎 Flink,Spark 全生命周期管理,支持批量作业重启策略更精细的采集日志信息,跟踪作业运行状态开放平台引擎平台调度平台云原生调度平台2:统一资源管理形成全局资源湖(三层一体架构)全局资源湖(第三层)ResLake 具有资源的全局视图、全局资源池维度 Quota 管控不限机房、不限集群,以最优化资源利用率为最终的调度目标资源池管理(第一层、第二层)更好的隔离控制:除了 CPU/内存,还包括磁盘 IO、网络带宽多种资源调度策略:优先级调度
8、、GANG、DRF 调度等单集群Quota管控与调度效率:Qos更精细、效率更高更多的功能:队列资源上报、作业状态、计量、event、HS等开放平台引擎平台调度平台运维支持体系日志监控告警异常监测审计全链路监测可观测性OperatorHelm Chart开源组件管理服务发布管理服务组件渲染服务状态管理服务生命周期管理容灾切换容灾设置多环境管理容灾管理集群信息统计集群扩缩容Web Shell集群管理容器日志采集云原生大数据增强(三)用户场景和价值1:多种计算业务资源混合部署调度,提升资源利用率/业务高SLA保障业务场景在线流式(近线)离线训练查询分析批处理业务特点运行时长长期运行长期运行天级分钟
9、小时级分钟小时级核心指标响应时间消费积压吞吐量运行时长吞吐量优先级高高中/低中/低中/低高效资源切换利用率提升在离线统一(运维管理方式)数十万核离线资源分钟级出让降低成本开销,带来单机2%利用率提升在离线资源全量共池,Quota 管控、调度、运行、机器运维统一用户场景客户价值(三)用户场景和价值2:多云部署和调度,实现多云成本最优复用,跨云队列容灾提供全局虚拟队列进行 Quota 管控 虚拟队列,对应不同机房和集群的多个队列 自动分发到合适的机房/集群/队列应用按多因子综合选择流量分配 考虑多种负载因素,机房负责情况,响应时间,成本等 自动分发到合适的机房/集群/队列 满足作业容灾场景最优化资源利用率,最小化作业完成时间,且满足容灾需求(四)云原生大数据产品最佳实践业务/技术诉求:在/离线资源可以灵活的相互转换(尤其是在春节/双11等重大活动期间)统一的 Quota 计费与管理机制(把有限的资源投入到 ROI 更高的项目中)兼容 YARN 作业提交方式,支持作业迁移提高资源利用率,降低成本运维成本低跨区域/可用区容灾效果与收益:在实现 2022 元旦/春节 50W 核离线资源分钟级出让;NodeManager机器全部下线,降低总体2%资源成本;在离线资源全量共池,Quota 管控、调度、运行、机器运维统一;支持多 Region 容灾场景THANKS!感 谢 您 的 观 看!