《容器服务 ACK – 智算时代的现代化应用平台.pdf》由会员分享,可在线阅读,更多相关《容器服务 ACK – 智算时代的现代化应用平台.pdf(29页珍藏版)》请在三个皮匠报告上搜索。
1、容器服务 ACK 智算时代的现代化应用平台易立阿里云容器服务负责人ACK-A Modern Application Platform for the AI Era容器服务助力企业智能化数字创新Empower Digital Innovations for Everyone with Alibaba Cloud Container ServicesACK-Kubernetes ServiceACS Container Compute ServiceACK ONE多集群、多环境管理统一集群管理统一资源调度统一数据容灾统一应用交付ACK Edge-边缘容器ACK 专有云企业版ACK Distro飞天
2、技术底座与基础云服务客户 IaaS中心云本地云/专属云/云盒ASM统一应用通信ACR统一应用资产管理公共云边缘云专有云行业认可Alibaba Cloud Named Leader for Container PlatformForrester 中国公共云开发与基础设施平台Q4/22 中国第一Gartner 容器管理魔力象限全球领导者,亚洲唯一数据来源:Gartner 2023容器管理魔力象限数据来源:Forrester 2022 Q4中国公共云开发与基础设施平台象限Contents目录01高效云原生算力02高性能智算应用03智能化运维管理04可信基础设施05分布式云架构一致数据面能力调度统一U
3、nified scheduling算力丰富Comprehensive Computing Power更大规模-最大化利用弹性算力池Improved Scalability-Maximize Elastic Compute Resources能力一致Consistent CapabilitiesACK 控制面托管节点池组件托管Enhanced虚拟节点资源调度策略Enhanced弹性自愈可观测成本治理服务网格ECI(GPU)ECI(x86)ECI(倚天)ECI(x86)Enhanced在线应用AI/大数据应用微服务数据库服务网格单集群最大支持 15000 ECS节点单集群最大支持 50000 EC
4、I 实例NewNewTensorflowPyTorchArgoKubeflow/Arena/KServeECS(x86)ECS(倚天)ECS(GPU)更优性价比-倚天710Better Cost-effectiveness-Yitian 710ACR 多架构容器镜像平滑切换 _提供针对倚天优化的基础镜像及应用镜像制品中心-倚天专属优化镜像Alibaba Cloud Linux/龙蜥 OS镜像支持多架构镜像构建、统一管理、能力同享统一镜像 TAGx86架构Arm架构多架构构建ACK 多架构算力高效调度_同时调度与管理 x86 与 Arm 算力资源Arm 节点池/虚拟节点x86 节点池/虚拟节点音
5、视频转码音视频转码一致镜像分发加速高性价比相比 G7 实例族,Web应用提升50%,视频编解码应用提升80%,Spark任务提升28%高吞吐采用 Arm V9 架构,独立物理核心;相比 G7 实例族,Web应用吞吐提升22%;综合调度与数据访问优化,Spark TPC-DS加速提升15%专属优化ACR制品中心提供优化的基础软件及应用镜像,基于 AI 和专家知识库的 KeenTune 提供倚天专项调优,主流场景相比优化前提升30%NewEnhanced(阿里云容器服务团队测试结果)托管节点池A更高弹性-节点池即时弹性差异Cluster-Autoscaler即时弹性Scaler扩容速度-10节点池
6、60s45s扩容速度-100节点池 120s 150s45s节点池实例规格单一根据策略自动优选库存感知N/A有易用性中等简单事件驱动、更高效、更易用的新一代弹性伸缩控制器Estimator 模拟调度生成 Scaling Plan实例规格匹配ecs.c7.xlarge/ecs.c7.2xlargeProvisioner 根据 Scaling Plan 创建节点自动筛选资源供给最优预装箱策略ACK 控制面即时弹性Scaler托管节点池B实例规格匹配ecs.c8.*Higher Elasticity-Just-In-Time Cluster Auto ScalerPending PodsPodPod
7、Pod装箱结果PodPodPodScaling Plan节点池、规格NEW(阿里云容器服务团队测试结果)更简运维-智能化节点池托管与ContainerOSSimplified Operation-Intelligent Node Pool Management and ContainerOS托管节点池NodeNodeNodeNodeNodeCVE 漏洞修复组件自动升级故障发现与自愈自动弹性伸缩安全加固启动加速智能自动化运维ContainerOSNode镜像精简原子更新千节点弹性时间P90 55s端到端弹性时间降低 50%节点自愈成功率 98%集群节点运维时间减少 90%Enhanced(阿里云
8、容器服务团队测试结果)ECI-Serverless Container 增效降本基于 ACK 与 ECI,统一全球各区服大数据架构,单日创建 200 万 以上 ECI实例执行 Spark 计算任务。通过使用 Spot 实例,整体资源成本下降 50%。大数据计算(以上数据为客户业务场景应用结果)AI for Science 平台基于 ACK 与 ECI 实现多 Region 部署,免运维,按需创建资源,支持大规模 AI 镜像秒级拉取,资源利用率提升 30%。Improving Efficiency and Reducing Costs with Elastic Container Instanc
9、e普惠降本Reduced Cost新增经济型实例,相比当前通用型价格下降 40%现有通用型实例价格最高下降 15%弹性加速Optimized elasticity基于用户负载特征的预调度优化,扩容速度提升至 7000 Pod/min支持GPU驱动版本选择,冷启动提速 60%灵活提效Improved flexibility支持倚天 Arm、AMD 架构,新增 Windows 容器支持支持细粒度内存规格,精细化资源适配NEWContents目录01高效云原生算力02高性能智算应用03智能化运维管理04可信基础设施05分布式云架构云原生智算基础设施ACK 灵骏集群-云原生智算基础设施ACK Ling
10、jun-Stable and Efficient Cloud-Native AI Infrastructure智算工程平台人工智能平台PAI灵骏智算AIGC智算场景容器服务 ACK 灵骏集群高性能计算节点高性能网络高性能存储自动驾驶科研金融智算资产管理智算运维管理模型管理代码管理数据集管理镜像管理资源组管理数据标注交互式开发分布式训练模型推理科学计算大数据计算安全资源告警任务告警集群管理资源监控GPU/RDMA拓扑感知优化批量任务调度Fluid 数据集加速GPU可观测/自愈软硬件协同设计,云原生架构优化ACK Kubernetes 集群小鹏自动驾驶模型训练速度 170XGPU利用率 3X某互联
11、网数百亿参数大模型训练单机加速 82%集群加速 70%NEW(以上数据为客户业务场景应用结果)AI训练速度提升20%数据访问效率提升30%大模型推理启动速度提升80%云原生AI套件助力大模型工程提效Cloud-Native AI Suite Boosts Efficiency in Large Model Engineering任务调度和队列数据&模型访问加速模型&Prompt 管理大模型训练推理框架支持基础资源层ACK云原生AI套件云原生AI基础设施层AI任务调度增强任务队列GPU共享GangGPU 拓扑感知CapacityKube-queue数据加速FluidAI作业管理弹性训练Elast
12、icTrainingJob人工智能平台PAIAI平台/服务Serverless推理Kserve灵骏集群CPU/GPU/NPUOSS/CPFSVPC/RDMA智能计算灵骏AIACC通义大模型开源AI能力阿里云提供和支撑的 AI 平台与服务网络拓扑感知模型加载加速DatasetProcessKubeflowArenaPipelineMLFlowTGIFasterTransformerDeepspeedJobDeepspeed-ChatSeaArtSoul加速 AIGC 模型推理服务基于 AIACC 推理加速与 Fluid 分布式数据缓存加速方案,推理性能提升2倍构建近千卡规模 AI PaaS 平台
13、,开发迭代效率提升2-5倍加速 LLM 分布式训练Enhanced(以上数据为客户业务场景应用结果)兼容 Kubernetes 调度能力,无侵入生产系统大规模应用支持 GPU 细粒度共享与调度支持拓扑感知性能优化CPUGPUNPUVPC/RDMANAS/CPFS资源调度KubeflowKubeDLAI任务管理异构资源管理Kube-queueOSSGPU共享与隔离PodPodPod任务调度设备拓扑感知调度针对AI、大数据工作负载编排优化,支持与Yarn混部PodPodPodPodPodPod标准化大规模高效率项目捐赠 CNCF 推进中 阿里巴巴蚂蚁科技小红书intel小米360得物趣玩异构算力资
14、源管理社区合作伙伴:Pod面向AI、大数据负载的调度优化Optimized Scheduling for AI,Big Data and Other WorkloadsEnhancedContents目录01高效云原生算力02高性能智算应用03智能化运维管理04可信基础设施05分布式云架构AIOps for Kubernetes Cluster:Fault Prevention and Problem DeterminationNEW容器AIOps套件 大模型增强智能诊断大模型驱动智能诊断LLM专家经验200+诊断项自然语言交互ChatOps可观测性Kubernetes 对象与云资源日志监控事
15、件/告警定义拓扑状态智能巡检/实时事件处理自动异常检测85+%采集分析解决定位Demo容器FinOps套件 数字化成本治理FinOps for Kubernetes Cluster:Digitalized Financial GovernanceEnhanced公共云IDC容器服务 ACK集群成本可视化大盘多云成本适配器智能弹性策略智能资源画像成本采集组件开放成本API在离线混部智能资源巡检成本洞察成本优化成本控制集群资源利用率提升20%成本节省超过10万元/月多维度成本分析简化预算管理智能资源检查与推荐混合云、多集群成本优化,每年节省数百万的 IT 成本。FinOps 治理流程FinOps
16、套件(以上数据为客户业务场景应用结果)一键检查资源浪费多维度业务成本洞察容器FinOps套件 数字化成本治理FinOps for Kubernetes Cluster:Digitalized Financial Governance支持一键扫描集群中闲置资源,能够立竿见影地降低集群成本。成本洞察大盘多维度展示资源和成本使用情况,并支持 CPU、内存、GPU 等多种成本分摊指标,覆盖AI、Serverless、混合云等不同场景。EnhancedContents目录01高效云原生算力02高性能智算应用03智能化运维管理04可信基础设施05分布式云架构ACR EE OPA PolicyGatekee
17、perBinary AuthZ PolicyKritispolicy-controller镜像漏洞校验镜像签名校验应用部署模版校验KMS sign策略部署安全管理员策略仓库策略治理报告安全概览配置巡检任务主机和容器监控安全配置巡检报告运行时安全监控路特斯使用容器 DevSecOps 能力,每月实现千次安全配置巡检,预防高危风险配置。招联金融使用策略治理能力,每日实现千次风险的拦截阻断,保障金融业务安全。45%全球组织中的软件供应链会收到攻击 Gartner一键修复90%的授权并没有被实际使用 Sysdig Sysdig87%的容器镜像包含严重或高危等级的漏洞DevSecOps 安全洞察DevS
18、ecOps Security InsightACK集群Admission WebhookNodeEnhanced业界首发托管式Ambient MeshSidecarless模式服务网格 简化零信任网络ASM Sidecarless Service Mesh-Zero Trust Application NetworkPPPPPPSidecar 模式Sidecarless 模式服务网格 ASM 控制面PPL4 ProxyTLS证书Istio 认证授权及 OPA 策略服务网格 ASM 数据面运维减少时延降低资源开销减少60%50%40%业界首发托管式 Ambient MeshNEW(阿里云容器服务
19、团队测试结果)业务应用容器PSidecar Proxy容器节点节点节点节点L7 Proxy(可选)L4 Proxy端到端可信容器护航数据安全E2E Confidential Container for Data Privacy可信容器运行时可信数据存储可信软件供应链机密沙箱容器(Intel TDX New)租户远程证明服务镜像服务存储服务金融风控医疗健康LLM/AIGCIoTKMS 密钥管理服务PCCS 证书服务PodPod机密虚拟机(Intel TDX New)PodPodNEW基于机密容器构建可信AI应用 安全可信-实现可信AI模型推理和微调,保障模型数据的机密性与完整性。高性价比-基于I
20、ntel AMX指令集和 PyTorch 扩展,32核可以实现秒级出图的推理能力 低损耗-加密计算 TDX 性能损耗控制在 3%以下。ACK 控制面对象存储(OSS)秘钥管理服务(KMS)远程证明服务镜像服务(ACR)AI 推理PodAI 推理Pod加密私有 AI 模型加密私有应用镜像ECS 8代裸金属实例支持 Intel TDX、AMX等技术AIGC应用Building Trustworthy AI Applications Based on Confidential Containers机密计算节点池机密容器运行时(阿里云容器服务团队测试结果)Contents目录01高效云原生算力02高性
21、能智算应用03智能化运维管理04可信基础设施05分布式云架构使用 ACK One 统一管理数十个混合云 K8s集群,提升安全水位和业务连续性,减少25%的资源用量,运维效率提高80%。混合云负载感知弹性,5分钟实现业务数万核扩容ACK One Fleet Management for Distributed Cloud分布式云容器平台ACK One Fleet管理混合云弹性跨地域应用交付备份容灾跨地域算力调度统一运维与安全统一资源调度统一应用交付统一备份恢复Open Cluster ManagementACK One-Fleet3rd K8s connector公共云边缘云本地数据中心K8s
22、集群K8s 集群K8s 集群三方公共云K8s 集群Enhanced(以上数据为客户业务场景应用结果)成本优化 自动选择多AZ/地域弹性算力,优化成本与效率高IO带宽 通过分布式数据缓存,提供20GB+/s聚合读带宽,支持跨地域访问。资源预测 通过负载感知自动调整资源规格规模化计算 支持千级并发工作流,数万计算任务资源成本节省数据读吞吐提升(文件/对象存储场景,相较传统 NAS/OSS)规模提升文件存储NAS文件存储CPFS内置文件存储加速、对象存储客户端对象存储 OSS地域-1仿真计算持续集成科学计算数据处理托管 Serverless Argo 控制面可用区 A,B,C,全托管跨地域 Argo
23、 工作流集群Managed Argo Workflow Crossing Multiple Regions30%15倍10倍全托管 Argo 工作流集群在12小时内完成处理数千例样本的处理,速度提升50%,成本下降30%.按量 ECI Pod抢占 ECI Pod地域-2分布式数据缓存NEW(以上数据为客户业务场景应用结果)可用区 A,B,C,按量 ECI Pod抢占 ECI Pod按量 ECI Pod抢占 ECI Pod按量 ECI Pod抢占 ECI Pod高效算力弹性调度智能自治安全可信智算时代云原生基础平台ACK -Cloud Native Infrastructure for AI Era共筑智能时代现代化应用平台全托管 Argo 工作流集群 应用场景可用区 1ECI 运行工作流调度OSSMNS三方系统(Argo SDK)Gitpush commitworkflow apiargo cli/uiupload filegit eventoss eventoss eventKubernetes控制面Event Bridge事件Managed Argo Workflow-ScenariosARMSSLSRAM监控日志OSSNAS全托管 Argo 工作流集群Argo EventArgo Workflow认证授权挂载数据源可用区 1ECI 运行工作流持续集成基因计算数据处理