《智算时代基于 ACK 落地云原生AI.pdf》由会员分享,可在线阅读,更多相关《智算时代基于 ACK 落地云原生AI.pdf(30页珍藏版)》请在三个皮匠报告上搜索。
1、智算时代,基于 ACK 落地云原生AI张凯阿里云智能 云原生应用平台 容器服务Contents目录01大模型带来的挑战02云原生AI支持大模型生产的关键技术03ACK云原生AI套件工程实践 AI在计算机视觉、语音、NLP等领域取得突破,已深入影响各行各业 AI服务上云形成趋势 深度学习/AIGC应用广泛采用容器等云原生技术开发探索数据准备模型构建模型训练模型推理调优提效持续发布弹性深度学习的特点 端到端流水线 Raw data in,executable model out 任务长时运行 小时天周 持续迭代优化 梯度下降,超参数调优,Prompt工程 消耗大量算力和海量数据人工智能机器学习深度
2、学习(Supervised learning)Generative AIReinforcement learningUnsupervised learning人工智能(AI)发展概述New Future on Cloud工作项原有方式:从底层资源到上层框架,全手动环境搭建安装配置脚本,make,Bazel或者pip安装,容器镜像分布式环境通过SSH登录到每台机器上手工部署GPU资源调度手动管理,静态分配,使用效率不明确数据准备数据存储共享自建存储,手动拷贝训练数据到每台机器上模型开发开发手动安装Jupyter,Tensorboard等工具模型训练训练登录每台机器上手工启动、记录、对比实验监控G
3、PU资源监控:登录GPU主机执行nvidia-smi查看,或编写代码调用NVML;训练效果监控:手动启动TensorBoard错误处理缺少容错,手动保存checkpoint、重启任务模型推理模型发布用户需自定义发布流程和系统线上运维用户自建运维系统OS、Nvidia驱动、CUDA、cuDNN等环境配置 NVIDIA Driver 367,370;CUDA Toolkit 7.5,8.0;cuDNN 5.软件的依赖关系 Python,GCC,Bazel 资源分配策略多样 GPU卡型更新频繁 应用要指定单张或多张GPU卡 甚至要使用一张GPU卡的部分资源GPU运维复杂 监控维度多 故障排查难 弹性
4、不灵活数据科学家算法工程师平台运维复杂、多变、低效GPU利用率如何?如何提升GPU资源的ROI?还有多少GPU空闲?我的GPU还正常工作吗?AI工程落地难、效率低以深度学习为代表的AI生产系统面临效率、性能和成本挑战挑战1:GPU集群管理复杂挑战2:深度学习工程效率低大模型对基础设施带来更多挑战 算力:千卡GPU任务,万卡集群 数据:PB级存储,TB级吞吐 网络:800Gbps3.2Tbps RDMA 训练:分布式,混合并行 推理:模型优化、服务QoS 工程效率:持续快速迭代 资源效率:高利用率、可扩展GPT3:175B 参数,单次训练使用45TB数据,近千卡 A100/1个月,成本数百万美元
5、。效率规模性能 大模型对基础设施服务能力的挑战是阶跃式的。对“规模、性能、效率”的要求,成为LLM/AIGC快速落地的高门槛。更弹性的算力需求更高的稳定性要求更快的创新和迭代交付 Gartner 预测:到 2023 年 70%的 AI 应用是基于容器和 Serverless 技术开发。IDC预测:By 2025,Nearly 50%of All Accelerated Infrastructure for Performance-Intensive Computing(AI,HPC,and Big Data Analytics)will Be Cloud Based as These Syst
6、ems Are Increasingly Integrated with Enterprise Software.从无状态应用,到企业核心应用,到 AI/大数据应用基于容器的AI/大数据成为云原生时代的技术趋势AI工程化向云原生架构演进资源管理分散生产流程割裂、效率低团队协作、共享困难传统架构资源池化:弹性、灵活生产流程高效闭环多角色协同,加速迭代云原生架构AI等异构工作负载异构资源CPUGPUFPGARDMAVPCOSS统一管理算法和场景框架NPU统一工作流,统一调度NAS充分利用云的资源弹性、异构算力、便捷服务以及容器、自动化、微服务化等云原生技术手段,为AI/ML 提供工程效率高、成本低
7、、可扩展、可复制的端到端解决方案。云原生AI云原生AI的核心场景统一任务流程 提升AI工程效率统一任务调度保障规模与性能统一资源管理持续优化利用率AI模型生产流水线端到端的AI生产生过程(模型开发-训练-推理)支持TensorFlow,Pytorch,Deepspeed,Horovod,TensorRT,Spark,Flink等开源框架任务级调度策略(Gang,Binpack,Capacity,优先级队列等)1分钟开启执行深度学习任务数据集、模型管理和访问加速标准API和开放架构,便于业务应用集成高效迭代的模型训练和推理发布流水线弹性伸缩训练任务和推理服务,优化资源TCO异构资源管理一键部署C
8、PU/GPU/vGPU/NPU/RDMA集群,统一运维多维度GPU监控、健康检查、告警和自愈自动挂载存储,加速数据访问自动弹性伸缩灵活配置多种GPU调度策略(共享+隔离、优先级、拓扑感知)CPU和加速设备解耦,异构资源池化,资源使用Serverless化资源效率最大化工程效率最大化支持AIGC/LLM等新范式快速迭代持续完善的MLOps,LLMOps,Prompt工程,数据管理等生产流程支持RAG(Retrieval Augmented Generation)架构快速适配各类开源模型的训练(Pretrain,SFT,RLHF,Prompt tuning等),推理和性能优化更高效的资源调度和数据
9、服务,支撑更大规模的模型训练和推理支持Langchain,Langsmith,AI agent等新的AI+应用开发架构支持多环境,多架构下模型适配和优化创新速度最大化可集成各类模型优化方案云原生AI的主要能力Contents目录01大模型带来的挑战02云原生AI支持大模型生产的关键技术03ACK云原生AI套件工程实践参考实现-阿里云容器服务ACK云原生AI套件云原生AI系统架构基础资源层ACK云原生AI套件云原生AI基础设施层AI任务调度增强任务队列GPU共享GPU/RDMA拓扑感知调度GangCapacityKube-queue数据加速FluidAI作业管理弹性训练ElasticTraini
10、ngJob机器学习平台PAIAI平台/服务Serverless推理Kserve/Triton灵骏集群CPU(x86/arn)OSS/CPFSVPC/RDMA灵骏智能妙鸭通义大模型开源AI能力阿里云提供和支撑的 AI 平台与服务模型加载加速DatasetProcessKubeflowArenaPipelineMLFlowTGIFasterTransformerDeepspeedJobDeepspeed-Chat任务调度和队列数据&模型访问加速模型&Prompt 管理大模型训练推理框架支持开源大模型验证云原生AI系统分层架构生态集成云IDC容器平台异构资源管理高性能计算、存储、网络AI任务调度和流
11、水线AI作业生命周期管理AI任务性能优化弹性运维安全工具链、APIAI框架和运行时数据管理模型管理大数据集成SparkRayGPU/NPUQwenBaichuanChatGLMLlamaBloomFalconStableDiffusion高性能智算集群1.统一管理异构资源集群节点视角监控指标:GPU duty cycleGPU memory usageGPU TemperaturePower usageTotal/allocated GPU应用视角监控指标:GPU duty cycleGPU memory usageAllocated GPU应用实例伸缩资源节点伸缩GPU多维度监控,使用和健康
12、状况一目了然内置NPD,自动检测和告警设备异常自动弹性伸缩,自定义伸缩指标和策略支持GPU竞价实例,ECI弹性容器实例将RDMA网络资源作为K8s集群资源调度和管理支持Nvidia NCCL,GPUDirect over RDMA,加速分布式AI训练KubeletRDMADevice PluginTerwayCNIeth0RDMA SwitchVSwitchgpu0RDMA NIC(HCA)Podmlx5_0eth0gpu0gpu0NCCLWorker NodeWorker NodeRDMA NIC(HCA)PodPodmlx5_0mlx5_0eth0eth0gpu0gpu0100/200Gb
13、psGPUOps云原生AI关键技术KubernetesECSSpot InstanceGPUEBM(Bare metal)Virtual NodeHPAPodPodPodPodPodVPACron HPAPodPodPodPodPodPodPodPodPodPodPodPodPodPodPodPodPodPodPodPodPodPodECIECIECIECIKubeletGPUShareDevice PluginTerwayCNIPod0Pod1Pod3Pod4gpu0gpu0gpu1gpu1gpu0Worker Nodegpu0gpu1gpu2gpu3!#$%&gpu0Pod2gpu0#$N
14、vidiaContainer RuntimeGPUShare Scheduler自动发现多GPU卡/服务器/机架之间的通信链路,包括Nvidia P2P/NVLink,PCI-e,RDMA调度器自动选择最大带宽的通信链路,实现分布式训练加速支持Gang/Binpack分配策略,最大化利用率,同时避免资源碎片GPU Sharing&IsolationGPU&RDMA Topology aware云原生AI关键技术2.持续提升GPU利用率业界首款K8s GPU共享调度方案,应用代码零侵入支持所有Nvidia GPU型号的自定义显存、算力共享,结合cGPU技术支持显存,算力和错误隔离,同时避免虚拟化
15、开销GPU利用率提升100%以上https:/ SchedulerBatch Scheduler pluginsK8s scheduler frameworkAPIServerpodpodpodpodpodGPUNPURDMAFPGApodpodASICJobApplicationKube-Queue支持10多种任务调度策略插图加边框防止大作业挤占小作业防止资源浪费和死锁Gang schedulingGang scheduling2 GPU1 GPU1 GPU2 GPU2 GPU2 GPU1 GPU1 GPU1 GPU1 GPU2 GPU2 GPUBinpackBinpack scheduli
16、ngscheduling防止小作业饿死大作业有效避免资源碎片提升GPU资源利用率资源定向分配给特定任务任务原地升级,资源保持提升调度结果确定性Resource ReservationResource ReservationassumePodPodPodPodPodPodPodassumebindloopbindnodesScheduledassumed PodPodqueuemin=3,replicas=4Jobmin=3,replicas=4Permitted Job SchedulingMin:GPU 100Max:GPU 100rootroot.aroot.broot.croot.b.1
17、root.b.2root.c.1Min:GPU 20Max:GPU 40Min:GPU 50Max:GPU 80Min:GPU 30Max:GPU 50Min:GPU 30Max:GPU 50Min:GPU 20Max:GPU 40Min:GPU 30Max:GPU 50Namespace1Namespace2Namespace3Namespace4Namespace5Namespace6?Capacity schedulingCapacity scheduling多租户配额动态借、还。有效利用集群资源多级结构,灵活对应企业组织架构完全兼容Yarn设计提升资源利用率多租户配额定向资源调度Kub
18、e-QueueKube-Scheduler 云原生AI关键技术3.高效调度AI任务https:/ Queue,Fair,Topology等复杂场景,扩展K8s满足大规模AI/大数据/HPC任务调度有效解决资源碎片浪费、作业挤占、租户公平性、动态负载感知、数据亲和性、资源预留等分布式系统资源分配难题与社区共推Batch工作组,定义Batch Job,Queue等Spec云原生AI关键技术4.弹性伸缩分布式AI训练自动发现、适配训练节点数变化,触发计算和通信链路调整支持手动/自动扩、缩容训练任务,支持容错支持竞价实例,便于GPU利旧,大幅节省AI训练成本提升集群利用率,减小节点故障影响,显著减少作
19、业启动等待时间支持CV/NLP/推荐类模型,兼容Horovod Elastic API,Elastic Torch,Tensorflow,DLRover等框架ETOperatorhttps:/ 混合云 多数据源 加速 版本 ACLK8s的存储视角Fluid的数据使用视角IDC/$#8630.5616556.227529.7322159248.6421422.340817.258200.030000400005000060000700008 GPUs32 GPUs64 GPUs128 GPUsimages/secondFluid vs OSSFS(20Gb/s)ossfs(
20、cache on)Fluid128%GPU&()*50%云原生AI关键技术5.1 Fluid弹性数据集编排与加速训练Fluid Dataset管理计算任务使用数据的生命周期,使不同存储源的数据在K8s中可管理、可加速、可编排调度。克服存算分离架构带来的数据访问延迟显著加速AI等数据密集计算30%以上,减小远程I/O带宽压力适配公有云、私有云、混合云,多存储类型,多数据源统一管理缓存数据访问控制、数据感知调度、缓存自动弹性伸缩CNCF Sandbox项目 https:/ TGI Server/Stable Diffusion/Model Serving Programon GPUModelSha
21、rdFileShardFileShardFileShardFileShardFileDistributed CacheModel StorageFluid SDKCache preloadedPageCache1.自动缓存模型到本地1.模型缓存预热2.并发预热模型到page cache3.推理框架并发加载模型到GPU-67%-85%-71%-86%云原生AI关键技术5.2 Fluid加速大模型推理服务启动AI推理服务启动时延受限于模型数据拉取网络带宽,耗时较长频繁发布、更新模型版本和推理服务扩容,冷启动会造成LLM服务质量波动,导致业务受损。Arena CLI,Web console,SDKT
22、ensorflow,PyTorch,Horovod,DeepSpeed,MPI,PAI,AIACCCPU/GPU/NPUVPC/RDMAHadoop/OSS/CPFSFlink,SparkArenaOperatorsKServePipeline#提交分布式训练任务arena submit mpijob -name=tf-dist-data-workers=6-gpus=2-data=tfdata:/data_dir rdma-gang -env=num_batch=100-env=batch_size=80-tensorboard-image=ali-tensorflow:gpu-tf-1.6
23、.0/root/hvd-distribute.sh 12 2”训练评估推理数据开发云原生AI关键技术6.1 AI任务全生命周期管理Arena覆盖AI任务全生命周期 数据管理,任务管理,模型开发,分布式训练、评估,压测,推理屏蔽所有资源、K8s集群、运行环境管理、任务调度、GPU分配和监控等底层复杂性兼容多种计算框架 Jupyter,Tensorflow,Pytorch,MPI,Hovorod,DeepSpeed,Megatron-LM,Spark等提供CLI,go/java/python SDK和WebUI控制台,统一接口,三端互通Arenahttps:/ v1Submit training
24、job1.arena submitKubernetes for trainingKubeFlow(TF,MPI Operator)1.Deploy job2.Lifecycle mgmt/job:ps/task:0/job:ps/task:0/job:worker/task:1/job:worker/task:0(chief)/job:worker/task:2Continuous TrainingModel v2Model v3ExportData ScientistUpdating model for inferenceModel RepositoryOperatorMulti-versi
25、on models2.arena serve tensorflowUpdate routing rulesIstioDynamic routing mgmtA/B TestKubernetes for serving90%Current version v17%New version v23%New version v3REST API or gRPCApplications3.arena serve traffic-router-split云原生AI关键技术6.2 Arena支持从数据管理,到模型开发-训练-推理的全生命周期AI任务管理LlamaLlamaQwenQwenBaichuanBa
26、ichuanChatGLMChatGLMBloomBloomOPTOPTFalconFalconStableDiffusionStableDiffusionGPTGPTBertBertarena submit pytorchjob -label -label -annotation -name=chatglm-ptuning -gpus=1 -imag=xxx-chatglm-finetune:chatglm2 -data=oss-data:/mymodels cd/ChatGLM-6B/ptuning&bash train.sh/models/thudm-chatglm2-6bTensorf
27、lowTensorflowPytorchPytorchDeepspeedDeepspeedDeepspeedDeepspeed-chatchatTGITGIKServeKServeTritonTritonSDSD-WebUIWebUIDJLDJLvLLMvLLMFasterTransformerFasterTransformerarena serve custom -name=bloom-tgi-inference -gpus=2 -version=alpha -replicas=1 -restful-port=8080 -image=xxx-text-generation-inference
28、:0.8 text-generation-launcher-disable-custom-kernels-model-id bigscience/bloom-560m-num-shard 2-p 8080云原生AI关键技术6.3 Arena支持主流开源LLM/AIGC模型的预训练、微调、推理适配各种流行的AI框架按需自由选择在固定GPU集群,或者弹性GPU资源上进行训练LLM/AIGCACK Kubernetes Cluster云原生AI关键技术7.云原生大数据集成为AI训练提供高效样本数据处理能力统一基础设施管理,统一集群资源调度,支持倚天Arm架构CPU集群,在TPC-DS标准测试中,获得
29、15%性能提升,28%性价比优化针对存算分离架构优化,集成Fluid缓存加速,Remote Shuffle Service,最大化弹性能力Spark on K8s工作节点工作节点虚拟节点(ECI)控制面API ServerACK 增强调度器任务调度、弹性策略Arm等多架构亲和精细化资源编排Remote Shuffle ServiceSpark Executor PodSpark Driver PodOSSFluidJindoFSx分布式缓存加速数据访问Spark Application Operator通过K8s提交计算任务通过EMR提交计算任务数据缓存编排/数据感知调度()Spark Exe
30、cutor Pods()Contents目录01大模型带来的挑战02云原生AI支持大模型生产的关键技术03ACK云原生AI套件工程实践提升100%GPU利用率提升30%数据访问效率提升20%AI训练速度用户自建 AI 平台阿里云 AI 服务开源 AI 框架与模型三方 AI 优化方案仓库AI 容器镜像模型实验CPU GPU vGPU NPUOSS CPFS HDFS运维流水线弹性伸缩监控故障诊断公共云专有云混合云边缘容器服务(ACK/ACK Serverless/ACK Edge/灵骏)AI工程管理命令行工具/SDK开发/运维控制台MLOps/LLMOps数据接入模型开发模型训练模型推理RDMA
31、算法工程师数据科学家AI平台运维人员K8s运维人员IaaS运维人员AI数据加速数据集管理数据访问加速数据集编排AI任务管理任务提交运行任务调度任务弹性异构算力管理资源管理运维资源弹性伸缩资源调度与共享云原生AI套件成本分析多租户云原生AI套件产品形态基于标准Kubernetes,提供组件化能力,全栈优化AI生产系统的性能、效率和成本。用户自建 AI 平台阿里云 AI 服务开源 AI 框架与模型三方 AI 优化方案PaaS云原生AI套件异构算力管理AI任务管理AI数据加速AI工程管理成本分析资源管理运维监控诊断资源接入资源弹性伸缩HPA、Cluster AutoscalerGPU共享调度与隔离资
32、源调度与共享任务提交运行任务调度任务弹性数据集管理数据访问加速数据集编排命令行工具控制台AI工程流水线IaaSK8sACK ProACK ServerlessACK Edge灵骏公共云专有云混合云边缘CPU/GPU拓扑感知调度JupyterLabPipelineKubeflow任务队列弹性配额调度Batch任务调度ECS/ECI GPU扩展弹性推理弹性训练数据集弹性数据集监控多数据源接入自动化数据流应用协同编排混合云数据加速Serverless数据加速可扩展的分布式缓存引擎降低大规模GPU管理复杂度智能削峰填谷,减少GPU资源浪费最大化提升GPU利用率多类型任务快速提交和编排多种策略满足复杂调
33、度场景提升任务运行效率和优化成本数据抽象和统一接入管理数据缓存预热加速访问数据使用的简化和自动化屏蔽底层复杂性,简化任务管理可视化配置、管理、监控集群AI生产效率和体验优化Arena SDKArena CLIAI运维控制台AI开发控制台模型管理MLOpsKServePrompt管理模型评测云原生AI套件能力优势云原生AI套件四大分层能力模块,分别具备不同的优势特性,充分满足不同角色、不同架构层级、不同业务阶段的需求。Soul 是任意门旗下基于兴趣图谱和游戏化玩法的社交 APP,属于新一代年轻人的虚拟社交网络。基于用户的社交画像和兴趣图谱,通过机器学习来推荐用户可能会产生的高质量的新关系,有丰富
34、的AI业务场景,包括语音匹配、聊天机器人、文本 OCR 识别、图像识别、多模态等。AI 机器学习是公司核心业务,但在传统的虚拟机构建部署方式下,缺乏一个统一的管控平台,导致业务工作流不流畅,开发迭代效率低下,运维管理复杂且资源利用率低下,具体表现为:业务迭代速度慢:研发工程师需要花费大量时间在底层基础设施资源准备、业务集成部署、日志监控等 AI 工程化上,无法专注于业务开发,难以快速响应业务研发需求。运维工作重复:日常需要处理安装 Nvidia GPU 驱动、CUDA 版本、OSS 数据源等环境问题,人力投入大,运维效率低。资源性价比低:CPU 机器处理速度慢,大量堆积机器,导致资源闲置浪费。
35、GPU 机器虽效率高,但现有技术无法提升利用率,资源空置。客户痛点任意门在阿里云上,通过容器服务 ACK 云原生 AI 套件,构建了符合开源标准、自主掌控的 AI PaaS 平台,实现了以下特点:全生命周期管理的一站式平台提升迭代效率:提升迭代效率,包括数据管理、AI 任务发布和模型评测等,开发迭代效率提升 25 倍。统一的异构资源管理和运维平台降低运维成本:降低运维成本,自动化管理 GPU 节点、算法代码与标准镜像解耦以及自动弹性推理,节省 1 倍运维成本。效率及资源利用率提升:提供专业的 GPU 共享及 Fluid 数据加速能力,同时提升业务效能,成本节约 50%。方案亮点任意门 Soul
36、 通过先进的算法驱动和数据分析技术,打造了“平行宇宙”中独立的、沉浸式社区。作为下一代基于人工智能的移动社交网络平台,任意门 Soul 是中国社交 4.0 时代的领军者。其 AI PaaS 平台管理了从初期的数十张 GPU 卡到近千张的超大规模,日承载 AI 业务发布数百次,很好地支撑了业务的高速发展。建设成果相关产品:l 容器服务 ACK任意门:基于ACK云原生AI套件打造智能化社交平台l 云原生AI套件支撑 CloudML 的自建集群由于资源池容量、资源弹性能力相对有限,导致业务低谷时资源闲置成本高,业务高峰时资源紧张。迁移到基于 Serverless 容器架构的混合云之后,获得了 Ser
37、verless 容器带来的敏捷、安全、弹性、低成本等优势,然而也遇到了几个重要的技术挑战:无法定制扩展存储类型:公有云集群只支持阿里云存储类型(如 NAS、OSS等),无法直接适配内部自研的分布式文件存储(StarFS)。缺乏可信透明的数据接入方式:如何在 Serverless 容器的黑盒系统使用过程中规避数据泄露,如何确保数据存储、传输、访问过程中安全可靠,缺乏对应的解决方案。基础设施差异导致用户体验不一致:混合云场景中,当用户任务在公有云和自建集群之间进行迁移时,用户使用体验需要与自建集群上保持一致,不需要做过多的变更。客户痛点阿里云 ACK 云原生 AI 套件中提供的 ack-fluid
38、 存储系统接入方案可以很好的解决以上问题:公共云集群定制扩展自建存储:ack-fluid 基于开源 Fluid 标准对于 ThinRuntime 提供了完整的支持,只要满足开源要求就可以适配 ack-fluid。StarFS 接入只需在开源 Fluid 下即可完成调试,同时借助 ACK One 注册集群模式可获得阿里云商业版 Fluid 全部功能。阿里云 ECI 访问云下自建存储:ack-fluid 与阿里云的 ECI 做了无缝支持,无需开启 privileged 权限,就可以满足云上弹性容器实例 ECI 访问云下自建存储系统的需求。用户无需感知基础设施的差异:ack-fluid 提供对于 S
39、tarFS 自建 pvc 的丝滑兼容,无需了解 Fluid 的使用方式,只需要 pvc 中添加特定 label 即可,满足了 CloudML 用户无需感知基础设施层面的差异的需求。而在开源 Fluid 中这个工作就非常复杂,需要手动创建和管理 Dataset 和 ThinRuntime 的生命周期。方案亮点“混合云场景下 Serverless 容器方案完美落地,很好地满足了我们简单、安全、弹性、低成本等诉求,小米 CloudML 可以稳定高效地响应业务需求。尤其值得一提的是,通过引入阿里云 ACK 云原生 AI 套件的 ack-fluid 很好地解决了相关技术难点:首先,对于自建存储 Star
40、FS 的访问提供了很好的扩展支持,并且得益于 Fluid 提供的数据集可观测性功能,我们能够获取云上工作负载的数据访问特性,从而支持数据热加载和资源分配调优。其次,方案接入简单、管理便捷。我们自行完成 StarFS 与 Kubernetes 环境的对接工作,整个 thinRuntime 开发简单,无需我们具备复杂的 Kubernetes 定制开发知识。基于这套方案,我们只需要了解 Dockerfile 构建就可以完成,开发工作 2-3 小时左右,显著降低了使用 ECI 接入 StarFS 的工作成本。“客户证言相关产品:l 容器服务 ACKl 分布式云容器平台 ACK Onel 弹性容器实例
41、ECI小米机器学习平台:基于Fluid的Serverless混合云容器AI平台小米机器学习平台(CloudML)承载了图像、NLP、声学、搜索推荐等应用业务,是小米针对机器学习进行全流程优化的高性能、分布式云服务。123管理员创建ACK集群,添加GPU节点管理员一键选择安装ACK云原生AI套件算法工程师向ACK集群提交模型训练任务AI平台运维人员将训练好的模型在ACK集群中发布为线上推理服务4ACK云原生AI套件使用流程AI运维控制台集群大盘ACKPytorchTensorflowGPU NodegpugpuPytorchTensorflowGPU NodegpugpuDatasetSched
42、ulingvolumevolumearenaarenaArenaCLI/SDKSLB负载均衡用户数据集一键加速成本分析作业大盘Scaling用户权限配额管理低延时LB直通pod蓝绿发布、服务化运维算力、数据的弹性、加速GPU大盘AI Infra/平台运维人员数据科学家/算法工程师GPU共享调度AI开发控制台一键发布服务模型评测工作流编排定时服务提交、管理训练任务开发、调试ACK云原生AI套件使用流程两类角色通过命令行工具和控制台简便操作,高效协同欢迎扫码入群与我们交流钉钉群:33214567微信群云原生AI应用KubernetesArena-AI任务生命周期管理GPU/vGPU,NPUENI/RDMANAS/OSS/CPFSPytorch Tensorflow TritonDeepspeed TGISpark RayAI/大数据任务调度器任务队列异构算力调度/共享拓扑感知Serverless 推理弹性训练数据集加速AI训练速度提升20%数据访问效率提升30%大模型推理启动速度提升80%ACK云原生AI套件助力大模型工程提效“云原生AI筑底大模型基础设施”New Future on CloudTHANKS