《混合场景下大规模 GPU 集群构建与实践-星龙.pdf》由会员分享,可在线阅读,更多相关《混合场景下大规模 GPU 集群构建与实践-星龙.pdf(21页珍藏版)》请在三个皮匠报告上搜索。
1、大模型 AI Infra 挑战与实践MiniMax技术总监/星龙CATALOG目录01 02 03 04数据存储实践与挑战基础设施现状关于MiniMax大规模训练集群构建05实践收益PART ONEPART ONE0101A About MiniMaxbout MiniMax关于MiniMaxMiniMax 成立于 2021 年12月,是一家专注于推动通用人工智能技术突破的科技创业公司。我们的愿景是与用户共创智能。自研文本、语音、图像等多种模态通用大模型,包括万亿MoE大语言模型。MiniMax 开放平台为企业及开发者提供安全、灵活、可靠的API服务。PART PART TWOTWO0 02
2、2Status of infrastructureStatus of infrastructure基础设施现状基础设施现状1 灵活性&成本的考量资源角度:混合CPU-云GPU-部分场景迁移IDC基础组件角度:云原生公司高速发展稳定&高效 成本最优规模化效应-效果和成本收益MAX2 基础环境业务全球化:切分国内外环境-海外业务/集群成本和灵活性:多云/IDC-混合云场景基础设施复杂度高:Kubernetes 作为资源层抽象PART PART THREETHREE0 03 3数据数据处理实践处理实践与挑战与挑战Data Storage Practices&ChallengesData Storag
3、e Practices&Challenges1.1、数据处理-计算数据分布的挑战 多模态/无结构化 多混合资源(GPU 来加速)工具链与技术栈的差异 资源利用/处理效率 数据量大1.2、数据处理-计算解决方案:计算引擎的迁移与混合使用Spark OperatorJob ControllerRay Operatork8s非结构化场景使用 Job Job 作为灵活性的补充作为灵活性的补充逐步改造为 RayRay解决计算效率和迭代效率解决计算效率和迭代效率的问题半结构化的场景保留保留SparkSpark选择选择 Spark Spark 的原因的原因迁移到迁移到 Job Job 的原因的原因迁移到迁移
4、到 Ray Ray 的原因的原因2、数据处理-存储1、Posix 文件协议为主,提供 HDFS/S3 协议2、远程缓存以及本地高速临时读写3、数据处理-资源供给资源供给是制约数据处理速度的关键问题。集群维度:多个集群间做统一入口时间维度:利用好不同业务集群的空闲时间单机资源维度:利用好空闲 CPU/GPUPART PART FOURFOUR0 04 4大规模训练集大规模训练集群构建群构建Large-scale training cluster constructionLarge-scale training cluster construction1、平台层架构入口层:统一平台入口层,通过队列
5、控制和分发集群层:基于 Volcano 二次开发的批调度器来作为资源分配的组件物理资源层:只用设备插件(非虚拟化)kubernetes 来管理裸金属资源2、网络架构FatTree 结构,Infiniband/RoCE NCCL 统一封装,针对网络特点/故障做优化 端到端优化最大化发挥不同集群优势不同集群现状Infiniband/RoCE 集群网络top设计并行策略通信方式NCCL通信链路端到端构建定位止损方式硬件故障(难以定位和处理)Infiniband:优点:延迟低,Sharp(在网计算能力)缺点:黑盒,价格贵RoCE:优点:价格便宜,可控缺点:存在网络拥塞问题Fat-Tree结构3、故障检
6、测故障影响大,涉及底层多个硬件 框架/通信库/平台联合检测解决SpineLeaf1Leaf2NICPCleGPUGPU/MemoryHostNICPCleGPUGPU/MemoryNICPCleGPUGPU/MemoryLeaf/Spine 网络链路拥塞Leaf/Spine 交换机故障交换机端口降速/FlappingNIC 网卡故障PCIe 降速Fabric-Manager 故障NVLink P2P 故障NVSwitch 故障GPU XID 错误 CPU/Memory 故障导致宕机PART PART F FIVEIVE0 05 5实践实践收益收益Practice&Practice&Benefits Benefits Future&Prospects实践收益实践收益 优化训练效率,做 Profiling 提升训练框架效率 端到端设计提升模型 MFU 调整机器排布和优化通信算法来降低通信耗时 迭代计算/存储范式提升资源运行效率机器效率:标准化交付验收和自检自愈系统,降低故障率,减少人力消耗 优化技术选型降低学习上手成本工作效率:协作最佳实践平台化组织的效率: