上海品茶

您的当前位置:上海品茶 > 报告分类 > PDF报告下载

戴尔科技:AI GPU分布式训练白皮书(2022版)(61页).pdf

编号:101416 PDF 61页 17.17MB 下载积分:VIP专享
下载报告请您先登录!

戴尔科技:AI GPU分布式训练白皮书(2022版)(61页).pdf

1、戴尔科技 AI GPU分布式训练技术白皮书(2022 版)内容摘要 当前人工智能应用消耗的计算力,平均2-3个月就会增长一倍。AI模型越来越庞大,模型参数规模快速增长,针对 AI 大模型训练,仅靠提升 AI 加速芯片单卡性能已经非常困难,多机多卡分布式训练势在必行。同 AI 服务器单机训练相比,多机 GPU分布式训练是一个系统工程,“通信墙”和“IO 墙”是制约大规模计算集群加速的主要影响因素。戴尔科技集团将在技术白皮书中,为您分享 AI 计算技术发展的研究,构建 AI GPU 分布式训练集群的解决方案与性能优化的最佳实践。本白皮书撰写团队戴尔科技集团数据中心业务部戴尔科技集团人工智能和高性能

2、计算创新实验室北京凌云仿真信息技术有限公司人工智能技术的发展与成熟,AI 商业化进程的加速,为拓展数字经济及加速企业数字化转型提供了新的动能。戴尔科技集团首席执行官(CEO)迈克尔 戴尔先生(Mr.Michael Dell)在谈及人工智能曾经讲过:释放数据的力量,AI 正在真正改变我们的世界。如果说人工智能是火箭,那么数据就是火箭的燃料。新兴且强大的技术,将把我们带入又一次文艺复兴,这将是人类取得伟大进步的一个时代。我们正处在由技术引导的一个巨大投资周期的开端;新技术要求投入巨资来部署支持人工智能的新型技术架构,无缝且安全地从边缘到核心再到云。在中国,我们看到人工智能技术正在加速与各个主要行业

3、的融合,创造出更多的行业应用场景。在互联网,AI 正在被广泛应用于智能推荐、视频审核与智能客服;在制造业,AI 已经在工业产品外观检测、预防性维护等领域落地;在金融,AI 技术越来越多应用于智能风控、投顾与保险理赔;在生命科学,Google Alphafold2 的开源,让我们看到了 AI 加速蛋白质 3D 结构预测与新药研发的重大前景。秉承戴尔科技集团“在中国,为中国”的理念,我们一直积极投入于加速中国人工智能产业进步与行业落地的实践工作。2015 年,戴尔科技与中科院自动化所合作共建人工智能与先进计算联合实验室,在 AI 计算、深度学习服务平台、传统行业 AI 应用落地等领域进行了深入的探

4、索实践。2019 年,戴尔科技集团与中国赛艇协会、中国皮划艇协会签署水上实验室技术战略合作,为中国赛艇队、皮划艇队开发了一套融合 AI 运动生物力学模型、GPU 高性能计算、流数据平台的综合智能训练服务系统,通过视频实时捕捉运动员的训练动作、实时分析和判断,纠正运动训练中的动作力度、角度和稳定性偏差,助力运动员备战奥运。在高校 AI 人才培养和产教融合领域,戴尔科技集团基于智能驾驶小车开发的 AI 沉浸式教学实训平台,已经在国内多所知名大学完成 AI 实训课程教学;AI Master Class 人工智能视频教学课程,目前开放包括 AI 原理/机器学习/特征工程/机器视觉/AI框架 五大模块超

5、过 30 多讲视频课程,致力于降低在校大学生及有志于投身 AI 的职场人士学习 AI 的入门门槛。AI 模型开发和工业场景应用,需要大量的计算力。戴尔科技集团发布的最新一代 PowerEdge 15G 服务器,面向 AI 异构计算算力需求,在主板设计、电源功率、风扇散热、GPU 通信等多个技术领域进行优化设计,并推出面向数据中心高性能 AI 计算的优化服务器 PowerEdge XE8545与 PowerEdge R750 xa,以及适应 AI 边缘计算场景的边缘优化服务器 PowerEdge XR11 与PowerEdge XR12。伴随着 AI 行业应用的深入,参数空间更大、结构更加复杂、

6、算力消耗更高的大型 AI 模型不断涌现,仅靠单机算力的提升已经变得越来越困难和不经济,依托 AI 计算集群的多机分布式训练势在必行。AI 集群分布式训练是一个复杂的 AI 系统工程,需要计算/存储/网络/框架软件各个组件的相互协同与系统优化,如同一辆行驶在公路上的轿车内部的各个关键机械部件,任何一点存在性能短板都会造成整体的性能下降。这其中存储 IO 是一个非常关键的问题。深度学习模型训练依赖于大数据,训练数据集数量越多、质量越高、针对性越强,模型的精度越高,这就需要提供一套高性能、易扩展的数据存储系统,满足规模持续增长的 AI 数据存储空间、性能及数据保护要求。随着以 GPU 为代表的异构加

7、速芯片性能的快速提升,深度学习端到端训练过程中,对于数据搬运过程的时间要求越发苛刻;特别是图像、NLP 领域存在大量小文件,而小文件持续快速读写一直是存储领域一大性能难题。如果数据在抽取、预处理、加载过程中存在比较大的延迟,会严重影响到 AI 芯片的实际利用率,也就是通常谈到的“IO 墙”。面对 AI 数据存储的技术挑战,戴尔科技集团提供的PowerScale 存储系统,助力用户在 PB 级至几十 PB 级别的数据规模下,构建超过 1000 张 GPU 规模的 AI 计算集群性能与容量需求相匹配的后端集中存储系统。PowerScale 提供业界最全面的存储访问协议支持,它允许数据科学家使用不同

8、的主流文件协议访问和读写存储在 PowerScale 上的非结构化数据集,并支持同时以不同的协议访问同一份文件集以适应不同的应用操作。在 AI GPU 分布式训练技术白皮书中,我们将为您详细阐述和报告戴尔科技集团基于数据中心与IT 基础架构领域的技术积累,在构建高性能、可扩展的 AI GPU 计算集群的参考架构、效能测试及最佳实践,以及在 GPU 算力优化、应对 GPU 分布式训练中的“通信墙”与“IO 墙”的解决方案。朱 培 兰戴尔科技集团全球资深副总裁大中华区数据中心业务总经理1.快速发展中的人工智能产业2.AI 计算技术发展与挑战3.AI GPU 分布式训练原理4.AI GPU 分布式训

9、练的技术挑战与实践5.面向 AI 计算的 Dell PowerEdge GPU 加速服务器6.戴尔科技 AI GPU 分布式训练性能验证7.构建应用透明的 GPU 分布式训练集群实践8.大规模深度学习集群存储优化实践9.AI GPU 计算集群网络通信方案10.戴尔科技端到端 AI 基础架构解决方案11.总结12.参考文献0204099545657目 录02人工智能时代已来,它就在我们身边,已经开始在改变我们的生活。人工智能自 1956 年美国达特茅斯会议,作为一门学科正式提出,已经经过了 60 多年的发展历程,期间经历了“三起两落”的曲折性发展。2015 年以来,随着计算

10、力特别是异构加速技术的飞速发展,互联网与移动互联网带来的大量可用于训练的数据,以及以深度学习、强化学习为代表的 AI 算法技术的不断成熟,人工智能开始步入产业应用落地的热潮。埃森哲在人工智能:助力中国经济增长报告中预测:到 2035 年,人工智能将为中国带来 7 万亿美元产出,拉动中国经济增速提高 1.6 个百分点1。目前,以深度学习为核心算法的 AI 技术,主要的应用方向集中在非结构化数据处理及知识发现,如图像、视频、语音、语言、文本等。相较于经典机器学习,深度学习简化了复杂的特征工程,通过深度神经网络在大量数据学习的基础上实现特征的自动提取与知识发现,而非结构化数据分析使用传统技术手工设计

11、特征有着很多的困难和挑战。机器视觉、语音识别、自然语言处理、时序数据分析,是目前 AI 技术发展较快、相对比较成熟的应用领域。在结构化数据知识发现,AI 技术也为用户提供了新的技术手段。图 1:人工智能技术发展历程快速发展中的人工智能产业103图 2:人工智能应用的主要技术方向图 3:AI 典型行业应用场景人工智能技术与具体行业应用结合,衍生出更多具有行业特性的应用场景。目前 AI 技术已经从互联网、智慧城市,向金融、制造、医疗、零售、交通、教育等更多传统行业渗透。像制造业应用AI 技术实现产品缺陷检测、工艺参数优化、良品率提升、故障预测与健康管理(PHM);医疗与生命科学领域通过 AI 实现

12、蛋白质 3D 结构预测与分子筛选、加速新药研发、医疗影像辅助诊断;汽车行业的智能驾驶,以及零售行业的 AI 商品识别、货损防控、智能称重等,都是当前人工智能技术行业落地的热点场景。04艾瑞咨询2021 年中国人工智能产业研究报告数据显示:2021 年中国人工智能核心产业规模为 1998 亿元人民币;2026 年预估相应规模将超过 6000 亿人民币,2021-2026 年度复合增长率预计为 24.8%2。计算机视觉是目前 AI 技术赛道中贡献最大的细分市场。2021 年 7 月发布中国互联网发展报告(2021)显示:2020 年中国人工智能企业数量 1454 家3。当然,虽然过去几年人工智能产

13、业取得了快速的发展和进步,客观来看 AI 产业化尚处在初期阶段。目前几乎全部 AI 成熟技术均属于专用 AI 智能,AI 距离通用人工智能的距离仍然十分遥远。当前绝大多数 AI 应用落地场景集中在感知智能,认知决策智能需要更快速的发展。人工智能技术仍需不断成熟,应用场景还需持续拓展,未来 AI 技术对生产、生活和社会的改变将会有更大的期待。AI 计算技术发展与挑战2计算力是过去几十年制约神经网络技术发展的重要原因,也是当下促进深度学习商业落地的重要推动力。相比经典机器学习算法,深度学习模型层次多、参数巨大(模型参数从千万级别到千亿级别,甚至万亿级别)。为了算法模型能够满足工业级精度要求,通常需

14、要大量的数据进行模型训练,这都需要超级算力的支持。北美 AI 研究机构 OpenAI 在 2018 年发布的研究报告显示:2012 年到 2018 年 6 年时间内,AI 消耗的计算力平均每 3.43 个月增长 1 倍,六年时间内累计增长 30 万倍4。因而OpenAI提出了“AI计算新摩尔定律”,AI算力增长速度更快于半导体行业经典的摩尔定律周期。图 4:AI 算力需求增长态势051_GPU自 Andrew Ng 将 GPU 计算引入到图像分类并取得巨大成功(注:2018 年图灵奖获得者 Yann LeCun 在自述著作科学之路中谈到,2006 年微软研究院的科学家 Patrice Sima

15、rd 首次尝试将 GPU 用于神经网络计算30),GPU 目前已经成为 AI 训练和推理计算最主流和成熟的计算加速方案。NVIDIA 企业级 GPU 加速卡 A100,内置 6192 个 FP32 CUDA 核心,提供强劲的浮点计算性能;性能更将强劲的 H100 GPU 即将上市。深度学习张量计算包含大量的乘法和加法操作,并行度高,而计算逻辑相对简单,非常适合 GPU SIMD(单指令多数据流)架构进行并行计算。NVIDIA 基于 GPU CUDA 编程框架,针对 AI 应用开发了大量的软件优化库,如 cuDNN、NCCL、TensorRT、DeepStream、Metropolis、Maxi

16、ne 等,已经形成了完善的 GPU 软件生态。2_CPU在 GPU 引入 AI 计算之前,谷歌大脑部署的 AI 超算集群规模有 1000 台物理器,2000 颗 CPU的计算规模。今日 CPU 仍然承载着很多 AI 的计算任务,绝大多数的数据预处理任务是通过 CPU 来完成,如 Alphafold2 在蛋白质 3D 结构预测中同源序列和模版搜索、三维空间坐标转换,以及强化学习的一些关键任务计算也是由 CPU 来负责。Intel 提供的 AVX512 指令集,来优化深度学习关键的浮点计算性能。一些客户的 AI 推理及轻量级模型训练,也是部署在 CPU 上运行。图 5:AI 计算技术发展历程AI

17、计算技术的快速发展,特别是以 GPU 为代表的异构加速技术的应用,使得快速训练和商业部署大型深度学习模型成为现实。063_FPGAFPGA 是一种可重构/可编程芯片,可以实现几乎所有数字电路功能,具有丰富的可重配置的片上资源。可配置 IO 和用户自定义的电路,无需在运行时加载并解释指令集,以具体 workload 按需使用硬件资源,按照具体的数据特征优化硬件计算的流水线,提供很低的计算延迟。FPGA 的这些特性优势,吸引到一些头部 AI 用户,在研发和应用 FPGA 芯片在 AI 低延迟推理以及图像视频处理。4_AI 专用加速芯片最近几年国内外涌现出大量的 AI 专用芯片厂商,提供专门为 AI

18、 深度学习负载设计和优化的专用加速芯片,以提供更高的计算性能和更优的性价比,其中一些 AI 专用芯片已经流片和正式商用。如 Graphcore,是戴尔科技集团参与投资的 AI 芯片初创企业,目前已经成长为欧洲估值最高的 AI独角兽。Graphcore AI 专用芯片 IPU(Intelligence Processing Unit),通过同构多核的专业架构设计、大量的片上高速 SRAM 存储、BSP 并行计算机制等 AI 芯片设计,提供高性能的 AI 训练和推理计算加速。Graphcore 第一代 IPU 芯片 IPUv1 部署在戴尔科技 DSS8440 服务器上,单机配置 8 张 IPU 可

19、以提供 2PFlops 峰值浮点计算性能5。2022 年初上市的 Graphcore 第三代 IPU 加速芯片 BOW,采用 TSMC 7nm 制程工艺,是业界首款采用 3D 封装技术的 AI 芯片。IPU BOW 在1U 机架式空间集成了 4 块 IPU 芯片,1U 机箱即可以提供 1.4PFlops 的峰值浮点算力。使用戴尔PowerEdge 服务器作为 IPU 计算节点的控制节点,构成可横向扩展的 IPU-POD 计算集群。目前已上市的 AI 专用加速芯片,在一些经典的 AI 算法模型上取得了非常好的计算性能,但是从通用性和软件生态完备性同 GPU 计算相比,还需要更多的时间和努力。图

20、6:Graphcore IPU AI 专用加速芯片075_ 新型 AI 加速芯片技术未来我们预计将会看到更多的AI加速芯片技术,如类脑芯片、光子芯片、仿生芯片、量子芯片等,当然目前这些 AI 芯片主要还是在实验室研究阶段。如 Intel 2017 年发布的 Loihi 神经拟态芯片,采用 14nm 工艺制造,集成 21 亿个晶体管、128 个神经拟态计算核心、13 万个神经元、1.3 亿个突触。基于 Loihi 的“Pohoiki Beach”神经拟态系统,包含 64 颗 Loihi 芯片,拥有 800 万个神经元和 80亿个突触。基于 Intel 公开的数据,Loihi 在一些特定应用(如稀

21、疏编码、路径规划),可以提供传统 CPU 1000 倍的计算性能6。其他业界之前推出的类脑计算芯片系统,包括如曼彻斯特大学发布的 SpiNNaker、IBM TrueNorth、海德堡大学与德累斯顿大学开发的 BrainScaleS、清华大学类脑计算经研究中心开发的 Tianjic 等7。作为预训练语言模型的代表,Transformer 模型于 2017 年由 Google 提出。预训练语言模型的思路是:首先通过大量的无标签数据进行“预训练”,获得一个比较好的语言表示,再将其应用到特定的自然语言处理下游任务中。预训练模型首先在自然语言处理(NLP)领域取得规模性应用,目前已渗透到机器视觉、生命

22、科学等更多 AI 领域。预训练模型是 AI 迈向特定领域的通用智能的重要进步。同之前的深度学习算法模型相比,预训练模型普遍结构复杂,参数空间巨大,训练预训练模型需要更大规模的数据集和更强大的计算力。2018 年之后,涌现出很多超大规模的 AI 模型,如BERT、GPT-2、GPT-3,均属于预训练模型的范畴。表 1:经典 AI 模型参数规模08虽然 GPU 的制程工艺一直在快速发展,如 NVIDIA 安培架构 A100 GPU 采用 TSMC 7nm 制程工艺,单块 A100 GPU 包含 540 亿个晶体管、6912 个 FP32 CUDA 计算核心和 432 个 Tensor张量计算核心、

23、19.5TFlops FP32 峰值算力和 156TFlops TF32 峰值算力(不考虑结构化稀疏)。即将上市的 Hopper H100 GPU,采用更先进的 TSMC 4nm 工艺,单块 H100 GPU 集成 800 亿个晶体管。但即使是最强劲的GPU型号,当需要训练超大规模的AI模型时,也需要耗费很长的时间,或者因为模型规模异常庞大(如类似 GPT-3 1750 亿参数)根本无法加载到单张 GPU 的显存来进行处理和计算。NVIDIA 之前曾给出使用单卡 A100 GPU,一些经典 AI 模型达到工业精度需要的训练时间:MiniGo(强化学习):2156 分钟;Mask R-CNN(目

24、标检测):400.2 分钟;RNN-T(语音识别):309.6 分钟;3D-Unet(医疗影像):229.1 分钟;ResNet-50(图像分类):219 分钟。当遇到更大规模的大型预训练模型,非并行化的 GPU 训练实际上已经无法承载 AI 模型训练的算力要求。亿级、千亿级、甚至万亿级别参数规模的 AI 模型训练所需算力要求,超大规模 NLP/推荐系统特征向量所需显存要求,更大规模数据集更短训练时间的诉求,仅依靠单台 GPU 服务器已经无法满足超大规模 AI 模型训练的算力要求,多机多卡 GPU 分布式训练势在必行。训练 1750 亿参数的 GPT-3 模型,如果使用 8 卡 V100 GP

25、U 需要训练 36 年,使用 512 卡 V100 需要训练 7 个月时间,使用 1024 张 NVIDIA A100 80GB GPU 集群,大致需要 1 个月的训练时间8。北京智源人工智能研究院发布的中文预训练模型 26 亿参数,使用 64 张 V100 GPU 训练 3 周时间9。NVIDIA 使用1400 张 V100 GPU 集群训练 BERT-Large,不到 1 个小时就可以完成训练10。09AI GPU 分布式训练原理3GPU 分布式训练,即跨越单台 GPU 服务器的算力限制,使用数据中心不同的物理服务器的GPU 算力卡,通过高速低延迟网络及存储构建 GPU 计算集群,实现更大

26、规模的、多机多卡的 GPU并行计算。大型 AI 深度学习、强化学习模型,通过 GPU 分布式训练技术,可以在更短时间内将模型训练到满足工业级应用的精度。当前业界多数深度学习框架都可以支持 GPU 分布式训练,如 TensorFlow、Pytorch、MXNet、Keras,以及国内 AI 框架如 PaddlePaddle 等,但是实现高效率的 GPU 分布式训练通常需要仔细规划 AI 集群基础架构以及框架软件层面的优化。目前,业界常见的 AI GPU 分布式训练技术,主要包括如下四类:数据并行、流水并行、模型 并 行 与 专 家 并 行。OpenAI 在 2022 年 6 月 发 表 的Tec

27、hniques for Training Large Neural Networks技术博客,对这四类分布式训练的技术进行了详细的总结与比较11。图 7:AI GPU 分布式训练的四种类型Source:OpenAI10 数据并行(Data Parallelism)数据并行是最基础,也是使用最广泛的一种 GPU 并行训练的方式。使用数据并行,每块 GPU计算卡保存完整的模型副本,训练数据以 Mini-Batch 的方式拆分到不同的 GPU 上并行计算,每个时间周期内 GPU 将自己训练得到的参数同步给其他 GPU。数据并行,要求每块 GPU 的显存需要能够存储整个模型。如果是非常大规模的 AI

28、模型已经超过了单块 GPU 的显存空间,则无法再使用数据并行。流水并行(Pipeline Parallelism)流水并行,即参与计算的 GPU,各自计算模型的不同层。采用流水并行,GPU 不再需要存储和计算 AI 模型的所有参数;AI 模型依据层次分配到不同的 GPU,每块 GPU 只需要存储和计算属于自己工作的模型层次的参数。相对于数据并行,同等规模的 AI 模型下,使用流水并行对 GPU显存容量的开销更小。流水并行的难度在于深度学习层与层输入和输出顺序上的串行依赖关系,与GPU 大规模并行计算的矛盾;如果解决不好这个矛盾,GPU 可能会浪费大量时间用于等待负责上一层计算的 GPU 的数据

29、输出,这些等待时间被称为“时间气泡”。减小“时间气泡”的常见做法是:将一个大批次分解为更多的微批次,以实现每个批次更短的计算时间和更高的并行度。模型并行(Tensor Parallelism)模型并行与流水并行的差异主要在于:流水并行是依据模型的层次进行拆分,而模型并行是将深度学习同一层次的不同张量计算进行水平拆分,每个 GPU 承担不同部分的计算操作,再将计算结果进行汇总组合。模型并行在如 Transformer 这样存在大量矩阵计算的大规模预训练模型,具有很好的加速效果。专家并行(Expert Parallelism)采用专家并行,即每次只使用 AI 网络中的其中一个部分,用于训练数据的计

30、算和结果输出。对于拥有多组权重的情况下,网络为每组权重(各组权重被称为“专家”)分配各自的计算任务和GPU 资源,在不增加更多计算资源的情况下获得更多的训练参数。11AI GPU 分布式训练的技术挑战与实践4如果说单机多卡性能优化主要是 GPU 服务器内部,如 GPU-GPU 通信、CPU-GPU 通信、GPU IO 通信等,GPU 分布式训练优化更像是一个 IT 系统工程。它涉及到计算、网络、存储硬件层面,也包括数据并行、模型并行、GPU 参数同步通信的算法和软件实现层面,GPU 集群任何一点出现性能短板,都可能会成为整体训练过程中的性能瓶颈关键点。其中,“通信墙”与“IO 墙”是 GPU分

31、布式训练最主要的性能瓶颈点。1_“通信墙”AI 模型越庞大,模型参数越多,训练过程中的通信消耗越大;一些大型 AI 模型训练过程,通信时间消耗占比已经超过 50%。当前 GPU 服务器外部网络通信带宽要低于服务器内部通信,如200Gb HDR Infiniband 已经是领先的高带宽低延迟通信方案,但是带宽性能仍然落后于服务器主板的 PCI-E 3.0,更低于 NVLink 与 PCI-E 4.0。同时,我们发现深度学习模型各层网络参数往往是很不均衡的。以 CNN 卷积神经网络为例,卷积层通常参数规模不大,大量的参数通常来自最后几层全连接层,全连接层的参数同步就会带来很大的带宽压力。如果参数同

32、步机制选择不当,很容易因为网络拥塞造成性能急剧下降。2_“IO 墙”随着 AI 加速芯片如 GPU 计算性能的快速提升,深度学习端到端训练过程中,数据预处理、加载、搬迁过程中的 IO 性能越来越成为性能瓶颈。其中,AI 芯片内部的 IO 性能主要依靠芯片厂商来解决。如 NVIDIA 在企业级 GPU 中采用带宽性能更高的 HBM 显存,以及更先进的封装技术;一些新兴的AI 加速芯片,如 Graphcore IPU 使用存内计算技术,与计算核心封装大容量高速 SRAM。这里我们主要讨论 AI 芯片与训练数据外部存储硬盘之间的 IO 性能匹配。如果是单机多卡训练,数据集不大,问题相对容易解决,可以

33、通过 GPU 服务器本地配置高性能 NVME SSD 或者 SSD 硬盘来解决。GPU集群环境,当部署几十张到上百张 GPU 卡规模,基于数据集中存储与共享的需求,以及更大数据规模的存储空间要求,通常会建议部署外置共享存储系统,而且需要提供文件系统以满足共享与权限12管理的要求。当外置共享存储需要同时为很多台 GPU 服务器提供存储访问,特别是上百张 GPU 卡规模的大型计算集群时,存储 IO 性能要求会成倍累加到共享存储。特别是很多 AI 应用如图像、自然语言处理,大量训练数据是KB级别的小文件,小文件频繁快速读写非常消耗文件存储系统的性能。如果没有一个强壮的、支持横向扩展的企业级文件系统,

34、以及高速的存储硬件环境(通常需要配置SSD 硬盘或者 NVME SSD 硬盘),非常容易在共享存储出现 IO 性能瓶颈。图 8:深度学习训练过程 IO 流向示意图图 9-1:戴尔科技 AI GPU 分布式训练解决方案针对 AI GPU 分布式训练,戴尔科技从 IT 系统工程的角度,结合计算、网络、存储硬件优化及框架软件层面优化,从端到端角度为用户提供整体的 AI GPU 集群架构设计与分布式训练最佳实践。13 GPU 服务器内部设计优化GPU 服务器单机性能优化,是集群性能优化的基础。针对 AI GPU 计算场景要求,戴尔科技集团在过去几年间,先后发布了多款专门针对 GPU 计算设计和优化的加

35、速服务器。AI GPU 集群计算,为了保障 GPU 运行在最高性能状态,避免出现 GPU 降频、GPU 低负载等现象出现,经常需要在GPU 服务器设计中针对 GPU 的功率、散热、通信等问题进行专业的优化设计,具体方向如:高密度GPU计算(单机支持 4 卡、8 卡 GPU 或更高部署密度)供电和散热,解决GPU开机过 程的“启动风暴”;服务器内部,多卡并行 GPU 之间如何高效通信,数据加载过程中 CPU、GPU 与存储器之间 的高效通信;构建 GPU 计算集群,GPU 与网卡在服务器内部的高效通信。在第 5 章节,将为您详细介绍戴尔科技 PowerEdge GPU 加速服务器所做的优化设计。

36、低延迟网络通信技术为解决 GPU 分布式训练过程中的“通信墙”,硬件层面开启 GPU Direct RDMA,是非常有效的性能优化方案。通过 GPU Direct 技术调用 RDMA 通信库,一个服务器节点上的 GPU 可以直接将数据从其显存发送到目标服务器节点上的 GPU 显存,而不需要经过两个节点上的系统内存。AI 训练过程中的每一个数据字节,不需要绕路到系统内存进行严重拉低性能的内核拷贝,从而显著提升计算效率。配置 GPU 服务器集成的高速网卡,NVIDIA Infiniband 交换机实现原生 RDMA,或通过戴尔网络团队自研的 100Gb/25Gb 网络交换机部署 RoCE,提供低于

37、 TCP/IP 协议的参数同步通信延迟。在训练数据加载流程,部署 NVIDIA GPU Direct Storage,可以将存储于外置存储系统中的训练数据直接加载到 GPU 显存进行预处理和后续的训练计算,缩短了训练数据加载的流程通路,同时可以降低对 CPU 的处理开销。深度学习存储 I/O 优化为了应对 AI GPU 分布式训练过程中存储“IO 墙”挑战,戴尔科技基于横向扩展的非结构化数据湖解决方案,提供从 TB 级别,到 PB 级别乃至几十 PB 级别非结构化数据(图像、视频、语音、文本等)的存储平台解决方案,解决上百张到超过 1000 张 GPU 卡的超大规模计算集群的存储性能和容量扩展

38、。通过戴尔科技提供的 AI 存储解决方案,可以帮助用户解决:1)超大规14模 GPU 计算集群存储共享及权限配额管理;2)针对训练数据文件不同大小的性能优化,包括小文件(KB 级别)的 IOPS 性能优化以及大文件(GB 级别)的带宽性能优化;3)通过 Scale-out 的存储架构设计,实现存储容量和性能的随需扩展;4)存储内置的软件机制实现自动存储分层存储;5)通过存储内置软件以及专业的 DPS 数据保护设备,对训练数据集、模型文件等关键数据提供高可靠的数据保护方案。在第 8 章节,将为您详细介绍戴尔科技针对 AI 数据存储的方案设计及优化实践。软件层面数据/模型并行及 GPU 通信机制优

39、化在 AI GPU 分布式训练实践中,硬件优化+软件优化相互结合,才可以达到更高效率的集群训练加速比。目前在深度学习框架层面,配置和实现 GPU 分布式训练,主要有以下几种实现方式:a.通过深度学习框架(TensorFlow/PyTorch 等)内置的分布式训练机制早期有一些深度学习框架,如 Caffe,无法支持分布式训练;但现在使用这类 AI 框架的开发者已经越来越少。目前主流的深度学习框架,如 TensorFlow、PyTorch、MXNet,均可以提供对分布式训练的支持机制。但是实践中发现,很多框架默认提供的分布式训练实现机制,当 GPU 集群扩展到比较大的规模时,往往效率不高。以 Te

40、nsorFlow 为例,TensorFlow 默认提供的参数服务器机制,GPU 参数同步由承担参数服务器角色的 GPU 来完成,训练参数向参数服务器的汇总以及参数服务器同步后的参数分发,网络通信会产生大量的数据流量,每个 Mini Batch 训练过程中的传输数据量级为 2*K(模型参数量)*N(参与分布式训练的 GPU 个数),参数服务器 GPU 极其容易成为性能瓶颈。b.通过开源的软件优化库为了加速 GPU 分布式训练,目前业界使用比较多的两个软件优化库是:NVIDIA 提供的NCCLv2 和 Uber 开源的 Horovod。NCCL(NVIDIA Collective Communic

41、ations Library),是NVIDIA 开发的 GPU 集合通信库,可以实现 GPU 拓扑自动检测与大量的 GPU 通信优化,通过优化 GPU 训练过程中的 GPU 通信性能以缩短整体训练时间。NCCL 支持 AllReduce、Broadcast、Reduce、AllGather、ReduceScatter 等多种集合通信以及点对点通信34。NCCLv1 主要应用于单机多卡通信优化,NCCLv2 在之前版本的基础上扩展了对 GPU 多机分布式训练的支持。15NCCLv2 支持单线程控制、多线程控制、MPI 等多种 GPU 并行模式,以及 PCIe、NVLink、Infiniband

42、等多种 GPU 节点内及节点之间的物理通信的支持。NCCLv2 提供的 C 语言 API,可以很方便地被上层应用调用,对于主流的深度学习框架 GPU 分布式训练提供完善的支持。Horovod 是由 Uber 于 2017 年开源的 GPU 分布式训练优化框架,最早用于 TensorFlow 的GPU 分布式训练性能优化,目前可以支持 TensorFlow、Keras、Pytorch、MXNet 框架下的 GPU分布式训练35。Horovod采用Ring All-reduce的GPU参数同步机制,不再保留参数服务器的角色,所有参与训练计算的 N 个 GPU 在逻辑拓扑围成一个环,实现“去中心化”

43、,每个时间窗口 GPU 只与逻辑环的上一个 GPU 及下一个 GPU 进行数据同步。Horovod 支持大规模 GPU 分布式训练,并且通信时长与 GPU 的个数无关。c.MPI 并行编程优化MPI 是一种跨语言的通信协议,主要用于编写并行计算机。掌握 MPI 编程,需要开发者具备比较强的 HPC 专业背景。一些 HPC 专家,在根据深度学习框架及 AI 模型的计算特点,使用 MPI 并行编程来进行定制性能优化。与参数服务器-计算服务器(PS-Worker 架构)的分布式 TensorFlow 相比,在 Horovod 分布式架构基础上采用 MPI 消息传递接口和 NCCL 通信库实现的分布训

44、练有着更好的运行效率,且方便用户的集成使用。d.研发更适合大规模分布式训练的 AI 框架针对超大规模的 GPU 分布式训练,现在已有一些新兴的深度学习框架发布,通过更优化的数据并行、模型并行以及流水并行技术,通过更优化的参数同步通信机制,提供比 TensorFlow或者 PyTorch 现有的主流框架更高效率的并行加速比。NVIDIA Megatron 是 NVIDIA 推出的基于 Pytorch、加速基于 Transformer 架构超大规模模型的分布式训练加速框架。使用 NVIDIA Megatron,NVIDIA 在 3072 块 A100 构建的 GPU 加速集群上成功训练出超过 1

45、万亿参数规模的巨型语言模型36。基于 Megatron 训练 GPT 模型,GPU 计算集群规模从 32 卡 A100 到 3072 卡A100,模型参数规模从 17 亿增长到 1 万亿,模型训练吞吐量增长超过 100 倍;3072 卡 GPU 集群规模下训练万亿参数模型,GPU 仍然可以达到 52%的计算效率37。16Google 在 2015 年推出的深度学习开源框架 TensorFlow,广泛为 AI 开发者使用,全球TensorFlow 软件开发者超过 300 万。2020 年 Google 发布的 JAX 框架,JAX 是一个高性能数值计算的 Python 库,在分布式数值计算和并行

46、规模比 TensorFlow 更加出色的表现;目前谷歌大脑、DeepMind 以及很多外部项目,已经开始使用 JAX32。快手与苏黎世理工学院于 2021 年开源的分布式训练框架 Bagua(八卦),针对分布式场景设计了特定的优化算法,通过算法和系统层面的联合优化(去中心化、异步通讯、信息压缩等),在快手内部的工业级应用场景,如大规模自然语言处理和大规模推荐系统,计算性能提升 65%或更高12。国内 AI 初创公司一流科技,2020 年 7 月在 GitHub 上开源由 30 名工程师打造的 OneFlow 深度学习框架,开源一年时间已经获得超过 2560 个 Stars。OneFlow 针对

47、超大规模 AI 模型训练,针对模型并行、流水并行、混合并行,在框架层面进行更全面的系统优化13。图 9-2:NVIDIA Megatron-LM 训练 GPT 模型摘自 Efficient Large-Scale Language Model Training on GPU Clusters Using Megatron-LM17 高密度 AI 计算对数据中心基础设施的挑战随着数字经济的快速发展,数据中心的规模在过去几年快速扩展,伴随带来的问题是数据中心的巨大耗电能耗。Science2020 年初刊登论文重新标准全球数据中心能耗估算中的数据显示:2018 年全球数据中心的耗电规模已经超过全球用

48、电总量的 1%14。人工智能、深度学习应用发展,对于企业数据中心的能耗带来更大的压力和挑战。当前 AI 训练和推理计算,主要依靠 GPU,而 GPU 属于高功耗部件。当前商用的双宽企业级 GPU,单卡功耗 250W-500W。GPU 服务器,代表如 NVIDIA DGX A100 8 卡 GPU 服务器,额定峰值功耗为 6500W15。而当前国内 AI 计算集群建设规模越来越大,普通 AI 计算集群可能部署有 32-64 张 GPU,中大型 AI 集群部署有 128-256 张 GPU 或更大规模,国内一些用户的大型 AI 数据中心超算集群已经部署有上千甚至上万张 GPU 计算卡。大规模的 G

49、PU 计算集群部署,对于数据中心的机房基础设施(供电、散热、承重等)带来了很大的挑战。目前,国内企业用户的数据中心基础设施,单个机柜的功率限制多数在几 KW,需要支持更高功率通常需要数据中心做一定程度的定制化改造。否则单个机柜只能部署很少数量的四卡或者八卡GPU 服务器,因为功率局限 42U 标准 IT 机柜大量空间实际被浪费,整体数据中心能耗表现不佳。大功率、高密度 GPU 部署,对于现有的数据中心制冷和配电系统造成冲击,如果解决不好将影响现有的 IT 设备安全运行。高密度 GPU 部署,非常容易造成数据中心局部热点问题,为制冷系统带来很大压力。为传统数据中心设计的制冷和配电系统,改造费时费

50、力,投资巨大,无法兼顾传统IT 设备和 AI 计算设备的稳定运行。如果希望兼顾 AI GPU 分布式训练集群计算性能,与数据中心“绿色”、“碳中和”的国家战略目标,面向高密度 GPU 计算的数据中心基础设施解决方案需要具体实施。18图 10:数据中心局部热点示意图目前,戴尔科技集团正在全球和国内积极与数据中心基础设施领先解决方案合作伙伴,共同设计和部署针对 AI GPU 高密度计算的数据中心基础设施解决方案,包括:简易解决方案:高密度机柜+行级空调提供专门为 AI 系统服务的独立制冷系统,满足单机柜 20KW 的部署密度。实施简易,不需要升级现有的制冷系统,N+1 供电冗余,就近制冷,高效节能

51、。19图 11:高密度机柜+行级空调的数据中心基础设施方案图 12:模块化 AI 数据中心解决方案智能模块化数据中心解决方案采用智能模块化数据中心解决方案,为 AI GPU 集群系统提供一站式、高能效、高弹性的 AI 数据中心基础设施解决方案。模块化数据中心,提供完全独立的电力、制冷和监控系统,不需要改造现有机房,即插即用,冷热通道封闭更加节能。数据中心液冷解决方案寻求更高效的 PUE,更加“绿色”的 AI 数据中心,GPU 液冷技术是目前 IT 数据中心的研究热点,通过液体冷却的方式,覆盖GPU、CPU等高功率部件,提供比风冷更低的PUE(PUE可达到1.15或更低)。目前数据中心 GPU

52、液冷,有水冷板和浸没式液冷等技术方向。20面向 AI 计算的 Dell PowerEdge GPU 加速服务器5GPU 服务器单机性能优化,是集群性能优化的基础。针对 AI GPU 计算场景要求,戴尔科技在过去几年间,发布了多款专门针对 GPU 计算设计和优化的加速服务器。戴尔科技集团在计算服务器领域的研发与设计,已经经过 20 多年的积累,在服务器内部架构设计、软件应用管理、运维服务等方面积累了丰富的经验。2021 年,戴尔科技全新推出的第 15 代服务器(PowerEdge 15G server)产品家族,包含了近 20 款新一代 Dell PowerEdge 服务器,涵盖机架服务器、模块

53、化服务器、GPU 优化服务器、边缘计算优化服务器等类型,在自适应计算、功耗散热管理、智能化运维、系统安全等领域提供了很多的设计创新和效能优化。戴尔科技 PowerEdge 15G 服务器的创新设计,集中体现在自适应计算、智能化管理与系统安全保障等方面。图 13:Dell PowerEdge 15G 服务器创新设计21 自适应计算灵活的计算系统架构,适应新兴的各类关键型工作负载。比如,为 AI 的训练和推理,服务器提供完善的 GPU 部件支持,以及 PowerEdge 15G 服务器中专门为 AI GPU 计算定制的服务器如 XE8545 与 R750 xa。针对边缘计算,数据在边缘产生,数据分

54、散,数据量大,需要快速处理,这些地方往往没有传统数据中心的机房及相应环境,戴尔科技专门针对此环境提供边缘计算优化型服务器 XR12 与 XR11。在进行高频交易时,用户希望服务器能够支持更多的 NVMe SSD。在做软件定义存储时,NVMe SSD 与 SAS/SATA SSD/HDD 能够多种组合,满足用户各种数据分层需求。PowerEdge 15G 服务器家族中,XS 机型支持高性价比的量身定制,用户不必为实际上不需要用的功能埋单。在服务器主板设计上,PowerEdge 15G 服务器采用 T 型主板,有别于市场中可以看到的 L 型服务器主板,服务器电源均衡部署在服务器的两侧。PowerE

55、dge 15G 服务器的 CPU 处理器性能更强功率更高,内存条密度更高,大功率 GPU 支持,更高的计算密度意味着更高难度的散热挑战。采用 T 型主板可以使服务器热区分布更加均匀。同时,戴尔工程师在后端电源部分设计了单独的散热风扇进行辅助。在存储设计上,戴尔研发工程师将原有的硬盘托架弹簧进行调整,使整排弹簧排列密度降低,可以让更多的风进入到机箱内部,增强散热效果。智能化管理随着企业数字化的深入,数据中心的规模迅速增长,对庞大数量的服务器的运行状态和故障感知,传统的运维工具和人工巡检越发捉襟见肘。在服务器的系统管理上,PowerEdge 15G 服务器引入了人工智能技术,通过自研的 Cloud

56、 IQ 软件可以通过人工智能算法,帮助用户分析设备运行过程中 CPU、内存、网卡等关键部件的负载情况。如果工作负载过高,可以针对性地进行系统调优;如果发现一些部件的异常状况,比如硬盘快要出现故障,可以提前主动进行干预,提高系统的可用性。通过 Cloud IQ 软件工具,用户系统管理员可以在云端和任何位置,足不出户即可获知每一台服务器设备的状况,并提前对未来可能产生的故障进行预判,从而从枯燥且繁重的日常监控工作中解脱出来。系统安全PowerEdge 15G 服务器,在产品设计开发阶段,就对处理器等部件细节确认其安全性,对服务器产品相关供应链进行严格审验,对制造过程确保符合各项安全规范,直到产品出

57、货运送到用户现场,对所有包装进行密封、防篡改设计保护,避免服务器产品从设计、制造、运输各个环节外部安全风险问题,用户拆箱即可安全使用。22在服务器运行过程中,PowerEdge 15G 服务器会进行机箱入侵、移动等物理性改变侦测,确保不会被外力篡改;配合自动化 SSL/TLS 凭证管理,快速检测运行时防护不足项目及 BIOS 即时扫描异常存取行为;并通过简化二次认证保护确保登录安全。IT 管理员可以通过稽核日志与安全警示,快速确认是否遭到攻击,通过系统锁定、安全抹除、快速操作系统复原,避免外部攻击造成更大影响和损失。“即服务”体验戴尔科技推出了“按需计费”的计划,用户可以将数据中心计算、存储及

58、其他解决方案的交付,转换为按需付费模式,并提供一致性的“即服务”体验。用户可以将服务器的购买,从硬件资产的投资转变为运营成本的付费模式。用户可以对自己的计算力需求进行评估,依据评估结果从戴尔购买相应的计算服务。未来随着业务规模的扩大,用户只需要选择相应的升级服务,而不需要再次购买额外的计算服务器进行系统扩容。戴尔科技PowerEdge 15G GPU加速服务器,继承了戴尔第15代服务器在计算加速、智能运维、系统安全等领域的功能设计,同时针对 GPU 的功耗、散热、启动风暴、散热等技术问题,进行专门的调试与系统优化,以保障 GPU 运行的性能和可靠性。图 14:戴尔科技 PowerEdge GP

59、U 加速服务器产品家族23在戴尔科技 PowerEdge 15G GPU 服务器产品中,包含专业针对 GPU 计算优化型服务器,以及在标准服务器上提供对 GPU 的支持。GPU 计算专业优化型服务器:PowerEdge XE8545:采用 AMD Milan 处理器架构,支持 4 块 NVIDIA A100 SXM4 80GB/40GB GPU 卡通过最新的 NVLink 3.0 高速通道实现 600GB/s 的点对点互联。PowerEdge R750 xa:采用Intel Ice Lake处理器架构与PCI-E 4.0总线,支持4块双宽GPU加速卡。PowerEdge XR12与XR11:针

60、对边缘计算设计的优化型服务器,在机箱深度、高温、低温、海拔、抗震、防尘等环境有更强的适应能力。标准服务器支持 GPU 加速:PowerEdge R750/R650/T550:采用 Intel Ice Lake 处理器架构,提供对 GPU 的支持。PowerEdge R7525/R6525/R7515/R6515:采用AMD Milan处理器架构,提供对GPU的支持。在 PowerEdge 15G GPU 服务器上,提供对 NVIDIA、AMD、Intel GPU 卡的广泛支持,其中支持的 GPU 型号代表包括:NVIDIA A100 NVIDIA A40 NVIDIA A30 NVIDIA A

61、16 NVIDIA A10 NVIDIA T4 NVIDIA A2 NVIDIA H100(即将上市)AMD MI210 Intel ATS-M(即将上市)24PowerEdge XE8545 GPU 加速服务器Dell PowerEdge XE8545,4U 机箱空间支持 4 块 NVIDIA A100 SXM4 80GB/40GB GPU 加速卡,通过 NVLink 总线实现双向 600GB/s Pear-to-Pear 全互联。XE8545 架构设计简洁且高效,CPU、GPU、IO 之间尽量直连,充分保障数据通信及 IO 传输性能。XE8545 提供强劲的本地存储IO 性能,支持 10

62、块 2.5 寸 SAS/SATA 硬盘,支持 8 块 NVMe SSD 硬盘。使用 XE8545 单机 4 卡训练 ResNet-50 图像分类模型,计算性能为上一代 4 卡 V100 NVLink GPU 服务器的 2.3 倍。对比其他使用更复杂交换结构的 GPU 服务器,同样使用四卡 A100 进行模型训练,性能提升 8%-15%16。在 MLPerf AI 训练计算性能基准测试 MLPerf Training v1.1 中,PowerEdge XE8545 在所有提交结果的 4 卡 GPU 加速服务器中,取得了 8 个 AI 赛道中的 4 个赛道的性能冠军。图 15:PowerEdge

63、XE8545 外观及内部架构图25PowerEdge R750 xa GPU 加速服务器PowerEdge R750 xa,是一款 2U 空间支持 4 张双宽 GPU 的加速服务器,可耐受高达 35环境温度使用空气进行冷却。PowerEdge R750 xa 内部 CPU 与 GPU 之间的通信采用 PCIe 4.0 技术,同时提供 NVLink Bridge 加速通信技术,支持 A100/A40/A30 GPU 通过 NVLink Bridge 实现两块GPU 之间的双向高度通信。R750 xa 支持更丰富的 GPU 选型,如 NVIDIA A100/A40/A30/A10/T4/A2 等。

64、R750 xa 支持多达 8 个 SAS/SATA 固态硬盘或 NVMe SSD 硬盘。针对高性能 NVMe SSD 存储,PowerEdge R750 xa 提供 NVMe 硬件 RAID 卡保护机制;同 NVMe 软 RAID 技术相比,硬件 RAID卡可以提供更高的 IO 性能与更完善的数据保护。图 16:PowerEdge XE8545 ResNet-50 图像分类模型性能测试图 17:PowerEdge R750 xa 外观图26PowerEdge DSS8440 GPU 加速服务器DSS8440 是一款高密度 GPU 服务器,它可以在 4U 空间内最多支持 10 块 NVIDIA

65、双宽 GPU(如A100 GPU)或者 16 块单宽 GPU(如 T4 GPU)。DSS8440 服务器内部设计,CPU 与 GPU 之间通过 PCIe 交换机实现互联与通信。DSS8440 具备更强的环境适应性,在 35环境中支持高达 205W的 CPU 加速器。DSS8440 提供多达 10 个本地存储硬盘(NVMe SSD 与 SAS/SATA 硬盘),加速访问训练数据。图 18:PowerEdge DSS8440 外观图图 19:PowerEdge DSS8440 10 卡 GPU AI 模型训练基准测试同市场上常见的单机 8GPU 服务器相比,DSS8440 单机可以提供 10 块如

66、 NVIDIA A100/V100/A30/A40 双宽 GPU 的支持,单机 GPU 计算密度可以提升 25%。戴尔科技之前的测试显示:在PowerEdge DSS8440 单机部署 10 张 NVIDIA V100 GPU,在 TensorFlow/Pytorch/MXNet 主流深度学习框架下,训练 ResNet-50/GoogLeNet/Inception 等图像分类模型,如下图所示,10 卡 GPU仍然保持比较良好的计算加速效果17。27戴尔科技 PowerEdge 15G 服务器针对 AI GPU 计算的优化设计:高效率服务器电源与功率增强设计PowerEdge 第 15 代服务器

67、针对 GPU 的供电和散热提供更多的优化设计。我们之前的观察显示:GPU 在启动过程中会出现“启动风暴”的现象,即 GPU 在服务器开机过程的毫秒级瞬间,实际功率会超过 GPU 卡标称的额定最高功率。Dell PowerEdge 15G GPU 服务器配备的高效率服务器电源,单块服务器标定功率达到 2400W,满足如 GPU 高功率部件的供电需求。PowerEdge 15G GPU 服务器支持 2毫秒时间 140%-170%电源峰值功率供电,有效应对 GPU 的“启动风暴”。采用“T 型”主板和分离式电源设计采用“T型”主板和分离式电源设计,电源对称排列在机箱的两侧,改善空气流通,散热效率更高

68、。采用 T 型主板,众多元器件的背板走线可以采用 45 度而规避 90 度的大弯曲,从电器性的角度信号传输更加稳定,可以让处理器、内存等部件的性能发挥到最高,服务器热区分布更加均匀。多矢量散热设计企业级 GPU 是高功耗的硬件部件;如 NVIDIA A100 GPU 加速卡,A100 PCIe GPU 单卡最大功耗 250W,支持 NVLink 的 A100 SXM GPU 单卡最大功耗 400-500W。第 15 代 PowerEdge GPU服务器采用全新的高性能风扇设计,提供新型高性能 GPU 冷却所需要的增强散热性能。增强的风道优化散热设计,确保服务器各个部件更加均衡的获得冷却风。第

69、15 代 PowerEdge 服务器采用多矢量冷却风道 2.0 设计,支持根据各个部件不同的功耗情况,动态调整冷却风的强度。内置的智能热算法在保持组件可靠性的同时,最大程度降低风扇和系统功耗,保持全面增强气流,支持用户通过iDRAC 带外管理 GUI 进行管理的自定义冷却选项(温度限制、风扇速度限制、声学等级)。同时,PowerEdge 服务器可以实现实时传感器数据集成到戴尔科技 OME 服务器软件管理平台和电源管理器插件中,以跟踪和控制机架和数据中心级别的空气流量,动态分析与预防服务器电源及散热引起的故障,准确计算 GPU 服务器和数据中心能耗和改进建议。通过 Dell OpenManage

70、 Enterprise Power Manager 软件,戴尔科技提供了对 PowerEdge GPU 服务器电源功耗管理的能力。OpenManage Enterprise Power Manager 软件可让用户查看、测量和控制服务器功耗,并提高 AI 基础架构的性能。高效率的 CPU、GPU 与存储之间的互联通信第 15 代 PowerEdge GPU 服务器采用最新的第 3 代 CPU 系列 Intel(Ice Lake)和 AMD(Milan),支持更高速的内存 3200 MT/s,以及新一代 PCIe 4.0 通道(64GB/s 双向通信带宽),确保 CPU 与 GPU、IO 存储、

71、网卡之间的高速通讯。PowerEdge XE8545 服务器主板集成 NVLink 3.0 GPU 通信技术,可以28实现 A100 GPU 600GB/s 双向 Pear-to-Pear 点对点直连通信,而不需要通过交换机中转。PowerEdge R750 xa 服务器支持 NVLink Bridge 技术,可以实现如 A100、A30、A40 GPU 通过 NVLink 总线实现两块 GPU 之间双向高速通信。戴尔科技 15G GPU 服务器,支持面向 GPU 的多机网络通讯优化技术 GPU Direct RDMA(GDR)与存储优化技术 GPU Direct Storage(GDS)。在

72、构建 AI GPU 分布式训练集群时,可以提供满足大模型训练计算的 GPU 通信与存储 IO 性能。支持 SNAP-IO 技术,单张 IB 网卡可以同时连接两颗 GPU的 NUMA 域,提供更好 IB 容错性。针对 AI 边缘计算的硬件优化PowerEdge XR12(2U 高度)与 XR11 服务器(1U 高度)是 Dell 第 15 代 PowerEdge 服务器家族中,面向边缘计算的优化型服务器。PowerEdge XR12 与 XR11 采用 16 英寸(400mm)紧凑型设计,它的机箱深度只有标准的 1U 或 2U 机架型服务器的 50%。PowerEdge XR12 与 XR11

73、已经通过电信(3 级 NEBS)与船舶等行业标准,满足高温、低温、防尘、抗震、高海拔等苛刻运行环境。PowerEdge XR12 与 XR11 提供对 GPU 的支持,XR12 可以支持 2 块双宽 GPU 或 3 块单宽 GPU,XR11 支持 2 块单宽 GPU;适用于工业、电信、零售、交通等智能边缘 AI 计算场景。PowerEdge XR12 与 XR11 服务器能够全面容忍恶劣环境,支持电信机房级别的定制化 IO/驱动器的前/后端弹性部署、支持反向气流设置、防尘/防潮/抗震等高韧性功能。有了 AI 增持的边缘计算,制造业用户可以在工厂边缘进行产品质检与生产数据分析,超市可以用于商品称

74、重、商品识别与智能结算与消费者购物行为分析,交通部门可以针对道路通行状况进行实时监测与预测,对交通拥堵进行疏导。戴尔科技面向 AI 边缘计算的 Edge in a Box 解决方案,提供从电力,到制冷与算力的一体化交付。图 20:戴尔科技 AI 边缘计算 Edge-in-a-Box 解决方案29图 21:2021 年全球 Top500 HPC 戴尔科技 AI 实验室排名戴尔科技 AI GPU 分布式训练性能验证6戴尔科技结合硬件架构优化+软件机制优化,在 AI GPU 分布式训练集群解决方案设计及性能优化,已经进行了多年的研究与验证,并为用户提供 AI Ready solution 就绪解决方

75、案和整体参考架构。戴尔科技集团 AI&HPC 创新实验室部署有大型 GPU 超算集群,可以实现从小规模验证到几十台GPU 服务器的大型分布式训练集群的效能测试。戴尔科技 AI&HPC 创新实验室的 GPU 超算集群,在 2021 年全球 HPC Top500 排名中,排名第 233 位。在戴尔科技 AI 创新实验室中,我们除了完善自身的 AI 就绪解决方案的研究与验证外,也对外开放 GPU 算力资源,供全球 AI 用户针对自身的算法模型和软件开发工具进行量身定制的计算效能验证。Source:https:/www.top500.org/lists/top500/2021/11/30图 22-1:

76、MLPerf Training v2.0 XE8545 ResNet-50 分布式训练基准测试MLPerf 是由全球非营利性社区 MLCommons 组织的,是目前全球参与度最高的 AI 计算性能基准测试之一。MLPerf 于 2022 年 6 月 29 日最新发榜的 MLPerf Training v2.0 AI 训练基准测试,共计有 21 家企业提供了超过 250 项测试结果;MLPerf Training v2.0 整体 AI 计算性能结果为上一轮MLPerf Training v1.1 榜单的 1.8 倍33。戴尔科技在 ResNet-50 图像分类、Mask R-CNN 目标检测和B

77、ERT自然语言处理三个赛道分别提交了基于PowerEdge GPU服务器的分布式训练的效能数据,通过 GPU 分布式训练大幅度提升了 AI 模型的训练速度。在 ResNet-50 图像分类模型训练,使用由 32 台戴尔科技 PowerEdge XE8545 服务器组建的 GPU 加速集群,每台服务器配置 4 块 A100 SXM4 40GB GPU 加速卡,GPU 集群通信网络使用200Gb HDR。使用两台服务器 8 卡 A100 GPU、四台服务器 16 卡 A100 GPU 和 8 台服务器 32 卡A100 GPU,与单机 4 卡 A100 GPU 相比,ResNet-50 模型训练速

78、度分别提升为 1.86 倍、3.64 倍和6.36 倍。使用 128 块 A100 进行分布式训练,3.26 分钟即可完成模型训练。同样的赛道,单机高密度 GPU 服务器的最高记录为 18.706 分钟(单机配置了 16 块 A100 GPU)。312021 年 6 月发布的 MLPerf Training v1.0 基准测试中,戴尔科技提交了 PowerEdge XE8545与 DSS8440 针对 ResNet-50 图像分类模型的 GPU 分布式训练的效能数据。2 台 Dell PowerEdge XE8545,每台配置 4 张 A100 SXM 40GB GPU 进行分布式训练,双机

79、8 卡训练 ResNet-50 图像分类模型速度是单台 XE8545 四卡训练的 1.83 倍。2 台 Dell PowerEdge DSS8440,每台配置 8 张A100 PCIe 40GB GPU 进行分布式训练,双机 16 卡的训练速度是单机 8 卡 A100 的 1.71 倍18。图 22-2:MLPerf Training v2.0 XE8545 Mask R-CNN 分布式训练基准测试在 MLPerf Training v2.0 的 Mask R-CNN 目标检测赛道,基于 PowerEdge XE8545 的 GPU 计算集群,双机 8 卡、四机 16 卡与八台服务器 32 卡

80、 A100 GPU 分布式训练,对比单机 4 卡 A100,Mask R-CNN 模型训练速度分别提升为接近 2 倍、3.56 倍和 5.8 倍。使用 128 张 A100 进行分布式训练,7.335 分钟可完成 Mask R-CNN 模型训练。同样的赛道,单机高密度 GPU 服务器的最高记录为 26.983 分钟(单机配置了 16 块 A100 GPU)。32图 23-1:MLPerf Training v1.0 XE8545&DSS8440 ResNet-50 分布式训练基准测试图 23-2:R750 xa MLPerf Training v1.1 ResNet-50 分布式训练基准测试2

81、021 年 12 月发布的 MLPerf Training v1.1 基准测试中,戴尔科技在 ResNet-50 图像分类赛道中提交了基于 PowerEdge R750 xa 的 GPU 分布式训练效能数据。部署 8 台 PowerEdge R750 xa GPU 服务器,每台配置 4 张 A100 PCIe 加速卡,通过 Infiniband 网络组成 AI 计算集群,对 MLPerf ResNet-50 模型进行分布式训练。使用 2 台 R750 xa+8 卡 A100,与 4 台 R750 xa+16 卡A100,同单台 R750 xa+4 卡 A100 相比,分别取得了 1.96 倍和

82、 3.63 倍的计算性能加速比。33图 24:PowerEdge XE8545 TensorFlow 框架下 GPU 分布式训练效能测试2022 年初,戴尔科技完成的一项 GPU 分布式训练项目验证中,使用 6 台 Dell PowerEdge XE8545 GPU 服务器,每台配置 4 块 NVIDIA A100 SXM GPU 加速卡,使用 Infiniband 构建 AI GPU计算集群,在 TensorFlow、Pytorch、MXNet 主流深度学习框架下,对经典图像分类模型,包括ResNet-50、ResNet-101,Inceptionv3、Inceptionv4、GoogLeN

83、et 等模型的 GPU 分布式训练性能进行验证,同样实现了良好的计算性能的加速效果。在 TensorFlow 框架下,6 台 PowerEdge XE8545 配置 24 张 A100 GPU 加速卡,进行 GPU 分布式训练,针对上述五个图像分类模型,如下图所示,分别实现了 88%-96%的线性加速比19。34更早期完成的一项测试中,戴尔科技在 PowerEdge C4140 GPU 服务器计算集群中,使用 8 台PowerEdge C4140 与 32 张 NVIDIA V100 SXM2 GPU 构建的 GPU 计算集群,使用 ResNet-50 训练ImageNet 数据集图像分类,在

84、 MXNet 和 Caffe2 深度学习框架下分别实现了单块 V100 GPU 相比29.4 倍和 26.5 倍的性能加速比20。戴尔科技持续将更多 AI/Deep Learning 领域的研究成果、测试数据,以及技术白皮书,定期发布到戴尔科技集团的技术博客论坛,供客户和合作伙伴查阅和参考:https:/ 25:32 卡 V100 分布式训练性能测试35构建应用透明的 GPU 分布式训练集群实践7上一章节已为您阐述在构建 AI 分布式训练集群的一些实践经验,但是对于很多 AI 用户来讲,仍然面临一个挑战:如何能够实现对应用透明的 GPU 分布式训练?对于很多数据科学家和算法工程师,日常工作主要

85、聚焦在应用场景和算法优化设计上,HPC/MPI/GPU 这些并行计算技能并不是工作的主要关注点。即使是使用已有的优化库,仍然需要进行一系列代码层面的配置优化。以 Horovod为例,在TensorFlow框架基于Horovod进行GPU分布式训练,通常需要完成的配置操作步骤包括:1)库初始化2)配置需要使用的 GPU3)增加分布式优化器4)初始状态同步5)配置保留检查点在国内,戴尔科技集团与 AI+HPC 平台解决方案合作伙伴凌云仿真进行合作,将戴尔科技 AI 基础设施硬件与凌云仿真 AI 平台软件,整合为软硬件一体化的解决方案,在用户现有的TensorFlow、PyTorch、Mxnet 这

86、些主流深度学习框架下,基于 NVIDIA NGC 主流分布训练脚本,不需要手工修改 Python 代码,能够通过商业软件图形化工具及定制的容器提交 AI 计算作业,简便地完成超参数配置,可以在后台自动化完成分布式配置调整和性能优化,实现 GPU 集群训练加速的功能。凌云仿真是国内聚焦在 AI 及高性能计算加速平台的 AI 初创公司,创始团队在高性能计算领域有着 20 多年的从业经验,在并行计算、GPU 加速等领域有着丰富的技术积累。通过 Web 图形化界面,可以在 TensorFlow、PyTorch、Mxnet 等主流框架下适配各类python 脚本和其他 GPU/CPU 作业提交及批量提交

87、,如 ResNet-50/152、VGG-16/19、Inception等常用 AI 模型。针对 AI 训练作业用户可以方便的配置模型超参数、灵活的自定义;AI 作业监控界面支持按使用者、任务状态、时间进行交叉过滤显示;用户可以根据授权进行开始、终止、删除、下载权重文件,查询作业状态与进程。作业提交采用智能化模板,不需要预先限定资源分配规则,可以根据 CPU/内存/GPU 等资源实际需要灵活地提交申请,更加灵活地实现资源的申请与调配。36图 26:训练作业提交管理界面图分布式训练的优化机制,如 GPU Direct RDMA、NCCL、以及 MPI 定制化,已经通过系统集成的 AI 容器镜像进

88、行预配置。作业提交后,平台软件将自动完成分布式及性能优化的配置,并通过调度软件自动调度分配申请数量的 GPU 算力,这些 GPU 算力可以是来自于不同的物理 GPU 服务器。训练结束后,GPU 算力可以动态回收。在 戴 尔 科 技 AI&HPC 创 新 实 验 室,使 用 16 张 NVIDIA V100 GPU(来 自 4 台 戴 尔 科 技 PowerEdge C4140 服务器,GPU 通信使用 NVLink 2.0 总线)构建的加速集群,使用 100Gb EDR连接各 GPU 服务器,在 TensorFlow 框架下进行 ResNet-50、VGG-16、Inceptionv3、Ale

89、xNet等常见图像分类模型训练,对比 1 台/2 台/4 台 GPU 服务器加速比,以及开启和关闭 GPU Direct RDMA,不同优化库(如 NCCLv2 与 Horovod)性能对比测试。实测数据显示:开启 GPU Direct RDMA,GPU 分布式训练性能有着明显的提升。通过硬件优化(计算、网络、存储层面)以及 GPU参数同步通信机制优化,16 卡 GPU 分布式训练可以实现 81%-95%+的线性加速比,满足工业 AI应用的加速需求21。37图 27:GPU 分布式训练加速性能基准测试作业监控管理仪表盘,提供对正在训练作业的进度和重点指标的实时监控和日志输出。38图 28:训练

90、任务图形化展示及集成 TensorBoard 示意图图 29:文件存储与数据管理界面示意图在训练文件存储及数据管理层面,系统支持对全局共享目录和个人家目录进行目录管理,个人目录中的任务空间用于存放训练结果文件。通过集中存储管理用户数据,按用户权限分配存储配额。可以直接通过方便的拖放操作定义一个文件为计算输入文件,支持在线的文件查看浏览。39通过戴尔科技与凌云仿真联合设计、验证及集成的AI GPU集群解决方案,可以帮助数据科学家与 AI 平台工程师实现:1)应用透明的 GPU 分布式训练,容器的部署、配置优化由软件后台完成。2)针对 TensorFlow、Pytorch、Mxnet 主流框架的分

91、布训练脚本,进行多机 MPI 优化,提供 比参数服务器模式更好的性能加速比。3)通过图形化界面,更加简便地完成作业提交、参数配置与训练监控。支持与 Jupyter、TensorBoard 的集成。4)提供了 GPU 资源池自动化的调度分配,实现 7*24 小时连续运行,有效提高硬件的利用率。大规模深度学习集群存储优化实践8当您耗费了巨额成本搭建了 GPU 计算集群,肯定不希望在 AI 训练过程中出现存储“IO 墙”,即由于存储性能瓶颈拖累了整体 AI 流程,尤其是大规模 GPU 分布式训练场景下。一旦出现存储性能瓶颈,对 AI 业务将会带来很多不良影响,诸如:更长的 AI 模型开发周期 GPU

92、 处于“饥饿”状态,难以充分发挥 GPU 的计算性能 数据采样的范围和精度影响最终分析准确性 难以扩展到大规模生产环境很多实际应用过程中,我们发现在GPU算力上投入了巨大资金,但是GPU等待的现象依然存在,原因就在于忽视了数据存储方面的瓶颈所导致。现实情况是,最好的 AI 解决方案一定是计算和存储的良好结合。如今众多的 AI 热门应用,包括人脸识别、自然语言处理、自动驾驶汽车等项目,每天都在使用巨量的训练数据进行模型训练,而这些数据往往是大量的非结构化数据(如图像、视频、语音、文本等)。40与传统的结构化数据不同,非结构化数据结构不规则或不完整,缺乏预定义的数据模型,格式多种多样,经常呈现出杂

93、乱无章的特点。并且,AI 应用的特点和需求与通用工作负载有很大的不同,这也决定了服务于 AI 的存储系统需要具备一下的能力:可扩展性工业级的 AI 系统需要大型数据集进行算法训练,处理数据量越多,AI 模型就能不断迭代升级。例如:微软需要五年的连续语音数据来进行语音模型开发和训练;特斯拉正在用 13 亿英里的驾驶数据开发智能驾驶系统22。管理如此庞大规模的数据集,需要极具扩展能力的数据存储系统。可访问性AI 训练通常以随机读取的方式,从存储系统中读取和重读整个训练集,这意味着数据必须可以持续访问,并且不能使用仅提供顺序读取方法的归档存储系统如磁带。低延迟数据将会被多次读取和重读,数据延迟对于

94、AI 模型训练总时长非常关键。减少延迟,可以将 AI模型训练的时间节省几天到几个月的时间。满足高带宽和并发需求AI 训练过程中使用大量的数据,通常以每小时 TB 级别为单位。对于很多存储系统,提供这种水平的随机访问性能是非常具有挑战性。同时,为了实现高吞吐量,AI 模型训练会拆分为多个并行任务,这意味 AI 算法将同时从多个进程访问同一个文件。因此,存储系统必须能够在不影响存储性能的前提下应对高并发的要求。41在应对非结构化数据存储挑战的方向上,戴尔科技集团已经连续 6 年,在 Gartner 分布式文件系统和对象存储领域处于领导者象限。戴尔科技通过 PowerScale 非结构化数据存储系统

95、,有效满足 AI 数据存储性能和容量的扩展性要求,轻松帮助您实现 PB 级别 AI 数据存储池建设和运营。戴尔科技 PowerScale/Isilon 存储解决方案,拥有 20 多年的研发历史,全球累计交付用户超过17000 家,23EB 存储裸容量。PowerScale/Isilon 提供包括高性能全闪存存储节点、混合存储节点、大容量存储节点等不同存储硬件选型,为 AI 用户提供高性能、灵活性、可大规模扩展,提供企业级可用性和可管理性的 AI 存储解决方案。图 30:戴尔科技 PowerScale 存储系统图 31:戴尔科技 PowerScale/Isilon 存储产品族42PowerSca

96、le 提供非常全面的文件访问协议支持,包括 NFS、SMB、HDFS、S3、REST 等,丰富的接口可以对接各种类型的业务,以及包括公有云、私有云、边缘节点在内的各个数据源的数据。支持同时使用两种或者多种协议访问同一个文件数据。例如 AI 应用中,GPU 服务器可以通过 NFS协议读取数据,进行深度学习模型训练;同样 Hadoop/Spark 集群也可以通过 HDFS 协议读取同一份数据,进行传统机器学习建模。PowerScale 内置自动分层存储技术,可以根据数据访问热度动态在高性能存储与海量低成本存储介质中进行数据移动。部署 PowerScale 存储,可以通过 Scale-out 横向扩

97、展存储硬件节点,实现容量和性能的同步扩展,实现数十 PB 级别的存储池扩充。图 32:戴尔科技 PowerScale 存储协议支持戴尔科技 PowerScale 提供的 OneFS 文件系统,采用横向扩展的存储架构,已经得到业界持续验证,为用户提供开箱即用的企业数据管理和治理功能。用户能够集中管理企业存储流程,包括数据管理、性能管理、数据保护和数据安全。通过 PowerScale 内置的 DataIQ 数据管理工具,用户可以轻松地在文件和对象存储平台上查找和了解数据。针 对 大 规 模 GPU 分 布 式 训 练 集 群,需 要 几 百 万 IOPS 的 Tier 1 级 别 的 存 储 性

98、能 时,PowerScale 全闪存存储方案,可以提供高性能的带宽和 IO 性能保障。PowerScale F900 是戴尔科技推出的高性能 PowerScale 全闪存存储节点,单个节点提供 46TB 到 369TB 的全 NVMe 存储,并兼容 NVIDIA GPU Direct Storage(GDS),全力支持用户处理最数据密集型的 AI 工作负载。戴尔科技 PowerScale 存储家族提供的其他全闪存节点包括 F600、F200,以及上一代的 F800 与 F810。43图 33:PowerScale 全闪存存储产品图 34:PowerScale/Isilon AI 模型训练基准测

99、试在早些时间完成的一项 AI 集群测试中,使用 72 张 V100 构建的 GPU 加速集群,使用如ResNet-50/152、Inception-v3、VGG-16 进行 ImageNet 数据集的图像分类训练。训练数据集存储在戴尔 Isilon F800。F800 是戴尔科技 PowerScale/Isilon 产品家族中一款全闪存存储节点,在单一4U机箱内提供15GB/s带宽和250K IOPS的性能体验。基于Isilon F800作为GPU集群后端存储,实现了很好的 GPU 性能加速。如下图所示,与训练数据集部署在 GPU 服务器本地 SSD 硬盘相比,AI 模型训练计算性能差异只有

100、2%-5%23,基本实现共享存储性能无瓶颈。44通过在 AI 计算集群中部署 PowerScale 存储系统,可以为用户带来的实际价值:满足超大规模 AI 计算集群的海量存储空间PowerScale存储系统,通过Scale-out横向扩展的硬件架构,以及性能强劲的OneFS文件系统,可以支持超大规模集群部署。OneFS 支持的单一集群规模可以达到 252 个节点,超过 90PB 存储裸容量。满足最严苛 AI 计算负载的存储 IO 与带宽性能要求PowerScale 单一集群可以提供 1580 万 IOPS 与 1500GB/s 的带宽性能,无论是小文件 IO 性能还是大文件的吞吐带宽,都可以通

101、过 PowerScale 存储系统来实现保障。采用分布式横向扩展,性能随容量线性增长,实现容量和性能的同步扩充。企业级的数据安全特性PowerScale存储系统,提供基于策略的数据保护、控制器负载均衡与故障切换、多租户权限管理、文件快照、NDMP、远程复制容灾等多重内置软件机制,满足用户严格的数据安全保障要求。PowerScale 面对威胁可以实施主动防护,包含实时勒索软件保护、反病毒扫描、SmartLock支持第三方的安全凭据提供、高级审计日志分析和报告,以及用于快速文件回复的快照索引等先进功能。戴尔科技勒索软件防护和智能 AirGap 防范网络共计,保证数据网络安全。即使有节点出现故障,也

102、能够快速进行切换,确保 6 个 9 的高可用性。无中断升级,系统更新换代无须迁移数据存储虽然是硬件产品,但是其核心还是软件,随着新特性的加入,软件就会面临着升级的问题。PowerScale OneFS 操作系统支持在线滚动升级,升级过程中轮流重启节点,对 AI 业务无任何影响;此外,PowerScale 还支持版本回退功能。对于 PowerScale 来说,硬件在线更新换代非常方便,无需要预先数据迁移和停机。只需要 3 步操作,大大减少了风险:1)扩展新节点到现有集群;2)集群内部迁移数据至新节点;3)退休老节点。45随着 AI 应用的快速发展,GPU 制程工艺快速进步,GPU 计算速度越来越

103、快,AI 训练数据集越来越大,AI 数据加载耗费的时间对 AI 应用 Pipeline 全流程的性能的影响和压力也越来越大。以往数据从存储硬盘到 GPU 显存进行处理和计算的过程,一直是由 CPU 进行处理和控制。GPU Direct Storage(GDS)技术,是由 NVIDIA 提出的 GPU 直接存储新技术,旨在实现 GPU 服务器本地或外置存储(如 NVMe SSD 或 SAS SSD 硬盘)和 GPU 显存之间实现直接数据路径,避免了通过 CPU 内部中的反弹缓冲区的额外拷贝24。通过存储直接访问内存(DMA)技术,可以缓解CPU I/O处理瓶颈,减少对 CPU 负载的影响,同时为

104、 AI 系统提供更高的存储带宽和更低的 I/O 延迟,特别是单个连接和读密集型应用。GPU Direct Storage(GDS),已经是 NVIDIA CUDA11.4 及更高版本的 CUDA 驱动程度和工具包的组成部分。PowerScale 通过对 NFS over RDMA 的支持,在不低于 25Gb/s 带宽的存储网络上,在满足网络交换机和 GPU 服务器网卡支持 RDMA,提供对 GPU Direct Storage 技术的支持。用户可以在PowerScale 管理软件操作界面,开启全局层面或针对单个存储池 NFS over RDMA 的功能支持。图 35:Enable NFSoRD

105、MA on PowerScale global settings46图 36:Enable NFSoRDMA on PowerScale each network pool为验证 GPU Direct Storage 的存储性能,戴尔科技集团搭建了一个由 48 块 GPU 加速卡和 48个 PowerScale 存储节点组成的 AI GPU 计算集群。GPU 计算集群,有 10 台 PowerEdge C4140(40 块 V100 GPU,4 块 V100 per node)与 2 台 PowerEdge XE8545(8 块 A100 GPU,4 块A100 per node)组成,每台

106、GPU 服务器通过 2 张 100Gb/s Mellanox CX-6 网卡接入集群网络。PowerScale 存储集群,由 48 节点 PowerScale F600 全闪存存储节点组成。每个 PowerScale 存储节点配置 2 个 100Gb/s 前端主机接口与 10 块 1.92TB NVMe 存储硬盘。AI 测试集群网络拓扑如右图所示:47图 37:Dell PowerScale GPU Direct Storage(GDS)性能测试集群48使用 NVIDIA CUDA 11.4 集成的 GDS 基准性能测试数据 GDSIO 进行存储性能测试,每个 GPU开启 8 个线程,IO S

107、ize 512KB,File size 256GB 进行压力测试。随着 F600 存储节点的横向扩展(从1 个 F600 节点逐步添加到 48 个节点),PowerScale 存储集群的顺序读带宽、顺序写带宽、随机读带宽和随机写带宽,随着存储节点数量的增加同步线性扩展。AI 训练过程中存在训练数据的持续和反复的快速读取,存储读性能非常关键。在 PowerScale存储性能测试中,顺序读带宽和随机读带宽性能随着节点数量增加而增长。顺序读带宽最高可达到235GB/s,随机读带宽 187GB/s;而文件读取的延迟指标,始终保持稳定,并没有因为集群规模和带宽的扩展而增大 AI 数据文件的读取延迟25。

108、图 38:PowerScale GDS 存储性能基准测试图 39:PowerScale F600 GDS 存储顺序读性能测试存储顺序读性能指标上,48 个PowerScale F600 节 点,GPU 集群存储带宽 235GB/s,分别为 16个 F600 节点和 32 个 F600 节点时的 2.98 倍和 1.49 倍。从实际测试数据可以看到,随着 PowerScale存储节点数量的横向增加,存储带宽性能可以呈现几乎线性增长。49AI GPU 计算集群网络通信方案9在 AI GPU 分布式训练场景,无论是采用数据并行还是模型并行,大量原先在 GPU 内部进行的数据交换,改变为需要在 GPU

109、 之间进行数据交换。很多场景下,GPU 分布式训练的实际计算效率,更受限于网络通讯与存储 IO 的效率,而非计算。在一些自然语言处理、机器视觉的分布式训练场景,通信在计算总时长的占比已经超过 50%或更高26,大量的时间耗费在网络通信而非 GPU 实际计算。模型并行,对网络通讯的性能的需求,比数据并行还要高。因而,在 AI GPU 分布式训练集群中,高性能的网络基础设施解决方案必不可少。我们认为:构建 AI GPU 分布式训练的网络通信解决方案,应该具备和满足以下特性:高带宽、低延迟的网络硬件基础设施执行 GPU 跨物理节点通信与参数同步的集群计算网络,是对网络基础设施硬件性能要求最高的网络。

110、源自 Mellanox 的 NVIDIA QUANTUM 系列 Infiniband 交换机,原生支持 RDMA,具备优秀的高带宽和低延迟传输的网路特性,与 GPU 软件生态有非常好的兼容性,通过 GPU Direct RDMA技术可以大幅缩短分布式训练中 GPU 参数同步的传输时延。QUANTUM 200Gb/s HDR 网络组网方案成熟可靠,在 AI 与 HPC 集群网络中被广泛采用。小型 AI GPU 集群网络,也可以部署 100Gb/s EDR交换网络或者在100Gb/s以太交换网络使用支持IBoIP的ROCE技术。2022年全球GTC大会上,NVIDIA 已经发布 QUANTUM 4

111、00Gb/s NDR Infiniband 交换机,同时发布了将 NVSwitch NVLink交换技术从 GPU 服务器内部通信扩展到 GPU 集群外部通信的市场计划。考虑到 NVLink 高带宽的特性(支持 A100 GPU 的 NVLink 3.0 技术提供 600GB/s 的带宽性能,是 NDR 带宽性能的 15 倍)。未来 NVSwitch 外部交换技术的商业应用,预计对于需要超高带宽性能的模型并行、流水并行等分布式训练技术,将会带来更大的训练性能的提升。网络规划,我们建议 GPU 计算通信网络、GPU 服务器存储通信网络、GPU 服务器管理网络、GPU 服务器与数据中心其他设备的通

112、信网络分开部署,有利于不同通信流量的隔离,不会因为 AI 训练过程中 GPU 海量参数的快速同步带来的网络压力影响到存储数据、管理流量以及其他外部通信的通讯和性能抖动,同时也是提高集群网络系统的整体可管理性。框架软件层面 GPU 通信机制优化在同等的网络设施硬件下,通过对 GPU 通信与参数同步机制的软件优化,实现更高效率的GPU 通信拓扑与同步机制,以缩短通信时长和整体训练时间。如在 TensorFlow 框架下,通过50Ring AllReduce 机制进行梯度同步和参数更新,取代 TensorFlow 自带的参数服务器(Parameter Server)机制,避免参数服务器因为 GPU

113、集群规模扩展、流量过大而成为性能瓶颈。开启 GPU Direct RDMA,GPU 服务器可以直接读取另外一台物理服务器的 GPU 卡显存,可以大幅缩短 GPU 通讯延迟,降低 CPU 资源的消耗。同样,GPU Direct Storage 技术的应用,训练数据加载过程中实现从本地或集群存储中直接读取数据到 GPU 的显存进行预处理和计算(NVIDIA DALI 库提供对 GPU Direct RDMA 的支持),来缩短数据加载和端到端训练过程的总时长。网络通信系统的可管理性在网络方案设计中,除满足网络通信性能要求,我们也应当兼顾网络的开放性、可管理性、性价比等方面的考虑。下图是戴尔科技设计的

114、一套 32 台 4 卡 GPU 加速服务器集群与 128 张 A100 GPU 分布式训练集群的网络参考架构。GPU 服务器硬件基于 Dell PowerEdge XE8545 或 R750 xa,它们是 4 卡 GPU机架式服务器。图 40:128 卡 AI GPU 计算集群的网络参考架构51图 41:Dell PowerEdge C4140 GPU 服务器 PCIe 拓扑示例我们设计的网络方案中包含 4 组网络,分别为 GPU 集群计算网络、集群存储网络、集群上行业务网络与集群带外管理网络。GPU 集群计算网络主要用于 GPU 集群间的计算通信和带内管理,流量需求最大的是多机分布式训练过程

115、中的GPU 参数同步。这里我们推荐使用 NVIDIA 200Gb/s HDR Infiniband 进行网络通讯,网络交换机建议型号为 NVIDIA QUANTUM 8700 或 8790 交换机。QUANTUM 8700/8790 交换机,在 1U 机架式空间内提供 40 个 200Gb/s HDR 接口和 16Tb/s 的交换性能;8790 交换机可以提供更完善管理功能。使用6台8700/8790交换机,组成一个Spine-Leaf网络,实现200Gb无阻塞IB通信。4台Leaf(叶子节点)用于 GPU 服务器的 Infiniband 网络接入,2 台 Spine(脊柱节点)用于实现 Le

116、af 节点的 1:1无损。通过横向扩展 Spine 节点与 Leaf 节点,可以实现更大规模的 GPU 计算集群的无阻塞通信。考虑到 GPU 服务器内部拓扑,我们建议双 CPU 配置的 GPU 服务器,每台配置 2 块网卡,每个 CPU 下至少有一张网卡与 CPU 连接的 GPU 可以在服务器内部直接通信,不建议跨越 CPU 的NUMA 域及通过 CPU 之间连接的 QPI 总线进行 GPU 之间的通讯。如果是 CPU-GPU 之间采用 PCIe switch 架构的 GPU 服务器,可以考虑网卡的数量与 PCIe switch 的数量对应。下图以 Dell 14G 服务器家族一款 GPU 优

117、化型服务器 PowerEdge C4140(1U 机架式空间支持4 块 GPU 通过 NVLink 或者 PCIe Switch 通信)为例,说明服务器内部的 GPU 拓扑。52GPU 分布式训练过程中的 GPU 参数同步,存在大量的 AllReduce 集合通信操作。在实际多层网络交换架构中,AllReduce 操作在网络中采用分层迭代,NVIDIA 提出的网络通信 SHARP 技术(分层聚合与归约协议)。通过 SHARP 技术和 GPU 通信优化库 NCCL 的结合,可以卸载和加速深度学习训练的数据聚合操作27。GPU 集群存储网络推荐存储网络与集群计算网络相分离为不同的物理网络。一方面,

118、避免 GPU 海量参数同步影响到存储的 IO 性能以及造成存储性能的抖动;另外一方面,多数的存储系统并非采用 IB 网络作为主机连接。这里存储网络使用 100Gb 以太网络,交换机选型为 Dell PowerSwitch Z9264F,实现GPU 服务器集群与 Dell PowerScale/Isilon 存储系统的通信(PowerScale/Isilon 也提供其他主机接口的支持,如 25GbE)。PowerSwitch Z9264F 交换机,2U 机架式空间内提供 12.8Tbps 的交换容量,支持 64 个 100GbE 端口或 128 个 25GbE 端口或 64 个 50GbE 端口

119、。PowerSwitch Z9264F交换机支持 RoCE、GPU Direct RDMA 与 GPU Direct Storage,提供 500ns 级别的低延迟转发。图 42:戴尔科技 PowerSwitch Z9264F 交换机图 43:戴尔科技 PowerSwitch S5248F 交换机如果是选用如 BeeGFS、Lustre 并行文件系统(可参考戴尔科技 HPC Ready Solution for BeeGFS&Lustre),可考虑存储网络选用 Infiniband。GPU 集群上行业务网络主要用于 GPU 集群接入数据中心网络,与数据中心其他服务器及业务系统进行网络通讯与数据

120、传输,可以根据企业数据中心网络现状及传输带宽要求,选择相应的接入网络方案,如万兆、千兆、25Gb 或其他方案。在参考架构中,我们选择 25Gb 网络方案,交换机选型为 Dell PowerSwitch S5248F。PowerSwitch S5248F 交换机,单台 1U 空间内可以提供 48 个 25GbE 端口 4 个 100GbE端口以及 2 个 2x100GbE 端口。53图 44:戴尔科技 PowerSwitch N3248TE 交换机 GPU 集群带外管理网络主要用于集群 GPU 服务器的带外管理网络通信,Dell PowerEdge 服务器提供独立的带外管理网口端口 iDRAC。

121、网络带宽为千兆,交换机选型建议为 Dell PowerSwitch N3248TE。PowerSwitch N3248TE 在 1U 空间内可以提供 48 个 GE 端口和 4 个 10GbE 端口。戴尔科技拥有多年网络产品研发的历史和经验,致力于为企业级用户提供成熟、全面、开放的网络解决方案。成熟性:戴尔科技可以为用户提供完整的端到端 IT 基础架构平台,不但能够帮助用户节约部署成本,并且提供了一站式的服务,帮助用户降低运维成本。戴尔网络提供了计算、存储、超融合(HCI)等场景下成熟稳定的网络解决方案以及最佳实践。全面性:戴尔科技提供了端到端的网络解决方案,涵盖数据中心,广域网,园区网,能够

122、帮助用户实现数字化转型。戴尔科技提供从 GE、10Gb、25Gb、40Gb、50Gb、100Gb 到 400Gb 完整的接口速率,以及从 12 端口、24 端口、48 端口到 96 端口的各种端口密度交换机,满足了不同用户对网络的需求。开放性:戴尔科技始终倡导开放的网络解决方案,通过开放的,基于标准的技术解耦来打破传统网络的基本结构,解决从超融合到超大规模的各种网络问题。开放网络帮助用户根据实际的环境和需要选择最适合的操作系统,这些操作系统包括 Dell OS10,Pluribus,SONiC 等。这些操作系统提供了从传统网络到软件定义网络的解决方案,解决了用户所面临的各种网络问题。54戴尔科

123、技端到端 AI 基础架构解决方案10戴尔科技集团基于在数据中心计算、存储、网络、数据保护产品领域,以及高性能计算(HPC)、大数据分析等解决方案领域 20 多年的技术积累,在 AI 计算领域可以为用户提供端到端的 AI 基础架构解决方案。戴尔科技 AI 解决方案用户,涵盖互联网、教育、制造、交通、金融、零售、能源等众多行业。用户既可以包括整体设计经过预验证及优化的 AI 就绪解决方案(AI Ready Solution),也可以根据需要灵活地选择和配置相应的产品组件,如 AI 加速服务器(GPU/FPGA/IPU)、低延迟网络交换机、高带宽数据存储系统、数据保护系统等。在 AI 平台建设,戴尔

124、科技集团为用户提供 GPU集群集中管理及作业调度、GPU 虚拟化、GPU 分布式训练、AutoML 智能化机器学习平台等软件解决方案,帮助用户实现 AI 计算资源池化及按需调配,降低 AI 平台建设与应用落地的门槛,助力 AI算力平民化。图 45:戴尔科技 AI 解决方案全景图秉承戴尔科技“在中国,为中国”的理念,戴尔科技集团于 2015 年与中科院自动化研究所成立人工智能与先进计算联合实验室,共同研究企业级深度学习计算平台与制造业等传统行业 AI 应用落地。2019 年发布戴尔科技集团中国人工智能生态合作伙伴建设,协同戴尔科技全球及中国优选 AI平台及行业应用战略合作伙伴,在 AI 云平台、

125、自动化建模,以及制造、教育、零售、生命科学等行业 AI 解决方案,为国内行业用户提供更全面的解决方案和更佳的服务,加速 AI 行业应用落地进程。55图 46:基于 AI 的生物力学检测系统实时姿态检测2019 年,戴尔科技集团与中国赛艇协会、中国皮划艇协会签署技术战略合作,将人工智能、边缘计算、流数据处理等技术和数据元素引入到室内训练和水上训练,通过视频实时捕捉运动员的训练动作,通过 AI 姿态检测的深度学习算法,为每位运动员建立个性化的生物力学模型,进行实时分析与判断,纠正运动训练过程中的动作角度、力度、稳定性偏差,帮助运动员科学提升训练竞技水平。56总结11算力、算法、数据是AI应用落地的

126、三大基石,相互协同打造AI落地的应用场景。加速AI计算性能、降低 AI 计算的单位成本,与更大模型随之带来的更高算力要求,已经成为一对相互促进与提升的关联体。过去几年间 AI 异构计算技术,特别是 GPU 计算与 AI 专用芯片取得了快速的发展,但是以预训练模型为代表的超大模型训练,对 AI 算力供给提出更高的需求。半导体制程工艺的限制,仅靠提升单块 AI 加速芯片的峰值性能,正在变得越来越困难及不经济。使用更多 AI 加速芯片,同时进行AI 模型并行计算,以使在较短的时间内完成超大规模 AI 模型训练,将会是 AI 计算的发展趋势。同 GPU 服务器单机训练相比,多机 GPU 分布式训练是一

127、个系统工程,“通信墙”和“IO 墙”是制约大规模计算集群加速比的重要影响因素。当前深度学习框架自带分布式训练机制的扩展效率,以及对应用的不透明,都是影响 AI GPU 分布式训练效能的制约因素。在 AI GPU 分布式训练领域,戴尔科技集团研究院及解决方案团队,协同全球及国内 AI 合作伙伴,致力于系统化解决 GPU 分布式训练各个瓶颈,从单机效能、网络通讯、存储 IO、GPU 分布式通信机制等硬件及软件方面进行产品及方案优化,并通过软件解决方案帮助用户实现更智能、应用透明的 GPU 分布式训练的作业提交及效能优化,并在当前主流工业框架和机器视觉、NLP 等 AI 模型加速上取得了良好的性能效

128、果。未来戴尔科技集团将紧密跟进行业用户及合作伙伴 AI 算力需求,面向大模型训练计算,在框架优化、MPI 优化、硬件设施性能优化等方面持续进行方案验证与改进,并将分布式训练能力以更加自动化的方式提供给应用用户,满足更新更强劲的 AI 模型及开发框架对算力的需求与挑战。57参考文献121.https:/ 2.艾瑞咨询:2021 年中国人工智能产业研究报告3.中国互联网发展报告(2021)4.OpenAI 解析 AI 计算力 https:/ 5.戴尔 DSS8440 Graphcore IPU 服务器白皮书6.https:/ 7.基于类脑计算技术的智能计算系统,中国计算机学会通讯,2021 年第

129、1 期 8.OneFlow:GPT-3 模型为何难以复现?这也许是分布式 AI 框架的最优设计9.机器之心:26 亿参数,智源、清华开源中文大规模预训练模型10.BERT 训练问题(数据并行/模型并行 https:/ 前线:快手八卦!突破 TensorFlow、PyTorch 并行瓶颈的开源分布式训练框架来了13.OneFlow:“我们决定去登月”14.https:/ 16.Direct from Development PowerEdge XE8545 Performance Characteristics17.Dell EMC PowerScale and Dell EMC DSS 844

130、0 Servers for Deep Learning18.https:/ 集群管理与智能调度解决方案20.Dell EMC Deep Learning Performance Comparing Scale-out vs Scale-up22.公司在算力上砸了重金,为何 AI 还是跑得慢?,戴尔科技集团23.Dell EMC PowerScale and NVIDIA DGX-1 servers for deep learning24.https:/ 25.Dell EMC PowerScale and NVIDIA GPUDirect Performance Report26.阿里巴巴 E

131、FLOPS 集群系统:大规模 AI 实践孵化的算力基础设施,中国计算机学会通讯,2021 年第 1 期27.https:/ DGX SuperPOD Data Center Design Reference Guide29.NVIDIA DGX SuperPOD:Scalable Infrastructure for AI Leadership30.科学之路,Yann Le Cun 著,中信出版集团31.AI 芯片 前沿技术与创新未来,张臣雄著,人民邮电出版社32.https:/ 33.https:/mlcommons.org/en/news/mlperf-training-2q2022/34.https:/ 35.https:/ 36.https:/ 37.https:/arxiv.org/pdf/2104.04473.pdf

友情提示

1、下载报告失败解决办法
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。

本文(戴尔科技:AI GPU分布式训练白皮书(2022版)(61页).pdf)为本站 (淡然如水) 主动上传,三个皮匠报告文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三个皮匠报告文库(点击联系客服),我们立即给予删除!

温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。
会员购买
客服

专属顾问

商务合作

机构入驻、侵权投诉、商务合作

服务号

三个皮匠报告官方公众号

回到顶部