上海品茶

ODCC:数据中心智能无损网络白皮书(43页).pdf

编号:63856  PDF   DOCX 43页 2.19MB 下载积分:VIP专享
下载报告请您先登录!

ODCC:数据中心智能无损网络白皮书(43页).pdf

1、 数据中心智能无损网络 白皮书 编号 ODCC-2021-05001 开放数据中心委员会 2021-09-15 发布 ODCC-2021-05001 数据中心智能无损网络白皮书 i 目目 录录 前 言 . iii 版权说明 . iv 数据中心智能无损网络白皮书 . 1 1. 介绍 . 1 1.1. 范围 . 1 1.2. 目的 . 1 2. 让数据中心焕发生机 . 1 2.1. 一个到处都是数据的新世界 . 1 3. 数据中心需求和技术不断提升 . 3 3.1. 原有数据中心桥接标准 . 3 3.2. 需求演化 . 4 3.3. AI 计算的特点 . 5 3.3.1. 模型并行计算 . 6 3

2、.3.2. 数据并行计算 . 6 3.4. 技术演进 . 8 3.4.1. SSDs 和 NVMeoF:高吞吐量低时延网络 . 8 3.4.2. GPU:用于并行计算的超低时延网络 . 11 3.4.3. SmartNICs . 12 3.4.4. 远程直接内存访问(RDMA) . 14 ODCC-2021-05001 数据中心智能无损网络白皮书 ii 3.4.5. GPU DirectRDMA . 16 4. 当今数据中心网络面临的挑战 . 19 4.1. 平衡高吞吐量和低时延 . 19 4.2. 无死锁无损网络 . 21 4.3. 大规模数据中心网络的拥塞控制问题 . 23 4.4. 拥塞

3、控制算法的配置复杂性 . 26 4.4.1. 自适应 PFC Headroom 计算 . 26 4.4.2. 动态 ECN 阈值设置 . 27 5. 解决新数据中心问题的新技术 . 28 5.1. 低时延和高吞吐量的混合传输 . 28 5.2. 基于拓扑识别的 PFC 死锁预防 . 30 5.3. 改善拥塞的通知 . 32 5.3.1. 反应点(RP) . 33 5.3.2. 阻塞点(CP) . 33 5.3.3. 通知点(NP) . 33 5.4. 解决拥塞控制算法的配置复杂性 . 35 5.4.1. 优化缓存区以降低 PFC headroom 配置的复杂性 . 35 5.4.2. 智能 E

4、CN 阈值优化 . 35 6. 结论 . 37 ODCC-2021-05001 数据中心智能无损网络白皮书 iii 前前 言言 由中国信通院云大所、百度、腾讯、美团、京东、移动、电信、华为、思科、博通、英伟达等 ODCC(开放数据中心委员会)成员单位联合编制的智能无损数据中心网络白皮书 正式发布。 该白皮书内容翔实, 分别从数据中心的重要性、应用发展需求、网络面临的挑战、相应的解决方案和标准化工作进展等方面开展了介绍。 2017 年起,ODCC 牵头制定无损网络技术标准以及测试规范等,相继发布行业标准、 技术报告等 10 多项成果, 得到了产业界的广泛参与, 搭建起一个 DCN技术热点讨论平台

5、,相关技术的标准化推动工作也在紧锣密鼓进行当中。在国家高度重视新基建的环境下,白皮书发布为我国数据中心技术、产品和服务走出去打下了良好的基础。 起草单位:中国信息通信研究院(云计算与大数据研究所)、百度在线网络技术(北京)有限公司、中国移动通信集团有限公司、中国电信集团有限公司、深圳市腾讯计算机系统有限公司、 华为技术有限公司、 NVIDIA(英伟达)中国有限公司、思科(中国)有限公司、博通公司、北京三快在线科技有限公司、北京京东世纪贸易有限公司 起草者:郭亮、李洁、高峰、顾戎、赵继壮、程传胜、殷悦、宋庆春、刘军、何宗应、孙黎阳、唐广明、权皓、陶春雷、王少鹏、赵精华 ODCC-2021-050

6、01 数据中心智能无损网络白皮书 iv 版权说明版权说明 ODCC(开放数据中心委员会)发布的各项成果,受著作权法保护,编制单位共同享有著作权。 转载、摘编或利用其它方式使用 ODCC 成果中的文字或者观点的,应注明来源:“开放数据中心委员会”。 对于未经著作权人书面同意而实施的剽窃、复制、修改、销售、改编、汇编和翻译出版等侵权行为,ODCC 及有关单位将追究其法律责任,感谢各单位的配合与支持。 ODCC-2021-05001 数据中心智能无损网络白皮书 1 数据中心智能无损网络白皮书 1. 介绍介绍 1.1. 范围范围 白皮书研究了支持现代数据中心网络需求的网络技术, 包括高性能计算和人工智

7、能应用,提出了需求演变和新时代技术挑战的解决方案。 1.2. 目的目的 白皮书旨在为现代数据中心网络存在的问题和面临的挑战, 提供高层次解决方案。白皮书梳理了数据中心的建设现状和技术演进,介绍了数据中心发展过程中面临的问题,并基于分析研究,提出增强数据中心网络能力和运营效率的技术解决方案,契合持续变化的应用需求。 2. 让数据中心焕发生机让数据中心焕发生机 2.1. 一个到处都是数据的新世界一个到处都是数据的新世界 数字化转型正在改变着我们的个人生活和职业生活。 工作流程和人际交往正转向基于云、移动设备和物联网的数字化流程和自动化工具。支撑数字化转型的技术是人工智能(AI)。数据中心在运行拥有

8、海量数据的人工智能应用程序时,要将这些数据重新转换为相关性信息、自动化人工交互和细致化决策制定(如图1)。在增强现实、语音识别和上下文搜索需求强劲的当今世界,满足数据中心实时交互需求比以往任何时候都更加重要。为满足实时需求,数据中心网络必须具备更强大的性能、规模和可靠性。 ODCC-2021-05001 数据中心智能无损网络白皮书 2 图 1 AI 时代的数字化转型 云时代的数据中心专注于应用转型和服务的快速部署。在 AI 时代,数据中心提供了实现数字化生活所需的信息和算法。 高速存储和人工智能分布式计算的结合,将大数据转化为快速数据,供人、机、物访问。高性能、大规模、无丢包的数据中心网络对数

9、字转换的顺利进行至关重要。 人工智能、网络性能等高性能应用的关键指标包括吞吐量、时延和拥塞。吞吐量是指快速传输大量数据的网络总容量。 时延是指跨数据中心网络事务的总延迟。 当流量超过网络容量时, 会发生拥塞。 丢包是严重影响吞吐量和时延的因素。 当前,各行业正在加速数字化转型。据估计,有 64%的企业已经成为数字转型的探索者和实践者1。在 2000 家跨国公司中,67%的 CEO 将数字化作为企业战略的核心2。现实世界中的数字化转型趋势正在引领数据中心网络支持“以数据为中心”的计算模式。 数字化过程中产生的大量数据成为核心资产,人工智能应用也随之出现。根据华为全球产业展望的预测,到 2025

10、年,新增数据量将达到 180ZB3。然而,数据并不是“自我终结”。从数据中获取的知识和智慧拥有永恒价值。非结构化数据(如原始语音、视频、图像数据)的比例不断增加,未来将占到所有数据的 95%(如图 2)。现有的大数据分析方法无法适应数据的快速增长,需要进行性能优化,从原始数据中挖掘更多价值。基于深度学习的人工智能方法可以过滤掉大量 1 Orange, “Finding the competitive edge with digital transformation,” 03 June 2015. Online. Available: https:/www.orange- 2 Wiles, J.

11、, “Mobilize Every Function in the Organization for Digitalization,” Gartner, 03 December 2018. Online. Available: https:/ Accessed 10 June 2020. 3 Huawei, “Touching an Intelligent World,” Huawei, 2019. Online. Available: https:/ Accessed 15 March 2021. ODCC-2021-05001 数据中心智能无损网络白皮书 3 无效数据,并自动提取有用信息,

12、提供更有效的决策建议和行为指导。 图 2 新兴的 AI 应用 总体来说,云数据中心架构提高了应用性能,扩大了应用规模。云平台允许IT 资源快速分配,创建以应用程序为中心的服务模型。在 AI 时代,应用程序需要消耗前所未有的数据量, 必要的性能创新增强了云数据中心架构的负载处理能力。在现有的云数据中心中,很难实现性能创新和新人工智能应用程序的无缝衔接。知道如何根据人工智能应用的需求实现数据有效处理,至关重要。实现成功的关键因素是有机结合应用程序的存储资源和计算资源之间的数据流。 3. 数据中心需求和技术不断提升数据中心需求和技术不断提升 3.1. 原有数据中心桥接标准原有数据中心桥接标准 在 1

13、0Gbps 以太网的早期, ODCC 工作组就开始关注数据中心桥接 (DCB) 。DCB 任务组针对数据中心环境中所用的以太网、网桥和相关协议定义了一组增强功能。使用案例和重点应用是集群和存储区域网络,使用了传统的专用技术,如 InfiniBand和光纤通道4。以太网的重要目标是消除拥塞造成的损失,并在链路上为特定流量分配带宽。数据中心桥接的关键参数包括: 优先级流量控制(优先级流量控制(PFC) :) :一种链路层流量控制机制,消除了数据包丢失风险,可以独立应用于各种流量。 增强型传输选择(增强型传输选择(ETS) :) :一种队列调度算法,允许流量带宽分配。 4 InfiniBand 是

14、InfiniBand贸易协会的商标和服务标志。 ODCC-2021-05001 数据中心智能无损网络白皮书 4 拥塞通知:拥塞通知:一种检测拥塞的二层端到端拥塞管理协议,通过跨二层网络的信号来限制发送端的传输速率,避免丢包。 数据中心桥接能力交换协议(数据中心桥接能力交换协议(DCBX) :) :一个识别和性能交换协议,与链路层发现协议(LLDP)共同作用,用于传输上述参数的功能和配置。 这些参数对于将以太网扩展到集群计算和存储区域网络的专业市场非常重要。然而,随着环境和技术的变化,还需要不断优化。目前,使用三层协议和高度协调管理系统的数据中心已经实现规模部署。以太网链路已经从 10Gbps

15、提高到 400 Gbps,并计划将速度提高到 Tbps 范围。人工智能等新应用程序的出现,对基础设施提出了新的要求,推动了体系结构变化。为进一步扩大以太网在现代数据中心中的应用范围,还需要继续创新。 3.2. 需求演化需求演化 人工智能应用给数据中心网络带来了压力。 自动驾驶汽车的人工智能训练就是一个例子。深度学习算法严重依赖海量数据和高性能计算技术。每天收集的训练数据接近 PB 级(1PB=1024TB) ,如果使用传统硬盘存储和普通 CPU 来处理数据,可能至少需要一年才能完成训练。这显然是不切实际的。为了提高人工智能的数据处理效率,需要在存储和计算领域进行革命性的变革。例如,存储性能需要

16、提高一个数量级才能实现每秒 100 万次以上的输入/输出操作(IOPS)5。 为了满足实时数据的访问要求,存储介质已经从硬盘驱动器(HDD)发展到固态驱动器(SSD) ,再到存储类内存(SCMs) ,存储介质延迟缩短了 1000 倍以上。如果在网络延迟方面没有类似的改进,这些存储优化就无法实现,只能简单地将瓶颈从介质转移到网络上。 对于网络固态硬盘 (SSD) , 通信时延占端到端存储总时延的 60%以上。如果转向存储类内存(SCMs) ,除非网络性能得到改善,否则这一比例可能会增加到 85%。 这就造成了存储介质有一半以上的时间处于闲置状态。同时优化存储媒介和 AI 计算处理器,会使得通信时

17、延占总时延的 50% 5 Handy, J. and T. Coughlin, “Survey: Users Share Their Storage,” 12 2014. Online. Available: https:/www.snia.org/sites/default/files/SNIA%20IOPS%20Survey%20White%20Paper.pdf.Accessed 14 May 2020. ODCC-2021-05001 数据中心智能无损网络白皮书 5 以上,限制技术进步,造成资源浪费6。 人工智能应用程序和应用场景的范围和复杂性持续增加。例如 2015 年微软的 Res

18、net 实现 7 百亿亿次计算,有 6000 万个参数。2016 年百度在训练深度语音系统时,实现 20 百亿亿次计算和 3 亿个参数。2017 年谷歌 NMT 实现 105 百亿亿次计算和 87 亿个参数7。AI 计算的新特性对数据中心网络的发展提出更高要求。 传统协议已经不能满足日常生活中新应用程序的服务需求。 举个简单的例子,美团线上外卖业务增长在过去 4 年里大约增长了 5 倍8。仅在用餐高峰期的几个小时里,交易量就从 21.49 亿增加到 123.6 亿。美团智能调度系统为用户、商家和超过 60 万名外卖员设计了一个复杂的多人多点实时决策过程。该系统每天更新 50 亿次定位数据,这些

19、数据为外卖员计算可选路径并在 0.55 毫秒内选择最佳路线。当后端服务器使用 TCP/IP 协议时,内核缓存区、应用缓存区和网卡缓存区之间的数据量副本使得 CPU 和内存总线资源紧张,导致延迟增加,无法满足应用程序的需求。新远程直接内存访问(Remote Direct Memory Access, RDMA)协议消除了数据副本,释放了 CPU 资源,能够完成路径选择和取出顺序计算。RDMA 效率的提高给网络带来了更大的压力,将瓶颈转移到数据中心网络基础设施上,低时延和无损行为成为了新的必要需求。 3.3. AI 计算的特点计算的特点 传统的数据中心服务(web、数据库和文件存储)是以事件为基础

20、,计算结果通常是确定的。对于这样的任务,单个事件和相应网络通信之间几乎没有相关性或依赖性。传统事件的发生和持续时间是随机的。然而,AI 计算并非如此。这是一个迭代收敛的优化问题。 它导致数据集和计算算法之间存在高度的空间相关 6 Huawei, “AI, This Is the Intelligent and Lossless Data Center Network You Want!” 13 March 2019. Online. Available: https:/ Accessed 14 May 2020. 7 Karuppiah, E. K., “Real World Problem

21、Simplification Using Deep Learning / AI,” 2 November 2017. Online. Available:https:/ Accessed 14 May 2020. 8 Yanqin, D., “The “Ultra Brain” weapon behind Meituans delivery of 30 million orders in a single day,” 19 September 2019. Online. Available: https:/ Accessed 15 March 2021. ODCC-2021-05001 数据中

22、心智能无损网络白皮书 6 性,在通信流之间形成时间相关性。 AI 计算用于大数据,要求快数据。为了满足这一点,它必须与“分而治之”的问题并行运作。计算模型和输入数据集较大(例如 100MB 节点条件下,10K 规则的 AI 模型需要超过 4TB 的内存)。单个服务器无法提供足够的存储容量和处理资源,使得问题无法按顺序解决。需要 AI 计算和存储节点并行,缩短处理时间。这种分布式 AI 计算和存储要求需要快速、高效和无损的数据中心网络,该网络构建起两种不同的并行计算模式模型并行计算和数据并行计算。 3.3.1. 模型并行计算 模型并行计算中,每个节点承担了整个算法的一部分计算。每个节点处理相同的

23、数据集,不同的算法部分,完成了对不同参数集的估计。通过节点交换算法估计,得到收敛于所有数据参数的最佳估计。模型并行计算最初是将公共数据集分布到分布式节点,然后把来自每个分布式节点的单个参数进行集合。图 3 显示了在并行操作模式下,整个模型的参数如何分布在计算节点上。 图 3 并行计算模型9 3.3.2. 数据并行计算 在数据并行计算中,每个节点都承载了整个 AI 算法模型,但只处理部分输 9 Dean, Jeffrey, Greg S. Corrado, Rajat Monga, Kai Chen, Matthieu Devin, Quoc V. Le, Mark Z. Mao, MarcAu

24、relio Ranzato, Andrew Senior, Paul Tucker, Ke Yang, Andrew Y. Ng, Large Scale Distributed Deep Networks, Google Inc., Mountain View, CA. Available: https:/ Accessed 19 May 2021. ODCC-2021-05001 数据中心智能无损网络白皮书 7 入数据。每个节点都试图使用不同的数据视图来估计相同的参数集。当一个节点完成一轮计算时,由公共参数服务器加权并聚合参数,如图 4 所示。更新加权参数要求所有节点同步更新信息。 图 4

25、 数据并行计算9 无论采用哪种并行计算方法,数据中心网络都要承受更大的通信压力。当网络成为瓶颈时,计算资源的等待时间会超过工作完成时间的 50%10。 对于所有的 AI 应用程序,计算模型都在不断迭代,且存在一个会造成网络incast 拥塞的同步步骤。图 5 显示了 AI 训练中发生 incast 堵塞的方式。训练过程在不断迭代,在每次迭代都会产生很多同步参数。应用程序在下载模型时会同步将下一次计算得到的结果(M)上传到参数服务器。上传到参数服务器中的过程会造成 incast。应用新兴计算技术能够缩短计算时间,但网络压力和由此产生的 incast 也会随之增加。 10 Cardona, O.,

26、 “Towards Hyperscale High Performance Computing with RDMA,” 12 June 2019. Online. Available: https:/pc.nanog.org/static/published/meetings/NANOG76/1999/20190612_Cardona_Towards_Hyperscale_High_v1.pdf. Accessed 14 May 2020. ODCC-2021-05001 数据中心智能无损网络白皮书 8 图 5 训练期间的周期性 incast 拥塞 工作节点和参数服务器间的通信构成了相互依赖的

27、网络流集。分布式 AI 计算的迭代过程中,大量突发流量会在几毫秒内将数据分配到工作节点,当传递和更新中间参数时,发送到参数服务器的小规模流量会发生 incast。在这些流交换的过程中,网络可能会出现丢包、拥塞、负载失衡等问题。因此,一些流的流完成时间(FCT)被延长。如果有一些流发生延迟,可能会导致存储和计算资源无法得到充分利用。进而延迟了整个应用程序的完成时间。 分布式 AI 计算具有同步性,在理想情况下,可以预测到计算完成时间。当没有拥塞时,低网络动态时延使得平均 FCT 是可预测的,因此,整个应用程序的性能也可以被预测。当拥塞导致的动态延迟增加到丢包临界点时,就无法预测FCT 了。完成时

28、间远远大于平均完成时间的流,会发生所谓的尾部时延。系统对输入/输出(I/O)请求的全部响应中,尾部时延仅占系统响应时间的一小部分,与大部分响应时间相比,它花费的时间最长。尽可能缩短尾部延迟对于并行算法和整个分布式计算系统的成功至关重要。 为了最大限度地利用数据中心中的计算资源,尾部时延需要被解决。 3.4. 技术演进技术演进 当不断变化的需求和技术相协调时,即意味着进步。新需求通常会驱动新技术研发,而新技术能支撑新用例,这些用例又会促成新需求。网络存储、分布式计算、系统架构和网络协议的突破推动下一代数据中心的发展。 3.4.1. SSDs 和 NVMeoF:高吞吐量低时延网络 ODCC-202

29、1-05001 数据中心智能无损网络白皮书 9 在网络存储中, 一个文件被分发到多个存储服务器, 实现输入/输出的加速和冗余。当数据中心应用程序读取文件时,它会同时从不同的服务器访问数据的不同部分。数据几乎同时通过数据中心交换机进行聚合。数据中心应用程序写入文件时,数据写入会在分布式存储节点和冗余存储节点之间触发一系列存储事务。图 6 显示了由网络存储服务模型触发的数据中心通信示例。 图 6 网络存储服务模型 该示例强调了网络同时支持高吞吐量和低时延的重要性。 写入主存储服务器的大量数据会分多次传输到副本。小规模的确认和提交消息必须进行排序,并在事务完成之前传递给发起客户端,说明了超低时延的必

30、要性。 随着使用非易失性存储器高速 (NVMe) 接口规范的技术从 HDD 发展到 SSD,再发展到 SCM,存储性能得到了巨大提升。通过 NVMe 访问存储介质所花时间相比以前的硬盘技术减少了 1000 倍。不同技术之间的样本搜索时间分别为:HDD= 2-5 毫秒,SATA SSD = 0.2 毫秒,NVMe SSD = 0.02 毫秒。SCM 通常比NVMe 闪存 SSD 快三到五倍。 NVMeoverfabrics(简称 NVMeoF)是指用于网络存储的 NVMe 配置。介质的访问速度越快,网络瓶颈越大,网络时延的影响也越显著。图 7 展示了网络时延如何成为更快 NVMe 存储的主要瓶颈

31、。网络时延是端到端网络硬盘存储时延中可以忽略的一部分,但随着网络化 SCM 存储的发展,网络时延将成为一个重要的组成部分。 为了最大化新介质的 IOPS 性能, 首先必须解决网络时延问题。 ODCC-2021-05001 数据中心智能无损网络白皮书 10 图 7 HDD 和 SSD 的端到端时延故障 时延由静态时延和动态时延两种类型组成。静态时延包括串行数据时延、设备转发时延和光/电传输时延。这种时延类型取决于交换硬件的性能和数据传输的距离。它通常是固定的,而且很容易预测。图 8 显示,当前静态时延的行业测量值通常为纳秒(10-9 秒)或亚微秒(10-6 秒)级别,在端到端网络总时延中占比不到

32、 1%。 图 8 网络时延故障 动态时延对端到端网络总时延的作用更强, 并且受通信环境条件的影响更多。动态时延是由于内部排队和数据包重传引起, 这些时延的原因是网络拥塞和数据包丢失。并行 AI 计算模型会形成独特的流量模式,造成严重的网络拥塞。降低端到端网络时延的关键是解决动态时延,而解决动态时延的关键是缓解拥塞。 动态时延的主要来源是丢包导致的数据包重传。 丢包时延比排队时延大一个数量级,并对应用程序有严重影响。当交换机缓存区因拥塞而溢出时,就会发生丢包 (需要注意的是, 此处忽略传输过程中由于低概率比特错误而造成的丢包) 。Media latencyNetwork latencyOther

33、60%10%30%85%10%5%HDD Total LatencySSD Total Latency80%5%15%SCM Total LatencyQueuing latency (50 s)Switching latency (3 s)Transmission latency (0.3 s)Packet loss latency (5000 s)Dynamic Network LatencyStatic Network LatencyEnd-to-end Network Latency BreakdownODCC-2021-05001 数据中心智能无损网络白皮书 11 导致丢包的两种主要

34、拥塞分别是网络内拥塞和 incast 拥塞。当网络结构中的链路过载时,交换机之间的链路就会发生网络内拥塞,这可能是由于负载不平衡。当许多源同时向相同目的地发送数据时, 网络边缘就会出现 incast 拥塞。 AI 计算模型本身所具有的阶段,即在处理迭代之后对数据进行聚合,很容易发生 incast 拥塞(多打一)。 3.4.2. GPU:用于并行计算的超低时延网络 今天的 AI 计算架构包括中央处理器(CPU)和图形处理器(GPU)。GPU最初是为了高速渲染电子游戏而发明的, 现在在数据中心有了新的用途。 GPU 是一个拥有数千内核的处理器,能够同时执行数百万次数学运算。所有的人工智能学习算法都

35、能进行复杂的统计计算, 并且可以处理大量的矩阵乘法运算这非常适用于 GPU。然而,要扩展 AI 计算架构以满足当前数据中心对 AI 应用程序的需求, GPU 必须是分布式和网络化的。 这就对通信量和性能提出了更高要求。 Facebook 最近测试了分布式机器学习平台 Caffe2,这个平台为实现并行加速,使用了最新的多 GPU 服务器。测试时发现,8 台服务器的计算任务导致100Gbit/s InfiniBand 网络的资源未得到充分利用。网络和网络争用的出现使解决方案的性能降低到线性范围以下11。因此,网络性能极大地限制了人工智能系统的横向扩展。 GPU 提供了比现在的 CPU 架构高得多的

36、内存带宽。多节点 GPU 由于其高能效和硬件并行性,被用于高性能计算。图 9 展示了多 GPU 节点架构,每个节点由一台主机(CPU)和多个 GPU 设备组成,这些设备通过 PCI-e 交换机或NVLink 连接。 每个 GPU 都能够直接访问其本地相对较大的设备内存、 更小更快的共享内存,以及主机节点 DRAM 的一小块固定区域,即零拷贝内存12。 11 Morgan, T. P., “Machine Learning Gets an Infiniband Boost with Caffe2,” 19 April 2017. Online. Available: https:/ Access

37、ed 14 May 2020. 12 Jai, Z., Y. Kwon, G. Shipman, P. McCormick, M. Erez and A. Aiken, “A distributed multi-GPU system for fast graph processing,” in VLDB Endowment, 2017. ODCC-2021-05001 数据中心智能无损网络白皮书 12 图 9 分布式 AI 计算架构12 3.4.3. SmartNICs 在过去的几年里, CPU的速度提高和以太网链路的性能优化已经相互抵消。图 10 展示了以太网链路的历史速度提升情况和 CPU

38、 性能的基准提升13。在过去的某些时期,传统 CPU 的处理能力足以承载以太网链路的负载,而简化的 NIC可以节约成本,还可以在软件中灵活处理整个网络堆栈,优势明显。而在其他时期, 处理器无法适应链路速度提升, 因此在使用以太网链路时, 需要使用更昂贵、更复杂的 SmartNIC 和专业可卸载硬件。随着时间的推移,SmartNIC 卸载逐渐成熟, 其中一些特性已经成为标准,并涵盖在现在通用的 NIC 基本特性中。这种现象随着 TCP 卸载引擎(TOE)的出现而出现,TOE 支持 TCP 校验和卸载、大数据段发送和接收端扩展。 图 10 历史性能比较 13 Rupp, K., “42 Years

39、 of Microprocessor Trend Data,” February 2018. Online. Available: https:/ Accessed 22 July 2020. 008200320152019GbpsEthernet Speed0200004000060000800001000001988 1995 1998 2003 2015 2019SpecINTCPU PerformanceODCC-2021-05001 数据中心智能无损网络白皮书 13 当今世界, 有迹象表明摩尔定律正在消失, 而以太网链路速度却在持续飙升,可

40、达到 400Gbps。这种变化差异还包括现代数据中心中软件定义网络、虚拟化技术、存储、消息传递和安全协议方面的复杂性,有一种观点认为,SmartNIC 体系结构会继续存在。那么,当今的数据中心 SmartNIC 到底是什么呢? 图 11 展示了一个包含 SmartNIC 的数据中心服务器架构。SmartNIC 涵盖了全部典型的 NIC 功能,还包括卸载功能,加快了应用程序在服务器 CPU 和 GPU的运行速度。SmartNIC 不是 CPU 或 GPU 的替代,而是通过网络卸载对 CPU 或GPU 进行补充。 一些关键卸载包括虚拟机接口支持、 数据包灵活匹配、 覆盖隧道的终止和发起、加密、流量

41、计量、塑形和每流统计。此外,SmartNICs 通常包括整个协议卸载和直接数据放置,支持 RDMA 和 NVMe-oF 存储接口。 图 11 使用 SmartNIC 的服务器架构 现在,SmartNIC 一个新的关键特征是可编程性。过去对 SmartNIC 的质疑是它们无法满足快速变化的网络环境。早期的云数据中心倾向于将 CPU 用于大多数网络功能,因为 NIC 所需特性集的发展速度超过了硬件开发周期。然而,今天的 SmartNIC 拥有开放灵活的编程环境。它们实质上是开源环境中计算机前面的一台计算机, 开源环境基于 Linux 和其他软件定义网络工具, 如 Open vSwitch14。将智

42、能技术无缝集成到开源生态系统中,能够快速开发特性并进行利用。 14 The Linux Foundation, “Open vSwitch,” 2016. Online. Available: https:/www.openvswitch.org/. Accessed 23 July 2020. ODCC-2021-05001 数据中心智能无损网络白皮书 14 数据中心 SmartNIC 提高了网络的整体利用率和负载。 它们使网络链路充分、迅速饱和,加剧了拥塞影响。同时,它们可以快速响应来自网络的拥塞信号,减轻间歇性冲击,避免丢包。SmartNIC 的可编程性使它能够适应新的协议,这些协议可以

43、与网络相协调,以避免 incast 等情况。 3.4.4. 远程直接内存访问(RDMA) RDMA 是一种新技术,旨在解决网络应用中服务器端数据处理的高延迟问题。RDMA 可以让数据直接从一台计算机的存储器传输到另一台计算机,而不需要任何操作系统的干预。它允许高带宽、低时延的网络通信,特别适用于大规模并行计算环境。图 12 展示了 RDMA 协议的原理。 图 12 RDMA 协议的工作原理 RDMA 协议有三种不同的传输方式: Infiniband、 iWarp 和 RoCEv1/RoCEv2。 Infiniband 2000 年,InfiniBand 贸易协会 (IBTA) 首次发布了支撑

44、RDMA 的 InfiniBand准则。InfiniBand 适用于高效硬件设计,可以确保数据传输的可靠性和访问远程节点内存的直接性。Infiniband 作为一种特定的网络解决方案,需要专门的Infiniband 交换机和 Infiniband 接口卡。 iWarp ODCC-2021-05001 数据中心智能无损网络白皮书 15 iWarp 是一种 RDMA 协议,2014 年,IETF 规定 iWarp 需在 TCP 上运行。使用 TCP 作为传输工具,可以使 iWarp 覆盖互联网和广域网,以及标准以太网和数据中心。虽然 iWarp 可以在软件中实现,但要获得所需的性能,还需要数据中心

45、使用专门的 iWarp 网卡。 融合以太网上的融合以太网上的 RDMA(RoCE) 2010 年 4 月,IBTA 发布了 RoCEv1 规范,该规范增强了 Infiniband 体系结构规范性,支持以太网 Infiniband(IBoE)。RoCEv1 标准直接在以太网链路的顶层指定了一个 Infiniband 网络层。因此,RoCEv1 规范不支持 IP 路由。由于Infiniband 依赖于无损物理传输,所以 RoCEv1 规范依赖于无损以太网环境。 现代数据中心倾向于使用三层技术来支持大规模和更大流量控制。RoCEv1规范需要端到端的二层以太网传输,而在三层网络中不能有效运行。2014

46、 年,IBTA 发布了 RoCEv2,它扩展了 RoCEv1,用 IP 和 UDP 报头替换了 Infiniband全局路由报头(GRH)。现在的 RoCE 是可路由的,它很容易集成到首选的数据中心环境中。然而,为了获得所需的 RDMA 性能,RoCE 协议被卸载,由特定网络接口卡取代。这些网卡实现了全部的 RoCEv2 协议,包括 UDP 堆栈、拥塞控制和任何重传机制。虽然 UDP 的重量比 TCP 轻,但附加支持在提高 RoCEv2 可靠性的同时, 增加了网卡实现的复杂性。 RoCEv2 仍然依赖 Infiniband 传输协议,该协议要在无损 Infiniband 环境中运行,因此 Ro

47、CEv2 仍然受益于无损以太网环境。 表 1 RDMA 网络技术的比较 技术技术 数据速率数据速率 (Gbit/s) 时延时延 关键技术关键技术 优势优势 劣势劣势 以太网TCP/IP 10,25,40,50,56,100 或200 500-1000ns TCP/IP 套接字编程接口 应用范围广,价格低廉,兼容性好 网络利用率低,平均性能差,链路传输速率不稳定 Infiniband 40,56,100 或200 300-500ns InfiniBand 网络协议和架构动词编程性能良好 不支持大规模网络,需要特定的ODCC-2021-05001 数据中心智能无损网络白皮书 16 接口 NIC 和

48、交换机 RoCE/RoCEv2 40,56,100 或200 300-500ns InfiniBand 网络层或传输层和以太网链路层动词编程接口 与传统以太网技术兼容,性价比高,性能良好 特定的 NIC仍然有许多挑战 Omni-Path 100 100ns OPA 网络架构动词编程接口 性能良好 单个厂商和特定的 NIC和交换机 图 13 显示了最常见的 RDMA 协议栈及相关标准。 表 1 比较了不同的实施细节。大型云数据中心中,RDMA 成为选择高速存储、人工智能和机器学习的协议。现实世界中,有成千上万的服务器在生产中使用 RDMA。使用 RDMA 极大的提高了应用程序性能15。 例如,

49、机器学习分布式训练加快了 100 多倍, 用 RDMA代替 TCP/IP 进行通信,使得网络化 SSD 存储的 I/O 速度提高了约 50 倍。这些优化来自于 RDMA 的硬件卸载特性。 图 13 RDMA 协议栈和标准 3.4.5. GPU DirectRDMA 把两个好想法结合起来往往能创造出一个突破性的想法。GPU DirectRDMA包括 PCIe PeerDirect 技术和网络 RDMA 技术,可以将数据直接发送到 GPU 内存。任何 PCIe 对等机都能支持此项技术,如 NVIDIA GPU、XEON PHI、AMD 15 Li, Y., R. Miao, H. H. Liu,

50、Y. Zhuang, F. Feng, L. Tang, Z. Cao, M. Zhang, F. Kelly, M. Alizadeh and M. Yu, “HPCC: High Precision Congestion Control,” in Proceedings of the ACM Special Interest Group on Data Communication (SIGCOMM 19), New York, NY, USA, 2019. EthernetInfiniBandLink LayerEthernetEthernetIPIPUDPTCPInfiniBandNet

友情提示

1、下载报告失败解决办法
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。

本文(ODCC:数据中心智能无损网络白皮书(43页).pdf)为本站 (爱喝奶茶的猫) 主动上传,三个皮匠报告文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三个皮匠报告文库(点击联系客服),我们立即给予删除!

温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。
客服
商务合作
小程序
服务号
会员动态
会员动态 会员动态:

 wei**n_... 升级为标准VIP 137**18... 升级为至尊VIP 

 wei**n_... 升级为至尊VIP  wei**n_...  升级为标准VIP

139**24...  升级为标准VIP  158**25... 升级为标准VIP

wei**n_... 升级为高级VIP  188**60... 升级为高级VIP

 Fly**g ...  升级为至尊VIP  wei**n_... 升级为标准VIP

186**52...   升级为至尊VIP  布** 升级为至尊VIP

 186**69... 升级为高级VIP wei**n_... 升级为标准VIP 

 139**98... 升级为至尊VIP 152**90...  升级为标准VIP

 138**98... 升级为标准VIP 181**96... 升级为标准VIP

185**10... 升级为标准VIP  wei**n_...  升级为至尊VIP 

高兴   升级为至尊VIP  wei**n_... 升级为高级VIP

wei**n_... 升级为高级VIP 阿**...  升级为标准VIP 

wei**n_...  升级为高级VIP   lin**fe... 升级为高级VIP

wei**n_...  升级为标准VIP  wei**n_...   升级为高级VIP

 wei**n_...  升级为标准VIP  wei**n_... 升级为高级VIP

wei**n_... 升级为高级VIP  wei**n_...  升级为至尊VIP

wei**n_... 升级为高级VIP  wei**n_...  升级为高级VIP

180**21... 升级为标准VIP  183**36...   升级为标准VIP

wei**n_...  升级为标准VIP  wei**n_...  升级为标准VIP

  xie**.g... 升级为至尊VIP   王** 升级为标准VIP

 172**75... 升级为标准VIP  wei**n_... 升级为标准VIP

 wei**n_... 升级为标准VIP  wei**n_... 升级为高级VIP 

135**82...  升级为至尊VIP  130**18...  升级为至尊VIP

 wei**n_...  升级为标准VIP wei**n_...  升级为至尊VIP

wei**n_... 升级为高级VIP  130**88...  升级为标准VIP

张川  升级为标准VIP  wei**n_... 升级为高级VIP 

 叶**  升级为标准VIP wei**n_... 升级为高级VIP 

 138**78... 升级为标准VIP  wu**i 升级为高级VIP

wei**n_... 升级为高级VIP  wei**n_...  升级为标准VIP

wei**n_...   升级为高级VIP 185**35... 升级为至尊VIP

wei**n_...   升级为标准VIP  186**30... 升级为至尊VIP 

 156**61... 升级为高级VIP 130**32...  升级为高级VIP 

 136**02... 升级为标准VIP   wei**n_...  升级为标准VIP

133**46... 升级为至尊VIP   wei**n_... 升级为高级VIP

180**01...  升级为高级VIP  130**31... 升级为至尊VIP 

wei**n_...   升级为至尊VIP  微**...  升级为至尊VIP

 wei**n_... 升级为高级VIP wei**n_...  升级为标准VIP

刘磊  升级为至尊VIP  wei**n_...  升级为高级VIP

 班长 升级为至尊VIP  wei**n_... 升级为标准VIP

 176**40... 升级为高级VIP   136**01...  升级为高级VIP

159**10... 升级为高级VIP   君君**i...  升级为至尊VIP

 wei**n_... 升级为高级VIP wei**n_... 升级为标准VIP 

158**78...  升级为至尊VIP 微**...  升级为至尊VIP 

185**94... 升级为至尊VIP  wei**n_... 升级为高级VIP

139**90... 升级为标准VIP  131**37... 升级为标准VIP 

钟**   升级为至尊VIP wei**n_...  升级为至尊VIP

139**46...  升级为标准VIP  wei**n_...  升级为标准VIP

 wei**n_... 升级为高级VIP  150**80... 升级为标准VIP

wei**n_...  升级为标准VIP GT  升级为至尊VIP

186**25... 升级为标准VIP wei**n_... 升级为至尊VIP