《中国移动研究院:B400G以太网助力智算中心光互联(2023)(19页).pdf》由会员分享,可在线阅读,更多相关《中国移动研究院:B400G以太网助力智算中心光互联(2023)(19页).pdf(19页珍藏版)》请在三个皮匠报告上搜索。
1、B400G以太网助力智算中心光互联程伟强中国移动研究院-基础网络技术研究所2算力成为数字经济时代的核心竞争力AI大模型带动算力成为数字经济时代的核心竞争力。到2025年,我国算力规模将超过300 EFLOPS,智能算力占比达到35%;算力基础设施将成为推动我国经济转型升级和培育新动能的重要力量2022年中国移动全球合作伙伴大会发布新一代智算中心网络技术白皮书2023年5月2022年12月2023年8月2023年中国算力(基础设施)大会发布中国移动NICC新型智算中心技术体系白皮书2023云网智联大会发布面向AI大模型的智算中心网络演进白皮书智算中心将成为支撑和引领数字经济发展的关键信息基础设施
2、,将有效促进AI产业化、产业AI化的进程国家发改委:全国一体化大数据中心协同创新体系算力枢纽实施方案2021年5月2022年7月工信部:加速推进高端芯片、新型数据中心等领域研发突破2022年1月国家发改委:我国将布局八大算力网络国家枢纽节点 加快数字经济发展2023年5月中央网信办:以算力、赋能、产业发展互动 走出数字经济特色化发展道路2023年10月工信部等六部门联合印发算力基础设施高质量发展行动计划3单个流量:数量多、带宽小、异步累积流量:抖动幅度较小,具有随机性单个流量:数量少、带宽大、同步累积流量:波峰、波谷效应明显,具有周期性单个流量累积流量单个流量累积流量传统DC流量模型智算中心大
3、模型(All-to-all)流量模型GPU停工等待其他GPU完成工作传统DC与智算中心流量模型区别4面向大模型训练,网络成为AI算力瓶颈AI大模型以GPU集群分布式训练为基础,带来大量节点间通信消耗,网络成为AI算力“瓶颈”当前业界主流智算中心网络技术被国外厂商垄断,网络芯片存在代际差距,网络可能成为我国AI发展的“新卡点”集群有效算力GPU单卡算力*总卡数*线性加速比*有效运行时网络可用性决定GPU集群稳定性2%的丢包就会使RDMA吞吐率下降为0网络设备能力决定GPU集群组网规模芯片容量提升2倍,组网规模提高4倍网络性能决定GPU集群算力加速比GPU集群性能 单GPU性能*N随着GPU单卡算
4、力受限,以网强算成为提升大模型训练效率的关键,探索以太网的新调度机制、新接口速率和新安全方案,提升智算中心网络性能和整体算力水平5目录以太网新调度机制GSE以太网新接口速率B400GE以太网新安全方案PHYSec6GSE技术体系-核心理念中国移动提出全调度以太网(GSE)技术架构,最大限度兼容以太网生态,创新基于报文容器(PKTC)的转发及调度机制,构建无阻塞、高带宽、低时延的新型智算中心网络,形成标准开放的技术体系,助力AI产业发展从“局部”决策到“全局”调度从“流”分发到“报文”分发从盲发+被动控制到感知+主动控制将业务流拆分到不同“报文容器”转发,提供逐“报文容器”负载均衡机制,提升带宽
5、利用率从被动拥塞控制,到基于“授权请求和响应机制”的主动流控,最大限度避免网络拥塞产生全局视野的转发调度机制,实现集中式管理运维、分布式控制转发,提高网络可用性当前:逐流负载,链路利用率低、发生拥塞被动降速未来:逐报文容器转发,链路负载均衡,全局调度,避免拥塞创新以太网转发机制,实现三大核心机制转变源leafSpineSpineSpine目的leaf2213213拥塞拥塞21321321丢包丢包7报文容器以太报文报文容器1以太报文报文1报文2报文1长度报文2长度GSE HeaderGSE Header报文容器是区别于CELL转发的一种核心转发机制,该机制下以太网报文根据最
6、终设备或者设备出端口被逻辑分配并组装成”逻辑等长”的虚拟报文容器,并以该”容器”为最小单元在交换网络中传输源节点根据报文容器长度以及已经占用的字节数为到达该节点的报文分配相应的容器ID,并记录其归属的报文容器编号及在该容器占用的字节数Packet基于确定长度的容器转发提升多链路均衡性早期 链路速率低 长短包转发差异性大切CellCell1Cell2Cell3报文容器将来链路速率高 总转发带宽增大 Cell相应增大组容器Packet1Packet28DGSQ+调度在输入端口将发送到不同端口(或者优先级)的数据包虚拟成不同的队列,并且彼此互不影响,解决HOL从Send-based到Receive-
7、based,避免网络入向流量大于网络容量,从源头避免网络拥塞GSE报文信令请求获取信道资源INOUT无阻塞低时延 无损高带宽vs逐流负载均衡 高时延 甚至 丢包容器负载均衡 长尾时延低,网络利用率高低时延1000流量负载(%)报文时延非均匀到达模型下时延vs负载9负载均衡和重排序负载均衡方式 轮询 随机 基于拥塞感知每个转发节点根据自身负载情况对PKTC进行负载均衡,且同PKTC内的报文转发路径相同,高精度负载均衡方式,消除网络微突发,获得转发低延迟目的节点依照PKTC为单位进行容器间解乱序,同PKTC内报文严格保序容器间排序 大大降低排序压力.GSFGSFGSPGSPGSP.容器1容器210
8、目录以太网新调度机制GSE以太网新接口速率B400GE以太网新安全方案PHYSec11IEEE802.3 B400GE标准目标演进IEEE P802.3df&dj 800GE和1.6TE规范目标 以太速率 信号速率电通道50m MMF100m MMF 500m SMF2km SMF10km SMF40km SMFAUIBPCu800Gb/s100Gb/s800GAUI-8800GBASE-KR8800GBASE-CR88 pairs800GE-VR88 pairs800GE-SR88 pairs800GE-DR88 pairs800GE-DR8-2200Gb/s800GAUI-4800GBAS
9、E-KR4800GBASE-CR44 pairs800GE-DR44 pairs 800GE-DR4-2 4 800GE-FR44 800GBASE-LR4800Gb/s1 pair800GE-LR11 pair800GE-ER11.6Tb/s100Gb/s1.6TAUI-16200Gb/s1.6TAUI-81.6TBASE-KR81.6TBASE-CR81.6TBASE-DR81.6TBASE-DR8-2802.3df802.3dj802.3dj智算中心内光互联智算中心间光互联潜在继续分化出子项目200G/lane 光+电BaselineD1.0D2.0D3.0800GE(4200G)1.6
10、TbE(8x200G)802.3dj2022202420232026+20252021D1.0D2.0D3.0100G/lane光+电800GE(8x100G)802.3df200G/lane电800G单波相干D1.0?/D2.0?800GE(1800G)1.6TE(2800G)?800GE(4200G)1.6TbE(8x200G)B400GE标准演进时间线12B400G以太网技术标准化进展 802.3df:单通道100Gb/s的800G以太网标准,目前已完成Task Force Review形成D3.1版本草案“IEEE P802.3df/D3.1,14 Nov.2023”,正在进行标准协会
11、(SA)范围审查 802.3dj:单通道200Gb/s FEC采用低复杂度Hamming(128,120)内码级联RS(544,514)外码;PMA逻辑层方案已确定,光层Baseline目前还未确定,仍处于技术讨论阶段,需要更长的时间完成方案收敛 802.3dj:面向10km和40km场景的单波800Gbps相干标准进展缓慢,800GE LR1已确定采用KP4+BCH的FEC方案,但O波动和C波段之争逐渐白热化;800G ER1采用相干已获得业界共识,FEC和光层PMD方案尚未明确800Gbps以太网标准1.6Tbps以太网标准 802.3dj:1.6TE PCS/FEC方案已确定,电接口形态
12、包括16通道100Gbps(16AUI-16)和8通道200Gbps(1.6TAUI-8);1.6T 500m/2km PMD子层方案尚未明确,2km采用相干技术可行性更高 1.6Tbps LPO和CPO等技术已出现商用产品形态,在智算中心场景也将具有广泛的应用潜力13推动800G 10km目标立项,确立相干技术路线中国移动积极参与并推动IEEE802.3df&dj工作组完成800G 10km目标立项,完成800G 10km相干技术路线确立,提交10余篇标准文稿需求文稿Application Requirement for Beyond 400GE from Telecom Operators
13、 Perspective 分析文稿提出B400GE需求,引领技术方向Towards consensus on a coherent based 800G 10/40 km specification800G 10km方案对比分析,凸显相干方案优势Consideration on 800Gb/s coherent solutions for 10km800G-LR1/ER1的GMP bypass方案分析标准文稿提出800G 10/40km发射和接收标准规范建议提出基于oFEC的800G 10km/40km规范建议提出800G-LR1/ER1与800ZR一致性规范建议标准文稿分析文稿Conside
14、rations on GMP bypass for 800G-LR1/ER1Update to oFEC-based single lambda baseline for 10km and 40km objectives标准文稿Alignment of 800GBASE-LR1 and 800GBASE-ER1with OIF800ZR Implementations-a baseline proposal14800GE(8100G)500m/2km高速接口测试本次测试800GE短距光模块性能整体较为稳定,模块功耗在15w左右和工作温度在5060范围仍有待优化空间;800GE光模块与路由器设备
15、和测试仪适配性能良好,业界支持800GE设备厂家还较为单一测试拓扑:可插拔光模块插入测试仪表进行环回测试测试内容:非成帧误码率、FEC功能、发射机频率偏移、收发传输时延、通道时延偏差、固件功能等光模块性能测试800GE光模块性能测试800GE光模块与路由器设备适配测试模块类型A厂商B厂商500m500m2km500m500m非成帧误码率通道11.0e-096.5e-103.3e-091.1e-073.3e-06通道23.9e-101.6e-103.8e-082.3e-074.9e-06通道31.4e-109.6e-101.7e-084.3e-081.6e-06通道46.9e-118.4e-11
16、2.5e-084.9e-083.8e-06通道52.7e-092.4e-092.3e-084.8e-082.3e-06通道66.5e-106.0e-103.4e-086.1e-081.7e-06通道72.0e-084.5e-093.6e-084.6e-093.0e-07通道81.1e-101.0e-093.4e-086.9e-081.8e-06模块时延传输时延 51ns52ns43ns92ns90ns时延抖动3ns 3ns 4ns 4ns3ns测试拓扑:路由器设备800G接口对接测试仪表进行互通测试测试内容:包括流量转发功能、业务功能等设备能力测试注:802.3df规定的非成帧误码率BER 2
17、.4e415目录以太网新调度机制GSE以太网新接口速率B400GE以太网新安全方案PHYSec16PHYSec:物理层加密,更低时延、更低开销、协议透明6NowL2物理层L3L4L5TimeTLS/DTLSMACSecPHYSecsoftwareSoftware+hardwareHardwareHardwareMACIPTCPMACIPMACMACCipher textCipher textCipher textCipher textRDMASecHardware2022MACUDPCipher textIPIPSec?智算中心基础设施承载大量数据传输处理,安全诉求极高;
18、RDMASec、MACSec等安全方案在加解密带宽开销、时延、硬件支持等方面存在性能瓶颈,暴露的帧头部信息仍存在安全漏洞PacketMACPCSPMAPMAPMDxAUIPHYSec光模块加密接口芯片加密PacketMACPCSPMAPMAPMDxAUIPHYSecor探索新层次:将传统密码学思想应用到以太网物理层PHYSec,解决现有技术方案的安全漏洞与性能瓶颈,具有极低开销、时延以及低功耗和成本等优势17L1.5层PHYSec:基于“64B/66B码块”的PHY芯片实现MAC(Preamble+Padding+FCS)RSAMDeskewAM LockPHY芯片RS-FECSymboldi
19、stributionReorderPMAEn/Decode(64B/66B)256B/257B(De)ScrambleDistribution/InterleaveMAC(Preamble+Padding+FCS)RSAMDeskewAM LockPHY芯片RS-FECSymboldistributionReorderPMAEn/Decode(64B/66B)256B/257B(De)ScrambleDistribution/InterleavePMDPMA光模块SerdesPMDPMADencryptionSerdes光模块Encryption技术优势:安全功能硬化,高吞量 安全加密能力不占
20、用设备CPU资源,安全能力卸载 实现底层光通道不感知(OTN/SPN)的端到端数据加密加密后的64B/66B400GE400GE400GE400G OTN64B/66BGMPOTUOTUGMP64B/66BL1.5-PHYSec400GEL1.5-PHYSec18L1层PHYSec:基于“比特流”的光模块实现MAC(Preamble+Padding+FCS)RSAMDeskewAM LockPHY芯片RS-FECSymboldistributionReorderPMAEn/Decode(64B/66B)256B/257B(De)ScrambleDistribution/InterleaveMA
21、C(Preamble+Padding+FCS)RSAMDeskewAM LockPHY芯片RS-FECSymboldistributionReorderPMAEn/Decode(64B/66B)256B/257B(De)ScrambleDistribution/InterleavePMDPMAAM LockEncryption光模块SerdesPMDPMAAM LockDencryptionSerdes光模块技术优势:安全功能可插拔、硬化,高吞量 无需升级设备硬件,即可具备安全加密能力 安全加密能力不占用主设备资源,安全能力卸载 实现端口-端口的链路级数据加解密AMAMAMAMVLane1VLane2VLane3VLane4400GEL1-PHYSecL1-PHYSec400GE19总结与展望 AI/ML带来海量算力需求持续增长,新型智算中心网络涉及技术领域多,国内外尚处在技术研究阶段,创新机遇大,不确定性也大 GSE最大限度兼容以太网生态,凝聚产业力量,形成自主可控、标准开放的技术体系,成为产业共识 B400G高速接口标准和商用化进程相对稳定,须重点关注B400G相干技术实现复杂度,谨慎评估功耗成本等因素 以太网物理层高安全能力有待进一步增强,PHYSec将成为新的安全解决方案 业界共同推动B400G以太网技术成熟和商用,助力智算中心快速发展