《【Memverge】CXL大内存技术加速AI场景初探.pdf》由会员分享,可在线阅读,更多相关《【Memverge】CXL大内存技术加速AI场景初探.pdf(25页珍藏版)》请在三个皮匠报告上搜索。
1、CXL大内存技术加速AI场景初探MemVerge2023.12目录 下一代数据中心基础设施架构 CXL内存互联协议介绍 CXL技术解决的问题 GISMO全局内存对象系统在AI场景的应用 GISMO与Alluxio联合解决方案构想下一代数据中心基础设施架构PART 1机房 A机柜A(计算POD)机柜B(计算POD)计算单元CPUGPUXPUCPUGPUXPU内存单元MemoryMemoryMemory高性能存储单元CXL计算单元内存单元MemoryMemoryMemory高性能存储单元RDMA机房B异地数据中心存储POD容量型存储备份存储跨机房:200/400GEthernet带宽型访问毫秒级时
2、延百us级时延公有云跨数据中心400/800G光网络专线CXL柜间RDMA 10us时延带宽型访问秒级时延趋势1:数据中心走向全Disaggregated架构CPUGPUXPUCPUGPUXPU柜内:LD/ST内存语义访问 1us时延趋势2:内存架构重演企业存储的池化和分布式共享之路Memory池化内存分布式内存服务CXLMemory Data ServicesDASSAN存储池分布式存储服务Fibre ChannelStorage Data ServicesCXL内存互联协议介绍PART 2CXL v1.1:服务器内PCI-E扩展HostDeviceCXL.ioCXL.cacheCXL.me
3、mCXL v2.0:内存设备池化H1H2H3H4H#D1D2D3D4D#H1H2H3H4H#D1D2D3D4D#With single logical devicesWith multiple logical devicesCXL SwitchCXL v3.0:多层交换机互联+多服务器CPU缓存一致性Spine switchesLeaf switchesEnd devicesAccelMemCPUGFAMGFAMGFAMNICNICNICInterconnected spine switch systemLeaf switch NIC enclosureLeaf switch CPU encl
4、osureLeaf switch accelerator enclosureLeaf switch memory enclosure基于CXL技术的产品成熟度现状和商用落地路标CXL1.1 单机内存扩展 单机最高8TB内存 商用:2023CXL 2.0 内存资源池化 独立于服务器的外置内存设备 容量按需弹性扩展至百TB级 商用:2024H2/2025H1CXL 3.0 内存数据共享 多机共享内存数据 多内存设备级联 商用:2026+CXL技术解决的问题PART 3CXL技术解决的问题1:如何成本可控地打破内存墙单物理CPU核数每核的内存通道带宽需要革命性改变的内存带宽扩展方案201220132
5、000202021增长速度(归一化后)43.532.521.51.50数据来源:Samsung内存带宽增长无法跟上算力的(后)摩尔定律CXL协议对内存带宽的提升通道数协议版本x1x2x4x8x16PCIe 1.x(2.5 GT/s)0.5 GB/s1 GB/s2 GB/s4 GB/s8 GB/sPCIe 2.x(5.0 GT/s)1 GB/s2 GB/s4 GB/s8 GB/s16 GB/sPCIe 3.x(8.0 GT/s)2 GB/s4 GB/s8 GB/s16 GB/s32 GB/sPCIe 4.x(16.0 GT/s)4 GB/s8 GB/s
6、16 GB/s32 GB/s64 GB/sPCIe 5.x(32.0 GT/s)8 GB/s16 GB/s32 GB/s64 GB/s128 GB/sPCIe 6.x(64.0 GT/s)16 GB/s32 GB/s64 GB/s128 GB/s256 GB/sPCIe 7.x(128.0 GT/s)32 GB/s64 GB/s128 GB/s256 GB/s512 GB/sTheoretical hardware performance.Actual results may vary.Source:https:/ I/O-free Shared Memory Objects全局内存对象系统N
7、odeAppGismo Client(SDK)CPUShared Memory over CXLDDR DRAM(NUMA 0)CXL DRAM(DevDAX 0.0)NodeAppGismo Client(SDK)CPUDDR DRAM(NUMA 0)CXL DRAM(DevDAX 0.0)NodeAppCPUDDR DRAM(NUMA 0)CXL DRAM(DevDAX 0.0)Gismo Server+ClientGISMO在AI相关场景加速的应用PART 4场景1:带宽型场景-跨节点免拷贝访问,数据访问效率提升5倍AS-IS:原生分布式数据处理平台TO-BE:基于多机共享内存的分布式处
8、理平台服务器ABigData计算框架AI本地内存对象网络传输本地内存服务器BBigData计算框架AI本地内存对象本地内存网卡发送缓冲区网卡接受缓冲区第1次copy第2次copy第3次copyCXL共享内存池(硬件)服务器 ABigData计算框架AI全局内存对象服务器 BBigData计算框架AI全局内存对象数据A数据A 数据A数据B写数据写数据跨节点免拷贝读核心问题:1.通过网络传输进行数据跨节点交换,产生3次数据copy,数据等待时间长,秒级时延2.数据跨节点copy产生额外内内存空间占用,整系统内存资源有效利用率50%价值收益:1.内存数据跨节点内存语义访问,无数据拷贝和网络传输2.数
9、据全局只有一份,实现内存资源利用率最大化3.模拟环境实测:数据交互性能提升5倍+,数据Shuffle端到端性能提升3倍GISMO在Ray框架下的Shuffle性能测试数据Baseline RayRay+Gismo读本地1GB数据对象0.4 sec0.4 secCXL共享内存和本地内存一样快读远端 1GB数据对象2.7 sec0.4 sec提速 675%端到端Shuffle 50GB数据4 节点,每节点4核 4 cores,128 GB 内存object store515 sec185 sec 提速280%(端到端)测试运行在CXL2.0模拟环境场景2:时延型场景-AI分布式训练集合通讯加速原生
10、分布式训练通信框架集成GISMO的分布式训练通信框架服务器ApytorchNCCL通信库tensorflow网络传输服务器BNCCL通信库网卡发送缓冲区网卡接受缓冲区CXL共享内存池(硬件)服务器 AGISMO NCCL pluginGISMO全局内存对象服务器 BGISMO NCCL pluginGISMO全局内存对象数据A数据A数据B写数据写数据跨节点免拷贝读核心问题:1.多机网络性能低于100Gbs(受制于网卡)2.传统的ring-allreduce 算法性能受限价值收益:1.内存数据跨节点直接访问,无需网络传输2.多节点同时访问,all_reduce算法简化pytorchtensorf
11、low数据ApytorchtensorflowpytorchtensorflowNCCL通信库NCCL通信库场景3:带宽时延型场景-提升分布式渲染的实时性和渲染质量客户端任务分发器读取数据CXL全局内存池Gismo library渲染器Gismo libraryMsg with object idMsg with object idsMsg with object id拼接器Gismo library渲染器Gismo library渲染器Gismo library零拷贝数据共享GISMO与Alluxio联合解决方案构想PART 6服务器N服务器1服务器2服务器3Alluxio 全局数据编排CXL2.0内存池(硬件)GISMOGISMOCXL2.0内存池(硬件)机柜A机柜A共享存储内存对象接口内存对象接口POSIXHCFSGISMO+Alluxio:以数据为中心,实现数据加载和计算的极致性能24基于QEMU的CXL模拟系统https:/ 赵玥欢迎技术交流