2023深圳10大高端夜场(深圳2023年顶级夜场排行榜)

上海品茶

【Memverge】CXL大内存技术加速AI场景初探.pdf

上传人：张**

编号：153271

2024-01-15

25页 2.03MB

《【Memverge】CXL大内存技术加速AI场景初探.pdf》由会员分享，可在线阅读，更多相关《【Memverge】CXL大内存技术加速AI场景初探.pdf（25页珍藏版）》请在三个皮匠报告上搜索。

1、CXL大内存技术加速AI场景初探MemVerge2023.12目录下一代数据中心基础设施架构 CXL内存互联协议介绍 CXL技术解决的问题 GISMO全局内存对象系统在AI场景的应用 GISMO与Alluxio联合解决方案构想下一代数据中心基础设施架构PART 1机房 A机柜A（计算POD)机柜B（计算POD)计算单元CPUGPUXPUCPUGPUXPU内存单元MemoryMemoryMemory高性能存储单元CXL计算单元内存单元MemoryMemoryMemory高性能存储单元RDMA机房B异地数据中心存储POD容量型存储备份存储跨机房：200/400GEthernet带宽型访问毫秒级时

2、延百us级时延公有云跨数据中心400/800G光网络专线CXL柜间RDMA 10us时延带宽型访问秒级时延趋势1：数据中心走向全Disaggregated架构CPUGPUXPUCPUGPUXPU柜内：LD/ST内存语义访问 1us时延趋势2：内存架构重演企业存储的池化和分布式共享之路Memory池化内存分布式内存服务CXLMemory Data ServicesDASSAN存储池分布式存储服务Fibre ChannelStorage Data ServicesCXL内存互联协议介绍PART 2CXL v1.1：服务器内PCI-E扩展HostDeviceCXL.ioCXL.cacheCXL.me

3、mCXL v2.0：内存设备池化H1H2H3H4H#D1D2D3D4D#H1H2H3H4H#D1D2D3D4D#With single logical devicesWith multiple logical devicesCXL SwitchCXL v3.0：多层交换机互联+多服务器CPU缓存一致性Spine switchesLeaf switchesEnd devicesAccelMemCPUGFAMGFAMGFAMNICNICNICInterconnected spine switch systemLeaf switch NIC enclosureLeaf switch CPU encl

4、osureLeaf switch accelerator enclosureLeaf switch memory enclosure基于CXL技术的产品成熟度现状和商用落地路标CXL1.1 单机内存扩展单机最高8TB内存商用：2023CXL 2.0 内存资源池化独立于服务器的外置内存设备容量按需弹性扩展至百TB级商用：2024H2/2025H1CXL 3.0 内存数据共享多机共享内存数据多内存设备级联商用：2026+CXL技术解决的问题PART 3CXL技术解决的问题1：如何成本可控地打破内存墙单物理CPU核数每核的内存通道带宽需要革命性改变的内存带宽扩展方案201220132

5、000202021增长速度（归一化后）43.532.521.51.50数据来源:Samsung内存带宽增长无法跟上算力的（后）摩尔定律CXL协议对内存带宽的提升通道数协议版本x1x2x4x8x16PCIe 1.x(2.5 GT/s)0.5 GB/s1 GB/s2 GB/s4 GB/s8 GB/sPCIe 2.x(5.0 GT/s)1 GB/s2 GB/s4 GB/s8 GB/s16 GB/sPCIe 3.x(8.0 GT/s)2 GB/s4 GB/s8 GB/s16 GB/s32 GB/sPCIe 4.x(16.0 GT/s)4 GB/s8 GB/s

6、16 GB/s32 GB/s64 GB/sPCIe 5.x(32.0 GT/s)8 GB/s16 GB/s32 GB/s64 GB/s128 GB/sPCIe 6.x(64.0 GT/s)16 GB/s32 GB/s64 GB/s128 GB/s256 GB/sPCIe 7.x(128.0 GT/s)32 GB/s64 GB/s128 GB/s256 GB/s512 GB/sTheoretical hardware performance.Actual results may vary.Source:https:/ I/O-free Shared Memory Objects全局内存对象系统N

7、odeAppGismo Client(SDK)CPUShared Memory over CXLDDR DRAM(NUMA 0)CXL DRAM(DevDAX 0.0)NodeAppGismo Client(SDK)CPUDDR DRAM(NUMA 0)CXL DRAM(DevDAX 0.0)NodeAppCPUDDR DRAM(NUMA 0)CXL DRAM(DevDAX 0.0)Gismo Server+ClientGISMO在AI相关场景加速的应用PART 4场景1：带宽型场景-跨节点免拷贝访问，数据访问效率提升5倍AS-IS:原生分布式数据处理平台TO-BE:基于多机共享内存的分布式处

8、理平台服务器ABigData计算框架AI本地内存对象网络传输本地内存服务器BBigData计算框架AI本地内存对象本地内存网卡发送缓冲区网卡接受缓冲区第1次copy第2次copy第3次copyCXL共享内存池（硬件）服务器 ABigData计算框架AI全局内存对象服务器 BBigData计算框架AI全局内存对象数据A数据A 数据A数据B写数据写数据跨节点免拷贝读核心问题：1.通过网络传输进行数据跨节点交换，产生3次数据copy，数据等待时间长，秒级时延2.数据跨节点copy产生额外内内存空间占用，整系统内存资源有效利用率50%价值收益:1.内存数据跨节点内存语义访问，无数据拷贝和网络传输2.数

9、据全局只有一份，实现内存资源利用率最大化3.模拟环境实测：数据交互性能提升5倍+，数据Shuffle端到端性能提升3倍GISMO在Ray框架下的Shuffle性能测试数据Baseline RayRay+Gismo读本地1GB数据对象0.4 sec0.4 secCXL共享内存和本地内存一样快读远端 1GB数据对象2.7 sec0.4 sec提速 675%端到端Shuffle 50GB数据4 节点,每节点4核 4 cores,128 GB 内存object store515 sec185 sec 提速280%（端到端）测试运行在CXL2.0模拟环境场景2：时延型场景-AI分布式训练集合通讯加速原生

10、分布式训练通信框架集成GISMO的分布式训练通信框架服务器ApytorchNCCL通信库tensorflow网络传输服务器BNCCL通信库网卡发送缓冲区网卡接受缓冲区CXL共享内存池（硬件）服务器 AGISMO NCCL pluginGISMO全局内存对象服务器 BGISMO NCCL pluginGISMO全局内存对象数据A数据A数据B写数据写数据跨节点免拷贝读核心问题:1.多机网络性能低于100Gbs（受制于网卡）2.传统的ring-allreduce 算法性能受限价值收益:1.内存数据跨节点直接访问，无需网络传输2.多节点同时访问，all_reduce算法简化pytorchtensorf

11、low数据ApytorchtensorflowpytorchtensorflowNCCL通信库NCCL通信库场景3：带宽时延型场景-提升分布式渲染的实时性和渲染质量客户端任务分发器读取数据CXL全局内存池Gismo library渲染器Gismo libraryMsg with object idMsg with object idsMsg with object id拼接器Gismo library渲染器Gismo library渲染器Gismo library零拷贝数据共享GISMO与Alluxio联合解决方案构想PART 6服务器N服务器1服务器2服务器3Alluxio 全局数据编排CXL2.0内存池（硬件）GISMOGISMOCXL2.0内存池（硬件）机柜A机柜A共享存储内存对象接口内存对象接口POSIXHCFSGISMO+Alluxio：以数据为中心，实现数据加载和计算的极致性能24基于QEMU的CXL模拟系统https:/ 赵玥欢迎技术交流