《中国移动研究院:通过总线技术实现数据中心级“先进封装”(2023)(14页).pdf》由会员分享,可在线阅读,更多相关《中国移动研究院:通过总线技术实现数据中心级“先进封装”(2023)(14页).pdf(14页珍藏版)》请在三个皮匠报告上搜索。
1、演讲人:李锴演讲单位:中国移动研究院图片来源:AMD 在Chiplet条件下,Intel、AMD、Arm、Hygon等处理器的核心数量不断增加,通用服务器算存比没有大幅波动情况下,对服务器内存容量需求大幅提升;Intel Sapphire Rapids 提供多达60个内核,120线程,8个内存通道AMD Genoa 提供多达128个内核,256线程,12个内存通道图片来源:Intel不断增加的核心数量进一步提升了算力能力,与此匹配的服务器内存需求也同步匹配新一代人工智能依赖数据、算法和算力,然而,当前AI硬件的算力增长远远超过内存发展速度,导致原有内存的分层架构效果无法完全满足现在业务需求;在
2、边缘场景下,海量、高维模型、稀疏特征数据需要强大的内存支持系统来实现更好的在线推理能力;在大模型的训练和推理场景,GPU/AI卡的显存或内存容量不足,呈现出明显的内存墙问题。这些数据的高维、稀疏特征又为计算和存储带来了很大的挑战,隐藏层大小可能就是数百万的量级,总参数量甚至能达到十万亿的量级,对显存/内存需求大训练、推理场景在应用需求对大内存迫切性增加需要通过芯片层级的架构改进来缓解内存墙瓶颈,例如将内存堆叠在逻辑芯片上,使内存更靠近处理器,从而更近、更快且更容易访问数据,无论在是通用计算还是智算都殊途同归;来源:AMD来源:NVIDIA来源:TSMC处理器内存加速器传统计算架构处理器内存加速
3、器芯片级共封装内存内存芯片内部正在使内存更接近逻辑和加速器,内存将不是通过 PCB 连接的,而是放在封装之中,CPU和加速器的速度更快、性能更高同封装同封装面向大模型的训练、推理场景,单机8卡已经不能单纯作为单台服务器的边界,需要构建更大型的超级计算机提高计算效率和能力,通过实现计算架构的改进,以确保其满足算、存要求,使数百级别处理器进行总线级互联;做为另外一种“先进的封装技术”,其规模已扩大至数据中心,总线连接可被视为中介层;传统数据中心S架构数据中心处理器内存a-b加速器处理器内存b-c加速器处理器内存c-d加速器处理器内存d-e加速器交换机、路由器处理器内存a-e加速器处理器内存a-e加
4、速器处理器内存a-e加速器处理器内存a-e加速器总线总线总线总线总线互联Server1Server2Server3Server4Super Server(S)实现总线互联的数据中心“先进封装”PCIe连接CXL连接当前业界有多种通过总线技术实现拓展带宽的技术,并将CPU、GPU、存储介质等异构部件实现全连接,增加缓存一致性、纳秒级时延、百处理器级别的技术能力,力争通过总线技术将大规模的存、算融为一体;PCIe/CXL、Nvlink、CCIX、AMBA等技术正在加速演进;总线协议CXL/PCIe 5.0NVLINK 4.0速率PCIe 5.0 32GT;PCIe 6.0 64GT;100Gbps
5、;开放性开放封闭中国移动正在密切探索包括CXL在内的多种总线技术,目的统一异构部件的算力和存储资源,实现大带宽芯片连接;当总线可以实现多种应用场景,从现实需求的优先级来说,建议在构建统一内存池和GPU/AI芯片层级的总线互联进行同步推进;内存池可以实现处理器和内存设备之间的缓存一致性访问,扩大内存容量和带宽;0 01 12 23 34 45 5.N N一组有一组有N N张张GPUGPU/AI/AI卡卡0 01 12 23 34 45 5.N N一组有一组有N N张张GPUGPU/AI/AI卡卡计算总线总线总线 SwitchSwitch总线总线 SwitchSwitch总线总线SwitchSwi
6、tch总线总线 Switch Switch总线总线 Switch Switch总线总线 Switch Switch总线总线 Switch Switch更低延迟的内部通信更高效的数据读写更灵活的拓扑连接推进GPU/AI芯片层级的总线互联通过探索包括CXL在内的总线级内存池;新型总线的卡间互联模式,形成技术突破和应用推进总线互联的内存池0 01 12 23 34 45 5.N N多多ServerServer共享存储共享存储资源资源0 01 12 23 34 45 5.N N多多ServerServer共享存储资源共享存储资源总线总线 Switch Switch总线总线 Switch Switch总
7、线总线 Switch Switch总线总线 Switch Switch计算总线ServerServerServerServerServerServer更灵活的存储结构更高效应用开发更多样的存储介质本次项目关注点SSDSSDSSDSSDSSDSSDSSDSSDSSDSSDDDRDDRDDRDDRDDRDDRHBMHBMHBMHBMHBMHBMType 1:主要用于连接处理器和SmartNic等加速器,以提高处理器的转发效率性能;Type 2:主要用于连接处理器、GPU等加速器和内存,以提高多处理器对内存的使用,提升多处理器协同效率。Type 3:主要用于连接处理器和扩展内存,以满足内存带宽和容量
8、的拓展加速器加速器主机主机CXL.ioCXL.cacheDDRDDRDDRDDRDDRDDRCacheCache加速器加速器主机主机CXL.ioCacheCacheCXL.memCXL.cacheDDRDDRDDRDDRDDRDDR加速器加速器主机主机CXL.ioCacheCacheCXL.memType1Type2Type3允许加速器访问和缓存主机连接的DDR内存允许加速器访问和缓存主机连接的DDR内存允许主机访问加速器的易失性(RAM)和持久性非易失性(闪存)存储允许主机访问加速器的易失性(RAM)和持久性非易失性(闪存)存储SmartNICGPU/AIExpandor提供新型计算模型的解
9、决方案,为云计算和数据中心提供更高的数据速率、更高的带宽和容量适用于多种类型存储器的通用标准接口,可以为系统灵活的利用DRAM、LPDDR等不同内存介质性能增强容量增大寄存器CacheDDR通过总线技术实现拓展MemorySSDHDD可以灵活地添加各种内存,而不会影响本机连接的 DIMM内存可以针对系统成本、容量、功率、带宽进行独立优化NVMe1ns10ns100ns250ns400ns10-40us3-10ms附加到CPU独立于CPU磁盘CPUDRAMDRAMDRAMDRAMDRAMDRAMDRAMDRAM(a)非总线场景CPUDRAMDRAMDRAMLPDDRNVMe(b)总线场景内存技术
10、CXL等以CXL等总线级技术不仅提供了高速传输,还支持内存共享和虚拟化,使设备之间的协作更加紧密和高效。通过带宽提升、多样性存储介质有助于满足现代数据中心对大规模处理和分析的需求,同时也能够为 AI、机器学习等新兴应用提供更好的支持,从整体上降低TCO带宽带宽当前CXL 基于PCIe 5.0接口,支持32GB/s 的双向传输速率;通过利用主机处理器通过总线连接到各种内存接口来实现内存介质独立性;内存控制器可以设计为支持不同的内存类型,DDR4、DDR5 甚至持久内存或存储类内存;内存带宽提升内存带宽提升0101多样多样运行程序可在持久存储中,服务器断电内存数据不丢失;总线级互联可直接连接CPU
11、和设备,共享内存空间,避免了多个接口之间的通信开销;可实现内存扩展和内存共享,包括非易失性存储介质,使得业务可以快速恢复;多样性存储多样性存储介质介质0202成本成本通过内存扩展器(Memory Expander)来增加 DRAM 的容量,可以在不改变系统结构的情况下,提高内存的可用性和灵活性。内存控制器提供的灵活性为提供比传统 DIMM 更精细的容量粒度提供了选择,允许系统实施者调整内存容量以适应其应用并降低成本;内存成本降低内存成本降低0303主机主机CPUCPU总线内存总线内存扩展器扩展器内存控制器内存内存一、本地内存主机主机0 0Multi PortMulti Port内存扩展器内存扩
12、展器内存控制器1二、内存池化内存控制器2主机主机1 1主机主机2 2主机主机3 3总线Link总线Links三、Switch的全内存池化主机主机0 0总线总线SwitchSwitch主机主机1 1主机主机2 2主机主机3 3总线Links总线总线SwitchSwitch总线总线SwitchSwitch总线总线SwitchSwitch总线Links主机主机4 4主机主机5 5主机主机6 6主机主机7 7总线Links总线Links内存控制器内存控制器总线级互联可以在本地系统内实现内存扩展,实现允许跨多个主机池化/共享内存,增加Switch架构后可实现更多主机内存的池化;当前利用CXL是实现总线在
13、内存池化的有效方法之一;在用户空间,总线连接的优化包括利用用户级驱动程序,最大程度发挥总线的高带宽和低延迟特性;在内核空间,需实现高效的内核模块,以确保CXL设备的无缝集成和高性能操作;对于BMC,应加强安全机制,确保总线在数据传输的安全性,同时整合远程监控和故障诊断功能以提高管理效率。软件层硬件层BMC管理userspaceuserspacekernelkernelCXL应用层软件优化用户调用、调度cxl相关的lib库CXL内核空间cxl EventMgt是一种用于管理CXL事件的软件组件,EventMgt还提供了一种机制,用于将事件传递给其他CXL驱动程序或内核组件;cxl Primary
14、 mailbox软件接口;CCI接口,提供接收cxl命令PCIe物理层DriverPrimary/Secondary/OOBCXL Type3 CCII2C/PCIe/CXL DriverAPI配置管理;探测技术;Web UI配置、事件、日志;监控;CXL lib库CXL内核空间cxl EventMgtcxl Primary mailbox软件接口;CCI接口,提供接收cxl命令MCTP Driver、I2C Driver主机BMC CXL Type3CCIPCIeI2C利用CXL等总线级技术提供内存拓展、分层、池化等多种能力,推动形成内存架构优化机会,实现内存即服务的能力;在拓展、分层、池化
15、等多个层面进行优化,提供统一的MaaS服务能力;内存扩展提供了更高带宽和更大容量的内存解决方案,提供了存储资源扩展。内存扩展内存分层将cache、DRAM、NAND等多种存储和计算资源进行有效整合,提高数据处理效率。内存分层内存设备连接在一起,实现缓存一致性、低延迟和高带宽的数据传输。内存池化非易失持久内存利用持久内存介质来实现数据的持久性存储,同时通过CXL协议与处理器进行连接和访问。持久内存近存计算可通过CXL EP就近对CXL内存中的数据进行距离计算,把计算结果送到本地内存中,这样减少数据传送。近存计算在CXL技术中,Memory as a Service是一种内存服务模式,允许内存资源
16、在多个处理器之间动态分配和释放,提高内存的资源利用率,降低TCO,增加灵活性和可用性。Memory as a service新池化新池化总线总线总线总线层级内存池化架构设计原则层级内存池化架构设计原则 可扩展性原则可扩展性原则 性能优化原则性能优化原则 总线级内存池化服务器设计总线级内存池化服务器设计要求要求 服务器硬件架构要求服务器硬件架构要求 服务器拓展服务器拓展expanderexpander规格规格等要求等要求 制定制定总线级总线级内存池化服务器设计标准内存池化服务器设计标准总线级总线级内存池化架构设计内存池化架构设计 内存池化架构的组成和功能内存池化架构的组成和功能 内存池化架构的接
17、口和通信协议内存池化架构的接口和通信协议 内存池化架构的数据管理和调度策略内存池化架构的数据管理和调度策略总线级内存池化服务器总线级内存池化服务器实践实践 根据服务器拓展内存池系统根据服务器拓展内存池系统需求,细需求,细化内存池方案化内存池方案设计;设计;对内存池与整机进行适配对内存池与整机进行适配调优;调优;优先基于在CXL等总线协议分解内存需求,将内存资源从单个服务器中进行解耦,并在多服务器之间动态分配和共享。这种模式可以提高内存资源的使用效率,增加内存的利用率、灵活性和可用性;希望联合整机、部件、芯片、应用等相关单位,一同推动总线级内存池化架构设计规范,为计算产业转型升级助力;共内存共内存