《百易传媒:2023闪存技术应用全景白皮书(48页).pdf》由会员分享,可在线阅读,更多相关《百易传媒:2023闪存技术应用全景白皮书(48页).pdf(48页珍藏版)》请在三个皮匠报告上搜索。
1、目录CONTENTS闪存控制器闪存介质层闪存设备 SSD 盘闪存存储系统结束语01020304051.1 200+NAND 层数进化,奠定成本降低的基础.051.2 QLC 寿命进化到 3000-5000PE.071.3 3D堆叠必争制高点.091.4 GB/$的考验.101.5 中国元素.112.1 OpenChannel 的话题.152.2 高性能还是低功耗?.162.3 分区存储技术的最新发展.172.4 磁盘和 NVMe.203.1 企业级 SSD 与消费级 SSD 的区分 2.2 高性能还是低功耗?.233.2 拥抱PCIe 6.0.253.3 端到端 NVMe.283.4 Z-NA
2、ND 与 XL-Flash 没有更新的进展.293.5 计算型 SSD 和存算一体化.304.1 SCM:全闪存存储的重要组成部分.334.2 分布式全闪存阵列.334.3 NVMe-OF.354.4 40+w SSD 的新时代.364.5 数据存力和闪存.394.6 数据备份拥抱全闪存阵列.414.7 高性能计算和AI存储方案.434.8 即将掀起数据中心架构变革的 CXL.432023 闪存技术应用全景白皮书闪存介质层011.1 200+NAND 层数进化,奠定成本降低的基础1.2 QLC 寿命进化到 3000-5000PE1.3 3D 堆叠必争制高点1.4 GB/$的考验1.5 中国元素
3、52023 闪存技术应用全景白皮书1.1 200+NAND 层数进化,奠定成本降低的基础最早的 3D NAND 要追溯到 2007 年东芝的一次发布,而真正将 3D NAND 商业化应用的其实是三星在 2013 年的发布,从 2013 年起,3D NAND 作为最具突破性的技术开始推向市场,如今 200+已经成为了 3D NAND 层数堆叠的常态,没有 200+的水平,都不好意思说自己是 3D NAND,谈不上有什么竞争优势。从2D到3D的变化,为闪存容量提升带来新变数,从2D平房到3D楼房的演进下,层的概念成为介质进化的新标准。也是从 3D NAND 开始,制程工艺的演进显得并不那么重要了。
4、从最初的 32 层开始,到 64 层大约经过了三四年的时间,2019 年前后,96 层NAND 开始出现,2020 年进入 200+层时代,从 128 层开始,3D NAND 告别了 32整数倍的演进,开始出现 162、176 层的差别。高层堆叠的 NAND 技术推动了容量发展和闪存普及的步伐,让闪存在更多场景得到应用,在一定程度上,是 3D NAND 的出现拉开了闪存普及的大幕。3D NAND 颗粒层数不断推高,GB/$成本势必会不断降低,缩短闪存 SSD 和磁盘的差价,但从市场2023 闪存技术应用全景白皮书63D NAND 路线图(图源:Tech Insights)的演进看,闪存SSD成
5、本是在逐步降低,但是速度不如预期,究其原因,与三星、凯侠、美光等大厂对市场的把持有关,闪存颗粒并不是一个充分竞争的市场,受产能等很多因素的影响,大幅度降价未必符合厂商利益。从这个意义上,中国元素的崛起,有助于全球市场的发展。3D NAND 的堆叠技术方案有两大派系,一种是浮栅技术(Floating gate),另外一种是电荷撷取(Charge Trap)技术。如今Charge Trap技术已经成为市场的主流。浮栅技术的上下单元之间是分离的,而电荷撷取技术上下层之间是连通的,两者都是几十层水平时,差异不大,当变为几百层之后,采用电荷撷取技术的 NAND 上下电荷之间会发生串扰,造成数据不可靠。而
6、浮栅技术虽然工艺更复杂一些,但是在数据保留方面更可靠一些,浮栅技术在层数发展上更有前景。72023 闪存技术应用全景白皮书1.2 QLC 寿命进化到 3000-5000PE2014年开始,TLC NAND开始在市场上大范围出现,所谓TLC是指每个单元(Cell)中存储3个Bit,当时的主流还是MLC(每个单元中存储2个Bit),再往前看还有SLC(每个单元中存储 1 个 Bit),随着每个单元存储的数据增多,容量得到提升,作为代价的是,性能和耐久性都有所损失。从 MLC 到 TLC 转变过程中,人们最大的关注点还在于介质耐久性的降低,随着时间的推移,技术上的进步最终掩盖了介质上的差距,过去八年
7、以来,TLC逐渐成为主流,从 2018 年开始,QLC 开始出现,介质耐久性又一次降低。有 数 据 显 示:从 SLC-MLC-TLC-QLC,其 可 擦 写 寿 命 P/E(Program/Erase cycle,一 次 完 整 NAND 全 盘 写 入)从 10 万 次、30001 万 次、3001000 次、100150 次一路走低,编程复杂性的提升,读写速度,特别写速度不断降低。2023 闪存技术应用全景白皮书8特别是 QLC,耐久度已经降低到 100150 次,对于消费类用户来说,高清视频等存储的需求,主要集中在大容量、低成本,写满一次磁盘需要较长时间,频繁擦写的情况并不多见,因此
8、P/E 100 是可以满足需求的。对于 QLC 大容量 SSD 盘来说,应该没有足够的数据,将全盘写满 100 次,且写满 100 次也需要很长的时间。在消费级市场,很少听说 SSD 被写穿现象。但在企业级市场就不一样了,不仅数据频繁采写,企业级 SSD 对于数据的可靠性、安全性要求更高,不能够容忍任何的数据丢失。如今,企业级市场,出现了 SSD 被写穿的现象。这个现象背后,应该有类似 QLC 耐久度不高的问题,也有软件、调度、监管和控制的问题。针对 NAND 颗粒耐久度,在 SSD 盘固件设计上,就有磨损均衡设计,尽可能将数据均匀散步在各个颗粒,避免局部热点的出现。此外,外部存储系统在设计上
9、,会使用多个 SSD 盘,用户的数据也会被条带化,均匀分布到各个 SSD 盘,一来通过并行存取提高性能,二来提高可靠性,防止局部热点所导致的 SSD 被写穿。92023 闪存技术应用全景白皮书总而言之,无论 SSD 盘,还是存储系统,有很多的技术手段来预防局部热点,防止 SSD 被写穿。人尽其才,物尽其用。当企业级用户出现 SSD 被写穿的时,还是应该认真分析问题的缘由,是否为了追求价格忽略了应用场景和耐久度的问题。总的来看,QLC 适合一次写入、多次读取的应用场景,并不适合频繁的写入,这也是 QLC 没有成为主流存储的原因。另外需要引起关注的:最新技术表明,无论是 TLC 还是 QLC,在可
10、擦写寿命P/E 上都取得了明显的技术进步,分别从 3001000 次、100150 次,提高到了30007000 次、10003000 次,虽然不了解具体做了哪些技术改进,但是可以肯定的是,PE 的提升就为企业级应用提供了良好的保障,与此同时,提高 GB/$,降低闪存介质的使用门槛。如今,在很多的用户业务场景,如容灾备份等也开始接受全闪存配置,这应该是技术进步带来的成果。1.3 3D 堆叠必争制高点全球 3D NAND 市场竞争是一场技术赛跑,其中,堆叠层数被视为一个制高点。进入 2022 年,堆叠层数已经来到 200+的门槛,已经宣布的有 162、176 层产品量产,长江存储 128 层实现
11、量产,500+、1000+的方案也在规划中。目前市场上有两种堆叠方式:字符串堆叠(String stack)和 单一堆叠(Single stack),各有利弊。单一堆叠(Single stack)相当于原生垂直堆叠 1xx+,仅一道工序,有成本优势。但是制程复杂度随层数攀升不断加大,蚀刻和沉积最终可能导致裸片良品率下降,包括交叠层厚薄不均、蚀刻不彻底(打孔未到达底部)、弯曲、扭曲及线宽变化,其间电子垂直通过的迁移率也在随层数增加而更加不可控。而字符串堆叠(String stack,目前主要指双层堆叠),制程复杂度相对较低,只要拥有 48 层或者 64 层技术,那么实现 96(2*48)层、12
12、8(2*64)层不是梦,还降低了打孔的蚀刻深度,良品率不会受到影响,但需要两道工序,会增加 30+的成本。2023 闪存技术应用全景白皮书10值 得 一 提 的 是 长 江 存 储 的 Xtacking 技 术,这 是 一 种 晶 圆 键 合(Wafer bonding)而非堆栈方式。一片晶圆上加工负责数据 I/O 及记忆单元操作的外围电路,另一片晶圆上加工存储单元,最终通过数百万根金属 VIA(垂直互联通道)将二者键合接通电路。目前,字符串堆叠方式在市场上较为普遍。1.4 GB/$的考验GB/$将是 NAND 跨越磁盘成为主流存储介质最直接的考验,为此,技术上一是堆叠晶圆的层数;二是增加单位
13、单元存储比特位数量。层数增加,意味着制程复杂性和处理时间依次增加,裸片良率可能大大下降继而导致产量下降。国际分析机构富国银行的分析师 Joe Quatrochi 提到了晶圆上蚀刻通道的纵横比问题,预计 96 层设备的纵横比约为 70:1(对应 64 层是 60:1),纵横比会随着层数增加而提升。3D NAND的垂直堆叠属性逐渐依赖蚀刻工艺的精度平衡更高的纵横比,此外,通过沉积实现晶圆上薄膜的一致性也更加困难。128 层单层蚀刻时间约是 96 层蚀刻时间的 2 倍。想象一下自己的机器用之前两倍的时间制造晶圆,通过增加层数让每个裸片容量增加约 30,实际发售容量是否真的增加了?为了增加产能还要开设
14、或者更新更多的生产线乃至最后建立新的晶圆厂,这部分的投资数额通常要以百亿美元来计算。112023 闪存技术应用全景白皮书从SLC到MLC(每单元存储2个比特位),100容量增加,到TLC是50容量增加。但转向 QLC 就意味着 33的容量提高,到 PLC(每单元 5 个比特位)则是容量增加25,下次可能只是 20增长。此外,从 TLC 到 QLC 再到 PLC 耐久性越来越差,为此 SSD 要做超额配置(Over-provisioning),通过预留空间(extra cells)替换故障的单元,耐用性越低,超额配置就得更多。为了用上更高级的 NAND 技术,有许多介质以外的许多成本。比如,需要
15、通过重构标准 SSD 外形尺寸增加 NAND 裸片数来提升可用物理空间,需要通过控制器误差校验技术减少错误,减少随机写入并且做更多超额配置(OP)来延长正常使用寿命。考虑到以上各种NAND裸片问题,厂商为了产能与利润的平衡要做出自己的决策,于是,便导致 SSD 容量增速放缓,下图是富国银行通过层数呈现的市场发货量随时间发生的变化。与 64/72 层 NAND 相比,64 层 3D NAND 在发布 4 个季度后占当时闪存发货量的 67%,而 96 层 NAND 达到了这样的发货量需要更长的时间。100 层以上 NAND第一次迭代同样需要更长的时间。所以说,SSD 容量增速放缓。1.5:中国元素
16、截止 2021 年,中国大陆在全球晶圆产能中的份额达到 16%,仅次于韩国和台湾地区。这个数字在 2011 年仅为 9%。较低的建设和运营成本是中国近期晶圆产量增长的主要原因。SIA 和波士顿咨询集团于 2021 年发布的一份报告显示,在中国建造和运营晶圆厂的成本低于任何其他国家。在过去两年里,中国大陆的晶圆产能几乎每年要增长 1 个百分点,产能扩张速度比其他任何地方都快。截至 2021 年底,全球 IC 晶圆产能达到每月 2160 万片 200 毫米当量晶圆。中国大陆的晶圆厂在其中拥有处理约 350 万片晶圆的产能。但根据 Knometa Research 的报告,中国大陆约有一半的晶圆产能
17、,都归属其在大陆以外地区的母公司,包括台积电、联电、三星和 SK 海力士等。2023 闪存技术应用全景白皮书12中国作为全球第二大经济体国家,所取得的进步和成就世所瞩目;经济实力的增长,需要中国对于全球经济发展和科技进步有所贡献。从技术发展看,全球 NAND 制造正在从 2D 走向 3D,对于半导体制程工艺技术的要求有所降低,所使用的是落后一代半左右的技术,这也是目前中国所掌握的技术。因此无论是自身的实力,还是人类社会发展前所未有的需求,中国都有能力也有义务作出自己的贡献。长江存储早在 2020 年中就已筹建存储基地项目二期,目前正在加速推进,预计未来两年就能投产,其二期项目的月产能为 20
18、万片,一期项目为 10 万片,如此两年多之后 NAND flash 芯片产能将增加两倍。产能方面,长鑫也不甘落后。公开资料显示,长鑫在 2020 年、2021 年分别实现了 4.5 万片晶圆/月、6 万片晶圆/月的目标,2022 年的产能目标是 12 万片晶圆/月,未来的产能目标是 30 万片晶圆/月。截止 2021 年,全球 DRAM 总产能大约是 150 万片月,预测到 2022 年底,会提升至 160 万片月左右,届时长鑫存储的 12 万片产能将获得全球市场份额的 8%132023 闪存技术应用全景白皮书左右。中国存储力量的快速崛起,对于全球市场而言,将是一幅美好的画卷。全球闪存市场会因
19、为中国变得更加美丽。2023 闪存技术应用全景白皮书闪存控制器022.1 OpenChannel 的话题2.2 高性能还是低功耗?2.3 分区存储技术的最新发展2.4 磁盘和 NVMe152023 闪存技术应用全景白皮书2.1 OpenChannel 的话题所谓Open-Channel SSD 指的是FTL(Flash translationlayer)不在device 端,而是由 Host 的操作系统维护的 SSD。Linux 内核从 4.4 开始已经支持 Open-Channel SSD 了,并提供了符合 NVMe协议的抽象层lightNVM。Host-Base 还是 Device-Bas
20、e 之争,一度是控制器领域的焦点话题,技术核心在于是否需要本地处理器的问题,Host-Base 不需要本地处理器,主要借助主机 CPU的资源。Host-Base 还是 Device-Base 两条技术路线看上去针锋相对,没有妥协的余地。但是从发展的历程来看也并非如此。以互联网企业为代表,应用层希望更多了解底层资源的管理和调度。以预留空间(OP)为例,原本是预留资源,用于提升 SSD 可靠性和稳定性。NAND 闪存颗粒故障率呈现一种双曲线的模型,刚开始使用的故障率高,而后会进入稳定器,然而,随着大规模使用,质量不好颗粒会出现损坏,导致故障率上升。借助 OP 设计,可以将质量不高的 NAND 颗粒
21、进行替换,故障率降低,SSD 进入稳定工作状态。OP 预留容量过大造成浪费,过小又无法满足可靠性的需求。针对 SSD 盘的这些特性,互联网厂商希望能够从应用的整体系统性的考虑可靠性的问题,扬长避短,用于追求系统资源的最大化。由于没有本地处理器设计,Host-Base 的 SSD 成本更低,也更加节能。但是并非所有用户都具备互联网厂商的技术能力,很多成熟的应用解决方案也未必考虑到了底层设备的特点,它们更需要一种通用的产品设计,在兼容性、继承性上,Device-Base SSD 也更加符合这种特点。从历史的发展进程看,Host-Base还是Device-Base彼此竞争,但是也彼此借鉴,2023
22、闪存技术应用全景白皮书16取长补短,又呈现出一种融合发展的趋势,也渐渐为二者之争画上了休止符。如今,Host-Base 还是 Device-Base 已经成为历史,很少有人提及,成为一段尘封往事。如今,OpenChannel PCIe 4.0 产品已大规模商用;PCIe 5.0、NVMe、ZNS 的Open Channel SSD 已有陆续推出,如今,OpenChannel SSD 超过 80服务于国内互联网企业,涵盖互联网、服务器、政企、运营商等领域。对于 OpenChannel SSD 的未来发展,需要引起关注的是 ZNS(ZonedStorage,分区存储技术),从一定程度上来说,二者殊
23、途同归。通过对数据存储、管理方式的重新组织,最大发挥底层存储介质的特性,给数据存储带来效率。二者的结合,需要引起高度的重视。2.2 高性能还是低功耗?对于 SSD 而言,由于 25w 功耗上限的制约,处理器选择将决定 SSD 盘的性能以及功耗,目前 SSD 盘有不同功耗模式,存储系统可以选择,可以自动调节性能区间,但是 25w 功耗上限总会是一个紧箍咒。在新的 EDSFF 规范中,这个上限将被打破。SSD 控制器多采用 ASIC 设计,选择的重点是性能和功耗的平衡。但处理器的功耗确定下来之后,SSD 盘的性能也就大体确定了。SSD 盘的功能特性,如磨损均和策略、加密/解密算法、ECC 校验等是
24、由固件来决定的,每个系统盘设计,所采用的策略不同,SSD盘所表现出来的功能和特性也不同。这些不同的功能特性在 SSD 盘使用初期并不易察觉。以磨损均衡和垃圾回收策略为例,只有在使用一段时间之后,数据量达到一定程度之后,它们对 SSD 盘的影响才能够看出来,例如应用系统性能出现抖动,可靠性下降等。这些都需要通过测试,认真细致加以观察和了解才能发现。不同品牌的 NAND 颗粒差别非常大,好的控制器应该懂得扬长避短,各取所长。172023 闪存技术应用全景白皮书也因为这些差异性的存在,SSD 盘,特别是企业级 SSD 盘并不能够简单等同于“标准工业化”产品,这是需要存储阵列厂商和服务器存储厂商需要重
25、视的。2.3、分区存储技术的最新发展有数据表明,2018 年全球产生的数据量是 32ZB,预计 2023 年会达到 103ZB。但是其中,2018 年被保存下来数据只有 5ZB,占比不足 16%;预计 2023 年 12ZB,占比 12%,这意味着会有越来越多的数据没有办法保留下来,很重要的一个原因就是存储能力增长没有办法追赶上数据的增长。为了追逐更大容量的存储,以及 GB/$成本,无论是 SSD 盘,还是传统 HDD 磁盘都在努力,其中 SMR HDD 磁盘、QLC 颗粒 SSD 盘是成本最低的产品,是最新科技的体现。但是 SMR、QLC 也都面临写入限制的问题,从而制约了产品技术的普及。分
26、区存储技术(ZonedStorage)就是在这样的背景下应运而生的,简单说,这是一套存储资源命名空间分区的技术。由西部数据提出并开源,得到了 SUSE、ATTO、Microchip、Broadcom 等伙伴的支持。最了解 SMR、QLC 的莫过于西部数据这样的厂商,分区存储技术就是基于对底层2023 闪存技术应用全景白皮书18192023 闪存技术应用全景白皮书技术的深刻理解,试图从系统层面,改变数据的读写的顺序和规则,从这个角度来说,分区存储技术是一种突破和前瞻。但是分区存储技术是否能够如愿却并不取决于技术,而是取决于生态和商务环境,取决于分区存储技术是否能够得到系统厂商、平台和应用软件的厂
27、商的支持,这是一场深刻而重大的改变,也因为改变之重大和影响,产业生态要取得共识并不容易。分区存储技术发布于2019年,如今2年多时间过去了,分区存储技术的应用如何?我们在前面提到 SSD 被写穿的问题,也说到了 QLC 耐久度只有 100150 次,说到了 SMR 磁盘驱动器在数据临时存储缓存区域写满时引发的性能缓慢问题,这就需要分区存储扬长避短。2022 年 3 月,三星和西部数据签署一份谅解备忘录(MOU),携手开发下一代数据放置、处理和结构(D2PF)存储技术标准,三星和西部数据启动了一项围绕分区存储设备的计划,其中包括了分区命名空间(ZNS)、SSD 和 SMR(叠瓦式磁记录)HDD。
28、通过 SNIA(存储网络行业协会)和 Linux 基金会等组织,三星和西部数据将为下一代分区存储技术定义高级模型和框架。为了实现开放和可扩展的数据中心架构,双方还成立了 Zoned Storage TWG(技术工作组),目前已经在定义和指定分区存储设备的通用用例,以及主机/设备架构和编程模型。ZNS 技术允许根据使用和访问频率对数据进行分组,并按顺序存储在固态硬盘内的独立区域中,从而避免了移动和重新排列数据,能显著减少写入操作的数量,降低写入放大系数(WAF)。SSD 需要分配一定的空间作为预留空间(OP),以有效管理、改善闪存芯片的性能,而采用 ZNS 技术的固态硬盘则不需要这么做,可以让其
29、可用容量更大。ZNS SSD 可以降低成本和功耗,并简化使用新的 NAND 架构,比如QLC 3D NAND。如今,三星和西部数据都发布了 ZNS SSD,但使用还不普遍,可能的原因是 ZNS2023 闪存技术应用全景白皮书20存储技术平稳互操作生态系统仍未形成,也没有得到存储系统厂商的响应。但是无论如何,作为一种具有战略性全局观念的技术,分区存储技术应该得到重视和关注。2.4 磁盘和 NVMe在我们的认知中,NVMe 是专门针对闪存 SSD 而设计,目的是为减少存储协议自身带来的的开销,是对原有 AHCI 存储协议的优化,去掉了原有协议中有关磁盘部分的有关内容。但是令人意外的是 NVMe 2
30、.0 引入了对旋转存储介质的支持,也就是 HDD 机械硬盘(磁盘)。如今 7200 转/秒的磁盘并不能跑满 SATA 3.0 的 6Gb/S 的带宽性能,但磁盘技术也在不断发展之中,希捷、西部数据都推出了多磁臂的技术,以希捷 Exos 2X14 企业级 Mach.2 磁盘为例,其 IO 性能可以达到 524MB/s 的速度,性能接近低端 SATA SSD。212023 闪存技术应用全景白皮书为了发挥多磁臂磁盘的性能,业内早就在推进磁盘支持 NVMe 的进程,统一数据存储通信协议。在去年的 OCP 虚拟峰会上,希捷就对当前磁盘现状和支持 NVMe 的好处进行了介绍,也向 NVMe 委员会提出了相
31、关的技术建议。希捷认为,NVMe 的HDD 很可能会在两年之内实现。NVMe 2.0 将这一愿景再度拉近了一些,要知道 SATA 3.0 这一接口已经十数年没有更新了。彻底抛弃这一接口将为诸多应用提供更多空间,留给那些更加高效的接口。存储系统厂商 Infinidat 也支持 NVMe 用于磁盘。Infinidat 的技术策略是用磁盘加上 DRAM 的组合方式,然后在中间放置一层薄薄的闪存层,据说性能表现不逊于全闪存存储,Infinidat 宣布存储阵列 InfiniBox 支持 NVMe/TCP 协议。从根本上来讲,当 NVMe 把磁盘直接连到 PCIe 总线之后,磁盘能拉近与 CPU、GPU
32、、内存、SSD、网络交换机等这些部件的距离,数据流动会更顺畅。2023 闪存技术应用全景白皮书闪存设备 SSD 盘033.1 企业级 SSD 与消费级 SSD 的区分 2.2 高性能还是低功耗?3.2 拥抱 PCIe 6.03.3 端到端 NVMe 3.4 Z-NAND 与 XL-Flash 没有更新的进展3.5 计算型 SSD 和存算一体化 232023 闪存技术应用全景白皮书3.1 企业级 SSD 与消费级 SSD 的区分固态硬盘普通的分级方式可分为企业级和消费级。消费级 SSD,目前已经成为品牌电脑的标准配置,也可以通过单独购买添加,消费级 SSD 和磁盘并存,能满足大部分用户的普遍需求
33、,无需过度配置。与消费级 SSD 相比,企业级 SSD 对稳定性、可靠性要求更高,数据作为企业用户的核心资产,不容有任何的闪失,此外,涉及 7 24 小时的频繁读写操作,其面临环境更加严苛,可以说,企业级 SSD 和消费级 SSD 完全不是同一级别的产品。企业级 SSD 可以按照高性能、高容量、读取敏感、写入敏感等多种场景细分,稳定性不仅单指盘的可靠性,也包括性能一致性表现。除此之外还会有一些特定行业专用产品,如工业用小容量 SLC 固态硬盘(通常是以存储芯片形式出现)、车载硬盘。他们的特征大多是要求宽温适应(-4085)、抗震动和高耐久度长期应用。相比家用固态硬盘(工作温度 070)来说,它
34、们才是真正的耐用品。事实上,针对各种固态硬盘的分级方法都有一定的局限性,某些名义上是消费级产品,但由于固件强壮性高同时也可被用于部分业级应用当中,某些名义上是零售消2023 闪存技术应用全景白皮书24费级产品,但其实它是客户级系列变换而来,继承了高稳定性的血统。这里从性能、可靠性、耐久性三个方面分析企业级 SSD 和消费级 SSD 的不同。性能方面:在许多场景下,系统要求必须以最少的延迟量访问储存设备,即使有大规模并发访问也有稳定延迟表现,不能对响应时间造成影响。这意味着企业级 SSD不仅要持续地提供服务,针对访问前数秒中的最高性能而且还针对运用更大的预留空间(OP)加以优化,在较长时段内连续
35、提供保持稳定状态的性能;写入过程中产生累计功能性错误的统计值要求不大于 3%。而消费级只需要响应客户端使用程序仅涉及单个用户或使用程序访问,在任何用户或系统操作的最短和最长响应时间之间具有更高的容许值。252023 闪存技术应用全景白皮书可靠性方面:企业级 SSD 的要求是 7*24 小时工作,环境温度不高于 55 摄氏度。一般来说,主控芯片结温过高会影响其寿命,而颗粒温度会影响其断电保持数据的时间。通常,消费级 SSD 每天最多 8 小时,环境温度不高于 40 度。在断电数据保持时间方面,企业级 SSD 的要求 40 度的条件下不少于 3 个月,而消费级 SSD 的要求是不高于 30 度时不
36、少于 1 年。耐久性方面:由于 NAND 闪存颗粒的寿命问题,SSD 设备中的存储能力在不断下降,直至 NAND 闪存不再能够可靠地储存数据,此时,这类闪存应当从用户可寻址的储存池中除去,该逻辑地址移至闪存阵列上的新物理地址。3.2 拥抱 PCIe 6.0 PCI-Express(peripheral component interconnect express,快捷外设互联标准),是一种高速串行计算机扩展总线标准,它原来的名称为“3GIO”,是由英特尔在 2004 年提出的,旨在替代旧的 PCI、PCI-X 和 AGP 总线标准。如果将一台完整的PC 比作一个人的话,CPU 是人的大脑,而
37、PCIe 就是人的神经中枢,它负责内部数据信息的交换。PCIe 和 PCI(peripheral component interconnect,外设组件互连标准)都是计算机总线的一种。总线(Bus)是计算机各种功能部件之间传送信息的公共通信干线。总线分为并行总线和串行总线,PCI 和 PCIe 都是总线的一种标准。PCI 总线是并行总线,PCIe 是比 PCI 总线更快的一种串行总线;PCIe 通道包括两条差分信号,一条用来接收数据,另一条用来传输数据,其接口根据总线位宽不同而有所差异,一个 PCIe 连接可以被配置成 x1、x2、x4、x8、x12、x16 和 x32 的数据带宽。其中 x2
38、 速度是 x1 两倍,x4 是 x2 两倍,以此类推。PCIe 属于高速串行点对点双通道高带宽传输,所连接的设备分配独享通道带宽,不共享总线带宽,支持主动电源管理、错误报告、端对端的可靠性传输、热插拔以及服务质量(QOS)等功能,数据传输速率高,发展潜力巨大。2023 闪存技术应用全景白皮书26PCIe 1.0 标准于 2003 年问世,在三年之后推出了 PCIe 2.0,在 4 年后的 2010年 PCIe 3.0 问世。2017 年 10 月,姗姗来迟的 PCIe 4.0 仍然采用前代的 128b/130b标准编码,但频率和带宽都直接翻番,分别达到了 16.0GHz 和 64GB/s。PC
39、Ie 5.0 带宽和速度继续翻倍。从 PCIe1.0 到 PCIe 6.0 带来的最大变化带宽,每一次技术升级都带来带宽的成倍提升,到了 PCIe 6.0 带宽已达到 64GT/S(PCIe x8 对应带宽为 63.02GB/S)。当CPU 与内存、CPU 与 SSD 采用 PCIe 6.0 进行互联的时候,高带宽的带来的价值将是显而易见的。PCIe 6.0 所以能够实现 64GT/S 带宽,性能翻倍(较之 PCIe 5.0),很重要的是信号调制技术的突破,由 NRZ(PAM2)升级为 PAM4,由原来的 2 个电压等级提升到 4 个,其传输的数位也由 1 提升到了 2,从而实现了性能的翻番。
40、但PAM4的使用,需要更强的纠错能力,例如前向纠错(FEC)算法等。此外,PCIe 6.0要求配套固定大小数据包(FLIT)以及动态信道分配,以减少功耗,满足节能的需求。272023 闪存技术应用全景白皮书2023 闪存技术应用全景白皮书28作为 CXL 3.0 软件栈协议规范的物理连接承载平台,CPIe 6.0 主要用于 CPU 与GPU(AI 加速器)、CPU 与 DPU(智能万卡 NIC)、以及 CXL 内存模块(可以理解为其他 CPU DDR 内存)的连接,对应的应用场景,如大内存、以及不同外设缓存之间的直接数据交换。对于这些场景而言,PCIe 6.0 接口子系统高达 64GT/s 的
41、数据传输速率,对于异构计算架构的影响意义重大。3.3 端到端 NVMe 对于需要极高性能和非常低延迟的工作负载,端到端 NVMe 是目前极致的选择。为了实现端到端 NVMe 的需求,不仅需要内部 NVMe 连接的存储系统(这也是为什么高端存储开始选用NVMe SSD配置的原因),而且还需要对外支持NVMe 连接,如网络交换机,无论是基于光纤通道还是基于 IP,都将需要支持 NVMe,而两家主要的 FC 存储基础设施提供商现在正在提供这种支持,任何支持 RDMA 的以太网交换机都将支持 NVMe。从 IT 角度来看,确保交换机基础设施同时支持 NVMe 和传统 AHCI(SCSI 或 iSCSI
42、)协议非常重要,因为大多数环境不会一次切换到 NVMe-oF。要通过 NVMe 连接到存储系统的服务器需要具有支持 NVMe 的网卡,如今大多数网卡都具备这种能力。一旦所有这些要求都得到满足,IT 规划人员就需要创建一条 NVMe-oF 唯一路径,从 NVMe 服务器通过交换机到存储,在相同的逻辑网络路径上混用 AHCI 和 NVMe-F,可能会强制网络处理所有 SCSI 流量,这会影响性能。实际上,网络可能要求 NVMe 流量位于其自己的逻辑路径上。结合端到端 NVMe 的趋势,市场上有闪存存储发展三部曲的说法。第一部曲是集中式全闪存阵列,它还是一个集中式全闪阵列,有控制器,有全闪存盘,基于
43、专有的算法,类似分区存储技术的采用,发挥闪存颗粒性能的同时,保护其寿命。292023 闪存技术应用全景白皮书第二部曲是扩展式、低时延的架构,基于 NVMe-oF 的存储网关,把存储性能和存储容量的扩展做解耦,通过 RDMA 网络实现极致性能和性价比。由于 RDMA 的出现,存储访问远端磁盘和本地盘已无区别,在这种情况下,集中式存储的控制器逐步退化成网关(算力与存力的解耦),慢慢的,甚至演变成板卡上的智能 SPU。可以预计,一旦闪存二部曲实现,市场上现有的软件定义存储和机械硬盘就完美谢幕了。第三部曲是一个更远大的目标,如今分布式存储非常热,但没有解决好的一个问题是容量扩展后的性能问题,其性能较之
44、集中式全闪存是有差距的。第三部曲是一个高性能分布式存储解决方案,提供一个极致的性能和性价比。3.4 Z-NAND 与 XL-Flash 没有更新的进展三星 Z-NAND 又称 Low Latency V-NAND,与铠侠(原东芝)XL-Flash 和 3D Xpoint 一样,也都旨在填补(访问速度和延迟在)DRAM 和 NAND 之间的空白区域。三星 Z-NAND。2016 年,三星发布第一代 Z-NAND SSD 产品,基于自身改良的V-NAND 设计和 SLC 芯片,具有独特的电路设计和控制器以加速性能,其页面大小为2-4 KB,传统 NAND 页面大小为 8-16 KB 有可以快速读写
45、更小的数据块,降低延迟。第二代 Z-NAND SSD 有 SLC 和 MLC 两种模式,容量从 800GB 到 4TB 不等。铠侠 XL-Flash。基于 BiCS 架构打造的 SLC NAND 闪存,通过立体堆叠提升存储密度。但与传统 3D 闪存不同,它面向高性能应用,具体体现是高带宽和低延迟。高带宽指更接近 DRAM 内存的读写速度。低延迟则是提升自身 4K 随机读写能力,提高响应速度。XL-Flash 最初以 SSD 形式发售,但铠侠希望其最终可扩展为 DRAM 总线上的存储设备。铠侠的 XL-Flash 和三星 Z-NAND 将存储分成更小的阵列块,配置更多的感应放2023 闪存技术应
46、用全景白皮书30大器(sense amps)支持数据的并行访问,加快响应速度。但 XL-Flash 有比 NAND更大的裸片,因此价格更昂贵。3.5 计算型 SSD 和存算一体化在 AI、大数据、内容分发、数据库、机器学习等新兴应用的推动下,人们开始希望计算能更靠近传统存储设备和系统,于是就有了 Computional SSD(计算型 SSD)与 Processing In Memory(存算一体化),其中,Processing In Memory(存算一体化)受限于内存的限制,两者都是拉近了计算和存储的距离。Processing In Memory(存算一体化)无法对大量数据进行处理,相对而
47、言,关注度更高的是计算型存储,计算型存储指的是一些数据处理的任务交给存储层来做,而不是把数据挪到主内存里用 host 的 CPU 来处理。计算型存储背后反映出,人们对于将数据从存储的地方迁移到计算的地方时的考虑,这一过程耗费时间,效率比较低。在 AI 和数据分析领域,数据量都非常大,这时,将数据从产生的地方迁移的话,产生的延迟对于延迟敏感型应用来说是不可接受的。312023 闪存技术应用全景白皮书计算型存储在 SSD 里加入用于处理数据的 ARM、FPGA 或者 ASIC 芯片,可以实现现场数据处理,处理的时效性大为提升。计算型 SSD 也好,存算一体化也好,要解决的还是数据处理性能的问题,要
48、么解决数据传输的问题,要么就地处理数据,就地处理数据,要么依靠本地计算,要么依靠存算一体的芯片,这也是为什么存算一体芯片也被称为 AI 芯片的原因,在 AI 应用的场景被广泛讨论,可以说,这里要解决的是计算性能的问题,并不是传统意义上的存储。如果以 SCM 为例,它可以被视为高端存储的有机组成部分,被划入存储的范畴。但是与此同时,SCM 并不承担主存储的任务,海量数据仍然要依靠 SSD、HDD。2023 闪存技术应用全景白皮书32闪存存储系统044.1 SCM:全闪存存储的重要组成部分4.2 分布式全闪存阵列4.3 NVMe-OF 4.4 40+w SSD 的新时代4.5 数据存力和闪存 4.
49、6 数据备份拥抱全闪存阵列 4.7 高性能计算和 AI 存储方案4.8 即将掀起数据中心架构变革的 CXL332023 闪存技术应用全景白皮书4.1 SCM:全闪存存储的重要组成部分数据的飞速增长以及包括大数据、AI 在内的数据分析应用的发展,极大地消耗着硬件性能,更快速处理器和网络传统对于存储 I/O 已经远远不够,如果为了提升性能而大量采用 DRAM 时,系统成本会非常高。基于 NAND 的全闪存存储主要提供了高性能、高可靠、高效率存储的问题,适用于数据分析、数字成像、VDI、数据库应用、金融交易系统等应用场景,而在需要大量存储容量的场景中,考虑到成本,磁盘仍是主流的选择。对于全闪存阵列性
50、能的追求永不止步,百尺竿头更进一步,SCM(Storage Class Memory,存储级内存),也称为持久型存储器(Persistent Memory),其核心作用是解决处理器到存储过程中的性能瓶颈。SCM 在服务器和存储两方面都有应用,在服务器应用中,SCM 是作为较低成本的内存来使用,在许多内存密集型应用中,如内存数据库,SCM可以提供更低些的成本。在存储应用中,SCM 用于加快控制器(机头)和后端盘阵之间的性能,SCM 也是作为缓存(Cache)来使用,作为元数据等极热数据的存储层,在性能上会有更高表现。SCM 的读写速度介于 NAND 闪存和 DRAM 内存之间,成本也是介于 DR
51、AM 和NAND 闪存之间,时至今日,它最大的价值在于低延迟表现上,而且是在非常高的写入负载压力下,也有非常低的延迟表现,这是 NAND 介质本身完全达不到的。SCM 是分层存储技术思想的延伸。在存储产品的演进中,也是因为 SSD 产品出现,催生了分布式存储技术的诞生,其中,SSD 担负的作用就是热数据存储。随着 SSD 技术的普遍,以及极致存储性能的追求,SCM 很好弥补了 SSD 和内存之间所存在性能差距。4.2 分布式全闪存阵列分布式全闪存从概念上很容易理解,分布式存储架构,满配 SSD 的全闪存配置,2023 闪存技术应用全景白皮书34命名分布式全闪存是为了与全闪存阵列进行区分。分布式
52、存储也被解读为软件定义存储,但是没有严格定义,没有达成普遍共识。普通的理解是:以x86服务器为硬件,借助软件定义的存储资源池,对外提供存储服务,可以是块存储、文件存储,也可以是 NFS 和对象,总之对外提供多协议共享存储服务。但基于 x86 服务器硬件的设定也在被打破,专用定制的硬件设备也已经进入市场,也可以设计为全闪存硬件的配置。(参见:2022 分布式存储市场调研报告)不仅考虑到硬件,控制管理软件也有很多优化的空间。以 Linux 为代表,操作系统主要用于协调硬件和应用软件的资源,也并非针对存储而设计,更没有充分考虑SSD 的特点,也会带来不必要的损耗。有鉴于此,一种以裸金属+软件的存储系
53、统设计应运而生,也可以采用全闪存的配置。分布式全闪存与分布式存储相伴相生,是分布式存储的一个配置分支。按照 IDC给出的统计数据表明,2021 年中国存储市场规模为 42.9 亿美元,其中,软件定义存储 14 亿美元,占比 26.1%;超融合为 12 亿美元,占比 20.3%。水涨船高,随着分布式存储在行业用户业务中扮演更加重要的角色,性能瓶颈的352023 闪存技术应用全景白皮书问题日益凸显,这必将为分布式全闪存营造良好外部市场环境和氛围,前景谨慎乐观、值得预期。4.3 NVMe-OF对于 NVMe over Fabrics(NVMe-oF)的讨论由来已久,NVMe-oF 让系统对于NVM
54、介质的访问不再局限于使用 PCIe,而是可以在包括 TCP 以太网、FC 网络上以及RDMA 上实现对于 NVM 的访问,可以在存储与存储之间,存储和服务器间建立更快和更高效的连接,取代原来存储系统当中 iSCSI 的地位。最重要的是,NVMe-oF 提供了额外的数据中心和网络整合。NVMe-oF 能让外部存储的延迟直逼直连存储的延迟,使整个体系的并行性能大为提高,避免了系统 IO 瓶颈。NVMe-oF 对于新一代闪存存储系统的设计至也关重要,现有的大多数全闪存阵列架构本质上还是基于磁盘系统来设计的,它并不能发挥 NVMe SSD 的全部性能,随着全闪存对 NVMe 的持续挖掘,NVMe 的全
55、闪存存储系统将带来极高的性能提升,NVMe 是存储系统厂商竞争的一大要点。目前而言,NVMe-oF无论是标准还是存储厂商的应用实现都处于发展的早期阶段,只有少部分厂商有在 NVMe-oF 方面进行探索,市场上对于 NVMe-oF 的期待很高,但对于 NVMe-oF 这种攻坚可能求取极致性能的做法业内其实也有争议。Infinidat、StorONE 和 VAST Data 纷纷指出即使用上了 NVMe-oF,对于全闪阵列发展的帮助也会非常有限,不看好NVMe-oF全闪。这三家公司的技术理念各有不同,对如何经济高效地满足存储容量和性能的需求,各家反应也不尽相同。Infinidat 认为 PB 级容
56、量全闪存阵列造价过高,于是,主张用近线硬盘做容量层存储,用缓存引擎将数据预取到内存里,在两者间加入 SSD 作为中间层,在大量数据存储场景下,也能保持不亚于全闪存的性能表现。2023 闪存技术应用全景白皮书36StorONE 的创新主要集中在软件架构上,能利用包括磁盘,SSD 以及 3D Xpoint在内的各种存储介质,最终将大容量与高性能两个特性进行结合。VAST Data 的产品以高效地数据压缩和纠删码技术见长。这种能够降低数据写入到 SSD 次数的方式意味着其阵列成本和耐用性比传统全闪存阵列要高。这样用户就能把大量的数据存储在闪存上,以磁盘的价格享受闪存的性能。截止目前为止,这三家的发展
57、思路还没有对主流的存储厂商带来什么影响,主流的存储厂商没有做出相应的反应。这也反映出闪存市场的多元化。4.4 40+w SSD 的新时代“不在沉默中爆发,就在沉默中灭亡”,这句话出自记念刘和珍君一文,鲁迅先生要表达的是对社会现状的选择。我们引用这句话,是想提醒大家:闪存市场看上去波澜不惊,实际上已是暗流涌动。对此,要么视而不见,沉默中被动;要么未雨绸缪,运筹帷幄,积极应对,等待新一轮爆发时变革的到来。先生说的是人,我们说的是闪存技术变化。最大的变化来自 SSD 外形规格的变化。EDSFF 提供了一系列新的外形尺寸动态,另起炉灶,将在容量、可扩展性、性能、可维护性、可管理性、散热和电源管理方面带
58、来一系列变化。简单说,SSD 将突破现有 2.5 英寸、3.5 英寸的变化,另起炉灶。实际上,从磁盘到闪存、从 AHCI 到 NVMe、从 SAS/SATA 到 U.2,从介质、协议、接口,盘的变化一直在持续演进中,如今轮到了外观规格尺寸。规格尺寸变了意味着什么?所谓量身定制,相比 2.5 英寸、3.5 英寸,新的 EDSFF 规格,更能够发挥 NAND闪存介质的能力。372023 闪存技术应用全景白皮书以功耗限制为例,原有极限功耗是 25w,这个天花板的存在,就决定了 SSD 的性能和容量。如今,EDSFF 将功耗提高到 40w、70w,如虎添翼。就如同装修,EDSFF 规格如同“全屋定制“
59、,必然会更贴心,更温暖。但是就像亚马逊森林蝴蝶的翅膀,小小的 EDSFF 规格定制,必然会掀起存储的滔天巨浪。从供电到散热,服务器需要全新的设计,期待着新一代服务器的全新亮相。EDSFF 概念:EDSFF(Enterprise&Data Center SSD Form Factor,企业和数据中心固态硬盘规格),基于英特尔 Ruler SSD 标准,由 15 家公司共同制定,旨在解决数据中心存储问题。现在由 SNIA 作为 SFF 技术附属技术工作组(SFF TA TWG)的一部分进行维护。如今,EDSFF分为适配U1服务器的E1和适配U2服务器的E3两种外形尺寸。其中,E1 又分为 E1.L
60、 和 E1.S,其 L 代表“long,长“;S 代表“short,短”。E1.L 有 9.5mm 或 18mm 两种宽度,分别支持高达 25W 或 40W 的功率。2023 闪存技术应用全景白皮书38392023 闪存技术应用全景白皮书E1.S 有 5.9mm、8.01mm、9.5mm、15mm 和 25mm等 5 种规格设计。相比E1.L,E1.S 是用宽度、厚度来取代长度。后三种规格可以满足 PCIe 5 SSD 散热的需求。EDSFF E3:和 EDSFF E1 一样,E3 也有 E3.L 和 E3.S 两种规格,因为厚度不同,有分为 1T 单宽、2T 双宽 2 种规格。现有的实践案例
61、中,Microsoft Azure 在其 Olympus FX-16 1U JBOF 中,使用了16 个 18mm E1.L SSD,每个 SSD 16TB(总共 256TB),前面板上也有配有 PCIe 接口,对外连接 9.5mm E1.L SSD,其存储密度提升了 2 倍,但前提是解决好有关功耗和散热等问题。有预测显示:2025 年 EDSFF 将占总服务器容量的一半左右。山雨欲来风满楼,一个崭新的新时代即将到来!4.5 数据存力和闪存数据存力是华为、罗兰贝格联合撰写的数据存力,高质量发展的数字基石白皮书所提出的核心概念。作为一个重要的衡量指标,数据存力揭示了数据存储和国民经济发展之间的关
62、系,2023 闪存技术应用全景白皮书40通过数据存力的研究,揭示了未来促进中国经济持续发展的办法,其作用和重要性不言而喻。这张图揭示了中国经济和数据增长的正比关系,中国数据增长领先北美和全球。412023 闪存技术应用全景白皮书但在数据存力的指标方面,中国与美国相比差距明显。简单说,我们有全球第一数据,但是缺乏数据存储和处理的能力。数据存力的差距会成为制约中国经济发展的首要因素,这个结论应该不存在争议,因为这是由数据经济的本质来决定的,对于中国来说,提高数据经济的能力和水平是核心的问题,而数据存力会是一个可供量化的衡量指标。原因也很简单,数据经济的核心技术支撑有两个:一个是存储能力,一个是数据
63、处理能力。数据存力就是数据存储、数据处理的量化衡量指标。闪存占比是衡量数据处理能力的重要指标,中国差距更加明显。作为数据存力的核心指标,闪存占比至关重要,应该成为衡量各个省市、地方政府政绩发展的技术指标。所谓“要想富,先修路”,这与数据存力、闪存占比是异曲同工。4.6 数据备份拥抱全闪存阵列如今,数据备份也开始拥抱全闪存阵列,“昔日王谢堂前燕,费用寻常百姓家“,可谓沧海桑田,日新月异。有性能需求的场景,就有全闪存阵列,数据备份也不例外,2023 闪存技术应用全景白皮书42没有什么好奇怪的。如今数据爆炸式增长,核心业务系统性能提高,容灾备份水涨船高是自然而然的事情,闪存价格开始走低也发挥了推波助
64、澜的作用。尽管如此,全闪存的价格还是偏高,用户需要一定的承受力。数据备份时间窗口不足的问题早就有所体现,由此也催生了快照、增量技术的产生,让问题得到环节,如今,核心业务系统数据量激增,备份时间窗口压力加大,选择全闪存阵列缓解压力是水到渠成的事情。重视容灾备份,但是眼光不应仅限于此。容灾备份所牵涉的更是数据分析应用的大问题。数据应用例来划分为 OLTP 和 OLAP,前者往往是关键业务系统,涉及关键的业务交易,对稳定性、可靠性和可用性有极高的需求,不容任何闪失;但是后者往往是辅助决策、保障系统,尽管非常重要,但并非不可或缺。有些用户没有使用备份系统,仅仅存储阵列自身的数据保护能力,不是他们不了解
65、数据备份,而是他们结合自身的现状做出的不得已选择。可以说,能够使用全闪存做为备份存储的用户,还是比较有实力的用户。OLAP 的应用往往不会直接使用生产数据,防止给生产系统带来干扰。此前,OLAP 常常通过数据复制来满足研发、测试以及数据分析的需求。但是这些复制数据往往缺乏行之有效的集中管理,在安全性、存储的效率都存在很多的问题,此外,复制的数据实时性缺失,会导致研发、测试或者数据分析失准,不能准确反映业务发展的现状。针对容灾、OLAP 等数据缺乏集中有效管理的现状,第二存储应运而生,以 CDM为核心,为研发、测试、容灾、数据分析等应用提供集中数据保障,在确保安全的基础上,提高水平的数据存储管理
66、和服务。如今,很多创新业务应用完全建立在数据实时分析、处理的基础上,OLAP 不仅不可或缺,同时要求性能和效率作为保障,在这样的背景下,全闪存阵列将大有用武432023 闪存技术应用全景白皮书之地,这也是超越全闪存阵列数据备份的额外话题。如今容灾备份不再孤独,而与第二存储相伴相生,焦不离孟,孟不离焦,这是目前用户应有的视野和认知。4.7 高性能计算和 AI 存储方案高性能计算被喻为科技皇冠中的明珠,被视为衡量一个国家科技水平高低的重要指标。高性能计算系统也是一个相对封闭的市场,大的系统项目常常由品牌供应商把持。但是如今,高性能计算市场也呈现出来了存算分离的趋势,计算集群、高性能存储采购,以增加
67、适应性和灵活性。在高性能存储的设计上,以并行文件系统+全闪存阵列的设计方式,目前受到市场的关注和欢迎,从而为全闪存阵列应用开辟了新的战场。在 AI 应用方面,以 Colossal-AI 为代表,AI 算法已经突破 180 亿参数的规模的,尽管 Colossal-AI 让用户可以利用消费级显卡(GPU)多维并行操作,但涉及到 GPU之间的数据交换,其性能仍然没有办法满足需求。AI 大模型训练,导致对于算力提升非常快,对存储 IO 性能的需求水涨船高,对高性能 SSD 需求不断提升。如今 GPU 不低,导致 AI 训练成本居高不小,如果能够提高计算的效率,对于控制成本、提高性能的意义重大,从技术上
68、说,无论 CPU、GPU、DPU、SSD 在设计上都有大量缓存加持,基于缓存的数据一致性访问就成为了新的诉求,如今,通过 Genz的并入,CXL 标准备受关注,有望成为数据访问新的方式,技术的发展也会被包括闪存 SSD 设计在内的一系列的变化。技术的改进和更新必将给市场、应用带来的新的变化。山雨欲来风满楼,CXL、PCIe 5 扑面而来,对此应有足够重视和关注。4.8 即将掀起数据中心架构变革的 CXL随着现代数据中心工作负载的复杂性和多样性不断增加,CPU 与加速器间的紧密2023 闪存技术应用全景白皮书44协作变得越来越重要。为了应对这一挑战,2019 年,英特尔、Alphabet(谷歌的
69、母公司)、思科、戴尔、Facebook、HPE、华为、微软 和阿里巴巴等联合推出了一种新的高速互连标准 Compute Express Link(CXL)。CXL 是一种开放的高速互连标准,它允许高性能加速器,如 GPU、FPGA 或 ASIC芯片与 CPU 共享高速、低延迟的内存访问。通过在设备之间维护一个统一、一致的内存空间,使得 CPU 和 CXL 设备可以共享资源,从而提高性能、减少数据移动,还有助于降低软件栈复杂性。简而言之,CXL 的目标是实现计算、内存和存储资源的动态分配,通过在 CPU 和加速器之间提供共享内存的高速通道,使得这些设备可以更有效地一起工作,提高数据中心的性能和效
70、率。CXL1.0 于 2019 年 3 月 首 次 亮 相,它 定 义 了 CXL.io、CXL.cache 和 CXL.memory 三种协议:其中,CXL.io 复用了原来的 PCIe 协议,在 CXL 的建立连接、设备发现、配置等过程中发挥重要作用。连接建立后,CXL.cache 协议负责做 cache 一致性的工作。尔CXL.cache 和 CXL.memory 配合起来用来做内存扩展。452023 闪存技术应用全景白皮书CXL 1.0 定义了三种使用场景,对应三大类设备:第一种主要的应用场景是高性能计算里的网卡(PGAS NIC),它支持一些网卡的原子操作,它主要利用的协议就是 CX
71、L.io 和 CXL.cache。这类设备通常都没有本地内存,比较依赖主机的内存。第二种主要指的是带有内存的加速器,包括 GPU、FPGA、ASIC 等加速器,它使用的协议包括用来做链接的 CXL.io,做 cache 一致性的 CXL.cache,用来做内存扩展的 CXL.memory。第三种主要用作内存的 Buffer,做内存的扩展。它主要利用 CXL.io 和 CXL.memory 的协议。在这里,CPU 除了可以用本地的 DDR 内存,还可以通过 CXL 去访问扩展内存,扩展内存可以是一个大的内存池,可以共享给不同的 CPU 来用。CXL 2.0 于 2020 年 11 月发布,新增了
72、对于 CXL 交换机的支持,从而可以用来构建内存池。CXL 2.0 支持让主机可以访问透过交换机连接的远端内存资源,它可以在一个机架内通过一套 CXL 交换机构建成一个网络,构成内存池。CXL 2.0 获得了来自计算机业界和用户社区的积极反馈。2022 年,基于 PCIe 6.0 规范的 CXL 3.0 发布,与此前基于 PCIe 5.0 的 CXL 相比,2023 闪存技术应用全景白皮书46不仅带宽速率翻倍(延迟没有提高),也新增了很多功能特性,最引人瞩目的当属对于多级交换机的支持。有了多级交换机的支持,CXL 便可以更好地对资源进行解耦和池化,做更多的资源池,比如 CPU 资源池、内存资源
73、池、网卡资源池和加速器资源池等,交换机之间可以构建各种网络拓扑。CXL 支持最多 4096 个节点,这意味着它不但在一个机柜内实现计算资源和存储资源的池化和解耦,而且,可以在多个机柜之间建立更大的资源池,如此一来,对于云计算服务商的资源管理效率和成本优化都会带来很大帮助。472023 闪存技术应用全景白皮书从 2022 年开始到现在,市场上包括三星、美光都推出了基于 CXL 的内存扩展器产品,而随着英特尔第四代至强可扩展处理器和 AMD 新一代霄龙处理器的发布,主流的处理器平台都开始支持 CXL,CXL 的落地便有了硬件基础。(注:目前,AMD 支持 Type3 设备,英特尔支持 Type1
74、和 Type2 设备)我们也注意到,市场上还有软件解决方案,比如来自 MemVerge 的大内存软件方案,该软件可以负责管理 CXL 连接的内存资源,让服务器集群在业务平稳期保有少量的内存,在业务高峰期动态加入额外的内存资源,从而提高内存的使用效率,它可以直接帮助超大规模数据中心节省成本在现代数据中心,工作负载的需求正在迅速改变。为了处理大数据、人工智能、机器学习等复杂的任务,数据中心需要更强大、更高效的计算能力。CXL 通过提供一种高性能、低延迟的互连技术,可以帮助数据中心更有效地利用计算资源,满足新的需求。2023 闪存技术应用全景白皮书在过去的一年中,闪存市场谈不上轰轰烈烈,相反还略显沉
75、闷、平淡,没有更多关注点,从某种意义来说,闪存技术发展带来的影响力在弱化。不在沉默中爆发,就在沉默中死亡,我们相信,平淡的背后,是暗流涌动,期待闪存技术市场的新一轮喷发。2023 闪存技术应用全景白皮书内容涉及很多技术的细节、内涵,技术和市场发展也处在一个快速更新迭代的过程中,受知识和视野的局限,差错在所难免,在此希望更多的专业人士给予批评和指正!在此再次对新华三、浪潮、华为、Hitachi Vantara、联想凌拓、宏杉科技、XSKY、同有、宝存、中存超为、川源(排名不分先后)等参与编纂企业的专家表示感谢!感谢中国计算机行业协会信息存储与安全专委会会长、华中科技大学武汉光电国家研究中心信息存储系统教育部重点实验室谢长生教授为首的专家委员会对本白皮书的技术把关和指导!结束语05