《中国计算机学会:数据中心Diskless架构白皮书(29页).pdf》由会员分享,可在线阅读,更多相关《中国计算机学会:数据中心Diskless架构白皮书(29页).pdf(29页珍藏版)》请在三个皮匠报告上搜索。
1、 中国计算机学会(CCF)信息存储技术专业委员会 白皮书中国计算机学会(CCF)信息存储技术专委会主编单位天翼云科技有限公司、中国电子云、中科驭数(北京)科技有限公司、华为技术有限公司、深圳大普微电子科技有限公司、北京大禹智芯科技有限公司、深圳云豹智能有限公司、上海云脉芯联科技有限公司、珠海星云智联科技有限公司、成都北中网芯科技有限公司、国科微电子股份有限公司、北京忆恒创源科技股份有限公司、北京得瑞领新科技有限公司联合编写发布单位数字经济时代来临,我们的社会每时每刻都在产生大量的数据。随着数据的爆发式增长,我国的数据中心也迎来蓬勃发展。庞大的数据规模,需要高效可靠的存力和算力来支撑。数据中心作
2、为承载存力和算力的基础底座,数据中心的性能、效率、可靠性等已经成为国家综合竞争力的体现。近年来,我国数据中心的建设规模不断扩大。与此同时,碳中和已经成为全球的共识和使命,在全国一体化大数据中心、“东数西算”等战略的要求下,如何应对建设需求的激增,同时满足绿色低碳的要求,实现数据中心的可持续发展和高质量演进,是摆在我们面前的重大命题。存储、计算、网络是数据中心的关键组成部分,只有让数据存得好、算力算得快、网络传得稳,三者协同有序发展,才能充分发挥数据中心的潜能。然而在实际建设过程中,不少数据中心经常采用通用服务器、计算和存储一体化建设的方式,由于数据和CPU算力生命周期不一致,产生了存力效率不佳
3、、算力无法充分发挥等资源浪费问题。这本白皮书系统地梳理了数据中心架构转型的背景和挑战,提出了一种新的数据中心架构模式数据中心Diskless架构。文中详细介绍了Diskless架构的定义和关键技术,以及典型场景下的应用实践和未来的发展趋势。Diskless架构通过存储、算力资源的彻底解耦和池化共享,实现了数据中心架构的扁平分层和灵活组装,提升了资源利用率和数据处理的效率。我们相信这是一次非常有意义的探索,这份研究对于相关决策部门、企业界、学术界具有很好的启示和参考意义。数字化、智能化的未来正在加速到来,期待在政府、高校院所、企业等“政产学研用”多方力量的共同努力下,数据中心产业布局及生态将不断
4、优化,迎来绿色高效发展的新阶段。序言郑纬民中国工程院院士执行摘要 1 Diskless架构产生的背景 1.1 新的业务挑战催生了对Diskless架构的需求 1.2 IT技术的发展为Diskless架构奠定了基础 2 Diskless架构与关键技术 2.1 Diskless架构 2.1.1 存储模组 2.1.2 算力模组 2.1.3 网络模组2.2 关键技术 2.2.1 场景化数据缩减 2.2.2 数控分离 2.2.3 盘芯协同 2.2.4 高通量网络 2.2.5 网存协同 3 Diskless架构应用场景 3.1 互联网&云行业应用 3.2 高性能计算HPC行业应用 4 业界创新实践5 技术
5、挑战与机遇展望 5.1 技术挑战 5.2 机遇展望 参考文献 010304 0609254目录CONTENTS数字时代来临,人类产生的数据量以惊人的速度增长,数据成为新的生产要素。数据中心作为数字经济的引擎,为千行百业的数字化转型提供源源不断的动力,数据中心的高效运转对经济社会的发展起到关键作用,成为衡量国家竞争力的重要指标。近年来,我国数据中心规模总量大幅跃升,投资增长逐年加快。经济高速增长的背后,对可持续发展的要求也越来越高。在新基建、东数西算等国家政策及企业降本增效需求的共同驱动下,数据中心的绿色高质量发展成为焦点。历史上
6、每一次IT基础架构的重大变革,都离不开需求变化的推动。随着云计算、大数据、AI等新技术的加速创新,众多新兴业务场景大量涌现,其中,云和互联网行业存储和处理的数据量占比最大,构建了我国最大的IT基础设施平台。在实际应用中,当新的数据应用出现的时候,为了快速部署和尝试新业务,企业通常采用最简单的应用与本地盘耦合的服务器一体化架构。基于服务器部署存储的融合架构,将计算、存储、网络等资源统一管理和调度,具有弹性的横向扩展能力。然而,计算、存储等硬件资源发展速度不均衡,算力生命周期和数据生命周期的差异越来越大,导致传统IT架构存在扩展不灵活、资源闲置、利用率低下等问题,且无法满足业务数据共享访问的需求。
7、新的数据中心架构要走向何方,是值得关注和思考的问题。纵观现代计算机体系的演进历程,IT基础架构演变的脉络是不断分层解耦的。从计算机诞生伊始的存储与计算紧耦合的大型机时代,再到磁带、软盘、磁盘、闪存盘时代,可以清晰地看出,存储脱离服务器、与计算分离的基本形态逐渐成型并发展成熟,系统的效率、扩展性、灵活性在一次次存储与计算的协同变化中不断延展。历史上,计算、网络、存储等硬件技术的不断发展,一直是数据中心基础架构演化和进步的重要基础。今天,面对新型数据中心在容量利用率、存力效率等方面的挑战,高性能盘框、专用数据处理器(DPU等)、远程直接内存访问(RDMA)、CXL协议等新型硬件技术的发展,为IT基
8、础设施的重构提供了技术基础,以满足新型数据中心能够兼顾资源利用率、可靠性、性能、效率等众多诉求。执行摘要01在新业务挑战、硬件技术快速发展等多重因素驱动下,Diskless架构正在迅速兴起。数据中心Diskless架构由无盘化的服务器、极高存力密度的存储系统、专用数据处理器和高通量的数据总线组成。服务器本地盘拉远,构成无盘化的服务器和远端存储池,在资源利用率、存储资源高效共享、多场景灵活部署、网存算协同等方面具有显著优势。相较于传统存算分离架构,Diskless架构是更为彻底的存算解耦:它打破各类存算硬件资源的边界,组建彼此独立的硬件资源池,真正实现各类硬件的独立扩展及灵活共享;Diskles
9、s架构是更细粒度的处理分工:它突破传统以通用CPU为中心的处理逻辑,使数据处理等CPU不擅长的任务被专用加速器、DPU等替代,实现能效比最优的硬件组合。Diskless架构为云和互联网等应用带来高资源利用率、高可靠、高性能等价值。例如,虚拟化场景,服务器本地盘拉远,可虚拟化计算资源显著提升;数据库、大数据场景,Diskless为计算提供池化大内存,加速数据处理效率;容器场景,外置存储将上层容器与下层存储分离,容器灵活的特点得以充分发挥;高性能计算场景,Lustre/GPFS等文件系统使用新型NVMe大盘替换本地盘,资源池化共享、按需扩展,提升了系统资源使用效率。不同企业的创新实践推动着Disk
10、less架构的应用。盘框厂商通过盘芯协同提供直通盘框;系统厂商卸载数据本地布局与应用协同提供加速和增强能力;网卡厂商通过网存协同,向下构建新的存储基础设施层,向上通过DPU生态编程框架构建生态,基于Diskless架构全面创新的产业大潮正在涌来。未来,在国家东数西算工程等战略的持续推进下,全国一体化大数据中心、智算中心为代表的新基建将获得持续投入,我国数据中心的建设步入快车道。从国家顶层布局来看,为推动数据中心绿色高质量发展,国家将支持推动数据中心的技术创新和模式创新,推动关键技术的研发和规模化应用,为数据中心产业布局不断优化指明了方向。对云和互联网等新业务而言,数据快速增长的挑战与降本增效的
11、诉求将长期共存,数据中心采用高效集约、分离池化的Diskless架构趋势不可阻挡,数据中心产业变革的新机会正在到来。02Diskless架构产生的背景0103数字化、信息化的发展推动了新业务的加速创新。以云和互联网为例,为了应对激增的海量数据,主要采用基于服务器部署分布式存储服务的融合方式构建存储。这类系统虽然解决了一些效率问题,但仍存在不少痛点。首先,从容量利用率来看,存算一体的系统面临如下挑战:Diskless架构产生的背景04数据保存周期与服务器更新周期不匹配。新兴业务的海量数据需按照其生命周期策略(例如810年)保存。而在基于服务器的存储系统换代周期由处理器的升级周期(例如35年)决定
12、。两者之间巨大的差异导致系统资源大量浪费,增加数据迁移丢失风险。性能可靠与资源利用率难以兼得。分布式存储系统大致可以分为性能型存储和容量型存储。性能型存储通常采用三副本模式,空间利用率仅为30%左右。容量型系统为了提升空间利用率,通常采用跨节点EC(Erasure Code)方式,EC计算过程中的读写重构在消耗主机CPU资源时,还会消耗大量网络资源,影响系统性能。此外,单位存储介质容量不断变大,给业务可靠性和性能带来极大挑战。存储系统通常基于EC解决单盘故障,但随着单盘容量不断变大,不仅故障恢复的时间变长(例如1TB的NL-SAS盘传统RAID重构需要10小时),故障重构也会对主业务造成影响,
13、增大二次故障的概率。1.1新的业务挑战催生了对Diskless架构的需求图1 分布式存储资源利用率云和互联网分布式存储系统存储资源利用率低常采用多副本方式保证可靠性不同系统烟囱式构建存储,无 法跨系统池化存储IP网络服务器CPUCPU服务器CPUCPU服务器CPUCPU服务器CPUCPU服务器CPUCPU性能可靠性影响大EC计算过程中读写、重构等 消耗大量网络资源。系统重构 效率低下,重构时间长。Diskless架构产生的背景其次,从算力和IO效率的角度,应用为获取数据所缴纳的“数据中心税”(datacenter tax)日益严重,IO处理受“三大税”制约而无法充分发挥:在主机侧,服务器内的C
14、PU为处理网络及存储IO请求,需要消耗高达30%的算力,由于通用CPU并不擅长数据处理运算,导致其能效比低下;在存储侧,传统存储协议面向HDD介质设计,协议厚重,协议的处理导致带宽损失20%以上;更进一步,存储系统内部架构仍以CPU为中心,数据路径无法直通盘,大量CPU算力和内存通道被数据通路浪费,导致时延增加20%。05最后,新兴应用具有走向全局流动的容器化趋势。应用从无状态化向有状态化扩展,基础设施提供的服务需要在全局资源内灵活部署,在任意地方发放和调度,这就对基础设施提出了“算力无处不在、存储无处不在”的诉求。而当前IT基础设施里,存储系统通常基于业务烟囱式构建,数据共享度低。IT基础设
15、施围绕特定业务建设,计算、存储资源无法全局分层池化,难以满足数据跨业务共享的诉求,限制了应用的全局分布式化。总的来说,传统的存算一体架构会带来资源浪费、性能可靠性不足、存力效率不佳等问题,进而制约算力的发挥。另外,应用弹性受到基础设施资源的限制,亟需新的数据架构来改善,进一步加速了Diskless架构的发展。06Diskless架构产生的背景计算机体系不断发展,Diskless架构应运而生从现代计算机体系的发展历史来看,IT基础架构是不断分层解耦的。以存储为例,最早的存储内置在服务器中,由于网络带宽的限制,为减少网络传输中的损耗,人们自然而然的把计算和存储耦合在一起。但由于单个服务器容量有限,
16、存储容量十分受制于服务器空间。直到直连存储DAS(Direct-Attached Storage)的出现,盘从服务器独立出来,才解决了扩展不便的问题。后来,借助网络技术的创新,数据的传输不再受物理边界的限制,再加上存储也面临跨设备传输共享的需求,相应地出现了SAN(Storage Area Network)和NAS(Network Attached Storage)网络存储。可以说,计算、存储和网络等底层技术的发展,推动了数据中心基础架构的分层解耦,促使数据中心走向资源池化的新型架构,Diskless架构正是在这一背景下诞生。面对数据中心在容量利用率、存力效率、算力能效比、可靠性等方面的挑战,
17、专用数据处理器、新型网络远程直接内存访问(RDMA)、CXL协议、高性能盘框等新型计算、存储和网络技术的发展,为数据中心走向Diskless架构提供了技术基础。1.2IT技术的发展为Diskless架构奠定了基础HDD+SCSISSD+SCSI/NOFSCM+CXL/UBUSIT技术栈趋势:存算逐步解耦组件集中池化&可靠池化&可靠&共享内存的池化&可靠&共享新型盘框创新活跃算力走向异构本地盘走向Diskless应用走向severless内存做大池化共享介质和系统走向融合创新2计算机体系架构正在解构1时间线1.JBOD计算机体系架构ApplicationCPUMemoryFilesystemRA
18、IDDiskNIC图2 存储和计算分层解耦2.SANSCSIRAIDMem3.NAS、Object新的数据架构SCSIFilesystemMemorylessDiskless部件形态灵活组装RAIDMem底层介质网络技术演进Server算力多样化多样的应用推动生产进步,同时也在消耗惊人算力,应用对数据量和时延的不同需求让计算朝多样化方向发展。不同的应用需要不同的算法,特定的算法需要特定的算力来处理。比如,人工智能领域涉及较多的矩阵或向量的乘法和加法,专用性高,对算力消耗过大,就不适合用通用CPU进行计算。当前,摩尔定律演进变缓,通用CPU执行网络和存储功能,极大地占用了服务器端计算资源,CPU
19、性能瓶颈制约着传统以CPU为中心的软件的发展。未来的计算,数据将在最合适的地方以最合适的算力来处理。例如,网络数据在DPU上近网处理,AI计算在GPU上被执行,神经网络模型在NPU上训练。如今,业界涌现出越来越多的数据处理单元(Data Processing Unit,DPU)和基础设施处理单元(Infrastructure Processing Unit,IPU)专用芯片,在数据流处理路径上取代通用处理器,采用专用处理器异构计算成为技术发展的一种趋势。专用数据处理器可以释放通用处理器算力,用于服务更适合的场景,显著提升系统整体能效比。网络高速化网络技术决定了系统的响应速度以及吞吐能力,也决定
20、了系统资源池化的能力范围。过去,万兆IP网络满足了HDD等慢速介质的池化,催生了块、文件、对象共享存储访问协议;RoCE(RDMA over Converged Ethernet)协议加速了SSD池化,催生了NoF(NVM Express over Fabric)存储高速访问协议;CXL(Compute Express Link)等新型总线型网络使网络时延降到亚微秒级别,正促使着内存型介质池化,让CPU、GPU和其它加速器之间实现高速高效互联,从而满足高性能异构计算的要求。另外,数据的爆发增长促使网络端口带宽从25G、100G迈向200G、400G时代,高速网络带宽的快速演进支撑了存储跨节点计
21、算过程中的数据高效读写和重构,减少了网络资源的消耗,使系统容量和性能得以兼顾。Diskless架构产生的背景07高效存储系统为解决服务器本地盘资源利用率低的问题,很多厂商推出EBOF高性能盘框。其不具有复杂企业特性,注重采用NoF等新型的数据访问标准,以提供高性能存储。Diskless架构可借助这些高性能盘框实现对本地盘的替换,将服务器本地盘拉远构成远端存储池,实现真正意义上的存算解耦,提升存储资源利用率。另外,传统架构以CPU为中心,一方面,CPU和内存之间存在一堵“内存带宽墙”,即CPU搬移数据受到内存带宽制约,因此,业界的趋势是在近CPU侧产生更大吞吐的第一级内存池,以解决内存带宽问题。
22、另一方面,IO要经过计算、网络、存储的多层协议转换,产生了“IO时延墙”,目前主流的发展方向是基于CXL等高速内存网络实现独立的内存池。内存拉远池化,可以解决本地内存容量和时延的问题,从而提升存力效率。08Diskless架构产生的背景Diskless架构与关键技术0209APPAPPAPPDockerAPP计算节点卸载本地布局面对前文提出的新业务的痛点与挑战,借助计算、网络和存储等硬件技术的创新,数据中心Diskless架构正在迅速兴起。传统数据中心体系架构是典型的多级分层架构,从服务器到网络到存储,每一层都独立围绕CPU、内存、总线、硬盘等组件构成的完整计算机系统。与传统存算分离架构相比,
23、Diskless架构并不局限于将CPU和外存解耦,而是将服务器本地盘拉远,构成无盘化的服务器和远端存储池。因此,它彻底打破各类存算硬件资源的边界,将原有架构的多级分层资源进行彻底解耦池化和重组整合,形成新的扁平分层,简化了数据基础设施架构。同时,Diskless架构将通用CPU不擅长的任务卸载到各种专用处理器上,使硬件的组装更为灵活,从全局角度实现了硬件资源的最优组合。存储模组、算力模组和网络模组共同构成Diskless架构的三大分层,为Diskless架构提供高容量极简盘框、本地存储拉远池化、无盘化服务器、新型网络灵活组装等几大新兴能力。2.1Diskless架构 图3 传统存算分离架构与D
24、iskless架构对比CPU本地性能盘CPUMEMMEM本地性能盘开源分布式存储层ServerCPU业务场景计算域Server存储域Server办公虚拟化ServerCPU应用交换机网络高通量数据总线(内存型总线、直连总线、IP总线、Optical总线)基于新型极简共享存储的Diskless架构底座CSIDPU内存池模组CXL/PCleCSIDPU内存池模组RDMACSIDPU闪存池模组NoFCSIDPU闪存池模组NoFCSIDPUHDD池模组NoFCSIDPU温冷介质模组NoFMEMMEM云硬盘.虚拟化ServerServer本地性能盘本地性能盘内容拉远池化,大内存加速应用KV、arrowC
25、XL分布式DB数据库服务数仓/搜索服务计算节点MySQL HadoopSparkKVM/Docker内存拉远计算节点KVM/Docker云主机 云桌面计算无盘化直通存储模组file、blockNOF办公虚拟化直出容器FS和分布式EC,卸载本地布局fs、blockRDMA容器存储直播/点播云硬盘去本地盘KV/memClientLocaIFS存储型模组拉远池化共享特性极简EC/压缩10Diskless架构与关键技术Diskless架构中,存储型模组主要以EBOF、EBOM(Ethernet Bunch of Memory)、EBOD(Ethernet Bunch of Disk)等新型盘框形态存在
26、。RAID、大比例纠删码算法等传统存储能力下沉到新型盘框中,构成“盘即存储”的大盘技术,对外通过NoF等高速共享网络提供块、文件等标准存储服务,可减少冗余资源开销比例。此外,还可通过基于芯片加速的场景化数据缩减技术提供更多数据可用空间。这类新型盘框对传统磁盘阵列的冗余池化技术和数据缩减技术进行了高度集约化和小型化,将服务器的本地盘和内存拉远进行池化共享,有效支撑了传统数据中心向极简分层的Diskless架构演进。2.1.1 存储模组 Diskless架构将数据存储和访问等操作从通用处理器剥离,卸载到以DPU为代表的专用处理器将上,相比通用处理器,能以更低的功耗处理更多的数据,从而释放CPU算力
27、、提升算力能效比。此外,这类专用处理器还具备即插即用、即换即用等优势,在硬件使用上更为灵活。Diskless架构引入DPU等专用处理器后,算力池化是必然选择,将打破传统以CPU为中心的服务器架构,由此提升数据密集型应用的效率。此外,特定的数据操作可由专用硬件加速器进行进一步加速,如纠删码、加密压缩、网络通信等。2.1.2 算力模组 网络模组需要解决远程访问硬盘和内存的带宽和时延问题,满足Diskless架构下多种场景池化接入的诉求。当前,服务器本地盘可通过NoF高速网络拉远到EBOF盘框,实现SSD池化;下一步,内存资源池可通过CXL等新型总线型网络构建PB级共享大内存,为业务提供更大的共享内
28、存空间。2.1.3 网络模组 Diskless架构与关键技术11构建在新型数据架构上的新兴应用,主要关注数据的性能效率和容量效率,再辅助简单特性实现和应用的协同备份等诉求。Diskless架构改变了各类硬件资源的组合形式,其远近关系、松紧耦合的变化催生了一系列围绕该架构的关键技术。2.2关键技术数据缩减能力下沉到存储模组,存储系统可以使用变长相似重删、数据压缩压紧等算法融合进一步提升缩减率率,提升数据存储密度,有效减少对性能的影响。此外,随着场景化数据缩减技术的发展,针对不同场景的数据特征,可使用不同的数据缩减技术。例如,针对基因、医疗等场景,可通过多帧图片聚合压缩、多波段数据合并压缩等实现更
29、高缩减率;在数据保护场景,可通过变长或相似性重删获得更高缩减率,进一步提升了可得容量空间。2.2.1 场景化数据缩减 传统存储以CPU为中心设计,数据读取、写入都要经过CPU,使CPU成为系统性能的瓶颈,无法满足新兴应用越来越高的性能诉求。存储IO处理可基于IO直通等技术,数据处理路径可从智能网卡、DPU直通到盘,实现前端卡到后端介质的快速直通,构建极简的快速数据访问路径,从而减少IO路径CPU的参与,时延和吞吐挑战理论极限。2.2.2 数控分离 12Diskless架构与关键技术通过介质和控制芯片深度协同可获得端到端最佳TCO(Total Cost Ownership),实现存储模组的效率突
30、破。通过多芯整合,实现盘控制器芯片、系统控制器芯片、框管理芯片的统一整合,既可以大幅提升效率,又能明显地降低成本和能耗;通过介质融合、制造工艺整合,能够实现极致成本的大盘。以冗余设计为例,新型存储型模组直接集成介质颗粒,仅在框一级构建一层大比例EC的池化空间,辅助专有芯片卸载加速,可以简化原有的盘内、框内等多层冗余设计,有效改善资源利用率。2.2.3 盘芯协同 根据部署场景及多样化网络敏捷和自适应性的业务需求,存算模组间的网络连接可以选用CXL Fabric、NoF、IP等多协议进行组网。网络连接可以选用直连模式或是池化模式。直连模式下,网卡资源被设备独占使用;池化模式下,网卡资源池化,被多个
31、设备共享使用,可以提供更经济的使用效率。跨机架通信通常使用RoCE网络。传统RDMA连接数受限,可通过无连接等技术,解耦连接状态和网络应用,解决大规模互联的扩展性问题,从而实现大型数据中心几百台服务器之间的高效互联,达到数万的连接规模。2.2.4 高通量网络 智能网卡和DPU是服务器的数据出入口,充分利用好智能网卡和DPU的硬件卸载和加速能力,可缩短IO访问的响应时间,提升IO效率。一方面,智能网卡和DPU可以实现网络处理、虚拟化、容器的卸载,从而实现高吞吐和低时延网络和存储服务,降低主机数据处理开销,提升IO访问效率。具体来说,DPU可支持NoF存储协议及RoCE网络协议卸载,使远程访问达到
32、与本地存储相近的性能;同时,DPU通过硬件辅助虚拟化或半虚拟化技术,实现虚拟化存储访问的性能提升。另一方面,DPU可实现存储层EC、压缩、加解密的卸载,通过集成硬件的数据校验、数据压缩、数据加解密等后端计算加速单元,实现网络线速的数据盘前处理,提高带宽利用率并降低处理延时,并降低系统整体功耗和成本开销。2.2.5 网存协同 Diskless架构与关键技术13Diskless架构应用场景0314EBOD660+HDD660+TapeRADOSCeph-LIBRADOS分布式EC计算域云视频业务容器存储存储服务器APP场景二存储模组为计算提供池化大内存,KV接口加速应用场景三存储模组提供文件接口和
33、大比例分布式EC,卸载本地布局互联网业务平台通常承载视频、图片、数据库、AI分析、大数据等业务场景,在传统云架构中,IAAS层存储基于服务器本地盘,搭载Ceph分布式文件系统。Diskless架构在云和互联网的应用主要有三种典型场景:一是针对虚拟化业务,直接将服务器本地盘拉远,用Diskless存储模组替代分布式开源存储集群的物理硬盘层。二是为数据库、大数据等需要极热数据处理的业务提供大内存、Key-Value接口,加速数据处理;三是针对容器等新业务场景,为Ceph等分布式应用直接提供文件语义,并支持将温热数据分级到更冷的EBOD等机械硬盘存储模组中,提升存储效率。随着NoF技术成熟,以亚马逊
34、、Meta、Nvidia等厂商为代表的异构算力演进成为数据中心架构演进的热点:以计算为中心的架构转向以数据为中心,通过资源池化和共享的方式提升资源利用率、可靠性及扩展性,帮助企业降本增效、快速迭代,加速业务创新。3.1互联网&云行业应用图4 云和互联网的三类典型Diskless应用场景服务器Block分布式存储布局CephLustre服务器Block池化SSD/HDD盘场景一计算域存储域存储模组替换计算/存储的本地SSD/HDD盘云硬盘NOF/IP网络办公虚拟化服务器BlockKVM/Docker云主机云桌面服务器BlockNOF网络RAID池化NVMe SSD盘压缩分级计算域CXL网络NOF
35、/IP网络RAID硬压缩冷热分级分布式DB数据库服务数仓/搜索服务内存型介质内存型介质EBOF660660KVStore池化内存盘(EBOM)服务器KVM/DockerMySQLKV/FS服务器HadoopKV/FS服务器SparkKV/FSClientClientClientClientClientLocaIFSLocaIFSDockerAPP存储服务器存储服务器存储服务器APPAPPDiskless架构应用场景1516Diskless架构应用场景虚拟化场景虚拟化技术在云计算中长期占据主导地位。虚拟化场景引入Diskless架构后,实现了真正意义上的存算分离,极大提升业务部署的灵活性。首先,
36、借助Diskless架构,可以加速存储虚拟化,使得存储架构完全池化并实现按需的弹性伸缩。其次,Diskless架构将存储后端从服务器上完全剥离并卸载到DPU上,服务器作为存储前端仅需保留必要的客户端或驱动,并通过高速网络实现互通。再次,Diskless架构提升了虚拟化灾备能力,存储后端多副本、EC等技术可以很好地处理数据迁移、备份和恢复,而虚拟机仅需获取存储后端地址即可实现存储的重连。数据库场景在数据库领域,借用diskless理念,将计算节点和存储分离,并将冷热数据分层存储在不同类型的存储介质上,既实现了存储数据的读取共享,提升了效率,也节约了成本。在功能上,把数据库的Redo log等处理
37、下放到存储层,通过将数据库的一部分数据处理能力下沉到存储,在有数据的地方完成近数据处理,可以降低数据库处理流程中的网络IO,提升整体性能。此外,Diskless架构可以匹配数据库实例在计算层的服务化、容器化,实现故障后整个资源池的均衡调度,提升系统可靠性。大数据场景大数据平台的数据随着时间推移,访问热度会大幅降低,将不同访问热度的数据存储在不同类型的存储上,将大幅提升存储性能。Diskless架构通过专用冷热存储替换本地盘,实时热数据与性能较好的数据节点相匹配,存储在大内存盘框中温冷数据则存储在高密存储硬件上,从而提高集群性能;计算存储独立扩展,可避免投资浪费;EC算法替代多副本模式,可提升资
38、源利用率;一份数据多集群共享,可减少重复存储、消除数据墙;计算节点无状态,可提升系统可靠性,单个故障不影响集群整体性能。Diskless架构应用场景17容器场景在容器等云环境下,应用的跨节点漂移需要云环境的存储插件和存储协作支持。在传统存算一体架构中,容器与本地PV强绑定,当容器漂移时,原本的PV受限于架构无法直接跟随,容器在其他节点重启后,无法获取到原PV中的数据,造成数据丢失。由此可见,存算一体的架构无法适应容器弹性、敏捷的特性。Diskless架构通过向分布式应用直接提供文件语义,将上层容器与下层存储分离,实现数据的共享,漂移后数据仍可跟随,从而帮助用户更灵活地使用容器。同时,外置存储提
39、供EBOF和EBOD两种类型存储,在存储侧实现冷热数据的自动分级,可提升存储效率,节省用户开支。Lustre/GPFS等高性能面向对象的并行文件系统,被广泛应用于超级计算平台。全球超过60%的超级计算机使用了Lustre文件系统。以数据为中心(Data Centric),通过数据流驱动计算的架构成为一个重要的发展趋势。Diskless架构下,Lustre/GPFS使用“盘即存储”的新型NVMe大盘替换本地盘,可实现资源的池化共享、按需分配和扩展,从而提升资源利用率,降低整体成本,同时还可以隔离故障,简化运维管理。另外,从可靠性的角度,由于Lustre的多个OSS缺少副本机制,一个客户端或节点发
40、生故障时,存储在该节点上的数据在重新启动前将不可访问,此时Diskless架构的高可靠优势就更加凸显了。3.2高性能计算HPC行业应用图5 HPC场景Diskless架构计算集群以太网交换机管理服务器.InfiniBand交换机元数据服务器对象存储服务器对象存储服务器Scale-OutLustre/GPFS并行存储系统NVMe盘框NVMe盘框18Diskless架构应用场景0419业界创新实践众多企业在IT技术栈不同层次的创新整合,加速了Diskless架构在业界的应用进程。盘框型厂商面向整框能力扩展,提供直通盘框能力,以EBOF/JBOF等典型形态存在,主打性能优势。盘框型厂商推出的EBOF
41、盘框特点是全硬化,盘框内仅做NVMe到NVMe over Fabric的转换,全硬化的IO路径使得性能可以做到极致,单框支持千万级的IOPS,典型厂商有:西部数据、国科微电子、大普微科技、忆恒创源、得瑞领新等。以西部数据的OpenFlex Data24 EBOF盘框为例,Data24将上层存储控制功能完全放在前端服务器上实现,包括卷管理、RAID、EC纠删码等,同时通过低延迟以太网光纤网络将NVMe的价值延伸至多个主机,是对Diskless架构的有力尝试。1.盘框型厂商:通过盘芯协同提供直通盘框系统型厂商的优势是具备软硬结合的专业存储能力,在EBOF/JBOF等高速盘框的基础上,尝试卸载部分数
42、据本地布局(如NFS客户端、EC、数据缩减等存储能力)。除了对上提供标准的块语义,还可提供文件、KV等语义,进而实现与上层分布式软件的2.系统型厂商:卸载数据本地布局与应用协同提供加速和增强能力图6 三类厂商在IT技术栈不同层次的创新整合提供直通盘框主打性能和成本集成KV卸载本地FS、NFS客户端增强DPU生态编程框架应用虚拟化&中间件存储布局层存储硬件层盘框型厂商系统型厂商网卡型厂商专注做框,以EBOF/JOBF主打性能+成本在NOF盘框基础上,尝试卸载部分布局实现协同加速或特性增强以DPU Fabric为中心上下扩展,构建新的存储基础设施层DPU提供直通/RAID/压缩能力,直接盘框20业
43、界创新实践协同加速或特性增强。典型厂商有:华为、VAST Data等。以华为微存储为例,微存储作为一个标准存储组件,可以被数据中心集成,通过基于NoF+技术的高通量网络连接Diskless服务器,可为数据中心提供共享的高速可靠存储资源池。同时借助数据缩减、EC纠删码等能力,进一步提升资源利用率,降低数据中心存储的机柜空间和能耗占用。网卡型厂商以DPU(Data Processing Unit)fabric为中心上下拓展,向上进行生态构建,实现对CPU的算力卸载和数据路径上的IO加速。DPU方案将数据处理能力卸载在DUP卡上,DPU支持NVMe over Fabric卸载、支持加密等安全能力卸载
44、,通过部分能力卸载,可降低对上层生态的要求,与前述盘框型厂商和系统型厂商的EBOF或微存储等结合实现端到端解决方案。典型厂商有:英伟达、英特尔、中科驭数、云豹智能、大禹智芯、北中网芯、星云智联、云脉芯联等。英伟达的BlueField系列DPU和中科驭数的KPU,通过硬化的芯片能力实现对网络处理、安全和存储能力卸载,同时实现网络虚拟化、硬件分离资源池化等基础设施服务,为云端、数据中心带来加速、安全的基础设施。3.网卡型厂商:通过网存协同,向下构建新的存储基础设施层,向上通过DPU生态编程框 架构建生态根据IDC的预测,数据中心对弹性灵活的分离池化架构需求将以每年近60%的速度增长,2023年市场
45、规模将达到34亿美元。未来数据中心采用高效、集约的分离池化Diskless架构趋势不可阻挡。业界创新实践21技术挑战与机遇展望0522算力、网络和介质等底层技术的变化,为数据中心带来从以CPU为中心的紧耦合架构、向存算分离的Diskless架构变革的新机会。未来,Diskless架构将会围绕Server无状态化、DPU网存协同、存储盘芯协同、大内存池化、低时延内存语义访问等技术进行持续探索。然而,构建这类系统并充分发挥其潜在效率,也面临技术、生态等方面的挑战,需要产业界、学术界专家共同探索解决。首先,计算和存储之间的数据访问接口及标准主要采用“主-从”请求响应模式,并以传输块存储语义为主。但随
46、着内存盘、计算型盘、智能网卡异构算力的快速发展,内存访问语义、计算协同存储语义等方面的表现能力出现不足。其次,如何与已有生态应用结合,最大限度地发挥各种基础设施地潜力;如何设计更高效的应用服务框架与上层应用协同等,也是一个长期而艰巨的任务。5.1技术挑战根据中国信通院2022年的数据,近年来,中国数据中心机架规模稳步增长,截至2021年底,我国在用数据中心机架规模达到520万架,近五年年均复合增速超过30%,其中大型数据中心占比达到80%。同时,在国家双碳、东数西算等战略要求下,对数据中心绿色低碳、节能减排的诉求越来越高。算力的高速增长下,如何避免因存储、网络等限制造成算力浪费的问题?受功耗预
47、算和碳排放配额限制,如何建设绿色集约的数据中心基础设施?这些都将成为未来新型数据中心面临的关键挑战。可以预见的是,在众多等行业先行者的推动下,Diskless架构将凭借灵活的架构、精细化的资源利用率、绿色低碳的能耗比等优势,帮助数据中心破解上述难题,在我国宏大的数字化进程下,迎来最佳的历史发展机遇。5.2机遇展望技术挑战与机遇展望231.舒继武.(2022).新型存算分离架构技术展望.中国计算机学会通讯第11期2.Jean S.Bozman,Katherine Broderick.(2010).Server Refresh:Meeting the Changing Needs of Enter
48、prise IT with Hardware/Software Optimization.IDC3.Tao Zhang,Aviad Zuck,Donald E.Porter,Dan Tsafrir.(2017).Flash Drive Lifespan is a Problem.HotOS4.Svilen Kanev,Juan Pablo Darago,Kim Hazelwood,Parthasarathy Ranganathan,Tipp Moseley,Gu-Yeon Wei,David Brooks.(2015).Profiling a warehouse-scale computer.
49、ISCA5.华为.(2021).智能世界2030报告.智能世界2030论坛6.华为.(2021).计算2030.智能世界2030论坛7.Jeff Denworth.(2022).Building The Storage Ecosystem For HyperScale.vast data.https:/ Weiner,et al.(2022).TMO:Transparent Memory Offloading in DatacentersC.ASPLOS9.Brad Reger.DPUs Empower New Storage Architecture for NVMe-oF Targets.Flash Memory Summit 202210.阿里云.(2022).什么是PolarDB.阿里云.https:/ Aurora.Amazon.https:/ Kubernetes Authors.(2022).Kubernetes Documentation:Volumes.Kubernetes.https:/kubernetes.io/docs/concepts/storage/volumes/参考文献24参考文献