《中国工商银行&云豹智能:2023年DPU金融行业发展白皮书(63页).pdf》由会员分享,可在线阅读,更多相关《中国工商银行&云豹智能:2023年DPU金融行业发展白皮书(63页).pdf(63页珍藏版)》请在三个皮匠报告上搜索。
1、北京金融科技产业联盟2023 年 11 月DPU 金融行业发展白皮书I版权声明版权声明本报告版权属于北京金融科技产业联盟,并受法律保护。转载、编摘或利用其他方式使用本白皮书文字或观点的,应注明来源。违反上述声明者,将被追究相关法律责任。DPU 金融行业发展白皮书II编委会主编:聂丽琴编委:刘承岩张学利沈健执笔:王鑫沈震宇杨晓峰王启宇黄明飞陈文斌郭建强赵真孙传明杜冲邓德源刘继江张乾海阚立宸杜建成参编单位:北京金融科技产业联盟秘书处中国工商银行金融科技研究院深圳云豹智能有限公司北京火山引擎科技有限公司DPU 金融行业发展白皮书III前言前言党的二十大报告提出,要增强国内大循环内生动力和可靠性,提升
2、国际循环质量和水平。这既离不开金融对资源配置的引导优化,也离不开科技创新在激发市场活力方面的重要作用。“十四五”时期,我国开启全面建设社会主义现代化国家新征程,数据成为新的生产要素,数据技术成为新的发展引擎,数字经济浪潮已势不可挡。2023 年 2 月,中共中央、国务院印发数字中国建设整体布局规划(以下简称规划),指出建设数字中国是数字时代推进中国式现代化的重要引擎,是构筑国家竞争新优势的有力支撑。加快数字中国建设,对全面建设社会主义现代化国家、全面推进中华民族伟大复兴具有重要意义和深远影响。规划明确了数字中国建设将按照“2522”的整体框架进行布局,“2522”中的第一个“2”即夯实数字基础
3、设施和数据资源体系“两大基础”。数字中国建设是数字金融发展的重要契机,对金融行业的数字化发展指出了明确的方向,也契合了我国促进数字经济高质量发展的总体规划。在云计算、大数据、5G、人工智能等技术的蓬勃发展下,金融云也迎来了发展的契机。金融云依据自身特点对云计算基础设施建设提出了更加严苛的要求,提供高效、安全、高容灾和高可用的云基础设施是金融云发展的重要关切点。中国工商银行高级金融科技专家刘承岩谈到中国工商银行高级金融科技专家刘承岩谈到:“以云计算为核心的数据中心,是金融机构数字化转型的核心基础设施。与公DPU 金融行业发展白皮书IV有云不同,金融行业在追求计算多样化、高性能的同时,更加注重系统
4、的安全可靠、绿色高效和开放兼容。当前,软件定义的云计算架构主要依靠 CPU 算力进行相关云资源的抽象,而随着计算规模和网络带宽的增大,用于云管控和 IO 处理的 CPU 开销越来越大,以 CPU 为核心的云计算架构正在向软硬协同的新型架构演进。从业界实践来看,以数据加速处理为核心,具备通用可编程能力的 DPU 处理器是支撑软硬协同云计算架构的关键。通过将云平台的控制面和数据面卸载至 DPU,并根据金融场景进行定向优化,实现更低的单位算力成本,更高的 IO 性能,以及更灵活安全的云管控,将是更加云原生的计算架构。然而,当前 DPU、服务器、云操作系统之间的生态并不完善,制约着金融云架构的演进,需
5、要产业侧和用户侧共同推进构建良性、开放的生态,以促进云原生金融云算力的全行业落地”。面向云基础设施的通用数据处理器(Data Processing Unit,以下简称 DPU)是连接算力资源和网络资源的关键节点。DPU 要解决的不仅是云基础设施“降本增效”的问题,也要解决现有云计算应用中网络资源与算力资源发展不协调的问题。随着各种应用在云环境中部署的复杂度持续增高和规模的不断扩展,数据交换不再仅仅是简单的服务器之间的数据搬运,还需要对数据进行有效的智能化处理。传统网卡(NIC)及其后续的智能网卡(SmartNIC)由于自身技术结构的限制,无法在飞速发展的云计算应用中满足数据交换和智能化处理的需
6、求,正在被 DPU 这种通DPU 金融行业发展白皮书V用数据处理器所取代。DPU 作为通用的数据处理器,不是对 NIC或 SmartNIC 的简单替代,而是对网络基础架构的本质改变。DPU本身所具有的通用可编程特性、低时延网络、统一资源管控以及持续发展的加速卸载特性,使得 DPU 正在促进云计算应用从架构上实现优化和重构。DPU 作为通用数据处理的基础部件,主要聚焦当前应用中消耗 CPU、GPU 算力资源的网络、存储、安全以及和应用相关的数据处理任务。DPU 将这些任务从 CPU、GPU 中卸载下来,释放 CPU、GPU 的算力,支撑 CPU、GPU 发挥更大的效能。针对金融云的发展需求,DP
7、U 本身具有的特点和能力,能很好地促进金融行业的数字化转型。本白皮书分析了金融行业在云部署中的发展趋势及面临的行业挑战,概述了 DPU 的技术演进历程、生态发展和典型案例,系统阐述了 DPU 技术在促进金融云绿色低碳发展方面的重要作用和应用实践,加快助力金融行业构建开放共享、稳定可靠、高效绿色、自主可控的金融级安全云平台。DPU 金融行业发展白皮书VI目录目录一、云原生浪潮下金融行业云基础设施的发展趋势和挑战.1(一)发展趋势.1(二)行业挑战.5二、DPU 发展与趋势.11(一)DPU 历史演进.11(二)DPU 生态发展.17(三)DPU 典型案例.19三、基于 DPU 构建绿色低碳金融云
8、.24(一)统一部署弹性调度.25(二)计算实例高可用.28(三)加速云原生网络.29(四)加速云原生存储.31(五)加速微服务应用.33(六)加速云原生安全.34(七)加速大模型训练.35(八)提升计算资源利用率.36四、DPU 在金融云的应用分析.41(一)弹性裸金属.41(二)零信任安全.43(三)高性能扁平化容器网络.45(四)人工智能大模型.47五、DPU 在金融云平台发展中的展望.50六、结语.52插图附录.54缩略语.55DPU 金融行业发展白皮书1一、云原生浪潮下金融行业云基础设施的发展趋势和挑战(一)发展趋势(一)发展趋势在云原生技术快速发展、经济与商业模式正发生深刻变化的背
9、景下,金融云平台作为金融行业数字化转型的依托,在金融行业生态格局中扮演着非常重要的角色。金融云包含平台基础设施(IaaS)、应用平台(PaaS)和金融生态(SaaS)3个层面(如图1所示),其中基础设施是构建体系完备、规模超大、自主可控和灵活高效的金融云平台的基石。图 1 金融云平台1.绿色计算与低碳发展1.绿色计算与低碳发展在碳达峰碳中和的双碳背景下,金融机构也在绿色转型和数字化转型升级中寻求突破,促进绿色计算和数字低碳技术创新。有数据显示,我国数据中心年用电量在全社会用电量中的比DPU 金融行业发展白皮书2重正在逐年升高,为确保实现碳达峰碳中和目标,就需要在数据中心建设模式、技术、标准和可
10、再生能源利用等方面进一步挖掘节能减排潜力。近年来,云计算发展迅猛,其本身就是一种绿色技术,提高了CPU的整体利用率。通过聚集计算资源和转移工作负载,云的资源利用率持续得到提高。推动数据中心绿色可持续发展,加快节能低碳技术的研发应用,提升能源利用效率,降低数据中心能耗,从而实现绿色计算与低碳的发展目标。2.部署模式多样化2.部署模式多样化金融领域云计算部署模式主要包括私有云、团体云以及由其组成的混合云等。在实际的落地部署中,不论是采用私有云建设方式,还是采用与第三方合作的公有云建设方式,亦或混合云建设方式,越来越多的金融企业都在尝试利用云计算技术来降低运营成本,促进产品创新。当前,越来越多的金融
11、机构开始尝试将IT 业务搭建在云上,而未来这一趋势还将不断深化。私有云或者混合云的建设模式在传统银行、证券等企业中得到青睐,而公有云模式则成为大量新兴互联网金融企业的选择,通过与第三方公有云厂商合作,得以实现自身业务的快速扩展,业务快速上线。金融业务上云呈现多样化的趋势,不同的金融企业也正在根据自身情况选择适合自身发展的建设模式。3.稳定与敏捷并存3.稳定与敏捷并存当前金融业务的发展中,既有针对稳态业务的高稳定性、高DPU 金融行业发展白皮书3可靠性、高安全性要求,也有针对大数据、人工智能、区块链等新数字化技术业务的敏捷支持要求。随着金融业务规模的不断扩大,以及面向互联网业务场景的不断丰富,传
12、统金融行业的信息管理系统已经严重制约了金融行业向数字化转型的发展。一方面,越来越多的用户通过互联网进行经济活动(例如查询信息、购物和理财等)。另一方面,金融行业也正在借助与互联网技术的结合推出更多业务,增加用户量及用户黏性。因此对未来的金融云平台提出了新的需求。在资源利用上,需要对资源进行池化管理,解耦计算、存储、网络和安全,从而实现对计算、存储、网络和安全资源的统一高效调度管理,进而实现透明、按需供给的资源管理模式。在安全上,不仅是现有的应用层数据需要安全监控和管理能力,随着金融业务的不断变化,虚拟化层的引入以及基于云原生的容器、微服务的应用部署也需要依赖整个云原生平台的安全监控和管理能力。
13、总体上,需要在实现安全和高效的前提下,保证具有高容灾和高可用性。4.安全可信与可控4.安全可信与可控随着金融业务上云的不断深化,经济活动安全越来越受到国家和监管部门的重视。金融行业对于数据的安全性和合规性要求非常高,金融云需要提供高度安全的数据存储和传输机制,确保客户敏感信息的保护和隐私安全。因为金融业务中涉及大量的资金、交易、用户隐私信息等敏感数据,所以对数据和隐私保护有更高的安全要求,这直接关系到国家的经济安全,同时也影响着DPU 金融行业发展白皮书4老百姓生活的方方面面,使得金融云服务的安全可靠、可信、可控成为其发展必须满足的条件。当前,金融云发展所面临的安全问题并没有完全有效解决,已成
14、为阻碍金融云发展的障碍之一。对数据加密性要求最高的金融行业将整体系统上云之后,建设更高的安全、可信、可控的金融云平台是未来的必然趋势。5.高可用需求5.高可用需求金融行业对规划、建设和运维的专业性要求也非常高,从规划、建设到各个系统的迁移和管理,都与其他行业的云服务有着很大的不同,在行业和系统内部都有着严格的规范要求。针对高可用性,规范就要求云计算平台应具备软件、主机、存储、网络节点、数据中心等层面的高可用保障能力,能够从严重故障或错误中快速恢复,保障应用系统的连续正常运行,满足金融领域业务连续性要求。由于金融行业的特殊性,高可用是金融云基础设施建设中需要重点关注的问题。随着金融应用数量和类型
15、的不断增加,以及对网络复杂度的要求也越来越高,高可用性成为金融云持续发展的重要保障。6.数据分析和AI能力支撑6.数据分析和AI能力支撑随着 AI 的发展,金融行业越来越多地使用数据分析和人工智能来优化业务决策和风险管理。因此,金融云通常会提供数据分析和 AI 训练推理的能力。此外,通用人工智能(AGI)所取得的成果使人们看到了一种可能性,即依托基础大模型的训练结果,DPU 金融行业发展白皮书5针对垂直领域特定场景和行业进行精细化模型训练,使 AI 在垂直领域实现落地应用,提高生产率。金融云平台在这个层面也在逐步加大投入,为 AI 训练提供网络和算力的基础设施支撑。总体而言,在金融云基础设施向
16、云计算架构的发展过程中,需要着力打造具有快速响应、弹性伸缩、高可用、低成本和安全的云计算环境。在整体的演进过程中,也面临着诸多挑战需要一一克服,这些挑战主要体现在以下方面。(二)行业挑战1.资源利用率低(二)行业挑战1.资源利用率低为支撑应用平台(PaaS)和金融生态(SaaS)的服务功能,在基础设施(IaaS)层需要对计算、网络以及安全等基础资源进行优化和管理。目前在 PaaS 和 SaaS 层,金融云的应用有着向以微服务为主,采用容器、K8s 集群、Service Mesh 等管理框架实现管理和部署的趋势。这种“容器+微服务”的方式将基础设施的计算资源释放给上层使用,容器技术拥有自身独特的
17、优势,尤其是在金融云平台的生产环境中得到了广泛应用。然而容器技术的发展却对基础设施的资源管控提出了新的挑战,通过微服务,将复杂系统拆分为易于开发和维护的服务单元,从而实现敏捷性开发,例如 Kubernetes,Istio 等框架和方案都是这种思想的应用和实践。但是,随着各种应用程序组件分布在不同的服务器和虚拟机之中,带来了东西向流量业务激增。这些激增的东西向流量主要是来自不同虚拟机之间、不同容器应用之间的通信流量。DPU 金融行业发展白皮书6这种微服务架构带来了分布式系统的复杂性,每个服务需要进行管理、调度和监控,这些管理组件的引入,无疑加重了额外的资源管理开销。随着容器和微服务部署规模的扩大
18、,Kubernetes、Istio 组件消耗的主机 HOST 算力资源的比重将逐渐增大,最终将导致云计算平台无法提供有效的算力资源给容器和微服务应用,极大降低了金融云平台对计算资源的有效利用。2.部署模式的挑战2.部署模式的挑战在云计算技术金融用规范的要求中,明确金融云平台在实际的部署过程中,首先必须秉持安全优先、对用户负责的原则,根据信息系统所承载业务的重要性和数据的敏感性、发生安全事件的危害程度等,充分评估可能存在的风险隐患,谨慎选用与业务系统相适应的部署模式。所以,如何选择金融云平台系统的部署模式是极具挑战的任务。目前,金融领域云包括私有云,团体云和混合云等多种模式,为了承载不同的业务需
19、求就需要灵活的部署模式,这是未来的发展方向,但当前面临的问题是如何有效管理这种灵活多变的部署模式。从私有云的这个单点上来看,私有云是企业传统数据中心的延伸和优化,可以针对各种功能提供网络、存储、计算资源。在金融云领域,私有云是金融企业单独使用并构建的,对数据、安全和服务质量有自身的要求,需要根据特定的应用场景进行适配,这就对私有云部署过程中具体软件和硬件的底层基础设施技术的支撑提出了要求。通常,金融机构和企业更加关注自身业务DPU 金融行业发展白皮书7的研发和应用,对底层基础设施技术的掌控和管理并不是强项。这就增加了金融企业在部署私有云过程中的成本和技术风险,因为在实现自身私有云应用需求的时候
20、,很难根据来自不同软硬件供应商的软件、硬件组件增加符合自身业务需求的功能。另一个层面,从私有云、团体云和混合云相组合的这个面上来看,也更具挑战性。不同云部署模式下的管理和互联互通也是目前面临的挑战之一。总体而言,金融云平台在部署模式上的挑战是没有成熟和标准的云平台部署方案,需要金融企业投入大量的自有研发力量来进行定制化开发。3.资源弹性不足3.资源弹性不足资源弹性不足主要体现在如下方面。一是一是金融云平台面对的业务类型复杂多变,为了应对不同的业务需求通常会存在多数据中心以及多集群部署情况,资源的调度和编排受到跨集群能力的限制。二是二是实际业务运行过程中存在峰值波动的情况,这就需要整个云平台具有
21、自动伸缩能力,当前的资源管控在面对跨集群、跨资源(例如计算资源、存储资源、网络资源池化之后的管理和调度)管控时能力不足。三是三是裸金属服务器的弹性不足,目前裸金属服务器需要进行操作系统自动安装,创建和回收速度较慢,并且无法迁移。四是四是受到容灾和高可用技术实现的限制,为了保证可靠的业DPU 金融行业发展白皮书8务服务能力,不得不采用折中的双备份资源的方式,但是这样的实现模式限制了资源的灵活调配能力。4.安全防护的挑战4.安全防护的挑战云原生技术在金融云平台的使用促进了金融云的数字化进程,以容器和微服务为代表的云原生技术得到了大力发展,同时基于云原生技术的安全性也得到了更多的关注。在基于容器和微
22、服务提供高可靠、高灵活、高性能的情况下,高安全也非常重要。这里的安全尤其指基于 Docker 和 K8s 的容器安全。从云原生平台的架构来看会面对来自不同层面的挑战。首先,首先,在容器及 K8s 层面,镜像安全、容器运行时安全、容器网络安全、权限安全等问题需要进行管理和监控。其次,其次,在平台层面,集群隔离、租户安全、用户隔离等问题也对云平台提出了要求,当前云平台对资源的分散管理更凸显了这个问题。基于如上因素,一个典型的挑战来自针对东西向流量的安全管控。如上所述,云原生技术的应用大大增加了数据中心服务器之间的数据交换(东西向流量),有数据表明东西向流量在数据中心总流量中的占比接近 80%,这就
23、面临一个问题,一旦攻击者绕过南北向流量的边界防御,就可能在内网中肆意蔓延,如何有效控制内网中的东西向流量成为一个重要的安全问题。采取更严格的细粒度安全模型是解决这个挑战的路径之一,其中分布式防火墙技术可以将安全和工作负载在细粒度上联系起来。但是,是DPU 金融行业发展白皮书9采用纯软件方式、还是其他软硬一体的解决策略也需要具体分析和讨论。这些因素都对金融云平台在安全防护上提出了持续的挑战。5.高可用的挑战5.高可用的挑战云原生技术在企业实际场景中的实施落地,特别是在金融场景的实施落地,仍然面临诸多挑战。如何实现金融云平台的高可用性是当前的挑战之一。金融云平台的高可用是一个系统级平台层面的要求,
24、是分布式系统架构设计中必须考虑的因素之一。架构实现上可以通过冗余和自动故障迁移来实现,在故障迁移方面,首先就需要能够识别故障,能够在技术风险事件中有全链路的监控和管理能力。这就包括事件发生前、发展中、发生后的连续的业务监控和追溯能力。具体到风险事件发生前,就需要具备日常业务巡检、故障演练、业务监控,建立风险发现等手段;在风险事件发生时,需要具备应急管理快速拉起应急流程的能力,完成故障快速诊断,并通过应急预案、容灾切换实现故障的快速恢复;在风险事件结束后,需要具备风险管理回溯、复盘等机制,加固风险事件发现和诊断能力。这些能力和手段保证了高可用性的实现,但这些功能的具体实现依托于具体的基础设施(I
25、aaS)所能提供的能力。在高可用层面一个有代表性的挑战来自裸金属的应用,在裸金属应用中需要额外的网关服务器来承担虚拟化网络的开销,在 PXE 装机,本地盘迁移等能力上性能不高且耗时长。基于这些基本的能力现状,裸金属服务器在出现硬件故障时,无法DPU 金融行业发展白皮书10像虚拟机一样在短时间内恢复或迁移,不能满足故障应急需要,无法提供高可用能力。另外还有其他的情形,例如容器平台的宿主节点使用了 IaaS 虚拟机且启用了 SDN 网络,当容器平台启用CNI 特性时,容器平台上的应用就可以和 IaaS 虚拟机的业务应用直接通信。如果和传统网络中的旧应用通信,则需要开启 IaaS的 NAT 特性或者
26、为宿主节点配置 EIP 地址。可以看到,不同业务部署和实现方法对保证高可用性需要提供针对性的功能实现,一方面增加了适配开发的工作量和维护成本,另一方面无法解耦软件与软件之间、软件与硬件之间的耦合性。6.人工智能大模型训练难度大6.人工智能大模型训练难度大大模型通过海量数据的训练学习,具备了强大的语言理解和表达、思维链推理等能力,在文本图像理解、内容生成等人工智能任务中表现出显著优势和巨大潜力。相较于传统人工智能算法一事一议的建模方式,大模型具备更强的通用能力,可处理多种任务,可较好解决传统模型的碎片化问题。大模型作为一种新型人工智能技术,在金融领域的应用范围涵盖了风险管理、欺诈检测、语音识别和
27、自然语言处理等方面。通过人工智能大模型可以提高金融行业的应用效率,降低成本,提高精确性和安全性,并且为客户和投资者提供更好的服务和体验。训练一个大模型当前主要面临以下几方面挑战。(1)内存墙。(1)内存墙。GPT3 模型拥有 1700 亿的参数,光内存消耗需要近 800GB。训练过程因为会有权重、激活、优化器状态,再DPU 金融行业发展白皮书11加上自动微分所产生临时变量,需要 3500GB 内存,一个大模型的训练就需要 100 多块具有 32GB 内存的 GPU。随着大模型的发展,参数会变得越来越大。而 GPU 与 GPU 之间的内存如何高效的进行交换,对大模型的训练效率有直接影响。(2)通
28、信墙。(2)通信墙。大模型通过模型并行、流水线并行切分到大模型训练集群后,通讯便成了主要的性能瓶颈。对于大规模的深度学习模型,动辄需要几百甚至几千张 GPU 卡的算力,服务器节点多,跨服务器通信需求巨大,使得网络性能成为 GPU 集群系统的瓶颈。传统基于以太网络的 TCP 通信方式,不仅时延高,而且极大消耗了宝贵的计算资源和内存带宽资源,不能满足大规模的深度学习的网络通信需求。(3)存储墙。(3)存储墙。大模型训练过程中需要读取和存放海量数据到磁盘中,如何高效存放这些数据,以及集群中的 GPU 如何共享这些数据将直接影响到大模型训练的时间。二、DPU 发展与趋势(一)DPU 历史演进(一)DP
29、U 历史演进随着云计算、虚拟化技术的发展,网卡也随之发展,从功能和硬件结构上基本可划分为 4 个阶段。1.传统基础网卡(NIC)。1.传统基础网卡(NIC)。负责数据报文的收发,具有较少的硬件卸载能力。硬件上以 ASIC 硬件逻辑实现网络物理链路层,以及 MAC 层的报文处理,后期 NIC 标卡也支持了,诸如 CRC 校验的功能。不具有编程能力。DPU 金融行业发展白皮书122.智能网卡(SmartNIC)。2.智能网卡(SmartNIC)。具备一定的数据平面硬件卸载能力,例如 OVS/vRouter 硬件卸载。硬件结构上以 FPGA 或者是带有 FPGA 和处理器内核的集成处理器(这里处理器
30、功能较弱)来实现数据面硬件卸载。3.FPGA+CPU 的 DPU 网卡(FPGA-Based DPU)。3.FPGA+CPU 的 DPU 网卡(FPGA-Based DPU)。兼具智能网卡功能的同时,可以支持数据面和控制面的卸载以及一定的控制平面与数据平面的可编程能力。硬件结构的发展上,基于 FPGA增加了通用 CPU 处理器,例如 Intel CPU。4.DPU SoC 网卡(Single-Chip DPU)。4.DPU SoC 网卡(Single-Chip DPU)。单芯片的通用可编程 DPU 芯片,具备丰富的硬件卸载加速和可编程能力,支持不同云计算场景和资源统一管理特性。硬件上,采用单芯
31、片的 SoC 形态,兼顾性能和功耗。FPGA-Based DPU 在硬件设计上的挑战主要来自芯片面积和功耗。面积上,PCIe 接口的结构尺寸限定了板上的芯片面积;功耗上,板卡的散热设计与芯片和整板的功耗密切相关。这两个因素制约着 FPGA 方案的持续发展。DPU SoC方案吸取了从 NIC 到 FPGA-Based DPU 的发展过程的软硬件经验和成果,是目前以 DPU 为中心的数据中心架构的重要演进路径。DPU 作为软件定义芯片的典型代表,基于“软件定义、硬件加速”的理念,是集数据处理为核心功能于芯片的通用处理器。DPU 通用处理单元用来处理控制平面业务,专用处理单元保证了数据平面的处理性能
32、,从而达到了性能与通用性的平衡。DPU 专用处理单元用来解决通用基础设施虚拟化的性能瓶颈,通用处理DPU 金融行业发展白皮书13单元则保证 DPU 的通用性,使得 DPU 能够广泛适用于云基础设施的各种场景中,实现虚拟化软件框架向 DPU 的平滑迁移。1.NIC的发展和应用1.NIC的发展和应用传统基础网卡 NIC,又称网络适配器,是构成计算机网络系统中最基本和最重要的连接设备,其主要工作是将需要传输的数据转换为网络设备能够识别的格式(如图 2 所示)。图 2NIC 在虚拟化中应用在网络技术发展的带动下,传统基础网卡的功能也更加丰富,已经初步具备了一些简单的硬件卸载能力(如 CRC 校验、TS
33、O/UFO、LSO/LRO、VLAN 等),支持 SR-IOV 和流量管理 QoS,传统基础网卡的网络接口带宽也由原来的百兆、千兆发展到 10G、25G 乃至100G。在云计算虚拟化网络中,传统基础网卡向虚拟机提供网络接入的方式主要分为以下 3 种。DPU 金融行业发展白皮书14(1)网卡接收流量经操作系统内核协议栈转发至虚拟机。(2)由 DPDK 用户态驱动接管网卡,让数据包绕过操作系统内核协议栈直接拷贝到虚拟机内存。(3)使用 SR-IOV 技术,将物理网卡 PF 虚拟化成多个具有网卡功能的虚拟 VF,再将 VF 直通到虚拟机中。随着 VxLAN 等隧道协议以及 OpenFlow、OVS
34、等虚拟交换技术的应用,网络处理的复杂度在逐渐增大,需要消耗更多的 CPU 资源,因此智能网卡 SmartNIC 诞生了。2.SmartNIC的发展和应用2.SmartNIC的发展和应用智能网卡 SmartNIC 除了具备传统基础网卡的网络传输功能外,还提供丰富的硬件卸载加速能力,能够提升云计算网络的转发速率,释放主机 CPU 计算资源(如图 3 所示)。图 3SmartNIC 在虚拟化中应用DPU 金融行业发展白皮书15智能网卡 SmartNIC 上没有通用处理器 CPU,需要主机 CPU进行控制面管理。智能网卡 SmartNIC 主要卸载加速对象是数据平面,如虚拟交换机 OVS/vRoute
35、r 等数据面 Fastpath 卸载、RDMA网络卸载、NVMe-oF 存储卸载以及 IPsec/TLS 数据面安全卸载等。但是随着云计算应用中网络速率的不断提高,主机仍会消耗大量宝贵的 CPU 资源对流量进行分类、跟踪和控制,如何实现主机 CPU 的“零消耗”成了云厂商下一步的研究方向。3.FPGA-Based DPU网卡的发展和应用3.FPGA-Based DPU网卡的发展和应用相比智能网卡 SmartNIC,FPGA-Based DPU 网卡在硬件架构上增加了通用 CPU 处理单元,组合成 FPGA+CPU 的架构形态,从而便于实现对网络、存储、安全和管控等通用基础设施的加速和卸载(如图
36、 4 所示)。图 4DPU 在虚拟化中应用DPU 金融行业发展白皮书16在这个阶段中,DPU 的产品形态主要以 FPGA+CPU 为主。基于 FPGA+CPU 硬件架构的 DPU 具有良好的软硬件可编程性,在 DPU发展初期大部分 DPU 厂商都选择了这个方案。该方案开发时间相对较短且迭代快速,能够迅速完成定制化功能开发,便于 DPU 厂商快速推出产品,抢占市场。但是随着网络带宽从 25G 向 100G的迁移,基于 FPGA+CPU 硬件架构的 DPU 受到芯片制程和 FPGA 结构的限制,导致在追求更高吞吐能力时,难以做到对芯片面积和功耗的很好控制,从而制约了这种 DPU 架构的持续发展。4
37、.DPU SoC网卡的发展和应用4.DPU SoC网卡的发展和应用DPU SoC 是基于 ASIC 的硬件架构,结合了 ASIC 和 CPU 的优势,兼顾了专用加速器的优异性能和通用处理器的可编程灵活性的单芯片 DPU 技术方案,是驱动云计算技术发展的重要因素。如前一段所述,虽然 DPU 在云计算扮演着重要的作用,但传统的 DPU 方案多以 FPGA-based 方案呈现,随着服务器从 25G 向下一代 100G 服务器迁移,其成本、功耗、功能等诸多方面受到了严重的挑战。单芯片的 DPU SoC 不仅在成本、功耗方面有着巨大优势,同时也兼具高吞吐和高灵活编程能力,不仅支持虚拟机、容器的应用管理
38、部署,也支持裸金属应用(如图 5 所示)。DPU 金融行业发展白皮书17图 5 DPU SoC 在虚拟化和裸金属中的应用随着 DPU 技术的不断发展,通用可编程的 DPU SoC 正在成为云厂商在数据中心建设中的关键部件。DPU SoC 可以实现对数据中心中的计算资源和网络资源的经济高效管理,具备丰富功能和可编程能力的DPU SoC可以支持不同云计算场景和资源统一管理,优化数据中心计算资源利用率。(二)DPU 生态发展(二)DPU 生态发展可以看到 DPU 技术是由需求驱动,然后快速发展起来的新技术形态。近几年来,经过国内外互联网公司在不同应用场景下的尝试和验证,取得了不错的成本收益。例如在国
39、外 AWS 使用 NitroDPU 系统把网络、存储、安全和监控等功能分解并转移到专用的硬件和软件上,将服务器上几乎所有资源都提供给服务实例,降低了数据中心总体的运行成本;在国内阿里云发布了云基础设施处理器 CIPU,实现了网络、存储、虚拟化全硬件卸载。DPU 金融行业发展白皮书18随着 DPU 技术的不断完善和功能定位的逐步明晰,DPU 的生态建设也在积极推进,在行业内取得了很大的进展。在国外,首先 Nvidia 推动 DOCA 软件栈的发展,促进和降低终端用户对 DPU 的使用门槛。从 CUDA 软件生态之于 Nvidia GPU的作用,可以看到 DPU 软件生态对 DPU 技术发展的重要
40、性,因此DOCA 广泛受到了业界的持续关注。其次,除了 DOCA 之外,OPI(Open Programmable Infrastructure,开放可编程基础设施),在 2022 年 6 月由 Linux 基金会发布,旨在为基于 DPU/IPU 等可编程硬件承载的软件开发框架培育一个由社区驱动的开放生态,简化应用程序中的网络、存储和安全 API,从而在开发运维、安全运维以及网络运维之间的云和数据中心中实现更具可移植性和高性能的应用程序。在国内,也在积极推进 DPU 产业的软件生态建设。例如,2023年 6 月 ODPU 作为算网云开源操作系统(CNCOS)项目 1.0 的子项进行了发布,在
41、DPU 管理、计算卸载、存储卸载、网络卸载、安全卸载和 RDMA 支持等方面提供通用软件开发框架和兼容性接口。与此同时,如中国信息通信研究院、中国通信标准化协会等部门和组织,也在制定积极制定相应的标准,从多个维度,例如兼容性规范、硬件编程规范、应用生态接口规范等维度,来实现 DPU的软硬件解耦和互联互通的互操作能力。当前,国内外都在围绕着 DPU 这个新兴技术积极推进相关软硬件生态的开发和迭代。并且,立足于国内,无论从行业本身还DPU 金融行业发展白皮书19是来自政策的引导,都在积极推动着 DPU 的生态建设和标准化进程。不过需要强调的是,目前 DPU 的生态发展还处在早期。软硬件都还面临诸多
42、挑战。例如在硬件层面,服务器中的电源管理、BMC 带外管控逻辑与 DPU 的需求并不完全匹配;在软件层面还没有形成统一的软件栈(包括 SDK 和运行时环境),也没有完善的定义清晰的 API 接口实现与云平台软件系统的兼容性对接;在操作系统层面,例如 Linux、windows、VMware 以及各类国产操作系统(OpenEuler 等),也面临适配的需求。长期来看,DPU 生态建设是一个不断迭代长期完善的过程。(三)DPU 典型案例(三)DPU 典型案例在 DPU 的设计、开发和使用中,国内外芯片巨头和头部云服务商都投入了大量的研发资源,经过不断探索和实践,取得了很好的成本收益。1.DPU在A
43、WS(亚马逊云)中的应用1.DPU在AWS(亚马逊云)中的应用AWS 是全球领先的云计算服务和解决方案提供商,AWS NitroDPU 系统已经成为 AWS 云服务的技术基石。AWS 借助 Nitro DPU系统把网络、存储、安全和监控等功能分解并转移到专用的硬件和软件上,将服务器上几乎所有资源都提供给服务实例,极大地降低了成本。Nitro DPU 在亚马逊云中的应用可以使一台服务器每年可以多获得几千美元的收益。DPU 金融行业发展白皮书20图 6AWS Nitro DPU(来源 AWS 官网)Nitro DPU 系统主要分为以下几个部分(如图 6 所示)。(1)Nitro 卡。(1)Nitr
44、o 卡。一系列用于网络、存储和管控的专用硬件,以提高整体系统性能。(2)Nitro 安全芯片。(2)Nitro 安全芯片。将虚拟化和安全功能转移到专用的硬件和软件上,减少攻击面,实现安全的云平台。(3)Nitro 控制卡。(3)Nitro 控制卡。一种轻量型 Hypervisor 管理程序,可以管理内存和 CPU 的分配,并提供与裸机无异的性能。Nitro DPU 系统提供了密钥、网络、安全、服务器和监控等功能支持,释放了底层服务资源供客户的虚拟机使用,并且NitroDPU 使 AWS 可以提供更多的裸金属实例类型,甚至将特定实例的网络性能提升到 100Gbps。2.Nvidia DPU的应用
45、2.Nvidia DPU的应用Nvidia 是一家以设计和销售图形处理器 GPU 为主的半导体公司,GPU 产品在 AI 和高性能计算 HPC 领域被广泛应用。2020年 4 月,Nvidia 以 69 亿美元的价格收购了网络芯片和设备公司Mellanox,随后陆续推出 BlueField 系列 DPU。DPU 金融行业发展白皮书21图 7 Nvidia BlueField-3 DPU 介绍(来源 Nvidia 官网)Nvidia BlueField-3 DPU(如图 7 所示)延续了 BlueField-2DPU 的先进特性,是首款为 AI 和加速计算而设计的 DPU。BlueField-3
46、 DPU 提供了最高 400Gbps 网络连接,可以卸载、加速和隔离,支持软件定义网络、存储、安全和管控功能。3.Intel IPU的应用3.Intel IPU的应用Intel IPU 是一种具有硬化加速器和以太网连接的高级网络设备,可使用紧密耦合的专用可编程内核来加速和管理基础设施功能。IPU 提供完整的基础设施卸载,并充当运行基础设施应用的主机控制点,以提供额外的安全层。使用 Intel IPU,可以将全部基础设施业务从服务器卸载到IPU上,释放服务器CPU资源,也为云服务提供商提供了一个独立且安全的控制点。DPU 金融行业发展白皮书22图 8 Intel IPU 产品 roadmap(来
47、源 Intel 官网)2021 年,Intel 在 Intel Architecture Day 上发布了 OakSprings Canyon 和 Mount Evans IPU 产品(如图 8 所示)。其中,Oak Springs Canyon 是基于 FPGA 的 IPU 产品,Mount EvansIPU 是基于 ASIC 的 IPU 产品。Intel Oak Springs Canyon IPU 配备了 Intel Agilex FPGA和 Xeon-D CPU。Intel Mount Evans IPU 是 Intel 与 Google 共同设计的 SoC(System-on-a-C
48、hip),Mount Evans 主要分为 IO子系统和计算子系统两个部分。网络部分用 ASIC 进行数据包处理,性能相比 FPGA 高很多,且功耗更低。计算子系统使用了 16个 ARM Neoverse N1 核心,拥有极强的计算能力。4.DPU在阿里云中的应用4.DPU在阿里云中的应用阿里云也在 DPU 的技术上不断进行着探索。2022 年阿里云峰会上,阿里云正式发布了云基础设施处理器 CIPU,CIPU 的前DPU 金融行业发展白皮书23身是基于神龙架构的 MoC 卡(Micro Server on a Card),从功能和定位符合 DPU 的定义。MoC 卡拥有独立的 IO、存储和处理
49、单元,承担了网络、存储和设备虚拟化的工作。第一代和第二代MoC 卡解决了狭义上的计算虚拟化零开销问题,网络和存储部分的虚拟化仍由软件实现。第三代 MoC 卡实现了部分网络转发功能硬化,网络性能大幅提升。第四代 MoC 卡实现了网络、存储全硬件卸载,还支持了 RDMA 能力。阿里云 CIPU 作为一颗为飞天系统设计的数据中心处理器系统,对于阿里云构建新一代完整的软硬件云计算架构体系有着重大意义。5.DPU在火山引擎中的应用5.DPU在火山引擎中的应用火山引擎同样在不断探索自研 DPU 的道路,其自研 DPU 采用软硬一体虚拟化技术,旨在为用户提供可弹性伸缩的高性能计算服务。在火山引擎弹性计算产品
50、中,第二代弹性裸金属服务器和第三代云服务器都搭载了自研 DPU,在产品能力和应用场景上进行了广泛验证。2022 年正式对外商用的火山引擎第二代 EBM 实例首次搭载火山自研 DPU,在整体性能上既保留了传统物理机的稳定性和安全性优势,能够实现安全物理隔离,又兼具虚拟机的弹性和灵活性优势,是新一代多优势兼具的高性能云服务器。2023 年上半年发布的火山引擎第三代 ECS 实例同样结合了火山引擎自研最新 DPU 的架构和自研虚拟交换机、虚拟化技术,网络及存储 IO 性能均实现了大幅提升。DPU 金融行业发展白皮书24三、基于DPU构建绿色低碳金融云近年来,为落实双碳等国家重大战略,金融业积极实施绿
51、色发展转型。数据中心作为金融业的关键基础设施以及数字经济的重要基础,是金融业发展和数字化转型中的重要抓手。而在数字化转型中,数据中心一方面需要支撑大量数据吞吐和运算能力,另一方面还要面对来自服务器等 IT 产品的散热与功耗挑战,需要大量运维成本和能源消耗,已经成为金融机构的主要开支。党的二十大报告最新提出,要加快发展方式绿色转型,完善支持绿色发展的金融政策和标准体系,发展绿色低碳产业。如何让金融业数据中心建设既满足大量数据吞吐和运算能力的要求,又满足绿色低碳的发展方针成为当前一大难题。当前金融云计算平台架构体系可分为基础硬件设施与设备、资源抽象与控制、云服务、运维运营管理等部分(如图 9 所示
52、)。图 9 云计算平台架构体系DPU 具备高效数据处理、内置安全、网络可编程、弹性资源DPU 金融行业发展白皮书25调度等能力,作为资源调度的中心,可以将计算、存储、网络等硬件设备与云计算架构中的资源抽象层有机结合起来(如图 10所示),充分利用软件定义计算、软件定义网络、软件定义存储等技术提升资源利用率,使得金融云更加灵活弹性,从而助力金融业建设绿色、安全和高效的数据中心,积极践行国家战略。图 10 基于 DPU 的云平台架构体系(一)统一部署弹性调度(一)统一部署弹性调度随着云原生技术的快速发展和大规模应用,当前云原生在金融行业中的落地应用也越来越多,通过将云计算、大数据、区块链等技术和云
53、原生理念有机结合在一起,以实现数据中心计算、存储、网络等资源的弹性调度和弹性伸缩,从而构建跨层级、跨区域的智能化云原生数据中心,最终提升金融行业的运营效率。云原生技术平台可以通过混合云对接多种基础设施,例如容器、虚拟机、裸金属服务器等计算资源。用户可以通过申请或释DPU 金融行业发展白皮书26放云化的计算资源来实现成本的最优化,同时通过云原生的混合调度能力实现各种资源的个性化配置,做到业务的多样化部署。在传统的数据中心中,要满足云原生架构下不同业务对计算资源的个性化需求,一般需要对整个数据中心的资源进行预先分配,划分出容器、虚拟机、裸金属服务器所占资源的比例,并以此比例注册相应的计算资源。同时
54、,为了实现裸金属服务器和虚拟化平台或者容器云平台的互通,一般需要为裸金属服务器单独划定专用的物理交换机来实现裸金属服务器与虚拟化网络的互通(如图 11 所示)。在这种架构下,虚拟机、容器、裸金属服务器所使用的资源都是预先固定的,因此计算资源的类型属于不可调度状态,并不符合云原生的理念。在云原生时代,应用的发展非常迅速,而计算资源实例类型的使用是不可预测的,很可能出现虚拟化资源不够满足需求的情况,而为了满足虚拟化资源就只能通过增加虚拟化服务器来解决资源不足的问题。而此时,若裸金属或者容器所预先分配的资源处于空闲状态,但因为物理上的预先限制而无法转换为虚拟化所需要的资源,依然会占用数据中心的空间和
55、运维等成本,导致计算资源没有完全充分利用,最终出现数据中心的整体利用率不高,而所消耗的运维和能源成本却很高的情况。DPU 金融行业发展白皮书27图 11 传统数据中心架构为使云原生技术在金融行业实现标计算资源标准化和更加灵活的弹性调度,并能更好地支撑对计算、网络和存储等资源进行弹性伸缩,同时又降本增效,让数据中心的计算资源发挥更大的价值,DPU 应运而生。在以 DPU 为中心构建云原生金融数据中心的架构下(如图12 所示),数据中心的建设从一开始就不需要从硬件层面预分配虚拟机、容器、裸金属服务器等计算资源,特别是裸金属服务器不再需要为其单独配置专用的交换机以及相应的裸金属镜像PXE 服务器。通
56、过 DPU 特有的云盘启动能力支持,能够以分钟级提供裸金属计算实例,同时 DPU 能够为裸金属实例提供弹性磁盘和弹性网卡,大幅降低了运维和部署的成本和复杂度。此外,DPU内置虚拟交换机,用户可以根据自己的需要配置相应的虚拟网络,实现原先需要专用交换机才能实现的功能。DPU 金融行业发展白皮书28图 12 基于 DPU 的金融云架构通过 DPU 对数据中心的计算资源虚拟机、容器、裸金属服务器进行统一并池管理,可以大幅提升数据中心空间利用率,降低数据中心能耗,使得数据中心运维更加简单方便,实现从数据中心建设层面践行云原生的理念,打造符合金融行业绿色、高效、灵活、高度集成的云原生数据中心。(二)计算
57、实例高可用(二)计算实例高可用金融云平台对外提供的计算实例主要包括虚拟机、容器、裸金属。在以 DPU 为中心构建的数据中心,通过 DPU 的云盘启动能力,每台服务器可以进行分钟级别的灵活调整,切换角色。根据该特性,云平台对裸金属实例进行生命周期管理,当发现服务器故障或裸金属实例不可达时,首先通过云平台的高可用机制将业务引导到正常状态节点,同时利用 DPU 提供的云盘启动方式将故障的裸金属实例在另外的服务器迅速拉起恢复业务集群到正常DPU 金融行业发展白皮书29状态,实现裸金属实例的高可用。在虚拟机实例方面,DPU 提供硬件级热迁移能力,可以将使用 Passthrough 技术的虚拟机根据需要迁
58、移到合适的节点,在迁移过程中业务不中断。依靠该特性,云平台在监控到宿主机异常或虚拟机异常后,对虚拟机进行热迁移以实现虚拟机实例对外业务的高可用。在容器实例方面,通过把 service mesh 卸载到 DPU 将多个由 DPU 提供网络和存储的容器构建为一个服务网格,通过服务链的方式提供对外服务,当出现容器故障时,利用 service mesh 的自动选路功能保证对外服务正常工作,同时利用云原生平台提供的容器副本监控机制可以快速的将故障容器进行重建,在这两种机制的配合下保证容器实例的高可用。(三)加速云原生网络(三)加速云原生网络随着云计算和容器化技术的发展,云原生架构已经成为现代应用程序的主
59、流架构之一。云原生网络是一种专门为云原生应用程序设计的网络架构,是指在云环境下构建、管理和运行应用程序的网络。这种网络的特点是高度自动化和可编程,以适应云原生下快速变化的应用需求和规模。在云原生网络中,网络功能通常以虚拟化的方式存在,以提供更好的灵活性并做到兼容原有的物理网络设备。在云原生大浪潮下,金融业务相较于传统金融业务更加多元化和规模化,需要更灵活、敏捷的业务和技术架构来支撑。传统的集中式单体业务架构和多层架构已经无法满足业务变化和行DPU 金融行业发展白皮书30业发展的需求。云原生的应用程序通常采用分布式微服务架构,一个应用程序由多个微服务组成,这些微服务之间会频繁地通信和交换,这种架
60、构的特点是能够提升应用程序的可伸缩性和灵活性,这就对网络提出了更高的要求,要做到稳定、高带宽和低时延。目前主流的网络方案还是基于内核协议栈或者虚拟交换机,当业务对带宽和时延的要求比较高时,当前架构就无法满足应用程序对网络的需求。特别是在统一资源管理的需求下,容器、虚拟机、裸金属服务器需要在同一网络平面下,若虚拟机使用虚拟网卡的方式接入网络,网络的带宽和时延都不能得到保证。为了满足应用程序的网络需求,只能增加更多的工作负载,这在另一种程度上降低了数据中心的真实利用率,并带来了更多的运维和能耗成本。DPU 作为数据处理的核心,借由半虚拟化几乎能够达到物理设备性能的特性,DPU 为主机侧提供硬件实现
61、的半虚拟化设备virtio-net,使容器、裸金属服务器和虚拟机都使用统一的网络设备类型进行通信。另外,DPU 内置硬件包处理引擎,可以做到完全卸载虚拟交换机的快速路径到硬件,实现高带宽、低时延的可编程虚拟网络(如图 13 所示)。DPU 金融行业发展白皮书31图 13 基于 DPU 的网络卸载加速(四)加速云原生存储(四)加速云原生存储云原生存储是一种针对云原生应用设计的存储架构,可更好地适应动态的云环境,提高应用的可用性和可伸缩性。云原生存储通常采用分布式存储技术,将数据分散存储在多个节点上,提高存储系统的可靠性和可用性,并支持动态扩展和收缩。常见的云原生存储技术包括如下几种。1.对象存储
62、(Object Storage)。1.对象存储(Object Storage)。对象存储是一种分布式存储方式,将数据分散存储在多个节点上,并使用元数据管理数据。对象存储通常具有高可靠性、高扩展性、高性能和低成本等优点,适用于存储非结构化数据。2.分布式块存储(Distributed Block Storage)。2.分布式块存储(Distributed Block Storage)。分布式块存储将数据分割成块,然后将块分散存储在多个节点上,可以提供高可靠性和高性能,适用于存储结构化数据和虚拟机磁盘。3.分布式文件系统(Distributed File System)。3.分布式文件系统(Dis
63、tributed File System)。分布式文件系统将文件分散存储在多个节点上,并提供文件系统接口,DPU 金融行业发展白皮书32支持多个客户端访问,可以提供高可靠性和高性能,适用于存储大型文件和共享文件。其中虚拟机、裸金属服务器以及一些应用对块存储的性能和延迟、兼容性和互操作性有强烈的需求。目前为了应对这些挑战,普遍的做法是优化存储协议、缓存,采用支持多种存储协议和接口的分布式存储系统。但随着数据规模和数量越来越大,各种应用对存储的带宽、时延等性能指标的要求越来越高,存储系统也变得越来越庞大和复杂。DPU 作为数据处理的核心,一方面可以对裸金属服务器、虚拟机提供标准的半虚拟化设备 vi
64、rtio-blk 和 nvme 设备,同时这些设备的存储后端通过 DPU 可连接各种存储后端(如 iSCSI、NVME、RBD 等),从而节省大量的非计算损耗。另一方面,通过 DPU 提供的 RDMA 技术和内置的存储协议加速引擎,为计算实例提供高带宽、低时延的数据读写,提升数据中心存储资源的效率,降低数据中心存储资源的运维和能耗等成本(如图 14 所示)。图 14 基于 DPU 的存储卸载加速DPU 金融行业发展白皮书33(五)加速微服务应用(五)加速微服务应用伴随着云原生和微服务的技术在金融行业的普及,以及服务网格(Service Mesh)技术的逐渐成熟,解决了金融行业分布式系统的历史包
65、袱。服务网格架构引入 SideCar 使现有的服务可以在不改造的情况下引入了服务治理能力,大大降低了中间件的研发投入和演进成本,也降低了业务和中间件的耦合,基础架构与业务架构可以独立演进。服务网格架构也为多语言栈提供了服务治理能力。面向大规模金融级的微服务应用,引入新系统架构服务网格以实现分布式平台的架构转型和技术组件能力进化。服务网格通过 SideCar 接管业务进程的出入口流量,将微服务治理的逻辑从业务中独立出来,由服务网格框架提供服务鉴定、过载保护、负载均衡等分布式服务治理的功能。尽管 Sidecar 在服务网格中带来许多好处,但它也可能会带来一些缺点。其中一种常见的缺点是延迟,这主要是
66、因为许多服务网格解决方案需要通过Sidecar 来处理网络流量、域名解析和负载均衡等复杂的工作。当本来应该直接在进程内部完成的工作被转移到了 Sidecar 中时,会额外增加一定的延迟。另外,在高负载情况下,Sidecar 还可能成为瓶颈,导致服务的性能下降。并且,随着微服务规模不断扩大,服务网格资源占用量较大的问题逐渐凸显,同时由于服务网格代理进程与业务进程部署在一起共享资源,也存在相互影响的情况。DPU 金融行业发展白皮书34利用 DPU 异构计算进行卸载和加速的技术正不断发展和演进,通过将 SideCar 卸载到 DPU 上,业务和服务网格的关系从“逻辑隔离”演进为“物理隔离”,服务器上
67、只运行业务逻辑。在保持多语言的 RPC SDK 向业务输出能力的同时,对于卸载到DPU 上的 SideCar 部分,通过软硬件结合等方式,将 SideCar重复性、高频的操作用硬件卸载和加速,从而解决了服务网格链路延迟和资源隔离的问题。(六)加速云原生安全(六)加速云原生安全云原生作为一种新的软件开发和部署理念,它强调应用程序的可移植性、可扩展性和弹性。云原生环境中有许多不同的组件和服务,包括容器、微服务、自动化部署工具等。这些新的组件和服务使得安全方面的需求也发生了变化。金融行业是对安全性要求最高的行业之一,因此金融行业的云原生架构需要具备高可用、高可靠、高安全等特点,需要采用一系列安全解决
68、方案来保证整个云原生平台的安全性。在云原生网络中,mTLS 是确保云原生应用程序中微服务之间的通信安全的首选协议。DPU 作为云原生架构中数据处理的核心,对虚拟机、容器、裸金属网络进行卸载加速的同时,可以将mTLS 卸载到 DPU 上,加速微服务安全应用,可以将 IPS,防病毒,防火墙等安全软件部署在 DPU 上并使用 DPI 硬件引擎进行加速,将计算实例产生的流量导入到这些安全软件中,从而构建零信任的网络解决方案,对东西向流量进行节点级的防护。同时,DPUDPU 金融行业发展白皮书35支持国密硬件引擎,能够为数据的加解密提供更高安全的防护。(七)加速大模型训练(七)加速大模型训练随着 AI
69、模型的规模越来越大,分布式训练成为 AI 大模型训练的主要方式。所谓分布式训练,即跨越单台 GPU 服务器的算力限制,使用数据中心不同的物理服务器的 GPU 算力卡,通过高速低延迟网络及存储构建 GPU 计算集群,实现更大规模的、多机多卡的 GPU 并行计算。通过 GPU 分布式训练技术,可以在更短时间内将模型训练到满足工业级应用的精度。GPU 分布式训练优化涉及计算、网络、存储硬件层面,也包括数据并行、模型并行、GPU参数同步通信的算法和软件实现层面,GPU 集群任何一点出现性能短板,都可能会成为整体训练过程中的性能瓶颈关键点,其中,“内存墙”与“通信墙”是 GPU 分布式训练最主要的性能瓶
70、颈点。为了解决“内存墙”与“通信墙”,通常会使用 RDMA 技术和 100G 带宽的网卡。传统的 RDMA 网卡通过 SR-IOV 技术可以拆分出多个 VF 以供虚拟机使用。在云原生架构下,为了资源利用率的最大化,大模型的训练需要做到快速部署训练,需要每个容器、虚拟机都有使用 RDMA 设备的能力,DPU 通常可以支持上千个 RDMA 设备可以充分满足通信需求。同时,通过基于 DPU 的内存和存储交换方案,可以加速 GPU 与存储设备之间,GPU 与 GPU之间的信息交换,降低通信时延,从而降低大模型训练的消耗时间。DPU 金融行业发展白皮书36(八)提升计算资源利用率(八)提升计算资源利用率
71、虚拟化和容器化是云原生技术的核心技术之一,通过虚拟化技术和容器化技术提供的计算资源是云计算基础设施的核心组成部分,也是计算能力的基础。充分利用计算资源是云计算技术一直努力的方向。当前主要通过以下途径来提升计算资源的利用率。1.资源虚拟化。1.资源虚拟化。通过虚拟化技术,可以将物理计算资源划分为多个虚拟计算资源,从而使得计算资源可以更好地被多个租户共享,提高计算资源的利用率。2.弹性计算。2.弹性计算。通过资源动态调度技术,根据应用程序的需要动态调整计算资源的分配,从而实现计算资源的最大化利用,减少计算资源浪费,提高计算资源利用率。3.自动化管理。3.自动化管理。通过自动化管理技术,减少人工操作
72、和管理通过自动化方式完成计算资源的管理和调度,提高计算资源的利用率。随着云原生业务的发展和应用,云原生业务也变得越来越庞大和复杂,各个应用对网络和存储等 IO 的需求也越来越高,单台服务的带宽需求开始从 10Gb 到 25Gb 甚至 100Gb、200Gb 开始转变。为了应对网络和存储对带宽的挑战,各种解决方案也应运而生(如图 15 所示),比如网络使用 XDP 技术加速内核协议栈,使用 DPDK 技术旁路内核协议栈,存储采用 RoCEv2 来加速存储提供更低的带宽和时延等。DPU 金融行业发展白皮书37图 15 旁路内核加速数据处理但这些软件方案随着云原生业务对带宽的要求越来越高,也逐渐面临
73、很多问题。以一台 56 核的服务器,采用 DPDK 技术对网络进行加速为例:单服务器带宽需求为 10Gb 时,需要消耗大概4 个核作为网络转发、52 核作为业务,计算资源利用率为 92%;单服务器带宽需求为 25Gb 时,需要消耗大概 10 个核作为网络转发、46 核作为业务,计算资源利用率为 82%;当服务器带宽需求为 100Gb 时,可能需要消所有的 CPU 核作为网络转发,已经没有资源留给业务了(如图 16 所示)。DPU 金融行业发展白皮书38图 16 基于 CPU 转发的 CPU 利用率图 12 基于 HOST 转发的 CPU 利用率从以上案例中可以看到,随着 IO 的越大,传统的各
74、种 IO 加速方案已经不再适用,如果不引入新的解决方案,那么只能靠更多、更强的服务器来满足业务的 IO 需求,这使得数据中心的真实计算资源利用率十分低下,并大幅提升数据中心的能耗和运维成本。DPU 作为数据处理的核心,内置可编程报文处理引擎,可以将网络、存储所消耗的 IO 资源全部卸载到 DPU 上,完全释放服务器的 CPU 资源,让云原生业务可以 100%利用服务器的计算资源(如图 17 所示)。DPU 金融行业发展白皮书39图 17 基于 DPU 转发的 CPU 利用率在以 DPU 为中心的数据中心架构下,所有 IO 由 DPU 来处理和加速,一方面因为 DPU 低功耗的特点,数据中心 I
75、O 的能耗可以大幅降低。另一方面,计算资源可以 100%用于计算,这提升了单台服务器的计算密度,与同等规模的数据中心相比,该架构可以提供更多的计算资源,提升数据中心的计算资源利用率。以构建一个 1000 台服务器的 IaaS 集群,每台服务器 80core的硬件配置为例,每台服务器要预留出 20%左右的资源给虚拟机的网络、存储和虚拟机生命周期管理。当前服务器的网络带宽一般在 100 万 pps 左右,按照 2vcore,4G 内存的虚拟机规格可以分出 30 个左右网络带宽为 5MB(3 万 pps)带宽的虚拟机。宿主机 CPU 支持超分的能力,一般按 1 比 2 或者更多来超分虚拟机,但是由于
76、网络 IO 瓶颈的存在,无法充分利用 CPU 的能力。DPU可以提供超过 1000 万 pps 的网络性能,可以将虚拟机的超分比DPU 金融行业发展白皮书40做到 1 比 4 甚至 1 比 8。基于以上,综合硬件和运维等成本因素,可以从两个方面计算 DPU 所带来的收益:在提供同等算力的情况下 DPU 可以节省20%的服务器数量,与之对应的成本下降 13%,功耗下降 28%,空间收益 30%。在 1000 台服务器数量不变的情况下,虚拟机的超分比可以进一步提升,可以新增 40%的虚拟机售卖资源(如图 18所示)。图 18 DPU 带来的算力收益金融行业普遍都使用 Kubernetes 作为容器
77、编排平台,Kubernetes 通过节点组件(如 kubelet、containerd 和 runtime)来管理容器化应用程序。尽管这些组件对于 Kubernetes 的正常运行至关重要,但它们也会占用大量的计算资源和存储空间。在以 DPU 为中心的数据中心架构下,通过将节点组件(如 kubelet、containerd 和 runtime)卸载到 DPU 上,可以释放出较多计算资源和大量的存储空间,从而提升主机资源售卖率。DPU 金融行业发展白皮书41在云原生应用中,runV 容器是一种基于轻量级虚拟机技术的容器化解决方案。它利用虚拟化技术提升了容器的隔离性、稳定性和安全性等,同时也支持弹
78、性计算和自动化管理技术,可以根据应用程序的需要动态调整计算资源的分配,从而实现计算资源的最大化利用,减少计算资源浪费。并且 runV 容器与传统虚拟机相比,具有单节点实例密度高的特点:传统虚拟机一般最小支持一核的虚拟机,而 runV 容器可以支持小数核(例如 0.5 核)的虚拟机,进而使得单节点有着更高的实例密度;通过将 runV容器卸载到 DPU 上,可以实现更高效的网络通信和存储访问,减少网络和存储对主机 CPU 的占用,从而提高容器实例密度以及提高计算资源的售卖率。四、DPU在金融云的应用分析DPU 作为一种专用于数据处理的芯片,能够在金融行业云计算架构中实现高效的数据处理和分析,为弹性
79、裸金属、零信任安全等多种应用提供支撑,同时也带来多种优势(例如高性能扁平化容器网络、人工智能大模型加速、微服务应用加速等)。(一)弹性裸金属(一)弹性裸金属基于虚拟机加容器的方案,相比裸金属服务器中间多了Hypervisor 层,可能会导致很多硬件创新无法及时、高效地提供给应用使用,性能也会存在 10%20%的损耗。因此,越来越多的应用选择直接部署在裸金属服务器上。传统裸金属相对于虚拟机,没有虚拟化损耗,性能更加强大,DPU 金融行业发展白皮书42可以提供高带宽低时延的高性能网络,但存在裸金属实例部署交付周期长、运维复杂、架构僵化等问题,同时需要额外的配套设施对服务器进行管理以实现 VPC、S
80、LB 等云平台业务。在传统裸金属的生命周期管理中,运维交付涉及大量的手工操作,产品灵活性较低,一旦物理机出现故障,就无法像虚拟机一样进行迁移快速恢复业务。DPU 能够在云计算场景实现全卸载,作为服务器的数据出入口,使用硬件为服务器提供标准的 virtio 网络和存储设备,并将网络和存储的数据面和控制面下移,释放主机 CPU 算力资源的同时提升 IO 性能(如图 19 所示)。DPU 支持挂载远端云盘,通过该盘作为服务器的启动盘实现裸金属的快速拉起,实现像虚拟机一样管理裸金属实例。图 19 云盘裸金属因此,基于 DPU 的弹性裸金属具备如下关键特征。DPU 金融行业发展白皮书431.分钟级交付。
81、1.分钟级交付。DPU 支持云盘启动的能力,弹性裸金属在交付时不再需要经过漫长的 PXE 装机服务,通过 DPU 直接挂载远端云盘,服务器启动所需要的时间就是裸金属实例交付的时间,实现分钟级交付。2.兼容 VPC/SLB 等云平台全业务。2.兼容 VPC/SLB 等云平台全业务。基于 DPU 的弹性裸金属可以完全兼容现有云平台的业务。以 VPC 为例,弹性裸金属可以做到和虚拟机保持完全一致的虚拟化网络接入能力和安全隔离能力。3.兼容虚拟机镜像。3.兼容虚拟机镜像。实现物理机和虚拟机之间的相互平滑切换,提升业务部署的弹性和灵活性。4.网络和存储设备动态热插拔。4.网络和存储设备动态热插拔。支持裸
82、金属实例根据需要对存储和网络设备进行热插拔操作,无需像传统服务器一样需要人工运维增加网卡或者硬盘等硬件。5.宕机迁移恢复。5.宕机迁移恢复。利用这些特性,当裸金属出现硬件故障时,通过将该服务器的云盘在另外一台裸金属拉起的方式,实现业务的快速迁移恢复。(二)零信任安全(二)零信任安全传统的网络安全方案是在业务的网络边缘部署相关的安全设备,主要对南北向流量进行扫描监控。随着虚拟化云计算等技术的普及,基于虚拟化安全的解决方案应运而生,通过将原有物理安全设备的功能虚拟化,按需部署到计算实例中或者构建一个虚拟化安全资源池,将特定的流量导入其中实现对网络的保护。DPU 金融行业发展白皮书44云原生架构下,
83、容器的生命周期非常短暂,其网络配置也在不断变化,虚拟化安全资源池的网络安全防护已经无法满足云原生网络的安全需求,通过微分段防火墙可以实现容器之间的网络隔离,防止未经授权的访问和横向移动的威胁。微分段防火墙可以提供容器粒度的访问控制,做到根据单个容器进行安全策略定义和执行。当前容器网络微分段防火墙也面临较大的挑战,一方面,对于高密度容器环境,微分段防火墙需要处理大量的网络流量和执行复杂的安全策略,这会带来额外的性能开销,影响容器网络的带宽和时延。另一方面,随着容器数量的不断增加,微分段防火墙本身也会挤占容器业务的资源(如图 20 所示)。图 20 基于 DPU 的零信任安全方案DPU 能够为云原
84、生网络提供以下能力。1.安全监测。1.安全监测。对数据流的安全监测,通过监测网络流量、检测入侵攻击、发现漏洞等安全事件,保护云原生应用的安全。DPU 金融行业发展白皮书452.数据保护。2.数据保护。DPU 提供加密、解密和压缩的硬件加速引擎,保护敏感数据机密性和完整性的同时,提高计算资源的利用效率。3.信息分析。3.信息分析。DPU 作为每一个计算节点的数据入口,可以对整个系统进行安全分析和风险评估,从而识别和解决潜在的安全威胁。在以 DPU 为基础构建的高性能、高密度的容器网络中,可以将微分段防火墙、入侵防御、防病毒等安全业务部署到 DPU 中,宿主机上容器所产生的网络流量都会先经过 DP
85、U 进行处理,DPU上运行的安全业务利用硬件加速引擎提升业务处理能力,减少微分段防火墙、入侵防御等安全业务对容器网络的性能影响,构建零信任的网络架构。同时,将主机侧的安全业务下沉到 DPU 侧,可以释放更多的资源,运行更多的容器业务。(三)高性能扁平化容器网络(三)高性能扁平化容器网络容器是通过 Linux 的 Cgroup 和 namespace 来实现底层基础资源隔离的一种轻量级虚拟化技术,每一个容器都拥有属于自己的命名空间,包括网络堆栈、接口、路由表、套接字和 iptable规则表等。一个网络接口只能属于一个命名空间,多个容器就需要多个接口。通常使用虚拟化技术来实现硬件资源共享,通过将虚
86、拟化设备连接到真实的物理设备上,具体分为 3 种实现方式(如图 21 所示)。1.虚拟网桥。1.虚拟网桥。创建一个虚拟网卡对(veth pair),一端在容器内,一端在宿主机的 root namespace 中,使用 Linux bridgeDPU 金融行业发展白皮书46或者 OVS 来连接两个不同的 namespace 内的网卡对,这样容器内发出的数据包就可以通过网桥进入宿主机网络,发往容器的数据包也可以经过网桥进入容器,实现容器间的网络通信。2.多路复用。2.多路复用。使用一个中间网络设备,暴露多个虚拟网卡接口,容器网卡都可以接入到这个中间设备,并通过 mac 地址、ip地址来区分报文应该
87、转发给哪一个容器网卡。3.硬件直通。3.硬件直通。大多数网卡都支持 SR-IOV 的功能,该功能可以将物理网卡虚拟成多个 VF 接口,每一个 VF 接口都有单独虚拟PCIe 通道,这些虚拟 PCIe 通道共用物理设备的 PCIe,可以将VF 直接分配给容器,实现容器和容器之间近乎物理网络的通信。图 21 容器网络方案随着云原生的不断发展,越来越多的应用都在往容器化转变,这对容器网络提出了很高的要求。现有的基于虚拟网桥、多路复用的网络方案在满足大规模容器网络高带宽、低时延的需求方面存在一定困难,而基于硬件直通的方案虽然能够带来更好的网络性能,但由于普通网卡硬件自身的限制,一方面网卡的 SR-IO
88、V能力不足以满足单台计算节点承载上千个容器的需求,另一方面DPU 金融行业发展白皮书47SR-IOV 的网络功能相对比较简单,无法支撑比较复杂的容器网络功能。DPU 充分结合了 SR-IOV 和虚拟网桥的优势,能够提供超过1024 个 VF 数量,完全满足单节点上千容器的应用场景,同时 DPU提供的每一个 VF 的后端都是挂载在 DPU 上 OVS 的端口,可以通过标准的 Openflow 对网络流量进行编程,为容器提供扁平化的网络架构,在这种架构下可以实现百万级可编程、高性能、扁平化的容器网络(如图 22 所示)。图 22 高性能容器网络(四)人工智能大模型(四)人工智能大模型AI 模型越庞
89、大,模型参数越多,训练过程中参数同步的通信消耗越大。一些大型 AI 模型训练过程,其参数同步的通信时间消耗占比已经超过 50%,很容易因为网络拥塞造成性能急剧下DPU 金融行业发展白皮书48降。为解决 GPU 分布式训练过程中的“通信墙”,使用 DPU 提供的 DDPR(Data Direct Path RDMA)技术是非常有效的性能优化方案(如图 23 所示),通过 DDPR 技术调用 RDMA 通信库,服务器节点上的GPU可以直接将数据从GPU内存发送到目标服务器节点的 GPU 内存中,而不需要经过两个节点上的系统内存。AI 训练过程中的每一个数据字节,不需要绕路到系统内存进行严重拉低性能
90、的内核拷贝,从而显著提升计算效率。图 23 基于 DPU 的 DDPR 技术AI 训练过程需要加载外置存储系统中的数据到 GPU,将存储数据加载到 GPU 中需要消耗大量的 CPU 同时涉及存储到 host 内存再到 GPU 内存的搬移,会产生较大的通信时延,影响 AI 训练性能。利用 DPU 提供的 DDPS(Data Direct Path Storage)技术(如图 24 所示),可以将存储于外置存储系统中的训练数据直接加载到 GPU 内存进行预处理和后续的训练计算,缩短了训练数据加载的流程通路,同时可以降低对 CPU 的处理开销。DPU 金融行业发展白皮书49图 24 基于 DPU 的
91、 DDPS 技术单机多卡训练,可以通过 GPU 服务器本地配置高性能 NVMESSD 或者 SSD 硬盘,对服务器运维要求较高。在 AI 的分布式训练集群环境,当部署几十张到上百张 GPU 卡规模,会有更大数据规模的存储空间要求,挂载远端存储可以满足需要,但会消耗较多的 CPU 资源,通过 DPU 挂载远端磁盘,并为 Host 提供弹性virtio-blk/Nvme 设备,不再需要服务器上插很多物理磁盘(如图 25 所示)。同时将消耗较大 CPU 资源的 IO 操作卸载到 DPU 中,降低 AI 集群的运维复杂度,同时提升 AI 训练效率。图 25 基于 DPU 的统一远端存储访问DPU 金融
92、行业发展白皮书50五、DPU在金融云平台发展中的展望在政策引导和数字科技的双重助力下,金融行业大步迈入金融科技时代,金融业务模式和客户服务模式正在发生着深刻变革。金融信息系统正全面朝着金融云平台的技术架构持续发展,金融云平台的云基础设施是支撑金融云平台的底层核心技术,而其中的 DPU 作为衔接算力(包括 CPU+GPU)和网络及存储两大领域的关键节点,是实现高效、绿色、节能金融云平台的重要技术支撑。DPU 技术融合和吸收了近几年在网络、存储、虚拟化、安全和自动化管控多方面的软硬件技术,具备资源统一并池管理、云管平台解耦、加速云原生网络、加速云原生存储、加速云原生安全、加速大模型训练和提升计算资
93、源利用率等优势,促进了新型数据中心架构的演进和落地。与此同时,DPU 的生态发展还不太成熟,不仅体现在软件栈的生态建设上,也体现在整体服务器硬件架构的协同发展上。但是,只要 DPU 技术可以切实解决云平台建设中的问题,随着 DPU 自身技术的不断迭代以及 DPU 标准化的不断深入,DPU 的整体生态也会逐步成熟并完善起来。纵观 DPU 技术在国内外数据中心应用的发展历程,可以看到DPU 的技术路线与金融行业全面进入云化的发展道路相契合,使得金融云平台成为 DPU 技术落地和实践的重要领域。从长期的技术发展来看,DPU将全面卸载基础设施层(IaaS),提供各种应用领域的硬件加速,协同实现多租户的
94、数据和计算安全。帮助云计算突破 IO 限制,将不同的、分离的芯片聚合起来,DPU 金融行业发展白皮书51为计算抽象出一个超级的计算平台,突破 Server 或 Rack 级别的限制。为应用(如 ChatGPT 超大模型训练和推理应用)提供更易用、更高效能、更安全的计算平台。DPU 将继续沿着软件定义芯片软件定义芯片的架构发展,呈现以下趋势。(一)基础设施层全面卸载。(一)基础设施层全面卸载。基础设施层是云平台中的基础软件栈控制域,在物理上其运行在 HOST CPU 之上,与租户域共享物理空间。DPU 技术可以将运行于 HOST CPU 的基础软件栈控制域全面卸载到 DPU 上,从而实现租户域与
95、云服务提供的基础软件栈控制域物理隔离,为二者的解耦合安全提供了更好的平台。目前基础设施层在网络和存储的卸载正在逐步深化和扩展,但在计算管理上还做不到,随着 CXL 技术发展将会推动基础设施层在计算管理上实现卸载。(二)多领域硬件加速。(二)多领域硬件加速。包括网络相关的可编程网络处理器、AI 和高性能计算相关的低时延 RDMA 技术、DDP 数据直通技术以及在向量数据库、大数据 Spark 等应用领域的硬件加速。这些领域的硬件加速技术要考虑可编程性和硬件加速的平衡和融合,也要考虑软件易用性以及相应的生态,在云计算中还要考虑数据和计算安全性。(三)数据和计算安全。(三)数据和计算安全。在计算安全
96、上,无论是 Intel、AMD,还是 ARM CPU 都在不断发展和完善,但是未来以异构计算为核心的数据中心是否能保护租户的数据和计算始终还是个难题。DPU作为异构计算的数据通信核心,既要保证通信的性能,还要做相DPU 金融行业发展白皮书52应的硬件加速,如何在保证其性能的前提下,提供数据和计算安全的保障,是个挑战。DPU 在机密计算方面仍需继续探索最优的解决方案。(四)互联技术发展。(四)互联技术发展。互联技术涉及芯片内多个 Die 之间的互联(比如 UCIe)、芯片之间的互联(比如 CXL)、Server 之间的互联以及 Rack 之间的互联(比如 RDMA)。相应的技术在近年来迅速发展,
97、将持续影响以 CPU、GPU 和 DPU 为主体,以异构计算为核心的云计算平台的体系架构发展。生成式人工智能、数据科学、元宇宙、自动驾驶等应用的快速发展正在推动着云计算平台的技术发展和革新。DPU 需要为大规模云计算、人工智能和高性能计算应用提供基础设施层服务,以满足云计算平台的规模、性能、弹性、租户数据和计算安全的快速发展要求和低功耗要求。这些技术正是金融云平台未来发展的重要战略落脚点。六、结语虽然 DPU 的生态发展建设还面临诸多挑战,但是在当前的云计算平台发展中,从应用的角度 DPU 的功能和定位越来越明晰,已经从最初简单的网络卸载转变为以 DPU 为中心的计算架构中的数据处理核心部件。
98、DPU 已经成为衔接算力(包括 CPU+GPU)和网络两大领域的关键节点。随着 DPU 的功能定位逐步明晰和DPU 生态建设不断推进,其接口标准化也成为可能。在 DPU 生态建设和标准化的道路上,无论从行业本身还是来自政策的引导,DPU 金融行业发展白皮书53都在积极推动 DPU 的生态建设和标准化进程。这种标准化的趋势不仅可推动 DPU 行业向着有序良性竞争的方向发展,也能促进各云数据中心运营商积极采用 DPU,以满足运营商对 DPU 的可维护性及稳定性要求。基于 DPU 的以数据处理为中心的新型云计算数据中心架构将会促进金融云的发展,在解决金融行业原有问题的同时,也会给金融行业的进一步发展
99、带来机遇,例如数字人民币的应用,没有这些基于云计算的基础设施架构创新,就不会衍生出支持未来金融行业新业务的创新。DPU 技术的发展将和金融云平台的发展保持同步同向,DPU 的技术迭代将促进金融行业打造开放共享、稳定可靠、高效绿色、自主可控和金融级安全的金融云平台。与此同时,金融云的实践也将反向指引 DPU 不断迭代自身的核心技术。最后,大力倡议金融行业共同推动 DPU 软硬件生态的标准化,实现 DPU 与服务器、DPU 与云平台之间的解耦,在金融云等私有云领域实现通用的、可互换的硬件采购模式,打破硬件壁垒,实现金融云平台与 DPU 等硬件行业的良性发展。DPU 金融行业发展白皮书54插图附录图
100、 1 金融云平台.1图 2NIC 在虚拟化中应用.13图 3 SmartNIC 在虚拟化中应用.14图 4 DPU 在虚拟化中应用.15图 5 DPU SoC 在虚拟化和裸金属中的应用.17图 6 AWS Nitro DPU(来源 AWS 官网).20图 7 Nvidia BlueField-3 DPU 介绍(来源 Nvidia 官网).21图 8 Intel IPU 产品 roadmap(来源 Intel 官网).22图 9 云计算平台架构体系.24图 10 基于 DPU 的云平台架构体系.25图 11 传统数据中心架构.27图 12 基于 DPU 的金融云架构.28图 13 基于 DPU
101、的网络卸载加速.31图 14 基于 DPU 的存储卸载加速.32图 15 旁路内核加速数据处理.37图 16 基于 CPU 转发的 CPU 利用率.38图 17 基于 DPU 转发的 CPU 利用率.39图 18 DPU 带来的算力收益.40图 19 云盘裸金属.42图 20 基于 DPU 的零信任安全方案.44图 21 容器网络方案.46图 22 高性能容器网络.47图 23 基于 DPU 的 DDPR 技术.48图 24 基于 DPU 的 DDPS 技术.49图 25 基于 DPU 的统一远端存储访问.49DPU 金融行业发展白皮书55缩略语缩略语缩略语英文全称英文全称DPUData Pr
102、ocessing UnitCPUCentral Processing UnitGPUGraphics Processing UnitDCQCNData Center Quantized Congestion NotificationDDRDouble Data RateDMADirect Memory AccessECNExplicit Congestion NotificationGREGeneric Routing EncapsulationGROGeneric Receive OffloadGSOGeneric Segmentation OffloadiWarpInternet Wide
103、 Area RDMA ProtocolNICNetwork Interface CardNVGRENetwork Virtualization using Generic RoutingEncapsulationOVSOpen Virtual SwitchP4P4 is a language for programming the data plane ofnetwork devicesPFPhysical FunctionQCNQuantized Congestion NotificationQMQueue ManagerQPQueue PairRoCERDMA over Converged
104、 EthernetSoCSystem on a ChipSR-IOVSingle Root I/O VirtualizationTLPTransaction Level PayloadDPU 金融行业发展白皮书56缩略语缩略语英文全称英文全称VFVirtual FunctionVTEPVxLAN Tunnel End PointVxLANVirtual Extensible LANRoTRoot of TrustDDPRData Direct Path RDMADDPSData Direct Path StorageIaaSInfrastructure as a ServicePaaSPlatform as a ServiceSaaSSoftware as a Service