上海品茶

您的当前位置:上海品茶 > 报告分类 > PDF报告下载

未来网络发展大会:2022分布式解耦机框技术白皮书(74页).pdf

编号:98267 PDF 74页 3.77MB 下载积分:VIP专享
下载报告请您先登录!

未来网络发展大会:2022分布式解耦机框技术白皮书(74页).pdf

1、 版权声明版权声明 本白皮书版权属于网络通信与安全紫金山实验室及其合作单位所有并受法律保护,任何个人或是组织在转载、摘编或以其他方式引用本白皮书中的文字、数据、图片或者观点时,应注明“来源:来源:网络网络通信与安全紫金山实验室通信与安全紫金山实验室等等”。否则将违反中国有关知识产权的相关法律和法规,对此网络通信与安全紫金山实验室有权追究侵权者的相关法律责任。编写说明编写说明 主要主要编写单位:编写单位:(排序不分先后)网络通信与安全紫金山实验室、中国电信股份有限公司研究院和北京邮电大学。参与单位参与单位:(排序不分先后)博通公司(Broadcom Inc.)。主要主要编写编写人员人员:(排序不

2、分先后)黄韬,汪硕,徐鹍,李振红,陈娟娟,欧亮,钟超,肖祥益,李鹏,尹川,钟星宇,文昱涵,刘婷婷,张玺,周大为,吴溪光。I 前 言 伴随着 OTT 云服务、4K/8K 流媒体以及移动/固网 5G 业务量的激增,全球 IP 流量呈现出高速增长的趋势,对现有网络产生了较大运行压力。面对持续增长的流量,全球网络服务提供商正在深入思考并积极探索全新的大规模弹性网络构建方法,期望通过焕然一新的方法搭建出更具扩展性、开放性和成本效益的网络基础设施,让数字时代的用户能在信息高速公路上更畅快地体验科技带来的变化。分布式解耦机框技术开创性的基于体系结构解耦和转发资源池两大核心思想构建云模型,创新地将云计算的思想

3、应用于网络领域,形成“网络云”解决方案。分布式解耦机框本质是对物理网络机框设备的深度解耦和转发资源使用方式的优化。解耦后的网络设备,管控平面实现云化,可灵活运行于远端服务器或数据平面内的容器中,数据平面则运行于基于白盒搭建能灵活扩展的转发资源池上,突破了单个机框的资源限制,总体形成了软件上运维升级简单、硬件上能动态弹缩的虚拟机框形态。分布式解耦机框技术不仅使大规模网络搭建化繁为简,也给出了网络架构演进的创新思路,很好地契合了日新月异的商业应用对网络发展的痛点需求,解决了现有网络网元差异性大导致的网络运维管理复杂、扩容难度大、扩展性差的诸多问题。形成基于分布式解耦机框统一架构之上的网络基础设施融

4、合解决方案,可为网络带来全新的改变,已成为产业界设备形态研究的新热点。II 本白皮书力求全面解读分布式解耦机框技术,使读者既能够深入了解分布式解耦机框总体架构和关键技术,又能对分布式解耦机框的部署场景和应用方式有较为直观的认识。白皮书共分六个章节:第一章首先介绍了分布式解耦机框技术的产生背景、发展现状和技术价值;第二章阐述了分布式解耦机框总体架构,包括硬件物理架构、系统逻辑架构;第三章详细介绍分布式解耦机框若干关键技术,包括虚拟机框管理、中央控制面、机框切片、数据面白盒化、数据面弹性架构、数据面交换网负载均衡技术等;第四章枚举了若干可能的应用场景,包括 5G 承载网、数据中心网络和 HPC 场

5、景;第五章介绍了分布式解耦机框若干实践案例,例如分布式解耦机框在紫金山长三角白盒主干网的核心节点的替换方案、基于分布式解耦机框进行 HPC 场景测试案例;最后第六章提出了分布式解耦机框技术发展愿景。本白皮书旨在吸引更多研究、工程和产业人员参与分布式解耦机框的创新研究、技术攻关和应用落地;通过分布式解耦机框架构实现未来网络变革,推动各行业朝着信息化、数字化、网络化和智能化的方向升级。III 目 录 前 言.I 目 录.III 一、分布式解耦机框技术的发展背景和价值.1 1.1 分布式解耦机框技术产生背景.1 1.2 分布式解耦机框技术的发展现状.2 1.3 分布式解耦机框的部署价值.15 二、分

6、布式解耦机框技术总体架构.18 2.1 分布式解耦机框硬件架构.19 2.2 分布式解耦机框 NOS 架构.21 2.3 分布式解耦机框切片架构.23 三、分布式解耦机框技术关键技术体系.25 3.1 机框管理.25 3.2 中央控制面.27 3.3 机框切片.28 3.4 数据面白盒化.29 3.5 数据面弹性架构.33 3.6 交换网负载均衡技术.39 四、典型应用场景.42 4.1 5G 承载网场景.42 IV 4.2 数据中心网络.44 4.3 HPC 计算.50 五、实践案例.55 5.1 紫金山长三角白盒主干网核心节点 DDC 部署方案.55 5.2 HPC 测试案例.57 六、未

7、来网络分布式解耦机框技术发展建议.62 附录 A:术语与缩略语.64 参考文献.66 1 一、一、分布式解耦机框技术的发展背景和价值分布式解耦机框技术的发展背景和价值 1.1 分布式解耦机框技术产生背景分布式解耦机框技术产生背景 过去的几十年里,网络服务提供商一直采用较为固定的方法搭建网络,即将网络划分为接入、汇聚、边缘以及核心等多网络层次,对每一层网络采用专用黑盒网元进行搭建。网络不同层次由来自不同供应商的多系列路由器、交换机进行搭建,对应数以千计的不同硬件组件以及运行其上的专有网络操作系统。随着时间的推移,这些设备间的具体差异导致了各网元补丁升级、网络扩容和运维操作的复杂性攀升,网络复杂难

8、以管理,网络的整体扩展性受到制约。这些因素,拖慢了网络对日新月异的商业模式以及不断增长的新业务流量的响应和升级速度。面对实际运营中遇到的困难,网络研究者们从数据中心向云演变的成功经验中受到启发,希望有一天可以像使用水、电一样,优化网络资源的使用方式,做到按需使用网络,而不用关注网络资源的具体差异。由此,网络研究者们开始探索构建“网络云”的新方法,提出了分布式解耦机框技术。分布式解耦机框(DDC,distributed disaggregated chassis)的核心思想是对物理机框设备的深度解耦。解耦后的网络设备管控平面彻底云化,脱离物理网元。数据平面则运行于可以灵活扩展的转发 2 资源池上

9、,使使用者获得易于运维、易于扩容和具有成本优势的网络。同时,通过白盒交换机来搭建数据平面的转发资源池,能取得更大成本优势,还能以更快的速度享受商业芯片的发展成果。分布式解耦机框形成了软件上运维升级简单、硬件上能动态弹缩的虚拟机框形态。基于统一的虚拟机框形态,有望实现机框软件和硬件的彻底分离和硬件的动态弹缩,从而实现“网络云”。1.2 分布式解耦机框技术的发展现状分布式解耦机框技术的发展现状 国内外多家运营商、网络设备厂商和前沿科研机构正在对分布式解耦机框技术进行积极探索,例如国内的紫金山实验室、中国电信研究院均在分布式解耦机框上进行了深度的研究,同时做了针对性的开发与关键技术攻关;国外的运营商

10、 AT&T,已经在其网络中对分布式解耦机框进行了部署尝试。下文就对国内外技术研究成果、技术方案、实现情况进行介绍。1.2.1 中国电信中国电信 C3NOS 分布式网元操作系统分布式网元操作系统 C3NOS(Chinatelecom Cloud Converged Network Operation System)是中国电信研究院基于全新开放体系架构研发的商用云网融合操作系统,可应用于传统的交换机/路由器网络设备,还可用于网络边缘设备、多业务网关等新型网络设备。该系统采用先进容器化架构,使各个软件模块具有独立的运行空间,可实现动态加载、单独升级、故障隔离等特性;具备灵活的开放特性,可实现新业务的

11、快速开发实践,3 满足运营商网络演进趋势的新特性;支持在不影响业务转发的情况下部署新功能/业务,实现无缝业务上线。C3NOS 支持完善的 L2/L3、Segment Routing、EVPN、VPLS、VPWS 等特性,同时支持 SRv6+EVPN+FlexE 等新 5G 特性,可灵活用于 4G/5G 以及大客户专线业务的综合承载设备上,满足大带宽、低时延、高质量的业务需求。经过对分布式解耦技术的深入研究与探索,中国电信将 C3NOS进行了深度的深化开发,包括底层硬件的适配、SAI 的扩展,以及协议栈和数据库方面针对性的优化。根据分布式机框的原理,将 C3NOS分为了 C3NOS 控制面和 C

12、3NOS 数据面,C3NOS 控制面运行在分布式解耦机框中的主控侧,完成路由的统一管理、协议栈处理、数据库存储,以及设备管理、拓扑管理等功能。C3NOS 数据面运行在分布式解耦机框中的线卡板/接口板与交换板侧,主要完成底层硬件的适配与控制面的对接工作,接收来自控制面的表项消息并下发到芯片,以及上报给控制面设备状态、接口报文统计等数据。图 1-1 C3NOS 分布式网元网络系统架构图 目前 C3NOS 分布式网元操作系统已部署在中国电信多个应用场 4 景,包括高性能计算、承载网等。其中在高性能计算场景中,为高性能计算资源提供互联网络服务的是运行着 C3NOS 的分布式机框设备,通过搭建 32T

13、超高带宽网络互联平台为计算业务提供了稳定、可靠的网络服务。1.2.2 紫金山实验室紫金山实验室 UniNOS 开放网络设备开放网络设备操作系统操作系统 UniNOS 是紫金山实验室研制的新一代开放网络设备操作系统。UniNOS 在开放网络架构、异构适配多厂商芯片和适用多应用场景等方面,一直在积极探索、开拓创新。在开放网络架构方面,UniNOS采用软件容器化、中心数据库和硬件无关性等开放设计,能快速引入新协议、第三方应用和行业强相关的定制化软件功能,具备敏捷扩充先进网络服务的强大能力,支持的网络能力栈包含:SR MPLS、SRv6、EVPN、VXLAN、BGP、BGP-LS、OSPF、ISIS、

14、L2 协议、DHCP、DHCP SNOOPING、DHCP RELAY、NQA、QOS、ACL、COPP、802.1x、MAC 认证、ZTP、TELEMETRY、INT/IOAM等功能;在兼容异构芯片方面,该系统与硬件设备和芯片解耦,通过打造统一硬件适配平台,已快速完成包含 Broadcom、Intel、Mellanox、盛科等国内外主流芯片厂商近 10 款不同能力不同场景芯片的适配工作;在多应用场景方面,该系统不仅可以满足广域网、城域网、接入网场景功能,还能满足园区网络和数据中心应用,力图做到全场景覆盖。5 图 1-2 UniNOS 聚焦方向 目前,UniNOS 系统已经在长三角九个城市圈(

15、包括南京、苏州、上海、镇江、常州、无锡、扬州、泰州、南通 9 个城市)、PB 级算力数据中心等大规模环境中得到应用实践,证明了其先进性和可用性。考虑到当前市场的白盒产品主要为盒式单芯片形态,其不足在于:设备健壮性较弱,当单芯片故障时整台设备将无法正常工作;不易扩展,无法增加板卡数量实现网络扩容;转发性能低,单台设备路由转发条目低于 200 万条;和汇聚、骨干网目标场景下网络设备能力要求差距较大;而分布式解耦机框使用可灵活扩展的白盒集群搭建,在灵活性、扩展性、容错性、冗余健壮性等方面具有显著优势,符合汇聚、骨干网场景的高性能设备要求,符合实验室的研究目标。因此,UniNOS 积极支持对分布式解耦

16、机框架构的扩展,目标形成能运载于单个白盒和分布式解耦机框集群的融合统一开放网元操作系统平台,构建更强大的未来网络“新基座”。在支持分布式解耦机框架构过程中,紫金山 UniNOS 充分结合了对传统机框、Disaggregated 和 Multi-ASIC 等设备形态的研究和研发经验,借助 Linux 内核和数据库发布/订阅等通用机制,实现数据面和 6 控制面统一通道,并从架构上将协议控制面从白盒硬件中完全剥离出来,形成管控面和数据面多类不同 NOS 实例,使得总体架构具备简化、弹性和易于扩展的特点。UniNOS 的管控面实例专注于对网络的管理和控制,提供设备北向接口、机框可视化和丰富的网络服务能

17、力;UniNOS 的数据面实例则专注于对设备硬件的统一抽象管理,能灵活快速适配多厂商异构硬件。不同工作实例间分工明确,解耦充分,有利于各实例能针对自身研发重点工作实现快速迭代、不断创新。下图1-3 为 UniNOS 支持分布式解耦机框系统逻辑视图。图 1-3 UniNOS 支持分布式解耦机框系统逻辑视图 UniNOS 支持分布式解耦机框架构后,将首先被应用于长三角白盒主干网南京核心节点,该网络节点的转发容量将支持从 4T 到 768T的动态弹缩能力,并基于 VOQ/信元交换等先进硬件技术,大幅缩短 7 网络转发时延,提升网络利用率,充分满足汇聚、骨干网等目标场景下的网络要求。1.2.3 Dri

18、venets Network Cloud DriveNets 是一家以色列网络软件创企,致力于简化电信公司的网络部署,帮助其解决如流量的指数级增长、5G 的部署以及低延时人工智能应用的新挑战。DriveNets 公司的 Network Cloud 产品是业界第一个商用 DDC 产品,其研发了 DDC 设备的整套软件,包括设备NOS、控制器软件等,适配通用的白盒设备。从 2019 年至今,该公司已经完成 A 轮、A+轮和 B 轮三轮融资,获得超 3 亿美元投资。DriveNets Network Cloud 是电信级的 web-scale 网络软件2,完全改变了电信网络的架构方式,使其更易扩展、

19、更易管理和更低成本。DriveNets Network Cloud 云原生架构运行在商用硅制造的白盒上,并从白盒中解耦,能够支持世界上最大的核心和边缘网络。作为一个开放平台,Network Cloud 支持与第三方服务集成,能和遗留网络无缝集成,并易于迁移。作为全功能路由软件栈,它运行在标准的 x86 CPU上,支持任何端口上的任何网络服务。丰富的自动化和管理套件简化了部署和管理,允许服务提供商在产能增长的同时更快推出服务,提高盈利。DriveNets Network Cloud 架构简单灵活,支持多种部署模型。它可以运行在单个白盒上(独立模式),也可以运行在多个白盒上(集群模式)。架构如图

20、1-4 所示:8 图 1-4 DriveNets Network Cloud 架构 Network Cloud 架构主要由 DNOS 和 DNOR 两部分构成。DNOS 即DriveNets Network OS,是用 Docker 技术实现的分布式操作系统,并分布式地运行在下述逻辑组件组成的物理系统之上:(1)NCC:Network Cloud Controller,包含控制和管理平面,部署在独立的白盒上或集群的裸金属服务器或虚拟机上;(2)NCP:Network Cloud Packet Processing,负责数据路径流量转发过程和分布式逻辑,相当于机箱线卡;(3)NCF:Networ

21、k Cloud Fabric,负责连接集群中的所有 NCP,相当于一个机箱的交换结构;(4)NCM:Network Cloud Management,连接 NCP、NCF、NCC 的内部管理通道。DNOR 即 DriveNets Network Orchestrator,旨在自动化编排和管理整个 DriveNetsNetwork Cloud 解决方案,消除运营复杂性。它的主要任务是管理基础设施的生命周期,包括 DNOS 的安装、升级、配置和故障排除,以及管理基础设施上运行的网络和第三方服务。与此同时,DNOR 还提供了整个网络云基础设施的云资源和托管服务的可见性,可加快故障排除,提高可用性。9

22、 1.2.4 AT&T 分布式解耦机箱白盒项目分布式解耦机箱白盒项目 2019 年 9 月,AT&T 向 OCP 组织提交了分布式解耦机箱(DDC)白盒架构规范3。AT&T 旨在定义一组标准白盒硬件,构建网络服务提供商级别的大规模路由器,范围从单线卡系统到大型、分散的机箱集群。2019 年 11 月,AT&T 正式启动从达拉斯到亚特兰大的 400Gbps链路,该项目采用的正是 AT&T 向 OCP 提交的基于 DDC 架构的由博通 Jericho2 芯片构建的白盒设备。AT&T 的 DDC 白盒设计规范由三个关键构建块组成,用于替代传统的大容量路由器模块化机箱设计:(1)线卡系统:支持 401

23、00G 业务端口,加上 13 个 400G 交换矩阵接口。图 1-5 40100G 线卡系统(2)线卡系统:支持 10400G 业务端口,加上 13 个 400G 交换矩阵接口。图 1-6 10400G 线卡系统 10(3)Fabric 系统:支持 48400G 交换矩阵接口的 Fabric 系统,包括更小的支持 24400G 交换矩阵接口的 Fabric 系统。图 1-7 Fabric 系统 AT&T 提交的四种典型的 DDC 配置包括:(1)单线卡系统,支持 4Tbps 容量。(2)小型集群,由 1+1(提升可靠性)Fabric 系统和 4 个线卡系统组成,支持 16 Tbps 容量。(3

24、)中型集群,由 7 个 Fabric 系统和 24 个线卡系统组成的,支持 96Tbps 容量。(4)大型集群,由 13 个 Fabric 系统和 48 个线卡系统组成,支持 192Tbps 容量。线卡系统和 Fabric 系统之间的 Fabric 链路以 400Gbps 的速率运行,并使用基于信元的方式在多链路上转发数据包。即使部分 Fabric链路故障,该系统设计也保证了可靠性。AT&T 认为这些设备的潜在应用领域是全球 IP 公共骨干(CBB)的边缘(PE)和核心(P)路由器位置,用于承载网络上所有 IP 流量。AT&T 公开表示:DDC 白盒的早期实验室测试非常令人鼓舞。Broadco

25、m Jericho2 芯片具有深度且灵活的缓存设计,大表项支持多种路由规模,运营商级别的端到端队列调度和满足运营商当前和未来所需要的端口密度,Ramon 芯片可实现 DDC 设计的灵活水平横向扩展 11 并提供极低的功耗,非常适合在运营网络中广泛的应用于模块化硬件设计。图 1-8 全球 IP 公共骨干(CBB)1.2.5 Broadcom StrataDNX 芯片芯片 博通(Broadcom)公司作为全球通信半导体创新解决方案领导者,其产品组合服务于多个关键市场,包括数据中心、网络、运营商、软件、宽带、无线、存储和工业市场等。博通网络芯片主要分为 StrataXGS和 StrataDNX 两个

26、家族。StrataDNX 产品线可支撑多种形态的网络设备如机架式路由器交换机,集中式网络设备,以及单独芯片的盒式路由器和交换机,广泛应用于运营商网络,数据中心,行业网络以及企业网络中。StrataDNX 产品线细分为高速转发芯片 Jericho 和高速转发网板芯片 Ramon。除了作为线卡芯片和网板芯片广泛应用于框式路由器和交换机,Jericho 和 Ramon 还能作为分布式解耦机框的基本组成元素。12 基于一颗或多颗的 Jericho 和 Ramon 芯片,可以灵活的设计 NCP 和NCF 的带宽以及容量。Jericho 和 Ramon 芯片组成的分布式解耦机框架构可以充分利用 Strat

27、aDNX 芯片家族的全部功能,如:运营商级别的可扩展的大表项、集群内无阻塞转发、基于 VOQ 的端到端调度、基于信元的负载均衡和基于 HBM 的可配置大缓存等。StrataDNX 产品是博通网络芯片领域极具代表性的成熟产品,至今已经迭代了九代。通过最先进的制程技术快速迭代出业界领先容量和功能的芯片,为服务提供商提供的成本优化,部署灵活和低功耗选择,引领网络技术的进步。Jericho 和 Ramon 产品系列提供多种带宽的选择,足以满足运营商和数据中心对分布式解耦机框架构当前和未来的需求,按需实现前所未有的端口及带宽规模。1.2.6 SONiC 社区机框式白盒扩展设计社区机框式白盒扩展设计 20

28、20 年,SONiC 社区提出基于虚拟输出队列(VOQ)架构下的分布式转发机框设计5。总体架构包含以下几方面:(1)分布式转发机框的物理接口和 VOQ;(2)分布式转发机框的逻辑接口,如链路聚合组(LAG);(3)分布式转发机框的内部互连 Fabric;(4)分布式转发机框的数据平面:实现报文转发;(5)分布式转发机框的控制平面:包括分布在机框交换白盒设备内部控制部分和机框通用服务器上运行的集中控制部分。13 图 1-9 分布式转发机框总体架构 目前,SONIC 系统针对分布式转发机框的支持,提出了七个方面的修改思路:(1)系统全局视图:为了使系统正确运行,需要新增系统全局视图。该系统全局视图

29、状态保存在 SONIC SSI 实例中,所有 FSI 通过内部管理网络连接到 SSI 中,从 Chassis Redis DB 中获得该状态。(2)SAI 接口扩展:在 SONiC 中实现基于 VOQ 转发需要对 SAI接口进行进一步扩展。社区给出了 SAI 扩展建议以及部分定义。(3)Chassis DB:整个系统的所有全局状态都存储在一个新的Redis 实例的 SSI 中,该实例的数据库名为“Chassis DB”,可通过内部管理网络访问。FSI 除了连接自己本地的 Redis 实例外,还连接到Chassis DB 实例来访问和操作全局状态。14(4)两类芯片管理:ASIC(在 SONiC

30、 术语中也被称为 NPU)和Fabric 芯片。ASIC 执行系统中所有的数据包接收、转发、排队和传输功能,Fabric 芯片负责将数据包从源转发地移动到目的转发地。ASIC通过内部链路连接到Fabirc芯片,Fabric芯片不参与报文转发,初始化后不需要显式配置。所有的芯片都是基于 SONiC 现有的 Multi-ASIC 范式进行管理,每个芯片都有一个 Syncd(和 SAI)、SWSS 和其他相关代理。(5)SONIC 实例命令和 ASIC 命名:每个 SONIC 实例都有一个全局唯一的名称标识,例如 FSI 通常命名为“Linecard-N”,其中 N 是线卡设备的编号。对于转发设备或

31、 Fabric 设备中的多块转发芯片,每块芯片都对应一个 ASIC 名称。这与任何多芯片 SONiC 设备中用来标识 ASIC 的名称一致,在分布式转发机框的所有转发设备每块芯片的命名要求全局唯一。因此,当应用于机箱名称时,通常选择“Linecard-N.K”,其中 K 是线卡内的 ASIC 编号。(6)四种类型端口的管理:本地端口,是直接连接到每个 FSI 的前向面板接口;系统端口,系统上的每个端口都需要一个全局表示;带内端口,提供转发引擎之间的控制平面连接,一端连接转发模块本地 CPU,另一端连接内部 fabric;Fabric 端口,是实现 DDC 内部交换矩阵互联的端口。(7)三种故障

32、场景的预期处理:如果 FSI 故障,SSI 需要将相应的 FSI 所在硬件从转发资源中拆除,避免故障组件导致流量损失;如果 FSI 和 Chassis DB 失去连接,导致来自其他 FSI 的转发状态无法 15 向本 FSI 传播,为了避免流量损失,FSI 必须与邻居断开连接(如终止协议会话),避免任何流量通过该 FSI;如果 SSI 或 OS 系统故障,会导致所有 FSI 失去到机箱 DB 的连接,在所有 FSI 上执行与邻居断开连接(如终止协议会话)的操作,避免任何流量通过 FSI,最终实现整个系统与外部网络断开连接。1.3 分布式解耦机框的部署价值分布式解耦机框的部署价值 在网络中选择部

33、署分布式解耦机框,对网络建设、运维及整体效率等方面有以下价值:网元设备价格降低网元设备价格降低:相关接口的标准化以及数控平面的解耦大幅减少了设备生产的门槛,使得更多的公司可以进入网元设备生产市场,促进了设备厂商之间的竞争,使得网元设备市场摆脱多家寡头的格局,促进设备价格的降低。前期建设成本前期建设成本降低降低:使用传统机框进行网络建设时,服务提供商采购设备时不仅需要考虑现有网络容量要求,还需留有一定余量以满足后续网络扩容。为此,服务提供商需要采购高性能网元设备,且这些设备需留存一定数量的插槽,这会导致服务提供商支出很多不必要的前期投资成本。采用 DDC 技术后,服务提供商可根据现有网络容量需求

34、,购置可实现相应容量的白盒设备,由于降低了对单一高性能网元设备的需求,进而减少了设备采购成本。此外,服务提供商不需要预先考虑网络未来容量需求,在网络需要升级时,只需对白盒设备进行横向扩展,便可满足新的网络需求。总的来说,DCC 技术大幅减 16 少了服务提供商网络建设前期成本投入,使得网络容量可以随需升级,加快了服务提供商投资回报周期。网络扩容复杂度降低:网络扩容复杂度降低:在进行网络扩容的过程中,不需要将旧有网元设备的业务整体迁移至新网元设备。且,利用统一的控制平面可实现对网元设备的自动配置,减少了人为配置所导致的错误。网络管理费用网络管理费用降低降低:传统机框内置了设备厂商所编写的操作系统

35、,各网元设备之间存在较多差异导致对网络管理、运维复杂。因此,机框的费用中默认附加了管理服务。而在控制平面使用统一的开放接口后,网络的管理复杂度得到大幅减少,使得网络管理者可通过 SDN、容器等技术较好实现自动化运维管理,降低相关管理支出。设备运行相关支出和功耗降低:设备运行相关支出和功耗降低:为配合传统机框,机房往往需要对放置机框的地面进行加固,还会产生大量电力支出用于机框供电及散热。采用 DDC 技术可有效降低对机房的要求,降低网元设备运行所带来的额外支出。传统的大容量框式设备使用机箱设计,需要购买机箱以及电源,风扇,和网板和控制器,即使没有满插线卡,机框也需要持续运行并产生相应的功耗。DD

36、C 将传统的机箱系统拆解为了多个独立运行的设备,并各自配有电源和风扇,按需部署的方式使得整个集群的功耗可控可预知。云原生带来的网络软件灵活性增强云原生带来的网络软件灵活性增强:不同层次的网元设备可以做到软件基础架构合一,可以按不同的应用场景,选择启动/关闭网元相应的软件功能。兼容旧设备:兼容旧设备:采用 DDC 技术可以兼容现有网元设备,相当于将 17 分布式机框整体作为一个机框添加到已有设备中,增加了原有设备使用年限和资金利用率,从而保障了前期投资收益。集群路集群路由设计极其简单由设计极其简单:传统的 Spine-Leaf 架构,每台路由器或者交换机都是一个独立的路由实体,对整网路由设计,路

37、由协议规模和故障造成的路由收敛速度提出很大的挑战。DDC 架构虽然以 Spine-Leaf 的形式部署,但是作为解耦的框式设备,整个 DDC 集群是一个单一的路由实体,仅仅作为转发中的一跳。整网路由设计简单,收敛和规模不受限制,易于管理和运维。业务灵活调度:业务灵活调度:传统流量调度需靠相关技术人员对单一网元设备进行配置,而采用 DDC 技术后,技术人员可通过集中式的控制平面使用可交互界面等更加友好的方式对流量进行全局调度,满足不同业务的 QoS 需求,解决传统网络调度不灵活的问题。增加新型业务收入:增加新型业务收入:服务提供商可通过 DDC 技术快速部署网络,并结合 VNF、SDN 等技术以

38、满足当前时延敏感网络、算力网络、边缘计算等新型网络应用需求,扩展现有业务范围,提升业务收入。18 二二、分布式解耦机框技术总体架构分布式解耦机框技术总体架构 随着网络功能的不断演进,网络设备逐渐成为一台异常复杂庞大的系统装置。设备要求的控制参数日益增多,内部交互流程及相互作用关系复杂,在不同的平面/模块间造成了相互影响的耦合效应。“强耦合”往往造成系统控制复杂、性能低下和扩展困难的问题。解耦就是要解除耦合多方的彼此影响,增强各自的功能独立性,通过不断减低的系统耦合度,降低系统的复杂性,增强系统的运行性能和扩展性。分布式解耦机框是对网络设备形态解耦的全新探索。网络设备由最早的 OEM 厂商研发生

39、产的软硬一体化的黑盒设备,逐渐发展到通过开放标准接口实现软/硬件解耦的白盒设备,再到最新出现的控制平面云化、数据平面能灵活扩展的分布式解耦机框,网络设备形态正处在一个不断解耦、不断降低系统耦合度的变化过程中。图 2-1 网络设备演进 分布式解耦机框在架构上体现了以下特征:物理机框硬件解耦:物理机框硬件解耦:采用标准的白盒交换机替代原有物理机框线卡板和 Fabric 板,通过光纤互联,转发/交换组件独立;采用标准的 X86 服务器做控制引擎,控制组件独立;机框硬件进行全方位拆解。19 网络网络 OS 云原生化:云原生化:基于云原生架构原则和设计模式,将 OS 中的网络服务从非业务代码中最大化剥离

40、,采用云原生基础设施接管网络应用中大量的非功能特性(如数据中间件、弹性、热迁移、安全),使网络服务专注于协议本身,具备轻量、敏捷、更新升级简便的特点。数据平面灵活数据平面灵活扩扩缩缩容:容:根据转发容量的实际需求,基于 CLOS 架构,使用标准化、低成本白盒交换机构建可以水平扩展的数据平面,实现 DDC 转发容量的惊人扩展力。硬件信元级负载均衡:硬件信元级负载均衡:线卡白盒和 fabric 白盒之间采用 fabric 端口互联,引入信元级数据转发、VOQ 队列技术,保证线卡白盒-fabric白盒-线卡白盒间数据转发无拥塞;分布式解耦机框在对机框系统深度解耦后可以增强各部分组件独立工作、独立修改

41、以及自主演进的能力,让使用者对系统的各组件,网络管控平面、数据平面,以及物理硬件上有更大的技术自由度、操作简便性和灵活扩展性;构建灵活扩缩容转发资源池的思想,借鉴了云计算 IaaS 层基础设施层管理,使得分布式解耦机框的总体概念适合构建“网络云”解决方案。2.1 分布式解耦机框硬件架构分布式解耦机框硬件架构 传统的交换或路由系统通常将多组件集成至一个物理机框中,例如:线卡板卡、Fabric 板卡、主/备控制引擎,这些组件连接到单一背板,如果转发流量增大,可以增加线卡板卡和 Fabric 板卡,提升整机转发能力。但是,背板设计的每个组件的插槽数量是有限的,所以线 20 卡和 Fabric 卡扩展

42、能力有限,导致物理机框的转发容量有限,扩容成本高。分布式解耦机框对物理机框的组件进行拆解,并做了如下映射:图 2-2 分布式解耦机框与传统机框组件映射 通过制作出两类盒子,线卡白盒和 Fabric 白盒,每个白盒都配备了自己的电源,冷却风扇,CPU,特定芯片(线卡转发芯片或 Fabric芯片),使用行业标准光缆,以 CLOS 架构连接,支持可水平扩展的数据转发平面。控制引擎与数据平面分离,集中运行通用服务器上,采用云原生架构支持具体网络协议、网络服务的安装、启动、关闭、重启、升级,按需配置定义转发平面功能。下图是一个分布式解耦机框搭建示例,构建了一个小型的分布式解耦机框物理环境,线卡白盒和 F

43、abric 白盒以及控制引擎运行的服务器资源都能灵活的弹性扩展:21 图 2-3 分布式解耦机框搭建示例 CC:DDC Chassis Controller,机框控制器,分布式解耦机框的管控引擎,部署于 x86 服务器,可搭建为一主一备、一主多备模式。MSW:Management Switch,管理交换机,用于连接机框控制器、Fabric 白盒和 LineCard 白盒,采用 1G/10G 接口互联,构建转控互联通道。FWB:Fabric White Box,Fabric 白盒,帮助业务流量从入向 LWB转向出向 LWB,支持信元级负载均衡,Fabric 接口为 400G 接口。LWB:Lin

44、eCard White Box,线卡白盒,实现业务流量接入/输出,Fabric 接口为 400G 接口,业务接口为 100G。2.2 分布式解耦机框分布式解耦机框 NOS 架构架构 随着分布式解耦机框对物理机框各硬件部件拆解,运行于其上的网络操作系统 NOS 软件也需要做出相应的架构改造,NOS 分解为不同 22 的实例运行于不同部件上,不同实例的功能侧重不同。下图展示了分布式解耦机框 NOS 逻辑视图。图 2-4 分布式解耦机框 NOS 逻辑视图 NOS 管控面实例主要运行于通用服务器上,是分布式解耦机框的总控软件,划分为三个层次,包含集中管控层、协议层和基础设施层。集中管控层主要是分布式解

45、耦机框的用户管理平面,包含可视化 WEB配置管理服务、传统的 CLI 命令行配置接口、TELEMETRY 等设备运维功能以及丰富的对接网络 SDN 控制器的设备北向接口。协议层运行丰富的网络协议、网络应用、第三方集成功能模块等,体现了机框的网络服务能力。基础设施层主要运行分布式解耦机框基础组件,包含性 23 能优异的中心数据库、机框管理模块、端口管理模块、报文通道和日志/告警通道等。数据库作为数据中间件,统一存放了应用和协议模块的业务数据、配置数据、状态数据和配置 ASIC 芯片的关键信息等。NOS 数据面实例主要运行于转发白盒和 Fabric 白盒上,是分布式解耦机框的数据面软件,划分为四个

46、层次,包含分布式协议层、基础设施层、硬件抽象接口层和硬件驱动层。分布式协议层是一个可选层,如果不计划在数据面进行分布式协议处理,该层次可略去,否则这里将驻留部分协议处理容器。基础设施层主要运行分布式解耦机框基础组件,包含性能优异的中心数据库、机框管理模块、端口管理模块、报文通道,完成和 NOS 管控面实例中的基础设施层对接,除此以外还包含 ASIC 管理模块,通过调用硬件抽象接口层完成对转发芯片的设置。硬件抽象接口层是对转发芯片功能的统一抽象接口,用于屏蔽转发芯片的具体实现细节,实现软硬件解耦,硬件抽象接口存在多种定义方式,当前发展热度最高、功能抽象最全的要属 SAI 接口定义。硬件驱动层主要

47、包含厂商芯片驱动接口、外设驱动接口和接口驱动,厂商应实现由硬件抽象接口转换到芯片驱动接口的代码,NOS 数据面开发可以不关注具体的厂商芯片驱动接口。2.3 分布式解耦机框切片架构分布式解耦机框切片架构 在网络构建中,分布式解耦机框可以作为单一路由节点运行,也可以进一步通过资源切片的方式在同一套分布式解耦机框物理基础设施上启用多个网元逻辑平面。通过将资源池中的转发资源和 x86 通 24 用服务器资源划给多个切片路由器,实现基于单一基础设施之上的融合网络软件平台,达到更深度的资源虚拟化。图 2-5 资源切片图示 资源切片后,多个独立网络可以运行在统一的物理基础设施上,通过容器为不同网络实现软隔离

48、,通过端口资源和转发资源分配为不同网络实现硬隔离。该方法通过统一融合的物理设施为多个用户同时提供网络服务,且不会产生冲突,提升了设备的利用率和复用率。25 三三、分布式解耦机框技术关键技术体系分布式解耦机框技术关键技术体系 分布式解耦机框技术涉及多个层次的相互配合,不仅包括硬件的选择与适配,还包括多项新型网络技术。为了加速分布式解耦机框技术发展,更好的推动该领域的技术研究与生态构建,本章将从机框管理、中央控制面、机框切片、数据面白盒化、数据面弹性扩容架构和交换网负载均衡技术六个方面介绍分布式解耦机框的关键技术点,与读者共同交流和探讨。3.1 机框管理机框管理 分布式解耦机框正向“网络云”方向演

49、进,由于其软硬资源进一步解耦及硬件资源的丰富性,管理相较单一物理机框更具复杂性。资源管理方面,需要注重总体机框软/硬件资源状态管理的维护。分布式解耦机框需要向用户清晰展示机框内软件运行情况,对运行在不同硬件组件上的关键容器、关键服务的列表和运行状态进行维护和呈现;需要向用户细粒度呈现虚机机框/设备/端口等分层资源信息视图,并通过可视化手段展示机框内部组件拓扑连接关系,使用户可以更直观的了解到硬件组件的互联情况。26 图 3-1 机框资源管理 设备北向接口方面,分布式解耦机框倾向于使用丰富的开放网络编程接口。通过对分布式解耦机框的数据模型推动建模,基于通用北向接口配置/传输协议,完成对分布式接口

50、机框的用户面配置管理,以便更好地适用于 SDN 软件定义网络架构以及网络自动化。图 3-2 开放网络编程接口 新型运维管理技术上,分布式解耦机框引入 INT 技术以及 ZTP 技术。INT 技术是在数据面可编程基础上发展起来的为不同用户和业务提供随流检测的一种网络状态采集新技术。该技术提出了一套可在数据报文转发途径设备上精准实时采集设备标识信息、网络转发信息、报文统计信息以及细粒度的队列、缓存占用率等信息,定向高速实时 27 发送到数据中心的运维监控系统,实现能够满足网络状态测量、网络失效检测、故障定位与恢复等运维需求的智能运维测量框架。分布式解耦机框可以结合此技术向用户更透明的呈现出虚拟机框

51、数据面集群内的细粒度实时数据。ZTP 技术,是指新出厂或空配置设备上电启动时在无任何用户干预的情况下采取的一种自动加载版本文件(包括系统软件和配置文件)的功能。分布式解耦机框结合 ZTP 技术,可快速完成大规模资源池内组件的基础运行版本下载,完成分布式解耦机框各组件的快速部署工作。3.2 中央控制面中央控制面 用盒式设备组成大型的 Clos 网络,在互联网公司或公有云公司已经比较常见,盒式设备组网不仅具备性价比高,功耗低,同时也具备灵活的横向扩展性等优点。但是目前通过盒式组网的架构还是采用传统分布式控制面,虽然通过控制器或者统一的运维脚本大大降低了针对每台设备的配置工作,但是在整网路由控制面,

52、还是每一台设备作为一个路由节点,需要通过各类路由域管理来缩小路由收敛和同步路由信息等工作,提高整网路由计算效率。而分布式解耦机框技术中偏向于中央控制面,即所有的接入转发设备不再单独运行路由协议栈,而是全由控制层的控制器/控制面统一完成,控制面完成路由协议等路径学习相关处理。所有的接入转发设备全部被动的从控制器接收表项,仅做“傻瓜式”的转发动作即可。中央控制面不仅在配置上大大降低了运维人员的工作量,也降低 28 了配置出错的概率,同时在路由层面,多台设备仅运行一个路由控制面,对路由的收敛和传播效率都大大的增加。以云数据中心场景为例,所有的服务器连接在接入转发设备上,分布式解耦机框可根据服务器的数

53、量,灵活的增加接入转发设备的数量,当将所有的服务器连接在一起之后,从控制面上看,即所有的服务器均连接在一台机框设备上,所有服务器的路由均为直连路由,无需配置复杂的路由协议,就可实现大量的服务器三层互联,并可通过灵活的 ACL 和 QoS 技术实现访问控制和链路带宽保障。中央控制面同时也带来了技术上的一些难题,如多台设备将本地学习的 MAC 上报的时候,控制面如何进行 MAC 的统一管理及机框分布式同步,跨版业务的硬件资源分配一致性等问题。3.3 机框切片机框切片 通过前文介绍,分布式解耦机框架构的设计理念是真正的将网络的管控面与数据转发面进行分离。开放的管控面可加载不同业务应用程序,例如防火墙

54、、负载均衡、DDoS 等软件平台。集成了不同类型应用的管控面,将数据转发面看成是一套硬件资源池,为上层提供基础的物理转发平台,通过中间控制层的转换,实现对不同应用业务的适配。此时分布式解耦机框不再是传统意义上的路由器和交换机,而是可以划分为多种设备形态。基于管控层的开放接口,用户可以灵活配置不同业务应用程序,控制层应用程序接收到用户指令后,通过对转发层的硬件资源的灵活 29 调配实现上层应用的功能。例如一台 DDC 内的转发白盒设备,其中 10个端口可以用于应用层防火墙业务,这 10 个端口的配置由控制层进行定向配置,另外 10 个端口可用于交换机转发业务,同理,其他设备端口可运行其他如负载均

55、衡、三层路由等业务,互不影响。图 3-3 机框能力切片 3.4 数据面白盒化数据面白盒化 传统网络设备由 OEM 厂商生产,其中主要包括负责处理、转发数据的芯片硬件以及控制操作逻辑的软件,控制平面与数据平面紧密耦合于同一设备中。设备厂商出于对利润的考量,会综合考虑各服务提供商不同的需求对设备进行定制以满足市场广泛需求,这会导致一台设备中包含众多功能特性,而部分特性对于服务提供商来说毫无作用,增加了服务提供商运维人员操作设备的难度。此外,不同厂商、不同系列的交换设备对于运维人员来说就好像一个“黑盒子”,增加了运维管理的难度。30 而白盒设备由 ODM 厂商生产,对交换设备的硬件及其管理软件进行软

56、硬件解耦4。服务提供商可根据硬件标准化的设备匹配相应的控制软件。相较于采用黑盒设备,在最终解决方案确认的过程中,服务提供商可以更具主导权。服务提供商无须根据需求去匹配厂商已有的设备,而是根据网络需求选取一定数量的模块化硬件并定制相应的控制软件。白盒设备的提出,颠覆了传统设备厂商主导网络设备发展的局面并具有诸多优势,具体展开如下:白盒设备由网络服务商根据自身需求提出标准,因此白盒设备具白盒设备由网络服务商根据自身需求提出标准,因此白盒设备具有开放、标准化等特点。有开放、标准化等特点。相较于传统设备厂商利用其技术壁垒垄断设备生产的局面,不同厂商均可根据标准进行生产,大幅降低了硬件生产的门槛。这使得

57、诸如 Intel 等已具备硬件生产基础的非传统网络设备厂商和众多初创企业能够进入生产白盒设备的市场,使得白盒市场能够充分竞争。这不仅刺激了白盒设备的创新活力,也使得白盒设备的价格能够在竞争下维持一个合理的价格。此外,白盒设备大多采用模块化设计,在生产过程中只需提供相应的软件接口,不需根据服务提供商需求定制控制软件,缩短了企业的研发周期,有利于快速商业化。在后续迭代中,可充分利用已有设计模块进行迭代升级。同时,模块化设计也使得白盒设备大幅精简设备型号和分支数量,不需要根据网络规模或是网络接入层、汇聚层等不同层的需求匹配不同的设备系列,能够大批量地生产,增大网络设备的产量及降低生产成本。同样,得益

58、于白盒设备软硬件解耦,白盒设备厂商能够快速享受发展的 31 芯片成果,以最快速度将更先进的芯片应用于白盒设备生产中,专注于交换能力的提升,使其能够提供更快更强的转发能力。数据平面功能简化,只需专数据平面功能简化,只需专注于流量转发,协议处理逻辑减少,注于流量转发,协议处理逻辑减少,逐渐趋向瘦交换机的形态。逐渐趋向瘦交换机的形态。传统网络交换设备不仅需要对输入的数据进行处理,其协议处理逻辑也集成于设备内,设备厂商在设备出厂前需要根据相关需求在设备中写入代码以支持不同的协议。而白盒交换机由于软硬件解耦,使得协议处理逻辑上移至管理软件中,白盒设备内无须预置协议处理逻辑。在将白盒设备部署后,通过相关标

59、准化管理接口便可实现对白盒设备的管理,只需使能管理平面上支持的协议,白盒设备接收已经计算出的转发流表写入数据面,只需专注于流量转发,简化了白盒设备功能。设备厂商的研发人员可利用此优势,将设备研发聚焦于吞吐量和数据处理速度的提升,有利于实现白盒设备交换能力的突破。NOSNOS 更具开放性,可以快速支持新协议更具开放性,可以快速支持新协议。白盒设备通过硬件层开放抽象接口实现软硬件解耦,可以选择使用更具架构开放性的NOS(网络操作系统)进行白盒控制。传统网络设备若要支持新的协议,需要在厂商已有代码的基础上增加对新协议的支持且需要在各个设备之间进行兼容。而白盒设备由于采用开放 NOS,只需通过在开放架

60、构上增加对协议的支持,便可快速实现新协议控制层。此外,软件公司在操作系统开发上具有更大的优势,在白盒设备分层以及各层接口明确后,传统软件公司或是新兴公司可就网络操作系统这一细分方向进行研发及商业化。参照软件工程、敏捷开发等思想,网络操作系统的拓 32 展性将更强,更能够快速敏捷的支持新协议。相较于传统网络设备封闭、异构所导致的难以大规模部署新协议、兼容旧设备的弊端,统一的开放性 NOS 可以加快推进新协议的演进以适应未来网络需要。数据面芯片可编程数据面芯片可编程。随着数据面的发展,为了更加适应新的交换机流表处理方式和数据平面处理逻辑,不少厂商及研究机构向着可编程交换芯片做出了努力。起初的软件定

61、义网络理念通过以 OpenFlow为代表的南向接口协议以支持网络管理者自定义流表,但对流表的定制都不能摆脱已有协议的限制,只能根据已有协议相关字段进行增删,不能实现真正的可编程。随着可编程网络生态的快速发展,创业公司及传统芯片巨头都推出了自己的可编程芯片。数据平面可利用专用编程语言对编程芯片的控制来实现可编程。相较于南向接口协议,专用编程语言更加抽象和通用,可以如设计软件般任意定义数据面逻辑。相较于原有软件定义网络主要集中在控制平面可编程,可编程芯片和协议无关编程语言的出现,使得网络管理者可以自行定义交换机流表形式,赋予数据平面可编程的能力,将软件定义网络的概念延伸至网络数据平面。图 3-4

62、白盒产业生态 33 随着白盒硬件设备的标准化以及相应的开源网络操作系统的出现,白盒交换机已经具备产业化能力的网络生态,并逐步走向成熟。在白盒交换机的产业生态中,由上游的设备提供商到下游的云服务提供商、运营商所构成的产业链已经初步形成。整个产业链围绕自身已有积累和优势,对白盒交换机产业进行布局:其中,设备提供商专注于提供白盒交换机解决方案;云服务商专注于研发网络操作系统;电信运营商专注于借助白盒交换机进行网络重构及业务创新。在开源生态方面,国内外几大开源组织分别就几大方向发力,包括:白盒设备硬件标准的制定、推进 SDN 相关技术在白盒交换机中的落地、重构以白盒交换机为主的网络架构及基础设施及数据

63、中心基础设备。开放的开源生态及初步成熟的产业链使得白盒交换机得以蓬勃发展,各种基于白盒的解决方案及网络技术不断推陈出新。3.5 数据面弹性架构数据面弹性架构 3.5.1 数据面数据面 Clos 架构架构 Clos 架构由 Charles Clos 于 1952 年提出1,该架构起初应用于多级电话交换系统。随后,该架构被用来解决网络高速转发问题。例如,单台高端框式交换机路由器内部交换网络优化时,针对 Crossbar架构部署规模有限、输入输出不灵活等缺点,转为应用 CLOS 架构进行内部交换网络设计。在所需的内部交换节点数量大幅减少的情况下,实现每个输入输出对之间存在冗余链路且可实现无阻塞交换的

64、能力。34 再如,近年来大型数据中心网络架构中广泛应用 Clos 架构,实现大规模网络内任意服务器之间的无阻塞交换网络,使 CLOS 这一古老架构再次大放异彩。DDC 数据平面转发设备的搭建方式同样使用 CLOS 架构。Clos 架构应用于 DDC 数据平面的核心思想是利用多个低成本、小规模的网元构建复杂的大规模、可扩展网络。Clos 架构可分为胖树架构和 Spine-Leaf 架构,由于 DDC 技术中采用的为 Spine-Leaf 架构,下文中的Clos 架构均专指 Spine-Leaf 架构。图 3-5 DDC 数据平面 Spine-Leaf 架构 DDC 数据平面转发设备搭建的 Clo

65、s 架构如上图 3-5 所示:上方的各 Fabric 白盒为 Spine 节点,下方的线卡白盒为 Leaf 节点。从图中可以看出,Spine 节点和 Leaf 节点采用全连接,任意两个 Leaf节点之间的流量通信链路均为 Leaf-Spine-Leaf。其中 Spine 节点类似于三层 IP 网络架构中的核心交换机,但不同于大型机箱式核心交换机,DDC 数据平面 Clos 架构中的 Spine 节点由高吞吐量、端口数量众多、成本低廉的 Fabric 白盒替换,将网络流量压力从由少量 35 核心交换机负载转变为由众多 Spine 节点均衡分摊。3.5.2 数据面数据面 Clos 架构优势架构优势

66、 降低成本降低成本:整体架构由众多小规模、低成本的网元设备构成,降低了对单个设备性能要求,相较于由高性能单体交换机箱有效削减了整体组网成本。便于扩展:便于扩展:当 Spine 交换机带宽不足时,只需增加 Spine 节点数量,当 Leaf 节点接口数量不足时,只需增加 Leaf 节点数量。由于均为横向扩展,相较纵向扩展不需额外考虑新增设备对整体网络架构中其他节点设备的影响。简化管理:简化管理:由于 Spine 节点与 Leaf 节点之间采用全连接,两个Leaf 节点之间存在众多等价路径,便于借助 ASIC 芯片的硬件技术实现 VOQ 和信元级负载均衡,无须软件干预,在网络拥塞时简化流量调度。避

67、免带宽浪费:避免带宽浪费:传统架构为了避免环路所导致的广播风暴大多会开启生成树协议以避免形成环路。Clos 架构自身避免了环路的形成,不需开启生成树协议,从而能够使得各链路带宽得到充分利用。数据路径短:数据路径短:整个网络架构更加扁平化,在同一个 Clos 架构中的两个 Leaf 节点只需经过一个 Spine 节点便可进行通信,无须经过多个中间节点进行转发,有效缩短通信路径,降低时延。可靠性高:可靠性高:由于 Spine 节点与 Leaf 节点之间采用全连接,当某 36 一节点故障时,上层管理平面只需将原有经过该节点的流量转移至其他节点,不会对整个网络结构及稳定性造成影响,有效避免了因单一节点

68、故障导致网络瘫痪。解除瓶颈限制解除瓶颈限制:传统单一机柜式交换机交换性能受到背板交换能力及插槽数量的限制,当某一交换机成为限制网络吞吐量的瓶颈时需要使用性能更高的机箱进行整体替换。使用理论上可无限扩展的分布式机框取代单一机柜式交换机,可以解除背板对单一交换机传输性能的限制,从而使得单一交换机性能不会成为整体网络架构的瓶颈。网络容量灵活:网络容量灵活:根据不同的网络需求,基于 Clos 架构可搭建出不同容量的网络,可以满足接入网、核心网、骨干网等不同场景对网络容量的要求。更好满足接入层需求:更好满足接入层需求:随着物联网业务的兴起、工业互联网等概念的提出,对接入层端口数量的需求不断激增,Clos

69、 架构能够在不影响网络原有架构的基础上,只需增加 Leaf 节点数量便能满足接入层端口数量的扩展。3.5.3 数据面容量计算数据面容量计算 下面通过选取三款白盒交换机硬件构建不同规模的 DDC 集群,直观呈现出 DDC 数据面极具潜力的弹性扩缩容能力。选取的白盒交换机转发芯片、转发容量、业务端口和交换矩阵端口形态,如下表 3-1 所示:37 表 3-1 两款白盒交换机硬件配置 白盒类型白盒类型 转发芯片转发芯片 业务端口业务端口 交换矩阵端口交换矩阵端口(FabricFabric 端口)端口)Fabric 白盒 Broadcom DNX Ramon N/A 48*400G QSFP-DD端口

70、Fabric 白盒(高密型)Broadcom DNX Ramon N/A 96*400G QSFP-DD端口 LineCard 白盒 Broadcom Jericho2c+144*100G QSFP28 端口;或 72*200G/36x400G QSFP-DD 端口 36*400G QSFP-DD端 当使用 1 台 LineCard 白盒进行最小单元的网络构建时,最后的系统容量为 1 台 LineCard 白盒的业务端口容量之和,即 14.4Tbps。当使用 2 台 LineCard 白盒背对背交换矩阵端口互联,系统容量为 2 台 LineCard 白盒的业务端口容量之和,即 28.8Tbps

71、 当使用 6 台 Fabric 白盒及 8 台 LineCard 白盒进行小规模单元的网络构建时,每台 LineCard 白盒通过 400G 的 Fabric 端口与每台Fabric 白盒的 400G 端口互联,形成全连接。最后的系统容量为 8台 LineCard 白盒的业务端口容量之和,即 115.2Tbps。当使用 12 台 Fabric 白盒及 16 台 LineCard 白盒进行中等规模单元的网络构建时,每台 LineCard 白盒通过 400G 的 Fabric 端口与每台 Fabric 白盒的 400G 端口互联,形成全连接。最后的系统容量为16 台 LineCard 白盒的业务端

72、口容量之和,即 230.4Tbps。当使用 36 台 Fabric 白盒及 48 台 LineCard 白盒进行大规模单元的网络构建时,每台 LineCard 白盒通过 400G 的 Fabric 端口与每台Fabric 白盒的 400G 端口互联,形成全连接。最后的系统容量为 48 38 台 LineCard 白盒的业务端口容量之和,即 691.2Tbps。当然,也可以通过扩展 Fabric 白盒设备上 Ramon 芯片的数量构造高密型 Fabric 白盒设备,支持超大规模白盒进行超大规模单元的网络构建。使用 36 台高密型 Fabric 白盒设备及 96 台 LineCard 白盒设备的超

73、大规模单元的网络构建,每台 LineCard 白盒通过 400G的 Fabric 端口与每台 Fabric 白盒的 400G 端口互联,形成全连接。最后的系统容量为 96 台 LineCard 白盒的业务端口容量之和,即1382.4Tbps。构建不同规模的网络所需设备资源、Fabric 互联链路,以及所达到的系统容量如下表 3-2 所示:表 3-2 不同规模网络设备配置 构建规模构建规模 设备资源设备资源 FabricFabric 互联链互联链路路 系统容量系统容量 最小单元 1(LineCard 白盒)N/A 14.4Tbps 背对背小单元 2(LineCard 白盒)N/A 288Tbps

74、 小规模单元 6(Fabric 白盒)+8(LineCard 白盒)400G 115.2Tbps 中规模单元 12(Fabric 白盒)+16(LineCard 白盒)400G 230.4Tbps 大规模单元 36(Fabric 白盒)+48(LineCard 白盒)400G 691.2Tbps 超大规模单元 36(Fabric 白盒高密型)+96(LineCard 白盒)400G 1382.4Tbps 从以上六个构建方案中可以看出:采用 Clos 架构进行分布式解耦机框构建,系统容量从最小单元 14.4Tbps 到最大单元 39 1382.4Tbps,体现了采用 Clos 架构后机框指数级容

75、量增长的潜力,大幅领先现有单机框式交换机的性能。值得一提的是,博通Jericho 家族提供多种带宽芯片选择,可以提供更小颗粒度的LineCard 白盒设备形态,均可以基于 Ramon 芯片的 Fabric 互联,如上文 AT&T 使用的最小规模 4Tbps 的 Jericho2 芯片。3.6 交换网负载均衡技术交换网负载均衡技术 传统机框一般采用了正交架构设计,虽然正交架构比较传统的ATCA 机框有诸多优点,但是依然存在局限性:当存在多个交换网板时,从接口板/业务板收到的流量如需跨板转发,或者跨芯片转发,需要将报文转发到交换板,由交换板通过查询相关表项,找到出接口板。当机框有多个交换网板时,接

76、口板一般采用 HASH 算法选择将报文转发到某块交换网板,同时为了保证报文到出口板不会出现乱序的情况,HASH 的模型选择为逐流转发。逐流即根据流量的 IP 五元组进行 HASH 计算,将一条流(IP 五元组相同)转发到同一交换板。此模式可以很大程度解决接口板到交换板报文负载均衡的问题,但是逐流转发模式也有天然的问题,当一条流的流量非常大的时候,逐流转发模式会将流量转到同一个交换板上,造成单个交换板的负载过载,其他交换板相对空闲。逐包转发模式可以很好的解决这个问题,逐包模式即接口板将报文转发到交换板时,将报文按照顺序逐一的转到不同的交换板,不会按照报文的 IP 五元组信息进行区分。此方式很好的

77、解决了逐流 HASH 模式不均匀的问题,但是逐包问题存在一个致命问 40 题,由于多个交换板之间有多条物理链路,就会产生同一数据流的第一个数据包在一个交换板的一条物理链路上传输,而第二个数据包在另外一个交换板的一条物理链路上传输的情况。这样一来同一数据流的第二个数据包就有可能比第一个数据包先到达出口板设备,从而产生接收数据包乱序。鉴于逐流和逐包转发模式的问题,很多厂商提出了改进方案,例如 Mellanox 的 InfiniBand 网络,可以采用逐包模式,在出口板/出方向设备上,进行报文的排序工作,但是 InfiniBand 网络方案无法兼容现有以太网。在以太网里,芯片厂商们也提出了相应的解决

78、方案,例如博通芯片,在 DNX Jericho 芯片和 Ramon 芯片中,加入了信元交换技术。Mellanox 的方案虽然在逐包模式上做了增强,但是在特定的情况,不同流的报文长度也不同,可能会造成比较大的报文转发到了同一交换板的情况发生,博通的方案的是在接口板报文转发到交换板的同时,将报文切分成等大小的信元,将信元逐个转发到交换板,这种方式不仅彻底解决了逐流的问题,还将 Mellanox 逐包的方案进行了增强。41 图 3-6 报文切分转发图示 42 四四、典型应用场景典型应用场景 4.1 5G 承载网场景承载网场景 承载网是运营商 4G/5G 网络架构的主要组成部分,主要负责无线接入网和核

79、心网之间的流量回传,承载网的技术不同运营商采用的也不尽相同。以中国电信举例,承载网又称 IP RAN,IP RAN 是指以IP/MPLS 协议及关键技术为基础,主要面向移动业务承载并兼顾提供二三层通道类业务承载,以省为单位,依托 CN2 骨干层组成的端到端的业务承载网络。在 IP RAN 网络中主要包括接入层、汇聚层和核心层,而核心层又分为城域核心层、省核心层。随着 5G 业务的发展,各大运营商开始布局新型承载网,新型承载网是面向未来新型网络业务,基于SR-MPLS/SRv6、EVPN、网络切片、确定性网络等技术,对固网和移网业务进行综合承载的新型城域网络,其架构如图 4-1 所示。图 4-1

80、 新型承载网架构 43 新型承载网的主要业务场景共包括两类,第一类是 5G 移动回传业务,实现将基站流量接入到核心网网元;第二类为固网宽带业务,包括家庭宽带、IPTV、互联网专线、VOIP 等业务等。与现有的网络不同,新型承载网强调网络协议与网络功能的可编程、确定性、定制化、高性能需求,能提供软硬切片和 QoS 保证的专线服务,分布式解耦机框因具备控制面的统一管理,以及硬件资源虚拟化等技术,正在弱化交换机和路由器的设备形态,从接入承载网络到新型骨干网络,分布式解耦机框可以做到全场景全兼容。5G 移动回传业务涉及的网络架构如图 4-1 所示,分布式解耦机框主要可应用在接入部分和 UPF 部分。移

81、动回传业务通过 MPLS/BGP L3VPN over SR/SRv6 隧道进行承载,部分需要专线承载的业务通过EVPN L2VPN over SR/SRv6 隧道进行传输。在保证电信级的网络可靠性方面,运用网络保护/恢复技术,在部署过程中要求设备支持主控冗余,支持 NSR 功能,VPN/EVPN FRR、Ti-LFA、SR-TE HSB 等功能。同时,要求支持 BFD、RFC2544、RFC1564 等层次化的 OAM 机制,实现故障的检测和性能的检测。为满足业务确定性、高性能要求,设备需要支持 10GE、50GE、100GE 端口以及 FlexE 子端口,具备 SyncE、1588v2 等

82、时钟同步、时间同步功能。综上,针对 5G 回传业务,设备需具备 NSR、硬切片、高精度时钟同步等新型网络的功能。固网宽带业务涉及的网络架构如图 4-1 所示,分布式解耦机框主要可应用在骨干网传输部分。其中,宽带业务采用控制面和数据面解耦的结构。在控制面中,网络应用以 NFV 的形式部署于省或地市通信 44 云中。在数据面中,为满足固网宽带高可靠、高带宽、确定性等业务需求,新型承载网引入 SR-MPLS、SR-POLICY、IGP for SR、BGP-LS 等多种新型协议,支持无缝 BFD 路径快速检测、故障快速保护倒换、全网路径探测和性能测量等多种特性,实现电信级可靠性、确定性网络传输质量保

83、障、智能运维、集中式算路引擎等功能。4.2 数据中心网络数据中心网络 数字经济时代,算力正在成为一种新的生产力,数据中心作为算力的物理承载载体,已经成为推动数字经济时代发展的新型基础设施,具有空前重要的战略地位。数据中心网络分为数据中心内部网络和数据中心 DCI 互联网络两大组成部分,这两部分网络和分布式解耦机框技术相结合,给我们带来了全新思考和启发。4.2.1 数据中心内部网络数据中心内部网络 为应对体量庞大的云应用,数据中心网络总体架构采用CLOS架构搭建,并通过云内SDN控制器实现网络自动化和智能运维。数据中心网络在物理拓扑上采用二级或三级CLOS架构构建,该架构拓扑结构明确,具备超强的

84、水平扩展能力,便于通过积木方式完成网络水平扩展,应对不断扩大的流量规模要求。在网络弹性方面,CLOS架构本身的无阻塞多路径并行转发特性,使得相同网络层次的物理链路具有完全相同的转发意义,只要同层的网络路径还有部分正常,数据中心流量就可以继续转发,通过ECMP方 45 式提升了每条链路的利用率,也解决了网络环路和网络可靠性等复杂问题,增强了网络弹性和鲁棒性。下图所示是一个典型数据中心网络主体架构,在这个网络中,所有的交换机被分为 Spine交换机、Server Leaf交换机、Border Leaf交换机三种不同的角色,交换机在不同位置上扮演不同角色,作用不同,所需具备的关键功能也有所不同。图

85、4-2 典型数据中心网络主体架构 关键组件技术路线要求:SDN控制器:通过VLAN、VXLAN或GENEVE等隔离技术实现多租户网络,利用上述技术快速实现算力服务器间的多租户网络部署和拆除。通过丰富的南向接口来控制软、硬件数通设备上的租户转发信息。Spine交换机:该交换机承载来自Leaf设备的高速转发流量,Spine交换机和所有Leaf层交换机进行Full-Mesh连接。Spine只用 46 于Underlay网络汇聚,不做Overlay功能,网络特性要求简单,只要支持基本的三层网络路由,如ISIS、OSPF、BGP或静态路由等。Spine交换机的端口密度和转发能力要求较高,需要有大量高密度

86、高速接口。当下行Leaf流量增长导致Spine交换机转发带宽不足时,可横向扩展Spine交换机,实现灵活扩容。Server Leaf交换机:也称Leaf交换机,负责计算服务器资源上的流量接入,Server Leaf交换机能为服务器提供可靠的接入方式,比如MC-LAG、堆叠或EVPN multihoming等,用来实现用户流量接入的高可靠。在硬件Overlay的场景下,服务器Leaf交换机还要相应支持overlay网络的搭建,提供VXLAN、GENEVA、BGP EVPN等Overlay网络相关功能,提供多租户网络灵活搭建能力。Border Leaf交换机:也称网关Leaf交换机,该网络交换机是

87、业务对外提供服务的转发通道,主要作用是实现南北向网关,一方面在数据中心内部域内建立业务流量的overlay通道,一方面需要实现内部流量到外部网络的路由转发,需要尽可能多地将资源划分给三层路由表;同时设备自身最好能具备一定L4-L7服务能力,如NAT、LB等,实现网络地址转换、负载均衡等功能;设备还可以兼做LB、FW、WAF等旁挂专用网络设备的接入交换机,将数据中心出入流量引导至专用设备,完成流量清洗、负载均衡等服务。数据中心网络在当前应用中体现了超强的水平扩展能力、高带宽、网络弹性和鲁棒性等优点。在流量负载分担方面,也通过路由 ECMP的方法提升了链路可靠性,实现了一定的链路并发能力,但是这种

88、建 47 立于 ECMP 之上的链路并发能力还有可优化之处。首先,ECMP 选路是建立在单设备转发路由表选路基础之上的,为单跳行为决策,不能动态感知完整转发路径上的链路拥塞情况,无法实现端到端级别的流量合理调度。其次,基于路由 ECMP 的链路负载均衡是将业务流量按照五元组逐流 hash 到多条等价链路进行传输,由于业务流量的大小差异,以及发生 hash 冲突等算法原因,流量并不能绝对均衡的负载到多条链路上,容易导致部分链路拥塞、部分链路空闲,网络总体利用率上不去,应用性能下降的问题。所以,在数据中心多路径网络环境下,如何实现高效的网络流量负载均衡机制,就成为一个重要的研究方向。分布式解耦机框

89、数据平面在流量控制方面基于信元级的负载均衡的方案可以很好的解决传统 CLOS 集群带宽利用不均甚至链路阻塞的问题,将数据中心链路利用率提升到一个更高的水平,同时也实现了路径流量动态分担。分布式解耦机框数据平面还支持基于 VOQ 的端到端调度,实现无阻塞转发。VOQ 技术在一个物理通道上面向多个输出方向实现多个虚拟输出队列,因此可以实现对流量基于优先级调度,同时还可以支持交换网级的端到端流控。在 Ingress NCP,数据包经过分类和转发查找,根据目的出端口进入虚拟输出队列。入口NCP不是将数据包推送到 NCF 和出口 NCP,而是通过VOQ机制与出口NCP联动以查看是否有足够的可用带宽。如果

90、答案是肯定的,出口NCP将向入口NCP发出credit,入口NCP会将数据包分割成信元并在所有可用NCF之间进行负载平衡。该机制更像是根 48 据分布式解耦机框集群的出向带宽情况合理的“pull”入向NCP的流量,而非传统CLOS架构入向设备往出向设备“push”流量。可见VOQ机制可针对端口级别进行速率适配,从而真正实现了无阻塞交换。图 4-3 数据中心 IP Clos 流量转发与 DDC 数据平面流量转发 图4-3示意了数据中心IP Clos流量转发和DDC数据平面流量转发的差异。在数据中心IP Clos架构下,数据中心业务的三个数据包需要转发到另一个Leaf节点下的计算资源,网络中存在的

91、红色链路表示该链路已经拥塞,入向Leaf并未感知到该事件,在进行ECMP多路分发时数据包2被传输到了这一拥塞链路所连接的spine设备上,导致最终因为链路拥塞丢包,数据包2没有到达出向Leaf。同样的转发需求和网络环境,在DDC的基于VOQ的信元级交换架构下,数据通过VOQ机制能正确避让拥塞链路,并通过更细粒度的信元传输,报文能毫无损失的传输到出向白盒设备。分布式解构机框架构中数据平面应用的转发技术,解决了原数据中心IP Clos网络架构中东西向业务流量端到端 49 调度缺失和流量负载不均的问题,能有效提升网络利用率、增加网络吞吐量、加强网络数据处理能力、提升应用性能。4.2.2 数据中心数据

92、中心 DCI 互联网络互联网络 大型数据中心通常包含多个分支,由于各分支所处地理位置不同,需要通过网络互联起来,多地资源协同共同完成业务部署,这些数据中心分支间互通的网络即称为数据中心互联(简称 DCI)网络。该网络的核心要义是建设大规模网络之上的智能化定制交通,为各数据中心间流量构建专门的转发面,负责数据中心间流量智能调度和快速转发,基于可编程路由、确定性网络、软/硬切片和性能监测等领先技术,全面提升网络路径传输质量,实现路径快速重建和流量工程管理能力。为不同类型云业务流量,实现服务区分,提供满足不同传输 SLA 要求的高速远距网络,解决多云之间,以及多个异构环境间的互联互通。当前 DCI

93、网络的互联带宽高,多采用转发容量高的机框式设备构建,网络扩容存在困难:机框背板设计限制了最大转发能力,增加设备扩容,面临扩容成本高,设备利用率下降的问题;单台机框为 1 米多高的巨无霸设备,电力功耗大,对机柜空间和电力要求高,一旦扩容,除非对机柜摆放位置和机柜电力提前做好规划,否则难以部署。另外,单台 DCI 设备接口数量大,转发容量高,一旦出现故障,将对经过该设备的网络流量产生重大影响,造成巨大的运营损失。将分布式解耦机框应用于 DCI 网络构建,以其标准化小型白盒交 50 换机构建的可灵活扩展的转发平面,可以不受基于机箱的系统空间和功率限制。每个集群配置实际上都是一台转发容量大小不同的路由

94、器,添加线卡白盒和 Fabric 白盒、独立于数据平面扩展控制平面的容器、独立于控制面扩展端口数量的分布式数据平面,这几要素支撑了将DDC 系统快速扩展到几乎任何容量的敏捷性。机框的接口数量巨大,但故障域在单个白盒设备,缩小了故障影响范围,减轻了运维和管理上的难度。提高网络的高可用性、可管理性,降低设备成本。4.3 HPC 计算计算 随着互联网和云计算的发展,作为计算载体的数据中心要求也越来越高,同时 AI 和大数据等计算业务的加持,让数据中心不在是单纯的增加服务器的数量来满足业务计算要求,而是逐步转移到对数据中心的规划和设计层面上来,数据中心需要高性能的计算能力才能满足现网的业务发展需求。高

95、性能计算(HPC,High Performance Computing)在计算领域得到了普遍的应用。高性能计算顾名思义就是通过集群计算,将多台具备计算能力的服务器并行工作,增加整体的计算能力。集群服务器可以提供很好的可扩展性、冗余性等优点。由于 HPC 能准确的计算出结果,有助于解决商业和科学研究等业务的需求,所以现在 HPC 被越来越多的数据中心采用,很多数据中心对 HPC 业务也是单独的进行物理部署。HPC 业务中需要一个计算集群支持多种类型的数据流,在同一集 51 群中可同时采用不同类型的互联网络,一般这些网络又拥有各自的网络协议,这就意味着,网络性能和特性会有不同。对于高性能计算需求,

96、各种高速的 I/O 标准相继登场,例如 RDMA 技术,RDMA 是 Remote Direct Memory Access 的缩写,意思是远程直接数据存取,是为了缩短网络传输中服务器端数据处理的延迟而产生的。RDMA 是通过网络把资料直接传入计算机的存储区,将数据从一个系统快速移动到远程系统存储器中,而不对操作系统造成任何影响,这样就不需要用到多少计算机的处理功能。它消除了外部存储器复制和文本交换操作,避免了过去由系统先对传入的信息进行分析与标记,然后再存储到正确的区域的过程,因而腾出总线空间和 CPU 周期用于改进应用系统性能。在采用了 RDMA 技术后,HPC 计算对网络也提出了更高的要

97、求,对转发时延、丢包率都提出了严格的要求,InfiniBand 就是专门为了应用 RDMA 技术的网络方案,InfiniBand 技术是一种开放标准的互联网络技术,是一种将服务器、网络设备和存储设备连接在一起的交换结构的 I/O 技术,InfiniBand 网络的解决方案也是目前 RDMA 中常用的方案。InfiniBand 网络方案采用的协议是专用协议,所以方案中需要使用专用的智能网卡、交换机、互联线缆,目前市面上比较成熟的就是 Mellanox 厂商的产品,因方案不能与传统的以太网直接互联,并且对应提供的产品和方案的厂商也是风毛菱角,所以方案不仅价格比较高昂,且后期投入的运维成本也较高。因

98、为 InfiniBand 网络方案的弊端,以及传统的以太网技术依然 52 占据主导地位,在 IETF 发布了的 DCB(Data Center Bridging)标准中,基于 RDMA 的无损网络得以解决,以太网终于在专有网络领域有了自己的标准,同时也提出了 RoCE(RDMA over Converged Ethernet)的概念,经过版本的升级(从 RoCEv1 到 RoCEv2),RoCE 已经具备为以太网络提供端到端无损零丢包及超低延时的能力。RoCE的技术方案是将以太网通过 PFC 和 ECN 技术进化成“无损网络”,用来支持在以太网上承载 RDMA 业务。RoCE 网络方案需要网络

99、具备 PFC 和 ECN 功能外,还需要网络设备具备大 Buffer,低时延转发的要求,在传统数据中心,一般都采用普通的盒式交换机和框式设备组成,通过整网配置 PFC 和 ECN 可满足无损的要求,但是在实际部署中,需要结合业务特征调整 PFC/ECN 的水线,达到低延迟无损的同时,也要注意流控对整个集群对吞吐的影响,并需要考虑大带宽以解决流转发 hash 极端化的情况。分布式解耦机框方案也可应用在 HPC 的计算场景,不仅支持 PFC和ECN功能,还很好满足HPC/AI/ML等RDMA业务特征对网络的需求,提供单跳无阻塞转发,极高的链路利用率,端到端的队列调度,以及极低的时延和便捷的管理。链

100、路利用率高:链路利用率高:HPC/AI/ML等RDMA业务其流量特征往往是由较少数量的流组成,但是每条流的带宽较大,持续时间也较长。这样的流量模型对传统基于五元组逐流转发的ECMP负载均衡带来了巨大的挑战。传统的Spine-Leaf架构基于流的五元组进行ECMP负载均衡转发,很容易把一条大容量的流哈希到一条链路上,而Spine-Leaf之间其他 53 链路空闲,这就需要预留出较大的带宽并合理设置收敛比。在极端情况下,还会造成某些链路拥塞而触发流控,影响业务FCT(Flow Completion Time).DDC架构线卡设备和矩阵设备之间的ECMP转发是基于信元而不是流,即使同一个五元组的大流

101、量进入DDC集群,也可以在入向设备上被分割为信元,均匀的hash到Spine-Leaf之间的不同链路上,整网链路利用率极高,带宽设计不受限提供极高的性价比。无阻塞转发和端到端的队列调度:无阻塞转发和端到端的队列调度:在分布式解耦机框中,部分芯片支持 VoQ 技术,结合芯片的缓存可以在入向设备上分布的缓存突发流量,而不是都涌向出向设备,并基于 credit 实现端到端的调度以及灵活的队列控制。此技术原理如下:1.入向接入转发设备对报文进行查表操作,当判断出接口不在本板时,芯片调度器会向出接口板的端口申请 credit 通知,通知出接口端口有数据要发送;2.当出接口收到 credit 通知后,会进

102、行资源的判断与分配,只有出端口有足够带宽资源时,才会给入向端口分配 credit;3.入向端口收到 credit 后,开始转发数据包到出端口;4.出端口没有资源转发时,不给入端credit,入端口没有 credit不能转发数据到出端口,而是在本地进行缓存,直到申请到了credit,实现了报文的分布式缓存机制,从而避免 fabric 内丢包。54 图 4-4 VoQ 机制 在 HPC 应用中,通常会出现多个服务器/GPU 的流量到达相同目的服务器/GPU 的情况,形成 many-to-one 的通信模式,造成网络Incast 现象。传统的 Clos 架构只能通过出向设备的缓存去吸收Incast

103、流量,超过水线则触发 PFC/ECN 等流控机制。频繁的流控会影响整个集群的转发性能和业务完成时间。VOQ 机制可以有效的提供入向分布式数据包缓冲区,分布式的吸收 Incast 流量,而不是把压力都推向出向设备,把整个集群的转发性能受 Incast 流量的影响降到更低水平。55 五五、实践案例实践案例 5.1 紫金山长三角白盒主干网核心节点紫金山长三角白盒主干网核心节点 DDC 部署方案部署方案 为满足全息通信、天地一体化网络、泛 IoT 及安全等方面需求,针对当前我国互联网体系结构在扩展性、安全性、实时性、移动性、管理性等方面存在的重大技术挑战,紫金山实验室主导构建了一套长三角一体化网络试验

104、设施与平台,服务网络 2030 新型体系架构的创新试验验证。紫金山实验室长三角一体化网络拓扑由两个平面进行构建,一个是 SDN 平面,一个是白盒主干网平面。其中白盒主干网平面完全采用装载自研 UniNOS 系统的白盒交换机搭建,具备 SDN 能力、北向开放能力和软硬件解耦能力,服务于科学试验用户。该平面基于光传输网络和交换设备,建成连接江苏省及泛长三角地区主要城市的主干网络,首批接入:南京、镇江、扬州、常州、无锡、苏州、泰州、南通、上海 9 个城市,以这些城市节点辐射各市下属辖区,提供边缘网络和接入服务。整体组网以南京、苏州两个城市为主干网的核心节点,其他7 个城市作为区域节点双归接入核心节点

105、。56 图 5-1 紫金山实验室长三角白盒主干网平面 当前,紫金山实验室正在对分布式解耦机框进行整体研制,已经完成硬件选型、方案设计和关键功能开发,正处在技术测试的最后阶段。计划在今年年底,对现有长三角白盒主干网进行网络升级,将分布式解耦机框试点应用于现网网络,将南京核心网络节点从传统网络架构演进成分布式解耦机框架构。57 图 5-2 南京核心节点传统网络与 DDC 架构 通过 DDC 架构,南京核心节点在网络转发容量上具备更大的弹缩范围,体现了巨大容量潜力,在数据平面能提供基于信元交换无阻塞转发能力,为科研用户提供更优质的 SLA 网络服务质量。5.2 HPC 测试案例测试案例 HPC 是分

106、布式解耦机框非常重要的应用场景,分布式解耦机框通过无阻塞、低时延的转发架构、VoQ、Cell 交换等技术加持,实现了比传统方案更优的总体转发性能和极高的带宽利用率,下面描述的是一则 HPC OpenMPI Benchmark 测试案例。测试设备类型:1)接入转发设备(NCP):Edge-Core 550(基于博通 Jericho2 芯片)58 2)信元交换设备(NCF):Edge-Core 580(基于博通 Ramon 芯片)3)控制面服务器(NCC):HPE DL380 Gen10 4)管理互联交换机(NCM):H3C S6850-56 测试网络拓扑:图 5-3 测试网络拓扑 64 台服务器

107、分为 4 组,连接到 4 台的 NCP 上,4 台 NCP 分别连接到 2 台 NCF 上。其中服务器通过 100G 端口与 NCP 互联,NCP 与 NCF之间采用 400G 链路互联。测试目的:测试分布解耦机框在 OpenMPI Benchmark 测试中,对不同 Meassage Size(4M、100M、200M)的最终处理完成时间。测试步骤:1、通过脚本同时在 64 台服务器上开始运行 OpenMPI 的 All2All测试用例,测试的 Message size 设为 4MB。用例运行结束后,记录完成时间,采集服务器端口的计数器,NCP 和 NCF 的端口计数器,服务器的 NCP 端

108、口的 PFC 计数器。59 2、测试的 Message size 设为 100MB。用例运行结束后,记录完成时间,采集服务器端口的计数器,NCP 和 NCF 的端口计数器,服务器的 NCP 端口的 PFC 计数器。3、测试的 Message size 设为 200MB。用例运行结束后,记录完成时间,采集服务器端口的计数器,NCP 和 NCF 的端口计数器,服务器的 NCP 端口的 PFC 计数器。测试结果:图 5-4(a)不同 Message size 的任务完成时间测试结果 如图 5-4(a)所示,通过观察 3 次不同 Message Size(4M、100M、200M)的任务完成时间,可以

109、判断出在分布式解耦机框多项技术加持下,HPC 业务的总体性能相对于传统方案,随着 Message Size 的增大,时间优势更加明显,大大的提高了 HPC 业务的处理效率。4MB100MB200MBAverage Job Completion TimeDDCClassic 60 图 5-4(b)不同 Message size 的带宽利用率测试结果 在本测试中还可观察到,如图 5-4(b)所示,DDC 架构下的带宽利用率要明显高于传统方案,由于分布式解耦机框架构是基于 cell 转发,可实现非常均匀的链路负载均衡效果,不会出现某些大流哈希到某一条链路带来的拥塞,并大大提高有效带宽利用率。这一点也

110、可以通过观察集群中设备接口出入方向的流量分布得到进一步的验证。下图 5-4(c)为测试中两台 NCF 设备端口出入方向的流量统计情况,可见基于信元转发的流量负载极其均衡。4MB100MB200MBCalculated Effective BandwidthDDCClassic 61 图 5-4(c)NCF 设备端口出入方向流量统计情况 62 六六、未来网络分布式解耦机框技术发展建议未来网络分布式解耦机框技术发展建议 大数据、人工智能、机器学习、5G 通信、远程医疗、4K/8K 视频等新业务形态层出不穷、日新月异,使得网络基础设施面临的规模、性能问题越来越突出,网络运维的难度越来越大。分布式解耦

111、机框技术提供了一种颠覆原有网络架构的思路,可实现网络基础设施硬件统一架构、转发容量灵活扩展、软件功能快速引入、网络单 bit 转发成本降低等多方面的提升,实现总体网络“降本增效”。为了推动分布式解耦机框的技术落地,促进网络技术的发展和变革,本文针对分布式解耦机框技术的发展提出以下建议:聚焦分布式解耦机框聚焦分布式解耦机框关键技术及关键技术及难点技术难点技术进行攻关与突破。进行攻关与突破。重点突破机框管理、统一控制面、控制面微服务化、机框内部通信通道、数据面白盒化、数据面弹性扩容架构、交换网负载均衡等关键技术,支撑多样化网络需求,抢占技术创新高地,引领网络架构形态变革。逐步逐步构建构建包含网络高

112、级应用、网络云化包含网络高级应用、网络云化 N NOSOS、白盒交换机和、白盒交换机和 A ASICSIC配套芯片在内配套芯片在内的的分布式解耦机框分布式解耦机框生态体系生态体系。通过建立网络细分行业,促进各行业的快速创新和繁荣,坚持查缺补漏,补齐短板,集中资源攻克交换芯片“卡脖子”技术,支撑分布式解耦机框前沿技术,构建开放、多元、共赢的网络生态环境。加强加强分布式解耦机框分布式解耦机框应用应用实践实践,开展基于重大场景的一系列示范开展基于重大场景的一系列示范应用应用。分布式解耦机框的实践探索当前还处在初级阶段,国内网络中还鲜有对该技术的部署和应用。需要加强面向新型承载网、数据中心、63 HP

113、C 等重大场景的示范应用成果输出,开展核心技术在这些重大场景的一系列示范应用。通过加强技术和示范应用的发展和推广,整合我国电信运营商、设备厂商、互联网公司、研究机构及人才的资源优势,集中力量创造适应经济社会长远发展的未来网络,赋能国家新基建和新产业发展。64 附录 A:术语与缩略语 中文中文名称名称 英文缩英文缩写写 英文全拼英文全拼 访问控制列表 ACL Access Control List 应用型专用集成电路 ASIC Application Specific Integrated Circuits 先进电信计算架构 ATCA Advanced Telecom Computing Arc

114、hitecture 双向转发检测 BFD Bidirectional Forwarding Detection 边界网关协议 BGP Border Gateway Protocol 命令行界面 CLI Command-Line Interface 中国电信下一代承载网 CN2 ChinaNet Next Carrying Network 控制面板策略 COPP Control Plane Policing 数据中心桥接 DCB Data Center Bridging 分布式拒绝服务 DDoS Distributed Denial of Service 动态主机配置协议 DHCP Dynami

115、c Host Configuration Protocol 等价多路径路由 ECMP Equal-Cost Multi-Path 显式拥塞通知 ECN Explicit Congestion Notification 下一代虚拟专用网络 EVPN Ethernet Virtual PrivateNetwork 灵活以太网 FlexE Flexible Ethernet 高性能计算机群 HPC High Performance Computing 基础设施服务平台 IaaS Infrastructure as a Service 物联网 IoT Internet of Things 中间系统到中

116、间系统 ISIS ISIS-Intermediate System to Intermediate System 带内网络遥测 INT Inband Network Telemetry 带内操作管理维护 IOAM Inband Operation Administration and Maintenance 链路聚合组 LAG Link Aggregation Group 负载均衡 LB Load Balance 介质访问控制 MAC Media Access Control 多协议标签交换 MPLS Multi-Protocol Label Switching 网络地址转换 NAT Netw

117、ork Address Translation 网络质量分析 NQA Network Quality Analysis 不间断路由 NSR Non-Stopping Routing 操作维护管理 OAM Operation Administration and Maintenance 开放计算项目 OCP Open Compute Project 原始设计制造商 ODM Original Design Manufacturer 原始设备制造商 OEM Original Equipment Manufacturer 开放式最短路径优先 OSPF Open Shortest Path Firs 协

118、议无关的可编程包处理器 P4 Programming Protocol-independent Packet Processors 65 基于优先级的流量控制 PFC Priority-based Flow Control 服务质量 QoS Quality of Servic 无线接入网 RAN Radio Access Network 远程直接数据存取 RDMA Remote Direct Memory Access 交换机抽象接口 SAI Switch Abstraction Interface 软件定义网络 SDN Software-defined Networking 云开发网络软件

119、SONiC Software for Open Networking in the Cloud 基于 MPLS 转发平面的段路由 SR-MPLS Segment Routing MPLS 基于 IPv6 转发平面的段路由 SRv6 Segment Routing IPv6 服务器系统架构 SSI Server System Infrastructure 交换状态服务 SWSS Switch State Service 用户平面功能 UPF User Plane Function 网络功能虚拟化 VNF Virtualised Network Function 网络电话 VOIP Voice o

120、ver Internet Protocol 虚拟输出队列 VoQ Virtual Output Queue 虚拟专用局域网业务 VPLS Virtual Private Lan Service 虚拟专线业务 VPWS Virtual Private Wire Service 虚拟可扩展局域网 VXLAN Virtual eXtensible Local Area Network Web 应用防火墙 WAF Web Application Firewall 零接触配置 ZTP Zero Touch Provisioning 66 参考文献 1 Ruijie Networks.CLOS 架构新一代

121、数据中心的网络架构EB/OL.(2012-10-24)2022-7-15.https:/ DriveNets.INTRODUCING DRIVENETS NETWORK CLOUD:From Traditional Chassis to Disaggregated Software-Based NetworkingR/OL 3 AT&T.AT&T Submits White Box Design to the Open Compute ProjectEB/OL.(2019-9-27)2022-7-15.https:/ 4 网络通信与安全紫金山实验室.未来网络白皮书:白盒交换机技术白皮书(2021 版)R/OL(2021-6)5 SONiC.Distributed Forwarding in a Virtual Output Queue(VOQ)ArchitectureEB/OL.(2020-9-17)2022.7.15.https:/

友情提示

1、下载报告失败解决办法
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。

本文(未来网络发展大会:2022分布式解耦机框技术白皮书(74页).pdf)为本站 (淡然如水) 主动上传,三个皮匠报告文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三个皮匠报告文库(点击联系客服),我们立即给予删除!

温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。
会员购买
客服

专属顾问

商务合作

机构入驻、侵权投诉、商务合作

服务号

三个皮匠报告官方公众号

回到顶部