上海品茶

您的当前位置:上海品茶 > 报告分类 > PDF报告下载

ODCC:框式开放自研交换机技术实现与应用场景白皮书(2022)(36页).pdf

编号:100231 PDF 36页 2.09MB 下载积分:VIP专享
下载报告请您先登录!

ODCC:框式开放自研交换机技术实现与应用场景白皮书(2022)(36页).pdf

1、1框式开放自研交换机技术实现与应用场景白皮书ODCC-2022-03004分布式存储技术与产业分布式存储技术与产业分析报告分析报告编号 ODCC-2022-03004框式开放自研交换机技术实现与应用场景白皮书开放数据中心标准推进委员会开放数据中心标准推进委员会2022-09 发布发布I框式开放自研交换机技术实现与应用场景白皮书ODCC-2022-03004版权版权声声明明ODCC(开放数据中心委员会)发布的各项成果,受著作权法保护,编制单位共同享有著作权。转载、摘编或利用其它方式使用 ODCC成果中的文字或者观点的,应注明来源:“开放数据中心委员会 ODCC”。对于未经著作权人书面同意而实施的

2、剽窃、复制、修改、销售、改编、汇编和翻译出版等侵权行为,ODCC及有关单位将追究其法律责任,感谢各单位的配合与支持。II框式开放自研交换机技术实现与应用场景白皮书ODCC-2022-03004编制说明编制说明本白皮书在撰写过程中得到了多家单位的大力支持,在此特别感谢以下参编单位和参编人员:参编单位(排名不分先后):中国信息通信研究院(云大所)、百度、思科公司、中国电信集团有限公司参编人员(排名不分先后):王少鹏、孙聪、包贵新、蒋星、李婷婷、张超、王维III框式开放自研交换机技术实现与应用场景白皮书ODCC-2022-03004目录目录版权声明.I编制说明.II一、引言.1二、项目背景.2三、项

3、目目标.3四、专用术语.3五、框式开放交换机方案论证.4(一)白盒交换机的行业现状.4(二)框式交换机迎接开放生态.5(三)厂商产品支持 SONIC 实现介绍.61 Cisco 框式交换机.62 Nokia&Arista 框式交换机.12(四)DCICLOS 架构方案.161 组网场景用法举例.16(五)框式开放交换机的扩展DDC 方案.171 组网基本分析.182 DDC 技术概要.193 DDC 芯片说明.204 DDC 组网结构.215 DDCCell 交换原理.22(六)DCICLOS 与 DDC 方案对比.24IV框式开放自研交换机技术实现与应用场景白皮书ODCC-2022-0300

4、4(七)论证结论.24六、框式开放自研交换机产品研发.24(一)设备 OS 功能需求.24(二)SONiC 社区对多芯片分布式转发架构的支持情况.28七、引用的文档和资料.31八、致谢.311框式开放自研交换机技术实现与应用场景白皮书ODCC-2022-03004一、一、引言引言2015 年 3 月举行的 OCP(OpenComputeProject,开放计算项目)峰会上,微软向 OCP 贡献了 SAI(SwitchAbstractionInterface,交换机抽象接口)。当年 7 月,OCP 正式接纳了 SAI。2016 年 3 月 9 日,微软在这届 OCP 峰会上,正式发布了 SONi

5、C(SoftwareforOpenNetworkingintheCloud)。SONiC 的所有软件功能模块都是开源的,推动了 OCP 社区以及其他厂商在开放网络方面的创新。自此之后,SONiC 逐渐成为了互联网行业超大规模数据中心网络首选的开源操作系统。交换机抽象接口(SAI)在使 SONiC 适应各种底层硬件方面发挥了重要作用。SAI 为 ASIC 提供一致的接口,允许网络供应商在其平台上快速启用SONiC,同时通过供应商特定的扩展在硅和光学领域进行创新。这使云规模的提供商能够拥有一个通用的运营模式,同时从硬件创新中受益。下图说明了SONiC 软件系统的逻辑结构。图1 SONIC软件系统结

6、构随着 SONiC 的发展和技术迭代演进,SONiC 从最初在具有 BGP、SwSS(交换机状态服务)容器的单一实例在设备上单个 NPU 系统上支持,已经逐渐扩展为支持设备上多个 NPU 系统上支持。这是通过运行 BGP、Syncd 和其他相关容器的多个实例来实现的,每个 NPU 独立运行一个实例。2框式开放自研交换机技术实现与应用场景白皮书ODCC-2022-03004SONiC 软件系统在单芯片设备获得大规模部署之后,行业内对 SONiC 在框式大型设备上也进行了大量的探索和实现,其中包括 Microsoft、Broadcom、Cisco、Nokia、Arista、Baidu 等国内外公司

7、。本文的目标就是阐述一下 SONiC软件系统在框式大型设备上的技术实现和部署场景,在本文的撰写过程中,Cisco、Nokia、Arista 都提供了部分内容,并参与了评审工作。二、二、项目背景项目背景SONIC 在全球数据中心场景中已经进行了广泛的、大规模的部署,也给用户带来了低成本、高效率、自主可控的使用体验和收益。随着接入服务器的技术演进和规模发展,数据中心内部的网络架构从单平面演进到了多平面,服务器网卡的接入速率从 25G 演进到了 50G、100G 和 200G,400G 网卡也陆续发布,网卡速率的高速发展也推动了数据中心互联速率从 100G演进到 200G/400G 的高速互联方案。

8、数据中心内部的架构规模和速率的快速演进,也直接推动了城域网和骨干网的架构变革,数据中心内小型化盒式单芯片多平面的网络架构随着芯片技术的发展,对上级互联的城域网架构带来了很大的挑战:运维管理。架构简化,设备数量低,逻辑简单,这些都是运维管理希望的网络架构特点。扩展能力。DCI 的架构升级迭代困难,需要有更灵活的组网方案,更易扩展,更易维护。多速率端口支持。DCI 以机房作为接入点,生命周期较长一般随着机房新建一直到下线,需要维护多代不同技术的数据中心架构,如果无缝扩展是一个非常重要的能力。3框式开放自研交换机技术实现与应用场景白皮书ODCC-2022-03004自主可控,统一运维和自动化能力。随

9、着开放系统在客户数据中心网络的大规模部署,开放操作系统例如 Sonic 已经广泛使用。DCI 交换机也有很大的自主可控及通过统一网络操作系统进行运维和自动化的诉求。图2 式开放自研交换机部署场景框式开放自研交换机的优势:组网灵活,架构设备数量少,拓扑简单;单设备端口密度大,按板卡灵活按需扩容,无缝演进;运维简单,统一操作系统。三、三、项目目标项目目标框式开放自研交换机项目的规划目标:降低 DCI 网络架构拓扑复杂度,简化拓扑;提高运维效率,降低 Opex 成本,统一操作系统;架构技术演进平滑迭代,无缝迁移,自主可控。四、四、专用术语专用术语如下是本文档涉及的专业术语说明:ASNAutonomo

10、ussystemnumber,BGP 的自制系统号BGPBorderGatewayProtocolISISIntermediatesystemtoIntermediatesystem 协议,IGP 路由协议RCRegionalCore 区域核心RRRoutereflector 路由反射器,用于 IBGP 环境SCsupercore,超核角色VOQvirtualoutputqueue4框式开放自研交换机技术实现与应用场景白皮书ODCC-2022-03004五、五、框式开放交换机方案论证框式开放交换机方案论证(一)(一)白盒交换机的行业现状白盒交换机的行业现状如前所述,SONiC 是微软发布的开源

11、交换机操作系统,也是一个成熟的 SDN软件平台,实现了数据控制面与转发面的分离,用户可以采购白牌交换机搭载SONiC 实现不同的网络功能,SONiC 使得用户能够更快的调试、修复并测试软件,通过改变软件策略和拓扑实现新的网络架构,让网络实践更为灵活。截止目前,SONIC 软件系统已经被国内外大型互联网公司的生产网络上大规模部署运行,其中绝大多数场景在数据中心内部的单芯片盒式交换机上:图3 SoniconSingleASIC与此同时,SONIC 软件系统的扩展应用场景需求也陆续出现,其中一个是SONIC 运行在多芯片的交换机设备上:图4 SoniconMultipleASICs5框式开放自研交换

12、机技术实现与应用场景白皮书ODCC-2022-03004另一个扩展场景是 SONIC 运行在模块化的大型框式交换机设备上:图5 SoniconModularChassis通过从数据中心内的 DCN 场景部署,扩展延伸到数据中心互联的 DCI 场景部署,SONiC 软件系统通过全面覆盖可以提供统一化运维、快速故障响应等用户体验,同时代码开源的特点也让使用者们的创新想法和方案可以快速实现。(二)(二)框式交换机迎接开放生态框式交换机迎接开放生态SONiC 单芯片设备设计简单-平台具有单个 ASIC,无交换矩阵,无线卡,没有具有多个 ASIC的线卡,硬件组件之间没有相互通信,即 ASIC 到 ASI

13、C 或 LCASIC 到 SFASIC 到LCASIC,如下图所示:图6 SONIC单芯片设备6框式开放自研交换机技术实现与应用场景白皮书ODCC-2022-03004SONiC 机框设备机箱/设备管理器-用于管理硬件组件的软件ASIC(低级别,即启动)线卡、风扇、psu、交换矩阵、内部通信总线、前面板管理接口。多线卡和 ASIC 支持-使 SONiC 能够与线卡上的多个 ASIC 和机箱中的线卡一起运行。多交换机结构和交换机结构 ASIC 支持机箱内 SONiC 实例之间的相互通信机制,即 FIB 传播到线卡 ASIC。系统 ASIC 内的可追溯性,即 LCASIC 到SFASIC 到 LC

14、ASIC,如下图所示:图7 SONIC机框设备(三)(三)厂商产品支持厂商产品支持 SONICSONIC 实现介绍实现介绍1 1CiscoCisco 框式交换机框式交换机图8 CISCOSiliconONEBasedFamily7框式开放自研交换机技术实现与应用场景白皮书ODCC-2022-03004Cisco8000 上的 SONiC作为思科与 OCP 社区持续合作的一部分,思科现在已经在盒式和模块化Cisco8000 系列路由器上支持 SONiC。在模块化平台上对 SONiC 的支持标志着模块化路由系统以完全分布式的方式支持 SONiC 的一个重要里程碑。接下来,我们将了解基于机箱的路由器

15、的详细信息以及 SONiC 如何在 Cisco8000 模块化系统上运行。在介绍模块化的 Cisco8000 运行 SONiC 之前,我们先更深入地了解CiscoSiliconOne 芯片族以及 Cisco8000 模块化系统。思科用 22 个月制造 11 款芯片,快速迭代,使用一个架构,涵盖多种场景和用途。思科倾听客户的需求并从零开始打造了全新的 SiliconOne 统一架构芯片,可以同时提供与路由器芯片相媲美的能力与灵活性,和与交换机芯片媲美的性能与能效比。SiliconOne 包含 3.2T 到 25.6T 多种容量的路由器和数据中心芯片家族,从第一天开始就充分考虑能够同时兼顾商业网络

16、操作系统与各种网络开源操作系统。全线芯片采用统一的 P4 转发代码,统一 SDK 和一致的开源SAI 接口,从而帮助客户与合作伙伴实现一次开发、处处使用,这大大的减少了开放网络的功能开发与测试的工作量,加速网络创新的实现。图9 CISCOSiliconONE8框式开放自研交换机技术实现与应用场景白皮书ODCC-2022-03004思科基于 SiliconOne 芯片打造了高性能、高能效比的开放网络系统 C8000系统。该系统充分考虑到未来网络发展对性能、可编程性、节能环保等需求,提供了从单芯片盒式路由器到大容量框式设备,以及开放解耦 CLOSFabric 等多种系统形态。特别值得指出的是该系统

17、带来的超高能效比,大幅度地降低每比特的功耗,助力碳达峰碳中和的早日实现。图10 CISCOSiliconONE框式交换机Cisco8000 模块化系统架构Cisco8000 的模块化系统具有以下关键组件:1)一个或两个路由器处理器2)多个板卡3)多个矩阵卡4)机箱公用部件,例如风扇、电源单元等。下图说明了 RP、LC 和 FC 组件,以及它们的连接性。9框式开放自研交换机技术实现与应用场景白皮书ODCC-2022-03004图11 框式交换机逻辑结构(CISCOsexample)板卡上的 NPU 和机箱内的矩阵卡连接在一个 CLOS 网络中。每个板卡上的NPU 由对应板卡上的 CPU 管理,所

18、有 Fabric 卡上的 NPU 由 RP 卡上的 CPU 管理。板卡和矩阵 NPU 通过背板连接。所有节点(LC、RP)都通过机箱内的以太网交换机网络连接到外部世界。这种矩阵在逻辑上表示单层叶脊网络,其中叶和脊节点中的每一个都是多 NPU 系统。从转发的角度来看,Cisco8000 模块化系统作为单个转发元件工作,在板卡和交换矩阵 NPU 之间具有以下功能:入口板卡 NPU 执行隧道终止、数据包转发查找、多级 ECMP 负载分担等功能,以及 QoS、ACL、入站镜像等入口功能。然后使用代表传出接口的虚拟输出队列(VOQ)将数据包转发到适当的出口板卡 NPU,方法是将数据包封装在矩阵报头和NP

19、U 报头中。数据包通过多个链路打散到多个交换矩阵,以实现逐个数据包的负载平衡。交换矩阵 NPU 处理接收到的 Fabric 报头,并通过其中一条链路将数据包发送到出口板卡 NPU。出口 LCNPU 使用 NPU 标头中的信息处理来自矩阵的传入数据包,以对数据包执行出口功能,例如数据包封装、优先级标记以及 QoS、ACL 等出口功能。在单个 NPU 固定系统中,上述入口和出口功能都在同一个 NPU 中执行,因为矩阵 NPU 功能显然不存在。10框式开放自研交换机技术实现与应用场景白皮书ODCC-2022-03004Cisco8000 模块化系统上的 SONiC内部 CLOS 使叶脊 SONiC

20、设计原则能够在 Cisco8000 模块化系统中实施。下图显示了一个基于 SONiC 的叶脊网络:图12 框式交换机运行SONIC(CISCOsexample)这个叶脊网络中的每个节点都运行一个独立的 SONiC 实例。叶节点和主干节点通过标准以太网端口连接,并支持网络内基于以太网/IP 的转发。过滤器、镜像、陷阱等标准监控和故障排除技术也可以在该网络的叶层和脊层中使用。如下图所示。图13 框式交换机运行SONIC(CISCOsexample)11框式开放自研交换机技术实现与应用场景白皮书ODCC-2022-03004每个板卡在板卡 CPU 上运行一个 SONiC 实例,管理该板卡上的 NPU

21、。SONiC的一个实例在 RPCPU 上运行,管理矩阵卡上的所有 NPU。板卡 SONiC 实例代表叶节点,RPSONiC 实例代表叶脊拓扑中的脊节点。机箱内的带外以太网网络提供外部连接来管理每个 SONiC 实例。CiscoSiliconOne ASIC 具有在机箱内启用基于以太网/IP 的数据包转发的独特能力,因为它可以配置为网络模式或矩阵模式。因此,我们在板卡和矩阵卡上使用相同的 ASIC,通过在矩阵模式下配置板卡和矩阵之间的接口,而在网络模式下配置板卡上面向网络的接口。图14 框式交换机转发模式(CISCOsexample)此 ASIC 功能用于通过在网络模式下配置板卡矩阵链路来在 C

22、isco8000 机箱内实施叶脊拓扑,如下图所示。图15 框式交换机运行SONIC,叶脊拓扑(CISCOsexample)12框式开放自研交换机技术实现与应用场景白皮书ODCC-2022-03004板卡上的 SONiC 使用彼此对等的每个 NPUBGP 实例交换路由。因此,每个板卡上的 SONiC 在板卡上的每个 NPU 运行一个 BGP 实例,这通常是一个小数字(低个位数)。另一方面,RPSONiC 管理大量的矩阵 NPU。为了优化设计,FabricNPU 被配置为点对点交叉连接模式,在每对板卡 NPU 之间提供虚拟管道连接。这种交叉连接可以使用 VLAN 或其他类似技术实现。跨矩阵的数据包

23、仍以以太网帧的形式交换,从而在矩阵 NPU 上启用镜像、sFlow 等监控工具,从而提供网络流量的端到端可见性,包括机箱内流。对于需要在机箱内进行基于矩阵的数据包转发的用例,可以将板卡-矩阵链路重新配置为在矩阵模式下运行,从而允许相同的硬件满足各种用例的需求。总之,利用 CiscoSiliconOneASIC 的独特功能和系统设计,Cisco8000 允许在模块化系统中实施基于 SONiC 的标准叶脊网络拓扑,从而为以最佳方式实现分解网络设计的灵活性铺平了道路模块化系统的成本和功率包络。2 2Nokia&AristaNokia&Arista 框式交换机框式交换机在支持 SONIC 的实现中,除

24、了 CISCO 之外,还有另外两家厂商,NOKIA 和ARISTA 的框式交换机也积极支持 SONIC 的实现,并在 OCP 社区中非常活跃的贡献自己的力量,为生态发展起到了积极的推动作用。NOKIA 和 ARISTA 在框式开放自研交换机的 SONIC 实现逻辑上与 CISCO 完全相同,只是在设备板卡到交换板卡之间的数据格式上存在差异,他们的设备设计采用了商用的 BROADCOM 的 DNX 系列芯片,而非 CISCO 采用自定义芯片的策略。上述转发细节差异和产品硬件设计芯片选择的差异,对于支持 SONIC 的能力上并无区别,可以参考上一章节的描述,本章节不再重复描述。NOKIA7250

25、产品系列介绍诺基亚 7250IXR-6e/10e 是一款高性能、高密度、模块化平台,专为数据中心主干和广域网部署。它为 400GE、200GE、100GE、50GE、40GE、25GE 和 10GE13框式开放自研交换机技术实现与应用场景白皮书ODCC-2022-03004接口提供硬件支持,以实现结构内和服务器连接。7250IXR-6e 是一款四线卡插槽平台,支持高达 115.2Tb/s 的系统容量和最新一代线卡。7250IXR-10e 是一款八线卡插槽平台,采用最新一代线卡时,支持高达 230.4Tb/s 的系统容量。这些系统旨在通过利用真正的正交直接交叉连接(无需中间背板连接器)完全升级到

26、从 50G 发展到 100GSERDES 的下一代芯片。诺基亚 7250IXR-6e/10e 全系列业务板卡均采用 BroadcomJericho2c+芯片,全系列板卡原生支持 MACsec。并创新性的采用了 8Fabric 矩阵卡设计,单块Fabric 卡采用 2 块 Ramon 芯片,相比于传统采用 6Fabric 矩阵卡但单 Fabric采用 3 块 Ramon 芯片的设计,整机满配 Fabric 的情况下,只有 16 块 Ramon 芯片,整体功耗更低,且 Fabric 芯片间的路径更短,跨板卡转发效率更高。诺基亚 7250IXR-6e/10e 机箱和全系列线卡均为 J2C+芯片进行优

27、化设计,并为未来 Jericho3 芯片做好准备,未来只需将业务板卡升级至采用 J3 芯片的板卡即可,而无需更换机箱等组件。诺基亚 7250IXR-6e/10e 专为数据中心环境进行了硬件方面的优化,整体能耗更低,在整机满配情况下,其单 G 比特功耗仅为 0.09W。7250IXR-10e 在满配400G 板卡情况下,其整机典型功耗仅有 10610W。其中包括采用六边形蜂窝状散热孔设计,其通风效率高达 90%以上,远远大于传统采用矩形散热孔设计的散热网。同时业务板卡采用了更高螺距设计,可以容纳下更大面积的散热网,并且更高螺距使得业务板卡内部主板上可以放置更大体积的散热片,使得7250IXR-6

28、e/10e 的全部插槽插满 36 口 400G 接口卡后,依然能够为每一个 400G接口提供 20W 以上的供电能力,可以让每一个 QSPF-DD 接口都能支持并插满400GZR/ZR+模块,依然能提供良好的散热效率。同时更高的螺距也使得7250IXR-6e/10e 可以提供业内最高密度的 100G 接口卡,其单槽支持最高 60 口QSFP28 接口。相对于传统的业务板卡通过板卡侧后端卡住机箱内部成型金属板方式来固定住业务板卡的方式,诺基亚进一步改进了机加工工艺,通过卡片导轨方式来固定业务板卡。使得业务板卡与机箱之间可以提供0.03 的位置精度的系统公14框式开放自研交换机技术实现与应用场景白

29、皮书ODCC-2022-03004差,是传统卡住成型金属板方式的位置精度系统公差的 10 倍精密度。因此,诺基亚的 7250IXR-6e/10e 一次顺利通过 GR-63 的 3 轴 30 分钟随机震动测试和 4英寸高自由落体跌落测试,并顺利通过 FedEx 长达 72 分钟 14200 次颠簸的旋转震动测试,依然保证业务板卡与机箱紧密结合,系统稳定运行。诺基亚 7250IXR-6e/10e 采用分布式控制平面设计,除主控板 CPU 外,在每一块业务板卡上都有 x868 核心 CPU 来控制单块业务板卡上的 NPU。通过分布式控制平面的硬件设计,大大加速了整机启动速度,使得整机启动时间在 10

30、-15分钟内即可开始转发流量。而无论主控板还是业务板卡,其上的 CPU 均采用先进的 BGA 封装,相比 LGA 封装方式功耗继续降低 15W。图16 Nokia7250IXR-6e/10eNOKIA7250 框式 SONiC 项目介绍诺基亚积极参与 OCP 框式 SONiC 工作组计划,为框式 SONiC 项目提供了7250IXR 系列框式交换机的硬件驱动和 PMON;根据 SONiC 版本更新 7250IXR 系列框式交换机的硬件驱动;根据 OC 的标准测试规范对框式 SONiC 在 7250IXR 系列交换机上进行功能和性能等的综合测试;并修复已发现的 7250IXR 硬件去驱动和 PM

31、ONbug,为框式 SONiC 项目快速落地做出很大贡献。ARISTA7800R3 产品系列介绍15框式开放自研交换机技术实现与应用场景白皮书ODCC-2022-03004Arista7800R3 系列将高密度 100G 和 400G 与低延迟和线速性能相结合,专为大型虚拟化数据中心、互联网对等互连、云网络和任务关键型环境而设计。具有大型路由表的深度缓冲区 VoQ 架构提供了针对现代数据中心和电信云优化的高度可扩展和高能效系统。Arista7800R3 系列 FlexRoute 引擎提供了灵活的可扩展性,以支持部署为具有互联网规模路由的路由平台。所有 Arista7800R3 系列都支持 Fl

32、exRoute引擎,提供可扩展性,以支持部署为具有互联网规模的路由平台。7800R3 系列加速 sFlow 具有采样功能,并以线速处理流式样品。7800R3K 系列支持一系列灵活的配置文件,可将通用资源用于不同的网络角色,包括多达 500 万个 IP 路由。算法 ACL 为访问控制、基于策略的转发和网络遥测提供更灵活、可扩展的解决方案,适用于 Arista7800R3、7800R3A、7800R3K 和 7800R3AK 系列。该系统具有从前到后的气流、冗余和热插拔监控器、电源、结构和冷却模块,专为高可用性和连续运行而设计。图17 Arista800R3SeriesARISTA7800R3 框

33、式 SONiC 项目介绍16框式开放自研交换机技术实现与应用场景白皮书ODCC-2022-03004ARISAT 积极参与 OCP 框式 SONiC 工作组计划,为框式 SONiC 项目提供了77800R3 系列框式交换机的硬件驱动和 PMON;根据 SONiC 版本更新 7800R3 系列框式交换机的硬件驱动;积极参与制定 OCP 对框式 SONIC 的测试规范和标准,并投入研发资源对框式 SONiC 在 7800R3 系列交换机上进行功能和性能等的综合测试。ARISTA 在框式 SONiC 项目的推广发展也做了非常多的尝试和努力,取得很大进展。(四)(四)DCICLOSDCICLOS 架构

34、方案架构方案1 1组网场景用法举例组网场景用法举例DCICLOS 架构的集群也可以配置为 BGP 联盟,对外呈现一个自治域 AS,作为对有管理域需求时的部署方案。图18 DCICLOS架构组网分析转发层和 fabric 层之间的路由设计分析:T0 和 T1 配置 BGPconfederation,T1 层一个 AS,每台 T0 一个 AS;17框式开放自研交换机技术实现与应用场景白皮书ODCC-2022-03004联盟内 EBGP 打通路由,对外一个 AS64600,和上下游设备 EBGP 配置,如图,对外 DC1 和 DC2 经联盟内相同互联节点 T0-3,与不重合节点 T0-1、T0-5的

35、互联,路由的 as-path 长度是一致的,可以负载均衡;BGP 联盟方式的 CLOS 集群,对外呈现与一个大机框相似,对外互联结构没有约束,可任意做非对称互联,实现路由的等价负载均衡;组网结构分析:1CLOS 架构分布式控制平面 Fabric 和 forwarder 之间采用三层路由方式互联,无法使用 Jericho2c+的 fabric 端口,芯片有一半的转发端口用于互联 Fabric 层设备,构建同等转发能力的 DDC 集群,需要比集中控制面的 DDC 增加一倍的设备,成本上分析比机框式设备组网成本高一倍以上;2Fabric 层采用成本较低的 Tomahawk 芯片,基于包转发,Toma

36、hawk 芯片 buffer 较小,无 VOQ 机制,在多访问 1 场景 fabric 层有丢包风险;3CLOS 架构分布式控制平面具备了组网灵活的优势,同时控制平面和转发平面均为分布式,分散故障域,避免全局故障;(五)(五)框式开放交换机的扩展框式开放交换机的扩展DDCDDC 方案方案DistributedDisaggregatedChassis(DDC)分布式机框方案是 Broadcom 公司基于 DNX 芯片系列提供的解决方案。DDC 方案实现了传统机框设备的硬件组件和软件的全面解耦,一台逻辑的交换机,可以由物理独立的控制器、物理独立的业务板卡和物理独立的转发板卡组成,这些独立的物理组件

37、之间通过高速的光纤实现互联。DriveNets 公司的 NetworkCloud 产品是业界第一个也是唯一一个商用的DDC 产品软件系统,DriveNets 研发发基于 DDC 方案的整套软件,包括设备 OS,控制器软件等,同时 DDC 软件也适配通用的白盒设备。2019 年 AT&T 提交 DDC 白盒架构设计到 OCP,2020 年 AT&T 在 IP 骨干网部署 DrivenetsDDC 设备。18框式开放自研交换机技术实现与应用场景白皮书ODCC-2022-03004图19 DriveNetsDDC1 1组网基本分析组网基本分析采用 DCICLOS 架构组建集群,可以实现超大规模的转发

38、能力和组网能力。Fabric 层和转发层都采用框式开放自研设备组网结构。DCICLOS 集群:设备名称角色芯片端口形态T1FabricJericho2/Jericho2c+48*100G 端口/卡T0Forwarder2*Jericho2插卡式:2*48*100G 或12*400G+48*100G图20 Jercho2/2c+/3DCICLOS集群19框式开放自研交换机技术实现与应用场景白皮书ODCC-2022-03004设备名称角色芯片端口形态T1FabricSiliconOneQ20048*100G 端口/卡T0ForwarderSiliconOneQ200插卡式:32*100G 或16*

39、400G 线卡图 21 SiliconOneDCICLOS 集群2 2DDCDDC 技术概要技术概要图 22 DDC 原理20框式开放自研交换机技术实现与应用场景白皮书ODCC-2022-03004DDC 顾名思义是一种分布式解耦机框设备的解决方案。首先它解耦了硬件和软件:采用标准的白盒交换机做转发和 Fabric,组件独立,通过光纤互联;标准的 X86 服务器做控制引擎,集中控制平面,管控所有的转发交换机、fabric 交换机;统一的 OS 系统运行在转发交换机和 fabric 上,OS 与硬件解耦,适配通用的白盒交换机;第二 DDC 解耦了路由交换机的架构:控制平面和数据平面分离。控制平面

40、由 X86 的控制器集中管控,白盒交换机左右分布式的数据转发平面做数据转发;数据平面灵活伸缩。能够根据转发容量的需求,灵活扩缩容转发交换机和fabric。Fabric 和转发交换机之间采用 fabric 端口互联,采用基于 cell 的转发,有 distributedVOQ,保证 fabric 数据转发无拥塞丢包;3 3DDCDDC 芯片说明芯片说明Jericho2C+芯片:7.2T 前端 I/O9.6TFabricI/O8GBHBM(Highbandwidthmemory)64MBOnchipbuffer(OCB)芯片功耗 350W21框式开放自研交换机技术实现与应用场景白皮书ODCC-20

41、22-03004图 23 Jericho2c+芯片结构Ramon9.6TbpsFabricI/O图 24 Ramon 芯片结构4 4DDCDDC 组网结构组网结构DDC 集群的结构如下:图 25 DDC 集群结构22框式开放自研交换机技术实现与应用场景白皮书ODCC-2022-03004结构说明:1LC 转发设备采用 2 颗 Jericho2c+芯片,具备 14.4T 转发能力;2Fabric 设备采用 Ramonfabric 芯片,单芯片具备 9.6T 转发能力,192*50GSerdes,使用 2 颗芯片可实现 19.2T 转发能力的 fabric 设备;3LC 与 Fabric 之间通过

42、 400G 的 Fabric 端口互联,Fabric 设备具备N+1 冗余能力;4集群配备至少 2 台互备冗余的管理交换机,管理交换机互联所有fabric 设备、LC 转发设备、控制引擎,控制面的数据流通过管理交换机转发;5集群至少包含 2 台 X86Server 做控制引擎,主备工作,控制引擎作为集群的控制器,集中管控所有 LC、FAB;5 5DDCCellDDCCell 交换原理交换原理DDC 设备和框式交换机一样采用 CELL 交换方式,CELL 交换使 fabric 的流量转发更加均衡,高效。图 26 Cell 转发原理数据转发过程原理:1数据包从一个 LC 白盒的接口进入 clust

43、er;2流量进入的 LC 白盒的转发芯片处理数据包,IP 数据包查询 FIB 表中的 LPM,决定下一跳的出接口;查询到转发信息后,包被发到出接口23框式开放自研交换机技术实现与应用场景白皮书ODCC-2022-03004的 VoQs 中,如果出接口在其它 LC 白盒上,包将被切成 fabriccells,cells 被发往互联目地 LC 的所有 fabric 上;3Fabric 从 流 量 入 口 LC 白 盒 收 到 cells,基 于 对 在reachabilitytable 中 celldestination 的查询来决定如何转发。所有的 Fabric 维护 reachabilityt

44、able,从而知道哪个 fabricport 互联哪个 LC。Reachabilitytable 基于内部的 reachabilityprotocol 在 LC和 Fabric 之间交换 controlcells 构建;4EgressLC 收到 cell 包后,重新组装数据包,处理数据包从egressport 转发;VOQ 机制保证数据在集群内转发不丢包,cell 转发能够保证数据流在集群内的转发负载更加均衡。Fabric 层面的 cell 转发会增加网络延迟,但这个延迟和 DCI 网络的数据转发延迟相比很微小,DCI 网络本身不是一个延时敏感的网络部分。VOQ 原理说明:交换机的每个 inp

45、ut 端口的物理 buffer 为每个 output 端口维护一个单独的虚拟队列,outputqueue 和 input 端口 buffer 是 1 对 1 的,因此每个outputqueue 从 input 端口 pipeline 收到 buffer 空间。VOQ 保证 inputbuffer在转发芯片上是专门给 outputqueue,避免任何两个端口的通信不影响其它端口。VOQ 是基于 credit 机制,cell 转发机制说明如下:芯片 Input 端口调度器向 output 端口申请 credit,通知 output 端口有数据要发送;output 接口有带宽转发数据时,出接口给 i

46、nput 端口分配 credit,只有output 端口有足够带宽资源时,才会给 input 端口分配 credit,input 端口收到 credit 后,开始转发数据包到 output 端口,24框式开放自研交换机技术实现与应用场景白皮书ODCC-2022-03004output 端口没有资源转发时,不给 input 端口 credit,input 端口没有credit 不能转发数据到 output 端口,从而避免 fabric 内丢包。(六)(六)DCICLOSDCICLOS 与与 DDCDDC 方案对比方案对比DDC 方案和 CLOS 架构方案对比如下:对比项DCICLOS 架构方案D

47、DC 方案故障域故障域小,单白盒设备故障不影响全局转发故障域大,控制面故障将导致整集群不可用拥塞避免转发与 fabric 层之间 packet交换方式,在多访问 1 的场景,fabric 有丢包风险转发与 fabric 层之间信元交换方式,有 VOQ 机制保证 fabric 转发不丢包,基于 cell 转发,流量负载更加均衡硬件成本有一半转发容量用于上联fabric,单设备转发能力降低一半,同等转发能力比机框交换机高 100%以上同等转发容量比机框交换机高 25%左右,Fabric 采用专用的 fabric 芯片,相对转发芯片成本更低运维风险分布式控制面,升级维护简单集中控制平面,控制面升级、

48、故障诊断复杂管理风险分布式控制面,转发层配置不对称,管理维护相对复杂集中控制管理配置简单(七)(七)论证结论论证结论从上述方案对比分析:采用 DCICLOS 架构方案,标准化实现方式,运维简单;采用 DDC 方案,研发难度较高,运维相对复杂,控制面集中故障域相对较大;结论:采用框式开放自研交换机方案较优,SONIC 适配容易落地,部署场景适用于 DCI 核心设备。其扩展的 DDC 方案,案例和场景还不够清晰,可以作为技术演进方向跟踪。六、六、框式开放自研交换机产品研发框式开放自研交换机产品研发(一)(一)设备设备 OSOS 功能需求功能需求25框式开放自研交换机技术实现与应用场景白皮书ODCC

49、-2022-03004主要应用于 DCI 网络,功能上要支持 ISIS、BGP、SR 等协议。作为 DCI 骨干网络的新的设备形态要满足下一代骨干网的功能、性能需求:(1)路由快速收敛BGPFIB 表收敛速度20k/s支持 linkdelayup/down,传输设备出现故障或抖动,减少对路由层面的收敛影响支持 BGP 路由延迟发布,在链路故障恢复时缩短丢包时间ISIS/BGP 与 BFD 联动TE 隧道 BFD 联动(2)SRv6 的流量工程能力,基于带宽、时延的灵活算路支持灵活的路径计算方法(flexiblealgorithm);支持对数据流的染色功能;网络控制器通过 BGPLS 搜集拓扑信

50、息、链路带宽、SID 信息;NQA 获取链路的时延信息;控制器能够根据网络的时延、带宽、color 等信息计算业务的最优路径;(3)基于 SRv6 的 L3VPN 能力基于 IPv6 的数据转发平面实现对 IPv4、IPv6 流量的 VPN 服务。SRv6 的SID 包含 locator 和 Function 两部分,Locator 识别 SRv6 节点的地址,function 识别在特定节点上需要执行的网络指令,如 L3VPN 功能。举例说明如下:26框式开放自研交换机技术实现与应用场景白皮书ODCC-2022-03004一个 SRv6 的 PE 节点,配置 locator 为 2021:a

51、bcd:0:a1:/64,关联IPv4VPN 路由 10.1.1.0/24 的 End.DX4 功能的 SID 为 2021:abcd:0:a1:1:/64。END.DX4 是 BGP 的一个功能,END.DX4 是 BGPSID 在 vpnv4addressfamily 下,标识一个 IPv4CE。END.DX4 代表 PE 端点需要解封装 IPv6SID,转发原始的 IPv4报文到绑定这个 SID 的三层接口。同样 END.DX6 是基于 SRv6 网络的 IPv6VPN,END.DX6 是 BGPSID 在 vpnv6addressfamily 下。MP-BGP 编 码 SRv6SID

52、到L3VPNNLRI 中,通过 IPv6 网络发布给它的 Peer。SRv6 网络的节点将把 SID 安装到它的转发表中,转发报文到目的 PE。具体功能需求如下表:功能要功能要求求子功能子功能功能参数功能参数优先级优先级Staticroutenull0route/defaultroute中Policybasedroutingload-balancenext-hop支持重定向下一跳负载均衡中NQA 联动支持与 NQA 联动中BGPECMP128paths,supportecmpas-path-relax,高Peergroup支持配置对等体组高importroutes支持引入其它路由协议路由(静态

53、、OSPF)高4bytesAS支持 4 字节 ASN高RR(routereflector)支持路由反射器功能高pathselectattributesBGP 选路属性支持:weight、localpreference、MED、community高routeaggregation支持路由聚合,支持抑制明细,并支持聚合路由的路由策略(attribute-policy,suppress-policy)高timerssetting支持 BGPhello 和 holdtime 调整中Addpath8paths高BGPLS(linkstate)getISIStopoloyinfo,computeTEpat

54、h中routepolicy支持灵活的收、发路由策略(基于acl/prefix-list/community 的路由过滤,as-path/LP/MED/weight操作等)高IPv6supportIPv6address-familyBGP高27框式开放自研交换机技术实现与应用场景白皮书ODCC-2022-03004NSFNonstopforwarding/routing高BFD 联动中ISISECMP128paths高ISISTEsegment-routingmpls高Peerauthentication中IPv6支持 IPv6 的路由高NSFnonstopforwarding/routing高

55、Fastreroute中costadjustment支持 wide-metric,支持接口开销调整配置高routingmanipulation支持路由过滤、引入外部路由、发布缺省路由中routeaggregation支持路由聚合高BFD 联动高SRTEMPLSSR高SRv6中SRTI-LFA支持 TE 隧道热备份高directtraffictotunnel支持静态路由、策略路由、IGP 自动路由方式引流到隧道高diff-servicegroup支持 TE 隧道的服务等级,匹配业务报文的优先级 tag,将流量引导到对应服务等级隧道中BFDforSR-TELSP支持 BFD 与 TELSP 联动高

56、QoSWRR/WFQ高ECNsupportfastECN/CNP中DSCP/IPPremarkingDSCPtodot1pmapping高MQC支持 MQC(moduleqoscommand-line)方式配置(流分类、流行为、流策略)高CARpolicies中ManagementSSHv2高telnet高loginsourceIPfilter高netstream/sflow高Samplertrafficsampler.支持 1:1024 采样比高ZTP中TACACS+AAA高Netconf/YANG高gRPC中SNMPv2/v3高28框式开放自研交换机技术实现与应用场景白皮书ODCC-202

57、2-03004Inbandtelemetry中InterfacesLACP100AGGports,eachAGGportsupport48memberportsmax高link-delay/carrier-delay高MTUmax10000bytes高LLDPdiscoverneighborhostname/interface/IP,supportmanagementIPdiscovery高flowinterval接口统计信息采集频率设置中LoadbalancingIPloadbalancingper-flow,src/dstIP,source/dstport,protocol;perport

58、高linkaggregationsrc/dstIP,src/dstport,protocol,perport高SecurityL3/L4ACL高Prefix-list高community-filter高Routepolicy高as-pathfilter中(二)(二)SONiCSONiC 社区对多芯片分布式转发架构的支持情况社区对多芯片分布式转发架构的支持情况自研 OS 基于 SONiC,依赖于 SONiC 社区的支持。百度将持续关注跟踪Sonic 社区的支持情况。Sonic 社区目前没有针对 DDC 架构设备的支持,但对通过交换网板做数据转发的多芯片 Chassis 交换机有相关设计和开发:2

59、020.5.19发布DistributedforwardinginaVOQarchitecture,在SAI1.7.1 中支持。29框式开放自研交换机技术实现与应用场景白皮书ODCC-2022-03004图 27 VOQSONIC 分布式转发架构说明:每个转发设备运行一个独立的 Sonic 实例,控制设备上 NPU 的运行操作;一个转发设备具备完整的路由交换功能,就像一个独立的 Sonic 交换机一样;通 过 一 个 集 中 的 SupervisorSONiC 实 例 来 管 理 转 发 设 备 的系 统,这 个SupervisorSONiC 实例同时管理内部 fabric;每个 FSI(fo

60、rwardingSonicInstance)通过内部的 fabric 与其它 FSIs 互联,实现整个系统运行一套路由协议,如 BGP;此连接必须与数据路径共享,以便内部结构中连通性的丢失也反映为内部控制平面连通性的丢失。每个 FSI 必须有一个管理接口,用于和 supervisor、系统外部的网络互通;每个 SONiC 实例必须能够通过标准的 SONiC 管理接口独立的配置和管理;所有的端口在启动时被静态配置。任何对物理端口的配置变更需要整个系统重启;系统全局的状态存储到 SSI,所有的 FSIs 通过内部管理网络可以访问到这个状态;State 存储在 SSI 的 Redis 实例中的数据库

61、中,叫做ChassisDB;30框式开放自研交换机技术实现与应用场景白皮书ODCC-.6.30SonicdistributedVOQrevision1.0 设计发布,但在 2021.6.30发布的 SAIversion1.8.1 未包含此功能,在 2021.11 的版本排期中未安排,目前处于延迟排期状态。SONIC 分布式 VOQ 设计。系统中的每个 ASIC 芯片有一个单独的 SONIC 网络栈的实例控制。建立一个新的 VOQsystemDatabase。这个数据库包含 VOQ-SAI信息(systemport,routinginterfaceonsystempo

62、rt,neighborwithEncapIndex)。图 28 Sonic 分布式 VOQ功能需求:DistributedVOQSystem.IPv4andIPv6unicastroutingacrossanyportsinthesystemEachswitchinthesystemiscontrolledbyaseparateasicinstanceofSONiC.HostIPreachabilityto/fromtheinterfaceIPaddressesofanySONiCinstanceinthesystemusinganynetworkportinthesystem.HostIPr

63、eachabilitybetweentheSONiCinstancesinthesystemoverthedatapath.RoutingprotocolpeeringbetweenSONiCinstancesoverthedatapath.31框式开放自研交换机技术实现与应用场景白皮书ODCC-2022-03004StaticprovisioningofSystemPortsintheVOQSystemDatabase.DynamicdiscoveryofRoutingInterfacesandNeighborsonotherasicsviatheVOQSystemDatabase.Auto

64、maticdeterminationofSwitch_Idforeachasic(optional).七、七、引用的文档和资料引用的文档和资料SONiC 社区资料:SoftwareforOpenNetworkingintheCloud(SONiC)-GitHubhttps:/ 提供产品资料八、八、致谢致谢本文作者非常感谢以下专家和人员提供的帮助:思科公司首席架构师蒋星,思科资深工程师李婷婷,思科互联网事业部技术总监张超提供思科 SiliconONE 芯片、C8000 分布式 Sonic 系统架构技术文档中国电信天翼云网络架构师王维,全程参与了本项目的调研分析,并参加了大量测试工作。上述专家和朋友们对本技术白皮书也提出了宝贵意见,再次致谢!

友情提示

1、下载报告失败解决办法
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。

本文(ODCC:框式开放自研交换机技术实现与应用场景白皮书(2022)(36页).pdf)为本站 (X-iao) 主动上传,三个皮匠报告文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三个皮匠报告文库(点击联系客服),我们立即给予删除!

温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。
会员购买
客服

专属顾问

商务合作

机构入驻、侵权投诉、商务合作

服务号

三个皮匠报告官方公众号

回到顶部