上海品茶

您的当前位置:上海品茶 > 报告分类 > PDF报告下载

Tolly:2022数据中心自动驾驶网络对比测试报告(102页).pdf

编号:86937 PDF 102页 22.13MB 下载积分:VIP专享
下载报告请您先登录!

Tolly:2022数据中心自动驾驶网络对比测试报告(102页).pdf

1、Tolly.数据中动驾驶络 华为 CloudFabric 与 Cisco IBN(Data Center)对测试报告 Tolly Report#222112ZH 2022 年 2 2021 TOLLY ENTERPRISES,LLC2TOLLY REPORT#222112ZH1 数据中动驾驶络指数31.1 实现络动驾驶的五个阶段31.2 数据中动驾驶络指数评价标准42 案综述72.1 华为 CloudFabric 数据中络解决案72.2 思科 IBN 数据中络解决案83 测试概要93.1 测试范围93.2 测试结论103.3 测试概要114 Day0 规划建设154.1 测试法154.2 测试

2、结论174.3 测试条215 Day1 业务部署355.1 测试法355.2 测试结论365.3 测试条396 Day2 监控排障566.1 测试法566.2 测试结论576.3 测试条637 DayN 变更优化917.1 测试法917.2 测试结论937.3 测试条948 测试设备、版本101录3TOLLY REPORT#222112ZH1 数据中动驾驶络指数 1.1 实现络动驾驶的五个阶段 实现全治络这终极标是个期的过程,需要分步实现。基于通信络的复杂性,从户体验、解放的程度和络环境复杂性等,业界形成如下数据中动驾驶络分级标准:L0 级的特征是运维,所有任务都依赖执。L1 级的主要特征是以

3、命令配置设备为主,辅于某些配置脚本或具。L2 级部分治络的特征是部分场景中,户摆脱对设备命令的依赖,系统基于络模型级提供意图交互接及辅助具,进步降低了员对经验和技能的要求;系统可基于些预定义的静态策略进固定的监视与分析,由决策,实现部署和运维阶段的动化。L3 级限定条件治络的特征是以智能技术为核构建键式络部署开通、业务发放、监控排障等关键能,这阶段络设备不仅实现部署动化,且能实现配置的事前仿真,事后校验,机器参与决策,实现数据中络达到有条件治。L4 级度治络的特征是在 L3 级的基础上,包含络规划、部署、运维等全命周期场景中,能够实现全场景服务化及决策,络能够基于意图进设计、部署、诊断、恢复,

4、参与决策只是辅助。L5 级完全治络的特征是基于 L3 和 L4 的技术积累和设备现运的检验,逐步演进到意图驱动的全治核络,全释放络管理的和脑。从分级标准可以清楚的看出,动驾驶络是个多维度,体化的战略,这种阶梯式上升的级别不仅仅是评价个络的标准,也是循序渐进去推进动驾驶络战略的路线图。等级定义L0:运营和维护L1:具辅助 运营和维护L2:部分 治络L3:限定条件的治络L4:度 治络L5:完全 治络执PP/SSSSS感知PPP/SSSS分析PPPP/SSS决策PPPP/SSS意图/体验PPPPP/SS适性N/A指定场景所有场景注:P-;S-系统。4TOLLY REPORT#222112ZH1.2

5、数据中动驾驶络指数评价标准 如何具体衡量数据中动驾驶络的等级,本报告从数据中命周期的 Day0、Day1、Day2、DayN 四个阶段,六类,三九类,定义等级平。命周期权重L1L2L3L4Day0规划设计意图翻译5%理解客户需求,或使具输出洞察分析指标、规划需求使系统辅助输出洞察分析指标、规划需求系统动成洞察分析指标、规划需求,调整系统动成洞察分析指标、规划需求洞察分析使具获取现历史数据,分析/预测系统动获取现历史数据,分析/预测系统动获取现历史数据,系统动分析/预测系统动获取现历史数据,收集并分析然/社会信息(如区规划、流变化等),进精准分析/预测络规划使具实现络规划,基于专家经验会审使系统

6、实现络规划,基于专家经验会审系统动规划,勘测数字化同 L3规划仿真仿真验证离线具仿真验证系统在线仿真验证同 L3络设计使具实现络设计,基于专家经验会审使系统实现络设计,基于专家经验会审系统半动设计(制定规则),勘测数字化系统全动设计,勘测数字化设计仿真仿真验证离线具仿真验证系统在线仿真验证,决策系统仿真验证,动决策,发现规划设计异常动纠偏部署开通数据制作5%使具制作元参数和保障策略数据使系统制作元参数和保障策略数据,关联设备物理标识(如机架位置等)系统动制作元参数和保障策略数据,系统动关联设备物理标识(如机架位置等)同 L3数据下发使具实现元参数和保障策略数据下发系统动感知设备上线,实现元参数

7、动下发系统动感知设备上线,实现元参数和保障策略数据动下发同 L3程调测/优化使具下站调测/优化使具/系统远程调测/优化系统动远程调测/优化,动发现异常(如告警),纠偏系统动远程调测/优化,动发现异常(如告警),并动纠偏业务验证使具下站拨测和业务验证,成报告使系统进远程业务验证,动成报告系统动远程验证业务,动成报告同 L35TOLLY REPORT#222112ZH命周期权重L1L2L3L4Day1业务发放意图翻译15%根据业务诉求输出络需求(络意图转换)设计业务模板,系统根据选择的模板输出络需求(络意图转换)输业务意图(如站点列表、安全策略、SLA等),系统动转换为络需求(业务意图转换)户极简

8、意图输(如然语),系统动转换为络需求(业务意图转换)案设计使具查询/分配资源,制定案使具查询/分配资源,系统动成案系统动查询/分配资源,系统动成案同 L3评估决策评估具/系统,决策离线具评估,决策系统在线评估,决策系统在线仿真验证,动决策案实施使具/系统进配置下发系统动进络配置下发系统动进络配置和SLA 保障策略配置下发同 L3业务验证使具进业务验证使系统进业务验证,动成报告系统动验证业务,动成报告同 L3Day2监控排障意图翻译35%基于专家经验配置监控规则(络意图转换)设计监控规则模板,系统根据选择的模板进监控(络意图转换)输业务意图(如重要 VPC KPI 等)系统动转换监控规则建议,调

9、整(业务意图转换)输业务意图(如监控区域、重保客户、KPI 等)系统动转换监控规则进监控(业务意图转换)监控可视告警流可视、KPI 曲线可视故障可视、KPI 异常可视潜在隐患可视,故障和隐患对业务的影响可视系统对故障和隐患的处理流程和状态可视故障识别具/系统采集数据,识别故障系统基于运维员制定的规则/策略(如告警相关性、KPI 阈值)识别故障系统动学习规则/策略(如相关性、阈值、AI 模型)并动识别故障同 L3隐患预测具/系统采集数据,根据巡检策略(如 Checklist)逐项排查,识别潜在隐患系统基于运维员制定的规则/策略(如健康性检查规则、KPI 阈值)对络动巡检,基于专家经验识别潜在隐患

10、系统预测络状态趋势,定性粗略识别潜在渐变类隐患(如某端可能发弱光故障)系统预测络状态趋势,定量精准识别潜在隐患(如某端 90%的可能性(置信度)在周内出现弱光故障)问题定界使具或系统辅助定界(如连通性测试)系统基于运维员制定的规则/策略(如专家经验树)动定界系统动学习规则/策略(如知识库、故障传播图)并动定界同 L3问题定位使具或系统辅助定位(如报分析,操作志分析)系统基于运维员制定的规则/策略(如专家经验树)动定位系统动学习规则/策略(如知识库、故障传播图)并动定位,确认(系统给出个或多个疑似原因并排序)系统动学习规则/策略(如知识库、故障传播图)并动定位(系统给出唯准确原因)案成制定备选案

11、系统给出修复建议,制定备选案系统动成备选案同 L3评估决策评估具/系统,决策最优案使具/系统进评估,决策最优案系统基于实时数据在线评估,给出评估结果,决策最优案系统基于实时数据在线仿真验证,系统动决策最优案案实施使具/系统完成故障修复和隐患消除系统基于最优案动成可执指令,动修复故障消除隐患同 L2同 L2业务验证使拨测具进业务验证,成验证报告使系统进业务验证,系统动成报告系统动验证业务,动成报告同 L36TOLLY REPORT#222112ZH命周期权重L1L2L3L4DayN络变更意图翻译35%评估户业务影响;输出变更约束条件评估户业务影响;系统动输出变更约束条件,调整系统动评估户业务影响

12、;系统动输出变更约束条件,调整系统动评估户业务影响;系统动输出变更约束条件案设计制定变更案系统给出变更建议,制定变更案系统动成变更案同 L3评估决策评估具/系统,决策最优案使离线具进评估,分析决策最优案系统基于实时数据在线评估验证,分析决策最优案系统基于实时数据在线仿真验证,系统动决策最优案变更实施使具/系统完成络变更实施系统基于最优案动成可执指令,动完成络变更实施同 L2同 L2业务验证使具对络快照;使具进业务测试;值守系统动对络快照;使系统进业务测试;值守系统动对络快照;系统动进业务测试;系统动值守;发现异常纠偏系统动对络快照;系统动进业务测试;系统动值守;发现异常系统动纠偏;动成变更报告

13、优化调参意图翻译5%基于专家经验配置监控规则(络意图转换)设计监控规则模板,系统根据选择的模板进监控(络意图转换)输业务意图(如客户体验指标、资源利率等)系统动转换监控规则建议,调整(业务意图转换)输业务意图(如客户体验指标、节能标、资源利率等)系统动转换监控规则进监控(业务意图转换)性能优化识别具/系统采集数据,根据专家经验识别待优化问题系统按照运维员制定的规则/策略(如 KPI 阈值)识别待优化问题系统动学习规则/策略(如动态 KPI 阈值)并动识别待优化问题同 L3劣化预测具/系统采集数据,根据规则(如 Checklist)逐项排查,识别潜在险系统基于制定的监测策略(如 KPI 阈值)对

14、络进实时检查,识别潜在险(如基于专家经验识别)系统预测络状态趋势,定性粗略识别潜在险(如双流量陡增)系统预测络状态趋势,定量精准识别潜在险(如某地区在 XX,容量将增加 50%,在 YY 下降 30%)问题定界使具或系统辅助定界系统基于运维员制定的规则/策略(如专家经验树)动定界系统动学习规则/策略(如知识库)并动定界同 L3问题定位使具或系统辅助定位系统基于运维员制定的规则/策略(如专家经验树)动定位系统动学习规则/策略(如知识库)并动定位,确认(系统给出个或多个疑似原因并排序)系统动学习规则/策略(如知识库)并动定位(系统给出唯准确原因)案成根据专家经验制定备选案系统基于制定的优化规则给出

15、优化建议,制定备选案系统基于编排策略和在线推理等动成备选案系统动成备选案(动成策略、在线推理)评估决策仿真具/系统,决策最优案使具进仿真验证,分析决策最优案系统基于实时数据在线仿真验证,分析决策最优案系统基于实时数据在线仿真验证,系统动决策最优案案实施使具/系统完成优化动作系统基于最优案动成可执指令,完成优化动作同 L2同 L2业务验证使具进业务验证(如客户体验、节能标等是否达成),成验证报告使系统进业务验证(如客户体验、节能标等是否达成),系统动成报告系统动验证业务,动成报告同 L37TOLLY REPORT#222112ZH2 案综述 2.1 华为 CloudFabric 数据中络解决案

16、数据中动驾驶络华为 CloudFabric 解决案总体架构如下图所示,主要包括业务编排层,资源管理层,Fabric 设备层。业务编排层:包括云编排平台,容器编排平台,管理具等,主要是对数据中的计算存储络等资源进编排,如 OpenStack,Kubernetes 等,业务编排层北向对接各种业务 Portal,南向对接 SDN 控制器等资源管理层。资源管理层:华为 iMaster NCE-Fabric 数据中动驾驶络管理控制系统北向对上层应提供开放资源接,南向统管理控制物理和虚拟络,完成意图翻译,动化配置,意图检验;华为 iMaster NCE-FabricInsight 分析器提供对络设备的健康

17、度检查,故障定界分析定位,并和控制器联动完成故障的修复。Fabric 设备层:包括由华为 CloudEngine 数据中交换机组成的 Spine-Leaf 基础组,提供服务器之间以及服务器与户之间的互联。由防墙,IPS,DDoS,负载均衡等设备组成的安全增值业务系统,提供数据中内外安全功能。备注:OpenStack,Kubernetes(K8s),和 Red Hat 是华为案可互通的第三平台。8TOLLY REPORT#222112ZH2.2 思科 IBN 数据中络解决案 思科 IBN 数据中络解决案总体架构如下图所示。思科 Nexus Dashboard Orchestrator 基于以前的

18、思科 Multi-Site Orchestrator 产品,可纳管多个控制器集群,来编排多站点的络策略等。思科 Nexus Dashboard Insights 集成以前的 Network Insights 产品以及 Network Assurance Engine 产品,提供络分析以及保障。思科 APIC 作为 ACI 架构的控制器,配合部署在公有云的 vAPIC,以及控制 NX-OS 模式交换机的 Nexus Dashboard Fabric Controller(原 DCNM)等各站点的控制器实现络动化。本次测试主要聚焦于思科 ACI 架构。思科 ACI 架构设备层采 Nexus 900

19、0 系列交换机。AutomationNetwork Infrastructureand TelemetryNexus Dashboard OrchestratorAPICNexus Dashboard Fabric ControllerNexus 9000Nexus Dashboard InsightsNexus Dashboard Data BrokervAPICOrchestration,Policy,Assurance and Insights9TOLLY REPORT#222112ZH3 测试概要 3.1 测试范围 Tolly 本次就数据中动驾驶络华为 CloudFabric 与 Ci

20、sco IBN for Data Center 在四个维度进了评估(思科案采 Cisco ACI 架构):Day0 规划建设:规划建设环节,包括基于业务意图系统动理解,并转化为络需求,成案,同时完成部署验证等物理络就绪的能。Day1 业务部署:业务部署环节,包括意图理解,事前仿真,配置动化,事后检验等业务部署时络配置效率及准确性能。Day2 监控排障:监控排障环节,包括意图监控,问题定界定位、案成、评估决策、案实施、业务验证等智能运维能。DayN 变更优化:变更优化环节,对络变更或优化的意图进案设计、评估决策,案实施和验证等,以提络运效率的能。本测试报告对数据中动驾驶络华为 CloudFabr

21、ic 和 Cisco IBN for Data Center 进对测试和分析,并从 Day0 规划建设、Day1 业务部署、Day2 监控排障、DayN 变更优化四个进阐述。10TOLLY REPORT#222112ZH3.2 测试结论 根据数据中络动驾驶指数评价体系,Tolly 从数据中命周期 Day0、Day1、Day2、DayN 4 个阶段,规划设计、部署开通、业务部署、监控排障、络变更、优化调参 6 个类、39 个类,通过 150+指标测试,华为 CloudFabric 解决案在部署效率和准确性、易性、可维性、可靠性、络性能优化等指标上以整体 3.51 分领先 Cisco IBN(Da

22、ta Center)解决案的 2.8 分,是 Tolly 评估过的业界唯实现跨越 L3.5 级动驾驶的数据中络解决案。11TOLLY REPORT#222112ZH3.3 测试概要 命周期权重L4华为思科评估级别评估说明评估级别评估说明Day0规划设计意图翻译5%系统动成洞察分析指标、规划需求L3.61、免设计:基于具键导出阶设计和低阶设计(HLD&LLD)2、意图翻译:新建和扩容等场景,智能推荐络案 3、分析器北向数据开放服务(如表项、KPI);可以与客户业务系统对接,提供新络的规划依据 4、控制器北向作量流(runbook)服务化 5、CloudFabric Easy 极简端到端规划,设计

23、,部署轻量 SDN 解决案,控制器可全部虚拟机安装,持设备合 L2.71、Cisco Design Zone 提供设计参考档;设计案和具未知 2、控制器中基于场景的案推荐和评估 3、Mini ACI Fabric 的控制器 APIC 少需要台物理机+2 个虚拟机,少 Spine-Leaf 两层组洞察分析系统动获取现历史数据,收集并分析然/社会信息(如区规划、流变化等),进精准分析/预测络规划系统动规划,勘测数字化规划仿真系统在线仿真验证络设计系统全动设计,勘测数字化设计仿真系统仿真验证,动决策,发现规划设计异常动纠偏部署开通数据制作5%系统动制作元参数和保障策略数据,系统动关联设备物理标识(如

24、机架位置等)L3.31、络架构:转发持报分和重组;Border Leaf、Spine、Server Leaf、Service Leaf、Fabric Gateway 各种部署式可合并可分离,节省客户投资 2、Underlay 络动化:持基于意图的 Underlay 规划及仿真校验;持灵活配置Spine RR/出互联配置模板等;持批量配置 3、可性:BFD 最间隔 3.3ms,ESI 多归持上四台设备链路负载均衡 4、设备纳管:控制器持对虚拟系统以及第三交换机的纳管L2.91、络架构固定:Leaf 和 Spine 法合组;不持 Border Leaf、Spine、Compute Leaf、Ser

25、vices Leaf 合组;不持 IP 报分 2、不持基于意图的 Underlay 规划;不持灵活配置 Spine RR/出互联配置模板等;不持批量配置 3、Nexus 9000 系列交换机 BFD 最间隔 50ms,ESI 多归最多持上台设备链路负载均衡 4、Nexus 9000 系列交换机不持虚拟设备(VDC)数据下发系统动感知设备上线,实现元参数和保障策略数据动下发程调测优化系统动远程调测/优化,动发现异常(如告 警),并动纠偏业务验证系统动远程验证业务,动成报告12TOLLY REPORT#222112ZH命周期权重L4华为思科评估级别评估说明评估级别评估说明Day1业务发放意图翻译1

26、5%户极简意图输(如然语),系统动转换为络需求(业务意图转换)L3.71、配置式:持控制器和设备命令双模配置,并且有加锁机制不会引起配置冲突;持配置全、租户、业务三级回滚;持设置配置基线件;控制器拖拽式部署 2、意图仿真校验:持 21 个典型数据中意图发放,持基于业务意图的理解和 IPv4&IPv6 仿真校验,智能推荐逻辑络案 3、对接虚拟化平台:持和VMware vCenter,Microsoft System Center 等虚拟化平台对接 4、对接云平台:持基于标准模型对接 OpenStack 云平台;持名单;迁移事件触发配置下发 5、多云编排:持多数据中集中编排;持公有云和私有云组成的

27、混合云编排 L2.91、APIC 持图形化界和 CLI 配置,但运在 ACI 模式的设备不持直接登录设备进配置,在控制器故障时,法对络做配置;持基于快照的全配置和租户配置回滚,不持基于单次业务操作的业务配置回滚 2、不持基于业务意图场景智能推荐络案;持连通性校验,不持跨 DC 过防墙/LB 的数据意图验证 3、持虚拟化平台对接 4、控制 OpFlex 和 COOP,转发 eVXLAN 均为私有协议(也开放给第三集成,但业界持度略低)5、持多数据中集中编排;持公有云和私有云组成的混合云编排 案设计系统动查询/分配资源,系统动 成案评估决策系统在线仿真验证,动决策案实施系统动进络配置和 SLA 保

28、障策略配置下发业务验证使系统进业务验证,动成报告13TOLLY REPORT#222112ZH命周期权重L4华为思科评估级别评估说明评估级别评估说明Day2监控排障意图翻译35%输业务意图(如监控区域、重保客户、KQI 等)系统动转换监控规则进监控(业务意图转换)L3.61、络评估:系统化多维度络健康评估体系,包括络故障、络隐患预测、SLA 评估、络资源热点、50+本体络知识图谱建模的体化资源状态评估 2、故障识别:90+类基于故障知识库的 DCN 典型故障 1-3-5 能、基于络知识图谱的未知故障聚合与溯源,故障传播链可视与处理建议推荐 3、故障定位:业务连通性问题键式排障、DPV 连通性诊

29、断;基于设备芯边缘智能技术的业务质差问题定界、基于 GRE 拨测技术的静默类故障定界 4、监控可视:5 层 50+本体络健康度监控、TCP 全流监控、流监控、IP360 监控、业务路径路况监控、指定流质差监控与定界、120+Telemetry KPI 实时监控、整异常志监控、整搜索及关联信息呈现 5、业务验证:基于数据建模的 DPV 意图络验证,包括业务连通性意图、络路由环路、路由洞等意图 6、隐患预测:基于 AI 知识图谱的络险预测,包括络可靠性、性能负载、资源容量、配置致性、络稳定性 5 个维度的系统化险评估模型(如重保 CASE)7、案实施:20+种基于故障知识库的 DCN 典型故障 1

30、-3-5 的联动闭环能 8、分析器数据录开放、与 APM 集成,实现应与络路况的联动,故障的动定位 L2.91、识别络中的异常 2、提供故障关联性根因分析 3、不持拨测技术 4、持 TCP/UDP 流可视,不持组播流量可视;持设备状态、RIB、FIB 等设备 KPI 数据收集、分析 5、持连通性等意图验证 6、不持隐患预测 7、仅两种故障持联动闭环 8、持与 APM 集成监控可视系统对故障和隐患的处理流程和状态可视故障识别系统动学习规 则/策略(如相关性、阈值、AI 模型)并动识别故障隐患预测系统预测络状态趋势,定量精准识别潜在隐患(如某端 90%的可能性(置信度)在周内出现弱光故障)问题定界

31、系统动学习规 则/策略(如知识库、故障传播图)并动定界问题定位系统动学习规则/策略(如知识库、故障传播图)并动定位(系统给出唯准确原因)案成系统动成备选 案评估决策系统基于实时数据在线仿真验证,系统动决策最优案案实施系统基于最优案 动成可执指令,动修复故障消除隐患业务验证使系统进业务验证,系统动 成报告14TOLLY REPORT#222112ZH命周期权重L4华为思科评估级别评估说明评估级别评估说明DayN络变更意图翻译35%基于 SLA/时间窗 动评估,动输出变更约束条件L3.41、持配置变更前仿真校验 2、持对络中设备进设备替换(持不同型号)/故障类操作前的业务影响性分析,统计并展示设备

32、替换/故障所影响的业务(包括接业务、出业务和安全业务)以及业务的详情 3、持 ToR 交换机扩容以及服务器扩容的基于意图的案动成,以及仿真、辅助决策、实施L2.71、持配置变更前仿真校验 2、不持设备替换影响性分析 3、不持基于意图的扩容案动成案设计在线动成案评估决策在线仿真验证,辅助决策变更实施动/灰度完成变更业务验证动对络快照,动业务测试,动值守,发现异常系统动纠偏;动成变更报告优化调参意图翻译5%输业务意图系统动转换监控规则进监控(业务意图转换)L3.21、预测性维护:接流量预测 2.智能损 DCN:根据流量模型适应调整 ECN 线参数,带宽利率最优 3、持智能距损技术,同城双活场景最持

33、 200G*100KM 4、Flex-Buffer:提升 TCP 流的完成时间,TCP 应性能提升 21%5、云协同-确定性 SLA:实现跨 DC 之间业务按照业务诉求如不同的 SRv6 隧道,保障业务跨云确定性 SLAL2.51、不持预测性维护 2、ECN 线静态设置 3、距损技术未知 4、持智能缓存管理 5、基于 SR-MPLS 隧道 性能优化识别动学习规则/策略,并动识别待优化问题劣化预测系统预测络状态趋势,定量精准识别潜在险问题定界动问题定界问题定位动问题分析,动定位(系统给出唯准确原因)案成系统动成备选案(动成策略、在线推理)评估决策在线仿真验证,系统分析决策案实施动完成案优化业务验

34、证动验证业务并成优化报告15TOLLY REPORT#222112ZH4 Day0 规划建设 4.1 测试法 Day0 规划建设场景包括规划设计和部署开通两个阶段。第规划设计阶段:根据客户商业意图、业务发展标、络建设计划,输出络规划需求。根据监控排障、优化调测诉求,结合经验数据、现如流量性能和拓扑资源利等情况,进洞察和分析,输出如络容量预测等洞察分析报告;根据意图翻译的络规划需求以及洞察分析结果,输出阶设计(HLD),根据络规划结果,对 HLD 案规划正确性、合理性进评估和模拟验证;根据 HLD 案,结合现勘测情况、设备采购选型、解决案组技术要求等因素,输出低阶设计(LLD),根据络设计结果,

35、对 LLD 案设计正确性、合理性进评估和模拟验证。规划设计阶段包括意图翻译、洞察分析、络规划、规划仿真、络设计、设计仿真等环节。16TOLLY REPORT#222112ZH第个阶段是部署开通阶段,是指将数据中 Underlay 络打通的过程,根据规划设计的输出,制作络设备初始化数据、接 IP 协议等 Underlay 络详细全量参数;将制作完成的元数据转换为可下发到络的详细指令并下发到络设备;数据下发到络设备后进软硬件调测,保障软硬件配置正确,告警清零,对 Underlay 业务进拨测验证,满 Overlay 业务下发的条件。包括数据制作、数据下发、程调测优化、拨测验证等环节。Tolly 认

36、为,评价数据中动驾驶络 Day0 规划建设阶段 L3.5 等级平,应该重点关注以下个:针对关键规划设计场景,系统动成洞察分析指标、规划需求,调整;系统基于动获取现历史动分析/预测,动规划,勘测数字化,在线仿真验证,决策。针对关键部署开通场景,系统动制作元参数和保障策略数据,动感知设备上线,实现元参数和保障策略数据动下发;系统动远程调测/优化,动发现告警等异常,纠偏,系统动远程验证业务。17TOLLY REPORT#222112ZH4.2 测试结论 Tolly 经过测试组发现,华为 CloudFabric 和 Cisco IBN(Data Center)均能完成物理络的动化部署,但是华为 Clo

37、udFabric 在数据致性校验、灵活性、可靠性、设备纳管多样性等更优。分类华为 CloudFabricCisco IBN(Data Center)-ACI 架构阶设计体化设计具:持基于 SCT2.0 具,经过四步确认,导出阶设计案、组拓扑、基于解决案的报价清单未思科官有类似功能全的阶设计具总结:华为 CloudFabric 直接基于客户的业务诉求,直接成阶概要设计案和报价清单,售前免专家设计,未思科此类具。低阶设计规划具:根据导的配置报价清单 BOQ,iDesigner 能键导出阶阶段详细设计指南,IP 地址,路由等络规划免参与未思科官有类似低阶设计具,Cisco Design Zone只提

38、供设计参考档总结:华为 CloudFabric 直接基于配置清单,结合 IP、带宽、路由等资源动成低阶详细设计,配置脚本,并可直接于配置 iMaster NCE-Fabric,售前免专家设计,未思科有类似具。系统架构1、安装式:iMaster NCE-Fabric 控制器和 iMaster NCE-FabricInsight 分析器持单机或集群式部署,持物理机虚拟机式部署 2、统平台:动化配置和意图保证在统的 iMaster NCE 平台上实现;控制器 iMaster NCE-Fabric 和 分析器 iMaster NCE-FabricInsight 持单点登录 3、负载分担:控制器北向和南

39、向均为负载分担式作。iMaster NCE-Fabric 针对云平台的请求,可以负载分担到所有集群成员节点处理 4、虚拟系统纳管:iMaster NCE 持对交换机 VS 进纳管 5、第三络设备纳管:iMaster NCE 持纳管 Cisco Nexus 9000 系列以及 Nexus 7000 系列交换机并通过 NETCONF 接或命令接进配置 6、分析器北向持 Kafka、RESTful、SNMP、WebSocket 四种接的数据开放,同时,提供全量络数据服务开放(50+本体资源,配置件、表项、故障事件、KPI、业务流路径),拖拽式可编排,分钟级成场景化 API1、控制器安装式:APIC

40、要求少有个节点为物理机,并且当物理机故障时,络法物理变更,存在脱管险 2、Nexus Dashboard 包含分析器 Nexus Dashboard Insights 并可以跳转各站点的 APIC 控制器 3、控制器集群负载分担 4、虚拟系统纳管:Nexus 9000 系列交换机不持虚拟系统(VDC)总结:华为 iMaster NCE-Fabric 持双模式安装;Cisco APIC 安装环境要求少有个节点为物理机,并且物理机故障时存在络脱管险。Cisco 的 Nexus 9000 系列交换机不持虚拟系统,不利于节约客户投资。同时华为分析器持北向数据开放服务(如表项、KPI),可以与客户业务系

41、统对接,提供新络的规划依据。18TOLLY REPORT#222112ZH分类华为 CloudFabricCisco IBN(Data Center)-ACI 架构组架构络架构灵活性:1、持 Border Leaf 和 Spine 两个合组 2、持 Border Leaf、Spine、Server Leaf、Service Leaf、Fabric Gateway 五个合组 3、持多组 Border Leaf 4、持 Border Leaf 和 Fabric Gateway 合设置 5、iMaster NCE-Fabric 控制器和 iMaster NCE-FabricInsight 分析器和设

42、备之间的管理通道持 IPv4 和 IPv6 6、持 IP 报分和重组 络架构可靠性:1、跨设备链路聚合 M-LAG 2.0 单链路故障 20 毫秒倒换 2、ESI 多归持上四台设备链路负载均衡 3、BFD 最检测时间间隔 3.3 毫秒 4、损升级,设备版本升级,业务零中断络架构灵活性:1、Border Leaf 和 Spine 两个法合组 2、不持 Border Leaf、Spine、Compute Leaf、Services Leaf 四个合组(Spine 集成了类似华为 Fabric Gateway 的功能)3、持多组 Border Leaf 4、不持 Border Leaf 和 Fabr

43、ic Gateway 合设置 5、管理通道也持 IPv4 和 IPv6 6、不持 IP 报分,在某些法改变中间 IP 设备传输 MTU 场景的某些应下法使 络架构可靠性:1、跨设备链路聚合,Cisco vPC 持单链路故障 20 毫秒倒换 2、ESI 多归最多持上台设备链路负载均衡 3、BFD 最检测时间间隔 50 毫秒 4、损升级,设备版本升级,业务零中断总结:华为 CloudFabric 持转发报分和重组,Cisco 不持;华为各种部署式可合并可分离,有利于节省客户投资;另外华为在 ESI 多归的路径数量和 BFD 检测时间上也更优。19TOLLY REPORT#222112ZH分类华为

44、CloudFabricCisco IBN(Data Center)-ACI 架构物理络 动化上电部署:1、持极简 ZTP 开局 2、灵活性:DHCP 服务器持内置和外置两种模式 3、安全性:ZTP 带外启动,控制器和业务隔离 4、设备管理:持证书式纳管设备 5、元配置:持灵活配置 Spine RR/出互联配置模板等 Underlay 配置;持针对 Syslog 等运维的配置 批量配置:针对静态路由,VPC,外部关,SFC 的 rule 等配置进批量导;基于 VPC 和设备对配置进批量导出;针对 LP 端名称和描述、设备密码、Spine 的 RR 等进批量修改 持基于意图的 Fabric und

45、erlay 络规划仿真:1、持新建 DC Fabric 规划:规划拓扑形成,拓扑配置可修改,仿真评估,上线执 2、持新建 DC Fabric 导规划:规划拓扑形成,配置可导不可修改,上线执 意图校验:持 Underlay VTEP 之间连通性验证,VTEP IP 地址校验、Router ID 地址校验、VTEP MAC 校验、洞路由、环回路由等校验 扩容意图翻译:持 ToR 扩容和服务器扩容意图动化配置上电部署:1、持键式部署 2、DHCP 服务器仅持内置,不持外置 3、安全性:ZTP 带内启动,控制器和业务必须相连,存在安全隐患 4、持证书式纳管设备 5、不持灵活配置 Spine RR/出互

46、联配置模板等 控制器 GUI 不持批量配置,存在量相同配置修改时,需要逐个进配置 不持基于意图的新建 DC Fabric 精细化的规划和仿真 意图校验:本次未测试 扩容意图翻译:不持服务器和 ToR 扩容意图动化配置总结:华为 CloudFabric 持基于意图的 Underlay 规划及仿真校验,持新建 DC Fabric 导规划或者规划,持服务器或者 ToR 扩容等意图理解及验证,持批量配置;思科不持基于意图的 Underlay 规划以及扩容等意图理解,且思科 Cisco 的 ZTP 带内启动,控制器和业务相连,存在安全险。20TOLLY REPORT#222112ZH分类华为 Cloud

47、FabricCisco IBN(Data Center)-ACI 架构可靠性/可性1、数据致性校验:iMaster NCE-Fabric 持南向和北向数据致性校验 2、转发独运:控制器单集群所有节点故障(下电),转发器所有业务不受影响 3、控制器异地容灾:持异地容灾式部署,当主数据中的控制器集群故障时,异地容灾控制器集群可以接替所有当前的配置1、数据致性校验:APIC 不持北向数据致性校验 2、转发独运:控制器单集群所有节点故障(下电),转发器业务不受影响 3、APIC 控制器集群中,每份数据在三个节点中进存储(节点超过三个时,不同的数据可能存储在不同的三个节点)。需要谨慎规划部署集群及 st

48、andby 节点,以防某地故障导致三个或以上控制器节点故障时,某些配置丢失法恢复总结:华为 CloudFabric 持主备 DC,控制器主备集群,持南北向数据致性校验,iMaster NCE-Fabric 下线后不影响之前下发的所有业务。轻量化案持中 DC 轻量 SDN 解决案 CloudFabric Easy 控制器可全部虚拟机安装,持设备合思科 Mini ACI Fabric 少 Spine-Leaf 两层组 Mini ACI Fabric 的控制器 APIC 少需要台物理机+2 个虚拟机,资源消耗较总结:华为 CloudFabric 持全盒+框盒的灵活组,持全虚拟机安装,满极简端到端规划

49、、设计,部署解决案;思科 Mini ACI Fabric,少 Spine-Leaf 两层组;Mini ACI Fabric 的 APIC 部署少需要台物理机+2个虚拟机,资源消耗较。21TOLLY REPORT#222112ZH4.3 测试条 4.3.1 阶设计 华为:华为 SCT 阶设计具提供详细的流程,供售前员针对户需求,通过勾选预设问题答案选项,成设备选型和报价清单。阶设计包括四个主要:基础需求、选取设备、案配置、和商务设定。具以选取配置为主,便售前员在不需要过多技术撑的情况下确定案和 BOQ 报价清单,供售前投标及后期项交付阶段低阶设计具的输使。思科:未思科官有类似功能全的阶设计具。选

50、取配置导出阶设计结果为报价清单 BOQ 件22TOLLY REPORT#222112ZH4.3.2 低阶设计 华为:华为 CloudFabric iDesigner 低阶设计具持案设计、程设计、络设计、控制器设计等步骤,持导出设计件以及供络部署使的零配置开局 ZTP 件。思科:未思科官有类似低阶设计具,Cisco Design Zone 只提供设计参考档。低阶设计持直接导或同步报价清单 BOQ 中的设备持导出低阶设计 LLD 结果、Visio 件、零配置开局 ZTP 件23TOLLY REPORT#222112ZH4.3.3 系统架构 4.3.3.1 控制器和分析器安装式 华为 iMaster

51、 NCE-Fabric 和 iMaster NCE-FabricInsight 均持单机式或集群式部署,并均持物理机或虚拟机式部署。思科 APIC 要求少有个节点为物理机,并且当物理机故障时,络法物理变更,存在脱管险。Cisco Mini ACI Fabric 持 1 台物理机+2 虚拟机的 APIC 集群。4.3.3.2 虚拟系统纳管 华为:华为 CloudEngine 16816 持作为物理设备 PS(Physical System)被虚拟成多达 16 个相互隔离的虚拟系统(VS)。华为 iMaster NCE-Fabric 持管理 VS。思科:思科 IBN 案(ACI 架构)采的 Nex

52、us 9000 系列交换机不持多虚拟系统(Cisco VDC)。4.3.3.3 第三设备纳管 华为:华为 iMaster NCE-Fabric 持纳管思科 Nexus 9000 系列和 Nexus 7000 系列数据中交换机。华为 iMaster NCE-Fabric 可以通过 NETCONF YANG 模板配置思科 Nexus 7000 和 9000 系列。南向持采驱动的式纳管第三设备,三设备驱动持动态加载,南向接持被业务设计器(runbook)使。纳管 F5 设备,并可调 F5 设备创建 runbook24TOLLY REPORT#222112ZH 4.3.3.4 分析器架构开放性 华为:

53、华为 iMaster NCE-FabricInsight 北向持 Kafka、RESTful、SNMP、WebSocket 四种接的数据开放,同时,提供全量络数据服务开放(50+本体资源,配置件、表项、故障事件、KPI、业务流路径),拖拽式可编排,分钟级成场景化 API。拖拽式编排创建 API调 F5 设备创建 Runbook 并仿真校验25TOLLY REPORT#222112ZH4.3.4 组架构 4.3.4.1 络架构灵活性-设备 数据中 Fabric 中的交换机包括多种。对于中型组或些特殊场景,户会希望些设备同时担负多种,以节省投资。华为:华为 CloudFabric 案将交换机划分为

54、 Spine、于连接外部络的 Border Leaf、于接计算节点的 Server Leaf、于接防墙和负载均衡设备等增值服务(VAS)的 Service Leaf、于多 DC 间互联或 Fabric 互联的 DCI Gateway(Fabric Gateway)。华为 CloudFabric 组架构灵活,持 Spine、Border Leaf、DCI Gateway(Fabric Gateway)、Server Leaf 和 Service Leaf 五个合组。华为 CloudFabric 同时也持 Border Leaf 和 Spine 两个合组,或者 Border Leaf 和 DCI

55、Gateway(Fabric Gateway)合设置。思科:思科的 Spine 集成 DCI Gateway(Fabric Gateway)功能,并且不同的 Leaf 间持合可能。但思科 IBN 案 ACI 架构不持 Spine 和 Leaf 合组,因此不持 Spine 和 Border Leaf、Compute Leaf、Services Leaf 所有合组,也不持 Spine(含 DCI/Fabric Gateway)和 Border Leaf 两个合组。对于型的 Fabric,思科较华为案需要更多的设备。26TOLLY REPORT#222112ZH4.3.4.2 通过 IPv6 管理设

56、备 随着 IPv6 的普及,越来越多的机构开始从 IPv4 切换为 IPv6。华为 iMaster NCE-Fabric 和 iMaster NCE-FabricInsight 持通过 IPv4 或 IPv6 与设备通信。思科 APIC 也持通过 IPv4 或 IPv6 与设备通信。4.3.4.3 转发 IP 报分和重组 华为 CloudEngine 数据中交换机持转发 IP 报分和重组。在某些法改变中间 IP 设备传输 MTU 场景下,可以将超过 MTU 的报分,保障报在络中的传输。思科 Nexus 9000系列交换机不持转发 IP 报分。4.3.4.4 络架构可性-BFD 华为 Cloud

57、Engine 数据中交换机持最 3.3 毫秒的 BFD 发包间隔,可常快速探测到转发路径的故障,并联动 OSPF 路由协议等实现故障快速切换。思科 Nexus 9000 系列交换机持最 50 毫秒的 BFD 发包间隔,故障探测时间较。27TOLLY REPORT#222112ZH4.3.4.5 络架构可性-服务器/VAS 接 数据中络要求具备可性,如服务器和 VAS 设备(防墙、负载均衡)接都要求链路冗余,常的包括 M-LAG 链路聚合(思科 vPC)、EVPN ESI Multihoming 多归双归等冗余技术。华为:华为 CloudFabric 持通过 M-LAG 2.0 实现跨设备的链路

58、聚合。Tolly 程师验证了,当条链路出现故障时,受影响流量的故障倒换时间 20 毫秒。华为 iMaster NCE-Fabric 持对两台交换机组成的 M-LAG 设备组进管理,以设备组为单元,类似单个设备进管理,设置设备等。华为 EVPN ESI 多归最多持四台上设备。Tolly 程师验证了,四条链路间持负载均衡,且当三条链路故障时,剩余链路依然保障业务流量。思科:思科 vPC 当条链路出现故障时,受影响流量的故障倒换时间 20 毫秒。思科 EVPN ESI 多归只持两台上设备实现双归。28TOLLY REPORT#222112ZH4.3.5 物理络动化 4.3.5.1 上电部署 数据中络

59、 SDN 案采控制器集中管理的式,设备上电后都需要被控制器纳管。设备上电部署流程要同时兼具易性、灵活性和安全性。华为:华为 CloudFabric 解决案持极简 ZTP 开局,持带内或带外管理模式,持内置或外置 DHCP 服务器。持拓扑设备上线校验和 underlay 校验,持证书认证和 SFTP 双重安全保障。思科:思科 IBN 数据中络解决案 ACI 架构也持极简 ZTP 开局。思科 ZTP 带内启动,控制器和业务必须相连,存在安全隐患,且仅持 APIC 内置 DHCP 服务器。4.3.5.2 配置模板 华为 CloudFabric 和思科 IBN 案的部分业务,都通过各的控制器的图形界进

60、配置和管理。对于部分功能,管理员仍需要通过控制器对设备进命令式的下发。华为 iMaster NCE-Fabric 持配置模板,对于很多需要通过命令式下发的配置,也能够以填参数的式动成命令。思科 APIC 不持类似功能。华为 iMaster NCE-Fabric 配置模板29TOLLY REPORT#222112ZH4.3.5.3 批量配置 数据中络开局存在量类似的配置需要次性下发,批量配置功能可以极地减少配置时间。华为:华为 iMaster NCE-Fabric 持外部络、租户、逻辑络中各组件的批量配置,iMaster NCE-Fabric 提供各配置的 Excel 格式模板,便管理员在模板中

61、填写配置然后上传,即可批量创建、批量修改以及批量删除。思科:思科 APIC 的图形化配置界不持批量配置。下载模板、填配置、上传进批量配置持批量配置的组件30TOLLY REPORT#222112ZH4.3.5.4 基于意图的 Underlay 络规划仿真 基于意图的 Underlay 络规划和仿真,可以极地简化 Underlay 络规划和部署的流程,并减少错误。华为:华为 iMaster NCE-Fabric 持针对新数据中 Underlay 络,基于意图的规划、仿真和部署。管理员输意图后,华为 iMaster NCE-Fabric 动成 Underlay 络规划、仿真评估、并实施部署。思科:

62、思科 APIC 不持 Underlay 络基于意图规划。成规划智能机器界新 DC 意图输意图输意图规划评估部署拓扑部署结果正在部署31TOLLY REPORT#222112ZH4.3.5.5 意图校验 数据中络部署阶段的意图校验功能,可以对部署的络进校验,避免络故障。华为:华为 iMaster NCE-Fabric 在数据中络开局阶段持 Underlay 拓扑连线的验证、Underlay 连线后端互联验证、互联 IP 验证;在 Underlay 络创建后持 VTEP 连通性、洞路由、路由环回等校验,确保 Underlay 络连通性和故障。校验结果:准备数据 收集数据 验证络连通性(连通链路:8

63、4,法连通链路:0)验证络洞(路由洞:0)验证络环路(路由环路:0)配置校验(OSPF:0 路由器 ID:0 VTEP:0 互联 IP:0)完成32TOLLY REPORT#222112ZH4.3.5.6 扩容意图翻译 对于已部署的络,后期的扩容,也需要通过动化部署提效率,以及避免配置可能产的错误。华为:华为 iMaster NCE-Fabric 持 ToR 交换机扩容和服务器扩容意图动化配置。以服务器扩容为例,管理员配置扩容意图后,将安装好操作系统并使能了 LLDP 的服务器连接到预设定的交换机,华为 iMaster NCE-Fabric 则会动发现扩容的服务器,并配置络设备打通络。思科:思

64、科 APIC 不持服务器扩容意图翻译。规划扩容规划成规划评估规划部署拓扑配置和仿真结果成配置仿真评估进程连通性仿真33TOLLY REPORT#222112ZH4.3.6 可靠性/可性 除了组的链路和设备冗余保障络的可性,数据中络解决案还持些其它特性保障业务的可性。4.3.6.1 数据致性校验 华为:华为 iMaster NCE-Fabric 北向持与云平台进配置数据致性校验,南向持与交换机进配置数据致性校验。北向,测试中,当 iMaster NCE-Fabric 与 OpenStack 云平台的配置不致时,可以对配置进同步操作。如 iMaster NCE-Fabric 中动为云平台中 ins

65、tance 成的接被意外删除导致 instance 的络不通,通过在云平台执对账命令,iMaster NCE-Fabric 成功将逻辑接添加回来,保持数据致性。南向,测试中,当运在双模配置模式的交换机在紧急排障中删除了配置,和 iMaster NCE-Fabric 中的配置不致时,通过在 iMaster NCE-Fabric 中执配置审计,会发现被删除的配置,并可以键将配置添加回去。思科:思科 IBN 案 ACI 架构中的交换机设备只可以被 APIC 控制器进配置,所以南向数据校验功能不必要。Tolly 程师未发现思科 APIC 与云平台的北向数据致性校验功能。4.3.6.2 转发独运 华为

66、CloudFabric 数据中络解决案和思科 IBN 案 ACI 架构均持转发独运。当控制器集群所有节点故障,转发器业务不受影响。34TOLLY REPORT#222112ZH4.3.7 轻量化案 对于中数据中,各商设计了对应的轻量化案。华为:CloudFabric Easy 是中数据中轻量 SDN 解决案,持所有设备或部分合设置,持控制器单节点或集群部署。思科:思科 Mini ACI Fabric 需要少 Spine-Leaf 两层组。控制器 APIC 少需要台物理机+2 个虚拟机的集群部署。35TOLLY REPORT#222112ZH5 Day1 业务部署 5.1 测试法 Day1 业务

67、部署场景是指在 Day0 规划建设后,通过对客户业务意图的理解,转换为对络的设计需求,然后对案进评估,最后下发到设备实现并进业务连通性检测的过程,具体包括意图翻译、案设计、评估决策、案实施、业务验证等环节。Tolly 认为,评价数据中动驾驶络 Day1 业务部署阶段 L3.5 等级平,应该重点关注以下个:输如部署套银系统等业务意图,系统动将业务意图转换为络需求,动查询/分配资源,动成案。系统在线仿真校验,评估案,决策,系统动进络配置和业务策略下发,系统动验证业务连通性。36TOLLY REPORT#222112ZH5.2 测试结论 Tolly 经过测试组发现,华为 CloudFabric 和

68、Cisco IBN 均能完成配置的动化,但是华为 CloudFabric 在智能推荐络、意图翻译、云数据致性校验、三级回滚等特性优于思科。分类华为 CloudFabricCisco IBN(Data Center)-ACI 架构配置式1、双模管理:全量业务持拖拽式和命令双模配置管理,有利于继承已有的络运维习惯,当控制器故障时,仍然可以直接登录设备进排障和配置,并且设备有加锁机制,不会引起配置冲突 2、全配置回滚:控制器和设备的配置同时打快照,还原速度快,单设备 5 分钟以内,全 20 分钟,设备不重启1 3、租户配置回滚 4、业务配置回滚:基于单次业务操作配置撤销 5、控制器设备配置恢复能:全

69、配置快照,对全 CE 交换机设备进配置回滚,持每台设备 20 个件。且件内容相同将覆盖之前件,持配置基线件,基线件不会被覆盖,持回滚到某个配置件1、APIC 持图形化界和 CLI 配置,但运在 ACI 模式的设备不持直接登录设备进配置,在控制器故障时,法对络做配置 2、持基于快照的全配置和租户配置回滚 3、不持基于单次业务操作的业务配置回滚总结:华为 CloudFabric 持控制器和设备命令双模配置,并且有加锁机制不会引起配置冲突,持配置全、租户、业务三级回滚,控制器拖拽式编排。意图理解 仿真意图翻译 1、基于智能机器,动识别意图,智能推荐逻辑络案,免业务编排,包括应上线,下线,变更,应互访

70、 2、21 个典型数据中络意图发放:覆盖数据中络规划、建设、运维、调优全场景,实现数据中络全场景意图化编排动化。如:通过“新建 DC”意图实现数据中络规划动化;通过应上线、下线意图实现业务发放的动化;通过“重保业务监控”意图实现重点业务的监控 3、户定义异构络意图编排:持通过界拖拽的式进异构络(含三设备)业务灵活编排,并可通过 API 的形式向上提供封装后的络编排能 意图验证 1、可达性验证:持 Pod 内东向同 VPC 同,同 VPC 跨互访;Pod 内跨 VPC 未过 FW 及 LB 互访,经过华为 FW 未过 LB 互访;单 Pod 南北向互访等连通性校验 2、隔离性验证:验证两个(或

71、IP)间是否隔离 3、存在性验证:络中是否存在路由环路和路由洞 4、致性验证:链路两侧接的致性校验包括 MTU、速率、双模式、协商模式、作模式、VLAN、IP 等参数 5、持跨 DC/Fabric 的过防墙/LB 的数据意图验证意图翻译:不持基于场景、智能推荐逻辑络案 意图验证:不持跨 DC 过防墙/LB 的数据意图验证总结:华为 CloudFabric 持基于业务意图的理解,智能推荐逻辑络案;思科 IBN 不持基于业务意图智能推荐络。华为 CloudFabric 持 Fabric 内或跨 DC/Fabric 的数据连通性验证;思科 IBN 持使 Nexus Dashboard Insight

72、s 进 Fabric 内的连通性验证,不持跨 DC/Fabric 的连通性验证。备注:1.实测单设备 1 分钟还原,整 17 分钟还原(两台设备)。华为认为整设备数不会对整还原耗时有较影响。37TOLLY REPORT#222112ZH分类华为 CloudFabricCisco IBN(Data Center)-ACI 架构仿真校验配置变更前在线 IPv4&IPv6 仿真校验:业务发放前,结合设备已有配置和新增配置,对资源、连通性、变更影响建模仿真,避免错误配置影响现有业务。1)静态资源仿真校验 范围:VRF,VNI,L2 接,静态路由;2)当前动态资源呈现:ARP、ND、FIBv4、FIBv

73、6、MAC;3)配置变更校验范围:逻辑络,微分段规则,外部络,VPC 互通 使形式化验证算法,实现分钟级仿真持配置变更前在线仿真校验资源变更总结:华为 CloudFabric 和思科 IBN(Data Center)均持配置变更前的仿真校验IPv6IPv6 VXLAN:持 IPv6/IPv4 VXLAN Overlay 业务的动化配置IPv6 VXLAN:持 IPv6/IPv4 VXLAN Overlay 业务的动化配置总结:华为 CloudFabric 和 Cisco IBN 均持 IPv6 VXLAN。微分段持 IPv4、IPv6 微分段持 IPv4、IPv6 微分段总结:华为 Cloud

74、Fabric 和 Cisco IBN 均持微分段。业务链1、NSH 业务链:持 IETF 标准的服务链(SFC)模型,持 NSH 模式,IPv4/IPv6 2、PBR 业务链:持 IETF 标准的服务链(SFC)模型,持 PBR 模式,IPv4/IPv6 3、业务链持编排 L4-L7 服务,例如引导流量过防墙1、NSH 业务链:不持 2、PBR 业务链:持 IETF 标准的服务链(SFC)模型,持 PBR 模式,IPv4/IPv6 3、业务链持编排 L4-L7 服务,例如引导流量过防墙总结:华为 CloudFabric 和 Cisco 均持 PBR 业务链,另外华为 CloudFabric 持

75、 NSH 业务链,Cisco IBN 不持络虚拟化1、VMware vCenter:持控制器与 VMware vCenter 集成,推送虚拟络配置到 vSwitch,实现物理与虚拟络的统规划;并通过感知 VM 上线、下线和迁移等事件,实现络配置的按需下发和迁移跟随,持 vSphere Fault Tolerance(FT)、跨 vCenter 迁移 2、Microsoft System Center:持控制器与 System Center 集成,推送虚拟络配置到 vSwitch,实现物理与虚拟络的统规划。并通过感知 VM 上线、下线和迁移等事件,实现络配置的按需下发和迁移跟随VMware vC

76、enter:持 Microsoft System Center:持总结:华为 CloudFabric 和 Cisco IBN(Data Center)均持和 VMware vCenter,Microsoft System Center 等虚拟化平台对接38TOLLY REPORT#222112ZH分类华为 CloudFabricCisco IBN(Data Center)-ACI 架构云协同1、标准模型及协议对接:iMaster NCE-Fabric 持基于标准模型对接 OpenStack 云平台,实现络资源的统管理和按需调,控制和转发均为标准协议,持对接状态查询 2、裸属纳管:持与云平台上的

77、裸属机管理组件协同,动下发裸属机业务部署所需的络配置,持安全组转 ACL 3、致性校验:iMaster NCE-Fabric 与云平台数据不致时,持全量和增量同步,避免配置冲突 4、其他功能:持名单;迁移事件触发配置下发1、控制 OpFlex 和 COOP 以及转发 Evxlan 均为私有协议,协议也开放给第三集成,业界持度略低 2、不持动将 OpenStack 中的安全组转化为 Compute Leaf 交换机的对应 ACL 3、未发现思科 APIC 与云平台的北向数据致性校验功能总结:华为 CloudFabric 在和云平台对接的可维护性、数据致性校验、协议标准性等,优于思科 IBN。容器

78、络1、K8s 对接:持对接 K8s 容器平台 2、华为 CCE(Cloud Container Engine)容器平台对接:iMaster NCE-Fabric 持与华为 CCE 敏捷版原 Calico 络案对接,感知 Calico Node 上线,联动控制器对物理络下发 BGP 配置 3、容器络模型可视:持容器逻辑络拓扑和应络拓扑可视1、K8s 对接:持对接 K8s 容器平台 2、容器络模型可视:持容器逻辑络拓扑和应络拓扑可视总结:华为 CloudFabric 和思科 IBN 均持 K8s 容器平台对接,且持容器络的可视化。多云编排跨 DC 编排:1、Multi-DC Controller

79、持纳管跨 DC 的 TransitFabric,发放 TransitVPC 2、管理边缘 DC:Multi-DC Controller 持发放中、边缘 DC 间 L3 互通 3、私有云专线编排:Multi-DC Controller 持在Transit VPC 上发放多云 L3 互联,专线接 4、跨 DC 络业务的事前仿真校验(IPv4&IPv6):业务发放前,对资源、连通性、变更影响建模仿真,避免错误配置影响现有业务 混合云编排:1、采开放框架持对接公有云,持公有云(包括 AWS)事前业务仿真校验和连通性校验 2、通过调公有云 API 形式对公有云侧 VPC 进编排和拓扑还原,需在公有云侧额

80、外部署虚拟络设备跨 DC 编排:1、持跨 DC 编排 2、持管理边缘 DC 3、持私有云专线编排 4、不持跨 DC 络业务的事前仿真校验(IPv4&IPv6)混合云编排:1、需要在公有云侧部署 Cisco 虚拟设备,占公有云资源 2、不持公有云事前业务仿真校验和连通性校验 3、持 AWS、Azure、Google Cloud 对接总结:华为 CloudFabric 持的跨 DC 功能思科 IBN 更丰富,且对接公有云(AWS)需在公有云侧部署额外络设备。39TOLLY REPORT#222112ZH5.3 测试条 5.3.1 配置式 5.3.1.1 易性 华为:华为 iMaster NCE-F

81、abric 提供 GUI 界,可以完成络配置的拖拽式图形化配置、编辑和查看展示。下图为华为 iMaster NCE-Fabric 的虚拟私络(VPC)的逻辑络,左侧为可供拖拽添加的组件,中间显示整个逻辑络的拓扑,点击每个组件可在右侧进查看和配置。配置项也量采选取的式,便于配置和避免错误输。逻辑络的拓扑和配置在个界显示,较为直观。思科:思科 Nexus Dashboard 和 APIC 也基于图形界完成业务发放。外部络域逻辑 VAS(防墙、负载均衡服务等)互联接(NFVI 场景路由器直连 PE 使)逻辑路由器:通常下挂多个逻辑交换机(),上连接防墙或外部络逻辑交换机:通常对应个段逻辑端:户端连接

82、的络侧虚拟逻辑端,对应到物理交换机的接户端:虚拟机/Instance/Pod/裸属主机的端设置链路:于连接逻辑路由器和逻辑交换机、或于连接逻辑端和户端设置外部连接:于连接逻辑路由器和外部络(流量不过墙)或者防墙类型的逻辑 VAS 和外部络(流量过墙)外部络域防墙逻辑 VAS逻辑路由器逻辑交换机逻辑端户端40TOLLY REPORT#222112ZH5.3.1.2 配置式 华为:华为 CloudFabric 持双模或单模管理。单模管理模式下,交换机设备只能被 iMaster NCE-Fabric 管理。双模管理模式下,交换机除了受 iMaster NCE-Fabric 管理,管理员仍然可以在紧急

83、情况,如控制器集群完全故障时,连接上设备并通过设备 CLI 做紧急配置。思科:思科 IBN 案 ACI 架构仅持通过控制器 APIC 进配置(图形界或命令)。当控制器集群完全故障时,管理员法修改络设备配置。5.3.1.3 配置回滚 华为:整快照与回滚:华为 iMaster NCE-Fabric 持对全量配置和数据进快照,持最多 5 个快照点进配置还原。还原速度快,单设备 5 分钟以内,全 20 分钟,设备不重启(实测单设备 1 分钟还原,整 17 分钟还原)。整测试采的两台设备。华为认为整回退时间与规模的关联度较。回滚成功备份成功整回滚,iMaster NCE-Fabric 数据库和交换机配置

84、均回滚41TOLLY REPORT#222112ZH租户快照与回滚:华为 iMaster NCE-Fabric 持基于租户级别定时或快照,可以选定任意快照点进配置还原,持将快照点配置和数据进本地或者远端存储,持远程导快照点进配置恢复。华为 iMaster NCE-Fabric 持租户的任意快照点与当前配置的差异对。业务配置回滚:华为 iMaster NCE-Fabric 持单次业务操作配置回滚。思科:思科 APIC 持全和租户的配置快照回滚,不持基于单次业务配置的回滚。当前被对快照快照与当前配置相,需要删除两个逻辑组件单次业务操作配置回滚42TOLLY REPORT#222112ZH5.3.2

85、 意图翻译 意图翻译以户意图作为输,动构建络、成配置并验证。华为:数据中动驾驶络华为 CloudFabric 解决案持业务意图翻译,智能推荐逻辑络案,免业务编排,包括应上线,应互访,应监控。华为 CloudFabric 案可以按照需求提供种推荐组,构建络并仿真、下发、和验证。思科:思科 IBN(ACI 架构)数据中络解决案前还不持以应为基础的组推荐、仿真、下发、验证整套意图翻译流程。两种推荐组webApp意图输案推荐案成案实施络案推荐成功43TOLLY REPORT#222112ZH5.3.2.1 典型数据中意图发放 华为:华为 iMaster NCE-Fabric 持 21 个数据中典型络意

86、图,覆盖数据中络规划、建设、运维、调优全场景,实现数据中络全场景意图化编排动化。如:通过“新建 DC”意图实现数据中络规划动化;通过应上线、下线意图实现业务发放的动化;通过“重保业务监控”意图实现重点业务的监控。重保业务监控意图某重保业务故障时的提示44TOLLY REPORT#222112ZH 络变更意图验证,包括意图识别,underlay 验证,overlay 验证三步该条为新增条链路的意图underlay 仿真验证连通性、路由洞、环路、配置overlay 仿真校验,选择服务的源的地址验证连通性45TOLLY REPORT#222112ZH5.3.2.2 户定义异构络意图编排 华为:华为

87、iMaster NCE-Fabric 持通过界拖拽的式进异构络(含三设备)业务灵活编排,并可通过 API 的形式向上提供封装后的络编排能。创建 runbook46TOLLY REPORT#222112ZH5.3.2.3 意图验证 意图验证功能保障在业务发放或变更后,实时或定时校验意图,识别络变更险。华为:华为 iMaster NCE-FabricInsight 持实时或定时意图验证功能,例如可达性验证、隔离性验证、存在性验证、以及致性验证。思科:思科 Nexus Dashboard Insights 持 Fabric 内的连通性验证,但不持跨 DC/Fabric 的数据意图验证。跨 DC/Fa

88、bric 的源和的间连通性验证结果显示跨 DC/Fabric 的路径整连通性、致性、存在性验证47TOLLY REPORT#222112ZH5.3.3 仿真校验 仿真校验功能可在业务发放前,对资源、连通性、变更影响建模仿真,避免错误配置影响现有业务。使形式化验证算法,实现分钟级仿真。华为:华为 iMaster NCE-Fabric 持对当前动态和静态资源利率进呈现,可呈现资源包括 ARP、FIBv4、VNI/BD/EVPN、VRF、静态路由、层接、ACL 等。华为 iMaster NCE-Fabric 还持在业务发放前,对资源、连通性和变更影响进建模仿真,避免错误配置影响现有业务。配置变更校验

89、范围包括:逻辑络,微分段,外部络,VPC 互通等配置。被校验的资源包括:VRF、静态路由、层接、VNI/BD/EVPN 等。思科:思科 Nexus Dashboard Insights 也持变更前仿真。各资源的利率配置仿真和业务配置的界致,保持致的体验。在仿真对业务配置后,点击仿真按钮,即可得到仿真结果。管理员确认业务变更结果后,可以选择提交配置,则配置会真实下发到交换机。仿真结果:资源变更、连通性和整影响48TOLLY REPORT#222112ZH5.3.4 IPv6 业务 华为 CloudFabric 和思科 IBN 解决案均持 IPv4 和 IPv6 VXLAN Overlay 业务的

90、动化配置,IPv6 的终端(endpoints)可成功互访。5.3.5 业务安全服务 5.3.5.1 微分段 华为 CloudFabric 和思科 IBN 解决案均持基于 EPG(Endpoint Group)的 IPv4 和 IPv6 微分段,EPG 之间默认隔离,通过策略进 EPG 间的访问控制。5.3.5.2 业务链 华为 CloudFabric 和思科 IBN 解决案均持基于 EPG(Endpoint Group)的 Policy-Based Redirect(PBR)业务链,引导 EPG 间的流量顺次经过业务节点(如防墙等)。如下所示为常业务链,引导源 EPG 到的 EPG 的流量顺

91、次经过三个防墙。华为 CloudFabric 另外还持 Network Service Header(NSH)业务链,实现功能和 PBR 业务链类似,应中各有优势。思科 IBN 解决案不持 NSH 业务链。?EPGFW 1FW 2FW 3?EPG49TOLLY REPORT#222112ZH5.3.6 络虚拟化 华为:华为 CloudFabric 数据中络解决案持控制器 iMaster NCE-Fabric 与 VMware vCenter 和 Microsoft System Center 集成,推送虚拟络配置到 vSwitch,实现物理与虚拟络的统规划。并通过感知 VM 上线、下线和迁移等

92、事件,实现络配置的按需下发和迁移跟随。详细结果参 Tolly 报告#220113 https:/ IBN 数据中络解决案持和 VMware vCenter 集成,也持与 Microsoft System Center 集成的功能。50TOLLY REPORT#222112ZH5.3.7 云协同 OpenStack 作为云计算平台,将业界标准的硬件虚拟化成资源,并对这些资源进编排,户可随需获取资源。华为 CloudFabric 和 Cisco IBN 数据中络解决案均持与 OpenStack 云计算平台对接。管理员只需要在 OpenStack 平台控制台进络和实例的操作,华为和思科案的控制器即会

93、联动对租户络设备进配置,打通 OpenStack 同租户下实例间的三层通信。测试包括了实例创建、迁移和删除等操作。5.3.7.1 标准模型及协议对接 华为:华为 CloudFabric 采标准模型对接 OpenStack 云平台,控制 NETCONF 和 BGP-EVPN 以及转发 VXLAN 均为业界泛采的标准协议,各商的络设备普遍持。关于华为 CloudFabric 与 OpenStack 对接的详细结果,参 Tolly 报告#220113 https:/ IBN 案 ACI 架构控制 OpFlex 和 COOP 以及转发 eVXLAN 均为私有协议,协议也开放给第三集成,但业界持度略低。

94、51TOLLY REPORT#222112ZH5.3.7.2 裸属纳管 OpenStack Ironic 允许户像管理虚拟机样管理裸属服务器。华为:OpenStack Neutron 提供安全组机制,来对虚拟机实例(instance)的通信进访问控制。安全组通常通过直连虚拟机实例的 Open vSwitch 来实施。对于裸属(bare metal)服务器实例,由于其直连 Server Leaf/Compute Leaf 交换机,法通过 Open vSwitch 来实施安全组机制。华为 CloudFabric 解决案通过与 OpenStack 对接,动将 OpenStack 中的安全组转化为 S

95、erver Leaf 交换机的对应 ACL,实施安全组的策略,保持虚拟机和裸属实例相同的使体验。思科:思科 IBN 案 ACI 架构数据中络解决案不持动将 OpenStack 中的安全组转化为 Compute Leaf 交换机的对应 ACL。5.3.7.3 致性校验 华为:华为 iMaster NCE-Fabric 与 OpenStack 云平台的配置不致时(如 iMaster NCE-Fabric 中动为云平台中 instance 成的接被意外删除导致 instance 的络不通),通过在 OpenStack 云平台执对仗命令,iMaster NCE-Fabric 成功将逻辑接添加回来。思科

96、:Tolly 程师未发现思科 APIC 与云平台的北向数据致性校验功能。52TOLLY REPORT#222112ZH5.3.8 容器络 华为:Kubernetes,简称 K8s,是个来动化 Linux 容器操作的开源平台。“Pod”是 Kubernetes 中能够创建和部署的单元,包含个或多个容器,每个 Pod 被分配个 IP 地址。Tolly 程师验证了,华为CloudFabric 数据中络解决案持控制器 iMaster NCE-Fabric 可与 Kubernetes 平台对接。并通过感知 Pod 创建和删除等事件,实现络配置的按需下发。详细结果参 Tolly 报告#220113 htt

97、ps:/ iMaster NCE-Fabric 持管理 400 万容器规模,每分钟持多达 10K 容器上下线。但是因为该规模数据需要超量的硬件资源才可测试,所以 Tolly 并没有验证。华为 iMaster NCE-Fabric 还持对接华为 CCE(Cloud Container Engine)敏捷版原 Calico 络案,感知 Calico Node 上线,联动控制器对物理络下发 BGP 配置。思科:思科 IBN 数据中络解决案也持和 Kubernetes 对接。53TOLLY REPORT#222112ZH5.3.9 多云编排 当户拥有多个数据中,或者同时使私有云和公有云时,业界最新的案

98、是采中控制器,对多云进统编排和管理。5.3.9.1 多数据中编排 华为:华为 Multi-Datacenter Controller(MDC)多数据中控制器部署在专的集群服务器上,可以是物理服务器也可以是虚拟机,持创建于多云业务编排的 Transit Fabric,并通过 Transit Fabric 中实例化 Transit VPC 来实现多租户 VPC 跨 DC 的 L3 互通。DC 持专线互联。思科:思科 Nexus Dashboard Orchestrator 持跨 DC 编排,但不持像华为样拖拽式编排。DC 2 中的租户路由器DC 1 中的租户路由器Transit 路由器防墙54TO

99、LLY REPORT#222112ZH5.3.9.2 混合云编排 华为:华为 Multi-Datacenter Controller(MDC)多数据中控制器持对公有云和私有云组成的混合云进编排。华为 MDC 控制器中可创建 AWS 中的 VPC,也可同步 AWS 中的 VPC 到本地。华为 iMaster NCE-Fabric 中创建 AWS VPCAWS 中同步出 VPC55TOLLY REPORT#222112ZH 思科:思科 Nexus Dashboard Orchestrator 也持配合部署在公有云中的 APIC 对公有云和私有云间业务进编排。思科案需要在公有云部署思科虚拟设备,占公

100、有云资源。对 AWS VPC 的编排华为 MDC 通过 IPsec 统模型编排与公有云对接,私有云与 AWS 之间持通过 IPsec 通信56TOLLY REPORT#222112ZH6 Day2 监控排障 6.1 测试法 Day2 监控排障场景是指在 Day1 业务发放成功后,通过对客户业务意图的监控,保障业务正常运,具体包括意图翻译、监控可视、隐患排查、异常识别、问题定界、问题定位、修复案、仿真决策、业务恢复、业务验证等环节。Tolly 认为,评价数据中动驾驶络 Day2 监控排障阶段 L3.5 等级平,应该重点关注以下个:输如监控租户、业务流、KPI 等业务意图,系统动转换监控规则建议;

101、潜在故障和隐患对业务的影响可视,系统动学习如相关性、阈值、AI 模型等规则/策略并动识别故障;系统预测络状态趋势,定性粗略识别潜在渐变类隐患(如某端可能发弱光故障)。系统动学习如知识库、故障传播图等规则/策略,并动定界定位;对系统给出个或多个疑似原因并排序的结果进确认,系统动成备选案;基于实时数据在线评估,给出评估结果,决策最优案,系统动验证业务,动成报告。57TOLLY REPORT#222112ZH6.2 测试结论 Tolly 经过测试组发现,华为 CloudFabric 和 Cisco IBN 解决案均具有监控排障的功能,但是华为CloudFabric 在配置信息快照对和系统的健康度评估

102、体系等优于 Cisco。本章节华为 CloudFabric 案的所有结果均通过了 Tolly 程师的验证。由于本次测试没有安装思科 Nexus Dashboard Insights,思科相关结果采思科公开的资料,结果不提供截图。分类华为 CloudFabricCisco IBN(Data Center)络可视1、三层互视:持在拓扑图展示应、物理和逻辑三层络以及他们之间的映射关系;持在物理拓扑中查找设备信息,定位虚拟机位置;持全局查找虚拟机 2、设备管理 KPI 可视:(a)设备维度 CPU/内存、防墙 IPv4 会话数可视(b)单板维度 CPU/内存、防墙 IPv4 会话数、FIB/MAC/A

103、RP/ND 表项利率可视,其中 FIB/ARP/ND 表持查看各 VRF 的分布、MAC 表持各 BD 的分布(c)芯维度 TCAM 资源利率可视(d)接维度接收发包/收发字节、播/组播/单播收发包数、丢包/错包数、收发带宽可视(e)队列维度持微突发可视,持关联分析拥塞时的丢包五元组信息详情(f)光链路维度持全光模块的收发功率、电流、电压、温度可视 3、设备转发 KPI 可视:(a)基于 Telemetry 秒级感知和采集设备转发表项详情,包括 ARP/ND/IPv4/IPv6 等表项明细(b)设备 Running Config 可视,持在 Running Config 发变更时进动同步 4、

104、设备转发表项可视:持按设备查看 ARP 表项明细信息,ND 表项明细信息,IPv4 路由表项明细信息,IPv6 路由表项明细信息;持按周期存储 ARP 表项,ND 表项,IPv4 路由表项,IPv6 路由表项的历史快照 5、设备运配置可视:持按设备查看设备的配置信息,持按周期存储设备的配置快照,持不同快照的差异对能 6、RoCE KPI 可视:收/发 PFC 反压帧数、PFC 死锁监控数、PFC 死锁恢复数、ECN 报 7、络快照对(ChangeDiff):基于拓扑、配置、路由/ARP 等表项、KPI 等数据进设备快照采集、管理、差异化对分析,从帮助客户定界故障。a.变更前后信息采集:采集变更

105、前快照(络拓扑、running config、ARP 表项、ND 表项、IPv4 路由表项、IPv6 路由表项、流量/CPU/内存等 KPI 数据);b.变更检测:基于算法识别变更前后快照差异,识别变更详情;c.变更汇总:对所有变更设备的变更进汇总,给出分析结论 8、络搜索 Netsearch:持键检索络任意对象(50+络本体资源/配置/表项/志/issue 等)、任意 IP 对的络路径;持搜索结果的智能排序推荐;持搜索结果的络拓扑呈现;持搜索对象的 360 关联信息呈现。可以有效提升络变更前数据收集的效率、业务报障时故障的快速检索定位1、三层互视:不持应络、逻辑络、物理络互视 2、设备 KP

106、I:持通过 Telemetry 协议对各性能指标采集并图形化展示 3、资源容量:持 TCAM、逻辑资源、端、带宽等容量统计 4、持协议状态可视 5、持主机 IP 可视(但不持 IP 快照和差异化对)6、不持 RoCE 络的 KPI 监控 7、不持设备表项明细的监控,持络快照的采集和差异化对,但是络快照的内容相华为 iMaster NCE-FabricInsight 较少,仅有策略差异、异常数量差异和少量资源使数量差异等信息 8、不持全的络搜索总结:华为 CloudFabric 持应、物理、逻辑三层络互视,持定位虚拟机位置及全局查找虚拟机,有利于从应的度定位络问题,持 RoCE KPI 质量可视

107、;Cisco IBN 均不持。58TOLLY REPORT#222112ZH分类华为 CloudFabricCisco IBN(Data Center)流量可视1、TCP Flow 可视:TCP 控制报路径可视化:(a)持全对 TCP SYN、FIN、RST 控制报的数据采集能和存储能(b)持按不同的报查看络转发路径,TCP 数据报路径可视化(c)持指定范围的 TCP 报转发路径可视化 2、UDP Flow 可视:持指定范围的 UDP 报转发路径可视化 3、组播业务流转发路径可视化、丢包分析 4、络流量可视:持按从设备、接、协议、会话、主机、应等多种维度对络流量进统计和分析,识别流量分布和趋势

108、1、TCP/UDP Flow 可视:持,包括路径可视、丢包/时延可视 2、组播流量可视:不持 3、持络流量可视总结:华为 CloudFabric 持 TCP/UDP/组播等流量可视化,类型丰富于 Cisco IBN。异常检测1、环路检测:对 VXLAN 络中可能存在的环路现象,控制器可以检测出络中的环路故障点,并提供给管理员破除环路的段。持检测的环路类型有单设备单端环路、单设备多端环路、跨设备环路多种 2、设备异常检测:持通过机器学习算法,基于历史数据,通过机器学习算法训练出络设备 KPI 的动态基线,如 CPU/内存利率、接收/发包数等指标;持基于动态基线并结合 KPI 指标的变化量实现络设

109、备KPI 指标的异常为检测 3、络设备丢包检测:持因队列 buffer 拥塞导致的业务报丢弃的检测,并展示因拥塞丢弃的五元组信息;持因设备转发异常,ACL 等原因导致的丢包检测能,检测种类持查表失败,报检查,端检测等 200+种类型;并展示具体丢弃的五元组信息,以及丢弃的明细原因;持 remark 染丢包定位 4、络设备转发时延检测:持业务流转发路径上的逐跳时延检测;持基于业务流的逐跳时延检测络链路的时延 5、单播业务流丢包检测:持对指定业务流进丢包检测;业务流类型覆盖 TCP,UDP 6、组播丢包检测:持对组播业务流的丢包检测;持对组播组的丢包检测 7、单播业务流时延检测:持对指定业务流进的

110、络转发时延检测;业务流类型覆盖 TCP,UDP 8、组播业务流转发时延检测:持对组播业务流进的络转发时延检测 9、TCP 业务连接类异常检测:持 TCP 建链失败的异常检测,覆盖 TCP SYN 重传,SYN-ACK 重传,RST 等原因;持对 TCP 建链异常流的 Overlay 转发路径展示,包括 BD,VRF,L3VNI 等信息,并持基于Overlay 转发路径进键式定位能,给出可能的原因1、持 KPI 的异常检测(静态阈值、AI)2、持异常检测,如连通性分析、丢包、时延等 3、环路检测:不持环路检测及键破环 4、组播异常检测:持组播协议异常检测,基于流的路径丢包时延等检测总结:华为 C

111、loudFabric 持环路检测和基于机器学习的动态基线异常检测;思科 IBN 不持环路检测和键破环,设备异常仅持基于静态阈值检测。59TOLLY REPORT#222112ZH分类华为 CloudFabricCisco IBN(Data Center)络健康度1、评估体系:设备、络、协议分析、Overlay、应流五层建模,构建健康度评估体系,并持导出健康度评估报告,撑常运维。2、持对络隐患预测的险评估(五层四维):1)性能负载类:Eth-Trunk 链路负载不均、Leaf 设备上链路负载不均、接链路拥塞、CPU/内存持续增、超险阈值 2)可靠性:设备可靠性降级(硬件冗余备份)、络可靠性降级(

112、互联降级、Eth-Trunk 成员链路断开)、协议可靠性降级(FullMesh 邻居降级)3)致性:相同设备款型软件版本致、相同设备/型号资源模型致、ServerLeaf 连接 Server 端配置致、物理链路配置致性、运时配置与启动配置的致性、M-LAG 配置致性、接管理态运态致性 4)络稳定性:接丢包/错包持续增、设备硬件状态变化、链路状态变化、协议状态变化 3、持对络链路级 SLA 的评估:基于络按需选择设备编排路径进 Underlay 拨测,实现指定链路的质量监控,络内每条链路丢包及时延并进可视化呈现 4、络微突发画像:针对络微突发进画像分析,包括微突发分布、历史特征分析、离群分析、与

113、丢包带宽等关联影响评估体系:系统的整健康度评估体系,聚焦于异常现象数量/统计分布、存量统计 持监控各类异常现象(事件)持存量资源利率评估 不持系统性的络险评估,如性能负载、可靠性、致性等(络隐患预测性分析)不持对络链路级 SLA 的评估 不持络指标画像(仅持微突发记录可视)总结:华为 CloudFabric 持设备、络、协议分析、Overlay、应流五层建模系统的评价络健康度的体系,思科 IBN 系统的健康度评估体系,仅聚焦于异常现象数量。华为 CloudFabric 持对络隐患预测的险评估、持对络链路级 SLA 的评估、持对络微突发进画像分析;未 Cisco IBN 有此络评估和分析功能。6

114、0TOLLY REPORT#222112ZH分类华为 CloudFabricCisco IBN(Data Center)全量故障 分析、已知故障 1-3-5 90+常故障 1-3-5,包括设备类、络类、协议类、Overlay 类和业务类。20+种故障持闭环 1、设备类:(a)设备状态类异常检测:整机/单板/扇/电源硬件故障、层环路、堆叠故障(b)设备性能类超阈值异常检测:交换机 CPU/内存、防墙 CPU 或 IPV4 会话超阈值(c)设备性能类异常增检测:基于动态基线识别交换机 CPU/内存、防墙 CPU/内存的异常增(d)设备表项类超阈值异常检测:交换机 FIB4/FIB6/ARP/ND/

115、MAC/ACL 表项超阈值(e)设备表项类异常增检测:基于动态基线识别交换机 FIB4/FIB6/ARP/MAC 表项异常增(f)异常志数量异常增检测:基于 AI 智能识别志突变异常,主动预警 2、络类:(a)络状态类异常检测:光链路亚健康、端状态震荡、端 error-down、互联链路单通、端假死、IP 地址冲突(b)络性能类异常检测:端拥塞导致业务受损、流量预测越限(c)络策略类异常检测:ARP 攻击、ND 攻击(d)络意图类异常检测:链路端指标不致、路由环路、路由洞 3、协议类:(a)协议状态类异常检测:OSPF/BGP/M-LAG 状态检测(b)协议容量类异常检测:从 BGP 邻居收到

116、的路由数量超限 4、Overlay 类:(a)协议状态类异常检测:OSPF/BGP/M-LAG 状态检测(b)协议容量类异常检测:BGP 邻居收到的路由数量超限 5、业务类:(a)业务连接类异常检测:接侧单 IP 异常、服务器接异常、TCP 服务端异常、TCP 服务端未打开(b)业务策略类异常检测:TCP SYN Flood 攻击(c)业务意图类异常检测:业务可达性/隔离性意图验证不通过、持对络中设备进设备替换(持不同型号)/故障类操作前的业务影响性分析,统计并展示设备替换/故障所影响的业务(包括接业务、出业务和安全业务)以及业务的详情。三、持分析器和控制器联动,故障 1 分钟定界,3 分钟定

117、位,5 分钟修复,持故障的闭环,包括配置变更影响分析,修复策略下发。四、未知故障聚合溯源 持基于全量 Syslog、异常 KPI、已知 Issues 结合知识图谱,进故障聚合、推理与溯源,只上报根因故障,呈现根因事件引起的衍事件、故障传播路径。五、基于络快照对 TCP 业务流进排障,基于 underlay 和 overlay 对转发路径建模,结合专家知识库,键式定位连接类问题持异常分析,包括资源、事件、KPI、流等维度,持异常事件查看、管理等能(异常范围与管理能与华为 iMaster NCE-FabricInsight 类似)不持设备替换影响性分析 闭环 case 少:Nexus Dashbo

118、ard Insights 持和 APIC 控制器联动完成故障闭环,但仅有 2 个 case 不持多事件聚合溯源:持故障的相关性根因分析,不持多故障按照根因聚合呈现 总结:华为 iMaster NCE-FabricInsight 持对络中的设备替换及故障操作前后的业务影响性分析,持 20+种故障的交互式故障闭环处理。思科 APIC 和 Nexus Dashboard Insights 仅持 2 种故障的故障闭环。华为 iMaster NCE-FabricInsight 持基于全量 Syslog、异常 KPI、已知 Issues 结合知识图谱,进故障聚合、推理与溯源,只上报根因故障,呈现根因事件引

119、起的衍事件,持络快照管理。思科 Nexus Dashboard Insights 持故障的相关性根因分析,不持多故障按照根因聚合呈现。61TOLLY REPORT#222112ZH分类华为 CloudFabricCisco IBN(Data Center)业务保障1、业务报障诊断(Troubleshoot)持业务流的络转发路径、络路况(路径上逐跳故障、拥塞/丢包/错包等质量数据、流量/带宽利率/CPU/内存利率等 KPI 指标、接状态等)叠加呈现;络路径路况服务开放,与 APM 系统对接实现应络体化运维,应类问题键下钻分析溯源,业务报障快速定界定位。(场景1)业务连通性问题诊断(a)键式连通性

120、诊断:持基于络快照、流路径建模、专家排障经验对 TCP 业务流进排障。基于 Overlay 转发路径建模,以及基于专家经验梳理的连通性问题排障树,键式定界业务连通性问题(b)业务连通性意图验证:持基于意图验证(DPV)对业务连通性进快速排障定界,直接给出通断类问题原因,如路由缺失、环路、被安全策略阻断等原因(c)络快照对(ChangeDiff):基于拓扑、配置、路由/ARP 等表项、KPI 等数据进设备快照采集、管理、差异化对分析,从帮助客户定界故障。1.变更前后信息采集:采集变更前快照(络拓扑、running config、ARP 表项、ND 表项、IPv4 路由表项、IPv6 路由表项、流

121、量/CPU/内存等 KPI 数据);2.变更检测:基于算法识别变更前后快照差异,识别变更详情;3.变更汇总:对所有变更设备的变更进汇总,给出分析结论(场景2)业务质差类问题诊断(a)边缘智能质差定界:持基于 CE 设备边缘智能特性,对指定业务流进监控分析,包括流转发路径、丢包、时延、异常定界。持历史数据回溯,快速帮助户定界质差问题(b)络拨测:持基于 IP 对、原宿交换机节点对转发路径进全链路覆盖的络质量拨测;持拨测路径定义编排;持端到端丢包/时延检测、异常位置的逐跳定界;持跨第三设备。帮助业务质差类问题的快速诊断定界 2、业务运维保障 持基于 5 层 50+建模的络知识图谱、络转发建模、业务

122、流、接主机等信息构建运维数据底座,保障业务运维(a)应络体化运维:络路径路况服务开放,与 APM 系统(Netis 天旦)联动实现应络体化运维,包括应质量监控、告警(如交易响应率下降等);以及应故障的定界,应类问题键下钻分析溯源,业务报障快速定界定位(b)意图验证:持基于络数据对络、业务意图验证,包括业务连通性(可达性/隔离性)、路由环路/洞检测、链路配置致性等;持跨 DC 跨 Fabric 的意图验证;持过防墙过负载均衡(LB)的意图验证。可以有效保障络变更前后的 VIP 重保业务(c)络搜索 Netsearch:持键检索络任意对象(50+络本体资源/配置/表项/志/issue 等)、任意

123、IP 对的络路径;持搜索结果的智能排序推荐;持搜索结果的络拓扑呈现;持搜索对象的 360 关联信息呈现。可以有效提升络变更前数据收集的效率、业务报障时故障的快速检索定位(d)IP 360:主机可视 IP360:持可视化在线主机 IP、主机接位置(IP、VLAN、接 ToR 设备和接、关、VPN)、历史轨迹、IPv4 地址分布、利率等,持主机 IP 络快照采集和差异化对(f)志可视管理 LogInsight:基于时间维度呈现设备 0-4 级异常志数量趋势,异常志 TOP 分析,包括设备与特性维度的排名,多维度的异常志检索查询能持流可视,包括路径、丢包、时延可视,与华为 iMaster NCE-F

124、abricInsight 的流分析能类似 持络快照的采集和差异化对,但是络快照的内容相华为 iMaster NCE-FabricInsight 较少,仅有策略差异、异常数量差异和少量资源使数量差异等信息 持业务连通性意图验证 持应络体化运维,持 AppDynamics 对接 持主机可视,包括接位置、历史轨迹,但是 IP 快照关联与差异化对能 Troubleshoot 基于络快照的对分析和连通性意图验证等,有基于流路径、路况有限(微突发)的分析 络拨测能 全的络搜索能总结:华为 CloudFabric 持络路径路况分析可视,辅助业务报障时的故障诊断定界,同时针对业务通断、质差问题分别提供了智能诊

125、断能,包括键式连通性排障、意图验证、边缘智能、络拨测;在业务运维保障,华为 CloudFabric 持与 APM 系统对接,实现应络体化运维,同时持意图验证、络搜索、IP360 等能,辅助变更前后的业务运维保障。Cisco Nexus Dashboard Insights 在业务报障场景,提供快照对分析,路径路况叠加、络拨测的智能诊断能;此外,不持全的络搜索能,IP 地址不持快照对分析。62TOLLY REPORT#222112ZH分类华为 CloudFabricCisco IBN(Data Center)多 DC 络分析持多 DC 流量分析:跨 DC/Fabric 业务流量互访分析,跨 DC

126、/Fabric 络互联的专线/VPN/出Internet 分析,评估络热点流量异常和趋势分析 持多 DC 质量检测:按需拨测,检测跨 DC 络质量 持多 DC 故障定位:跨 DC 的 10+Issues 主动上报,给出问题根因 持多 DC 意图验证:跨 DC DPV 业务连通性验证 提供统的运维,次户名密码即可登陆管理全数据不持跨 DC 流量分析、跨 DC 质量检测、跨 DC 故障定位和跨 DC 意图验证 持统运维总结:华为 iMaster NCE-FabricInsight 持跨 DC 流量分析、跨 DC 质量检测、跨 DC 故障定位和跨 DC 意图验证,持统运维。Cisco Nexus D

127、ashboard Insight 不持跨 DC 流量分析、质量检测、故障定位和意图验证。63TOLLY REPORT#222112ZH6.3 测试条 6.3.1 络可视 6.3.1.1 三层互视 数据中络解决案包括应拓扑、逻辑拓扑和物理拓扑,三层络拓扑相互关联。华为:华为 iMaster NCE-Fabric 中可以将应、逻辑和物理组关联展示,并显示映射关系。数据中络规模庞,相互映射的三层络拓扑可以便管理员定位设备、配置或故障。思科:思科 APIC 中的应拓扑、逻辑拓扑和物理拓扑在不同的界,法显示映射关系。应拓扑逻辑拓扑映射关系逻辑拓扑物理拓扑映射关系64TOLLY REPORT#222112

128、ZH6.3.1.2 设备 KPI 可视 设备监控涉及到各个层级的 KPI,以保障络和业务的运。华为:华为 iMaster NCE-FabricInsight 持通过 Telemetry 协议对设备、单板、芯、接、和队列等性能指标采集并图形化展示。思科:思科 Nexus Dashboard Insights 也持通过 Telemetry 协议对设备、端等性能指标采集并图形化展示。设备 单板 芯 接 队列 光链路 RoCE当前视图为设备级 KPI 的 CPU 利率展示65TOLLY REPORT#222112ZH6.3.1.3 RoCE KPI 可视 华为:华为 iMaster NCE-Fabri

129、cInsight 持对 RoCE 络的 KPI,包括收/发 PFC 反压帧数、PFC 死锁监控数、PFC 死锁恢复数、ECN 报等的监控和可视化呈现。思科:未思科 Nexus Dashboard Insights 对 RoCE 络的 KPI 监控能。队列 KPI 中持对各 PFC 报的监控数据呈现持的各 PFC 报信息不同时间段 RoCE 相关性能的对66TOLLY REPORT#222112ZH6.3.1.4 络变更展示 华为:华为 iMaster NCE-FabricInsight 持定期备份络已资源快照,展示 FIBv4 表项、ARP 表项、ND 表项,KPI,业务流量等的变更详情,以及

130、展示具体的配置变化内容;持按需选择两个设备对,基于算法识别变更前后快照差异,识别变更详情。思科:持络快照的采集和差异化对,但是络快照的内容相华为 iMaster NCE-FabricInsight 较少,仅有策略差异、异常数量差异和少量资源使数量差异等信息。设备配置变更对设备 IPv 路由表变更呈现67TOLLY REPORT#222112ZH6.3.2 流量可视 6.3.2.1 业务流可视 华为:华为 iMaster NCE-FabricInsight 持对 TCP 流、UDP 流以及组播流路径及统计信息的监控。思科:Tolly 程师找到了思科 Nexus Dashboard Insight

131、s 持 TCP 和 UDP 流可视的信息,但未找到持组播流可视的信息。TCP 流UDP 流组播流68TOLLY REPORT#222112ZH6.3.2.2 络流量可视 华为:华为 iMaster NCE-FabricInsight 持按从设备、接、协议、会话、主机、应等多种维度对络流量进统计和分析,识别流量分布和趋势,帮助运维员快速识别异常,合理分配资源。总览Top 接流量Top 设备流量Top 会话Top 源主机Top 的主机每端各会话流量统计各主机流量统计各会话流量统计69TOLLY REPORT#222112ZH6.3.3 异常检测 6.3.3.1 环路检测 华为:环路为络中常严重的故

132、障。华为 iMaster NCE-Fabric 持检测 VXLAN 络中可能存在的环路现象及故障点,并提供给管理员破除环路的段。持检测的环路类型有单设备单端环路、单设备多端环路、跨设备环路多种。思科:未思科 IBN 案持对环路的检测并键消除环路。疑似环路引起环路端键端隔离破环端被成功隔离70TOLLY REPORT#222112ZH6.3.3.2 设备异常检测 华为:华为 iMaster NCE-FabricInsight 持基于静态和动态基线进异常检测,可以通过静态基线避免设备负载超过极限,通过动态基线检测异常现象。思科:思科 Nexus Dashboard Insights 只持基于静态基

133、线检测设备异常。静态基线为橙,设为 80%极限值,防过载,由于例尺原因未显示。灰部分为动态基线,根据历史数据学习动成,记录异常现象71TOLLY REPORT#222112ZH6.3.4 络健康度 6.3.4.1 评估体系 华为:华为 iMaster NCE-FabricInsight 基于设备、络、协议、Overlay、应流五层建模,构建健康度评估体系并持实时导出或定期推送健康度评估报告,撑常运维。整健康度设备络协议Overlay应72TOLLY REPORT#222112ZH 导出的健康度报告待处理问题73TOLLY REPORT#222112ZH6.3.4.2 络险评估 华为:华为 iM

134、aster NCE-FabricInsight 持基于 AI 知识图谱的络险预测,包括络可靠性、性能负载、资源容量、配置致性、络稳定性 5 个维度的系统化险评估模型。可靠性险致性险性能险险列表74TOLLY REPORT#222112ZH6.3.4.3 络 SLA 评估 华为:华为 iMaster NCE-FabricInsight 持基于络按需选择设备编排路径进 Underlay 拨测,实现指定链路的质量监控,络内每条链路丢包及时延并进可视化呈现。时延阈值设为 30s 时,多条毫秒级时延链路在拨测结果中判定为故障75TOLLY REPORT#222112ZH6.3.4.4 络指标画像 华为:

135、华为 iMaster NCE-FabricInsight 持对络微突发进画像分析,包括微突发分布、历史特征分析、离群分析、与丢包带宽等关联影响呈现,便管理员深了解络中的该现象。76TOLLY REPORT#222112ZH6.3.5 全量故障分析 6.3.5.1 常故障 1-3-5 闭环 华为:常故障 1-3-5 闭环包括设备类、络类、协议类、Overlay 类和业务类。1)设备类事件:华为 iMaster NCE-FabricInsight 持评估交换机整机故障、交换机交换板故障、交换机 FIBv4 表项超阈值、路由环路、交换机芯软失效导致的流异常故障、交换机路由表硬表丢失导致的业务异常故障

136、。交换机整机故障交换机交换板故障交换机 FIBv4 表项超阈值路由环路交换机芯软失效导致的流异常故障交换机路由表硬表丢失导致的业务异常故障本图以路由环路为例,显示完整的故障呈现和分析界77TOLLY REPORT#222112ZH2)络类事件:链路闪断、端拥塞导致业务受损、疑似光链路故障。3)协议类事件:跳异常导致 CE 交换机 MLAG 成双主状态、OSPF router ID 冲突的发现、定位、恢复、BGP 邻居法建。4)Overlay 类事件:VXLAN 隧道中断,配置异常导致业务中断。5)业务类事件:络接侧 IP 地址冲突、TCP SYN Flood攻击。思科:思科 Nexus Das

137、hboard Insights 聚焦于异常现象数量,持各类异常现象(事件)的监控。链路闪断疑似光链路故障端拥塞导致业务受损跳异常导致 CE MLAG 成双主状态OSPF router ID 冲突的发现、定位、恢复BGP 邻居法建VXLAN 隧道中断,配置异常导致业务中断络接侧 IP 地址冲突TCP SYN Flood攻击78TOLLY REPORT#222112ZH6.3.5.2 设备替换/故障影响性分析 华为:华为 iMaster NCE-Fabric 持对络中设备进设备替换(持不同型号)/故障类操作前的业务影响性分析,统计并展示设备替换/故障所影响的业务(包括接业务、出业务和安全业务)以及

138、业务的详情。思科:未发现思科 IBN 案对络中设备进替换的业务影响性分析的能。设备替换影响性分析接业务出业务安全业务79TOLLY REPORT#222112ZH6.3.5.3 故障联动闭环 华为:华为 iMaster NCE-FabricInsight 分析器和 iMaster NCE-Fabric 控制器持联动,故障 1 分钟定界,3 分钟定位,5 分钟修复。20+种故障持联动闭环,包括配置变更影响分析,修复策略下发。iMaster NCE-Fabric 闭环操作的事件管理界键跳转 iMaster NCE-FabricInsight 分析器查看事件详情iMaster NCE-Fabric

139、推荐排障案80TOLLY REPORT#222112ZH 思科:思科 Nexus Dashboard Insights 持和 APIC 联动完成故障闭环,但仅持 2 种故障。iMaster NCE-Fabric 中确认实施排障案故障已被排除81TOLLY REPORT#222112ZH6.3.5.4 未知故障定位 华为:华为 iMaster NCE-FabricInsight 持基于全量 Syslog、异常 KPI、已知 Issues 结合知识图谱,进故障聚合、推理与溯源,只上报根因故障,呈现根因事件引起的衍事件。根因分析及故障传导路径82TOLLY REPORT#222112ZH6.3.5.

140、5 TCP 业务流基于络快照分析进排障 华为:华为 iMaster NCE-FabricInsight 持基于络快照对 TCP 业务流进排障。基于 Overlay 转发路径建模,以及转发模式,键式定位连接类问题的故障定位能。TCP 业务流络故障定位可能的故障故障路径正常路径83TOLLY REPORT#222112ZH6.3.6 业务保障 6.3.6.1 络路况直播 华为:华为 iMaster NCE-FabricInsight 持络路况直播服务开放,与天旦 BPC 系统对接,应类问题键下钻,故障快速定界定位。天旦 BPC 系统,监控应性能。点击应间链路可跳转华为 iMaster NCE-Fa

141、bricInsight 中的对应应路径跳转后显示的应络路径84TOLLY REPORT#222112ZH6.3.6.2 NetSearch 统搜索 华为:华为 iMaster NCE-FabricInsight 持基于知识图谱提供统的络数据搜索引擎,键动推荐关联结果。统搜索 各关联信息搜索个 IP85TOLLY REPORT#222112ZH6.3.6.3 业务保障 APP 华为:华为 iMaster NCE-FabricInsight 中还提供些内置运维 APP(版):例如 IP 360 和 LogInsight。IP 360:整 IP 地址分析,提供虚拟机 IP 地址在整的接地点等历史记录

142、,以及快照对。LogInsight:Syslog 志分析具。思科:持主机可视,包括接位置、历史轨迹,但是 IP 快照关联与差异化对能。IP 矩阵显示每个 IP 的状态每个 IP 的历史轨迹两个络快照的对显示新上线、下线、迁移以及变化的 IP86TOLLY REPORT#222112ZH6.3.7 多 DC 络分析 6.3.7.1 多 DC 流量分析 华为:华为 iMaster NCE-FabricInsight 持跨 DC/Fabric 业务流量互访分析,跨 DC/Fabric 络互联的专线/VPN/出 Internet 分析,评估络热点流量异常和趋势分析。跨 DC/Fabric 流量可视化跨

143、 DC/Fabric 流量列表87TOLLY REPORT#222112ZH6.3.7.2 多 DC 质量检测 华为:华为 iMaster NCE-FabricInsight 持按需拨测,检测跨 DC 络质量。跨 DC/Fabric 按需拨测88TOLLY REPORT#222112ZH6.3.7.3 多 DC 故障定位 华为:华为 iMaster NCE-FabricInsight 持跨域 10+Issues 主动上报,给出问题根因。跨 DC/Fabric 待处理 Issue 根因分析89TOLLY REPORT#222112ZH6.3.7.4 多 DC 意图验证 华为:华为 iMaster

144、 NCE-FabricInsight 持跨 DC 业务连通性验证。跨 DC/Fabric 的源和的间连通性验证结果显示跨 DC/Fabric 的路径90TOLLY REPORT#222112ZH6.3.7.5 统运维 华为:华为 iMaster NCE-FabricInsight 持提供统的运维,次户名密码即可登陆管理全数据。从个 iMaster NCE-FabricInsight 可以跳转多个 iMaster NCE-FabricInsight 的91TOLLY REPORT#222112ZH7 DayN 变更优化 7.1 测试法 DayN 变更优化包括络变更和优化调参。络变更是指对根据变更

145、诉求,评估变更影响的范围和约束条件,完成备选案设计,对变更案评估后实施并进验证等,具体包括意图评估、案设计、评估决策、变更实施、业务验证等环节,流程如下图所示。92TOLLY REPORT#222112ZH优化调参是指根据识别的性能异常或劣化预测信息,并结合络运监测情况,进问题定界定位,成最优案,评估决策后实施络并进验证,以提络运的效率。它主要包括意图翻译、劣化预测、优化识别、问题定界、问题定位、案成、评估决策、案实施、业务验证等环节,流程如下图所示。Tolly 认为,评价数据中动驾驶络 DayN 变更优化阶段 L3.5 等级平,应该重点关注以下个:络变更:针对关键变更场景系统动评估业务影响,

146、动输出变更约束条件;系统基于历史或实时数据在线评估验证,分析决策最优案;系统动对络快照,动进业务测试,系统动值守,发现异常纠偏。络优化:输业务意图系统动转换监控规则建议;系统动学习规则/策略,预测络状态趋势;系统动学习规则/策略并动定界定位,基于编排策略和在线推理等动成备选案;基于实时数据在线仿真验证,分析决策最优案,系统动验证业务。93TOLLY REPORT#222112ZH7.2 测试结论 Tolly 经过测试组发现,华为 CloudFabric 和 Cisco IBN(Data Center)均具备络变更优化的能,但是华为 CloudFabric 接容量预测,RoCE 流量智能调优以保

147、证零丢包等更优。分类华为 CloudFabricCisco IBN(Data Center)预测性维护1、接扩容:接流量预测,预测周期为未来 12 周,并联动控制器进扩容 2、设备升级和补丁1、不持接流量预测 2、持设备升级和补丁总结:华为 CloudFabric 持接流量预测,并联动控制器进扩容。智能损 DCN1、RoCE 参数调优:(a)根据流量模型适应调整 ECN 线参数。保障 RoCE 业务在各种流量模型下端带宽利率能达到 90%以上,并且零丢包(b)持 IQCN,持针对 CNP 响应不及时补发 CNP,实现拥塞避免(c)持 VXLAN 场景,ECN 内外层拷,感知underlay 拥

148、塞 2、死锁检测和预防:spine 和 leaf 持 PFC 死锁检测和预防功能,检测周期可配置,针对 U 型流量进破环,避免产 PFC 死锁 3、RoCE&TCP 混跑:持 RoCE 与 TCP 流量的按例调度,调度例误差控制在整端带宽的 5%内 4、NVMe over Fabric(集中式存储场景):(a)持即插即:计算和存储上线根据络规划,动建链接 1s1(b)持故障快速切换:跨设备多路径快速切换 1s(c)持故障隔离:接服务器故障导致 PFC 暴时进路径切换 5、SDN 纳管 AI Fabric:iMaster NCE-Fabric 持配置 AI Fabric 参数 6、智能距损:同城

149、双活场景最持 200G*100KM1、RoCE 参数调优:仅持静态调整 ECN 线参数 2、PFC 暴/死锁检测和预防:仅持PFC暴死锁检测,不持死锁预防 3、RoCE&TCP混跑:持 4、距损特性未知总结:华为 CloudFabric 智能损络持对 ECN 的参数进适应调整,持死锁检测和预防,持 RoCE 和TCP 流量混跑,持 NVMe over Fabric 即插即、故障快速切换、故障隔离等功能,iMaster NCE-Fabric 持配置 ECN 参数;思科 IBN 仅持静态调整 ECN 参数,不持死锁预防。Flex-Buffer持 Flex-Buffer 算法,给流动态分配更多的 B

150、uffer 于吸收 burst,提升 TCP 流的完成时间持智能缓存管理总结:华为 CloudFabric 持 Flex-Buffer 算法,动态给流动态分配更多的 Buffer 于吸收 burst,提升 TCP 流的完成时间。云协同-确定性 SLA实现跨 DC 之间业务按照业务诉求不同的 SRv6 隧道,提供隧道感知能,保障跨云业务确定性 SLA基于 SR-MPLS 隧道总结:华为 CloudFabric 持跨 DC 之间业务按照业务诉求不同的 SRv6 隧道,保障业务跨云确定性 SLA。备注:1.主机发起建链任务,1s 内收到交换机返回的建链信息。94TOLLY REPORT#222112

151、ZH7.3 测试条 7.3.1 预测性维护 华为:华为 iMaster NCE-FabricInsight 分析器持预测接未来流量。95TOLLY REPORT#222112ZH7.3.2 智能损 DCN 7.3.2.1 RoCE 参数调优 华为:华为 CloudEngine 数据中交换机持根据流量模型适应调整 ECN 线参数。保障 RoCE 业务在各种流量模型下端带宽利率能达到 90%以上,并且零丢包。测试采如下拓扑,RDMA_Write BW Test 测试从 S1-S4 以及 S6-S9 往 S5 打流。测试使能了所有交换机上的 AI-ECN 功能。结果显示,AI-ECN 保障了测试流的

152、端 S5 的带宽利率近 100%,8 条流每条的吞吐量约为 3Gbps。1024 字节测试时延为 7.5 微秒,32768 字节测试时延为 73 微秒。思科:思科 Nexus 9000 系列交换机只持静态调整 ECN 线,不持适应调整。Leaf3 交换机连接的端 S5 的端,出向利率 100%96TOLLY REPORT#222112ZH7.3.2.2 PFC 暴/死锁检测 PFC 暴可能引起络瘫痪,需要及时获得告警并尝试恢复。PFC 暴可能由卡或交换机故障引起,也可能由 PFC 死锁(PFC DeadLock)引起。PFC 死锁是指当多个交换机之间因为环路等原因同时出现拥塞,各端缓存消耗超过

153、阈值,相互等待对释放资源,从导致所有交换机上的数据流都永久阻塞的种络状态。华为:华为 CloudEngine 数据中交换机持 PFC 暴/死锁检测,可以检测出 PFC 暴(包括死锁原因引起的)并告警。华为 CloudEngine 数据中交换机同时也持检测出死锁后,进死锁恢复和控制。思科:思科 Nexus 9000 系列交换机也持通过 PFC Watchdog 功能检测 PFC 暴。PFC 死锁,流量阻塞PFC 死锁检测功能,检测出死锁,告警97TOLLY REPORT#222112ZH7.3.2.3 死锁预防 华为:华为 CloudEngine 交换机对些场景的死锁持死锁预防功能。Tolly

154、程师们组构建出如下 PFC 死锁场景,多条相同优先级的流量在络中引起了 PFC 死锁。华为 CloudEngine 数据中交换机的死锁预防功能可以通过改变部分流量优先级预防死锁,所有流量全程正常转发不丢包。思科:思科 Nexus 9000 系列交换机不持死锁预防功能。PFC 死锁预防功能,预防死锁,流量正常,全程丢包98TOLLY REPORT#222112ZH7.3.2.4 RoCE&TCP 混跑 华为:华为 CloudEngine 数据中交换机组持 RoCE 与 TCP 流量的按例调度,调度例误差控制在整端带宽的 5%内。测试采和 7.3.2.1 章节样的拓扑,从 S1-S4 以及 S6-

155、S9 往 S5 同时打 TCP 流和 RoCE 流。RoCE 和 TCP 流都尽抢占带宽,Tolly 程师测试了将 RoCE 流队列和 TCP 流队列设为 9:1、7:3、5:5、3:7、和 1:9 时,真实流量的情况。测试例 9:1 时,真实带宽占 RoCE:86.9%,TCP:13.1%测试例 7:3 时,真实带宽占 RoCE:67.4%,TCP:32.6%测试例 5:5 时,真实带宽占 RoCE:48.5%,TCP:51.5%测试例 3:7 时,真实带宽占 RoCE:29.2%,TCP:70.8%测试例 1:9 时,真实带宽占 RoCE:9.1%,TCP:90.9%。思科:思科 Nexu

156、s 9000 系列数据中交换机也持 RoCE 与 TCP 混跑。例9:1 时,8 条 RoCE 流的吞吐量例 9:1 时,8 条 TCP 流的吞吐量99TOLLY REPORT#222112ZH7.3.2.5 NVMe over Fabric 华为:华为 OceanStor Dorado 全闪存存储系统和华为 CloudEngine 数据中存储交换机持华为 NoF+案,持计算设备即插即连接存储、故障快速切换以及故障隔离。即插即:当存储络已配置好时,计算主机上线后,秒内收到存储建链通知,并能很快建链成功,访问存储。故障快速切换:计算节点映射到多个存储 LUN 时,当个 LUN 故障,其它 LUN

157、 承接业务。VDBench 的读写 IO 测试在存储故障中不受影响。VDBench 每秒输出测试结果,因此故障切换时间于 1 秒。故障隔离:当计算节点发送量 PFC 报时,华为 CloudEngine 数据中交换机会将计算节点连接的端置为 error down。流量被分担到别的链路。7.3.2.6 SDN 纳管 RoCE 络 华为:华为 iMaster NCE-Fabric 持通过配置模板下发 AI Fabric 相关命令到交换机。7.3.2.7 智能距损 华为:同城双活场景最持 200G RoCE 端 100KM 损能。7.3.3 Flex-Buffer 华为:流为时延敏感型业务且易 bur

158、st 丢包,丢包后的 TCP 重传(尤其是 RTO 重传)是影响其性能的主要因素。华为 Flex-Buffer 算法,重新定义了流标准,能更精准的区分队列,动态给流动态分配更多的 Buffer 于吸收 burst,提升 TCP 流的完成时间,测试中 TCP 应性能提升 21%。100TOLLY REPORT#222112ZH7.3.4 云协同-确定性 SLA 华为:华为 iMaster NCE-Fabric MDC 持实现跨 DC 之间业务,按照业务诉求进不同的 SRv6 隧道,保障业务跨云的确定性 SLA。思科:思科案跨站点 SLA 案基于 SR-MPLS 隧道。域需要基于 MPLS。配置

159、QoS 策略,绑定服务等级到 DSCP 值配置域东流量策略,特定 DSCP 值的流量进特定的 SRv6 隧道101TOLLY REPORT#222112ZH8 测试设备、版本 本次测试作为解决案测试,包含多款华为和思科设备以及组件,也包括配合测试的云计算平台、虚拟机管理平台、以及容器编排平台。受测设备及组件如下表所示。部分思科 IBN 案组件未测试,相关结果源公开披露的信息。产品版本华为 CloudEngine 16800 数据中交换机V200R021C00、V200R021C10华为 CloudEngine 12800 数据中交换机V200R021C00、V200R021C10华为 Clou

160、dEngine 6800 系列数据中交换机V200R021C00、V200R021C10华为 CloudEngine 8800 系列数据中交换机V200R021C00、V200R021C10华为 CloudEngine 9800 系列数据中交换机V200R021C00、V200R021C10华为 iMaster NCE-FabricV100R021C00、V100R021C10华为 iMaster NCE-FabricInsightV100R021C00、V100R021C10华为 USG6655E 防墙V600R007C00SPC200 Cisco N9K-C9364C 数据中交换机15.2

161、(2f)Cisco N9K-C9336C-FX2 数据中交换机15.2(2f)Cisco N9K-C93180YC-FX 数据中交换机15.2(2f)Cisco Application Policy Infrastructure Controller(APIC)V5.2(2f)OpenStackRocky 14.0.2Kubernetesv1.6+开源 calico v2.0VMware vCenter6.7.0.11000VMware ESXi6.7.0Microsoft Windows Server 2016 Data CenterMicrosoft Hyper-V4.0.1662.0Mi

162、crosoft System Center 2016 Virtual Machine Manager4.0.1662.0102TOLLY REPORT#222112ZH使条款 该档免费提供,可以在您调查某产品、技术或服务是否满的特殊需求时作为参考。购买任何产品时,您必须根据的需求对产品是否适进独的评判。本档不应取代资深IT或业务专业的建议。该项评估的重点在于阐明产品的具体特性和(或)性能,评估过程在可控的试验室条件下进。某些测试可能是为了反映产品在理想条件下的性能量身定制的,性能在实际环境中可能会有所不同。户应根据的实际场景进测试,以验证产品在他们络内可提供的性能。我们已经做了合理的努,确保档

163、中数据的准确性,但是不排除出现误差和(或)疏漏的可能性。档中介绍的测试和审核,可能还取决于各类测试具的准确性,具的准确性是我们法控制的。且,档还参考了赞助提供的我们法验证的某些描述。此外,被测试的软件或硬件向产环境,为商业户提供时,性能应该相当或更。同样,本按“原样”提供,Tolly Enterprises,LLC(Tolly)不对中所包含的任何信息的准确性、完整性、有性或适性做任何担保、表示或保证,论是明示的还是暗含的,也不承担任何直接或间接的法律责任。阅读本时,您同意承担使中所含信息可能带来的险,并接受因直接或间接使中信息或材料所导致的损失、损害、成本或其他后果的所有险和责任。Tolly

164、及其相关下属公司不承担因您使或依赖本档所包含任何信息引起的任何损失、伤害或损害的责任。Tolly 不评判本档中所描述的任何产品或公司是否适合投资。在进投资或实施与本所述任何信息、产品或公司有关的项时,您应听取法律、会计或其他的专业建议。如果有外翻译版本,档的英版本具有权威性。为了保证准确性,请使直接从 上下载的档。未经 Tolly 的明确书许可,不得复制本档,不管是全部还是部分。本使的所有商标均为各所有者的财产。您同意不在不属于我们的任何活动、产品或服务中部分或全部使我们的商标,也不以迷惑、误导或欺骗,或者可能会贬损我们或我们的信息、项或开发成果的式使我们的商标。关于 Tolly Tolly 集团公司超过 30 年来直致于提供世界流的 IT 服务。Tolly 是全球著名的服务提供商,为 IT 产品、组件和服务商提供领先的第三验证服务。您 可 以 发 送 电 邮 件 到,或致电+1 561.391.5610 与公司联系。敬请访问 Tolly 站:http:/222112 ivcofs54 yx-20220304-VerE关于华为 CloudFabric 数据中络解决案:https:/ 关于华为企业业务:https:/

友情提示

1、下载报告失败解决办法
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。

本文(Tolly:2022数据中心自动驾驶网络对比测试报告(102页).pdf)为本站 (X-iao) 主动上传,三个皮匠报告文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三个皮匠报告文库(点击联系客服),我们立即给予删除!

温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。
会员购买
客服

专属顾问

商务合作

机构入驻、侵权投诉、商务合作

服务号

三个皮匠报告官方公众号

回到顶部