《IDC:数据中心网络自动驾驶指数报告(30页).pdf》由会员分享,可在线阅读,更多相关《IDC:数据中心网络自动驾驶指数报告(30页).pdf(29页珍藏版)》请在三个皮匠报告上搜索。
1、 数据中心网络自动驾驶指数报告 IDC白皮书 目录 执行摘要执行摘要 .4 情况概述情况概述 .4 为什么组织需要一个数据中心网络自动驾驶 .4 当今数据中心网络挑战 .2 敏捷的障碍.3 数据中心网络自动驾驶数据中心网络自动驾驶指数报告指数报告 .4 数据中心网络自动驾驶数据中心网络自动驾驶指数报告指数报告 .5 前进之路:实现前进之路:实现数据中心网络自动驾驶数据中心网络自动驾驶的道路的道路.6 数据中心网络自动化现状 .8 数据中心网络自动驾驶数据中心网络自动驾驶调研结果调研结果 .8 数据中心组网挑战 .8 数据中心网络挑战数据中心网络挑战 .9 对无损、低时延的融合IP数据与存储网络
2、表示浓厚兴趣 .9 数据中心网络自动化:现状和计划 . 14 数据中心网络自动化等级 . 17 数据中心网络自动化:企业在网络自动化进程中最迫切的需求和寻找方向 . 19 数据中心网络自动化的主要障碍 . 21 完全自治的数据中心网络是一个共同的目标吗? . 22 如何开始、利用和提升自动驾驶级别如何开始、利用和提升自动驾驶级别 . 23 评估技术需求 . 23 评估技能集. 23 考虑组织结构和运作模式 . 23 借助可信的供应商和第三方的协助 . 23 华为数据中心网络自动驾驶解决方案 . 24 数据仓库 . 25 平台开放性 . 25 广泛的网络智能 . 25 关于关于IDC. 27 表
3、 表1:数据中心网络自动驾驶指数报告 . 5 表2:数据中心网络自动驾驶指数报告的前三个自动化级别到整个网络生命周期的需求的映射 . 7 图形 图1:数据中心网络挑战 . 9 图2:对无损、低时延、高性能的融合IP数据和存储网络的兴趣(按行业分列) .10 图3:对无损、低延迟和高性能的融合IP数据和存储网络的兴趣(按数据中心数量划分).11 图4:在12-24个月内部署无损、低时延、高性能的融合IP数据和存储网络的可能性(按行业划 分) .12 图5:在12-24个月内部署无损、低延迟、高性能的融合IP数据和存储网络的可能性(按数据中 心数量划分) . 13 图6:部署无损、低时延、高性能的
4、融合IP数据和存储网络面临的障碍 .14 图7:DC网络自动化部署和智能运维现状.15 图8:数据中心网络自动化规划(按数据中心数量) .16 图9:数据中心网络自动化规划(按行业).17 图10:数据中心网络自动化等级(按行业) .18 图11:网络生命周期中最重要的网络自动化领域 (按行业划分) . 19 图12:数据中心网络自动化驱动程序 .20 图13:数据中心网络自动化障碍 .21 图14:三分之二的受访者将数据中心网络自动驾驶作为1-2年的目标 .22 图15:华为数据中心网络自动驾驶L3自治系统 Huawei CloudFabric . 24 October 2020, IDC
5、#US46931620 白皮书 数据中心网络自动驾驶指数报告 执行摘要执行摘要 在本文档中,IDC推出了数据中心网络自动驾驶指数,用以帮助企业评估数据中心的网络自动化水平, 并帮助企业在网络的生命周期中制定一个计划,逐步部署和运维完全自治的数据中心网络。 IDC还评估了在推动企业数据中心网络现代化和全面自动化过程中的挑战。文中针对全球各行业企业的 调研展示其推动数据中心网络自动化的驱动因素,当前利用数据中心网络自动化方面所处的位置,以及 他们对数据中心网络自动驾驶愿景的认同程度等。最后,IDC提供了一些指导建议企业如何推进并 逐步实现全面自动化,无论当前数据中心网络自动化水平如何。 情况情况综
6、综述述 为什么组织需要一个为什么组织需要一个数据中心网络自动驾驶数据中心网络自动驾驶 数据中心网络从一开始就存在,它向用户提供应用程序和数据所需的连接和带宽。然而网络为了满足应 用环境不断变化的需求,一直处于被迫适应和演进的角色。 今天,数据中心网络正处于一个关键的转折点。为了能够更好地满足新应用的需求和业务目标,网络必 须在架构和运营上进行调整。数据中心网络正面临前所未有的压力,不仅需要实现可扩展性和高性能, 还要通过在网络的生命周期内实现广泛的自动化来获得更高的敏捷性和灵活性,主要包括网络的开通和 部署,故障的排除和补救,以及诸如补丁、升级、持续的变更管理和优化等日常网络管理。 在云时代,
7、传统的网络设计、发放、部署和运营方式已经无法满足要求。应用程序是当今组织的生命 线,网络提供了支持和交付这些应用程序的数字神经系统。问题在于,随着应用架构和开发方法变得更 加敏捷,传统的数据中心网络已经无法满足需求。 2020 IDC #US46931620 2 幸运的是,IT变革和AIOps的兴起能够帮助企业重新评估网络架构和运营模式,以一种更现代化的方法 来满足应用程序的需求,实现业务敏捷性,同时更加灵活和更具成本效益(包括资本支出和运营支 出)。 企业正在逐渐认识到数据中心网络自动化的价值,包括作为它能够增强业务韧性和连续性。但企业所需 要的不仅是自动化脚本、配置自动化工具等碎片化的方法
8、和手段,它们更需要一种综合的智能网络自动 化方法,该方法可提供灵活的架构作为基础以及优化的运营便捷性,从而让网络运维能够将网络作为一 个统一、认知、和自动化实体,而不是一个需要繁琐的手动管理的不同设备的集合。尽管SDN是向前迈 出的重要一步,但其更多的是基于策略的管理和开通流程的自动化。正是基于此,自动驾驶的数据中心 网络开始兴起,它提供智能意图转换、智能自动化规划和设计、完全自动化的部署和验证、智能自动化 的故障排除和补救,以及自动化的变更管理和优化,从而有效实现网络自动化闭环。 当今数据中心网络当今数据中心网络的的挑战挑战 随着数字化转型、云运营模式、云原生应用架构的出现,企业数据中心网络
9、面临诸多挑战。 一个重要问题是,数据中心网络需要与计算和存储等其他数据中心基础架构的自动化保持一致。网络运 营商和管理者在努力避免让网络成为运营敏捷性和实现商业速度的阻碍因素,他们为此感受到了焦虑和 压力。 与此同时,许多组织也试图对其数据中心网络架构实施重大变革,并且往往与汇聚和整合其IP数据和存 储网络以降低运营费用(OPEX)和资本支出(CAPEX)相关。许多企业目前拥有独立的光纤通道存储区 域网络(SAN)和以太网数据中心网络。很多客户,特别是那些运行HPC或高计算密集型AI应用的客 户,也可能拥有InfiniBand网络。 因为有急迫的需求和充足的资源,大型互联网公司已设法在单一以太
10、网或者IP数据中心网络中运行所有 应用程序和工作负载,以满足无损和高性能的需求。但对于大多数企业来说,情况并非如此。与大型互 联网公司不同,一般企业往往缺乏资源和内部专业知识,无法通过单一以太网或者IP数据中心网络聚合 所有工作负载和应用程序,无法满足无损、高性能和极低延迟的需求。因此,他们在多个数据中心采购 和维护多个网络,这就推高了运营费用和资本支出。 一个融合、智能的数据中心网络显然会让这些企业受益,该网络可以满足无损存储工作负载以及HPC和 AI对低延迟的严格要求。因为是合并采购和有持续管理的单一网络,这种网络将节省大量资本支出和运 营费用。当然,这样的网络在性能上绝不能逊色,它必须不
11、仅能够支持所有必需的工作负载和用例,能 够提供在云时代日益增长的弹性伸缩能力。 2020 IDC #US46931620 3 除了需要汇聚和整合数据中心网络之外,还需要实现网络和NetOps的敏捷性,需要支持DevOps实践、 CI/CD工作流以及其他类似云的运营模式和流程。 传统的数据中心网络已经与所支持的应用和服务分离,网络规划和部署速度太慢,无法满足应用和开发 者的需求。随着虚拟化、云计算、容器的快速发展,企业IT业务正在发生前所未有的变化,不仅给计算 和存储基础设施带来了变化,对数据中心网络的需求也发生了深刻的变化。 虽然开发人员和DevOps团队已经转向CI/CD流程等敏捷方法来加速
12、开发流程,但因为现有的基础设施发 展缓慢,其工作效果受到限制。资源请求需要快速响应和快速周转,但网络基础设施部署存在滞后。繁 琐的部署过程消耗了过多的时间,开发人员步履蹒跚,限制了处于数字业务前沿的应用程序。最终结果 是制约了业务敏捷性,网络因而成为不受欢迎的罪魁祸首。 云的兴起加剧了问题的严重性,云不仅是工作负载的目的地,也代表了运行模式和一系列相关技术。云 模式及流程已经成为数字化转型的关键手段,开发者和DevOps团队通过云来实现敏捷性、灵活性和速 度。 然而,在数据中心中,网络一直是实现敏捷性的阻碍因素,长期以来以硬件为中心的、面向CLI的离散网 元部署、配置和手动管理方法削弱了敏捷性
13、。在许多方面,网络本身仍然是一个由人工流程所定义的孤 岛,配置起来既复杂又耗时,并且容易出现配置错误。这导致网络和依赖这些流程的应用程序瘫痪。 IDC估计,由网络中断引起的企业宕机通常平均成本为每小时25万美元。这个数字适用于所有行业、不 同规模和地域的组织。但是,根据组织的不同,宕机时间的实际成本可能会有很大差异。例如,大型金 融机构,因交易量很大宕机时间损失可能以每小时数百万美元计。一个处于“平均”水平的组织在经历相 对短的8小时宕机后,其损失大约在200万美元。同样,这些中断经常源自于手动网络错误配置或配置 漂移未被检查。 与此同时,应用程序也也在经历变革。大多数企业运行的应用程序种类比
14、以往任何时候都多,包括传统 的单体应用程序和以容器和微服务为特征的较新的现代工作负载。数据中心必须支持多种工作负载和应 用基础架构,包括裸金属、虚拟机和容器。 敏捷的障碍敏捷的障碍 上述所有这些挑战都造成了网络的复杂性,成为实现敏捷运维的主要障碍。现在,网络生命周期的每个 阶段都充满了复杂性,从规划设计、部署配置,到故障排除和补救,最后到变更管理和网络优化。仅仅 在故障排除和补救方面,网络运维者通常必须依赖过时的工具和操作流程,这往往使他们很难在重大服 务中断之前发现和修复问题。由于缺乏协调和整合,零碎的工具和手动操作往往本身就造成了问题。此 外,那些零散且难以满足目的的工具集合,也致使网络管
15、理和可视性难以令人满意。 数据中心网络的另一个制约因素是企业运维团队之间的技能差距和专业知识不足。我们很难去责怪网络 运维者,他们已经在多条战线上应对快速变化,不堪重负,他们不得不学习新的网络拓扑和架构、自动 化、和可编程能力(API)。他们的工作也像云模式一样 在完成所有责任内工作的同时,还要随时 救火。因此,网络供应商必须帮助他们的客户,即运营者,为他们提供架构、基础设施和平台,帮他们 2020 IDC #US46931620 4 应对这些多重挑战。 最后,随着这些年来网络的增长和扩展,越来越需要基础架构能够管理异构网络的一致性。这些基础架 构源于不同供应商并承担不同职能。网络运维团队正在
16、寻找方法弱化挑战,通过工具让复杂的事情变得 简单。 网络自动化是解决这些挑战的答案。但是,正如前面所说,这种自动化必须是易用的、易于规模实施、 易于管理和维护的。企业还需要一个框架体系来清楚地了解自己在数据中心网络自动化历程中所处的位 置,以及如何以数据中心网络自动驾驶为代表逐步达到顶峰。 数据中心网络自动驾驶数据中心网络自动驾驶指数指数报告报告 为了帮助组织评估网络的自动化程度,IDC联合华为撰写了此份数据中心网络自动驾驶指数报告。该报 告将数据中心网络自动化的复杂程度归类到网络生命周期的每个阶段。要实现网络完全的自动驾驶,必 然是一个长期的过程,不可能一蹴而就。但这是完全可以实现的,切合实
17、际的规划可以确保组织能够制 定适合其需要和资源的路线。 该指数报告定义自动化等级,从无自动化开始,逐级上升到综合自动化: Level 0 在整个网络生命周期中,所有操作和维护全部通过人工执行,没有自动化。 Level 1 整个网络生命周期中,以人工操作和维护为主,通过CLI对网络设备进行一些工具 辅助分析和决策。 Level 2 部分场景部分自动化,虽然标准工具为策略定义和分析提供信息,但决策和执行仍由 人工完成。 Level 3 限定条件自动化,系统提供建议,由人工执行。 2020 IDC #US46931620 5 Level 4 网络具有广泛的自动化和高度自治性,在闭环的基础上动态实施声
18、明性(基于意图的) 策略,尽管运维者经常收到基于事件的告警并决定是否接受和允许自动建议。 Level 5 网络在整个生命周期中完全自动化,并且能够自动驾驶,能够应用策略、故障排除和 补救事件。运维者相信,网络能够正常运行,并适应几乎所有已知场景。 表1列出了所有级别。 表表1 数据中心网络自动驾驶数据中心网络自动驾驶指数指数报告报告 资料来源:IDC与华为,2020年 2020 IDC #US46931620 6 前进之路:实现前进之路:实现数据中心网络自动驾驶数据中心网络自动驾驶的道路的道路 理想情况下,数据中心网络自动驾驶应在整个网络生命周期内提供全面的智能化和自动化。如果未能完成 这一良
19、性循环(或关闭自动化循环),只算取得部分成功。这意味着数据中心网络自动驾驶应解决以下问 题: Day 0(规划建设):(规划建设): Day 0规划建设包括两个阶段,规划设计,其次是部署开通。 规划设计阶段主要涉及基于业务需求洞察的产品选择和网络规划参数,即LLD和HLD,包括意图 分析、洞察分析、网络规划、规划仿真、网络设计、设计仿真等。 Day 1(业务部署):(业务部署): Day 1业务部署场景是指完成Day 0流程后,将客户服务意图下发到设备的过程。Day 1流程 包括意图翻译、网络设计、仿真决策、网络配置、SLA配置、业务验证等。 Day 2(运维(运维监控监控):): Day 2
20、运维监控场景是指在Day 1业务部署后,对业务意图进行监控,确保网络和业务按预期 运行。监控流程包括意图翻译、监控与可视化、潜在风险排查、异常识别、问题定界、故障 定位与隔离、故障修复、仿真决策、业务恢复(恢复)和业务验证等。 Day N(网络变更和优化):(网络变更和优化): Day N变更优化包括网络变更和参数优化。 网络变更是指基于意图的网络变更的评估、实施和验证,包括意图评估、变更方案、仿真决 策、变更实施、验证测试、异常回退、参数优化等。 表2描述了数据中心网络自动驾驶索引中的前三个自动化级别如何映射到整个网络生命周期(从Day 0到 Day N)的需求。 2020 IDC #US4
21、6931620 7 表表2 基于基于网络生命周期需求的匹配网络生命周期需求的匹配,数据中心网络数据中心网络自动驾驶指数前三个自动驾驶指数前三个等级等级衡量标准衡量标准 生命周期生命周期 Level 1 Level 2 Level 3 Day 0 意图翻译 洞察分析 网络规划 规划仿真 网络设计 设计仿真 人工评估输出洞察分析指标和规划参数 人工获取历史数据,人工分析 线下规划评审 无 基于离线工具的人工设计 无 人工评估输出洞察分析指标和规划参数 自动获取历史数据或自动预测 离线规划 离线仿真验证 基于线下工具的半自动化设计(人工定义策略和规则) 离线仿真验证 系统生成洞察分析指标和规划参数,
22、人工校验 自动获取历史数据,自动预测 在线规划,数字化应用 在线仿真验证 在线半自动设计,数字化应用 在线仿真验证,辅助决策 安装调测 数据准备 网络配置 SLA配置 软件调测 拨测验证 手动+离线硬件调测工具 人工准备数据 人工批量配置 人工批量配置 人工执行 手动拨测 人工+离线硬件调测工具 网络参数数据自动生成 联网设备自动检测和网络参数设置 SLA保障策略配置自动下发 自动调测,手动调用 手动拨测 人工+离线硬件调测工具 网络参数和SLA保障策略数据自动准备 联网设备自动检测,提供网络参数设置 SLA保障策略配置自动发放 自动调试、基于异常或异常的预警、手动更正 自动验证和验收报告 D
23、ay 1 意图翻译 网络设计 仿真判决 网络配置 SLA配置 业务验证 运营人员通过工单人工录入服务参数(网络意图) 工具辅助、工具化的资源查询和分配 无 工具辅助 工具辅助 人工验证 运营人员通过portal选择业务参数(网络/业务意图) 工具辅助、工具化的资源查询和分配 无 网络参数配置自动下发 SLA参数自动下发 人工验证 运营人员通过Portal选择服务,自动生成参数(网络/服务意图) 自动查询、分配资源,制定解决方案 仿真验证和辅助决策 网络参数配置自动下发 SLA参数自动下发 自动验证业务,生成业务发放报告 Day 2 意图翻译 可视化监控 隐患排查 异常识别 问题定界 问题定位
24、解决方案 仿真判决 业务恢复 业务验证 根据运营商经验和知识配置监控规则 固定系统监控视图 人工检查 告警、性能、日志可视化,工具辅助识别 手动和离线工具辅助定界 手动和离线工具辅助故障定位 根据专家经验提供修复建议 无 人工修复 人工+工具拨测 根据预置模板自动转换监控规则 固定视图+局部自定义视图 基于操作员知识、离线工具、What if故障模拟、自动巡检等,预测潜在问题 告警压缩关联,动态基线异常识别 可视化定界工具 可视化定位工具 提供修复建议 无 人工修复 人工+工具拨测 监控规则自动转换 场景化自定义视图 worst-case仿真 异常自动识别 故障自动定界 部分故障自动根因分析,
25、人工确认 自动生成具体的修复解决方案 仿真验证和辅助决策 部分业务自动恢复 自动验证业务,生成维修报告 Day N 意图评估 变更方案 仿真判决 变更实施 验证测试 异常回滚 基于SLA/时间窗人工评估,人工输出变更约束 人工变更 专家评审 工具辅助 网络快照手动比对 手动回退 基于SLA/时间窗等人工评估,自动输出变更约束 人工变更 专家评审、线下验证 离线生成 网络快照自动比对 手动回退 基于SLA/时间窗自动评估,变更约束自动输出 在线、自动生成更改 在线仿真验证,辅助决策 自动实施更改 业务自动测试,异常自动发现 手动触发自动回退 意图翻译 劣化预测 异常识别 环境监控 问题定界 问题
26、定位 优化方案 仿真判决 调整参数 业务验证 根据运营商知识人工翻译策略 离线工具辅助预测 固定规则监控异常 人工检查 工具辅助定界 工具辅助故障定位 人工制定方案 人工决策 工具辅助参数调整 人工+工具拨测 策略根据预置模板自动翻译 运营商知识+在线工具 动态基线监控异常 人工检查 可视化分析定界工具 可视化分析定位工具 人工制定方案 人工决策 工具辅助参数调整 人工+工具拨测 自动调用策略进行意图转换 运营商体验+在线工具 自动准确识别异常 环境自动监控 故障自动定界 自动故障定位分析,人工确认 AI与自动化方案 仿真辅助决策 参数自动调整 业务自动验证,生成优化报告 资料来源:IDC与华
27、为,2020年 2020 IDC #US46931620 8 数据中心网络自动化现状数据中心网络自动化现状 当前网络生命周期阶段,大多数组织尚未采用或实施完全自动的数据中心网络。许多组织刚刚开始网络自动化之 旅。有些组织还在使用人工流程和CLI进行网络配置和管理,有些组织则使用Ansible、Puppet、Chef、Salt、 Terraform等自动化配置管理工具。还有一些组织采用了SDN,利用控制器、应用策略或网络虚拟化(overlay)。 对于Day 2和Day N场景,一些企业已经使用了各种网络分析工具,但是很难关联和集成可操作的数据,以便及时解 决问题和持续进行优化。 数据中心网络自
28、动驾驶数据中心网络自动驾驶调研结果调研结果 接下来的部分将介绍一项全球调查的结果,该调查生动地说明了各个行业的企业在数据中心网络自动化的现状。 IDC代表华为对全球多个主要行业进行了数据中心网络自动驾驶状况调查。调查的目的是了解当前企业数据中心网 络面临的挑战、企业数据中心网络的自动驾驶进展,以及企业受访者是否计划实施数据中心网络自动驾驶。 数据中心组网挑战数据中心组网挑战 在调查的初始阶段,IDC要求受访企业找出他们数据中心网络面临的最大挑战。所有受访企业列举的挑战中排名第 一的是“与计算和存储自动化保持同步”,所占比例为41%。这表明网络运营者对网络能否与数据中心基础设施的其 他方面保持同
29、步感到焦虑。其次为“灵活性”,包括对混合工作负载和环境的支持,所占比例接近40%。并列第三 的是“管理多厂商网络基础设施”和“敏捷”(包括对云架构和应用的支持),后者的反应与受访企业关于数据中 心存在云原生容器的说法非常吻合。排名第五的“使能AI的网络智能”,比例几乎相同(近33%),这表明受访者将 这一挑战视为他们能够快速提高运营效率和有效性的应对措施。其他上榜的相关挑战是简单性(易于管理)、可伸 缩性以及技能差距/专业知识(见图1)。 2020 IDC #US46931620 9 图图1 数据中心网络挑战数据中心网络挑战 问:在您的数据中心网络方面,您的组织面临的最大挑战是什么? n =
30、205 来源:IDC数据中心网络自动驾驶调查,2020年8月 对无损、低时延的融合对无损、低时延的融合IP数据与存储网络数据与存储网络表示表示浓厚兴趣浓厚兴趣 IDC还问询了被访者对一个无损、低延迟、高性能的融合IP数据和存储网络的兴趣。结果如图2和图3所 示,金融/银行和媒体/娱乐/游戏以及拥有三个或三个以上数据中心的受访者对此融合网络的兴趣最高。 2020 IDC #US46931620 10 图图2 无损、低时延、高性能的无损、低时延、高性能的融合融合IP数据数据和和存储网络(按行业)存储网络(按行业) 问:贵组织对拥有一个无损、低延迟、高性能的融合IP数据和存储网络的兴趣有多大? n = 205 来源:IDC数据中心网络自动驾驶调查,2020年8月 2020 IDC #US46931620 11 图图3 无损、低时延、高性能的无损、低时延、高性能的融合融合IP数据数据和和存储网络(按数据中心数量)存储网络(按数据中心数量) 问:贵组织对拥有一个无损、低延迟、高性能