《紫金山实验室:2022多云交换网络白皮书(55页).pdf》由会员分享,可在线阅读,更多相关《紫金山实验室:2022多云交换网络白皮书(55页).pdf(55页珍藏版)》请在三个皮匠报告上搜索。
1、 版权声明版权声明 本白皮书版权属于网络通信与安全紫金山实验室及其合作单位所有并受法律保护,任何个人或是组织在转载、摘编或以其他方式引用本白皮书中的文字、数据、图片或者观点时,应注明“来源:来源:网络网络通信与安全紫金山实验室通信与安全紫金山实验室等等”。否则将违反中国有关知识产权的相关法律和法规,对此网络通信与安全紫金山实验室有权追究侵权者的相关法律责任。编写说明编写说明 编写单位:编写单位:网络通信与安全紫金山实验室、中国电信股份有限公司研究院、华为技术有限公司 主要编写人员主要编写人员:(排序不分先后)(排序不分先后)陶高峰、欧亮、张磊、秦树鑫、罗永璨、邢凯、黄超、侯晓晖、孙仕康、陈力、
2、周婷婷、夏丹丹、乐建兵、段勇、肖祥益、鄢欢、陈前锋、钱厚才、李学成、焦雪松、田森 I 前 言 在数字经济的浪潮下,企业数字化转型进程不断加快,企业上云需求也在不断演进,上云策略从最初的单一私有云、公有云,逐渐发展为多云。在复杂的多云场景中,云孤岛带来的私有云与公有云之间、公有云与公有云之间互联互通难,异构资源优化配置与动态管理难等问题凸显,进一步催生了企业对于异构云网资源融合管理与异构云网服务一体化供给的需求,多云交换网络应运而生。区别于传统云网技术,多云交换网络旨在打破异构云网之间的技术壁垒,实现“云+网”的统一融合管理和智能调度,打通数据和算力孤岛,真正实现云网一体,并逐步朝着无感、智能、
3、安全、便捷的云网超融合方向演进。本白皮书介绍多云交换网络的背景、现状与趋势,阐述多云交换网络愿景与架构,重点介绍多云交换网络关键技术,包括云网数智统一编排技术、云网融合高性能转发技术、云网一体安全和零信任技术、可编程多云网络技术、多云智能运维技术,最后介绍多云交换网络的应用场景和案例,并给出多云交换网络的实施建议。本白皮书旨在吸引更多研究、工程和产业人员参与多云交换网络的理论研究、技术攻关和应用落地;通过多云交换网络实现未来云网变革,推动各行业朝着信息化、数字化、网络化和智能化的方向升级,加速深化企业数字化转型。III 目 录 前 言.I 一、背景.1 二、发展现状和趋势.4 2.1 云计算产
4、业和技术现状.4 2.2 多云交换网络发展现状.5 2.3 未来趋势.8 三、多云交换网络.11 3.1 多云交换网络愿景.11 3.2 多云交换网络架构.12 四、多云交换网络关键技术.18 4.1 云网数智统一编排技术.18 4.2 云网融合高性能转发技术.20 4.3 云网一体安全和零信任技术.27 4.4 可编程多云网络技术.31 4.5 多云智能运维技术.35 五、多云交换网络应用场景和案例.40 5.1 应用场景.40 5.2 应用案例.43 附录 A:术语与缩略语.49 参考文献.50 1 一、一、背景背景 过去十数年,云计算、SDN 等技术兴起与繁荣,推动了整个 ICT产业生态
5、的蓬勃发展,见证了无数企业的成长与兴衰,既推动了巨头企业如亚马逊、微软、谷歌、阿里、腾讯、华为等的不断壮大,也涌现了众多活力十足的创新企业如 Arista、Equinix、RightScale 等。ICT产业的飞速发展在成就众多企业成功的同时也在重复以往的历史:巨头的优势垄断与企业的激烈竞争导致了大大小小数量浩繁的云孤岛的出现,各云孤岛呈现基础设施异构、平台互不兼容、业务难以互通等特点,彼此之间相互隔离。由于 SDN 技术与云计算技术发展速度的严重失配,ICT 产业得了“大城市病”,各云孤岛之间的协同也受到网络因素的制约,数据交换愈发拥堵不可靠。另一方面,在数字经济的浪潮下,企业正朝着数字化、
6、智能化方向发展,企业数字化转型进程不断加快,企业上云需求从最初的单一私有云、公有云,逐渐发展为多云。根据 Flexera 2022 年发布的云现状分析报告,89%的企业正在使用多云的上云战略,其中 80%的企业采用公有云+私有云的混合多云,7%的企业采用多个公有云,2%的企业采用多个私有云1。多云不仅能充分发挥各云的优势,又能避免云商锁定,可根据业务、技术与性能等需求动态调整多云部署,具有高灵活性、高可靠性、低成本等诸多优势,可助力企业实现降本增效、精细化运营、混合办公的目标。当多云战略被广泛采用时,云孤 2 岛却严重阻碍了多云的部署进程。云孤岛带来的私有云与公有云之间、公有云与公有云之间互联
7、互通难,异构资源优化配置与动态管理难等问题凸显,催生了企业对于异构资源融合管理与服务一体化供给的需求,多云交换网络应运而生。多云交换网络是针对云、网技术发展和企业内在需求而形成的一套技术体系。区别于传统云网技术,多云交换网络旨在打破异构云网之间的技术壁垒,实现“云+网”的统一融合管理和智能调度,打通数据和算力孤岛,真正实现云网一体,并逐步朝着无感、智能、安全、便捷的云网超融合方向演进。具体地,多云交换网络要求:一是能够一是能够实现多实现多云云算算力的互联融力的互联融合合。针对 ICT 产业的烟囱效应,瞄准多云交换需求,基于抽象的云网资源模型实现统一的云网资源编排、云网业务开通、云数据互通和云网
8、络互联;基于微服务架构,融合人工智能技术和意图驱动引擎,实现统一的云网管理平台。二是能够实现连接二是能够实现连接即服务,即实现跨域连接和随选接入即服务,即实现跨域连接和随选接入。跨域连接可依靠 CENI 的广覆盖和基于 SDN 的骨干网络操作系统的强管控来实现;无缝接入可采用各种有线、无线、托管、自建等多种接入方式作为 CENI 的“触手”提供广泛、弹性、可靠的接入能力;所有接入同时支持网络的星型加法和端到端的乘法组网能力,最终实现云的任意接入和网的按需切片。三是能够构三是能够构建多云建多云生态生态。通过 API、SDK、低代码等可编程技术开放云网能力,提供一个即插即用可扩展的多云生态;通过云
9、、网、边、端、数、智和自助多云服务为企业打造坚实可靠的数字底座;通 3 过 CENI 多云试验平台提供一个覆盖全国的、中立的、开放的、可以连接所有云和网的多云交换中心。4 二、发展现状和趋势二、发展现状和趋势 2.1 云计算云计算产业和技术现状产业和技术现状 在全球数字经济背景下,企业积极拥抱数字化转型,云计算作为企业 IT 基础设施架构技术的不二之选,已成为企业数字化转型的必然选择,使能全球云计算产业持续繁荣,云计算技术持续创新。当前,云计算已走过探索实践阶段,迎来了多样化、全面化的发展时期。在云计算产业方面,全球云计算市场保持稳定增长态势,2021年全球云计算市场规模达到 4080 亿美元
10、,增速触底反弹,已基本恢复至 2020 年以前的增速;中国云计算市场保持快速增长态势,是全球云计算市场中增长最快的区域,2021 年中国云计算市场规模达到3229 亿元,增速为 54.4%2。从云计算细分市场来看,公有云成为云计算市场增长主动力,2021 年全球公有云市场规模达到 3307 亿美元,增速为 32.5%,中国公有云市场规模达到 2181 亿元,增速为70.8%。其中,阿里云、腾讯云、华为云、天翼云、AWS 占据中国公有云市场(IaaS+PaaS)的主要市场份额。在云计算技术方面,云计算技术体系已涵盖云计算架构、软件和服务、安全和开源、运维和运营等多个领域。随着云计算技术体系的不断
11、完善,企业上云进程不断加快,反向推动着云计算开始朝着云原生方向纵深发展。企业基于传统的软件架构来构建应用并移植上云的 5 方式不仅限制了云平台优势的发挥,也使企业面临应用迭代速度慢、应用开发和运维过程复杂等问题。云原生通过定义应用从开发到交付的最佳路径,让应用生于云,将传统的、烟囱式的、粗粒度的应用程序组件解耦,以分布式、标准化的方式在云上运行、监控与治理,最大化企业上云价值3。云原生技术体系从上层的容器、微服务等技术逐渐向底层的 Serverless、IaC 等技术延伸,云原生能力也在基础设施管理、运维管理、应用管理等方面不断增强。2.2 多云多云交换交换网络网络发展现状发展现状 当云计算发
12、展到一定程度后,云网融合需求日渐迫切。云网融合既是云、网技术独立发展到一定程度的必然趋势,也是企业上云需求演变的必然结果。然而,云网融合并非一蹴而就,其发展必定离不开多云交换网络。为此,云服务商、运营商等纷纷布局多云交换网络。在云服务商方面,阿里云自 2009 年开始探索云数据中心网络,进入到探索到云网络 3.0 阶段,从以解决多租户隔离应对用户规模激增为目的,到以构建应用-云-边-端一体的智能云网络为目的,基于SDN+NFV 架构打造了阿里云网络产品洛神云平台。犀思云基于SDN 架构,构建了云交换平台SysCXP,提供云骨干连接、SD-WAN 边缘加速、IDC 自动编排等混合云连接服务,实现
13、云服务商、IDC 服务商、网络服务商及应用服务商互联互通。骞云打造了SmartCMP 多云管理平台,支持多家公有云(阿里云、腾讯云等)、6 私有云(VMware、OpenStack 等)的统一纳管,实现多云自动化管理和自动化服务。Equinix 利用其在 26 个国家和 63 个城市拥有的 220多个数据中心,基于 SDN+NFV 设计混合多云互联架构,实现按需连接、随需扩展的混合多云访问。然而,这些云服务商产品或是感知云上资源与云上应用,缺乏多云交换的可扩展性,或是聚焦网络连接,缺乏云上资源与云上应用的感知力,又或是专注于云网业务的管理与运营,并无资源纳管与数据交换能力。在运营商方面,中国电
14、信利用 5G 网络部署的契机,以“三朵云”为 5G 网络架构,实现 5G 核心网、接入网及网络边缘的云化,自研的新一代云网运营系统,已突破数字孪生、AI 自动编排等关键技术,可实现业务分钟级开通、故障分钟级恢复。中国联通自 2016 年开始构建中国联通产业互联网,采用 SDN 技术,将“IP 承载 A 网”升级为面向混合云场景(含公有云、私有云及数据中心托管)提供可自服务的快捷、弹性、随选的互联网基础设施,解决不同地域、不同网络环境间多云互联的问题,实现异构混合云组网。中国移动基于其建设的云专网网络,提供云互联、云组网服务,实现点到点的、多点互联的云间互通;基于 SDN 和 WAN 优化技术,
15、打造广泛覆盖的高质量SD-WAN PoP 骨干网,为用户提供总部、分支、数据中心/私有云、及公有云间的互联服务,实现一点接入、全网可达。日本最大运营商NTT 基于其电信基础设施,面向全球提供云网融合产品和服务,包括领先的全球一级 IP 网络、覆盖 196 个国家/地区的 Arcstar Universal 7 One VPN 网络以及全球 140 个安全数据中心。然而,这些运营商产品仅利用了其自身网络基础设施优势,并不纳管第三方公有云、私有云,尚不能做到多云交换、云网一体。紫金山实验室基于未来网络基础设施 CENI,打造了大规模多云交换平台,平台对接电信、联通大网,从基础设施上支持云网资源和云
16、网业务的统一管理和端到端编排,从平台能力上支持云网资源、云网边端切片业务、云网数据和云网 SaaS 应用的融通整合,从开放性上对外提供统一可自服务的多云 Portal 和统一开放的 API/SDK 接口,屏蔽异构云网差异,具备对公有云、私有云、边缘云的异构云场景,对裸金属、虚机、容器的异构虚拟化场景,对云专线、互联网、4G/5G的异构网场景,对阿里云、腾讯云、华为云、天翼云等异构云厂商场景等多种异构场景的一体编排协同调度。紫金山异构多云交换平台具备多云互联、极速上云、一点入云、云网边端协同管理调度,云网数智应用智能编排,用户自服务等核心功能。基于平台建设的多云交换试验网已覆盖 CENI 全国
17、40+PoP 点,连接阿里、腾讯、AWS 等六大云商,整合东数西训联邦学习边缘推理、东数西存多云灾备、云网一体安全零信任管理等多云应用,通过开放的接口、开放的多云应用市场和开放的多云交换试验网构建多云交换中心,连接和服务更多云、更多用户和更多应用。在云网融合建设布局上,中国电信按照国家一体化大数据中心枢纽节点的建设要求,进一步完善“2+4+31+X+O”的云和大数据中心 8 布局。中国联通成立了“中国联通算力网络产业技术联盟”,联合华为成立算力网络联合实验室,旨在联合产学研合作伙伴。中国移动借助全面升级的 5G 专网,完善移动云“N+31+X”资源池布局,着力构建算力网络大生态。在云计算厂商方
18、面,阿里云、腾讯云、华为云在全球几十个地域部署了上百个云数据中心,多云交换云网互联成为其中一个关键布局关键能力。然而,云网融合生态的现状是各相关企业现阶段仍然着力于基础设备的建设布局和云网资源的拉通,在逻辑层面业务层面没有一个端到端的、跨多厂商的、云网深度感知、可一体编排的“多云交换互联网”。2.3 未来未来趋势趋势 随着数字化转型的推动,ICT 行业正处于历史上最大转折点-云网融合算网一体,从以资源为中心转向以交换以算力为中心。数字化进程影响着各行各业,从政府、跨国企业,到消费者,无一不受到DT/IT/CT/OT 上云和服务云化的影响。云成为新的 DICT 平台有很多原因,上云为企业提供了更
19、灵活的基础架构,能够适应快速变化的业务应用需求,降低企业支出(Capex/Opex),缩短产品端到端的 TTM(Time to Market)。企业向云转型向数字化转型已成为领导层最重要的业务决策之一,云服务提供的灵活性和敏捷性是抵御现在或将来利用云技术的竞争对手的唯一途径,完善的本地基础设施和现有的本地应用不再具有竞争优势。9 根据国际数据公司(IDC)全球半年度公有云服务支出指南的最新更新,预计在 2019-2023 年预测期内,全球公有云服务和云基础设施的支出将翻一番。凭借 22.3%的五年复合年增长率(CAGR),公有云支出将从 2019 年的 2290 亿美元增长到 2023 年的近
20、 5000 亿美元。这种趋势仍在加速,并且仍处于早期的发展阶段。亚马逊引领了云计算的趋势,其公有云服务(AWS)平台的收入从 2006 年开始的 0 增长到 2019 年的近 400 亿美元。微软一直在追赶 AWS 的步伐,报告称最近的同比增长率为 62%,其云平台在 2019 年的收入为 100 亿美元。谷歌现在也表现强劲,谷歌云平台(GCP)的增长率为 62%,2019年的收入为 90 亿美元。中国市场内,阿里云从 2018 年的 43.85 亿人民币增长到 21 年的 148.99 亿人民币。高可用、高可靠、差异化服务且中立的多云交换网络成为数字化转型的新型基础设施和底座能力。随着主流公
21、有云供应商的快速发展和云平台功能的增加,随着云网的深度融合,数据、服务、应用的边界不再固定,跨域多云成为企业为了保障数据和服务的安全性可用性可靠性的必然选择,对多云算力网络的支持比以往任何时候都更加重要。应用程序如何迁移、保护和访问所有这些云资源中的数据需要更可靠、高效的多云网络。同时,单一云服务的不确定性、分布式云和联邦云的技术演进、避免供应商锁定和企业提高敏捷性和自动化的需求将在未来推动着多云市场的发展。此外,云原生应用越来越多的采用容器化和微服务的方式,随着 AR/VR/元宇宙/高清视频等超融合高 10 性能计算应用的成熟普及,高速可靠的多云交换成为大容量信息传输的关键底座。可自服务的意
22、图驱动的开放可编程的多云编排调度系统成为数字化应用算网一体服务的刚需和关键推力。屏蔽云网细节、屏蔽异构多云和统一管理协同调度等多云编排调度能力,推动新型算力应用的落地,降低新型算力应用建设部署的复杂性。多云管理使企业能够将其工作负载转移到符合产品技术和业务要求的多个云上,就近服务、按需服务。多云编排需要支持管理 IaaS、PaaS 和 SaaS 等多种云服务,需要提供多云应用市场、蓝图编排、流程引擎等灵活的业务系统能力。随着云网融合市场的进一步发展,多云编排管理市场预计将从 2017年的 11.695 亿美元增长到 2022 年的 44.927 亿美元,2017 年至 2022年的复合年增长率
23、(CAGR)为 30.9%。11 三三、多云多云交换交换网络网络 3.1 多云多云交换交换网络网络愿愿景景 十四五规划提出要实施“上云用数赋智”行动,推动数据赋能产业链协同转型,并且将混合云列为重点。“云”即云计算,“上云”是关键的第一步,是“用数”和“赋智”的基础和前提条件。云计算作为我国新型基础设施建设的核心所在,是推动数字经济发展的重要驱动力,培育壮大云计算行业,对推动数字化发展,打造数字经济新优势具有重要意义。而面对复杂的多云,资源对接管理和一体化服务成为了企业的内在需求,进一步驱动了由单一云、多云共存向多云云网融合方向的转变,多云网络将是未来标配。虚拟化、云原生、内生安全、人工智能等
24、技术的不断迭代,为多云交换网络的发展提供了技术保障。多云交换网络的愿景:一是一是通过多云交换平台,接入全球主流云计算平台,整合网络资源,实现“云+网”的统一融合管理和智能调度,打通数据孤岛,实现多云算力一体融合;二是二是通过异构云网资源的统一编排与管理,实现智能接入和一键上云。三是三是大数据和人工智能技术的运用,将进一步释放云网算力的潜能。四是数据的价值将得到充分的挖掘,基于机器学习、深度学习的性能优化,故障发现、诊断和自愈,成本优和优化等任务将实现自主运行,为平台“赋智”。展望未来,适应和满足数字中国和网络强国的发展需求,多云交 12 换网络将以更快的速度迭代演进。变革与创新,从未停息,多云
25、交换网络将集安全、智能、便捷、稳定于一体,为政企“上云”铺设安全、高效、可靠的桥梁,赋能更加智慧的未来。3.2 多云多云交换交换网络网络架构架构 多云交换网络系统总体架构涉及基础设施、能力中台、业务中台和应用四个层级。其中基础设施层由各类公有云、私有云、云骨干网、边缘云和移动终端设备组成,提供云网算力融合依赖的基础设施资源;能力中台可分为云网能力中台和数据能力中台两部分,云网能力中台用于实现云网协同编排和网络能力开放,数据能力中台实现数据采集、处理和管理,以及数据能力开放;业务中台是面向多云云网融合业务,实现用户管理、计费管理、产品管理、订单管理等运营能力,监控告警、统计报表等运维管控能力;应
26、用层面向用户,实现分布式人工智能服务、云网应用市场等,同时支持第三方平台接入。图 3-1 多云交换网络参考架构 13 (1)多云模型多云模型 构建多云模型,屏蔽各类异构云网之间的差异和细节,形成统一的互联结构和交互 API。能够实现国内外各公有云平台接入,通过DC 控制器实现数据中心私有云接入,以及 SDWAN 城域网接入。能够通过交换 VPC 实现对多云资源管理和云间互通,云的接入支持Internet、专线、4G/5G、隧道、E2E、P2P 等多种连接方式。支持多租户和业务隔离需求,同时能够提供多级 QoS 和多维安全保障。提供多云切片的端到端控制和流量调度,支持多云切片的零信任网络安全。多
27、云模型基于“连接”+“策略”的图转发模式设计,连接提现信息的高效灵活传输,策略体现信息的智能处理,图转发体现万物互联的分层设计,每一个交换 VPC 可以是一个微数据中心模型,可嵌套扩展。图 3-2 多云模型 14 (2)多云多云操作操作系统系统 多云操作系统是一个新的软件服务,有别于普通网操作系统或云操作系统,是对云网操作系统的拓展和延申,是对多云服务模式的抽象、计算和调度。在运行平台上,多云操作系统采用了容器化的分布式的联邦部署模式,不再局限于同一个数据中心、同一个共有云的多台服务器,可以按需部署在多个云节点上,实现跨云的分布式协同。在管理对象方面,多云操作系统管理的资源更加广泛提供多层次的
28、融合编排。常规云管平台能够管理云计算、云存储、云服务等资源,多云操作系统实现一个云网的泛在管理,能够管理接入的各类异构云网资源,能够实现云网资源的全生命周期管理,能够实现按用户意图驱动的统一编排调度。在能力开放方面,提供云网资源、数据、应用的能力封装,提供 API、SDK、蓝图、低代码等多种能力封装形式,提供多云联邦学习边缘推理、多云容器应用编排交付、多云存储、多云单点登录堡垒机、零信任安全等多云核心应用,增强多云操作系统的通用性、扩展性、易用性和实用性。具体的,多云操作系统应具备如下特性:抽象的统一的多云服务模型,屏蔽云差异、网差异;云、网、边、端、数、智深度超融合,算力驱动、意图驱动;多云
29、资源的统一管理、调度和监控;多云连接的统一管理、调度和监控;多云接入的统一管理、调度和监控;15 多云能力的开放、可编程和可定制;针对多云场景的微服务化能力,可扩展可对接第三方系统;多云在网计算网元的虚拟化和云化部署能力;确定性 SDN 网络的连接能力;多云操作系统的国产化和自主可控。图 3-3 多云操作系统参考模型(3)多云多云软件软件架构架构 多云软件采用微服务架构,以分布式部署方式运行。各类云网资源统一接入、统一管理,云业务编排等核心能力以微服务方式驻留。在数据存储方面,统一数据界面和接口,同时对接支持分布式的关系型数据库、Redis 集群缓存、分布式文件存储等方式,提升数据可靠性、易用
30、性和跨云跨域能力。提供了多云安全管理和智能运维功能组件,提升了系统的可靠性可用性。此外,依托 AI 引擎提供的算法,前端人机交互支持语音接口方式,为用户提供更好的使用体验,降低多云业务场景的复杂性和使用难度。16 图 3-4 多云软件架构(4)多云多云交换交换互联互联网网 多云交换互联网用于验证多云云网一体相关技术和应用的落地示范,涉及多云业务模式的试点应用,多云操作系统的功能性能验证、多云应用的集成试验、异构多云接入能力的合作互联、长距多云网络服务质量的测试验证等。在公有云接入方面,支持接入阿里云、腾讯云、AWS、华为云、天翼云等多个公有云,在网络资源方面,连接CENI 骨干承载网和中国电信
31、 CN2 网络互为备份,支持对接第三方合作伙伴云骨干。多云交换互联网可以支持:多云操作系统和多云应用的落地验证和示范应用;云间、云边、云端的多云连接服务;异构云资源池的对接拉通和统一管理;异构云骨干网的对接扩展和统一管理;17 异构云接入的对接扩展和统一管理;多云网元的虚拟化部署和服务链集成能力;多云应用的虚拟化部署和服务链集成能力;开放的资源接口、服务接口、数据接口,支撑第三方和上层多云应用系统。图 3-5 多云交换互联网试验平台 18 四四、多云多云交换交换网络网络关键技术关键技术 多云交换网络引入多种创新技术,来解决控制面、转发面和管理面的种种痛点难题问题,赋能下一代算网融合应用,其关键
32、技术主要包括“云网数智统一编排技术”、“云网融合高性能转发技术”、“云网一体安全和零信任技术”、“可编程多云网络技术”、“多云智能运维技术”。4.1 云网数智统一编排技术云网数智统一编排技术 4.1.1 概述概述 多云交换网络的构建、管理和运维涉及一系列云资源的部署和网络资源的配置。比如需要一台云服务器,就要依次创建 VPC、vSwitch、安全组和云服务器实例等等,如果需要打通云资源之间的网络,需要精通网络的管理员对多个网络资源进行协议和参数配置。随着资源规模的不断扩大,网络的日益复杂,人工手工创建资源配置网络的方式显然不可取不可持续。除了通过各云商的控制台部署和管理云资源,还有通过传统的云
33、管平台使用 CLI 或者 SDK 直接调用接口来创建资源。但面对大量的云网资源,不论是哪种方式,不论是哪种技术,都会遇到下述几个问题:1)部署效率低,创建或删除大量异构资源时,资源之间往往存在依赖关系,需要在不同的产品控制台之间按一定顺序切换进行操 19 作,还要时刻关注资源的部署进度状态,整个过程费时费力。2)网络管理学习成本高、配置易出错。多云交换网络的管理员不仅需要管理云资源,还要掌握网络知识,规划网络参数,维护网络的畅通,这就提高了多云网络的使用门槛,大量的网络参数也增加网络出错可能性。3)可复制性差。很多常用的资源组合、网络拓扑在每次部署时,都要逐步依次操作,无法直接复制,一键部署。
34、4)管理困难。随着云网资源的种类和数量不断增加,没有统一的用户界面和业务模型对各种资源的模型和实例进行管理,也无法展示各种资源实例间的关联关系、展现云网资源的整体视图,只能对零散的资源实例管理,操作困难、管理复杂、运维混乱。因此,需要云网资源统一编排协同技术来解决多云交换网络构建效率和运维管理问题。4.1.2 关键关键能力能力 基于抽象模板的一键式部署基于抽象模板的一键式部署。开通多云交换网络,不需要用户精通网络知识,通过提供常用云网业务模型抽象出来的多云模板,屏蔽复杂的云和网络配置。云网业务开通只需要指定云商、地域、虚机能力,选定多云模板,多云交换网络即可一键式快速开通。组件化组件化 IaC
35、 方式的资源模型管理方式的资源模型管理。将云网资源统一抽象为资源组件,各个云商形态各异的云资源、各种类型的网络资源和应用配置都可定义为组件,通过定义组件的参数模型体现各个资源的业务属性、管理属性、安全属性等,支持自定义组件支持自定义创建、更新、20 删除对应的动作策略,动作策略的实现可以是 API、脚本、配置文件等多种方式。用户也可以自定义组件和模版,实现自己的资源部署管理需求。IaC(基础设施即代码)是将基础设施配置视为代码编程,用户实例化的组件可生成 Terraform 等云管配置,使用模板方式进行部署,大幅度降低云网业务部署的复杂性,提高云网业务的开通速度。资源蓝图配置和管理资源蓝图配置
36、和管理。将一个多云交换网络所需的资源组件在一张蓝图画布上进行可视化设计,基于用户意图,阐明资源组件间的关系。蓝图视图很容易看出整个算力网络的拓扑、各个计算资源的申请情况。通过导入蓝图模板,微调计算资源的数量和规格,用户可快速完成算力网络的设计。基于蓝图设计,对已有的算力网络进行算力扩缩容、网络拓扑调整等运维操作,操作直观所见即所得。蓝图设计或调整完成后可进行部署,各个资源会根据依赖关系以合适的并行度进行快速创建/更新/删除,蓝图上可观测到各个资源部署进度,最终达到用户期望的资源和拓扑状态。4.2 云网融合高性能转发技术云网融合高性能转发技术 4.2.1 概述概述 伴随着 5G 技术的快速发展和
37、边缘业务的兴起,业务边缘部署需求日益增加,在智能制造、智慧城市、车联网、云游戏、AR/VR 等各个垂直领域,时延与带宽成为此类边缘业务的核心关注点。以 UPF为例,边缘业务对 UPF 的要求为在承载百万级用户量的前提下,其 21 端到端转发时延要求不超过 10ms,带宽要求在 50Gbps 以上,核心网UPF 带宽甚至要达到 300Gbps。同时,边缘云节点在空间和供电、承重等方面存在着很强物理约束,这个特点使得原本核心云端的无限资源模式、大规模部署成本效应淡化,因此在边缘云具体部署实现时,必须需要考虑在有限空间、供电资源、承重能力这些前提下,如何满足业务的性能需求。为满足 5G uRLLC、
38、eMBB 以及网络切片场景下边缘多样化业务的部署需求,在边缘节点有限的资源环境下实现大带宽、低时延、高可靠的网络功能,异构转发加速技术应运而生。所谓的异构,就是CPU、SoC、GPU、ASIC、FPGA 等各种使用不同类型指令集、不同体系架构的计算单元,组成一个混合的系统,执行计算的特殊方式。4.2.2 关键关键能力能力 硬件加速硬件加速:硬件加速(Hardware Acceleration)是指将处理工作分配给加速硬件以减轻中央处理器负荷的技术,其利用硬件模块来替代软件算法以充分利用硬件所固有的快速特性(硬件加速通常比软件算法的效率要高),从而实现性能提升、成本优化的目的。目前,ETSI和
39、OpenStack 分别采用了不同的技术架构实现硬件加速。最新的 ETSI NFV 架构引入了硬件加速技术,对 NFVI 进行了增强,增加了加速资源虚拟化能力:将加速器进行抽象,以逻辑加速资源的方式呈现,统一提供全面的加速服务;虚拟化层提供统一接口,适配不同形态的加速硬件形态,如 FPGA、ASIC、SoC 等。并且定义了硬件加速的两种 22 实现方案:Pass-through 方案和抽象模型方案。开源社区 OpenStack也启动了 Cyborg 项目,其主要目标是管理各种加速器的安装驱动程序、依赖关系、安装和卸载。它能够将加速器和 nova 创建的虚拟机实例建立连接,旨在提供通用的硬件加速
40、管理框架。OpenStack 主要面向基础设施中对加速硬件的驱动集成和 VIM 对加速硬件的感知,不涉及上层MANO。截止到T版本,Cyborg项目已经陆续支持Xilinx、Intel 的 FPGA,NVIDIA 的 GPU 卡等加速硬件的生命周期管理,已经实现了基本的管理功能,但距离商用部署还仍需继续优化。软交换(软交换(OVS-DPDK):VM 通过虚拟层实现的一层虚拟交换机(OVS)与网卡交互,实现数据收发。OVS 占用 CPU 核资源,并且,其通过内核中断收发报文,在内核态到用户态又存在内存拷贝,性能较低。OVS+DPDK 提供了用户态驱动接管内核态驱动工作,通过轮询 PMD、大页内存
41、和共享内存等技术实现 OVS 性能的提升。VPP 向量包处理引擎向量包处理引擎:VPP 平台是一个可扩展的框架,可提供开箱即用的生产质量交换机、路由器等功能。它是一个向量数据包处理(Vector Packet Processing,VPP)技术:一种高性能的数据包处理堆栈,可以在商用 CPU 上运行。向量包处理方法便可以一次处理一个以上的批量网络数据包。向量包处理的方法的好处之一就是它解决了指令缓存 i-cache 的抖动问题。它同时还减轻了指令缓存读取延迟的相关问题(通过预取缓存指令降低甚至消除了读取延迟)。除了能够优化指令缓存 i-cache,VPP 的向量包处理还能够优化数据缓存 23
42、d-cache。使用向量包处理方法后,随着向量大小(一组数据包中包的个数)的增加,平均分摊到每个数据包的处理成本也会逐渐降低。VPP的模块化设计理念是使用 graph 的方式来组织各个功能模块。每个graph node 便可以执行一个特定的功能。graph node 与 graph node 之间通过边连接,那么数个 graph node 之间便形成了特定的功能链。VPP 这个基于图的模块化设计,使得任何用户都可以向图中插入一个新的 graph node,这使得 VPP 具有良好的功能可扩展性。用户可以自定义自己的功能模块,然后将定制的模块作为一个新的图节点插入到VPP 的图中。数据包向量会沿
43、着整个图的节点(包括用户自定义的插件节点)被处理。在 NFV 环境中,VPP 经常被用作虚拟交换机或者虚拟路由器,以提供高性能的包处理功能。VPP 可以用在容器中、虚拟机中或裸机上作为主机栈。另外,VPP 基于自身的包处理加速框架,实现了自己的用户态高性能 L2-L7 全栈协议栈。硬直通硬直通(SR-IOV):通过硬件设置将物理网卡映射成多个虚拟网卡(VF)供 VM 使用,虚拟机可以直接连接到物理网卡上,报文可跨过虚拟层直接到 VM,这种方式不再需要虚拟交换功能,但 VM 需适配网卡的 VF 驱动,SR-IOV 在实际使用中的通信性能基本消除 I层带来的性能开销。24 图 4-1 Ovs+dp
44、dk、SR-IOV OVS 卸载智能网卡卸载智能网卡:OVS 或 OVS+DPDK 技术作为软件交换机实现,有可灵活配置各种流控策略(安全组等)、与虚拟机无绑定、端口数量无限制、支持虚拟机热迁移等优势。然而 OVS 或OVS+DPDK 方式小包(64B、128B)转发能力差,并且存在 CPU 消耗问题,会占用原本提供给上层应用的宝贵计算资源。而 SR-IOV 跨过虚拟层,网卡能力直通虚拟机,性能较高,不占用主机的计算资源。但 VF 驱动与虚拟机紧耦合、虚拟机热迁移方案不完善等导致的灵活性差、组网复杂。OVS 卸载智能网卡将 OVS 相关功能卸载至智能网卡,利用加速硬件提高转发能力,释放软件实现
45、占用的 CPU 资源。OVS 智能网卡在业界已有成熟应用,可以提升数据中心的网络质量,降低成本。25 图 4-2 不同数据通路的技术现状 OVS 卸载其核心是将 OVS 的功能模块卸载到智能网卡,通过智能网卡上的加速芯片协助 CPU 处理虚拟网络负载,提升虚拟转发网络吞吐 及时延性能。OVS 智能网卡要求至少支持诸如组播、混杂模式、虚机热迁移、VLAN 透传、QoS 等 OVS 主要功能的卸载。目前业界 OVS 智能网卡卸载能力各不相同,有 OVS 控制面转发面全卸载和 OVS 转发面卸载两种方式。OVS 智能网卡北向对接虚拟层。若虚拟层与 OVS 全解耦,则需 OVS 智能网卡厂商与虚拟层完
46、成兼容性适配。若 OVS 控制面仍由虚拟层实现,OVS 硬件加速厂商仅负责 OVS转发面功能,需标准化 OVS 控制面和转发面协议,目前 OVS 控制面和转发面协议有 rte_flow、TC flower 和私有协议三种实现方式,其中,rte_flow 为最优。在当前控制面与转发面协议实现有差异的情况下,26 建议 OVS 整体打包由智能网卡厂家提供,与虚拟层解耦。通用网卡加速技术:通用网卡加速技术:随着技术的发展,通用网卡的高级特性也可完成部分简单的数据包处理工作,实现业务加速。DDP(Dynamic Device Personalization)又称动态设备个性化设置,此功能通过加载固件配
47、置文件(profile)动态地实现重新配置数据包处理流水线,以满足特定的场景需求。即英特尔 700 系列网卡具有部分可编程能力,通过加载特定的固件配置文件,可以为用户提供特定通信网络协议的解析支持,结合网卡的 FDIR(流引导)和 RSS(散列技术)特性,实现网络报文解析和分发的硬件卸载,从而提高网络性能。英特尔当前提供的工业级配置文件(Profile),已涵盖多种协议类型,如 PPPoE、GTP-U/C、L2TP 等。这些配置文件可以通过通用的Ethtool 或者DPDK驱动进行便捷的加载。算网计算的主要场景和位置都处于边缘,所以综合分析比较,我们认为多云转发通过 VPP 技术实现 10G
48、到 100G 的虚拟化加速方案能满足大多数业务场景。同时,随着云网业务的融合,云中有网网中有云,我们认为多云转发必须支持和 OpenStack/K8S 等多种虚拟化平台的整合,必须支持除了云网连接之外的 NFV 功能包括虚墙 vFW、虚拟负载均衡 vLB 等的整合,VPP 的全栈协议栈能力也能很好的支撑云网融合的 L2-L7 层应用,其总体架构如下:27 图 4-3 多云高性能转发架构 4.3 云网一体安全和零信任技术云网一体安全和零信任技术 4.3.1 概述概述 传统 IT 网络安全依赖在网络边界的防火墙保护其最有价值的资源,例如用户数据。这些安全策略涉及的安全设施例如防火墙、IPS/IDS
49、、WAF 等一般部署在企业或数据中心的 DMZ 区域或者企业或数据中心的出口。然而,随着技术的更新,数字化转型和混合云基础架构迁移正在改变各个行业开展业务的方式,远程办公日益普遍,VPN 之类的技术广泛应用,企业成千上万的个人电脑在接入办公系统,脱离了 IT 部门的掌控。用户、数据和资源分布在全球各地,难以快速、安全地连接起来。另一方面,脱离了传统本地基础结构的保护,员工的居家办公环境和云上基础设施例如云桌面更易受到攻击,从而给业务带来风险。云网融合场景下安全服务的设备形态、部署形 28 态、策略形态必须改变,必须有一个可以感知云、网和数据的可以虚拟化弹性部署的可以集中管理的统一安全架构。除了
50、云网安全服务和架构的改变,对于使用安全服务的对象同样也经历着深刻的变化。在传统 IT 安全模型中,一旦获得网络访问权限,默认情况下,网络内部的每个人都受到信任,这个模型的问题在一旦非法入侵者获得网络访问权限,就可以自由支配网络内的所有资源。2010 年,Forrester 的 John Kindervag 在 No More Chewy Centers:Introducing The Zero Trust Model Of Information Security中提出了零信任的概念。Google 的 BeyondCorp 是一个零信任解决方案并且实现了基础的零信任组件,他们在 2014 年通
51、过一系列的文章阐述了他们的实现理念,这很大的程度上影响了业界。美国 NIST 在 2020 年发布的NIST Special PublicationZero Trust Architecture以及一个关于零信任的项目 US National Cybersecurity Center of Excellence。零信任安全意味着默认情况下,网络内外都不信任任何人,并且试图访问网络资源的每一个人都需要进行验证。已有证据表明这种附加的安全层可以防止数据泄露。研究表明,单个数据泄露事故的平均成本超过 300 万美元。因此零信任所倡导的改变是必要的。因为通过零信任,可以防止恶意用户在企业边界内部访问私
52、有资源、防止数据泄露以及恶意操作,减少客户数据泄露的损失。在多云网络互联环境下,数据不再集中存放于一处,而是部署在多个公有云和用户的私有云中,网络的访问边界类型更多且不固定,29 传统网络那样的集中访问控制不再可行,因此出现网络控制和安全策略置于云端置于边缘,而不仅仅是企业数据中心,通过在边缘网络上实施基于身份的零信任访问策略,企业可以将其网络边界扩展到任何远程用户、分支机构、设备或应用程序。因此全球研究和咨询公司Gartner 在 2019 年提出 SASE,它将软件定义的网络与网络安全功能捆绑在一起应用于多云网络,而 SASE 高度依赖于零信任,在用户身份得到验证之前,不会授予用户访问数据
53、的权限。4.3.2 关键能力关键能力 零信任网络访问零信任网络访问(ZTNA):零信任本质是以身份为基石的动态访问控制,即以身份为基础,通过动态访问控制技术,以细粒度的应用、接口、数据为核心保护对象,遵循最小权限原则,构筑端到端的身份边界。类似于用于控制访问的软件定义边界(SDP)方法。在ZTNA 中,与 SDP 一样,连接的设备只知道它们所连接的资源,对于网络上的其他任何资源(应用程序、服务器等)一无所知。ZTNA以身份为中心提供对应用程序和服务的安全远程访问、安全态势感知、多因素身份验证单点登录、多位置多维度细粒度安全管控。与VPN 不同,ZTNA 基于预定义的或态势感知分析学习到的访问控
54、制策略,缺省情况下拒绝访问,安全管控对象间访问必须有明确的授权。ZTNA 在通过安全的加密隧道认证用户之后建立安全访问,只允许用户查看自己有权访问的应用程序和服务。零信任安全策略的管控对象可以是网络和网络之间,云和云之间,用户和用户之间,应用和应用 30 之间,用户和应用之间的数据交互,可有效防止内网攻击者漫游,网络攻击会利用这种漏洞来扫描并瞄准其他服务。基于 ZTNA,企业可以实现按位置和按身份的访问控制策略,防止可能已受攻击的设备连接到其服务。统一身份和访问管理(统一身份和访问管理(IAM):身份(identity)成了控制访问的最重要的安全因素,决定用户可以访问的云数据以及他们是否有权访
55、问的服务,不是用户使用的设备或所处位置,而是他们的身份。身份可以关联标识某一个或一组用户、用一个或一组应用、某一个或一组设备甚至某一个访问,可以是固定的永久的标识(permanent identity),也可以是临时的短期的标识(one-time identity)。IAM 有助于避免因特权升级而导致的基于身份的攻击和数据泄露(当一名未授权的客户访问权限过度授权)。因此,IAM 系统对于云计算而言至关重要。使用多云或混合云结构的企业可以使用独立 IAM 供应商或独立的私有化 IAM 服务,将 IAM 跟其他公共云或私有云服务分离,更加灵活安全,在切换云供应商时依然能够维护其身份和访问其数据库。
56、多云网络微分多云网络微分段(段(Micro-Segmentation):网络微分段是一种将安全边界划分为小区域的做法,以分别维护对网络各个部分的访问。由于零信任访问是分段的且必须定期重新建立,因此攻击者无法移动到网络中的其他网络分段。一旦检测到攻击者的存在,就可以隔离遭入侵的设备或用户帐户,切断进一步的访问。软件定义网络(SDN)将管理流量的网络控制平台与转发平台分离,可以通过 API 编辑网络 31 控制,允许更多的动态流量调整和微分段链路的分段控制。通过 SDN实现的分段使人们可以创建更细粒度的安全分区。服务网格以及边缘安全服务网格以及边缘安全:多云互联环境下 IT 基础设施分散部署到多个
57、云服务提供商,对多个部署位置的零信任架构 ZTA 进行管理的需求将会涌现,因此在计算边缘需要引入零信任安全架构,例如在分布式应用程序及其应用程序源(云端或本地)的“网格(Mesh)”上建立零信任架构的能力。网络访问监控网络访问监控:应该通过各种安全手段检查和记录所有流量,形成日志,以确保用户只尝试访问他们被允许访问的系统。在发现可疑行为时发出告警。安全能安全能力池化和按需编排调度力池化和按需编排调度:对常用的网络安全能力(流量型:vFW、vIPS、vWAF,监控审计类:日志审计、数据库审计、漏洞扫描等)实现标准化和虚拟化,在公有云、私有云的不同区域构筑安全能力池,根据业务防护需要进行网络编排和
58、调度(SFC、VXLAN),实现安全能力的按需调用。4.4 可编程多云网络可编程多云网络技术技术 4.4.1 概述概述 云网融合技术的蓬勃发展对广域网提出了新的挑战,SD-WAN作为重构广域网的核心技术,通过自动部署、集中控制、智能调度及可视化等手段,加速网络交付,优化应用体验,提高带宽利用率,简 32 化网络运维,满足了云计算对广域网的需求。网络业务种类越来越多,不同业务对网络的要求不同的服务质量,也对传统 IP/MPLS 网络提出了挑战:1)IP 承载网的孤岛问题。MPLS 统一了承载网,但是 IP 骨干网、城域网、移动承载网之间是独立的 MPLS 域,是相互分离的,需要使用跨域 VPN
59、等复杂的技术来互联,导致端到端业务的部署非常复杂。而且在 L2VPN、L3VPN 多种业务并存的情况下,设备中可能同时存在 LDP、RSVP、IGP、BGP 等协议,管理复杂,不适合大规模业务部署。2)IPv4 与 MPLS 的可编程空间有限。当前很多新业务需要在转发平面加入更多的转发信息,但 IETF 已经发表声明,停止为 IPv4 制定更新的标准;另外 MPLS 只有 20bit 的标签空间,且标签字段固定、长度固定,缺乏可扩展性,导致很难满足未来业务的网络编程需求。3)应用与承载网隔离。目前应用与承载网的解耦,导致网络自身的优化困难,难以提升网络的价值。当前运营商普遍面临被管道化的挑战,
60、无法从增值应用中获得相应的收益;而应用信息的缺失,也使得运营商只能采用粗放的方式进行网络调度和优化,造成资源的浪费。MPLS 也曾试图更靠近主机和应用,但因为其本身网络边界多、管理复杂度大等多方面的原因,均以失败告终。4)传统网络数据面和控制面紧密耦合,相互绑定销售,在演进上相互依赖,业务上线周期长,难以应对现在新兴业务快速发展的局 33 面。SRv6 的出现解决了上述一系列问题,推动网络进入一个全新的时代。4.4.2 关键能力关键能力 SRv6 是基于 IPv6 转发平面的 SR 技术,其结合了 SR 源路由优势和 IPv6 简洁易扩展的特质,具有其独特的优势。SRv6 技术特点及价值可以归
61、纳为以下几点:智能可编程智能可编程:1)SRv6 具有强大的可编程能力。SRv6 具有网络路径、业务、转发行为三层可编程空间。SRv6 的网络可编程能力体现在 SRH(Segment Routing Header)扩展头中,如下图所示。SRv6中转发路径、转发行为、业务类型均可控。使得其能支撑大量不同业务的不同诉求,契合了业务驱动网络的大潮流。2)SRv6 完全基于SDN 架构,可以跨越 APP 和网络之间的鸿沟,将 APP 的应用程序信息带入到网络中,可以基于全局信息进行网络调度和优化。图 4-4 SRv6 的网络可编程能力 34 极极简融合简融合:SRv6 不再使用 LDP/RSVP-TE
62、 协议,也不需要 MPLS标签,简化了协议,管理简单。EVPN 和 SRv6 的结合,可以使得 IP承载网简化归一。SRv6 打破了 MPLS 跨域边界,部署简单,提升了跨域体验。1)仅需要在源节点上控制和维护路径信息,网络中其他节点不需要维护路径信息。2)SRv6 基于 IGP 和 BGP 扩展实现,无须使用 MPLS 标签,不需要部署标签分发协议,配置简单。在 SRv6网络中,不需要大规模升级网络设备,就可以部署新业务。在 DC(数据中心)和 WAN(广域网)中,只需网络边界设备及特定网络节点支持 SRv6,其他设备支持 IPv6 即可。图 4-5 简化网络协议 IP everywhere
63、:SRv6 基于 Native IPv6 进行转发。SRv6 是通过扩展报文头来实现的,没有改变原有 IPv6 报文的封装结构,SRv6 报文依然是 IPv6 报文,普通的 IPv6 设备也可以识别 SRv6 报文。SRv6设备能够和普通 IPv6 设备共同部署,对现有网络具有更好的兼容性,可以支撑业务快速上线,平滑演进。另外基于 Native IPv6,使得其可以进入数据中心网络,甚至用户终端,促进云网融合。易扩展可定制:易扩展可定制:SRv6 定义了多种类型的 SID,不同 SID 具有不 35 同的作用,指示不同的转发动作。通过不同的 SID 操作,可以实现VPN 等业务处理。日后,用户
64、还可以根据实际需要,定义新的 SID类型,具有很好的扩展性。SRv6 基于以上特点,成为构建“智简 IP”的利器。同时也为 IPv6 的发展带来了转机,开启了 IPv6+新时代。4.5 多云智能运维多云智能运维技术技术 4.5.1 概述概述 运维是运营维护人员根据业务需求来规划信息、网络、服务,通过网络监控、事件预警、业务调度、排障升级等手段,使服务处于长期稳定可用的状态。早期的运维主要由运维人员手工完成,这种运维模式不仅低效,也消耗了大量的人力资源。利用工具来实现大规模和批量化的自动化运维管理,能很大程度上减少人力成本,降低操作风险,提高运维效率。但自动化运维的本质依然是人与自动化工具相结合
65、的运维模式,受限于人类自身的生理极限以及认识的局限,无法持续地面向大规模、高复杂性的系统提供高质量的运维服务。因此,传统运维模式面临“安全运行、人力紧缺、远程运维”三大挑战,必须通过人工智能来辅助或替代人工决策,提升运维质量和效率。多云交换网络作为一个大规模、高复杂性的互联系统,其稳定可靠的运行,也离不开高效运维和运营支撑。伴随着多云算力融合的演进,其运维管理将向智能化方向发展,将人类的知识和运维经验与大数据、机器学习等技术相结合,形成一系列的智能策略,围绕质量保 36 障、成本管控和效率提升等基本需求,逐步构建智能化运维和运营模式。在质量保障方面,保障多云交换网络稳定运行,包括异常检测、故障
66、诊断、故障预测、故障自愈等;在成本管控方面,包括指标监控,资源优化,容量规划等;在效率提升方面,包括智能预测,智能问答,智能决策等。通过运用机器学习等人工智能算法,从海量运维数据中学习并总结规则,并得出有效的运维决策。4.5.2 关键关键能力能力 异常检测与分析异常检测与分析:包括异常检测分析和知识推理能力。异常检测分析基于 AI 算法自动分析网络状态,支持故障根因定位、网络瓶颈分析等功能,并能自动推荐解决方案;知识推理基于业务的形式化表示通过形式化方法做知识推理,求解故障修复配置等方案。其中,异常检测分析涉及数据预处理、AI 分析、异常告警、异常定位等环节,如下图所示。数据预处理对多云交换平
67、台采集获取的各类状态监控数据进行综合处理,形成归一化的标准数据流;AI 分析是基于人工智能深度学习算法进行推理,将处理的数据作为输入,输出模型重构或预测结果,然后将模型推理结果与真实状态值进行比较,判断该时刻是否存在异常;异常告警即异常判别的方式,可以根据数据的类型和业务场景需求采用阈值判定、边界比较、分布范围判定等方式进行判断;异常定位是针对告警的异常信息,通过反向追踪的方式寻找导致异常产生的根本原因,即异常是由哪个或哪些指标状态变化导致的。37 图 4-6 异常检测分析流程和功能示意图 定位异常之后,下一步是需要处理异常,即通过知识推理匹配故障处理的最优方案。知识推理的方式涉及规则推理、统
68、计分析、图推理和神经网络推理四种不同的技术路径,可根据实际场景需求选择一种或多种方法进行组合使用,以达到较好的推理效果。规则库规则推理统计分析图推理输入马尔可夫贝叶斯 路径排序关联规则挖掘 神经网络推理基于语义的推理基于结构的推理 结果1结果2结果3结果4 图 4-7 知识推理流程和功能示意图 智能预测与优化智能预测与优化:包括 QoS 优化、无线优化、资源优化和数据 38 预测能力。QoS 优化是基于模型预测控制的动态 QoS 优化;无线优化是基于 AI 算法的无线频段优化、干扰规避、WAN 智能选路优化等能力;资源优化是基于 AI 智能分析优化资源配置;数据预测是基于AI 算法的容量规划、
69、资源使用预测分析等能力。智能预测与优化算法涉及传统机器学习算法如进化类算法、群智能算法、模拟退火算法等,以及深度学习算法,如强化学习类算法和深度学习数据预测算法等。进化类算法群智能算法深度学习算法其他算法遗传算法差分进化算法免疫算法 蚁群算法粒子群算法 强化学习算法数据预测算法 模拟退火算法禁忌搜索算法 输入数据(网络、资源、带宽、QoS等)结果 图 4-8 智能预测与优化功能示意图 基于深度学习算法的数据预测流程如下图所示。根据历史数据进行模型训练,形成训练好的模型和参数,然后在部署时接入实时数据流,输入到模型,输出预测结果。39 历史数据模型训练实时数据训练好的模型预测结果 图 4-9 基
70、于深度学习算法的智能预测示意图 机器助理机器助理:包括知识问答和运维机器人。知识问答是基于文本或语音的人机交互的问答系统,包括 NLU,知识推理和 NLG;运维机器人是面向智能运维的人机交互系统。其中,知识问答是用户以更加自然交互的方式通过语音与系统进行对话,提出相应的需求,可以是打开多云交换网络平台的某个功能、查看某个页面、处理某个问题等,系统能够接收用户的语音信号,并进行语音识别和语义分析,识别用户意图,根据用户意图执行相应的动作。知识问答支持多轮对话以精确捕获用户需求。语音输入语音识别语义识别(意图分析)意图执行语音反馈,多轮对话语音识别模型语义分析模型意图库知识库动作库 语音生成语音生
71、成模型 图 4-10 知识问答流程示意图 40 运维机器人是针对系统运维的人机交互系统。由于多云交换网络技术重点针对各类云、网资源的整合和运用,不涉及数据中心机房自身的运维管理,因此运维机器人不涉及机器人平台本身,而是一个虚拟的“机器人”。该运维机器人的主要能力是:1)常态化运行监控系统运行状态,包括各类云网资源的运行状态监控,用户行为监控等,针对异常状态和行为进行告警提示;2)以自动化的方式处理产生的异常;3)以人机自然交互的方式解决用户提出的运维问题。五五、多云多云交换交换网络网络应应用场景和案例用场景和案例 5.1 应应用场景用场景 新兴技术市场总是从解决非常具体的问题开始,多云互联的挑
72、战众多且复杂,需要多种云网技术来解决特定需求,多云互联所需的技术栈能够覆盖整个网络并且可针对特殊应用场景进行定制化交付。拥有一个统一抽象建模的多云互联网络可以解决许多运营挑战,包括网络的可视化、安全性、合规性、冗余性以及云上应用的可靠性,国内外云网厂商有足够的经验来构建和集成各种解决方案,其中许多在白皮书中都有介绍,多云互联可以应用在如下场景中:云边协同:云计算提供强大的处理能力和存储空间,计算效率更高,边缘计算则有更快速的数据处理和分析能力,超低时延,减少带宽消耗、服务增强等优势,提升用户体验。企业可以通过多云交换平 41 台,实现异构/异服务商的云边紧密协同,更好的处理各种复杂的需求场景,
73、最大化体现云计算和边缘计算的应用价值。例如,在智能安防领域,企业可以将监控数据存储到边缘计算节点,从而有效降低网络传输压力和业务端到端时延。此外,视频监控还可以和人工智能相结合,在边缘计算节点上搭载 AI 人工智能视频分析模块,实现本地分析、快速处理、实时响应。云端执行 AI 的训练任务,边缘计算节点执行 AI 的推论,二者协同可实现本地决策、实时响应,可实现表情识别、行为检测、轨迹跟踪、热点管理、体态属性识别等多种本地AI 典型应用。安全:当连接跨云应用时,企业需要构建一个通用的多云网络,该网络既可以采用云原生网络结构,又可以实现跨多云运行的高级网络和安全服务。跨云构建多云互联网络会带来一些
74、复杂的安全挑战,例如同时管理企业网络中的防火墙以及公有云中的防火墙。许多新兴的多云互联系统具备高安全性能,比如加密隧道和跨云的防火墙连接,这可以帮助 IT 运维跨网络配置统一的多云入口和出口以及远程访问控制策略来确保企业网络和云间实现一致的安全性。网络集成:现有公共云使用存在的挑战之一是使用单一公有云可能会导致“锁定”某一个特定云服务商。多云互联可以通过使用云网关、API、和软件编排来构建可以跨多个云连接的统一基础架构,从而帮助提高企业的灵活性和敏捷性。多云互联还可用于集成路由、解析路由表、DNS、NAT 和配置云防火墙,这些是将私有网络与云网 42 络打通的重要因素。流程和运营的可视化、合规
75、性:多云互联网络中最值得关注的领域之一是如何让运维团队简单、快捷的跨云扩展网络。多云互联可以帮助解决多云和混合云应用的一些挑战,许多应用可以构建在微服务上或使用流行的云原生编排工具。多云互联可以实现统一跨云的遥测、监控和网络策略可视化,包括流量分析、网络分段控制和单个控制台中的故障排除等功能。企业边缘的集成(包括 SD-WAN):SD-WAN 市场呈现爆炸性增长,根据 Futuriom 年度 SD-WAN 增长报告,该市场的复合增长年利率超过 30%。企业使用 SD-WAN 主要用于集成、优化和自动从本地连接化到企业边缘。多云互联网络可以被视为一种集成、优化和自动化多云连接的方式,可以通过 S
76、D-WAN 在网关或边缘节点连接到云服务商。SD-WAN 和多云互联网络之间的集成需求未来会大量增加,用来作为企业扩展其 WAN 资源的一种方式。5G 边缘和无线连接:运营商将 5G 视为部署增值服务的关键,包括自动驾驶、AR/VR 等潜在的巨大市场。同时,企业也在考虑构建自己的新无线网络,在“边缘”实时处理数据或尽可能的靠近自己的设施和设备,来支持工业自动化或业务分析。在这种情景下,多云互联在将 5G 网络连接到云端方面发挥重要作用。东数西存:“东数西存”通过在西部构建新型数据中心,为东部提供算力保证,支撑行业数字化转型,推动数字经济的发展。伴随着 43 东数西算、东数西存、东数西训、东视西
77、训等不同的业务场景和需求,亟需东西部的统一云平台管理,实现东部业务数据在西部云平台的备份、恢复与业务快速拉起;同时灾备传输数据量大需要网络具备大带宽的数据交换能力,且网络带宽要求按需可调,以降低用云用网成本。通过构建多云交换网络,能够在为企业客户节省成本、网络弹性等方面发挥巨大作用。5.2 应用案例应用案例 当前,云服务商正在开发更加便捷的多云网络,包括 AWS、Azure、谷歌、IBM、阿里、华为等云服务商正在构建庞大的云基础设施,以帮助企业使用本地 PoP 点的 API 网关直接连接到其全球网络。这一趋势使企业和 SD-WAN 供应商能够通过使用 Azure ExpressRoute、阿里
78、云 VPC、Amazon VPC 或 Transit Gateway 等服务直接接入云网络来提高应用程序性能。Equinix 和 Digital Realty 等集成商已经构建了大量的托管设备,现在正在通过虚拟网络连接工具(如 Equinix 的 ECX)扩展到软件管理领域,该工具旨在帮助网络管理人员在各个数据中心之间构建多云交换网络。许多 NaaS 提供商正在使用云原生方法来帮助企业连接到基础设施。例如,Megaport 使用 Overlay 的方式和基于软件配置的方式来提供私有云网络之间的点对点链接。PacketFabric 提供基于 Web 的 NaaS 44 配置平台,可即时构建多云连
79、接,包括增加带宽,且用户无需手工配置链路。Alkira 由 SD-WAN 先驱 Viptela(Cisco)的创始人创立,通过灵活的自服务抽象出所有网络配置,为 NaaS 提供自己的云基础设施。Teridion 基于公有云 Overlay 的方案提供线路最佳选择。Cato Networks 始于 SD-WAN 阵营,依托于其云安全产品正在迅速扩大其PoP 数量。传统运营商,例如电信、移动、AT&T、Telefonica、和 Verizon,正在对其主要网络资产的软件控制层进行虚拟化。主要问题是他们是否能够克服他们的传统业务模型和缓慢的开通流程来直接转移到虚拟化模型。许多运营商在构建更现代的 O
80、SS 和 BSS 软件方面取得了长足的进步,这些软件可以为多云网络增值业务提供服务和计费,同时使用户实现网络的自服务户。运营商与 SD-WAN 供应商的合作伙伴关系将进一步扩展多云互联网络功能,从而提升网络的性能与覆盖面积。(1)航航空领域案例空领域案例 某飞机维修公司是一家专门从事飞机及机载零部件维修的中外合资企业,为客户提供全面、高质、高效的飞机维修工程服务。随着 5G、云计算、AI 等新技术发展,该公司开发 AI 辅助检修系统,构建从前端数据预处理到模型训练、推理,再到数据预测、特征提取的全流程,提升自动检修能力。该公司在所服务的机场部署中国电信边缘计算平台及轻量级下沉 UPF,边缘计算
81、平台部署故障分析 45 模块,总部云计算中心部署故障 AI 训练模块,边缘计算平台与总部云计算中心通过多云交换网络实现互联互通。维修工人在检修时佩戴AR 眼镜采集检修的图像数据,通过中国电信 5G 切片专线传送输至边缘计算平台故障分析模块进行分析,并将分析结果与人工检修结果进行核对,形成双重保障。同时,边缘计算平台故障分析模块定期将检查物料上传至总部云计算中心,总部故障训练模块执行 AI 训练任务。(2)汽车制造企业案例汽车制造企业案例 某集团为国内 TOP 汽车制造企业,分支网点覆盖全国 20 多个城市,服务数千万企业与家庭用户。历史上集团旗下多个子公司独立建设数据中心,十多个小型数据中心遍
82、布各地,单数据中心规模在 100机架以内,数据中心间通过骨干网互联。烟囱式架构导致数据共享困难,尤其是互联网造车、自动驾驶汽车与车联网技术兴起,传统数据中心架构无法支持大规模算力整合的诉求。为此,该企业启动了数据中心架构调整。一方面,在总部构建同城双活数据中心承载核心生产业务,单数据中心规模大于 1000 机架;另一方面,额外通过驻地云、公有云等资源部署互联网前端业务,实现综合成本最优。然而,多云架构存在差异,各家厂商设备命令行差别巨大,传统数据中心、硬件 SDN 数据中心、软件 SDN 数据中心并存之下,异构网络协同管理带来诸多挑战。该企业现网承载 1000 多个业务系统且横跨多个地理区域,
83、业务 46 变更需要通过工单分解方式逐段打通,业务上线耗时长达一个月。不仅如此,跨多个数据中心互联互通访问关系无法清晰可视,每次配置变更完全依赖人工校验结果,关键业务质量难以保障。云内流量及云内云外互通流量时,由于缺乏统一调度平台,导致东西南北向访问控制和 L4-7 层防护安全策略无法统一制定。为实现云网协同的一体化灵活管理,该企业于 2021 年构建了多云交换平台,可实现跨云网络的全生命周期自动化开通、智能运维和安全调度,业务部署周期缩短到天级。基于多云操作系统的统一多云服务模型,可屏蔽各种云形态、软件 SDN、硬件 SDN、传统网络的异构厂商多分区的差异,实现无差别统一自动化管理。工程师可
84、以基于 GUI 界面对全网工作流进行统一编排,系统基于内置仿真校验能力,辅助工程师识别配置过程的异常,确保变更符合预期。多云操作系统进行统一流量调度,将云内流量及云内云外互通流量引流到硬件防火墙,并统一制定安全策略,实现云内东西南北及云内云外访问控制和 L4-7 层防护。(3)健康保险企业案例健康保险企业案例 某健康保险企业有较为悠久的历史,在各地开设有线下服务网点。随着互联网保险模式的引入,传统数据中心的架构问题日益凸显。存量网络设备已在网运行八年,维保到期,无法演进;疫情刺激线上业务量激增,老数据中心无法承载新业务,并且人工开通速度慢。为此,公司确定了混合云的转型战略,将原有数据中心全新升
85、级扩容,47 承载数据库等核心账务系统;同时租赁公有云资源,使用云端提供的SaaS 实现前端功能的快速开发迭代。为实现多云统一管理,该企业部署了多云交换平台,可实现跨云业务链端到端自动化编排和算力统一调度,创新业务上线效率翻倍。基于平台提供的智能运维等能力,可对实时监控多云网络健康度指标,异常情况可快速定位问题点;同时,系统提供跨云流量统计,为企业调整专线链路资源分配提供参考。(4)金融金融案例案例 金融行业在数据、技术的双轮推动下,金融与科技深度融合有力提升了金融服务质量和效率,金融业得到了蓬勃发展。在十四五规划的指引下,央行印发了金融科技发展规划(2022-2025 年),提出“力争到 2
86、025 年实现整体水平与核心竞争力跨越式提升”的金融科技发展愿景。金融行业建设绿色、智能、高可用金融数据中心,数据中心向规模化、集约化方向发展,按照东数西算要求,将后台加工、离线分析、存储备份等非实时数据向西部转移,数据中心间多云互联、多云管理的能力成为必需。某银行为适应新技术发展趋势、提升科技支撑与引领能力,私有云平台与公有云平台互联互通建设确立为组织技术架构转型的战略性基础工程。随着各类系统上云需求的不断增加,对云平台的稳定性、连续性、安全性的要求越来越高。为能满足服务需求、保证业务连续性,规避单一产品的系统性风险、增强商务采购的机动性,紧跟应用 48 信息科技新技术,采用多云交换平台,为
87、银行提供了先进性、安全性、开放性和具备可扩展性、可伸缩性、可维护性与易用性的云平台。49 附录 A:术语与缩略语 中文名称中文名称 英文缩写英文缩写 英文全拼英文全拼 人工智能 AI Artificial Intelligence 应用程序编程接口 API Application Program Interface 增强现实/虚拟现实 AR/VR Augmented Reality/Vitual Reality 未来网络试验设施 CENI 命令行接口 CLI Command-line Interface 数据中心 DC Data Center 数字孪生 DT Digital Twin 基础设施
88、即代码 IaC Infrastructure as Code 统一身份和访问管理 IAM Identity and Access Management 信息与通信技术 ICT Information and Communications Technology 互联网数据中心 IDC Internet Data Center 互联网技术 IT Internet Technology 多 DC 控制模块 MDC Multiple Data Center Network Controller 网络功能虚拟化 NFV Network Functions Virtualization 自然语言生成 NL
89、G Natural Language Generation 自然语言理解 NLU Natural Language Understanding 服务质量 QoS Quality of Service 软件即服务 SaaS Software as a Service 软件开发工具包 SDK Software Development Kit 软件定义边界 SDP Software Defined Perimeter 软件定义网络 SDN Software Defined Networking 软件定义广域网 SD-WAN Software-Defined Wide Area Network 基于
90、IPv6 转发平面的段路由 SRv6 Segment Routing IPv6 用户面功能 UPF User Plane Function 虚拟私有网络 VPC Virtual Private Cloud Web 应用防火墙 WAF Web Application Firewall 广域网 WAN Wide Area Network 零信任网络访问 ZTNA Zero Trust Network Access 50 参考文献 1 Flexera Software:State of the Cloud Report.2022.2 中国信息通信研究院:云计算白皮书.2022.3 弗若斯沙利文:云原生市场研究报告.2022.4 Autonomous Networks:Empowering digital transformation for smart societies and industries,TMF,Release 2.2020.5 华为技术有限公司:华为自动驾驶网络白皮书.2020.6 中国信息通信研究院:多云管理平台白皮书.2020.7 华为技术有限公司:智能云网 IPv6+演进技术白皮书.2021.8 清华大学等:通信人工智能赋能自智网络白皮书.2021.9 中国信息通信研究院:混合云白皮书.2021.10 中国信息通信研究院:分布式云发展白皮书.2022.