《华为&中国信通院:2023分布式云原生白皮书(58页).pdf》由会员分享,可在线阅读,更多相关《华为&中国信通院:2023分布式云原生白皮书(58页).pdf(58页珍藏版)》请在三个皮匠报告上搜索。
1、01云计算作为信息技术发展和服务模式创新的集中体现,多年来在政策、市场、需求等因素的驱动下蓬勃发展,不断推动数字经济和实体经济的深度融合。从技术层面看,云计算已全面转向云原生;从形态方面看,云计算从聚焦中心到无处不在。新时代下,分布式云原生将进一步发挥云的普惠价值,催生全新发展机遇。本白皮书梳理了分布式云原生的发展背景,给出了分布式云原生的清晰定义,深入剖析了分布式云原生的战略价值,描绘了分布式云原生的总体架构,详细解析了分布式云原生的技术要点。本白皮书从典型应用场景出发,对比了分布式云原生解决方案较传统模式带来的显著变化与优势。同时,配合电信、制造、金融、物流四大 重点行业的具体实践,充分展
2、现了分布式云原生的实际效用与现实价值。最后,本白皮书对分布式云原生的未来发展进行深度展望。期望本白皮书能够加深业界对分布式云原生的认知,为分布式云原生建设提供参考思路,加速分布式云原生技术的持续演进,推动分布式云原生理念的广泛落地。引言分布式云原生白皮书引言02第一章 背景分布式云原生白皮书第一章 背景03分布式云原生白皮书第一章 背景 新业态下业务模式积极求变,分布式云需求激增。产业数字化大背景下,重点行业持续推进数字化转型,传统业务模式迎来阶跃式发展。随着工业互联网、车路协同、智能家居、智慧城市等新场景的持续涌现,数据实时采集、分析、处理以及决策等边缘侧的自动化智能化需求攀升。截至2022
3、年底,我国移动物联网连接数已达18.45亿户,较上一年度净增4.47亿户,占全球总数的 70%3。为满足新业态下用户对性能、体验、安全、管理等方面的多元诉求,云服务触达范围持续扩大,已从中心延申为云边端的深度协同。需求、技术、市场多方驱动,分布式云是云时代的必然选择。分布式云体现了一种将云服务按需部署到不同地理位置,提供统一管理能力的云服务理念。分布式云模式下,通过自动化标准化的管理方式能够随时随地随需获取云服务,同时借助高一致性的云能力能够在任意位置构建、部署与运维应用。Gartner 在 2020、2021 连续两年将分布式云列入战略技术趋势,并于 2022 年预测分布式云将在 5-10
4、年内进入稳定发展期,到 2025 年超过 50%的组织将在其选择的地点使用分布式云。产业界积极布局,分布式云成为重点发力的新赛道。鉴于分布式云良好的发展前景与巨大的发展潜力,当前全球头部云服务商在分布式云领域积极开展实践。华为云发布 UCS 服务,提供本地集群、多云集群等多种 Kubernetes 发行版,支持将容器管理能力延伸至用户任意基础设施,并且提供对多 Kubernetes 集群的统一管理和治理。AWS 发布 Outposts 托管服务一体机,配合 Local Stack、Local Zones 等服务将云能力无差别地下放到边缘。微软发布 Azure Arc,将 Azure云服务延伸到
5、用户所需任意的基础设施。Google 推出 Distributed Cloud,基于 Anthos 实现跨公共云、边缘位置和本地的基础设施的一致化管理。1 数据来源:中国数字经济发展研究报告(2023年),中国信息通信研究院2 数据来源:云计算发展白皮书(2022)年,中国信息通信研究院3 数据来源:中国互联网络发展状况统计报告,中国互联网络信息中心,2023年3月1.1 数字浪潮蕴藏新机遇,云计算推动产业高质量发展1.2 拥抱万物互联新常态,分布式云迎来黄金发展期 数字经济稳定发展,数字技术充分发挥创新驱动效用。数字时代,新一轮变革为全球各国带来新机遇,数字经济对全球经济发展的加速效用凸显。
6、2022 年,我国数字经济规模达 50.2 万亿元,占 GDP 比重达 41.5%,连续 11 年显著高于同期 GDP 名义增速1。产业数字化是指传统产业应用数字技术所带来的产出增加和效率提升部分,作为数字经济的核心组成部分,规模占数字经济比重超 80%。随着产业数字化进程的深化,以云计算、大数据、人工智能、区块链等为代表的先进数字技术正在与实体经济充分融合,为传统产业注入新活力,成为驱动创新发展的变革性力量。云计算是全球科技竞争的胜负手,战略地位凸显。作为科技竞争的重点发力领域,各国高度重视云计算的发展。美国政府先后推出云优先、联邦政府云、云敏捷等战略,将云计算提升为云计算产业的发展、创新与
7、落地提供了良好的环境。2011 年德国发布云计算行动计划,力争借助云计算产业推动数字经济总产值大幅增加。2015 年国务院发布的关于促进云计算创新发展培育信息产业新业态的意见中指出云计算发展的阶段性目标、主要任务与保障措施。“十四五”规划和 2035 年远景目标纲要中将云计算列入数字经济重点产业,提出要加强云计算系统研发。云计算发展进入深水区,成为数字时代的技术底座。云计算经过多年演进,技术生态持续丰富,产业链趋于完善,落地推广效果良好,成为数字时代的重要基础设施。从市场角度看,2021 年我国云计算市场规模达 3,229 亿元,同比增长54.4%2。从服务水平看,我国已形成覆盖 IaaS、P
8、aaS、SaaS 全链路的云服务产品,对上层应用需求形成良好支撑。从行业实践看,云计算在互联网、金融、电信、政府、能源等重点行业已被广泛认可,标杆企业的引领作用明显。04 业界最早提出云原生这个概念可追溯到 2012 年,其初衷是将弹性按需、水平扩展、高可靠高冗余、状态与应用分离等关键云架构属性特征以架构设计模式、规范参考架构和方法论的形式总结提炼出来,从而为企业应用的云化架构重构改造提供指引。以 Kubernetes 为代表的云原生核心开源项目,实现了应用服务的标准化封装与资源的统一调度,逐步成为主流技术选择。云原生计算基金会 CNCF 的成立全面加速了云原生生态的演进,云原生的方法论、工具
9、集以及全栈云原生参考架构等得到了进一步的定义与分解。云原生技术自诞生以来经历了蓬勃迅猛的发展,随着千行百业云化不断走向纵深,业务上云和云原生改造已是大势所趋。但企业客户,出于对数据产权、安全合规、隐私保护、应用时延、成本优化、组织治理结构等的考量,会采用分布式云的部署架构,将全栈云原生能力延伸到更靠近企业业务所需的位置(如多云、混合云、近场边缘、现场边缘等),来满足企业的业务需求,以公有云为中心的分布式云部署架构将成为企业上云的新常态。业界对云原生分布式技术已进行广泛的实践和探索,AWS 的 EKS Anywhere、GCP 的 Anthos 多云混合云平台、Azure Arc 分布式云产品
10、等新一代的多云混合云解决方案无一例外均采用了以云原生为核心的技术底座。在开源社区,近几年 CNCF 大量涌现用以解决分布式云场景下的云原生开源项目。自华为云在 2018 年向 CNCF 贡献了边缘计算项目 KubeEdge 后,边缘计算技术在社区中又纷纷出现了 OpenYurt、K3S、SuperEdge 等项目,用不同的技术实现方式将云原生技术应用于边缘。随后在 2021 年华为云又将多云多集群管理项目 Karmada 贡献至 CNCF。之后几年内社区中同样出现了 OCM、ClusterNet 等多云多集群管理的项目 。当前华为云又将其边缘、多云等能力进行集成提供了 Kurator 分布式云
11、开源套件,向用户提供了开箱即用的完整分布式云原生 管理能力。同时为解决分布式云场景的的容器网络问题,开源社区也积极进行了探索,出现了一批跨云跨集群的容器网络项目,比较典型为 Submarine、CilumMesh 等。综合来看,分布式云原生已成为云原生技术发展的主流分支。1.3 云原生加速分布式云一体化,开启分布式云原生新时代分布式云原生白皮书第一章 背景05第二章 分布式云原生内涵与架构剖析分布式云原生白皮书第二章 分布式云原生内涵与架构剖析06分布式云原生是指通过云原生技术统一多云技术栈,提供业务价值的设计模式。越来越多的企业在上云过程中采用多个云提供商,然而多样化的云平台意味着更多的复杂
12、性。多云容器平台能够提供集群资源集中管理的统一入口,帮助客户从这些复杂性中跳脱出来,同时以云原生的方式将客户的业务协同、数据资产、AI 分析等一系列的业务能力无缝地分布于分布式云之上,配以完善的安全、管理能力,形成一体化的多云业务管理能力,助力企业业务的扩展和数字化转型。学术界最早提出分布式云的概念可追溯到 2009 年初,切入点是尝试利用地理上分布在不同区域的数据中心来构建高可靠的云服务。云原生语义则是在 Kubernetes 生态逐步生成事实标准后,在 2015 年后逐步进入学术圈,其核心目的是对云计算资源做更高层次的抽象,以简化用户在云上部署和管理应用的操作。可以看出,云原生首先是一种云
13、服务提供方式的理念,而后才是基于这个理念所研发的一系列技术。分布式云原生则是两个概念的结合,其内涵在于以云原生的方式构建分布式云并提供云服务。分布式云原生的外延,随着分布式云和云原生数年的并线发展,也有了极大的扩张。从分布式云所涵盖的研究对象角度可以看到如下趋势:1.从算力规模上看,从单一的数据中心,扩展到了规模极小的边缘计算服务器和中小规模的城市级 IDC 这些不同规模的算力与数据中心所构建的异构分布式云;2.从服务提供者角度看,从单一云服务商的数据中心,拓展到多个云服务商的数据中心,以及其他 IT 行业厂商,例如网络提供商和移动网络运营商;3.从应用上看,已从抽象的分布式应用模型,推广到各
14、个具体的应用,如分布式数据库、分布式科学计算、分布式视频处理等等。分布式云原生在学术界除了有相应的理论研究之外,也出现了一些探索性的项目,其中最有名的项目当属来自 UC Berkeley 的 Sky Computing 项目。该项目将云计算与英特网进行比较,认为云作为基础设施,用户不应该感知不同云之间的区别。为此,Sky Computing 项目提出需要一个兼容层以屏蔽不同云之间的差异,以及一个对等层以支持不同云之间的互操作。在此之前,来自 Cornell 的 Supercloud 项目也曾提出,需要打破不同云之间的间隔,以支持应用自由地迁移。除了以上两个系统性的项目之外,还有许多从某个角度切
15、入分布式云原生的项目,如提供分布式 Serverless 服务的 Virtual Serverless Providers(VSPs)项目、专注于存储的 CosTLO 项目、数据共享平台 Gaia-X 等等。2.1 分布式与云原生交织演进,分布式云原生概念渐清晰分布式云原生白皮书第二章 分布式云原生内涵与架构剖析07分布式云原生白皮书第二章 分布式云原生内涵与架构剖析2.2 打破资源和业务边界,厘清分布式云原生总体架构随着产业互联网的发展和企业数字化改革的深入,传统的单云单集群架构已经无法满足客户需求。分布式云原生架构能够将云端的同一套架构延展到多云甚至边缘端,将云上的算力和服务延伸到用户所期
16、望的任何位置。参考架构如下:资源一体化:分布式云原生提供了对分布式云底层基础设施的差异化屏蔽,通过统一的云原生平台接入、调度、资源运维和成本治理对上形成了统一的资源管理视图,使能上层业务低成本、透明地在多云进行部署。业务广分布:在分布式云原生技术中,通过多云统一的应用生态、应用和配置信息的一致性分发以及统一的跨云服务治理将云原生微服务架构的业务运行于多云之上,加速企业数字化转型。数智全融合:数据是企业的最宝贵资产,分布式云原生能够将智能算力延伸至数据所在位置,伴随数据源提供智能化的数据处理能力,摆脱网络、合规性限制,实现数据的集中化生成、保存、处理。安全无边界:分布式云原生通过策略管理、审计能
17、力统一了各底层平台的安全合规性要求并通过多云安全态势感知能力一站式掌握整个分布式云平台和业务的安全情况,通过软件供应链安全和网络零信任的能力在多云环境多安全暴露面的情况下让业务依然保持安全运行。分布式云原生架构 08分布式云原生白皮书第三章 分布式云原生 核心技术详解 第三章 分布式云原生核心技术详解09分布式云原生白皮书第三章 分布式云原生 核心技术详解 3.1.1 统一资源接入问题和挑战3.1 资源一体化资源一体化包括统一资源接入、统一算力调度、统一智能运维、统一成本治理四部分,旨在统一分布式场景下的资源管理方式。分布式云场景下,用户所在的行业、经营的业务、产生的数据以及所处的位置等因素的
18、不同会对基础设施提出不同的要求。这就意味着分布式云需要管理接入不同位置、不同架构、各种类型的资源,将之统一纳入分布式云基础设施的管理范围内,而不再是仅仅管理单一的某种同构的基础设施架构。为实现资源的统一接入管理,需要满足以下三个维度的诉求。1.多样化的基础设施资源用户的业务基于其特点,存在多种基础设施资源的依赖。用户的基础设施,可以是虚拟机、裸机、容器,也可以是云服务;可以在数据中心,在边缘云,也可以在公有云甚至多家供应商之上;可以是 ARM、X86,也可以是 GPU 等加速硬件。这些基础设施资源,都需要分布式云统一全面的接入管理起来,才能进一步将应用在分布式云上按需分发。2.跨地域的连接管理
19、用户的业务基于调度与亲和性,分散在公有云、数据中心、边缘站点等区域。每个网络区域可能还存在 DMZ 区、业务区、数据区等网络平面。不同的网络区域,安全要求、连接条件都会有所限制;跨地域通信的带宽、时延、安全性等,都是需要在分布式云接入连接中考虑解决的问题。3.连接的安全保证当资源接入到分布式云,对于连接的影响范围,对数据的保护方式,日志监控等运维信息是否上报到分布式云,网络边界能做哪些安全防护,是否能够关闭连接按需开放等,用户会有一系列的疑问,这些最终都将围绕着资源接入到分布式云后,数据资产的安全怎么保证。分布式云场景下基础设施架构10分布式云原生架构通过统一接入层来实现对各种资源的统一接入和
20、管理,包括云服务、物理机、虚拟机、容器等。利用统一接入层,企业可以构建和管理全域的应用集群,并在这些集群之间建立运营一致性。分布式云原生架构在统一资源接入方面的作用非常重要,可以提高资源的利用率和效率,提高系统的可靠性和稳定性,为企业的业务发展提供了强有力的支持。通过统一接入层,将分散在各地域的各种各样的资源进行接入管理,包括且不限于如下部分场景。1.标准化接入框架分布式云的资源接入,需要能够将云原生化的资源尽可能简便的,无缝的接入管理。比如用户的容器化应用通过Kubernetes 进行编排调度管理,分布式云需要能够连接与管理任何地域、任何基础设施上的 Kubernetes 集群,支持各kub
21、ernetes 发行厂商,支持社区原生的 Kubernetes 集群接入,并且持续跟进和支持开源社区的最新版本能力。这里的集群,包括了标准的集群,Serverless 集群,边缘集群等各种集群场景。除了接入管理已有的集群,分布式云也需要支持将集群能力分发到各数据中心、公有云、边缘等场景中。除了管理集群,分布式云同样能够直接管理节点,比如为集群拓展导入边缘节点,将应用分发到边缘节点上。分布式云可以将虚机管理能力带到数据中心,为数据中心提供轻量的虚拟化,将容器和虚机在同一平台上进行统一的调度和管理。2.多样化的资源接入形式对于分布式云接入中心所在的云,比如公有云、私有云、数据中心等基础设施上的资源
22、,分布式云可以将之无缝的管理起来,无需额外执行开通接入、安装代理等步骤。这样可以节省接入相关的资源成本和管理成本,为用户提供一站式的全局管理能力。当其他的公有云、边缘云、数据中心的资源需要接入到分布式云上时,资源的接入涉及到接入标准的满足程度。比如容器化的 Kubernetes 资源,符合云原生标准,可以直接导入;比如一个数据库服务,则对资源描述语义,通过一定的代理程序转发,达到接入标准。一般来说,各种资源都可以通过转化为声明式的资源定义,以及特定的代理流程,达到接入分布式云实现资源统一管理的效果。3.适应多种网络条件分布式云的网络连接,主要有两个维度,一个是分布式云与数据中心、公有云等资源的
23、连接,主要是接入、管理、维护等;另一个是不同地域之间的通信,主要是应用访问数据、应用之间互访等数据流量。分布式云需要能够适应各种组网条件要求,实现连接的对应功能。对于底层组网形态上,接入的方式可以是专有连接,比如专线、VPN,也可以是 Internet 互联网接入,也可以是代理服务、NAT 等需要中转的连接等。不同的接入方式具备不同的性能和安全等级能力,可以结合用户的实际应用和管理诉求进行选择处理。对于不满足的组网条件,分布式云也可以将能力对接到本地的资源进行代替。通过提供多种组网模型,最终由用户选择匹配最适合的组网形态。4.满足最小化安全原则分布式云接入资源的连接通道,存在管理、运维、数据等
24、连线通路。其中管理通路主要负责资源的接入认证和管理指令的发送;运维通路主要承担日志、监控、告警等运维信息的传达;数据通路则主要负责软件、制品的分发等行为。每一个通路,都提供了按需开启、关闭,以及关闭后使用本地就近资源代替的能力。同时,每个通路都提供了最小化本地出口资源的限制,比如专属的管理节点、运维节点提供出口地址并增加到出口防火墙的限制中。通过种种安全合规策略保证在资源接入后提供进一步的安全保证。最终达到用户资源要求最小化、安全风险最小化的效果。分布式云原生白皮书第三章 分布式云原生 核心技术详解 关键技术和价值11分布式云原生白皮书第三章 分布式云原生 核心技术详解 3.1.2 统一算力调
25、度分布式云场景下,用户业务所使用的集群资源类型、集群所处位置、计算资源成本等存在较大差异,在用户层面更多的是关注业务的部署、伸缩、运维和成本,对于资源管理与算力分配由底层基础设置统一管理,这意味着在算力调度方面需要考虑更多场景,包括但不限于多种资源管理服务的混合调度,不同地域集群调度策略,计算成本最优调度等。1.异构多云资源管理在分布式云场景下,用户的业务会使用多种资源管理服务,比如:集群、Serverless、裸金属、竞价实例、on-premise 等多种云环境,业务调度过程中需要根据用户业务特点,自动调度到合适的资源管理服务。在底层硬件管理和调度上同样提出了更高的要求,比如需要统一调度 X
26、86,ARM,GPU,昇腾,昆仑等多种异构硬件。2.多地域资源统一调度用户的多云环境通常管理着多个云厂商、跨地域的Kubernetes集群,不同地域集群间的网络访问方式各不相同,比如:物理专线,VPC,公网等。另外,不同地域对于数据安全合规要求也存在着差异,比如:欧洲、北美、中国等各地区数据安全要求各不相同。当业务洪峰来临、资源不足的情况下,作为多集群管理的统一入口,分布式云原生需要帮助用户智能决策,选出指定厂商、指定地域下的指定规格。3.成本感知不同 region 的资源池计算、网络、存储成本各不相同,并且不同云厂商在不同时间段的优惠折扣也存在差异,用户业务下发过程中,需要综合各云厂商的资源
27、报价并结合实时折扣,计算成本最优调度方案,分配业务至性价比最高的一个或多个云集群。分布式云场景下,通过统一算力调度实现多种集群管理服务的管理与调度,包括集群、Serverless、裸金属、竞价实例、on-premise 等,通过统一算力调度抽象各个云集群的算力规模和类型,分析时延状态,感知集群算力成本,结合用户业务诉求综合评估最优分发策略,满足业务稳定性要求的前提下,实现算力成本最低。问题和挑战关键技术和价值业务统一调度与分布121.计算成本优先选择业务部署计算成本最低集群,保障用户算力成本最低且资源侧成本最小化。1)全域资源弹性扩容:全域资源调度器根据获取各云厂商的资源视图和价格信息,计算出
28、各云厂商性价比最高的可用虚机或容器节点规格,按推荐规格堆叠业务负载,获取最小资源需求量,根据成本测算的最终方案将业务下发到指定的 region 和 zone,实现客户算力成本最低。2)Serverless 全域弹性:全域调度根据业务负载估算所需虚机或容器节点规格及数量,通过全域资源调度器推荐资源方案,选择价格最低 Region,将业务负载提交到对应云厂商的 Serverless 服务。3)多产品混合:在集群、Serverless、裸金属、竞价实例、on-premise 等多种子云环境共存场景下,比较各产品部署业务所需计算成本,选取价格最低的产品提交业务负载。2.接入时延优先用户可以根据业务需求
29、设置不同的接入时延要求,在满足时延需求的子集群中,优先选择与时延需求最匹配的进行部署。1)用户业务需求:通过各云厂商提供的底层全局资源视图,汇总各 Region 资源的网络状态,并及时更新到分布式云原生视图中;根据业务需求,将作业优先调度到网络性能匹配的子云环境上。2)避免网络波动影响业务:当底层资源出现故障或性能瓶颈时,各云厂商通过事件机制及时将网络波动通知分布式云原生业务层;业务管理模块可根据当前网络状况,重新调度业务分布,避免客户业务受到影响,保障 QoS。3.负载分布持续优化当业务负载波动、或网络、计算等资源出现性能、价格变化时,全域调度通过迁移、伸缩等方式对业务分布重调度,保障客户业
30、务稳定可靠,成本保持最优。1)资源池动态调整:统一调度资源池中加入或删除云集群时,根据各云集群的负载、价格等因素,动态调整业务部署模型,持续保障业务的稳定性与高性价比。2)多云价格折扣变动:当云环境进行促销活动时,可根据各个云集群的实时折扣信息,计算成本最优调度模型,将应用自动迁移至高性价比云集群。分布式云原生白皮书第三章 分布式云原生 核心技术详解 13分布式云原生白皮书第三章 分布式云原生 核心技术详解 3.1.3 统一智能运维与将所有应用程序和数据保留在单个公有云中相比,跨多个公有云或者和私有云基础设施共同部署工作负载情况下的监控、性能优化和成本优化变得更加困难。分布式云原生中监控运维遇
31、到的挑战主要有如下几点:1.复杂的 IT 环境分布式云原生包含的私有云和公有云环境的多样性日益增加,往往私有云和公有云需要在基础架构、数据、网络和应用程序的各个级别相互集成。如此复杂的环境对监控运维带来很大的挑战。比如,一个环境的性能指标可能不同于另一个环境。有些环境虽然有相同的指标,但他们的名字和标签不同,需要关联才能有用。这里面临的挑战是如何统一所有这些指标,并端到端实现统一运维视图。2.技术选型不统一与供应商绑定在 CNCF landscape 中,监控运维相关产品非常多,利用这些产品的组合,可以比较快速的搭建一个可观测性系统。在分布式云原生场景,由于技术选型和历史债务等原因,不同环境使
32、用的的工具可能不尽相同。比如,一个企业可能在私有云拥有 Nagios 等旧式监控系统,同时在公有云拥有 AWS CloudWatch 等云供应商监控系统和 Prometheus 等开源监控系统。这些系统中有些监控信息是相互重叠的,而有些监控信息对于每个监控系统来说是唯一的。这样会引入的问组件繁多、数据不互通、厂商绑定等问题。3.故障诊断与排查困境在分布式云原生场景,企业往往会同时拥有分布在不同环境,不同的集群类型和集群版本的 K8S 集群。这些集群会面临各种各样的故障场景,topN 问题包括节点异常、Pod 状态异常、网络故障、应用行为异常(如 DNS 错误、访问外部服务错误、重启、崩溃)、控
33、制面过载等。面对分布式云原生复杂的故障场景,单纯的监控系统往往无能为力。维护这些集群的稳定性,可靠性和安全性对运维人员来说是很大的负担。在分布式云原生时代,为了解决以上问题和挑战,统一智能运维是大势所趋,相关的关键技术有如下几点:1.统一数据采集为了保证监控数据在不同云环境中有相同的数据模型,方便后续的统一分析与查询,同时为了避免厂商锁定,以及适应多种技术栈,企业应该尽可能选择主流开源技术构建一套统一的数据采集规范和工具。并且寻找能够兼容主流开源协议的服务提供商合作,以此降低改造成本和避免厂商锁定。当前业界比较主流的采集规范包括监控领域的 prometheus,日志领域的 fluentd/fl
34、uent-bit,调用链领域的 opentracing,以及后起之秀目标大一统数据采集的 opentelemetry。云原生应用的复杂性增加了系统状态可视化的实现难度,也让企业对于系统监控运维能力提出了更高的要求。根据CNCF 的调查,有 38 的用户认为监控是其应用 Kubernetes 遇到的最大挑战之一,随着企业规模的增长,这个比例甚至达到了 46%。在分布式云原生场景下,K8S 集群往往分布在不同的区域,不同的云厂商。这给多集群的统一监控运维带来了更大的挑战。问题和挑战关键技术和价值14分布式云原生白皮书第三章 分布式云原生 核心技术详解 2.分布式数据存储将分布在各个环境区域的监控数
35、据上报到统一的位置进行集中存储无疑会极大的方便数据的统一分析与查询。但是也会遇到很多问题,比如复杂的网络环境的打通,高昂的数据传输成本,大规模集中存储性能瓶颈,数据安全合规等。换一种思路,将监控运维数据按照就近原则进行分布式存储,成为一个相对可行的策略。3.全局聚合分析与查询不管是统一的数据采集还是分布式存储,最终都要实现全局聚合分析查询能力。一套实现良好的聚合查询引擎,可以将全局查询语法分解为算子分发给各个区域的数据存储系统,并最终在中心侧完成对返回结果的聚合处理。4.统一全局视图统一全局视图有助于业务人员从全局视角对分布在不同的环境的集群和应用进行统一监控运维。一套设计良好的全局视图需要支
36、持集群组、集群、节点、命名空间、工作负载、容器等多种资源维度的可视化,并支持下钻与关联分析。同时,需要支持自定义监控视图的能力,以满足不同业务场景的监控运维需求。5.集群巡检系统在分布式云原生环境,企业往往会同时拥有分布在不同环境,不同的集群类型和集群版本的 K8S 集群,维护这些集群的稳定性,可靠性和安全性对运维人员来说是很大的负担。融合了专家经验的集群巡检系统可以比较好的解决这些问题。集群巡检系统主要包括集群升级前巡检,健康巡检,安全合规性巡检等,集成了容器运维最佳实践,可以从兼容性、可靠性、稳定性、安全性等层面对集群进行主动检查;有助于运维人员提前发现集群潜在问题并采取预防措施,降低系统
37、故障概率。6.故障智能诊断故障智能诊断系统通过引入专家知识库和 AIOPS 能力,可以快速的告诉用户出现这些故障的原因和解决方法。通过对接分布式云原生平台的监控后端,运维人员通过服务访问的响应时间、流量、错误率等指标能全面地描述服务在分布式环境下总体的运行情况、健康状态等。基于服务间的访问指标生成微服务的应用访问拓扑,直观地观察分布式环境下的服务间的依赖,了解服务间的吞吐、延时等信息,观察服务跨集群访问、版本粒度、实例粒度的流量情况。通过非侵入调用链埋点,代替业务自动生成调用链信息,可以观察分布式云原生场景下复杂调用链路上每个阶段的调用关系,以及每个阶段的耗时和调用的详细情况,帮助运维人员快速
38、定位定界。15分布式云原生白皮书第三章 分布式云原生 核心技术详解 3.1.4 统一成本治理分布式云成本治理是 FinOps 的一个重要的实践活动,要确保用户从多云中花费的投入获得最大价值,实现系统、最佳实践和文化的结合,以提高组织理解多云成本、速度和质量进行业务权衡的能力。分布式云场景下,业务跨地域跨多云多集群下部署。企业资源部署在多个云厂商,多云厂商价格有差异,云资源种类繁多,成本问题定位困难,人力成本高。多云资源需要协同规划,资源利用率几乎无法统计,调优路径选择困难。随着业务及资源的变化,已有成本优化策略需要定期人工刷新,持续优化成本高。针对企业在分布式云场景下业务特点及在成本治理方面所
39、遇到的困难,分布式云原生成本治理能力为有分布式业务特点的企业提供统一成本治理解决方案,旨在为企业提供分布式云场景下,资源统一调度,统一分析,统一治理的一站式成本治理解决方案,帮助企业优化全球资源配置,实现资源的合理利用,达到降本增效的目的。成本治理有成本洞察和成本优化两项关键技术,在分布式云场景下特别要注意以下 6 个重点技术。1.基于分布式云的成本可视化提供基于云厂商、地域、集群、部门、团队、项目、应用等多维度的成本分布的洞察大盘、分析报表、成本管理、成本推荐等。通过分布式云成本可视化,多个云厂商及客户自建 IDC 成本构成一目了然,便于客户成本分析,重新制定资源分布方案,同时提供基于成本估
40、算的集群、部门报表和预警管理。分布式云统一成本治理包括多云统一成本可视化、多云统一成本分析、多云统一成本报表、多云统一预警管理、多云成本优化推荐,为用户提供资源统一调度,画像统一分析,成本统一治理的一站式成本治理解决方案。分布式云原生成本治理问题和挑战关键技术和价值16分布式云原生白皮书第三章 分布式云原生 核心技术详解 2.基于分布式云的全局资源画像为客户提供基于实时账单的容器粒度的成本拆分,基于分布式云治理范围内资源的全局统一的资源画像,帮助客户了解资源构成和成本构成,为客户预算规划、业务规划提供依据。3.基于分布式云的全域统一调度分布式云场景下,使用统一调度器,在统一资源视图下调度,将用
41、户应用部署在成本最优的位置,并在业务闲时通过二次调度进行全局动态调优,保障资源配置最优。4.分布式云原生成本分析提供成本钻取和预算管理能力,为客户提供分布式云场景下的资源构成、成本构成,帮助客户进行自动化的预算分析与管理,降低客户人工预算管理带来的人力成本高昂、效率低下、准确性不高的问题。5.基于分布式云成本的优化推荐分布云场景下,统筹管理应用所需要的各类资源,基于分布式云的全局资源画像,对应用及其依赖资源的成本进行建模分析。综合客户业务分布和业务预测数据分析,提供基于成本优先、接入时延优先等不同优先级的推荐策略,输出客户业务场景成本优化最优解,为客户提供资源优化推荐,架构优化推荐,套餐优化推
42、荐等。6.基于分布式云原生的成本治理为客户提供优化治理报告、智能弹性、智能混部的能力,优化治理报告可提供治理过程报告,便于后续审视和治理回溯,智能弹性结合分布式云原生底层细粒度按需资源,随用随取,按秒计费,减少大颗粒资源的损耗,提升资源利用率,智能混部提供多业务混部能力,分时段利用资源,保证资源在高峰低谷期的合理利用,提升资源利用率,降低成本。17分布式云原生白皮书第三章 分布式云原生 核心技术详解 3.2.1 统一应用生态3.2 业务广分布业务广分布包括统一应用生态、配置一致性分发、统一服务治理三部分,旨在满足业务在分布式场景下的全生命周期诉求。随着云原生基础设施的越发成熟,业界和社区将关注
43、点从底层资源逐渐转到上层应用。开发者在应用的标准化构建和自动化部署过程中,遇到了新的挑战:1.云原生服务发布标准不规范云原生技术深入到各行业中,促使云原生应用的种类越来越多。从最初的 Web 应用、中间件应用,到如今的Serverless 应用、大数据 AI 应用等,应用类型和复杂度逐步提高。与此同时,随着多云环境在企业中的逐步推广,对应用在多场景下的兼容性提出了新的要求。如何在应用构建过程中,通过标准的全栈声明式应用定义,对复杂的资源在异构场景中进行高效组合和编排,实现应用的高效定义和打包,成为云原生技术发展的新发力点。2.应用跨云分发、管理、运维、运营能力不统一,应用生态难以快速形成生态是
44、云原生世界的核心部件。一方面,应用开发者更倾向于把自身开发的应用或者服务在“生态”环境中向客户和生态伙伴敞开。另一方面,云原生领域的从业者们更加的倾向于从生态平台中获取有价值的应用或服务,提升自身的开发效率。随着分布式云的盛行,应用开发者如何在多云环境中对应用进行统一的发布、共享和下架等管理行为;应用使用者如何快速、准确地获取符合自身诉求的应用,并在多云环境下进行应用部署和运维,逐步成为分布式云原生应用管理的重大挑战。问题和挑战181.云原生服务接入管理通过制定统一的 云原生服务规范,对云原生应用的相关组件和运维、运营能力进行高阶抽象,从应用的系统架构设计、接口规范、部署方式、运维管理、安全控
45、制、多云兼容等多个维度为开发者提供云原生服务的最佳实践。同时,在平台能力上,基于云原生服务规范描述,支持二进制、镜像、HelmChart 包、Operator 包等多类型应用制品的快速接入,并对服务包目录结构、描述文件进行统一的解析和校验,模板参数的统一渲染,实现云原生平台对纳管应用的统一规范性要求。2.云原生生命周期治理围绕云原生服务生态,提供云原生应用制品的全生命周期管理能力。面向应用开发者,提供制品开发模板、打包工具、发布平台、运营可视化等能力,支持在分布式云场景下,应用的多云、跨云高效分发。面向应用使用者提供应用统一订阅、多云部署等能力,帮助应用使用者随时、随地便捷享受云原生生态红利。
46、3.云原生应用统一运维能力提供统一的分布式应用监控告警能力,支持运维数据的全局采集和可视化。通过规则引擎、AI 智能分析等手段,对运维数据进行智能分析,实现应用状态自动巡检、问题快速发现、告警根因分析、故障快速隔离和自动恢复等能力。同时,面向应用使用者,提供多云弹性控制、应用配置多云分发、应用灰度升级等能力,支持应用使用者高效的对自身应用进行管理。4.云原生应用运营服务在云原生生态世界中,应用开发者需要基于自身开发应用或服务的运营数据掌握客户或者伙伴的使用情况,进而不断迭代优化应用或服务。因此,云原生平台需要面向开发者,提供权限管理、多租户、计量计费、审计、总览视图与报表,实现云原生应用的可视
47、化运营管理。面对上述挑战,分布式云原生平台需要提供云原生服务接入管理、生命周期治理、服务运维支撑、运营服务四大核心能力,帮助开发者快速构建应用,解决开发者面临的架构设计、打包构建、多云部署、运维等问题,从而丰富应用生态:分布式云原生白皮书第三章 分布式云原生 核心技术详解 云原生应用统一生态关键技术和价值19分布式云原生白皮书第三章 分布式云原生 核心技术详解 3.2.2 配置一致性分发 随着业务全球化发展趋势,业务的部署模式逐渐从单云转变至多云和混合云,但管理不同云厂商和不同地域的集群的配置和应用发布却面临诸多问题和挑战。1.多集群基础设施的管理及一致性发布面临的配置管理挑战。在多云和混合云
48、的场景下,由于每个集群的管理入口,访问鉴权方式不一致。客户的运维团队需要频繁的登录到每一类集群的控制界面中发布和管理集群对应的网络策略、安全证书、系统配置文件等基础设施。尤其在多集群 TLS 证书的发布及更新管理这个场景下,客户的运维团队需要在每个供应商的集群部署应用程序后,定周期的管理证书的续订和重新颁发。而由于大多数运维团队工作繁杂性,上述过程往往容易被遗漏,这会导致应用间不能正常访问和工作。2.由业务场景侧需求和集群基础设施差异性带来的差异化配置挑战。根据应用程序的业务场景诉求不同,不同集群部署的业务版本,更新频率会存在不同。例如同一餐厅在不同地域的点餐系统可供给的菜单种类,菜单上新会有
49、差异;或由于跨国公司在不同国家推广策略不同,新的业务软件仅需要部署至部分城市所在集群等。3.使用 UI 控制台方式交付应用与各厂商控制台风格各异、难以编排大规模微服务交付之间的挑战。随着微服务规模变大,依赖 UI 控制台进行应用交付的方式变得复杂臃肿,其交付的顺序编排依赖人工,无法做到自动化,且无法进行审计和版本控制。另外,配置管理与应用构建、发布如何融合和协同,嵌入到 DevOps 流程中也是关键挑战。为应对上述多云集群管理和多云应用交付的挑战,产业界进行了诸多探索,通过屏蔽底层环境差异和多个管理入口,将多个集群环境的配置和治理集中于一处,以自动化的体验完成多集群基础设施的管理以及多云应用的
50、发布及更新,以实现跨集群配置管理和应用分发。包含如下关键技术:1.以 GitOps 核心理念实现一致性配置管理以 GitOps 核心理念实现一致性配置管理,使用 Git 仓库来管理基础设施和应用的配置,并且以 Git 仓库作为更改基础设施和应用的单一事实来源。Git 仓库中的声明式配置描述了目标环境当前所需基础设施的期望状态,当集群中的实际运行的配置或应用状态与 Git 仓库中定义的期望状态不匹配时,集群根据期望状态来调整当前的状态,最终使实际状态与期望状态保持一致。2.多集群的差异化配置随着部署应用的规模越来越大,部署集群的底层差异性越来越大,单一的一份配置对应一个集群的模式会变的越来繁琐和
51、难以维护,因此面向多个集群的差异化配置策略设置显得尤为重要。其关键点在于做好定义公共部分抽象和少数变量的差异化配置,对应用本身参数属性和运维参数进行分离,减少重复编辑和维护的成本,满足客户差异化的配置诉求。3.多集群场景下配置的可观测性当集群规模和配置规模变大,如何快速识别配置以及所需状态与实际状态之间的差异,配置同步、资源协调等也存在技术挑战,构建跨集群的配置同步和故障的实时可观测性是关键考虑点,通过配置管理仪表盘可以实时跟踪运行集群的配置同步情况,并审查跨集群的配置和资源的进度,并确保一致的集群行为。这会帮助用户快速识别问题并采取相应行动,以实现服务级别目标(SLO)。问题和挑战关键技术和
52、价值203.2.3 统一服务治理在分布式云原生的复杂场景下,随着管理规模增大,运行的业务更加复杂,负载运行环境更加多样。特别是运行在多云混合云的不同环境下的运行的服务之间访问时,对韧性提出了更高的要求,不同环境间动态流量管理的需求也更加迫切。同时在分布式云原生的新的业务场景下,对服务间流量管理也提出了一些新的课题。1.分布式复杂环境下服务韧性保证难度更大在分布式云原生场景下,网络和服务运行环境更加复杂,对服务的韧性和可靠性带来了更大的挑战。需要分布式云原生平台提供跨地域访问亲和性、跨地域服务故障倒换能力,配合服务限流、熔断、重试、超时等能力,应对分布式云场景下复杂的服务韧性保证。2.分布式环境
53、下流量管理需求场景更多更迫切在分布式云原生场景下,用户业务部署在多云和混合云场景。为了应对线下开发测试线上部署的场景,需要支持动态的线上线下灰度流量切分能力,支持混合云场景的灰度发布。同时根据用户业务特点,动态支持跨域流量切分,在多云、混合云或跨地域的服务实例间动态切分和迁移流量。3.分布式环境下应用安全更复杂严峻在分布式云原生场景下,负载部署在多云混合云的不同集群中,负载身份标识方式不同,认证方式不同。为分布式云提供透明的零信任安全应用基础设施,需要基于统一的服务身份体系,服务认证策略,构造细粒度的服务访问授权,这比单集群要复杂,也更有应用场景。分布式云原生白皮书第三章 分布式云原生 核心技
54、术详解 4.与 Pipeline 结合实现开发、发布以及应用配置等流程的应用全生命周期管理 随着 DevOps 价值观和文化的流行,越来越多的公司选择帮助开发团队分担应用程序交付的责任,他们将多云环境下的交付交给专门的运维团队来完成,让开发团队可以更加专注于应用程序的开发和构建本身。将 GitOps 模型与流水线编排能力结合,可以实现多云环境下的应用开发、构建、发布以及应用配置的实时更新。具体来讲将分为以下两个阶段:1)定义和构建多云应用:开发团队进行业务的开发、测试、验证、打包软件和生成镜像,可通过 Pipeline 流水线定义每个集群交付资源的原始制品文件。2)持续交付多云应用:运维团队首
55、先会根据开发团队提供的原始制品文件对部署在多个集群环境中的差异化内容进行配置。除初次应用发布外,通过配置一致性分发,可实现多集群发布的无缝切换,极大提升多云交付的效率。统一服务治理问题和挑战21服务网格是 CNCF 定义的云原生技术的典型代表之一,应用服务网格为分布式云提供了基础设施形态透明的全域流量管理能力。多云、混合云、跨 Region 的应用基于分布式云统一部署、配置,通过服务网格的能力,对这些分布式的应用进行统一的流量管理,满足分布式场景下的各种应用需求。包含如下关键技术:分布式云原生白皮书第三章 分布式云原生 核心技术详解 全局负载均衡服务访问亲和性跨地域故障倒换1.全局负载均衡服务
56、网格根据配置的轮训、随机、最小链接等多种负载均衡策略在跨地域的服务实例上进行全局负载均衡。对于在分布式云原生平台上全局部署的服务,服务访问者只需要访问唯一的服务域名,服务网格将访问流量分发到舰队管理的多云混合云的所有服务后端实例上,实现全局访问。同时动态自适应服务实例在多云混合云间的动态移动、实例扩缩容。全局负载均衡简化了分布式云原生场景下的服务访问方式,增加服务的弹性和自适应性。2.服务访问亲和性分布式云原生场景下,在全局负载均衡的基础上,服务网格根据服务实例上的地域信息,优先将流量分发到同地的服务实例上,实现亲和性访问。在跨 Region 的场景下,可以控制服务源服务访问目标服务时优先访问
57、本 Region、本Zone 内的目标服务实例;在多云场景下,控制流量优先在本地云内流转;在混合云场景下,当源服务来自云上或者云下时,优先访问本地目标服务的后端实例。网格提供的访问亲和性降低了分布式云原生场景下服务间的网络延时、减少带宽消耗,提高服务访问效率。3.跨地域故障倒换在分布式云原生场景下,通常通过区域、可用域、节点的反亲和方式部署服务实例。使用服务网格管理跨地域的访问流量,在一个地域的后端实例发生故障时,将部分流量转移到其他地域的健康实例上去。可以根据服务实例上的位置标签对服务实例分组进行优先级排序,标签匹配得越多,说明和源实例越亲和,优先级也相应越高,在故障转移过程中获取的流量就越
58、多。在跨 Region 场景下,流量优先发送给相同 Zone 的其他服务实例;当本 Zone 的实例不健康时,发送给本关键技术和价值Region的其他Zone的实例;当本Region的实例都不健康时,再根据分布式云原生平台的规划转移到指定Region的实例。同样的机制可以应用到多云和混合云场景。跨地域故障倒换向分布式云原生场景的服务提供了自适应的故障处理能力,在服务多活部署的基础上,进一步提高了服务总体的可用性。224.跨地域流量切分在分布式云原生场景下,基于全局负载均衡,和服务网格配置的分流策略,在访问目标服务时可以动态控制将不同的特征的流量,或者不同比例的流量分发到不同位置的后端实例上。基
59、于这种动态流量切分能力,可以实现分布式云原生场景下线下开发测试线上运行的全域灰度;也可以根据客户的业务特征,将不同来源的流量或者不同业务特征的流量分发到多云的不同后端,实现客户业务在多云上的流量分担。这些流量切分可以在全域动态控制,根据需要一键将所有流量都切分到多云的一个云上,灵活地实现流量迁移。5.基于统一认证和细粒度授权的分布环境的零信任网络分布式云原生环境下,不同地域的负载网络状况、自身安全状况不同,服务安全管理总体挑战较大。服务网格为分布式云原生环境构建全局的应用安全基础设施,在零信任的安全假设下,透明地保护服务间的访问。为来自不同地域的服务应用统一身份标识,自动签发维护证书,进行透明
60、的服务间双向认证和通道加密,进而基于细粒度的服务访问授权策略,控制特定身份的服务通过某种特征的流量,对目标服务、目标服务的特地接口或特点端口的访问,保证分布式云原生环境的应用安全。服务网格为分布式云原生提供基础设施形态的全域的应用安全能力,部署在分布式云原生平台上的应用代码不感知也无需做任何安全相关的修改。分布式云原生白皮书第三章 分布式云原生 核心技术详解 跨地域流量切分6.分布式环境的熔断、限流、故障隔离与恢复在分布式云原生场景下,服务部署环境复杂,服务总体可用性保证困难。服务网格提供的非侵入重试、超时、限流、熔断等能力能保证服务的韧性,提高总体对外的服务质量。通过服务网格配置适当的重试可
61、以方便并且有效地提高系统的总体服务质量,特别是对分布式云环境下网络暂时故障、环境问题、资源问题导致的服务暂时不可用进行重试,可以提高服务总体的访问成功率。网格的连接池管理机制控制客户端对目标服务的连接和访问,在超过阈值时快速拒绝。异常点检查机制可以被快速动态地隔离和恢复分布式云原生场景下复杂的网络环境中不健康的实例,保证了服务的总体访问成功率,保证服务总体可用性。服务网格提供的限流能力保证对分布式云原生场景下关键的服务,在出现流量高峰且超过规划的限流阈值时拒绝服务请求,防止系统过载。分布式环境的熔断23分布式云原生白皮书第三章 分布式云原生 核心技术详解 3.3 数智全融合 大数据与人工智能作
62、为先进数字技术已被广泛使用,数智全融合是指将大数据、人工智能相关能力与分布式云原生场景充分融合。得利于云计算丰富、集中的算力资源,在云上执行大数据分析和 AI 计算成为企业的通用选择。大部分大型云平台提供商通过完善平台能力、提供大数据处理和机器学习相关服务等方式,支持用户快速、高效的训练和部署 AI 模型。随着分布式云的发展,为大数据分析和 AI 计算提供了新的机遇和挑战:1.多元化算力管理和调度复杂度提升不同于云端集中、统一的算力资源,分布式云系统中,计算设备、供电设备、部署场地面积、AI 开发环境等往往是有限或者异构的,大数据处理和 AI 计算服务流程需要应对并兼容多种异构算力,建设门槛和
63、维护成本急剧攀升。同时,考虑到数据的处理实时性和成本的均衡,算力调度也变得更加复杂。2.缺乏高效的数据跨地域访问能力,分布式应用难以高效协同在分布式云场景下,数据往往分布在系统的不同站点或者集群上,集群之间网络割裂、传输成本高,导致数据难以高效互通。此时,数据分析和 AI 计算难以跨地域获取和共享数据,导致分布式应用无法高效协同,成为系统的核心瓶颈之一。3.小样本、数据异构、灾难性遗忘等问题凸显 在分布式系统中,单个站点或者集群通常仅有部分样本,尤其在边侧计算场景中,由于边侧大量非结构化样本的标注较为困难,标注样本的数量较低,这导致传统大数据驱动的统计机器学习方法无法收敛或精度差。同时,不同站
64、点和集群间样本的统计分布与训练集差异过大,导致数据的特征呈现明显异构属性。因此,分布式 AI 应用需同时应对和兼容异构的业务数据,并统一权衡实现资源高效调度。另外,当小样本和数据异构同时出现时,还会诱发灾难性遗忘(Catastrophic Forgetting)问题,也需要分布式 AI 系统在设计和实现过程中进行相应的设计和考虑。问题和挑战24分布式云原生助力企业打造数智融合平台,帮助企业从资源、数据、AI 算法等多维度打通数据治理和 AI 开发流程。为此,分布式云平台需要具备如下关键技术:1.灵活、按需算力分配 在分布式系统中,大数据分析/AI 计算等应用需要根据数据位置进行按需移动。通过将
65、应用业务需求和分布式云平台灵活的调度能力相结合,根据数据位置、资源空余、成本等条件进行综合调度,支持将应用快速调度到中大型数据中心、用户本地机房、业务现场小型设备等不同环境。同时,根据数据源的位置变化,分布式平台提供应用快速迁移、流量接入治理等能力,实现分析能力和数据的持续跟随。2.分布式数据治理分布式云平台通过统一的元数据建模,对分布在不同地理位置的数据进行统一管理和存储,依托数据分片、统一寻址等技术提升数据访问的速度,增强数据访问可用性,减少数据访问时延和丢失的风险。同时,通过跨地域的数据访问和同步,支持数据可以被处于不同位置时的应用访问和更新。另外,分布式云平台通过对数据的权限和传输通道
66、进行安全控制,保证数据的安全和合规,防止数据泄露和篡改。3.分布式 AI 协同面向分布式 AI 应用,提供分布式 AI 协同框架,提供跨地域一致的 AI 任务管理、AI 模型管理、AI 算力管理能力,加速 AI 应用在分布式云场景下的运行。通过对分布式 AI 任务执行过程中,多个应用间互相协同流程的优化,提升分析结果的实时性和准确性,保障分析任务的可控性和可追溯性。同时,面向分布式 AI 中小样本、数据异构、灾难性遗忘等问题,提供标准化的分布式协同 AI 任务工作流模板,如:协同推理、增量学习、联邦学习、终身学习,提供标准化分布式 AI 任务定义规范。通过预置难例判别、参数聚合等通用协同训练和
67、推理算法,帮助用户快速将已有 AI 应用切换为分布式应用,降低用户业务开发、管理、运维成本。分布式云原生白皮书第三章 分布式云原生 核心技术详解 分布式云原生数智全融合关键技术关键技术和价值25分布式云原生白皮书第三章 分布式云原生 核心技术详解 3.4 安全无边界安全无边界是指通过统一认证授权、统一策略管理、跨云态势感知、软件供应链安全、网络零信任等技术手段全链路多维度保障分布式云原生场景下的业务安全。1.不同云厂商采用的租户模型不同,权限管理复杂,难以落地多账号治理不同云厂商采用的租户模型不同,如 AWS 租户模型基于云账号,可以将账号分配给 Organization 的 OU,由根账号来
68、设置计费和策略;而 Azure 租户模型则基于订阅,一个账户可以包含多个订阅,每个订阅归属一个管理组统一管理;华为云的租户模型与 AWS 更为接近,但华为云的账号下还存在 Project 的概念,一个 Project 只属于某一个 Region。租户模型不同,使得各云厂商的 IAM 和云原生基础设施的授权管理差异较大,这种差异会体现在用户或用户组对容器基础设施或工作负载的访问控制策略里。因此分布式云原生管理平台应抽象出一个统一的认证和授权模型与云厂商的租户模型和权限管理机制解耦。2.安全合规压力大,安全控制点和安全最佳实践在多云场景下落地困难ISO 等国际标准化组织和行业组织在信息安全、隐私安
69、全、云安全等相关领域发布了众多安全最佳实践和 IT 安全标准。分布式云原生场景下,多云变得普遍,不同云厂商往往处于不同的国家或区域,需要遵循当地的法律法规,这使得违反当地法律的风险剧增。云厂商往往也发布各类安全最佳实践,比如 AWS 推出 Amazon EKS Best Practices Guide for Security 等,这些基线或最佳实践往往有数十项甚至更多的安全控制点,落地困难。可以看到,多云使得安全合规风险急剧放大,实施集中的安全策略管理、践行 Policy as Code 成为必须。安全无边界问题和挑战26分布式云原生白皮书第三章 分布式云原生 核心技术详解 3.软件供应链攻
70、击事件频发,给分布式云原生的安全带来了严峻的挑战软件供应链攻击事件频发,据 statista 统计,2019 年至 2022 年期间,全球受供应链攻击影响的软件包数量大幅增加,从 702 个增加到 185,572 个。在分布式云原生场景下,软件供应链攻击的影响和范围因为跨云而放大。为应对挑战,美国和欧洲政府发布了一系列行政法规加强软件供应链安全,如 Americas Supply Chains,Improving the Nations Cybersecurity等。因此,分布式云原生场景下保障软件供应链安全也是合规之需要。4.安全事件跨云,急需感知整体的安全态势分布式云原生场景下,工作负载可
71、能会分布在其他云厂商甚至本地数据中心的云原生平台上,为避免安全事件的碎片化,采集分析跨云的安全事件,可视化云原生基础设施层和应用层的所有威胁,并感知到全局的安全态势变得尤为重要。关键技术和价值1.统一的认证和授权机制,支持多账号治理通过统一的认证和授权机制与各大云厂商的租户模型和授权机制解耦,屏蔽云厂商的权限管理差异。分布式云原生管理平台可实现一个账号访问跨云的所有资源,也支持按照分布式云服务资源和集群内的 Kubernetes 资源进行授权。平台的分布式云服务资源基于 IAM 系统策略实现细粒度授权;集群中的 Kubernetes 资源则是基于 Kubernetes RBAC 授权,通过 R
72、BAC 权限设置可以让不同的用户有操作不同 Kubernetes 资源对象的权限。在面向大企业上云的场景下,LandingZone 解决方案正逐步成为事实标准,在云上构建安全合规、可扩展的多账号运行环境,以满足大企业分统结合(在分权分域分级管理的基础上进行一定程度的统一管控)的 IT 治理诉求和严格的安全合27分布式云原生白皮书第三章 分布式云原生 核心技术详解 规要求。分布式云原生管理平台通过接入 LandingZone 解决方案,为多账号环境实现集中式的用户与授权管理、基于业务单元的资源隔离和基于树形组织结构的统一合规控制。2.集中的策略中心和合规审计集中的策略中心使得在多个集群中定义和执
73、行一致的策略,统一资源的合规性状态。除预置的策略外,租户还可以自定义策略,并组合成策略集。策略中心包含的安全策略包括:准入策略(Assurance Policies),包含 Image,Function 等准入策略;运行时策略(Runtime Policies),如 Pod Security Standard 策略;镜像配置文件(Image Profiles),如基于 secComp Profle 文件限制容器的运行时行为;防火墙策略(Firewall Policies)。策略中心通过巡检可输出各类合规报告:周期性的镜像漏洞扫描和报告导出;周期性的安全基线(包括 CIS 相关基线,NIST 基
74、线,等保基线)巡检;集群审计报告。3.保障软件供应链安全多云使得容器镜像被篡改的风险增加,仅允许部署端到端可信的镜像成为必然选择。为保障镜像可信和软件供应链安全,需要关注:防护自研和三方代码(防漏洞和投毒);加固 SBOM;构建过程中,每个构建产物和构建元数据必须签名;部署前校验构件和关联的元数据,且确保构件是最新的;通过基础设施即代码方式减少误配置;为应用的行为建模,采用机器学习等技术分析代码、数据流、运行时行为。各阶段的要求需在 DevSecOps 流水线中代码化,实现从代码和部署运行的的端到端可信。4.全局的安全态势感知大盘全局的安全态势感知大盘用以收集跨云的安全事件,可视化云原生基础设
75、施层和应用层的所有威胁,并提供安全运营能力。云原生基础设施层常见威胁:主机 OS 漏洞、K8S 平台漏洞、镜像安全情况;应用层常见威胁:策略管理违规项、安全配置巡检结果、镜像漏洞、策略准入配置、每个阶段的验证情况、异常行为检测、容器逃逸检测等。可视化时默认从集群维度展示威胁并引导租户处置,也可下钻到 namespace 或工作负载。除云原生管理平台自身上报的威胁外,安全态势感知大盘也可收集租户自行安装的第三方安全工具的检测结果。5.网络安全防护模型零信任模型分布式云原生场景下,在网络层实现以应用为中心的微隔离,在应用层所有工作负载全面身份化,实现基于身份的访问控制。服务网格是实现分布式云原生场
76、景实现零信任模型的关键路径,在应用无感知的情况下,服务网格可实现为工作负载申请身份证书,并基于工作负载身份支持端到端的流量加密,灵活地设置应用互访的授权策略。28分布式云原生白皮书第四章 分布式云原生典型应用场景 第四章 分布式云原生典型应用场景 29分布式云原生白皮书第四章 分布式云原生典型应用场景 随着云计算的不断发展,分布式云原生技术已成为云计算的重要组成部分。分布式云原生技术主要通过使用容器化、微服务架构、自动化部署和 DevOps 实践来使得云计算应用程序具有更强的灵活性、可扩展性、高可用性和易于维护性。当前,企业有着庞大的 IT 基础设施和大量的数据,而分布式云原生技术可以帮助企业
77、更好地处理这些挑战,轻松实现多云部署,快速构建、部署和管理云应用,处理大规模数据和分析问题,同时提高生产力和减少成本。在实际应用过程中,分布式云原生技术面临着复杂性、安全性、管理和运维等挑战。企业需要充分了解其现有 IT 基础设施的状态和 IT 运维的瓶颈,以便在实现分布式云原生技术应用时,更好地规划和实施相关的计划和策略。分布式云原生技术的出现彻底改变了企业的应用部署方式,不仅让应用程序具有更强的灵活性和可扩展性,同时能够大规模分布式地处理数据和分析问题,在业务扩展和 IT 效率方面取得更快、更好的效果。在当前这个变幻莫测的技术环境下,企业需要快速适应市场变化和技术进步,而分布式云原生技术又
78、可以在很多方面帮助企业做到这一点。例如,在跨地域多集群管理、AI/大数据分布式计算、业务跨地域容灾、云边&边边协同、cloud bursting、多云 Devops、统一成本治理等方面都有着广泛的应用场景,分布式云原生技术能够帮助企业在快速变化的市场环境下更好地进行 IT 资源和数据的管理,从而获得更佳的效益和竞争力。4.1 跨地域多集群管理单一业务形态向分布式业务形态的转变是企业持续发展和扩张的必然趋势,企业通过分布式的业务部署形态可以实现可靠性、可扩展性、容错性和灵活性的不断提高。在分布式云的形态下,企业跨越多个地理区域管理多云或私有云集群,这些集群可能属于不同的云服务提供商,部署不同类型
79、的业务。以汽车行业为例,在分布式云形态下的业务部署下图所示,传统 IT 稳态业务部署在本地 IDC,面向互联网的敏态业务分别部署在多个公有云上,数字工厂业务部署在本地小机房中,智慧门店业务部署在边缘设备上。汽车行业在分布式云形态下的业务部署应用场景30分布式云原生白皮书第四章 分布式云原生典型应用场景 分布式云原生统一管控解决方案可以有效地满足跨地域多集群管理场景下的关键诉求,提高资源利用率、降低运维成本。如下图所示,分布式云原生统一管控中心提供 K8s 集群的统一接入、管控和运维能力。1.统一管理入口通过 Kubernetes 等容器编排工具来部署和管理不同集群上的应用程序和服务,屏蔽不同云
80、平台之间的兼容性问题,让管理员可以通过一个统一的管理界面来管理所有不同区域、不同云厂商、不同版本的集群。2.统一资源视图通过一套跨平台管理系统来管理多云/混合云之间的资源,支持中心区域、热点区域、客户 IDC、边缘设备等多种形态基础设施,提供跨云、跨地域集群的统一接入能力,对分布在不同地域的多个集群的资源(例如计算、存储、网络资源等)进行综合管理和协调。3.统一权限管理通过实现基于身份的访问控制和多层次(如按照组织结构、业务分类等)的权限控制来实现跨地域多集群管理的统一权限,建立有效的权限控制体系,确保资源的安全性和一致性,在不同地域、平台和资源之间实现统一性和可扩展性。4.统一监控运维随着管
81、理集群的数量增加,运维的复杂度会呈指数增长。通过建立集中式的事件和告警系统,可以快速响应和处理异常情况,提高跨地域多集群的运维效率和应对能力;通过建立统一的监控和性能管理系统,对跨地域的多个集群实现实时的监控,便于发现和处理问题,提高故障响应能力。跨地域多集群管理的统一监控运维平台可以优化监控流程和运维管理,及时发现和解决问题,提高监控效率和运营水平,改善服务质量,节省运维成本,同时快速应对突发事件,确保业务系统稳定运行。这种复杂的部署形态,催生出以下问题:从研发中心到区域管理中心到下属工厂等多级应用的下发,缺乏针对跨集群应用的统一生命周期管理能力;业务分布式部署导致管理入口分散,不同云厂商都
82、有各自的管理入口和权限体系,当集群数量大且版本众多时,管理效率低、成本高;跨地域业务集群运维难,尤其在自建 IDC 场景下,故障感知难度大,不同地域的集群运维往往需要投入专门的运维团队。跨地域多集群管理解决方案解决方案31分布式云原生白皮书第四章 分布式云原生典型应用场景 4.2 云边协同 AI 计算 在云上执行机器学习是传统而广为人之的方法。大部分大型云平台提供商均已提供机器学习服务,支持多种机器学习框架并提供开放灵活的部署环境。云平台希望数据科学家和开发人员能够直接基于云提供商提供的云存储和数据仓库服务,快速轻松地训练和部署机器学习模型。云边协同 AI 计算是一种典型的分布式 AI 计算场
83、景。在该场景中,企业在云端进行模型的训练,在距离数据源较近的边缘位置进行模型推理,从而降低整体的计算时延,以提供更加实时的结果反馈。云边协同AI计算被广泛地运用在智能制造、智能安防、云机器人等场景中。云边协同 AI 计算整体架构下图所示,依托分布式云平台,系统为 AI 应用提供从资源、数据、AI 模型框架、服务等多个维度的协同能力,大数据/AI应用开发者打通数据治理生产线和AI开发生产线,构建统一的开发环境、统一的元数据管理、统一的数据存储:云边协同AI计算解决方案解决方案应用场景32分布式云原生白皮书第四章 分布式云原生典型应用场景 1.多元化异构资源和应用协同在云边协同 AI 计算场景中,
84、算力资源存在多元、异构特点。根据不同的位置,基础设施资源的类型各有不同。例如:在业务现场,计算设备以 arm 或 x86 架构的小型计算服务器为主,网络则主要是网线、电缆或者无线等物理网路,客户更看重轻量化资源管理能力。而在在客户数据中心和中心云中,则可以根据客户的基础设施建设差异,提供标准服务器、虚拟机、虚拟网络等计算和网络资源,满足客户的集群和池化管理诉求。分布式云系统为不同位置、不同类型的资源提供统一的分布式资源模型、管理和调度机制,能够根据不同位置的分布式的能力、位置、业务运行状态、资源使用情况,以及用户的习惯和意图,选择合适的站点进行资源分配、容灾编排。2.跨地域数据同步和共享在分布
85、式云场景下,数据源离散分布在不同地域,分布式云原生提供链接各类数据源的价值。支持数据在应用间的同步、共享,能够完成应用在不同位置分布式云之间的无缝衔接,满足应用在分布式云上使用数据的一致性。数据跨地域共享时,增加缓存服务,实现同样的内容只需要传输一次,消除传输时延、提升数据获取效率。3.智能协同依托于平台提供的 AI 算力、模型、任务管理能力,以及多样的分布式 AI 系统开发框架,提供云边协同推理、增量学习、终身学习等标准化分布式 AI 应用控制流程,帮助企业可以快速完成 AI 应用的分布式云原生改造,并对 AI 应用进行高效的管理,实现开发、运维成本的降低。33分布式云原生白皮书第四章 分布
86、式云原生典型应用场景 4.3 业务跨地域容灾传统的应用容灾,一般会采用离线冷备容灾、双活容灾、多活容灾等方式,对于大型应用将依赖异地多活,两地三中心的技术架构。这种架构能够应对区域级别的故障,分摊流量到各个区域,实现双活加主备的能力。随着企业规模扩张,用户量激增,业务的容灾级别需要不断上升。为了保障尽可能地降低业务失败的风险和影响,业务将演进到跨地域容灾。跨地域容灾能够为用户提供地域级别灾难的快速切换和恢复能力,保证用户业务平滑过渡,将最终用户在使用感受上的影响降到最低。跨地域的容灾,在用户的数据中心建设方面有着相当高的要求,比如流量的全局管理和容灾切换、业务的快速弹性、数据的快速复制和迁移等
87、。这些能力在分布式云场景下具备很高的集成度,对用户而言,开箱即用的容灾能力相比自建的高成本,吸引力会大很多。业务的跨地域容灾,首先需要将应用进行全局管理并统一流量入口,将跨地域应用作为整体看待,提供应用、制品、业务流量的全局管理,然后在接入层、应用层、数据层实现跨地域的协同打通,提供跨地域的业务流量互访、应用弹性迁移、数据同步互通的能力。业务跨地域容灾解决方案应用场景解决方案34分布式云原生白皮书第四章 分布式云原生典型应用场景 1.应用的全域分发和管理策略每个地域的资源依赖、比重权限、周边诉求,都是一个整体的应用在不同环境条件下的细分。利用分布式云的联邦管理机制,将应用以联邦的形式,统一配置
88、,统一分发,统一管理,确保所有区域下的应用都是基于同一来源进行部署和更新的。通过联邦,分配应用在每个地域下的实例数量,定义环境的差异化因素,保证应用与所属环境的完整配套。即使用户的应用分发到了成百上千的地域下,也可以在联邦管理体系下实现整体的状态检测、版本升级、资源扩容申请等管理行为。2.制品的全域分发能力当跨地域的应用通过分布式云分发时,全局唯一的制品库将导致部分区域需要远距离的大流量传输,这对带宽消耗和时延影响很大,一旦故障将会影响到后续的应用分发。利用分布式云的制品分发能力,基于应用的部署亲和策略,将应用依赖的镜像等制品同步到就近的制品库,可以有效提高镜像拉取效率,降低部分区域的故障影响
89、。3.业务流量统一入口,基于策略分发分布式云通过管理应用的生命周期,可以打通应用的流量入口,实现流量与业务的实时联动,为应用的跨地域容灾提供了最直接的业务安全保证。在正常业务流量情况下,可以通过流量的地域亲和、权重算法等策略,将业务流量分发到各地域的应用中。当发生异常时,基于异常的作用范围,比如实例级别,区域级别等,摘除相应的流量后端。为了避免大流量对剩余其他后端的冲击,对每个区域都有限流和降级机制,突增的峰值流量将被限制,保证进入的业务能正常工作。在区域的业务弹性扩容到新的地域后,将取消峰值的流量限制,流量将引向新开通创建的业务实例。4.应用的跨云弹性和容灾迁移常态下应用按区域划分实例配比,
90、实例级别的故障将会优先在区域内检测和尝试恢复。当出现区域级别的故障时,故障的实例将基于全局的调度策略,弹性到公有云、数据中心等其它地域中。调度策略包括整体迁移到指定地域、各地域均匀分配等。容灾恢复后,将反向执行策略将应用分布回归到初始状态,反向执行策略过程中会保证总体实例数在预设规格之上,按地域逐步完成回迁。应用的跨云弹性需要兼顾资源的利用率和冗余程度。一般来说还需要结合基础资源的弹性伸缩,故障时快速弹性出大量资源节点,并在恢复后能够快速清退,具备快速弹性资源能力的公有云一般更适合作为容灾迁移的备用区域,保证成本的最小化,以及故障影响的时间最短。5.应用间流量的跨云访问用户的业务系统内,应用之
91、间一般也会存在访问调用。在正常情况下,应用基于地域亲和在本地区内的集群中互相访问。当出现故障情况下,单一地域内的应用已无法满足其它应用的流量访问,这就需要利用分布式云的流量治理能力,将多云多地域的应用作为整体资源池,将部分流量导向其他地域的健康应用中。应用的流量互访始终保证在受访应用的规格限度内,优先基于地域亲和保证访问效率,确保整体业务不受影响。6.数据的跨云访问和异地同步应用的数据一般存在于数据库、文件/对象存储等地方。当数据仅存在于一地时,地域级别的故障将导致业务完全受损。用户可以通过将业务单元化改造等方式降低数据的影响半径,即将数据拆分到地域,应用也只访问地域内的数据。同时用户的部分业
92、务可能无法实现数据的单元化拆分,这就会涉及到多地域的应用访问统一的数据中心。在分布式云解决方案中,通过跨云跨地域的数据同步工具,实现数据的异地备份和快速切换,结合应用的全局快速切换配置,确保数据故障的影响最小化。35分布式云原生白皮书第四章 分布式云原生典型应用场景 4.4 分布式媒体直播加速随着互联网和移动互联网的发展,诞生了诸多类型的新型媒体形态,如社交媒体、短视频和直播等。这些新兴媒体形式实现了用户和媒体间的双向互动,例如 Facebook 和微博等,用户可以通过发布内容、评论、点赞和分享的形式与其他用户进行互动。未来,随着软硬件演进,以及新的业务形态(如 AR/VR)和概念(如元宇宙)
93、的涌现,媒体业务将向更实时、更逼真、更低成本的方向发展。例如视频会议、虚拟展会和虚拟演唱会等,用户可以实现与其他用户之间的实时互动,这对平台提出了新的挑战,包括更佳的用户体验和更低的成本。为了提升用户的体验,企业依托于分布式云原生平台能力,将媒体加速应用广泛地部署到网络边缘,极大的降低媒体数据上传和下载的时延。针对媒体直播场景,分布式云原生平台通过对不同地域的边缘算力进行统一管理、协同云边/边边数据传输、管理终端用户接入策略等方式,简化企业应用管理和运维流程,降低企业成本:1.全局算力统一管理和调度:将分散在各个位置的异构算力纳管起来,通过统一入口实现算力资源的按需使用。同时,通过提供基于成本
94、和体验的调度策略,根据不同地理位置的成本差异,选择成本更低的地方部署服务器,降低运营成本。分布式媒体直播加速解决方案应用场景解决方案36分布式云原生白皮书第四章 分布式云原生典型应用场景 2.客户端就近接入:提供统一接入入口,根据用户位置接入网络时延最低的算力,使得用户可以就近访问服务器,降低网络延迟和响应时间,提高用户体验和满意度。3.云边&边边协同:通过将多个边缘节点构成的边缘集群,依托分布式云系统提供的数据共享和同步技术,实现媒体应用元数据的跨集群快速同步和交换,减少媒体应用启动时的上下文同步时间,降低终端客户集群切换时延感知。4.系统高可用:将数据和应用程序部署在多个地理位置,实现多副
95、本部署和故障转移,提高系统的可靠性和容错能力,减少因单点故障而导致的系统宕机和数据丢失。5.弹性伸缩:根据业务需求动态调整服务器的部署位置和数量,实现弹性伸缩,提高系统的扩展性和灵活性,满足业务的快速增长和变化,按需使用云上算力,降低业务成本。6.简化运维:借助容器实现应用的自动化运维,包括自动化部署、自动化监控、自动化扩容等,减少人工干预和降低运维成本。同时采用持续集成和持续部署等技术,实现快速开发和快速迭代,提高产品的竞争力。37分布式云原生白皮书第四章 分布式云原生典型应用场景 4.5 跨云资源快速供给传统企业一般在私有数据中心或主机托管设施中购买和维护自己的基础设施,例如服务器、存储设
96、备和网络硬件。伴随着企业业务不断发展,本地 IDC 容量小、扩容周期长且维护成本高,无法满足快速增长与变化的业务诉求,许多企业既希望继续使用其现有的 IDC 基础设施,让核心应用与敏感数据驻留安全域,同时又希望借助公有云实现资源按需灵活弹性伸缩的优势。基于分布式云原生提供的跨云资源快速供给(Cloud Bursting)解决方案可在 IDC 无法满足算力需求时,可通过云下弹云上实现灵活扩容免运维。Cloud Busrting 是一种在本地基础设施到达峰值容量时使用云计算资源的配置方法。当 IDC 内的计算资源不足时,会将突增的工作负载投放到外部公有云。Cloud Busrting 是一种方便而
97、经济高效的方式,可为具有不同需求模式和周期性需求峰值的工作负载提供支持。通过 Cloud Bursting,用户可获得以下优势:高效使用本地资源减少对本地基础设施的进一步投资享受公有云带来的规模和灵活性避免因工作负载突增而导致业务关键型应用程序的服务中断跨云资源快速供给解决方案应用场景解决方案38分布式云原生白皮书第四章 分布式云原生典型应用场景 业务的跨云资源快速供给,首先需要保障用户体验一致性,用户业务流程无需改造仍然使用线下 IDC K8s 集群作为统一入口以及统一运维管理,其次需要给用户提供灵活的弹性策略配置。在此基础上通过云上无服务器容器(Serverless Container)服
98、务的按需秒级计费、极速弹性和基础设施免运维的特性实现用户降本增效的本质诉求。通过分布式云原生提供的 Cloud Bursting 解决方案,可在保证原有 IDC K8s 集群统一入口的前提下,实现业务弹性接入云上 Serverless 容器资源池,满足业务跨云资源快速供给的诉求。业务的跨云资源快速供给,首先需要保障用户体验一致性,用户业务流程无需改造仍然使用线下 IDC K8s 集群作为统一入口以及统一运维管理,其次需要给用户提供灵活的弹性策略配置。在此基础上通过云上无服务器容器(Serverless Container)服务的按需秒级计费、极速弹性和基础设施免运维的特性实现用户降本增效的本质
99、诉求。通过分布式云原生提供的 Cloud Bursting 解决方案,可在保证原有 IDC K8s 集群统一入口的前提下,实现业务弹性接入云上 Serverless 容器资源池,满足业务跨云资源快速供给的诉求。1.统一业务入口:跨云弹性供给场景下业务分布在线下 IDC K8s 集群与云上 Serverless 容器服务,业务的运行环境与周边依赖存在差异。通过分布式云原生提供的 Cloud Bursting 解决方案,可实现业务统一在 IDC K8s 集群,云上云下存储类型差异转换匹配,镜像制品跨云同步以及业务在 IDC 集群内统一注册、灵活互访。2.统一运维管理:用户在线下 IDC 中存在统一
100、运维中心,管理业务的监控、日志和告警等运维能力,跨云弹性供给场景下分布式云原生 Cloud Bursting 解决方案可将云上业务的监控、日志和告警等数据信息统一输送到线下 IDC 运维中心,用户通过原有运维平台可同时管理云上云下的业务运维作业。3.灵活弹性策略:用户不同的业务种类存在不同的弹性诉求,如敏感型业务优先使用 IDC 内资源,任务型业务优先投递云上 IDC。解决方案提供灵活的策略配置能力,可针对不同的业务类型提供不同的弹性策略以及自定义业务在云上云下分配数量的能力。4.按需弹性按量付费:用户业务存在波峰波谷,业务波谷时可优先使用本地资源,业务高峰时弹性上云。云上Serverless
101、 容器提供的按需使用按量付费特性可大幅降低用户成本,避免 IDC 扩容机房、云上预置资源在业务波谷造成成本浪费。5.极致弹性性能:跨云弹性供给与 IDC 直接下发业务相比存在资源开通延迟,故云上弹性业务的启动速度至关重要。分布式云原生 Cloud Bursting 解决方案中的 Serverless 容器服务通过镜像快照、网络预热和轻量虚拟化等能力可实现云上业务秒级启动的极致弹性体验。6.基础设施免运维:与线下 IDC 需自行维护基础设施相比,云上 Serverless 容器服务基础设施全部由云厂商负责托管运维和保障,可大幅降低人力投入和运维工作的压力,同时提供更精确的监控告警服务和故障恢复能
102、力,降低用户因基础设施故障导致的业务受损风险。通过 Cloud Bursting 解决方案,用户可在业务高峰时,秒级弹性万核资源,满足业务快速启动的诉求,对业务高峰期、高负载、高流量的使用场景提供有力保障。同时资源使用方式更灵活、成本更低,且降低运维投入,实现企业的降本增效。39分布式云原生白皮书第四章 分布式云原生典型应用场景 4.6 多云 DevOps为了帮助用户提供端到端的多云应用管理,多云应用管理除了在多云环境上部署和运维用户的应用,还包括应用代码构建、测试、打包、部署等全生命期应用管理流程,即将 DevOps 的理念和实践落实到多云场景中。多云环境下应用部署环境情况差异大,各个云厂商
103、运行的应用运行平台的差异,同样的应用在不同地域的云上目标客户的习惯和喜好不同导致的版本和配置差异,不同国际地域对于同一个应用的安全合规要求不同,各个云平台都有孤立的Dev 和 Ops 的工具和系统。如何解决多云环境这些现实问题,并且快速高效地帮助用户交付应用,改善最终客户的体验是多云平台 DevOps 解决方案急需解决问题。1.云原生基于容器化的构建部署简化多云环境 DevOps 流程容器化作为云原生的核心技术,除了敏捷、轻量、弹性之外,另外一个巨大优势就是统一运行环境带来的跨平台支持。容器提供了应用生命周期管理的环境一致性,从而消除了开发和部署的环境差异。在构建阶段基于标准环境构建,测试和部
104、署环节直接分发封装了完整环境和应用的容器镜像。这种方式除了简化集成、测试和部署的过程外,在多云场景下环境一致性和标准化更简化了跨云的 DevOps 流程。当前主流云厂商各自的云平台都支持容器,用户不会受到平台捆绑的影响,同时客观上也方便应用多云的统一部署。分布式云原生平台内置的 DevOps 能力天然提供了对多云容器平台的管理,统一在多云环境上部署应用,并进行统一的运维管理。2.多云 DevOps 简化多云的环境配置采用多云 DevOps 方案可大大降低交付流程的复杂度,用户采用多套环境共享一套 DevOps 流水线,并将构建的产物统一推送至制品仓库,然后根据应用在多云环境的不同业务要求,通过
105、差异化配置不同环境的部署参数,将应用发布对接到多云环境。在多云场景下,除了基于 Git 仓库对代码进行版本控制外,还可以对应用的运行环境进行版本控制。即用 Git 仓库管理应用的配置,动态控制目标环境的配置,当配置的状态与流水线中配置不一致时,基于 GitOps 在目标环境中进行差异化的配置渲染,动态调整应用状态。同时可以对配置的版本进行管理,根据需要可以快速回滚到一个历史版本。多云DevOps解决方案应用场景解决方案40分布式云原生白皮书第四章 分布式云原生典型应用场景 在分布式云原生平台上,应用内置 GitOps 功能可以统一管理多云环境的配置,使用流水线对多云环境的应用部署和配置进行统一
106、的版本管理,以统一的方式实现敏捷、不断迭代的应用开发、部署和交付。3.基于流水线安全合规保证在多云场景中,不同云厂商处于不同的国家或区域,需要遵循当地的法律法规,对于发布的软件的安全合规提出了更高的要求。在分布式云原生平台提供的 DevOps 流水线中,将安全能力内嵌到 CI/CD,支持源代码安全检查,开源软件安全检查与合规扫描,支持 Web 漏洞扫描、操作系统漏洞扫描、资产及内容合规检测、安全配置基线检查、弱密码检测等安全检查能力。通过这些手段强化软件供应链安全,实现软件在多云环境的安全性和合规性保障。4.多云环境基于流水线的部署在多云环境应用部署过程中,通过分布式云原生平台的 DveOps
107、 流水线灵活控制不同环境的负载部署和变更过程。根据按照业务需要可以分批在不同的环境进行部署,也可以同时在多个云平台上一起部署。在变更时可以对存在依赖的多个微服务同时变更上线,也可以根据单一变更原则只对选定环境的单个微服务进行变更,减少上线的业务风险。在这个部署过程中,配套分布式云原生平台的内置应用运维监控反馈的应用运行情况,基于流水线上灵活控制部署的节奏和过程。5.基于流水线的多云灰度发布在多云环境的应用上线时,通过流水线对接分布式云原生平台的服务网格,动态控制多云环境上的业务流量。根据业务特征可以先将流量分发到灰度环境,通过网格的流量策略控制特定地域特征或者业务特征的用户访问。在灰度过程中观
108、察应用的表现,然后逐步将流量分发到其他的环境。这些初始的灰度分流规则、灰度过程中的流量切分规则都可以集中进行版本管理,并在流水线中控制实施,灵活动态地控制在分布式云原生环境的应用上线过程。6.分布式云原生环境弹性的 DevOps 作业执行除了为业务提供敏捷弹性的能力外,在分布式云原生平台上 DevOps 本身可以更自动化、更敏捷、弹性地运行。在集中仓库提供代码托管、文件在线浏览、代码检查、代码审核等能力。DevOps 相关的 CICD 流程的各个作业都运行在各自的容器中,在隔离环境运行,方便根据流水线的运行情况动态分配资源和执行扩缩容动作,从而高并发、自动化、高效地编译、打包生成软件包或容器镜
109、像,其中的自动化测试等作业根据需要可以在多云环境部署。在云原生平台上灵活地在多云环境上进行构建、测试、部署、变更等 DevOps 作业。41分布式云原生白皮书第五章 分布式云原生行业最佳实践 第五章 分布式云原生行业最佳实践 42分布式云原生白皮书第五章 分布式云原生行业最佳实践 党的二十大报告提出要加快建设网络强国、数字中国,并对加快发展数字经济作出战略部署。数字技术作为驱动数字经济发展的引擎,是支撑银行数字化转型的关键力量。云原生以及与其相关的分布式云原生作为关键的数字技术,成为国家金融科技创新发展的重要着力点。农业银行自 2019 年启动数字化转型,当转型步入深水区之后,云原生正好顺应技
110、术演进趋势与金融发展诉求,为农业银行提供了破局之道,成为加速数字化转型的最优技术路径。2021 年,农业银行已全面推进云原生建设与技术栈转型升级,打造了稳定、安全、高效的基础设施云底座,彼时,中国信通院发布云原生能力成熟度体系,成为业内首个全方位、多角度、系统性衡量云原生综合能力的评估标准。农业银行于 2022 年通过信通院云原生能力成熟度全系列评估,技术架构、业务应用、架构安全三大领域均达到优秀级(L4)标准,成为业内首家全域通过优秀级评估的机构。通过以测促建,充分证明了农业银行云原生能力建设的高标准、全面性,与主流技术趋势的一致性,又有效验证了云原生能够助推数字化转型全面提速,充分发挥降本
111、增效、敏捷响应、快速交付的业务价值。为全面拥抱云原生,农业银行围绕最大化利用云能力、发挥云价值,体系化布局分布式云原生能力,推进从 On Cloud向 In Cloud 的全面转型。以分布式云原生技术栈为基础支撑,构建了包含容灾、安全、运营、研发、数据的五大技术体系,为农业银行未来十年的金融科技创新打造了数字“新基建”,为实现数字化转型目标奠定了技术基础。一方面,夯实新一代分布式云原生底座。一是构建软硬一体、云边一体的分布式云基建,打造融合云平台、分布式数据库、数据湖的 IT 底座,让云资源供给更精准、高效;二是将分布式、微服务等云原生能力沉降为标准化平台,搭建自主可控的分布式云原生技术中台,
112、自研零运维、秒发布的 Serverless“轻云平台”,在同业首家通过中国信通院 Serverless 平台技术能力“先进级”评估,让“用云”更简单、更便捷;三是实现大数据、人工智能等数字技术与分布式云原生紧密结合,打造金融生态云,实现云网融合、云数融合、云智融合,让数智服务无处不在、随需而至。另一方面,打造新一代分布式云原生安全体系。融合安全左移、自动化响应等云原生安全理念,打造云安全防护平台,形成“四横一纵”的纵深安全防护体系;建成业内首个 SaaS 化租户模式与攻击模拟闭环验证的安全运营中心(SOC)。在研发能力方面,打造一站式 DevOps 平台,形成四大交付基础设施和九种 DevOp
113、s 流水线,建成全流程敏捷的端到端研发工艺与研发体系,实现 400 余个全行级应用接入,关键金融产品具备每天更新发布能力。在运营能力方面,打造一体化生产运维平台,实现监控、管理、操作、配置、分析五位一体,应用部署自动化率超 95%,实现全链路、全流程、全领域运维的可感可知、可管可控、可计可析。在数据服务方面,围绕数据“采、建、管、用”四个关键环节,推进云原生与大数据融合应用的生态体系,助力构建数据友好型系统,真正让数据上收、服务下沉,支撑全行好用数、用好数。围绕“上云、用数、赋智”,农业银行的云原生体系不仅是单纯地驱动业务快速创新,更为金融客户、渠道、产品、运营、风控和决策的全渠道、全场景、全
114、链路赋能。从“上云”到“用云”,农业银行在云原生能力建设中始终校准靶心,为更高效地创造业务价值而部署云能力、发展能力,持续从云中获益、由云中进化。一是云原生保障极致稳健的业务连续性。农业银行建构了贯穿“多地、多活、云端”的分布式云高可用架构,保障业务全天候、全场景“不停机”“不断连”。以弹性云资源池、服务治理和限流熔断降级等云原生能力支撑分布式核心、掌银等关键业务系统,保障线上营销、纪念币预约等海量交易场景的稳健运行。当前,农业银行应用容器化率超 80%,基于云平台支撑个人掌银日均交易量超 10 亿笔,并验证了分布式核心承接每日 18 亿笔联机交易的稳定性与可靠性。二是云原生支撑用数赋智的数据
115、服务体系。围绕云原生与大数据、人工智能融合,农业银行正加速建设存算分离、湖5.1 中国农业银行云原生赋能数字化转型43分布式云原生白皮书第五章 分布式云原生行业最佳实践 仓一体、流批一体的云原生数据湖。打造集团数据服务云,为各领域业务提供一站式专属数据服务。截至目前,农业银行数据湖总量达 19PB。农业银行以海量数据资产为基础,将“数据友好型”理念融入产品创新与系统建设中,以云原生推动大数据体系释放“用数”价值。三是云原生打造规模创新的产品研发平台。农业银行着力打造轻量化、全托管、全流程的应用研发云平台,让应用只需专注业务逻辑,将云能力下沉到平台,实现参数配置与轻量开发的产品创新。通过业务组件
116、函数化,实现资源一次性装配、应用一键发布,产品从创意到上线最快只需一周时间。截至目前,农业银行基于应用研发云平台已孵化出 4000 余款“惠农 e 贷”系列产品,覆盖“三农”金融全场景。四是分布式云原生助力敏捷响应的业务快速交付。为满足产品创新、经营优化、流程再造等多样化的交付场景,农业银行正在建设融合 DevOps、DataOps、MLOps 的一体化交付流水线,一站式满足应用研发、数据研发、模型研发等多维业务创新模式,具备快速迭代的敏捷创新能力。例如,2022 年,农业银行掌银打造“版本列车”交付模式,每周可多频次上线发布新产品、新功能,带动个人掌银月活跃用户人数(MAU)达到 1.72
117、亿,位列同业第一。数字经济与数字化转型发展带来了新机遇与新变革,农业银行将牢牢把握“调整生产关系去适应新的生产力”这一根本原则。面向数字化转型 2.0,从业务数据化走向数据业务化,农业银行分布式云原生建设将不仅加快数字化转型进程,更被数字化力量所革新提升,分布式云原生技术持续与新技术、新应用、新基础设施深度融合,谱写金融高质量发展的新篇章。44分布式云原生白皮书第五章 分布式云原生行业最佳实践 随着移动互联网、物联网、大数据、人工智能等技术迅速发展,传统通信运营商纷纷在创新的浪潮中激流勇进,结合自身传统通信领域优势,在新场景打造新型应用,为国家数字经济发展战略贡献中坚力量。中国铁塔视联平台,利
118、用海量铁塔站址资源,以“海量算法”为牵引,支撑多种业务应用场景,满足不同行业应用的需求。服务环保、国土、林草、应急、地震,以及铁路、电网、油气管网、卫星导航等重点领域,发展形成了全国最大的铁塔共享平台和实用物联网平台。随着铁塔视联平台业务规模的增长以及多级部署模式展开,需要在各地域建设本地化站点,每个本地化站点建设Kubernetes 集群。这些集群支撑着铁塔视联平台的关键云原生业务系统,如物联网(IoT)平台、大数据分析平台、视频直播服务、网络安全解决方案等。随着站点数量增加,在效率与成本上,平台需要解决以下挑战:容器集群数量多、版本多:在全国多个省、市、地区数据中心站点建设了容器集群,集群
119、版本涵盖多个版本,管理、升级、安全补丁需要投入大量人力。多集群故障感知难度大:大量的下沉站点难以部署有效监控工具、打通监控通道以及建立高效的监控运维管理平台,分布式业务故障实时感知难度大。分散在各个站点的中间件管理和部署复杂:不同集群的云原生中间件等开源组件管理需要执行严格的流程与手工部署管理,缺乏方便快捷的统一管理体验。资源利用率不高:本地计算资源特别是负责 AI 推理的 GPU 资源共享与隔离实现困难,难以提高 GPU 的利用率。为解决这一系列挑战,铁塔视联平台决心建设一套能够实现分布式云原生集群与应用统一管理的解决方案。5.2 中国铁塔基于分布式云原生实现分布式站点统一管理铁塔视联平台整
120、体架构45铁塔视联平台多级部署架构铁塔视联平台分布式云原生平台分布式云原生白皮书第五章 分布式云原生行业最佳实践 多级部署模式:为提供低时延、跨地域的优质服务,铁塔视联平台采用“一级架构、多级部署”模式,支持各类业务系统的运行,形成覆盖中心云(公有云)、下沉节点(本地 IDC)、边缘设备、物联网设备在内的“云边端”综合性技术架构与分布式云业务体系统一集群管理:通过结合 UCS 多集群纳管能力,铁塔视联平台把全国各地下沉节点的集群接入 UCS 进行统一中心化管理,每个集群所在的数据中心站点通过 VPN 与中心公有云区域打通网络连接进行接入,通过对集群进行逻辑分组管理实现多个集群统一资源视图,统一
121、权限管控能力。中国铁塔视联平台与华为云 UCS 产品团队一起紧密合作,结合行业市场调研和技术研究,共同探索适用于分布式智能分析平台特点的分布式云原生技术解决方案。46铁塔视联平台云边协同架构分布式云原生白皮书第五章 分布式云原生行业最佳实践 统一应用与算法管理:基于开源项目 karmada 联邦能力的应用与算法仓的编排和部署。实现了高可用,同时也实现了用户就近访问。通过 GitOps 的大规模应用的持续部署有效性的提升部署效率同时保障应用管理代码化可审计。同时支持跨云迁移和管理,应用可在不同的云环境之间轻松迁移和管理应用,提高云资源利用率。统一流量治理:通过 DNS 与负载均衡实现南北向流量跨
122、 Region、多云混合云实例上流量的全域负载均衡亲和、主备、双活高可用访问,东西向利用多集群的服务网格基础设施,负载均衡、故障倒换、流量切分、灰度发布、动态路由等流量治理能力。统一智能监控分析:多集群容器洞察分析实现平台提供对各产品模块、实例、网络流量等的统一监控,打造全景可观测,全域集群运维统一视图,全域集群智能巡检,自动化实现集群健康守护,容器故障诊断,问题快速定位和恢复架构上联合打造云服务本地下沉新场景新模式,基于 UCS 本地集群能力实现安全稳定的本地容器集群托管,能够支持异构基础设施,通过 GPU 虚拟化技术,提升 GPU 隔离与共享能力,有效利用 IDC 已有资源,同时支持本地数
123、据中心按需弹性上云,有效降本,并且云上云下一致体验,功能灵活扩展云边协同:视联平台智能边缘子平台,提供边云协同能力,设备、应用的统一管理和运维能力边缘主要有两大业务,视频推理:算法下发到边缘后,运行在 Kubernetes Pod 内。视频存储:视频数据在边缘被处理后,部分视频回传到云端持久化存储或者用于后续的模型训练。基于分布式云原生建设的分布式站点统一管理平台,铁塔视联平台简化了分布式云场景下多集群管理复杂性,高效管理与维护众多下沉站点,实现算力、算法、应用统一管理、统一监控,提高了运维效率,降低了成本,加速了业务创新,保障了业务稳定性,为未来的发展奠定了坚实基础。展望未来,铁塔视联平台将
124、继续致力打造更智能、高效的分布式云原生平台,为承载业务提供更加先进、可靠和易用的技术解决方案。47分布式云原生白皮书第五章 分布式云原生行业最佳实践 随着科技的不断发展,云计算、物联网、大数据等新兴技术已经成为了当今企业发展的重要驱动力。在楼宇科技领域,美的集团作为国内领先的智能制造企业,紧跟科技发展趋势,将分布式云原生技术应用于楼宇科技的研发与创新,为客户提供了更优质的智能楼宇解决方案。美的楼宇科技的前身是美的中央空调,随着业务拓展,由单一暖通产品供应商转型为楼宇建筑整体解决方案供应商。目前,业务范围覆盖暖通系统、电梯业务、楼宇智能化、能源管理。产品远销海内外 200 多个国家。5.3 美的
125、基于分布式云原生构筑全球智慧楼宇 iBUILDING 平台美的智慧空间愿景美的智慧空间业务概览48分布式云原生白皮书第五章 分布式云原生行业最佳实践 在全球可持续化智慧空间的背景下,美的也面临巨大挑战。首先,由于美的设备畅销全球,面对海量的全球智能化设备,需要在全球部署云服务。其次,在落地智慧空间解决方案时,有大量客户场景需要提供私有化解决方案,然而客户的数据要私有化,通用能力往往又要公有化以减少私有化的运维成本。同时在智慧空间解决方案中需要对应用较多边缘控制,对边缘调度和管控能力要求高。针对上述挑战,美的通过引入华为云的分布式云原生技术构建了智慧建筑数字化平台iBUILDING 平台的分布式
126、云原生基座。借助分布式云原生基座,实现全球多云的统一管理,包括跨云平台的资源调度、应用部署和运维管理。以下是相应的云原生架构:美的iBUILDING分布式云原生平台美的iBUILDING分布式云原生平台技术体系49分布式云原生白皮书第五章 分布式云原生行业最佳实践 iBUILDING 云原生平台通过与华为云容器和微服务技术结合,实现了应用的一致性和可移植性。无论是在私有云、公有云还是混合云环境中,均可使用相同的技术栈和工具,确保应用在不同云平台之间的无缝迁移,从而大大降低了多云环境下的技术门槛和迁移成本,提高了应用的灵活性和可扩展性。通过集成云原生编排工具,如 Kubernetes,iBUIL
127、DING 云原生平台可以在全球范围内的多个云平台之间自动调整资源分配,以满足业务需求和性能要求。这种跨云资源优化模式可以提高资源利用率,降低运营成本,同时提高业务的可用性和性能。同时 iBUILDING 云原生平台还整合了华为分布式云原生平台提供的统一的运维管理工具。通过持续集成、持续交付和持续部署等方式,实现跨云平台的自动化运维,提高运维效率。此外,借助分布式云原生技术的跨云平台监控和告警能力,能够实时掌控各个云平台上的应用和资源状况,确保业务的稳定运行。此外 iBUILDING 云原生基座通过全球多云管理上实现更高的灾备能力和可用性。通过在多个云平台部署相同的应用,可以实现跨云的负载均衡和
128、故障切换,当某个云平台发生故障时,提高系统的容错能力和高可用性,减少业务中断的风险。针对边缘计算侧的需求,美的进行了云边一体化的改造,数据和计算任务被分布在云端和边缘设备上,实现了云端与边缘的协同工作。iBUILDING 平台在云边一体化改造过程中,特别关注以下几个方面:1.数据同步与一致性:需要设计合适的数据同步策略,确保云端和边缘设备之间的数据一致性。2.网络连接稳定性:云边一体化依赖于稳定的网络连接,因此需要确保边缘设备与云端之间的网络连接稳定可靠。3.安全与合规性:在进行云边一体化改造时,需要确保系统遵循各种安全和合规性要求,包括数据加密、访问控制、审计等方面。通过华为云分布式云边一体
129、化方案,iBUILDING 平台的云边架构如下:美的iBUILDING分布式云原生平台云边架构50分布式云原生白皮书第五章 分布式云原生行业最佳实践 云边一体化为美的楼宇科技带来以下价值:1.更低的延迟:通过在边缘设备上进行实时数据处理,可以显著降低数据传输和处理的延迟,从而提供更快速的服务响应。2.更高的可扩展性:云边一体化使得系统可以在云端和边缘之间灵活扩展,以满足不断增长的业务需求。3.更好的数据安全和隐私保护:通过在边缘设备上对数据进行预处理,可以降低将敏感数据传输到云端的风险,从而提高数据安全和隐私保护。4.更强的容灾能力:云边一体化使得系统具有更强的容灾能力,即使云端出现故障,边缘
130、设备仍然可以独立运行并提供服务。5.更高的资源利用率:通过将计算任务分配到云端和边缘设备,可以充分利用资源,降低运营成本。综上,分布式云原生技术为美的楼宇科技带来了灵活、可靠的技术解决方案,有助于提高企业的竞争力。通过基于分布式云原生技术的改造,美的楼宇科技 iBUILIDNG 平台实现资源利用率的提高、成本的降低、实时监控和智能优化、系统可扩展性和容错性的提升以及产品迭代速度和运维效率的提高。在未来的发展过程中,美的楼宇科技将继续深入挖掘分布式云原生技术的潜力,为客户提供更高效、更可靠的楼宇解决方案。51分布式云原生白皮书第五章 分布式云原生行业最佳实践 物流与供应链行业涉及的众多环节与线下
131、场景,成为了物联网技术应用的天然沃土。虽然科技的力量是巨大的,但在具体场景中的应用却是一个循序渐进的过程,物联网平台体系也经历了从传统架构到分布式云原生架构的演进。2019 年 7 月,顺丰正式开始建设“丰物互联”顺丰智慧物流与供应链领域工业互联网平台,将物联网技术全面应用于“收派-中转-运输”各环节,面向设备、人、车、货、场等对象,由点及面,探索物联网技术在物流场景下的规模化应用。通过统一标准化云边端物联网平台体系建设,以 OT 和 IT 技术融合为核心,借助分布式云原生技术,支撑顺丰集团运营“实时在线、即时分析、智能管理、闭环决策”,助力企业提升整体竞争力,降本增效,并为客户创造极致体验的
132、物流服务。随着物联网技术在业务侧规模化应用,顺丰科技面临一个典型的场景问题:如何快速地把感知到的、分散的生产对象信息进行快速汇聚和处理。为了缩短数据处理和传输的时间,顺丰科技在靠近产生各生产作业数据的源头处(例如分拣中心),设立了很多个“边缘节点”(用于采集与处理数据的设备),用来实现数据就近采集和分析处理,数据不出现场可直接闭环,但“边缘节点”的形态是多元化的,因此,需要对边缘节点进行统一纳管,相比同一类型硬件设备的统一接入,边缘节点与云侧数据中心的云边协同更具挑战。针对云边协同挑战,即边缘节点与云侧数据中心的协作配合问题,顺丰科技基于分布式云原生技术,对物流场景中的生产对象进行“身份标识”
133、的统一,给它们逐个建立起了数字空间上的“物模型”(可以用来查看某实体设备的功能特征),例如,一台大型自动分拣机是由扫描设备、感应通道门、单件分离等多个独立部件组成的,而这些部件则生成了一个个独立的在数字空间上的物模型模块;当这些独立的模块组合在一起时,形成一个大的、完整的“自动分拣机物模型”。现场管理人员可以通过这个模型直观看到这台分拣机的实时运行状态,当分拣线出现拥塞、作业质量异常、产能空闲或超负荷时,模型会进行提示,方便工作人员及时地定位、处理相关问题。而分拣机的数据接入与管理、物模型定义、边缘数据处理算法、5.4 顺丰科技基于分布式云原生加速万物互联分布式云原生物联网平台架构52分布式云
134、原生白皮书第五章 分布式云原生行业最佳实践 数据路由规则,则均由云侧统一定义和管理,再结合云侧的大数据分析,实现生产精细化运营。针对多元化形态的边缘节点,由云侧统一管理边缘节点,实现边缘节点纳管、边缘应用部署和管理。受益于对物流与供应链场景的深度理解,顺丰科技充分发挥云边协同带来的好处。目前,顺丰科技仍在持续向更高效、更便捷的物联网平台体系方向迈进。在分拣中心中转环节,普遍会涉及到数据清洗、过滤、算法分析等工作,为了让云边协同变得更加友好,通过研究工具化、低代码化的方法,让用户无须从 0 开始写代码,轻松拖拽鼠标完成相关开发工作。同时,顺丰科技也在打造边缘计算中枢。该中枢可以统一收集生产现场各
135、种设备、人员、车辆、货物等数据,如分拣机扫描/落袋、输送线拥塞、货物重量体积等信息,并把数据推送至相关应用环节,解决了生产数据不全、数据利用率低、数据质量低等问题,从而提高中转环节的作业效率。不同业务需要数据时,统一由中枢路由和分发,现场设备或 OT 系统不再需要频繁升级固件、对接多个业务系统,大大缩短业务落地时间和成本。把目光切换到 OT 领域视角,无论是自动化控制系统,还是自动化测试装备,或是很多生产管理系统,在现场历练过的人可能深有体会,其软件的升级、监控以及问题修复,各种软件重装、测试、诊断,直到恢复正常,都依赖于现场工程团队。虽然 OT 领域技术发展相对缓慢,强调的是稳定性与可靠性,
136、但是业界逐步意识到现有管理方式的低效,也在尝试探索工业软件容器化部署和微服务化,以及分布式云原生架构改造的可行性,解决单体软件部署、升级、版本管理以及需求变更导致停产停线的痛点问题。可以预见,对于非设备驱动型强耦合的 OT 系统,其 IT 服务化重构升级将成为一种趋势,而布式云原生架构将发挥关键作用。现代物流与供应链分拣中心53分布式云原生白皮书第五章 分布式云原生行业最佳实践 随着科技进步和人工智能的发展,自动驾驶技术正逐渐成为交通出行重要趋势。自动驾驶 AI 模型训练需要大量的异构计算资源,由于资源供应与高峰期需要海量资源,除了 IDC 机房外,还需要从各公有云自动驾驶专属云获取,因此如何
137、在多个云环境中高效地进行 AI 模型训练,以便充分利用这些资源,便成为自动驾驶行业面临的关键挑战。华为智能汽车解决方案专注于自动驾驶研究与创新,其业务涵盖了自动驾驶平台的研发、测试、生产、运营等环节。为了实现高效的自动驾驶 AI 模型训练,华为智能汽车解决方案需要在华为云智驾专属云和合规机房 Kubernetes 集群上运行大量训练任务。因此需要根据成本、资源容量、数据、合规等因素对训练任务进行分布式云调度和弹性,以确保训练任务在各个云环境中的高效、稳定性和安全性。为解决这一问题,华为智能汽车解决方案基于华为云 UCS 打造分布式云原生AI基础设施,打造分布式云数据管理、AI模型训练与分布式云
138、调度、分布式云资源管理、应用管理,从而满足高峰弹性需求,简化分布式云调度,提升训练效率,加速自动驾驶进化,更好地应对市场变化和满足客户需求。5.5 华为智能汽车基于分布式云原生 AI 基础设施加速“自动驾驶”进化ADS自动驾驶训练平台54分布式云原生白皮书第五章 分布式云原生行业最佳实践 数据准备:为了处理 AI 模型训练中关键的数据,华为智能汽车解决方案团队打造优秀的数据加密、压缩、缓存与处理等能力,通过 SDK 与界面方式将训练数据从各个合规机房同步到云上智驾专属云,打造高速、安全的数据通道。模型训练:通过界面化与命令行方式创建模型训练任务,支持资源分组、资源需求指定、模型配置、训练类型、
139、优先级等信息指定,并支持查看训练状态与结果,支持手动调整训练优先级,提升模型训练人员体验与效率同时,支持模型与训练结果运营分析。借助分布式云原生技术并结合华 为智能汽车解决方案在数据准备、AI模型训练等方面的实践,整体方案能力实现如下:ADS自动驾驶训练平台分布式云原生AI基础设施55分布式云原生白皮书第五章 分布式云原生行业最佳实践 实现分布式云资源管理:统一的管理界面和统一体验,运维团队可管理和监控分布在各个智驾专属云和合规机房的 Kubernetes 集群,包含异构资源的 Kubernetes 集群。这使得运维人员快速感知、定位、处理问题,提高了运维效率。实现应用管理及持续集成和部署:通
140、过结合分布式云原生 GitOps 能力,可以在大规模分布式云环境中自动化地部署、监控和升级其自动驾驶 AI 模型训练任务,确保应用在不同云环境中的一致性。GitOps 通过将应用的描述性状态存储在 Git仓库中,实现应用的版本控制、审计跟踪和回滚功能。这有助于减少因环境差异导致的问题,提高开发和运维的效率。实现分布式云调度:基于分布式云原生多集群调度,打造基于成本、资源容量、数据亲和、合规等规则与策略的分布式云全域调度,高效地分配训练任务到合适的云环境。可以充分利用各个智驾专属云的资源与服务优势,降低训练成本,同时提高训练效率。保障安全与合规:结合 UCS 策略中心,以实现更高效、安全、可靠的
141、自动驾驶 AI 模型训练。通过统一的安全策略,华为智能汽车解决方案可以确保其训练任务在不同云环境中都符合企业安全和合规要求。分布式云原生统一管理降低了分布式云环境下的管理复杂性,节省了 IT 运维成本,因而华为智能汽车解决方案可以专注于核心业务,提高整体运营效率。通过分布式云调度功能,华为智能汽车解决方案可以根据业务需求灵活地分配计算资源,应对业务高峰,有助于在高峰期间保持服务的稳定性,提高客户满意度。分布式云调度策略可根据实际需求为训练任务分配最合适的计算资源,从而提高训练效率,加速 AI 模型的迭代与优化,有助于华为智能汽车解决方案在竞争激烈的自动驾驶市场中保持领先地位随着自动驾驶业务不断
142、发展,华为智能汽车解决方案的计算需求将继续增长。结合华为云 UCS 打造的分布式云原生AI 基础设施,可以实现高效地实现多云调度和提升自动驾驶,提升 AI 模型训练效率。支撑业务的快速扩展,更好地适应业务发展和市场变化,保持竞争优势。华为智能汽车解决方案在分布式云原生 AI 基础设施的成功实践将为整个自动驾驶行业树立一个典范,展示了分布式云原生在加速自动驾驶进化方面的潜力。随着越来越多的自动驾驶企业意识到多云环境下 AI 模型训练的挑战,相信分布式云原生将在越来越多同类型企业得到广泛应用,为企业提供更高效、安全、可靠的分布式云原生 AI 基础设施,助力行业实现进一步的创新和突破。56分布式云原
143、生白皮书华为技术有限公司 深圳龙岗区坂田华为基地 电话:+86 755 28780808 邮编 518129 免责声明本文档可能含有预测消息,包括但不限于有关未来的财务、运营、产品系列、新技术等信息。由于实践中存在很多不确定因素,可能导致实际结果与预测信息有很大的差别。因此,本文档信息仅供参考,不构成任何要约或承诺,华为不对您在文档基础上做出的任何行为承担责任。华为可能不经通知修改上述信息,恕不另行通知。版权所有 华为技术有限公司 2023。保留一切权利。非经华为技术有限公司书面同意,任何单位和个人不得擅自摘抄、复印本手册内容的部分或全部,并不得以任何形式传播。商标声明 是华为技术有限公司商标或注册商标,在本手册中以及本手册描述的产品中,出现的其他商标,产品名称,服务名称以及公司名称,由其各自的所有人拥有。