《腾讯云&中国信通院:分布式云行业实践指南(2023)(46页).pdf》由会员分享,可在线阅读,更多相关《腾讯云&中国信通院:分布式云行业实践指南(2023)(46页).pdf(46页珍藏版)》请在三个皮匠报告上搜索。
1、 分布式云行业实践指南版权声明本报告版权属于腾讯云和中国信息通信研究院,并受法律保护。转载、摘编或利用其它方式使用本调查报告文字或者观点的,应注明:“来源:腾讯云和中国信息通信研究院分布式云行业实践指南(2023)”。违反上述声明者,将追究其相关法律责任。分布式云行业实践指南 前 言分布式云是一种将云服务按需部署到不同地理位置,提供统一管理能力的云计算模式。2022 年,腾讯云与中国信息通信研究院云计算与大数据研究所联合发布业界首个分布式云发展白皮书(2022),明确分布式云概念定义、关键技术、典型场景及主要挑战。过去一年来,伴随政企用户“上云用云”进程加快,分布式云技术不断演进与发展,在金融
2、、工业制造、能源交通等行业深化应用实践,进一步加速政企数字化转型。当前,随着企业数字化转型迈入深化阶段,以及人工智能、大数据、区块链的技术对各行业的渗透加深,分布式云作为算力云服务底座,向下统一管理调度算力资源,向上定义应用新界面,为各行业的科技创新和智能化建设提供坚实支撑。本白皮书以分布式云行业实践指南为主题,将全面介绍分布式云最新发展态势、典型应用场景、技术演进发展、行业实施路径及最佳实践,旨在为分布式云在各行业规模化应用实践落地提供参考和指引。分布式云行业实践指南目 录CONTENTS分布式云发展态势/1(一)国家和地方算力相关政策出台为分布式云发展带来新机遇/2(二)政企数字化转型进程
3、加快推动分布式云规模化实践应用/3分布式云典型应用场景/4(一)分布式云基础设施实现算力按需弹性供给/5(二)分布式云全局管理实现分支节点统一管理/6(三)分布式云原生全面提升企业应用管理效率/7分布式云技术演进与发展/10(一)面向私有化场景定制的分布式云部署能力/11(二)面向多形态部署的分布式安全防护能力/11(三)面向全局视角的分布式云统一管理能力/12(四)面向云边端多层级算力协同的全域调度能力/13分布式云行业应用实施路径/14(一)金融行业/15(二)制造行业/17(三)能源行业/18(四)交通出行/21(五)政务行业/23(六)泛互联网/25分布式云行业应用最佳实践/27(一)
4、金融行业:腾讯云金融专区/28(二)制造&工业:华岭智能制造数字工厂/31(三)能源:宝信软件分布式云系统/33(四)交通出行:广州地铁集团/35(五)交通出行:某新能源车企自动驾驶云/37(六)泛互:智聆口语评测降本增效实践/39分布式云行业实践未来展望/420分 布 式 云 发 展 态 势01(一)国家和地方算力相关政策出台为分布式云发展带来新机遇(二)政企数字化转型进程加快推动分布式云规模化实践应用2 分布式云行业实践指南(一)国家和地方算力相关政策出台为分布式云发展带来新机遇 算力分布式发展进入国家政策规划体系。2022年2月,“东数西算”工程正式启动,国家发改委
5、、中央网信办、工业和信息化部、国家能源局联合印发通知,同意在京津冀、长三角、粤港澳大湾区、成渝、内蒙古、贵州、甘肃、宁夏等 8 地启动建设国家算力枢纽节点,并规划了 10 个国家数据中心集群。当前阶段,我国算力资源存在一定程度的供需失衡,东部地区计算需求大,但数据中心能耗指标紧张、电力成本高;而西部地区气候适宜,空间广阔、资源丰富,但现存数据中心规模小、数据传输费用极高,还难以承接平衡东部的计算需求。“东数西算”工程通过布局国家数据中心枢纽节点建设,旨在平衡全国各区域算力水平,优化算力基础设施建设布局,此举将分布式算力基础设施发展推向新阶段。此外,工业和信息化部印发的新型数据中心发展三年行动计
6、划(2021-2023 年)中提出“用 3 年时间,基本形成布局合理、技术先进、绿色低碳、算力规模与数字经济增长相适应的新型数据中心发展格局。总体布局持续优化,全国一体化算力网络国家枢纽节点、省内数据中心、边缘数据中心梯次布局”的总体目标,明确了算力基础设施应进一步下沉至省、市级地方区域,形成中心-区域-边缘的立体化分布式算力底座,各省、市应打造具有地方特色、服务本地、规模适度的区域和边缘算力服务。国家级算力规划形成横向以“东数西算”工程为牵引,以均衡各区域算力水平为目标,纵向打通区域、省、市、县多级算力联通,形成立体分布式发展趋势。各地方积极探索分布式算力基础设施发展新举措。国家发展改革委、
7、中央网信办、工业和信息化部、国家能源局联合印发的全国一体化大数据中心协同创新体系算力枢纽实施方案提出“支持发展高性能、边缘数据中心。鼓励城区内的数据中心作为算力边缘端,优先满足金融市场高频交易、虚拟现实/增强现实(VR/AR)、超高清视频、车联网、联网无人机、智慧电力、智能工厂、智能安防等实时性要求高的业务需求”为各地方政府探索本地算力基础设施建设提供指导方针,将加快建设面向城市、区域范围内的的边缘算力基础设施发展。各省级政府也积极发布地方性政策,支持和鼓励各地的分布式算力基础设施、云计算技术及分布式云研究和建设。例如,北京市提出“建立协同高效的算力中心体系,统筹各类政务云、公有云、私有云等算
8、力中心资源,形成市级算力中心与区域算力中心相结合的整体布局,推动云服务创新发展,支持云端架构优化和云边端协同发展,加强边缘计算能力部署”。广东省提出“推进云网协同和算网融合发展,加快全国一体化算力网络粤港澳大湾区国家枢纽节点建设”。上海市提出“依托基础电信企业、交换中心网络节点推动边缘数据中心间、边缘数据中心与新型数据中心间的网络互联交换,形成城市级分布式云计算能力,促进云计算、边缘计算协同发展”。天津市提出“推动分布式云边端设施协同有序发展,优先在数据量大、时延要求高的应用场景集中区域部署集网络、存储、计算于一体的边缘计算中心,打造技术超前、规模适度的边缘计算节点布局”。重庆市提出“提升本地
9、先进计算服务能力,构建以算法为核心、算力为支撑、数据应用为导向的先进计算产业生态体系”。分布式云为一体化算力云服务协同提供有效支撑。国家规划层面,算力基础设施形成纵、横双向扩展模式,横向以“东数西算”为指引,扩展算力地域覆盖广度,纵向打通算力纵深,形成云、边、端多层级下沉的算力云服务能力。算力分布式建设和部署能够有效平衡不同区域算力发展差距、提升整体算力资源利用率、实现更近提供服务能力。然而算力分布式部署不意味着“分散独立管理”,在分布式算力基础设施之上,需要提供统01.分布式云发展态势3分布式云行业实践指南 一的管理、调度、运维、运营、安全管理系统或平台,支撑分布式算力协同运作,这就要求云服
10、务商、运营商等具有通过智能网络将广泛分布的资源池连接起来的能力,并能够在资源池和资源池、资源池和用户间建立高效、灵活的管理和协同运作方式。分布式云正是承担此重任的关键技术体系,对下屏蔽多种架构并存的基础设施差异性,对上直接承接业务应用,提供全面一体化算力云服务能力。(二)政企数字化转型进程加快推动分布式云规模化实践应用分布式云能够融合存量IT系统,成为传统行业深度用云的突破口。多数传统行业企业信息化工作开展较早、建设时间跨度长、技术迭代次数多,沉积了大量零散的信息化系统、老旧的基础设施,遗留厚重的 IT 系统历史包袱,未能将云有效融入现有 IT 系统,阻碍传统行业数字化转型进程。随着分布式云技
11、术的发展,云服务在分布式部署、统一管理运维、应用敏捷部署等方面能力得到提升,助力传统行业进一步深度用云。例如,政务行业通过分布式云的跨地域统一管理架构,统筹管理省、市、区县等资源,实现数据互联互通,并提供通用的业务运行平台,增加部门、区域间的公共化、资源共享能力,对业务进行精细化资源分配,加速业务应用的创新开发和集成,提升政务服务的效率。制造业利用分布式云的实现工厂多级管理,将生产现场的设备统一接入、统一管理,并将 AI 应用部署在现场边缘,实现实时数据处理、智能质检;金融行业通过分布式云平台对底层异构的总行、分行、边缘站点等基础设施资源进行统一管理,提高分行站点上云比例,高效管理所有分行基础
12、资源和应用,同时,通过分布式云将业务应用部署到具备互联网出入口的边缘站点,能够大幅降低互联网应用访问时延。分布式云提供统一资源底座,助力各企业聚焦自身业务创新。各行业企业从业务可用性、资源成本控制等角度考虑,采用多云、混合云部署已成为常态,以此带来的基础设施的规格不统一、公共组件异构、技术能力限制不一致等问题,导致企业浪费大量人力在基础设施管理,阻碍业务应用的创新实践。其一,同一应用部署在异构的云基础设施之上,存在较多分支集群,应用上线、下线、变更均涉及多次在不同云上的操作,应用的测试和迭代叠加了更多的繁复的适配性验证、上线、回滚工作;其二,很多企业应用使用量在高峰时段和低谷时段分布极不均衡,
13、对应的资源需求变化极大,出于成本优化的考虑,需要频繁调整系统资源,浪费了很多人力精力;其三,多个云资源池数据、应用、业务流通困难,信息孤岛效应明显,很难实现全面协同。从实践中看,分布式云技术能够为这类问题提供的解决方案。通过分布式云的一致基础架构,实现多资源池的互联互通和协同运作,打通各个数据孤岛,实现协同创新;通过分布式云的全局管理能力,实现业务资源的统一申请、开通等生命周期管理,节省了运维成本,利用云原生技术,有效屏蔽底层基础设施差异性,可以专注于应用开发和测试;通过分布式云的全局调度能力实现业务应用的弹性部署、流量治理,实现资源随需使用、流量分时段负载均衡、应用灵活调度。随着 5G、人工
14、智能、物联网、大数据、区块链等新一代信息技术的飞速发展与广泛渗透,云作为算力底座从硬件、基础技术、平台到应用均面临全面革新调整,分布式云技术方案可以为各行业与其他新一代信息通信技术融合提供统一的算力支撑底座,让企业更加专注于新技术融合应用开发,助力各行业利用新一代信息通信技术赋能自身业务,提升经营效率和应用价值。分布式云典型应用场景02(一)分布式云基础设施实现算力按需弹性供给(二)分布式云全局管理实现分支节点统一管理(三)分布式云原生全面提升企业应用管理效率 5分布式云行业实践指南(一)分布式云基础设施实现算力按需弹性供给 1.时延敏感型应用分布式云可以将云服务延展到本地 IDC、生产现场和
15、边缘区域等下沉场景,降低访问时延和网络带宽传输压力,解决传统集中式云计算不能覆盖到的现场边缘计算场景。分布式云解决了集中式云计算无法满足的时延敏感型业务的挑战。常见的时延敏感型业务如下:面向终端消费:以直播、会议为代表的音视频,以及云游戏、AR 等业务,时延对终端用户体验有较大的影响。通过分布式云来部署业务,可以将业务放置到离终端用户更近的物理位置,从而降低时延,提升体验。面向生产现场:在智能制造、自动驾驶等领域,需要实时对生产数据进行监控、计算,并实时反馈到生产控制系统,分布式云提供的就近部署能力,除了实现与生产系统微秒级时延互访,也减少了数据在复杂网络传输带来的不确定性。02.分布式云典型
16、应用场景图 1低时延业务应用模型6 分布式云行业实践指南2.数据监管合规分布式云通过将云服务按需部署在用户指定安全区域,能够解决集中式云计算的数据合规和政策合规问题。政企用户敏感数据资产,通常需要采用特殊的保护策略,比如固定的部署位置、专属的部署资源,以及严格的访问管理策略。对此,传统中心公有云难以完全实现,成为企业上云的重要阻碍因素之一。除此以外,从事高科技或接触敏感信息行业,例如金融、政务等,从国家、行业层面往往也会有相应的数据安全合规规定,某些国家、地区会要求金融数据本国、本区域驻留。通过部署分布式云实现专属化的部署,满足数据监管合规诉求,保证数据从存储到处理均在合规流程范围之内。(二)
17、分布式云全局管理实现分支节点统一管理 在分支机构管理场景,分布式云相对于集中式中心云、传统 IT 有较大优势。图 2云边端一体化管控常见的分支机构管理场景如下:集团型企业:大型组织通常在全国乃至世界范围内会存在多个分支机构,每个机构会有自身 IT 诉求,同时又需要集团层面统筹管理,大型集团企业按国/省/市/地划分的部门均可以通过分布式云来统一管理 IT 架构。7分布式云行业实践指南 图 3多集群应用服务架构分散部署型业务:部分业务天然具有分散部署特征,比如智慧高速、智慧水利、智慧地产,运营方需要部署和管理从数十到数千的分散业务节点。但在企业实践过程中,以某大型企业为例,传统的解决方案不具备统一
18、管理、分布式部署等能力,机构、企业的分支机构往往各自独立建设资源,导致资源异构、管控困难、数据孤岛等问题。通过分布式云的建设,将大型政企单位的不同分支节点的云资源进行统一管理,进而统一管理集团的 IT 资产、软件服务、中心组织、生产制造系统以及企业管理系统等,实现企业内的数字化资产、业务、人力资源的统一管理运营。(三)分布式云原生全面提升企业应用管理效率1.多云应用治理随着企业数字化能力的逐步提升和上云进程的深入,越来越多的企业选择多云战略,同时采购和使用多个厂商的云服务或自建云中心的方式,满足企业不同业务的需求,平衡多家供应商影响,避免厂商锁定,提高企业平台自身的独立性和稳定性。但大部分企业
19、受限于技术和成本等因素,在推进多云过程中仍面临管理复杂、成本较高等挑战。将云原生技术与分布式云融合,能够帮助企业更好地实现多云的应用治理。分布式云应用治理应能够统一发布和管理跨云环境的应用服务,实现跨云多活、故障迁移、灾备等。同时,多集群间应用能够弹性伸缩,按地域、状态、资源等维度进行调度,实现快速地在多个集群上部署和管理应用,提高业务弹性敏捷。8 分布式云行业实践指南2.应用高可用容灾在企业上云实践过程中,尤其在保障关键业务可靠性的方面,利用云原生分布式云的技术,能够更加有效地应对高可用容灾的场景。例如Kubernetes 体系结构支持集群范围中的应用程序正常高可用的运行,但不支持对分布式云
20、跨地理位置的大规模灾难恢复。在这种情况下,需要构建多集群的方式,应用服务通过在集群间备份恢复或多活部署的方式,实现更大范围的业务高可用性。该种方式涉及操作多个集群上的应用、服务和数据,通过统一的容灾管理机制,在分布式云跨集群之间实现服务同步、负载均衡、应用配置、数据服务等,实现跨云多活容灾,并提高资源利用率,节约成本。3.混合云架构应用企业在上云过程中由于数据安全隐私、资源利旧、业务容灾等原因,在上云时通常无法放弃自建数据中心或本地资源,往往会采用混合云的架构。但混合云架构带来的额外管理运维成本,以及云上云下资源、应用不能协同等瓶颈限制了业务的进一步扩展。图 4多集群容灾架构9分布式云行业实践
21、指南 通过以 Docker、Kubernetes 为代表的云原生技术,使用分布式云方式利用跨云混合部署集群的方式,支持用户在自有的本地基础设施运行与中心云上集群一致的 Kubernetes 容器服务,包括虚拟机和物理机。中心云上托管的 K8s 集群的控制平面,集群的创建、升级、监控等生命周期管理由分布式云云厂商统一管理,用户只需要提供硬件和机房即可。这种混合部署集群的方式能够快速实现多云多地域的分布式云服务,具备以下优势:资源利旧:充分利用 IDC 资源,在上云的过程中可以对已有的资源进行成本摊销;降低运维成本:免去在本地搭建、运维 K8s 集群的成本,由云厂商统一运维管控,减少运维投入成本;
22、云能力按需接入:不仅要支撑应用本身运行,还要便捷地与网络、数据库、中间件等云服务连接,实现按需扩展;弹性敏捷:支持使用云上资源对 IDC 的资源进行快速扩容,赋予 IDC 资源弹性拓展的能力,有效应对流量突发的场景。图 5跨云混合部署集群分布式云技术演进与发展03(一)面向私有化场景定制的分布式云部署能力(二)面向多形态部署的分布式安全防护能力(三)面向全局视角的分布式云统一管理能力(四)面向云边端多层级算力协同的全域调度能力11分布式云行业实践指南 在分布式发展白皮书(2022)中提到,分布式云关键技术包括基础设施、分布式云服务、全局管理、云原生、一体化安全等。随着分布式云在各行业、各场景逐
23、步深化实践,分布式云技术不断演进与发展,具体包括下述几个方面。(一)面向私有化场景定制的分布式云部署能力在对数据合规性有较高要求的行业,私有化交付的分布式云正处于联合验证和初步实践过程中,采用公有云模式和私有化模式的分布式云特征区别如下:分布式云公有云模式:由服务商提供完全运维托管的服务(软硬件、运维),大多数采用中心化管控模式,从而极大的降低本地化管控模块成本,具备与中心云一致的服务能力和管理模式,分布式云节点支持与服务商公有云能力实时同步。分布式云私有化模式:由服务商提供整套云平台软件以及分布式云节点的软件,硬件则为服务商提供或指定型号采购,运维多由客户执行,几乎全部采用私有化管控节点,需
24、先建设对应厂商的私有云平台,具备与该私有云平台一致的服务能力和管理模式,不支持与服务商公有云能力实时同步。面向私有化场景的分布式云的特点可以总结为:具备分布式云的敏捷性、全局管理、统一体验的特征,通过减弱部分分布式云的运维效率和成本优势,实现满足特定行业的数据合规性和运营可控性。在金融、政务等领域,私有化的分布式云技术正在实践应用,目标是通过分布式云解决中小型节点和边缘区域算力部署和管理难题,代替传统多类 IT 方案组合的方案,实现更低成本、更高效的在非中心区域引入更丰富的云和数字化服务能力。(二)面向多形态部署的分布式安全防护能力分布式云因其部署形态、位置、形式上的灵活性,可能会被用于处理更
25、复杂的 IT 需求场景,例如解决大型政企中位置多地分散协同的管理诉求,在形式上也常与传统私有云、自建 IT 基础设施共同组成混合云。在这类场景下,除了通过常规的防火墙、主机安全等防护产品来保护设备和系统,分布式云还需加强以下两类场景的安全防护:03.分布式云技术演进与发展12 分布式云行业实践指南1.边缘、分支与中心的访问安全 在企业机构的分支节点,比如工厂、变电站、分公司等场景,往往无法提供与中心一致的安全防护等级,部分终端设备、系统存在被入侵风险。而分布式云的分散部署、统一管理特性,能够联通中心和众多分支节点,可采用以下技术能力解决潜在风险:分支节点尽可能部署完善的安全模块,比如漏洞、入侵
26、检测等;分支节点采取“零信任”管理机制,对访问和登录行为进行身份鉴权,对往来流量通过防火墙进行安全管理。2.分布式云+自建(私有)混合场景安全在企业机构内部 IDC、系统中引入分布式云除了能实现降本增效外,还可以通过分布式云引入海量的供应商 PaaS、SaaS 服务能力。分布式云“中心管控、本地服务”的特点,依赖中心管控模块能网络访问用户本地IDC,该链路的安全合规性则需提供额外的防护措施,分布式云服务提供商需提供完善的安全审计能力,最核心的内容包括以下方面:链路流量审计:管控链路所有流量支持被使用方审计,并可支持长期存储和提取管控行为审计:所有通过链路的人为操作、模块信令支持以使用方可理解的
27、方式提供展示和审计同时因为流量往来和行为操作属于高频行为,以上能力应以标准化的形式提供,减少人工操作带来的效率降低和安全风险。除了由供应商提供安全审计能力,还可以通过划分功能区域、设置 DMZ 区等措施来有效管理同一 IDC 内不同形式云带来的安全管理风险。(三)面向全局视角的分布式云统一管理能力分布式云的基础设施位于地理位置分散的不同点位,在面向用户提供云服务时,需要具备将不同地理位置的基础设施连接起来并统一管理的能力,全局管理能力是分布式云的重要技术挑战。分布式云全局管理能力要求具备统一使用体验的云管平台,将位于中心侧、区域侧、边缘侧、终端侧的分布式云基础设施全面统筹管理,从资源、服务、数
28、据、运维、运营、安全等方面提供多位一体的协同运作。基础设施层面,全局管理具备对各种各样的异构硬件兼容的能力,对虚拟化资源进行整合管理、联合编排,提供分布在不同地理位置的计算、存储、网络资源;云服务层面,通过全局管理系统,可以将指定云服务扩展到分布式云节点上;数据层面,数据的接入、汇聚、预处理、销毁全部在同一管理平台内进行,全面掌握数据的全生命周期;运维和运营层面,用户、账户、资源、升级等管理和操作均得以在统一的平台中进行,最大程度节省了运维和运营成本。13分布式云行业实践指南(四)面向云边端多层级算力协同的全域调度能力仅依托基础资源的堆砌并不能完全发挥分布式云的能力优势,将资源、网络、数据、应
29、用等多要素融合、协同为一体化服务,才能激发分布式云的灵活、弹性、随需使用、成本节约等优势。分布式云的全域调度能力通过整合泛在接入、网络管理、云边端协同、统一调度等能力,构建云边端协同编排系统、面向应用封装基础设施的资源管理能力,打通跨地域、跨层级的云资源调度能力,对不同业务进行合理的匹配,对外呈现统一的计算能力。在资源层面实现全局资源的度量、管理、监控以及自定义策略,实现不同层级和特点的云资源能够协同运作;在应用层面通过自动抽象应用特征,能够将应用调度至适当的分布式云节点,从而实现业务和资源的双向匹配;在数据层面通过实时和历史的数据同步和迁移,能够实现不同节点间连接作业的能力;在流量层面可以将
30、业务流量按数据或应用的亲和性调度至制定位置,实现业务更快速响应能力。分布式云行业应用实施路径04(一)金融行业(二)制造行业(三)能源行业(四)交通出行(五)政务行业(六)泛互联网15分布式云行业实践指南(一)金融行业 1.用云背景和主要场景金融业在我国经济发展中扮演至关重要的角色,随着经济活动数字化进程加速,头部金融企业在近年纷纷设立信息科技子公司以有效支撑金融和信息通信技术的持续融合。一直以来,金融业都是信息化和数字化的先行者和实践者,近几年,在政策和业务的双重驱动下,金融业更是全方位投入以云计算基础设施为底座的新 IT基础设施系统。金融机构上云能够解决过去 IT 系统重运维、灵活性差等问
31、题,同时,云作为数字化平台底座,能够实现金融业务与大数据、人工智能、区块链等新一代数字技术充分融合,提升运营效率、节约决策成本、优化管理能力,有效支持金融业务创新。金融机构业务种类繁多、场景多样,银行、证券、保险机构的核心业务在用云时面临多样化的挑战,总的来说,金融机构用云场景整体呈现四个特点。一是业务种类繁多,包含众多社会民生类业务,参与人分布广泛,同时,集团直属业务和各省分行特色业务各有侧重,需要结合地域业务特点提供基础云服务,涉及到交易、结算的系统还需要考虑到跨国场景;二是业务体量大,金融交易涉及巨量用户数,并发交易数多,业务来源渠道多样,手机银行、网上银行、短信银行等业务并行,线上、线
32、下业务同时进行,相关的内、外部业务系统众多,且相互关联;三是可靠性要求高,金融业务办理不受时间和空间的限制,需要支撑系统具备极高的稳定性以保证业务连续性,面对可能出现的系统安全隐患也需要具备全方位多维度的容灾能力;四是金融创新诉求强,政策层面驱动金融与科技结合创新,利用新型信息通信技术实现金融业务智能化转型,随着信创硬件和云环境快速发展,云基础设施层面面临更高的可控性要求。2.主要挑战在业务场景推动下,金融行业用云方式面临多层次的转型挑战。第一是分支机构基础设施存在差异,难以通过单一平台统管、实现管理效率真正提升。以银行为例,集团和各分行信息系统建设时相互独立,且建设和维护都经历了较长的时间跨
33、度,分别拥有规模非常大、架构复杂、零散分布的存量 IT 系统。在多种不同架构、不同代际基础设施、不同网络环境共存的状态下,很难实现运维成本降低、人效提升、聚焦业务应用创新,云平台需要具备部署灵活性的同时,保证管理方式的一致性和效率,大型金融机构也希望通过广泛的网络连接,将公有云、本地私有云和自建数据机房打通,形成协同运作的合力。第二是未能充分调动云底座支撑能力,云上创新能力不足。随着金融科技创新诉求日益增强,金融机构用云不再局限于使用云的基础设施,将更加快速向智能化经营和精细化管理方向发展,例如,利用大数据和推荐算法实现对特定人群的精准服务,提高获客率,降低获客门槛;运用识别算法,在保险理赔过
34、程中自动审核,完成理赔的风险管理。这需要云平台能够帮助提升业务研发效能,增强用户体验,实现业务应用的快速迭代,以实现智能化的精准营销。第三是金融云生态需要全面构建,金融机构技术和能力亟待开放。大型金融机构用云时间长久,用云方式成熟,也极为普遍的采用多家供应商的云服务,对于上云、用云、云管理有着比较丰富的经验积累,加之自身的行业应用积累,多家金融机构希望将自身的金融云技术沉淀进行输出,为中小型金融机构或中小型企业的数字化转型赋能,为其提供更稳定、更高可用性的基础设施底座和更贴合业务需求的金融场景化应用,更好适应各类金融业务全面云化的需要。因此,金融机构对于云系统的认知从使用者转变到服务者,需要解
35、决更多用云“疑难杂症”的问题。04.分布式云行业应用实施路径16 分布式云行业实践指南3.分布式云实施路径和应用价值金融业数字化转型需要应对业务线上化、场景丰富化、客户需求多元化长尾化、监管粒度精细化的带来的变化,金融业云系统建设、部署和运维经历了不同阶段,碎片化和复杂性问题严重,很难实现资源利用率提升从而支撑创新应用。分支机构资源统筹管理通过引入分布式云架构,支持金融机构构建“两地三中心”的同城、异地容灾基础设施,应用分布式云管平台能够统一管理部署在总行、分行、网点等不同分支机构的基础设施,深度整合算力资源,将全局资源统筹使用。同时,随着信创技术不断成熟,金融机构面临引入新基础设施硬件的适配
36、和兼容性挑战,以云原生技术为核心的分布式云容器平台能够屏蔽大部分底层设备的异构性,提供原子化的、全局一致的使用体验,银行、券商等机构能够聚焦核心业务,不再过多关注系统异构问题,有效助力金融业的安全合规和业务数字化、智能化创新。生态开放分布式云本地部署模式成为助力金融云生态服务的基础平台,在提供全栈服务能力为金融行业用户提供IaaS、PaaS 服务之外,还支持企业核心技术能力以及自身特色云产品的接入,通过搭载用户自身的 PaaS 服务,向行业内输出企业的金融数字化能力,帮助企业实现用云者到云服务者身份转变。金融科技创新金融业务数字化创新需要敏捷、弹性、安全的 IT 基础设施,本地部署+公有云服务
37、共存的分布式云架构既满足了算力的扩展性和使用的便捷性,又能够让用户在本地服务器上自由操作,实现金融安全合规需求,更好的利用不同类型的算力底座,充分运用人工智能、物联网、区块链、低/无代码等技术为技术创新提供支撑平台,实现金融科技创新。图 6应用分布式云的数字化银行系统17分布式云行业实践指南 分布式云为金融业企业提供了全方位的云上解决方案,统一的资源管控能力、全面的安全防护体系、业务快速恢复能力,实现了资源利用的降本增效、保障了金融业务数字化和智能化发展。在银行业中,利用分布式云基础设施打造遍布各地理位置的算力底座,私有化部署方式和公有云结合,既保证了数据安全保护需求,又提供了弹性、便捷、随需
38、使用的基础服务。保险行业在我国发展迅速,用户数据量庞大,业务系统对基础架构资源需求量大,分布式云架构为保险行业提供下沉至用户最近的云服务,叠加人工智能和物联网技术,为用户提供更精确匹配的保险业务和客户服务。(二)制造行业1.用云背景和主要场景随着“互联网+”、“深化制造业与互联网融合发展”等重大战略的明确地提出,国家高度认可与充分重视工业领域的数字化和信息化建设,不断出台扶持政策用于建设云计算、大数据、物联网、人工智能等技术为基础的现代化基础设施,实现工业生产和管理的数字化转型和创新。2.主要挑战由于工业领域的特殊性,在实践智能制造数字化转型的过程中仍有一些挑战。一是传统工业生产和管理中,存在
39、着信息孤岛、成本高昂、生产效率低下等问题,导致数据无法汇聚打通,无法进行进一步数据计算和智能分析,同时,多个系统分开部署管理,维护成本高、灵活性不足、对外输出困难。二是制造业存在时延敏感和本地计算的场景,需要中心、本地和弱网络边缘部署云服务,时延敏感的物联网数据采集和处理的业务在本地和边缘处理,在中心和云端进行大数据的分析和训练。三是缺乏统一技术架构,应用迭代没有统一的规范和技术指导,系统集成难,新系统新应用开发能力弱。图 7基于分布式云的工业云架构18 分布式云行业实践指南3.分布式云实施路径和应用价值现有技术体系相对传统,架构相对有所落后,关键工具缺乏,影响了制造和工业企业的数字化业务系统
40、的建设和输出。通过引入基于分布式云的工业互联网平台架构底座,实现互联网服务统一入口、各单位核心业务系统集中管控,夯实云底座,打造云边一体的运维服务能力和规范服务模式,有效助力生态构建和对外服务能力、开发创新场景应用。云边多级统管在有集团和工厂多级管理体系,特别分厂间间隔距离较远,单一线下交付运维成本高的情况下,希望工厂的低成本部署和运维。借助于分布式云的多级管控架构,支持公网管控(集团中心业务位于公有云)或专网管控(集团中心位于专有数据中心),工厂到集团资源的统一基于云平台构建,实现集IaaS、PaaS与SaaS为一体的全栈云解决方案,满足稳定性、兼容性、安全稳定开放的云服务生态,解决信息孤岛
41、问题。统一交付与运维在各边缘分厂侧,通过云上交付能力交付和管理各个分厂集群,云上远程部署数据库和中间件等 PaaS 组件,实现统一管理和建设分厂环境。对分厂资源和应用进行远程监控和控制,在中心集中监控告警发现问题,通过远程登录、排障和升级能力,有效的降低运维成本,提高生产环境的运维效率。混合云管理企业由于时延敏感和本地计算的场景需要中心、本地和弱网络边缘部署,时延敏感的物联网数据采集和处理的业务在本地和边缘处理,在中心和云端进行大数据的分析和训练。企业通过分布式云的技术,实现不同位置的资源统一管理和运维,企业多个工厂环境和集团云端保持一致,实现混合云的统一管理运维,云边端数据的实时采集、处理和
42、分析,从而提高处理效率。降低成本企业将稳态业务部署在 IDC,敏态业务部署在公有云,利用公有云便利性和成本优势同时希望体验一致。传统模式集团公司和分厂之间信息化/数字化脱节,即使一个园区隔条马路,不同厂区都要部署一套私有云。分布式云可以提供弹性的计算和存储资源,根据工业企业的需求进行动态调整,避免工业企业因为资源浪费而产生的成本,同时也可以避免因为资源不足而导致的生产停滞。云技术升级传统单体化的工业应用,采用物理机或者虚拟机部署,软件部署、升级和维护必须整个软件全量升级,不仅容易造成停产,同时扩展性和开放性也不强。通过整合Docker容器、Kubernetes云原生架构等相关新技术和新理念,可
43、实现工业应用从开发、测试,到部署、运维的全生命周期平台化管理,支持企业云原生化、微服务化的战略,有效帮助企业实现数字化转型。(三)能源行业1.用云背景和主要场景随着“双碳”目标的提出、以及新能源的快速发展,能源行业借助数字化转型升级的动力愈发明显,无19分布式云行业实践指南 论是生产过程还是企业运营,都正在积极采用数字化升级作为降本增效和提升企业竞争力的重要手段。一是在数字化生产管理方面,能源生产现场管理正在数字化转型升级过程中,包括以下场景:数字矿山:以矿山系统为原型,通过矿山科学技术、信息科学、人工智能和云计算等技术,建立起数字化、信息化的虚拟矿山,从而快速了解和分析矿山系统的全方位运行状
44、态,为安全生产、高效运营提供支撑和保障;数字化钢铁:钢铁行业是高能源开销行业,希望通过云基础设施底座,采用数字孪生、AIoT 等技术建设面向高炉、烧结、焦化、料场、能源介质的一体化智能管控平台;数字化新能源节点:以光伏、水利为代表的新能源技术发展迅速,遍布在偏远地区的能源设施需要就近进行自动化、智能化管理。另外,新能源电力的分时效应明显,清洁能源调度和分配需要通过统一的调度平台进行。二是在企业数字化升级方面,除了改善生产流程,实现生产环节的降本增效,企业的运作优化对能源企业尤其大型能源企业有重大意义,包括以下两个方面:企业 IT 基础设施及管理:希望通过引入云计算,优化企业 IT 基础设施的构
45、建模式,通过通过云原生等理念提升企业研发效率,实现对 IT 资源和人力使用的降本增效;企业协同办公:通过使用成熟的协同办公类SaaS服务,优化企业办公、流程管理、上海品茶建设的效率。三是在算力、电力协同调度方面,随着大数据、AI 的普及,整个社会对算力和存储的要求有了更高的需求,算力的背后对电力供应有着深度依赖,而电力的供应则具有区域性和时效限制,在经济核心地区和核心时段,需要解决常规用电和算力用电的分配问题,比如解决地域用电问题的“东数西算”方案,以及日内波峰波谷用电的“高低峰调度”方案。2.主要挑战云服务作为算力底座,在能源行业数字化转型过程中也面临多个维度的挑战,第一是数字化基础支撑能力
46、不足,传统 IT 方案中多为基础 IaaS 服务,缺少面向数字化上层应用的全栈支撑,比如 AI、大数据、IoT、云原生等技术,难以支撑 OT 转型发展。在企业运营领域,随着专业化 SaaS 软件和服务不断增多,以往通过单独采购的模式,难以形成完整的协同办公解决方案,效率难以得到最大解放。第二是数字化底座投入大、维护难,传统企业 IT 团队和信息化团队人员规模往往难以和云计算、互联网类企业相比,专业领域方向也有差别,当需要支撑企业数字化升级,除了原有的垂直领域 IT 支撑,如果采用传统的 IT 方案,还需要学习和维护大量的 IT 方向基础知识和模块,对团队技术要求挑战大。第三是算力、电力协同调度
47、难,大型能源供给型企业(比如电网)和大型算力资源消耗型企业过往业务交集较少,双方各自领域专业深度较深,难以单独完成类似“东数西算”、“峰谷算力调度”等复杂的算力、电力协同方案,同时,大型算力消耗型企业多分布在经济发达城市,而闲置电力资源充沛的区域则多分布在人口边缘区域,如何将算力有效进行异地、分散调度对其本身挑战也较大。20 分布式云行业实践指南图 8面向能源行业的分布式云技术架构3.分布式云实施路径和应用价值能源行业需要选择合适的分布式云解决方案对 IT 系统进行改造和升级,以匹配企业自身的需求。充分考虑智能化技术,改善项目运营条件、提高人效和运营经济性。IT 架构升级在企业运营方面,根据企
48、业合规需求,搭建不同形式分布式云,引入丰富数字化能力、降本增效;在生产服务方面,借助分布式云广部署、统一管理能力,实现边缘自动化、智能化管理;在推广应用方面,能源各领域头部企业借助分布式云能力和理念,结合自身行业垂直服务能力,搭建行业云,并实现快速推广应用。平滑上云迁移通过分布式云建设混合云,实现基础设施平滑上云。能源行业多数已建设有一定规模的设备和系统,分布式云在敏捷性上的优势可以适应的帮助传统企业的 IT 现状,初期通过在企业 IDC 内部署具备的中小型节点,以数字化项目为牵引,引入分布式云从基础 IaaS 到上层行业服务能力,团队在项目过程中打磨系统适配性,并基于分布式云建设新的运营体系
49、。在初期的中小型节点成熟运行后,基于分布式云敏捷扩容的特性,可以快速扩展整体资源规模以及上层服务能力,更有效的支持团队数字化升级。行业云建设同类能源企业往往具有相似的业务诉求和 IT 架构,采用头部企业建设或者联合建设行业云模式,提升用云效率。利用分布式云丰富的能力可以有效的提供行业云数字化平台需要的支撑能力,垂直行业企业可以聚焦行业技术能力和行业解决方案建设;同时,分布式云具有云的弹性敏捷、可靠易用等特性,基于分布式云构建行业云,可以以分布式云为参考,快速复制云的理念和架构方案能力。21分布式云行业实践指南 算力和电力匹配针对算力、电力协同复杂困难场景,能源供给企业可与分布式云厂商合作,将原
50、有电力供给设施、调度系统基于分布式云进行改造,形成新的能源平台再提供给海量算力消耗型企业使用。在基础设施升级方面,基于分布式云的任意部署、敏捷规模特征,在原有变电站、新能源发电节点内就近建设算力节点,实现低损耗。在调度管理升级方面,通过分布式云引入大数据、AI 等技术,打造全自动同步、调度的平台,将原有通过人力或较低频次改造为分钟级甚至秒级的接口或平台,同时结合大数据预测用电企业的消耗模型,精准高效的实现算力和电力匹配。(四)交通出行1.用云背景和主要场景我国建设有全球最大的高速铁路网、高速公路网以及世界级港口群,每年有海量交通设施在这些交通基础设施上往来,随着 4/5G、互联网、IoT 等技
51、术的发展,海量交通运输场景也从过去的人工化管理进入数字化管理时代。交通行业与日常生活息息相关,其数字化系统的健壮性关系到广大路面行人和行车的生命财产安全,系统的智能化建设也将大幅提升交通管理和调度效率,高速公路作为最常见的交通基础设施,其数字化、智慧化的转型正在稳步进行。交通基础设施数字化层面,通过小型/微型电子设备、IoT、4/5G 技术、音视频等技术,将公路上所有路段信息以数字化形式记录、保存和传输,从而实现现实空间在数字空间的实时重现,可以极大的提升高速路段的可观测性,降低以往对人力投入的依赖。交通管理调度智能化层面,基于基础设施数字化之上,结合数字孪生、AI、大数据、音视频处理等技术,
52、可以帮助高速运营机构和人员,解决以往海量、复杂的数据处理难问题,实现像司乘安全检查、高速负载调度等全局化、智能化的管理。打造互联网+交通提升公众出行体验方面,将各类线下人工服务以及传统电话、短信交通服务,基于小程序、APP 技术进行重塑,极大的提升服务的可获取性和体验感受,结合交通基础设施数字化、智能化的能力升级后,可以实现路况实时查看、按热度车流调度、长途路线智能规划等新型交通服务,为公众提供更好的出行体验。2.主要挑战中国有全世界最长的高速、铁路网,也有着大量的港口、机场、车站,这些交通基础设施不仅数量众多,地理位置上也极度分散。当对这样海量、分散的基础设施进行数字化升级时,需要面临以下问
53、题:第一是部署实施难,交通 IT 基础设施需要在被服务对象附近就近建设,为上层交通管理、调度软件以及数据保存/备份提供计算、存储、网络等基础服务。除了在大型交通枢纽,比如机场、核心车站等可建设较好的数据中心外,其他节点往往需要在较低等级 IDC 或者工作现场进行部署,环境差异性大,部署方案从边缘盒子到一体机,再到各个等级 IDC,对底层云平台方案兼容性、环境适应性、敏捷性要求高。第二是管理运维难,基于交通基础设施天然分散的特征,行业内 IT 团队往往需要管理分布在广泛地域上的数个到数百个交通 IT 节点,无论是基础 IaaS 层面的管理,比如 IDC、服务器、网络、虚拟化,还是上层应用如何在数
54、百个节点上部署,依赖的中间件、容器、数据库如何提供,对交通 IT 管理团队都是不小的挑战。原本在集中化 IDC 采购多家厂商产品,由建设方团队运维的模式在交通全面数字化的过程将遇到更多的挑战。第三是缺少复制性强的场景化方案,交通数字化方案综合性强,一个完整的项目,常常涉及基础云计算、音视频、IoT、AI、交通调度管理、数字孪生等多方面技术和团队的联合输出,项目的复杂性导致了方案难以复制,造成大量重复性工作和投入。22 分布式云行业实践指南3.分布式云实施路径和应用价值应用分布式云系统架构,搭建云边端一体化的智能交通算力底座,实现多层级算力协同调度,敏捷弹性的算力供给和全局一致体验的基础设施服务
55、。多层级分布式云算力建设高速公路是典型的交通数字化场景,具备数字化程度高、算力部署分散、设备和应用数量多的特点,包含路侧 MEC、路段管理、路网中心、收费站等多种类型的服务对象,采用分布式云能有效解决部署难、管理难的问题,基于分布式云的云边端架构能完整的覆盖高速公路场景下的不同层级用云需求,并实现全局统一的管理。终端(路侧 MEC):设备连接、采集、管理,具备基础的计算、存储、网络能力,可通过分布式云边缘盒子以及小型节点(10 台以内)进行建设,与路侧的摄像头、感应雷达、ETC 等设备通过网络线缆或4/5G 进行低时延通讯,并将采集的数据与区域、中心节点进行同步。区域(路段边缘、收费站):规模
56、以10100台服务器居多,具备全栈的IaaS服务能力以及核心的中间件、云原生服务,支撑部署交通管理、智能应用对路段进行统一管理,具备中小型的大数据、AI 计算能力,可将终端侧采集的数据进行快速处理后及时的返回管控指令。图 9云边端一体化的高速公路云23分布式云行业实践指南 路网中心:在高速机构的区域核心位置部署,大多为 T2+数据中心,可靠性和服务能力较强。部署全栈的云计算服务底座,支撑所有交通管理、智能应用的核心管控后台部署,同时一般配备有 PBEB 级的冷热存储资源池,用以存储、处理从终端、边缘收集到的数据。建设有完善的 AI、大数据处理平台,结合各类行业垂直服务,实现数字孪生、自动化调度
57、、管理驾驶舱等高级数字化服务能力。安全合规与海量计算优势兼并分布式云可采用专有云与公有云混合模式,实现安全合规与海量计算和存储的优势兼并。专有云部分实现整体网络上采用专网设计,在路网中心部署私有化的分布式中心管控模块,所有边缘云、终端云节点通过专网与中心管控连通,实现统一化资源和数据管理。公有云部分实现专网内的数据进行统一存储后,当需要进行大规模计算(比如大数据、AI 处理),可与就近的公有云进行专线打通,将待处理数据同步到公有云复用海量高性价的弹性算力,同时一些非敏感的冷数据也可以在公有云就近部署,减小专有云部分运维和成本压力。数字化支撑能力提升基于分布式云底座,进一步拓展数字孪生、车路协同
58、、自动驾驶服务、低代码小程序开发等基础共性支撑服务,实现交通出行业务数字化转型。(五)政务行业1.用云背景和主要场景自 2016 年以来,一系列国家顶层政策发布引导数字政府建设,政务行业成为传统行业上云中打头阵的先行者。建设数字政府旨在通过运用新一代信息通信技术,重塑政务信息化管理架构、业务架构、技术架构,以提升政府在经济调节、市场监管、社会治理、公共服务、生态环境等领域的履职能力,由于政府业务快速创新、规模逐年增大、复杂度和智能化要求大幅提升,云计算作为数字政府算力底座,对其稳定性、性能、扩展能力、计算效率等方面的要求也日益提升,政务用云深度和广度均不同程度加强。完善以云计算为核心技术的政务
59、云体系建设成为各地数字政府规划重点布局方向,政府各部门数据打通、多云统一管控、多级云系统协同成为政务云新的规划趋势。第一是政务云平台建设更加强调底层异构资源整合,随着信创环境和技术的逐步成熟,越来越多的异构基础设施被引入原系统使用,政务云系统长期存在多云共存、多网络环境共存用云模式,云管理面临更多的基础设施和网络环境的适配和整合工作;第二是政务服务更注重创新性和体验性,这就要求基础设施建设思路从“云资源集约化”向“政务应用集约化”的方式转变,全面构建以应用为中心的新型基础设施建设,以应用为着眼点,带动云资源建设,实现精细化运营和可视化管控;第三是协同开放的数字政府生态体系逐渐发展,数字政府存在
60、场景多样化、参与方众多等特点,政务云建设需要汇聚政府部门、科研机构、和龙头企业等众多行业智慧,借助数字政府发展带动上下游企业合作共赢,探索协同开放的新型合作生态。2.主要挑战政务行业上云用云正在进入全面深化阶段,从架构优化、技术创新、精细化运营到全面协同一体化管理,各方面均需要迭代优化。第一,政府多分支间的数据流通和资源共享是亟待解决的高优问题。每个政府职能部门的政务系统应用的开发是完全独立的,而在各委办局的政务系统中,实际存在大量的公共的组件,如数据库、24 分布式云行业实践指南中间件、标准技术组件、监控系统,甚至某些核心业务组件也存在架构和业务逻辑的相似,而相互独立的开发模式下,每一个委办
61、局的业务系统,都需要从头设计与开发,开发资源冗余过多,同时,多分支间实现网络稳定互通、数据流转、应用协同,就需要通过上层统一管控系统统筹管理并灵活调度调度。第二,缺少同一的安全管理机制。政务信息、个人隐私数据、企业经营状况等敏感数据外泄风险不止,政务云系统面对来自于物理、网络、主机、数据、应用等方面全方位的安全隐患,急迫需要建立具备安全监测、威胁预测和态势感知等功能的全面安全态势分析机制,同时,需要加强敏感数据保护,实现数据安全预警和溯源,加大个人隐私和企业信息的保护力度。第三,资源供给粗犷,运营与管控能力薄弱,异构环境兼容要求是持续存在的痛点难点。每个政务系统都会根据业务规模的预估,向承建部
62、门进行基础设施资源的申请,之后独占这些资源,在这种情况下,基础设施的资源利用率和一致性管理能力必然处于较低水平。同时,随着信创产品和技术不断成熟,各个政务系统逐渐需要引入新硬件,数字政府系统整体的兼容性和可扩展性有限,往往无法在业务上线后进行动态调整,只能随着业务规模的持续扩大,被动做出相应的扩容响应,而无法从全局角度实现资源的整体规划与共享。3.分布式云实施路径和应用价值基于分布式云的技术特点和架构,集成大数据、AI、物联网等新技术和应用,构建的分布式政务云解决方案为数字政府的基础设施算力底座带来了极大的建设便利,政务云建设思路从“云资源集约化”向“政务应用集约化”的方式转变,全面构以应用为
63、中心的建新型政务云。资源共享和数据流通支撑分布式云统一架构实现在多云、混合云之间建立互联通道,能够对全局资源进行统一管理,通过通用的基础设施底座,实现跨云、跨省、市、区县等多地域的统一管理的架构,实现全业务共平台运行,部门、区域间的公共化能力、模块化能力、资源共享能力,解决政府分支间数据流通的通道建立和安全性问题,为部门间数据流通和资源共享带来了基础保障。全局安全合规分布式云的统一安全策略管理,应对了数字政府建设的全面安全性问题,分布式云的一体化安全方案能够最大程度的规避安全隐患,为数据安全、网络安全提供多维度保障,杜绝政务环境下数据多点位散布的泄露可能。面向应用的云底座云原生分布式云以容器技
64、术为核心,屏蔽底层基础设施差异,提供面向应用的云基础能力,使得资源的管控粒度更细、扩容效率更高,例如,面对业务高峰期,无需提前配备过多冗余资源,而是根据业务量灵活弹性扩容到公有云上,进而减少整体建设支出,实现资产效益的最大化,提升了资产的流转率。政府职责繁杂,业务众多,分布式云在不同的政务领域的建设有着完全不同的价值取向。在社会管理领域,例如,灾害预警、安全监管等系统在构建云底座时,利用分布式云的多级下沉算力,广泛连接云、边、端三侧,实现监控、感知、治理一体化管理能力;在政务服务平台建设时,得益于分布式云能屏蔽差异化基础设施、统一管理和调度的优势,统筹建设统一规范、统一用户管理、集中运维、满足
65、信创要求的高兼容性政务服务平台;在城市规划领域,尤其是国土资源规划、自然资源规划方向上,运用 AI、物联网等技术,基于分布式云架构,打造各地资源统筹、实时识别、分配、监管的综合管理能力。25分布式云行业实践指南(六)泛互联网1.用云背景和主要场景随着互联网的发展,数十年间泛互行业涌现出大量的企业,为广大人民群众提供了丰富多样的互联网产品和服务。泛互行业在发展的过程中,经历了野蛮发展阶段、平台阶段和降本增效阶段,在发展中实践了分布式云。业务野蛮发展时期实行粗放式管理,以市场占有率和功能迭代为目标,不关注整体成本,资源均是饱和式扩容,没有精细化运营的需求,公司内各网络环境隔离,选择传统的 IDC
66、物理机机房和人工运维。随着业务发展并有一定的市场占有份额,进入平台阶段后,通过基础设施整合、云原生和微服务化的改造,形成初具规模的云平台。根据不同的业务对性能,数据位置,可伸缩性和合规性的要求,泛互企业使用来自不同云提供商的两个或多个云,实现多云混合云的分布式云架构,以满足特定业务的需求。2.主要挑战泛互联网行业业务挑战主要包括以下几方面:自建 IDC 数据中心上云:随着在泛互企业的不断发展,自建 IDC 数据中心的机器不断闲置、老旧、退保,IDC 中资源的异构导致难以统一满足业务的诉求,多种平台架构不统一导致资源利用率低,运维复杂,本地云原生改造成本高,迫切需要通过 IDC 上云,将复杂的
67、IDC 运维管理通过公用云托管,降低运维成本提高平台质量。混合云管理:在企业同时使用本地数据中心和公有云的情况下,如何实现云上云下统一体验,云上云下统一调度和管理,灵活管理和分配云上云下资源使成本最优化等是经常遇到的问题。运维和服务托管:传统的IDC运维模式依赖各种自建运维工具或外围工具,对业务系统进行监控、维护、优化和管理,组件专门的运维团队用来保障企业 IT 系统的稳定性和可靠性。多云管理:泛互行业客户使用来自不同云厂商的云,以满足特定业务的需求。不同的业务对性能,数据位置,可伸缩性和合规性都有自己的要求,用户可以根据自己的独特需求确定最适合哪个云运行特定的工作负载,同时避免供应商锁定问题
68、。3.分布式云实施路径案和应用价值企业在从 IDC 上云的过程中,核心关注如何对存量的 IDC 资源进行利旧,降低上云迁移成本低。低成本迁移上云通过云原生和K8s 的标准化能力,快速打通上云的屏障,实现IDC上的业务能够低成本的迁移至云上,同时 IDC 能够拥有云上完整的产品能力,实现一致的体验。针对该场景可以灵活选择集群部署方案:注册节点:它主要针对存量 IDC 节点提供快速轻量上云,特点是 K8S 的控制面托管在云上,有云厂商来进行运维管理;企业只需在 IDC 上运行注册脚本即可分钟级实现集群的构建;26 分布式云行业实践指南注册集群:它主要针对已经在 IDC 构建 K8S 集群,不想运维
69、或者缺少部分运维管理能力时,通过将集群连接至云上,有云上进行运维管理和云能力的补充;任意位置的集群:它主要针对用户希望在 IDC 希望对于集群有更多的管控能力,不想负责集群的创建以及升级等基础运维管理时,可以通过 TKE 控制台在云上完成云下集群的搭建。混合云高效调度为实现资源层,数据服务层和应用管理层的统一管理,例如在保留原有IDC体系结构和应用能力的同时,利用公有云来按需扩展资源,将稳态的业务部署在 IDC,弹性的业务部署在公有云,按需使用以达到成本的最优化管理。同时会结合云上和云下的成本体系按需将业务调度到云上和云下,以实现资源的最优化管理。运维效率提升利用分布式云的运维和服务托管可以帮
70、助企业实现高效、稳定、安全的 IT 运营,从而提高企业核心业务效率和竞争力。例如运维托管可以免去在本地搭建、运维 K8s 集群的成本,无缝集成公有云上云原生相关服务,涵盖日志、监控、审计、存储、容器安全等能力,用户无需花费精力自行运维 K8s 集群组件、容器运行时等,仅需要运维本地服务器即可。公有云上提供完善的运维能力,并提供节点声明式运维的能力,支持节点快速故障诊断,升级及回滚能力。混合云场景下另一个的核心挑战是如何保证分布式云下的服务质量,分布式云场景下 IDC 机房,物理硬件服务器,底层网络等资产属于企业,企业客户仍然负责维护底层的基础设施的质量,但是底层基础设施的故障会导致上次服务的故
71、障,因此针对这种情况,分布式云采用云厂商和客户合作运维,责任共担的模式,由云厂商负责其提供的服务以及相关软硬件的交付、运营、维护,客户负责数据中心基础设施、所需网络资源以及自身基于分布式云部署的应用系统维护。客户侧还需提供必要的配合和协助,比如用于远程维护通道的网络联通,涉及现场问题时提供机房驻场接口人,涉及共同定位时提供相关问题表现和必要日志等。资源和应用匹配利用分布式云可以灵活地将最佳云用于最佳任务的灵活性,通过公有云分发服务,用户可以在不同的云环境中部署和运行应用程序或业务组件,从而最满足对性能,数据合规性等的要求,解决了多云环境中可能发生的运营和管理不一致问题,避免了管理来自许多不同供
72、应商的许多不同技术会带来复杂性。例如游戏服务场景下,需要在多个国家地区提供服务,为满足网络时延,数据合规性等的要求,会选择多个云厂商提供服务,为解决多个云厂商统一管理的问题。分布式云行业应用最佳实践05(一)金融行业:腾讯云金融专区(二)制造&工业:华岭智能制造数字工厂(三)能源:宝信软件分布式云系统(四)交通出行:广州地铁集团(五)交通出行:某新能源车企自动驾驶云(六)泛互:智聆口语评测降本增效实践28 分布式云行业实践指南相关项需求描述运营运维1.客户期望有一朵安全合规的云,但是单客户缺乏运营运维一朵云的经验,并且需要保持与主流的云平台,技术路线一致2.支持多地域,不同类型,不同云服务资源
73、池统一管理与运营运维提升运营运维效率,降低系统复杂度就近接入金融机构分布于不同地域,业务要求低时延,就近接入多地域互联1.不同机房间通过互联通道互通,例如 MPLS。VPN,实现业务跨地域统一使用2.ECN 专线接入网关支持客户 IDC 就近接入安全合规1.支持 JRT0168-2020云计算技术金融应用规范容灾6 级要求2.支持团体云合规认证要求3.通过网信办云评估4.等保认证:公安等保护 4 级、金融等保 4 级5.机房认证:50174、0131安全隔离1.云产品,安全等运营运维系统金融专区独立部署,与专区外网隔离2.专人运营运维3.运维安全边界:FW 与外界隔离,内部通过堡垒机实现操作可
74、审计,VPN 作为接入通道2.用户痛点表 1金融专区用户痛点(一)金融行业:腾讯云金融专区 1.案例背景腾讯云金融专区由于安全,认证合规要求,采用分布式云架构,基于腾讯专有云企业版 TCE 将公有云能力进行延伸,由腾讯建设,运营,为央行名下的金融机构提供云服务.总体架构满足容灾 6 级要求(至少需要两地三中心,支持同城双活,异地灾备),满足金融机构多地域就近接入,金融业务高可用,并且多点接入的需求。2020 年中国人民银行发布金融部门标准强化金融云规范治理的通知,要求金融部门在利用金融云时,应选择通过标准符合性自律备案的金融云。根据央行 247 号文,中国互联网金融协会发布了金融云备案自律管理
75、办法(试行),根据办法中备案申请的要求,任何机构和个人未经备案不得从事或变相从事金融云服务业务。同时,金融机构不得使用未经备案的金融云产品。基于此,腾讯云基于分布式云架构建设合规的金融行业云,专注服务于银行、证卷、保险、基金、金控、支付、担保、租赁、财务公司、汽车金融、消费金融、小贷等金融机构。05.分布式云行业应用最佳实践29分布式云行业实践指南 表 2容灾等级要求3.建设方案金融专区采用分布式云遨驰架构,提供和公有云能力一致的云服务能力,并且支持“两地三中心”,支持同城双活、异地容灾,保障金融机构业务、应用连续性,数据可靠性、安全性等要求。完全符合各类型金融机构对于 IT 基础设施和服务的
76、容灾等级要求,并支持容灾等级 6 级。金融专区建设完全符合各类型金融机构对于 IT 基础设施和服务的容灾等级要求:图 10金融专区架构图容灾等级RTORPO1 级2 天以上1 至 7 天2 级24 小时以上1 至 7 天3 级12 小时以上数小时至 1 天4 级数小时到 2 天数小时至 1 天5 级数分钟到 2 天0 到 30 分钟6 级数分钟030 分布式云行业实践指南4.技术架构2 个 Region:上海金融专区/深圳金融专区3个AZ:上海金融专区一区(上海松江)/上海金融专区二区(上海宝信),深圳金融专区一区(深圳荔景)单可用区:按互联网、专线接入、网关接入、租户区、管理区等安全区域分区
77、建设。图 11两地三中心架构图 12单可用区架构5.应用成效腾讯云金融专区是基于分布式云架构、业界领先、安全合规、全栈集成的行业云解决方案。已服务银行、证券、互金、新筹保险、传统保险等百十家客户。满足团体云、云安审、公安等保 4.0、金融等保 4.0、可信云、安评、国密等合规要求,金融专区的云平台和云产品全部兼容主流 CPU 和操作系统。31分布式云行业实践指南(二)制造&工业:华岭智能制造数字工厂1.案例背景四川华拓光通信股份有限公司(中文简称“华拓”,英文简称“ATOP”)成立于 2010 年,作为行业领先的光模块与光器件研发生产商之一,致力于为全球电信运营商、设备商、互联网厂商等客户提供
78、创新的产品与解决方案,华拓以“光通世界,连接未来”为愿景,以优质光通信产品与专业服务,持续为全球客户创造价值,为股东创造效益,为供应链伙伴创造机会,为员工创造平台,连接数字化美好未来。目前华拓产品覆盖宽带接入、5G/4G 无线接入、传输网、数据中心四大应用领域。2022 年,华拓全资子公司华岭光子3 万平米智能制造基地正式投产,可提供光器件、PON、高速光模块、激光雷达等产品OEM/ODM服务。华拓与腾讯云达成战略合作,通过工业互联网、AI、大数据、智能装备资源软硬融合,联合打造光模块行业智能工厂标杆。2.用户痛点华拓总部位于中国,在欧洲、北美、亚太等地区设立了分公司及技术支持中心,同时由于生
79、产制造企业的特点,华拓在海内外有许多生产制造基地,针对不同的业务部署各种类型生产制造系统,如何统一管理全球资源,降低管理和运维成本成为企业发展的最大挑战。硬件层面:过去的机房 IT 系统没有架设云服务器或者超融合,所以每增加一个对应业务,就需要增加一台实体服务器,也要走一遍选型采购等一系列流程,这种运行方式下实体服务器配置基本也比较固定,但是后续不断增长的业务需求会对 IT 系统有更高扩容要求,不同业务的资源不能打通,造成了大量的成本浪费。用户层面:华拓在海内外有许多生产制造基地,针对不同的业务部署各种类型生产制造系统,如何管理不同地域,不同业务,不同部门原有的子系统,如何提升分布在各地数字工
80、厂 IT 交付和运维效率问题,通过一套分布式云平台实现统一的云平台,实现统一管理和统一运维。数据层面:公司拥有多个独立的系统,系统之间做了少量的调用接口来获取数据,因为集成度相对不够高,所以获取的数据经常还需要人为整合,或二次开发去整合。数据系统亟需打通,数据层面的联动将带来的数实融合,进一步释放了数字生产力,公司数据资源得到快速整合,加速数据转变为业务生产力的进程;数据潜在价值得以挖掘,通过对复杂数据进行可视化分析处理,提供了更多创新机会帮助实现降本增效。3.建设方案项目综合腾讯成熟的分布式云方案,搭建基于分布式云的管理平台,基于腾讯云分布式云容器平台(TKEAnywhere)作为本地数字工
81、厂底座与 PLM、ERP 服务器、智能设备、CAD、MES 等数字化系统实现集成优化,实现上层管理系统与工厂、车间管理系统的互通互联。华拓通过应用传感器、物联网、云计算、大数据等数字技术通过腾讯云分布式云容器平台(TKEAnywhere)利用云原生标准将大数据、物联网、传感等各种技术集成,开展核心算法,自主研发基于云原生的数字化调测生产线,实现调测设备数据的自主采集、存储、分析、处理、预警。32 分布式云行业实践指南4.技术架构通过腾讯分布式云原生多集群管理平台 TDCC 以 K8s 云原生技术为标准的腾讯云分布式云容器平台(TKEAnywhere),通过分布式云的多集群管理的方式,打通各个大
82、数据中心以及数字工厂的管控,保证统一的标准和互操作能力。腾讯云为区域中心提供集群软件和硬件产品,并通过云上运维能力保障集群可靠。各大数据中心具备独立的管控能力,中心的管理员可以登录并维护本片区的云服务。同时,利用分布式云的云上交付能力,应用市场、数据市场、行业市场等软件服务可以无缝交付至各个区域中心。改造完成后形成了云边端一体化的大数据平台服务,在更贴近用户和数据的位置,提供稳定可靠的云服务。在生产现场的环境,利用TKEAnywhere 本地容器平台为华拓提供了量身定制的工业互联网平台解决方案。TKEAnywhere 是腾讯公有云容器服务的延伸,支持在任意位置提供成熟可靠的容器服务。在华拓项目
83、中为生产、经营、管理的各个系统,提供了公有云质量标准的云原生基座,通过腾讯云分布式云容器平台(TKEAnywhere)、PAAS管理平台、Kubevirt等技术的深度融合、有机互补,实现对计算、存储等资源的统一管理和调度,兼容原生 kubernetesAPI接口,方便业务对资源进行动态的、按需调度,提升资源的利用效率,共同组成一个开放、兼容、稳定、可靠的企业级分布式云解决方案。图 13华岭智能制造数字工厂架构图33分布式云行业实践指南 5.应用成效引入边缘计算和分布式云系统为华拓工代带来多方面的企业效益提升。经济效益方面,在华拓项目应用后,根据客户提供的数据,相较于老厂,人力投入减少 30%,
84、制造成本降低 15%。敏捷价值方面,在华拓项目应用后,新工厂相对老厂设备停机时间降低 50%,整体生产效率提升 20%。客户价值方面,通过新方案的落地,华拓在车间人力投入成本减少 30%,制造成本降低 15%,同时设备停机时间相较老厂降低 50%,整体生产效益提升 20%,生产管理和协同效率提升 10%,降低积压呆滞库存10%,新工厂的 20 台设备,短时间内快速接入采集,连通了 MES、ERP 及 OA 系统,有效降低系统使用成本。创新价值方面,新方案的开放性,是企业后续创新的基础,在本案例中,从底层硬件层到上层应用层,全部都是可扩展、开放性的,为企业后续创新提供无限空间,同时整体架构易于复
85、制,为后续新工厂模式复制到其他厂降低了难度,可实现快速复制、交付、部署。本次的落地,建设起了绵阳地区及光通信行业的数字化工厂标杆效应,提升了企业形象。质量价值方面,方案实现全流程可视化监管,MES 根据精益生产标准实施作业指导和质量管控,确保产品制造过程符合标准要求,产品合格率达 99.5%以上,通过预警分析预测关键件故障,减少不良品产生,通过知识库积累和复用,提高设计质量和产品定制能力。社会/生态效益方面,本次华拓项目推广后,将带动光通信行业数字化转型进程,实现产业链上下游协同共赢;上游光电设备厂家可研发智能设备,提高灵活度和定制能力;下游通信运营商和互联网企业接入高品质光通信产品与服务。(
86、三)能源:宝信软件分布式云系统1.案例背景宝信是中国最大钢企宝山钢铁集团的信息化子公司,服务宝钢在内数百家大型企业和海量的中小企业,提供以钢铁业为代表的流程型制造数字化智慧化综合解决方案。2.用户痛点宝信管理着数十个 IDC 以及万级数量的机柜和设备,随着业务扩展和智能化转型进程加速,庞大的 IT 基础设施管理运维对其 IT 管理团队挑战剧增,要同时面对 IT 规模快速扩张的运维问题和企业数字化转型的软件和服务支撑问题。3.建设方案通过引入分布式云,实现混合云体系管理效率提升。客户原有 IT 设施多、系统复杂,通过腾讯分布式云本地专用集群 CDC 产品在本地 IDC 进行本地化云节点搭建,仅需
87、 8 台服务器即搭建完成具备公有云一致能力34 分布式云行业实践指南的计算、存储、网络等基础 IAAS 服务,从而高效低成本的开展 POC 验证工作。期间将原有基于 VMVare 等传统方案部署的业务迁移到 CDC 上进行验证,除了可靠性、性能、使用体验等方面,也完成宝信原有内部 IT 系统、流程与 CDC 产品的对接,比如基于分布式云 CDC 提供的迁移服务,可方便的实现从 VMVare 虚拟机批量向云服务器迁移。另外,基于CDC提供的流量审计服务,宝信可对分布式云所有管控和业务流量进行合规审计,满足企业IT安全要求。基于CDC敏捷的扩展能力,原有单机柜的POC环境可在15天内扩展为数十个机
88、柜规模,快速构建可承载万核以上现网业务的云平台。基于 CDC 引入丰富云服务,全面升级行业云平台。除了引入分布式云改造 IT 基础设施,也将分布式云与宝信行业云平台“宝之云”进行结合,腾讯云分布式云产品 CDC 除了能提供基础的 IAAS、PAAS 服务,还提供丰富的 AI、大数据以及企业 SaaS 服务,比如面向办公协同的企业微信、腾讯会议、腾讯文档,面向生产流程的数字孪生、AI 质检等服务,能极大的帮助客户进行全面的数字化转型。同时基于双方深度合作,将分布式云上的企业服务和云服务融合到宝信的行业云平台之内,以更高效安全的模式服务海量企业用户。4.技术架构图 14宝信软件混合云系统架构35分
89、布式云行业实践指南 5.应用成效全面提升运维效率。基于分布式云的协同管理模式,在引入了腾讯云高效的运维能力的同时能满足客户侧全面运营管理的诉求,客户 IT 团队同样人数能管理数倍于过去的设备和系统。引入丰富服务,提升数字化转型效率。基于 CDC 上丰富能力,构建企业办公协同平台、信创平台、生产流程平台、数字孪生方案等新型数字化服务,并讲创新数字化能力与原有行业云平台进行结合,未来可向数百家大型企业和数十万的中小企业提供更丰富、更易用高效的数字化云服务。技术迁移稳定可靠,保障企业安全合规。基于分布式云的敏捷部署、扩容的特性,客户在保持现有环境稳定运行下,快速实现 POC 验证和正式环境扩容工作。
90、同时腾讯云 CDC 为更好的与本地 IDC 兼容,提供丰富产品化能力,方便客户实现虚拟网络与 IDC 网络安全互通、平台管控流量审计、存量平台与云平台实例互迁等需求。(四)交通出行:广州地铁集团1.案例背景广州地铁集团有限公司(以下简称广州地铁集团)是广州市政府全资大型国有企业,企业运营的轨道交通里程达 857 公里,包含本地地铁线网 621 公里,服务城市千万级人口。随着数字化的发展,广州地铁引入大量的数字化和智能化系统,用以提升轨道交通的安全性、准时性、可靠性,以及群众乘坐地铁的服务体验,这些数字化服务既有在中心机房部署的,也有需要在站点就近部署的。2.用户痛点站点分散管理难度大:地铁本地
91、站点已超 300 个,同时,因为建设年代跨度大,不可避免的采用了不同类型的 IT 设备和架构方案,对客户来说管理难度大,运维效率需要进一步提升。可靠性要求高:广州地铁年安全运送乘客 28.3 亿人次(2021),占全市公共交通出行总量的60.75%,作为城市基础性交通设施,在运行期间需要保障极高的可靠性和准时性。为了保障站点稳定运行、全局后台系统的整体可靠性、以及客户侧 App 使用体验,需要极高可靠性的基于云底座的 IT 架构整体部署方案支撑。3.建设方案高可靠同城双活。腾讯分布式云支持多地多中心架构,支持从存储、网络到应用层的全栈双活架构。站点边缘自治。正常情况支持云边协同,中心可对边缘侧
92、统一调度、管理,可上联多个中心容灾管控点。断网失联时,边缘云可持续运行,并具备独立操作界面,可自治运行和管理。36 分布式云行业实践指南5.应用成效帮助客户构建“同城双活”架构,支持分钟级应用容灾,保障千万人级出行安全保障。通过统一管理提升客户边缘节点管理效率,同时支持基于存量设备部署,最大程度优化客户成本。4.技术架构基于腾讯云遨驰分布式云操作系统,为广州地铁建设高可靠云底座:中心同城双活:支持多滴多中心设计,采用应用级双活保证高安全、关键业务可靠性。数据中心双活方案与各主流厂商兼容匹配。各关键 IaaS、PaaS 皆为腾讯自研,经过公有云多件高可靠性检验。边缘多上联容灾+断网自治:在网络正
93、常情况下,保持云边协同,支持中心对边缘侧统一调度、不安利,可上联多个中心容灾;在断网情况下,边缘云可持续运行,并具备独立操作界面,实现自治运行和管理。图 15广州地铁分布式云架构设计37分布式云行业实践指南(五)交通出行:某新能源车企自动驾驶云1.案例背景客户为某新能源车企自动驾驶团队,为客户车辆提供辅助/自动驾驶服务,自动驾驶业务属于重计算、重存储类型,随着业务发展,客户本地的计算、存储资源不足,同时投入成本较大,难以平衡弹性和性价比。2.用户痛点复杂多样的技术架构:随着公司的快速发展,各种类型的业务共存,各业务技术架构不统一,造成统一管理和运维困难。混合和分布式基础设施:作为一家集制造、自
94、动驾驶研究和消费者服务于一体的高科技公司,计算平台的基础设施是混合和海量的。高精地图等部分业务在 IDC 合规受限。弹性计算资源需求:各类业务的快速扩张给平台带来海量而紧迫的计算需求,对资源供应提出挑战。3.建设方案客户通过分布式云+本地模式构建的基于混合云的自动驾驶云。基于数据安全和传输效率等原因,客户需要在本地就近部署基于模拟车辆、车载硬件的仿真系统,基于腾讯云分布式云在本地 IDC 引入与中心一致的对象存储 COS 以及 GooseFS 产品,分别应对海量数据保存场景和海量并发场景,充分利用分布式云云边协同优势:基于分布式云与中心云一致管理特性,将部分数据就近上云,通过云原生平台统一调度
95、,实现一套方案覆盖中心与本地仿真训练流程调度,极小改造量即可同步调度云上海量算力。图 16某新能源车企自动驾驶云架构38 分布式云行业实践指南4.技术架构为建设多业务,多地域统一管理统一运维的分布式云架构,客户基于容器化及 kubernetes技术栈优化底层架构,运用了腾讯云的多种容器服务和能力。5.应用成效基于分布式云建设 EB 规模,百亿规模文件存储,能够将存储成本优化 30%,最高支持百 GB 级 IO 带宽、百万级 IOPS 读写性能;基于分布式云云边协同特性,算法训练性能提升 30%,单次训练时间从 1 个月缩短到1 周,单路仿真成本降低 30%。图 17分布式云原生技术架构39分布
96、式云行业实践指南(六)泛互:智聆口语评测降本增效实践1.案例背景腾讯云智聆口语评测(SmartOralEvaluation,SOE)是一款中英文语音评测产品,支持从儿童到成人全年龄覆盖的语音评测,提供单词、句子、段落、自由说等多种评测模式,从发音精准度、流利度、完整度等全方位打分机制,与专家打分相似度达95%以上,可广泛应用于中英文口语教学场景中。2.用户痛点由于业务的长年发展,已经积累了IDC物理机、云上虚拟机和云上Serverless容器服务等多套部署环境,业务架构十分臃肿,运维难度非常高,同时在当前降本增效大环境下,产品侧的降本诉求,如何控制产品成本成为一个越来越重要的命题。日渐丰富的业
97、务和多样的流量模型,对云平台带来了各种挑战:扩容成本非常高:由于本是AI评测类业务,依赖大量CPU 和 GPU 机器,而机器从资源申请到交付,再到服务部署调试与流量接入,周期通常是天级的,无法应对早晚高峰的尖峰流量,所以需要为高峰期预留大量buffer。资源流转效率低:同时业务侧存在中英文评测服务,AI引擎是两套模型,而模型间的部署切换成本也比较高,这也导致我们需要预留双份的buffer。运维难度高:架构下无法支持业务侧高效地进行资源流转、更无法快速完成弹性扩容。服务质量难保障:引擎服务故障节点剔除依赖人工操作,无法快速完成故障自愈;引擎服务部署方式多样,物理机/虚拟机/容器方案并存,无法搭建
98、统一的可观测体系。日渐丰富的业务场景:在工作日非工作日、早晚高峰和中英文评测的多种条件组合下产生了非常多场景,通过提前备量去cover所有场景成本是不可行的。无法预估的业务增量:部分客户的量受疫情影响非常大,且经常是不可预期的,客户自己也无法预估评测用量会达到什么量级,这也导致我们无法精准地提前备量。削不掉的尖峰流量:部分客户存在非常明显的尖峰流量,用户会集中在晚高峰的某几个时间点进行评测,尖峰流量通常是平峰期的 10 倍以上,且客户依赖实时结果返回,无法通过异步评测的方式削峰。3.建设方案为应对上述挑战,客户充分考虑分布式云的理念,通公有云容器集群+注册IDC节点的方案,升级系统架构,40
99、分布式云行业实践指南4.技术架构基于新的分布式云架构,通过注册节点的形式,将各地域的计算资源注册到各地域 TKE 集群中,实现云上云下资源统一调度。注册节点上运行了在线模型推理服务(引擎层),当 IDC 中的服务负载过高时,将服务弹性到云上 EKS 超级节点上,实现了云上弹性。IDC 节点引擎层服务采用 HostNetwork 模式部署,超级节点引擎层服务直接使用 PodIP,引擎层主动向北极星注册(underlayip/超级节点PodIP:port),并支持跨集群跨地域注册。根据自身负载动态和健康状态调配流量权重,实现自定义调度和故障自动切换。接入层通过北极星做服务发现,并将流量直接打到引擎
100、层的服务。图 18智聆分布式云拓扑图建设混合云架构。云上云下资源独立部署,无法统一调度,给业务运维带来额外复杂度。IDC中业务负载过高时,可以弹性云上资源承载。当某地域的服务故障时,自动切换流量实现容灾。通过全面拥抱云原生分布式云,更高效、优雅的解决业务面临的满足资源利旧,服务扩缩容、降低运维成本等问题。41分布式云行业实践指南 图 19智聆分布式云架构图日志方案统一使用CLS采集,并且通过CLS跨地域采集的功能采集至同一个日志topic中进行检索分析,简化现网日志检索复杂度。监控方案统一为云监控方案,通过云Prometheus采集基础指标及业务指标进行展示分析,减少多套监控体系学习与维护成本
101、。业务侧只需要完成GPU数据的采集上报即可。借助云监控的能力覆盖邮件、企微微信、电话等多种渠道,减少告警渠道维护成本与多套告警规则配置学习成本。5.应用成效通过新方案,IDC 节点、云上虚拟机节点和超级节点混合部署,通过HPA配置利用云上弹性扩缩容能力进行削峰填谷,对比传统部署在普通节点上的方案:扩缩容更方便、更灵敏。服务扩容到流量接入耗时优化至分钟级,自研scheduler服务结合Serverless容器服务弹性扩容能力进行削峰填谷,降低超 30%系统成本,节约 2 个运维人力。管理复杂度更低。不需要维护节点资源,超级节点可按需添加,根据业务情况灵活调整;早高峰期将闲置的英文节点资源转换为中
102、文节点资源,减少北京地域近 90%早高峰扩容需求。成本更优。引擎服务对GPU,CPU 和 MEM资源有很高的需求,通过分配IDC和云上超级节点支持的GPU 规格节点资源占比,为不用场景分配合适的资源,提到整体资源利用率,提升业务侧的性价比。分 布 式云 行 业 实 践未 来 展 望06自“分布式云”概念提出以来,经过多年演进与发展,产业界对其概念价值认可度持续提升,关键技术不断演进,应用实践逐步走深向实。展望未来,内涵价值方面,分布式云“统一管理”特点降低传统混合多云管理和使用复杂度,健强云边端协同能力,将全面提升云服务使用效率和体验。技术演进方面,分布式云在弹性部署、云原生应用、一体化安全等能力持续增强,加强行业业务场景支撑能力,加速分布式云融入“千行百业”。实践应用方面,分布式云应用场景不断拓展,通过全域化管理调度算力资源,实现在政务、金融、工业制造、能源、交通、泛互等行业大规模应用部署,并赋能大模型训练、AIGC 等创新场景,赋能我国政企数字化转型升级。