《阿里云:云治理企业成熟度发展2023年度报告(24页).pdf》由会员分享,可在线阅读,更多相关《阿里云:云治理企业成熟度发展2023年度报告(24页).pdf(24页珍藏版)》请在三个皮匠报告上搜索。
1、 前言 在当下用云发展趋势下,企业管理者越来越需要全局视角来帮助管理云服务在自身企业的有效落地实施。埃森哲联合阿里云发布的云治理企业成熟度发展:2023 年度报告,结合埃森哲云上咨询理论知识和实践经验,以及阿里云用户调研、产品体验反馈、标杆客户案例,提炼出鲜明的观点和充分的论证支持,对云治理在市场和企业现状以及发展趋势做出前瞻性洞察。本次调研报告数据来源于 326 家企业参与的问卷调研和云产品使用体验反馈,横跨金融、互联网、新零售、跨国企业等多个行业,问卷反馈者主要为运维、架构师、技术人员等对企业在云上资源使用有充分了解、并具有代表的相关人员。在本报告中,我们将在核心结论部分,展示本次调研报告
2、的关键发现。之后,报告将帮助读者理解云治理的概念和企业用云实践的现状,并基于云治理框架的五大分类(即稳定性、安全合规、卓越运营、成本效益和高效性能)进行调研数据展开和详细解读,包括市场与企业实践现状、高低成熟度差异、企业案例等。最后,我们将为读者展示不同行业企业的治理成熟度的不同趋势,以及如何基于云治理框架进行云上架构优化,为读者后续云旅程中的持续治理提供参考借鉴。在本份报告中,根据用户实际情况的调研和云产品使用深度反馈,我们将调研企业大致分为云治理高成熟度和云治理低成熟度两类。高成熟度企业在云治理各个领域(稳定性、安全合规、卓越运营、成本效益和性能)的解决方案应用面、和产品功能使用深度上,综
3、合计算得分更高,相比之下,低成熟度企业在云治理领域内的方案或产品功能实践均有欠缺,因此综合计算得分较低。1 https:/ 2 https:/ 第一章 核心结论 到 2024 年,70%的企业会将工作负载转移至云端1。仅公有云而言,2024 年全球最终用户在公有云服务上的支出预计将达到接近 6800 亿美元2。云计算对企业的价值包括但不限于业务敏捷性或按需使用灵活性,以及更快速进入新业务市场等。云上的创新业务模式,以及以 AI为代表的科技驱动力,同时也要求企业向内进行 IT 治理方式的转变与升级。根据埃森哲多年客户服务经验,多数企业上云后,没有更新适合自身发展情况的云上 IT 治理实践方式,因
4、此一定程度上,限制了云计算帮助企业实现全面数字化转型的潜力、并阻碍了创新业务增长的敏捷性。综合本次埃森哲联合阿里云进行的企业客户调研反馈,以及标杆案例客户的深度研究,分析总结得出以下结论:1.云治理对企业而言是一个持续过程,并非一劳永逸。在整个云旅程中,无论企业对云计算的使用程度处于哪个阶段,都需要进行全面完善的云治理。在针对初上云的企业调研中发现,早期的云治理架构设计和规划,可以帮助企业搭好云底座的基础并加固;用云渐深的企业,亟需通过云治理实践,对当前用云现状进行分析和复盘,不断提升企业用云能力和水平。2.通过调研信息收集和数据对比分析,我们发现企业目前的云治理实践现状与自身的治理目标之间,
5、存在落差。如云上稳定性、安全和成本,企业将其设为关注的热点问题,但落地实践上并未达到期望目标。例如:l 企业将稳定性列为优先级较高的治理领域,但是,约半数企业目前并不具备成熟的稳定性架构设计,在容灾、容错和容量的三要素上缺乏落地实践。在精细化管理和可观测实践上,企业目前并未完全覆盖从云基础设施、到应用、再到业务层面的全链路监控。故障根因分析和快恢自愈能力上,也仅有 23.9%企业有完善的根因分析机制能快速定位问题。l 企业反馈当下最关注的风险类型为数据安全(71.8%企业列为第一关注),但对于数据安全的核心工作,如数据加密、分类分级和脱敏,仍有一半企业缺乏落地实践。与 之相比,身份权限安全在企
6、业的关注度偏低(29.8%企业列为第一关注),反而会造成管理疏漏,例如,企业未搭建更高安全度的多账号统一管控架构,或通过 SSO 单点登录方式进行账号运维,容易造成管理混乱、效率低下、且存在隐患。l 近六成企业反馈在今年度有云上降本和效益优化的计划,但普遍缺乏对云上成本管理和优化的实践经验。调研反馈发现,目前仍有近七成企业在基础的成本分摊环节尚不清晰,成本监测与优化的实践手段也非常单一。3.企业客户的云治理现状随着成熟度水平的高低不同,呈现出明显差距。在本份报告中,我们根据用户实际情况的调研和云产品使用深度反馈,将调研企业大致分为云治理高成熟度和云治理低成熟度两类。通过数据对比分析,低成熟度企
7、业普遍缺乏治理规划和落地实践,而大部分的高成熟度企业在云治理框架下的各个领域,都已完成基础治理项目实践,并进入优化提升阶段。例如:l 高成熟度企业在自动化能力建设上,普遍比低成熟度企业更为进阶。94%的高成熟度企业使用 Open API 进行自动化资源创建,有半数的高成熟度企业自建 CI/CD(持续集成、持续交付、持续部署)平台或使用开源流水线工具,这些均能够降低人为风险,提高应用部署和构建的工作效率和准确率。而低成熟度企业仅有 23%使用 API,绝大部分用户依赖控制台手动操作。l 低成熟度企业有高达 38%没有进行过性能测试,缺乏评估系统或组件处理峰值流量的能力,对比高成熟度企业目前 17
8、%没有相关实践经验。3 https:/ 第二章 云治理概览与发展趋势 云治理是一个过程,并非一劳永逸 根据行业研判,全球范围内云基础设施投入逐年增加的同时,推行先进云战略(混合云或多云管理、云投资治理等)是企业云采用的大趋势,国家在政策法规方面对云上安全合规的要求逐年加强,这些都给企业在云上运营管理带来了不同程度的压力,尤其成本管控、安全合规、专业技能不足、治理不善等问题日益显现3。这样的发展趋势之下,企业需要通过云治理来完善用云的规范,主动控制与降低风险,提高云投资效益可见度与回报度,才能顺应变化,最终帮助企业达成在云基础设施之上,实现整体运营的可持续发展的综合目标。那么,如何定义云治理呢?
9、根据埃森哲研究,治理是在诊断执行动作中,找到健康正确的管理路径并给予指导,目标是找到不依赖于人的管理路径,为管理打下基石并明确方向。若将企业的运营发展比作道路(如下图),管理就好比在道路上正确和安全驾驶,而治理则相当于对道路进行安全建设规划,包括道路方向标识和警示牌等。只有通过治理,才能为企业管理指明正确的方向、明确安全行驶规则、并优化未来畅通行驶的道路。在云旅程中,云管理指通过自助服务门户提供单个或者多个云的配置和管理资源的能力,侧重于实施管理动作;云治理则全面提供了成本、预算、操作、安全性以及多云合规的管理规范与最佳实践能力,从而构建企业安全合规、可扩展的云采用架构和迭代流程。简而言之,云
10、治理指帮助企业搭建规范用云策略,保障用云的合理性、安全性、和高效性。根据埃森哲的客户项目经验和调研反馈,初上云的企业,如果没有进行良好的云治理架构规划,会缺乏对自身企业用云现状的了解与把握,可能导致资源与成本失控、稳定性隐患、和安全风险敞口等问题。对于已进入用云深水区的企业而言,治理不善带来的云上资产问题和挑 战已浮出水面,企业同时也希望可以借助云治理手段,来释放更多业务发展的空间,从而迎来二次增长的机遇。因此,云治理对于在云旅程任一阶段中的企业,都具有重要的发展意义,并非一劳永逸的任务,云治理是企业可持续用云的地基与关键要素。全面的云治理,从五大领域展开 根据本次调研数据和埃森哲行业研究,用
11、云企业的痛点主要集中在如何确保应用系统安全稳定、如何优化云成本、如何保障高效运营等。因此,我们总结了以下云治理五大领域方向:云上稳定性:让业务系统利用现代云平台的基础设施达到高可用,做到面向失败设计,具备一定容灾性的能力。同时把控应用系统的变更流程、部署架构、配置规范等,制定企业应用治理规范,设定应用层面的治理标准。安全合规:识别内部、外部的安全要求和监管诉求,在云环境中针对网络安全、身份安全、主机安全、数据安全等全方位地进行规划和实施,最大限度的确保数据和工作负载的安全性,满足区域法律合规等的要求,同时持续对威胁进行检测和快速响应。卓越运营:高效资源部署管理,实现可持续地运营、监管和管理应用
12、系统,通过关注应用研发态、运行态相关工具与系统的构建和使用,以及日常操作流程定义等,实现云上自动化,指引企业构建自己的运营模型。成本效益:为了平衡业务目标与云上成本支出的实践行为,包括通过充分高效使用云服务来构建业务应用,尽可能提升云环境和业务需求之问的契合度,通过持续优化来避免资源浪费,减少不必要的云上开支并提升运营效率等。高效性能:根据性能监控指标自动触发弹性伸缩能力,通过云平台的资源储备应对流量高峰,建立完备的可观测性体系协助定位性能瓶颈。通过性能测试手段建立性能基线,验证架构设计目标并持续优化。体系化、工程化、整体化去了解云平台上的工作负载,才能更好理解云治理五个方向的关系:稳定性、安
13、全合规和高效性能这三个领域专注于提高企业基于云平台原生的治理能力,而成本效益和卓越运营则关注如何更有效地利用云平台增强运营能力,提供更出色的云运营体验并实现收益增长。稳定性是一切的基础,在此基础之上进行安全合规的加固,通过在安全护栏上进行性能和效率提升,与此同时,需要权衡架构是否能经受住成本瘦身考验,并将重复性或模版化工作融入到组织业务流中。这两类不同侧重的领域早期需要平衡处理、长期需要协同共进,从而实现强大的云平台和卓越的云运营能力。第三章 云上稳定性 云上系统稳定性是指系统在运行过程中面对各种非预期事件影响下能够持续提供可靠服务的能力,是系统建设的重中之重。云上稳定性架构治理,以增强企业系
14、统及应用的稳定性(RTO 恢复时间目标/RPO 恢复点目标),保证业务 7x24 小时可靠运行为核心目标。云计算平台服务通过动态资源分配降低负载压力,提供冗余存储和备份能力,综合提升系统的可拓展性和可靠性。根据本次调研反馈,61.7%企业担心由于缺乏数据备份而导致数据丢失;约 50%的企业关注人为变更影响、突峰流量影响、及软硬件故障问题。企业实践现状 1.然而,根据问卷调研数据反馈,约半数企业现状还不具备成熟的稳定性架构设计,在容灾、容错和容量的稳定性架构设计三要素上缺乏落地实践。其中治理成熟度较高的企业,87%会进行集群架构、无单点的容灾设计;70%会通过压测获取集群的峰值容量,根据业务峰值
15、进行扩容;67%会在大促前进行系统容量评估;67%企业会配置重试及超时策略。这些稳定性强化措施的实践比例显著高于低成熟度企业,低成熟度企业普遍仅有三成左右的落地率。2.针对核心应用的云资源日常巡检任务上,云治理高成熟度企业的重视度与完成度均显著优于低成熟度企业。整体来说,企业对云监控配置和数据备份整体最为关注(如下图),而 在多可用区架构和开启删除保护上,高成熟度比低成熟度企业的领先差距较大。低成熟度企业调研中有高达 12.4%比例(相比高成熟度企业仅 2.2%)日常不关注资源巡检问题,这样粗放式的云上运营模式很容易带来资源与成本失控隐患。3.云治理高成熟度企业在基础设施和应用层面的可观测体系
16、建设程度,显著优于低成熟度企业。尤其是云资源层面(如云主机 CPU 利用率等)可观测建设上,有高达87%的高成熟度企业有落地实践。搭建可观测体系能够更好地帮助企业监控、分析和管理系统运行状态。在云原生、微服务等技术流行当下,系统的可观测性变得越来越复杂,只有从监控指标、链路追踪、日志记录、监控看板和事件告警等方面来进行综合设计,才能实现云上全方面的可观测性体系能力建设。然而在业务行为的可观测设计与实践上,需要从基础设施到应用再到业务的全链路追踪,此方面在访谈调研中发现,多数企业普遍缺乏有效实践。4.故障根因分析和故障快恢自愈方面,企业整体实践落地比例较低,调研反馈仅23.9%企业有完整的根因分
17、析机制能快速定位问题。目前,高成熟度企业普遍具备监控告警(74%)和应急处理能力(68%),通过统一的告警平台、或者分散的监控告警渠道(如云监控、ARMS 应用实时监控服务、或其他自建开源告警工具)实践落地。监控告警平台只是故障管理的第一步,当前企业普遍反馈的痛点是,如何在海量的告警信息中区分哪些是跟基础设施层有关、哪些是跟应用层有关,如何发现关联问题,从而快速定位真正的故障根因。这就需要企业不断完善监控体系与响应机制的建设,建立一个高效的应急响应流程机制和可靠的技术平台,实现故障风险实时发现、应急团队有效协同、故障快速止损和恢复。企业案例 某知名汽车零部件制造业公司,监控可观测一直是该企业关
18、注的痛点问题。从基础设施到应用再到上层的业务缺乏一个体系化的可观测设计,导致缺乏全局视角。该企业存在多套监控系统,相应也存在多个告警渠道导致告警泛滥,由于监控指标分散在不同监控平台,因此在故障定位上困难重重,难以第一时间发现核心故障问题。该企业通过加强完善应用、业务监控指标、统一监控大盘,实现全局视角观测系统健康情况,缩短从发现故障、到根因定位、再到问题解决的故障排查周期。通过这套规范化的可观测指标和大屏建设,帮助企业及时关注基础设施、应用以及业务的情况,快速发现问题并推进故障恢复,从而保障业务连续性。同时,还加强云资源层面的配置巡检规则部署,对于上千款云资源能够做到每日分钟级的巡检,全面、高
19、效识别风险。基于巡检结果,SRE 人员(Site Reliability Engineering 站点可靠性)可立即完成治理优化,典型规则如:关键数据库实例未 开启备份、ECS(云服务器)磁盘未开启快照、核心 ONS(云消息队列)资源规格过低、核心RDS(云数据库)资源未开启删除保护等。该企业结合事前的风险识别、事中故障发现告警及事后的应急预案,有效地保障系统稳定运行,借助全面监控了解资源利用情况,从而为后续的成本、性能等治理打好基石。第四章 安全合规 如何利用云技术来保护数据、系统和资产,对于企业来说至关重要。对于不同阶段企业现状的洞察发现,随着云计算的应用逐步加深,企业在安全合规上的关注程
20、度与能力建设力度同步持续加强。云上安全合规的范围广阔,本次调研分析中,我们集中针对以下四大重点领域展开:数据安全、基础设施安全(网络/主机)、身份和访问控制、合规审计。企业实践现状 1.数据安全是企业目前最关注的风险问题。根据调研数据结果,71.8%的企业选择数据安全作为第一关注的风险类型;其次是 54%企业关注云上网络安全风险。相比之下,仅有1/3 企业表示关注主机安全、合规风险、应用安全与身份安全风险,但这些场景均有容易疏漏的安全隐患,企业需加强关注和治理投入以避免潜在风险。2.数据安全作为首当其冲的风险类型,是企业的生命线,云治理成熟度较低的企业中仍有超过一半缺乏落地实践,在数据分类分级
21、、脱敏和加密的治理工作有所欠缺。建议企业按 照数据分类分级保护制度,来确定业务或行业的重要数据具体目录,进而对列入目录的数据进行重点保护,制定云上数据分级保护架构,同时还能够灵活的根据企业数据保护的管理要求去调整相关的安全控制措施。3.企业对于网络安全的重视度和完成度均较高,其中高成熟企业在云防火墙和网络防护上的建设已经达到了80%的落地实践比例,低成熟度企业中也有超过 50%比例落地实践。云上业务系统可能位于网络中的任何位置,每个网络层次上都需要有完善的安全体系,来确保各类业务的安全访问。4.本次调研显示,超过 90%以上的企业有使用 RAM 用户,但通过 SSO 单点登录方式,进行账号运维
22、管理在企业侧实践比例较低,高成熟企业仅有 12%采用,低成熟度的采用率仅有1%。这反映出来企业在云上身份管控的实操层面,仍有较大的治理提升空间。拥有良好的身份和权限的设计,能够确保只有授权身份才能够在指定的条件下访问对应的云资源,才能最大程度保障企业信息安全。5.日志跟踪及巡检,作为企业合规审计的基础,是云上治理成熟度的高低差距较大的实践落地工作之一。高成熟企业有 66%进行操作日志跟踪并按照相关合规要求存储 180 天以上,确保云上运维管理的操作记录可追溯,相比之下,低成熟度企业仅有 1%企业履行。企业案例 某国内知名的 SaaS 企业,随着业务快速发展,用户规模和云上资源都在不断扩大,尤其
23、是企业的大客户都非常重视 SaaS 系统的数据安全及网络强隔离。具体来说,该企业有以下三方面的安全合规关注重点:1、全面的数据安全保障,尤其是针对客户敏感数据保护。2、网络安全需求,客户要求该企业的服务单独部署在一个 VPC 专有网络内,包括应用及数据都要跟其他客户强隔离。3、身份权限安全,内部研发及运维人员经常会有转岗、离职等流动,而目前企业的应用程序是明文将 AK 写在代码中,非常容易出现 AK 泄露风险。针对这三点挑战,该企业的安全团队从以下三方面进行专项治理:1、通过数据加密方案对关键数据进行端到端加密。比如针对 OSS 对象存储,开启服务器端加密,在不影响程序性能的同时可以确保数据安
24、全。借助 KMS 密钥管理服务对敏感数据进行加密再保存到数据库,开启 RDS 云数据库的透明加密,确保备份文件也是被加密过。2、借助云防火墙的东西向防护能力,能够有效在不同 VPC 之间做好东西向防护,有效防御恶意流量的非法访问。3、通过安全扫描和巡检报告,定期检测云上身份权限安全,如闲置 RAM 用户的定期清理,高权限 RAM 配置 MFA 多因子认证。尤其加强对 AK 访问密钥的集中管控,通过加密、轮转等方案来降低 AK 及密钥泄漏、AK 误删等风险。除此之外,企业也严格遵循权限最小化的精细化管理原则,持续巡检治理,收敛不必要的权限外溢带来的风险隐患。通过以上三个举措,保障了该企业系统安全
25、、数据安全,实现内部人员身份的有效管理,优化云上用户体验的同时,也保证了良好的安全成熟度水位。第五章 卓越运营 卓越运营包括企业运营组织搭建,标准化变更管理,以及企业的自动化高效部署管理,使团队能够将更多时间和精力用在构建让业务受益的新功能上,减少用于维护和处理突发事件的资源,帮助开发人员始终如一地实现高质量的结果,推动持续集成和持续交付,构建适合企业自身的云运营流程和模型。为了达成卓越运营的目标,即运营效率和部署开发质量的双提升,企业目前主要关注通过自动化和标准化操作,来进行变更管理和部署管理。企业实践现状 1.本次调研显示,有超过50%的企业,没有建立专门的云运营部门进行业务服务质量管理,
26、多数企业选择由原有的技术开发团队负责。而调研中,我们也发现部分金融机构和公司,已采用设立科技子公司的方式进行云运营,保障集团企业间的云资源统一管理。企业搭建云运营组织一方面为了实现对内的云资源管理,一方面也支持对外的云服务供应。2.对于平台系统的变更管理,云治理高成熟度的企业中超过 50%建立了标准化执行手册 SOP,并进行了指导实施,低成熟度企业仅有31%有相关工作落地。企业进行变更管理旨在在对关键系统和服务进行操作的同时,最大限度的减少服务中断的风险。建立标准的变更管理流程是变更管理最佳实践的第一步。3.自动化部署管理水平的高低,是企业在云治理成熟水位差异的关键体现。部署管理旨在通过自动化
27、手段实现自动化基础设施管理和应用部署,以减少人工运维投入、降低手动操作风险。在本次调研中,我们着重关注以下三个部署管理相关的指标:资源创建的自动化率,即非控制台创建的资源比率;IaC 工具使用比例;应用自动化发布比例。l 云治理高成熟度企业普遍已经深入接触、并实践过云上基础设施自动化。94%高成熟度企业使用 Open API 进行自动化资源创建,节约开发运维人员的时间和精力,降低出错风险,实现效率提升和卓越运营;而低成熟度企业仅有 23%使用 API,绝大部分使用控制台手动操作。有 41%的高成熟度企业日常使用 Terraform 和 ROS 编排工具,进行云资源和服务的自动化部署,而低成熟度
28、企业中仅有 15%有相关自动化工具实践。l 根据调研数据结果,低成熟度企业中高达57.5%选择手工实现应用打包与部署,这使得他们在面对复杂应用程序背后的大量代码文件、配置文件等,时间消耗以及错误量显著较高。相比之下,半数左右高成熟度企业已经实现自动化应用发布,以提高应用部署和构 建的工作效率和准确率。据问卷显示,高成熟度企业中选择自建 CI/CD 平台的客户占比最多,其次是使用开源流水线工具如 Jenkins。企业案例 某国内大型互联网公司,业务类型及业务团队分散且庞大,不同业务团队对资源管理方式不统一,导致无法使用一套技术栈来统一运维。另外,不同业务团队有自己独立的运维团队,随着企业高层推进
29、云战略优先和云转型,集团全部业务决定迁移到公有云。因此,摆在集团CTO 面前以下两点挑战,需要尽快解决:1、业务线的运维团队不统一,造成云上业务运维很难统一规范,整体运营效率低下。2、不同业务线用云方式差异较大,有的团队是通过人工控制台,有的团队是通过脚本API,有的团队是通过 Terraform。针对以上这两点挑战,CTO 也参考了云服务商的最佳实践,决定从以下两方面进行治理:1、构建 CCOE(云卓越)团队,将不同业务部门的运维、架构师、网络、安全、财务等骨干人员,组建了一支公司内部联合团队。由这支团队来负责云上登录区 Landing Zone 规划设计,并通过 Well-Architec
30、ted 卓越架构方案持续对后续的用云、管云巩固规范。2、经过内部多轮技术研讨,最终 CTO 决定采用 Terraform 来做基础设施管理。能够对基础设施做到状态和版本化管理,便于后续状态追踪及快速回滚。通过以上这两项举措,该企业在 3 个月时间内完成了云上基础设施环境的搭建和巩固,统一各业务云上资源开通流程与技术栈,为后续业务快速上云、用好云打下扎实基础。第六章 云上成本效益 企业上云目前进入深水区,伴随深度用云而来的费用问题频现,加剧了企业对云上成本效益的管理与优化的诉求。根据埃森哲客户服务经验,上云后成本费用混乱是企业用云面临的主要挑战之一,且部分企业由于缺乏最佳实践指导,云产品资源使用
31、存在闲置浪费现象。本次调研反馈,60%的企业明确表达有云上成本优化的期望,由此可见,企业进行成本精细化分析与监控,并进行成本效益的提升,已是大多数企业在目前市场态势下的战略选择。根据埃森哲多年客户实践,将企业的云上成本优化分为以下四个步骤:第一步,组织流程搭建,指云财务成本管理团队以及管理流程的搭建;第二步,云上财务管理,包括内部分账,云支出和使用情况分析报告等工作;第三步,资源配置管理,针对资源闲置等进行优化,保障最佳的供需平衡;第四步,持续的架构优化。企业实践现状 1.根据埃森哲客户实践经验和本次调研数据总结,尚有多数企业仍未建立云资源成本的管理团队和体系。企业设置专门的云财务/成本管理团
32、队,更有利于形成完善的云成本汇报和管控体系的有效模式。建立团队或者设置专员,不仅可以实现内部成本的统一管控,以及辅助其他部门进行资源监控、优化和报告等工作,更可以进行成本维度的整体架构优化、成本管理体系的搭建以及平台运营运维等。2.本次调研发现,仅有32%的企业的云资源能够清晰准确地分账到对应的部门或业务线,实现精准有效的成本和用量监控。29%的企业大部分云资源能够拆分到部门/业务,但少量共享资源无法拆分;还有 15%的企业无法分账,即大部分云资源费用归属混乱,无法掌控各部门和项目如何消耗资源。超过一半的高成熟度企业,能够通过使用自定义标签或资源组对云资源进行打标或分组,以支持部门或业务分账,
33、比低成熟度企业完成度显著要高。3.通过资源目录来进行云上多账号的统一规划与管理,普遍采用率不高。云治理高成熟度企业有 35%的采用率,而低成熟度企业仅有2%采用率。但通过埃森哲的客户服务经验发现,采用多账号统一管理体系的企业,能通过划分每个账号的职责权限,在方便业务更好地使用云账号资源的前提下,兼顾安全合规统一管控,提升运维效率,并为成本管理和效益优化打下基础。4.企业目前对云上成本效益优化的实践工作普遍缺乏,且措施单一。云治理低成熟度企业,仍有15%企业尚未实践过任何成本监测优化的手段。调研发现,60%以上的高成熟度企业 通过资源包购买和闲置资源发现等手段,来提升资源利用率。另外有 52%的
34、云治理高成熟度企业通过变更资源购买方式来进行成本优化。然而,整体企业在异常费用(或高额消费)预警设置、云产品资源使用的定制优化上,进行成本优化相关经验目前较少。调研访谈中发现,高成熟度企业往往会跟进云厂商不断发布的新服务和功能,检查现有的架构设计并进行优化,确保架构具有最佳成本效益。而低成熟度企业,一般会惯性固守原有服务架构或功能,既而导致举措更新不及时,错失成本优化的机遇。企业案例 某知名新零售企业,由于各业务线使用的云资源种类繁杂,成本无法分摊到各个项目,导致财务团队无法准确的核算经营成本。内部人员的变动也导致部分资源购买后未投入使用,出现较多资源闲置的情况。基于这两个痛点,该企业通过设计
35、统一完善的标签体系、搭建财务单元,将云资源成本有效和准确地分摊到业务线。通过技术手段去提升云资源的分析下探能力并优化成本效益,例如:针对用量大的业务优先看看哪些资源占比高,给出相应的优化方案;针对数据库用量,可以进行规格上的降配、存储容量的缩容等;针对存储类资源可以开启冷热数据分层存储;针对闲置资源设计巡检规则,定期识别并释放闲置资源实例,同时监测成本异常使用情况。这一系列举措,成功帮助该企业降低用云成本,提升资源利用率,继而推动账单管理和成本效益的进一步优化。第七章 高效性能 如何高效利用云平台的资源,以更好地满足用户对它的需求,是企业在深入云资源使用之后常见的痛点,尤其是面对海量用户量和高
36、并发场景的行业,如互联网等,对高效性能的关注度显著更高。高效性能,指借助云原生产品和能力,设计和优化应用架构,通过监控、压测等发现性能问题,持续进行性能优化,打造高效性能的业务应用。具体来说,包含以下三步的工作:首先,在架构设计的初期,进行针对客户自身的高性能设计,选择合适的产品和服务;其次,通过完善的性能测试手段和全面的性能监控体系,建立性能基线,协助定位性能瓶颈;在以上基础上,进行优化策略规划,设计针对性性能提升的目标和解决方案,并继续反哺到应用架构设计中去,形成持续优化的闭环。企业实践现状 1.低成熟度企业有高达38%的企业没有进行过性能测试,缺乏评估系统或组件处理峰值流量的能力。企业做
37、性能测试,是为了通过自动化的测试工具模拟多种正常、峰值以及异常负载条件,来测试各项性能指标,以建立性能基线,验证架构设计目标并持续优化。据本次调研数据显示,40%左右的高成熟度企业会使用云产品(PTS)或开源工具(JMeter 等)进行性能压测,并定期(业务上线前、周期性)进行性能压测,有 33%的高成熟企业还会对业务上下游进行全链路压测。2.企业关注的性能监控涵盖了可以反映性能问题的各类指标或数据,包括但不限于超时错误数、缓存命中率、FullGC 次数与耗时、CPU 使用率、平均负载等等。根据调研结果发现,高成熟度企业中有 54%通过收集应用日志实现性能问题追踪,37%通过压测设定性能基线,
38、以此为基准进行告警,或通过全链路追踪(如 OpenTelemetry)监控性能指标,或为业务设定性能目标。低成熟度企业的性能监测落地手段较少,有23%反馈以上手段均没有实践。企业案例 某互联网旅游行业头部企业,存在大量用户的高并发访问情况,需要存储海量数据,并且有高峰访问流量带来的压力。该企业使用性能测试 PTS(Performance Testing Service)进行云上应用的压测,通过性能压测,持续架构调优,确定常态容量和容量上限;针对海外访问流量,利用阿里云全球加速 GA、CDN 节点设置等,优化网络路径,降低海外访问延迟;结合数据库自治服务 DAS,洞察和优化数据库性能。这套规范化
39、的性能测试和监控,保障该企业的业务稳定性和连续性,降低访问延迟情况,并通过持续的性能优化,提高用户满意度和产品竞争力。第八章 云治理的未来展望 行业洞察和趋势 新零售企业:l 稳定性:稳定的基础设施和应用系统,可以保证数据在整个供应链中顺利流转,将有助于整个供应链产能的提高,助力零售行业实现从传统零售转型新零售的升级。l 安全合规:新零售企业的系统一般是使用多个供应商或分包商,来进行整体开发和管理,因此在整个人员身份和权限的管理重视程度高,并且对消费者信息数据安全加密上尤为关注。l 成本效益:新零售企业面临着大量碎片化的数据和全渠道零售的挑战,因此更希望通过云治理实现企业 IT 支出的下降和成
40、本效益的提升,以及对全渠道供应链的稳定支持,用以提高业务运营效率和发展潜力。l 性能优化:零售电商场景客户非常看重应用架构设计和高可用。在线上业务增长背景下,需要提升业务系统的稳定性、提升高并发场景下的系统应对能力等。对 C 端系统的可观测性监控、运维可视化需求尤为突出。互联网企业:l 稳定性:互联网行业往往面对突发业务峰值流量的情况,对云上稳定性的高要求集中于容量,可考虑引入弹性伸缩策略,预约或根据流量变化触发系统自动扩缩容,以确保以尽量低成本来自动化满足突发峰值情况,并通过合理的云资源架构,对突发故障做到高度的容错容灾。l 安全合规:据调研发现,互联网企业对数据安全的关注在各个行业对比中尤
41、为突出。一方面受到监管部门的合规要求。另一方面,海量的 C 端用户无疑是互联网企业的核心竞争力,若数据安全不能保障,会直接影响用户信任度以及产品竞争力。l 卓越运营:互联网企业大多已经完成云上数字化转型或是在云原生环境成长起来,对用云的部署管理自动化水平更加成熟,因此更加关注用云的灵活性,以保证业务快速发展所需 要的高效云资源使用。l 性能优化:互联网行业在网络性能方面重点关注时延、丢包率、带宽、吞吐量、每秒请求数、并发连接数、新建连接数等。多数云治理高成熟度的互联网企业,进行全面的压测和持续的监控,以明确工作负载的核心指标并定位链路瓶颈,针对瓶颈进行优化提升,对提供更好的产品服务、提高用户满
42、意度、增加营收等都有重大意义。金融企业:l 安全合规:据调研发现,金融行业在身份权限管控上更为关注、成熟度也相对更高。例如在不使用主账号登录、不使用主 AK、资源组分组率以及 SSO 单点登录集成等调研反馈上,金融行业企业的落地实践比例均更高。在金融机构不断提升安全合规的监管要求下,各金融企业不断加强保障客户资金安全和信息安全,并适应数字化金融环境的演进,维护金融系统的稳定性和可靠性。l 卓越运营:金融机构及金融科技公司的云上运营组织模式以设立科技子公司为主,将金融与科技高度融合,以赋能客户和全新生态体系。在运营组织架构设计上,领先于其他行业并且,在自动化相关工作上,金融机构和企业也显示出了较
43、高的发展成熟度。跨国企业:l 安全合规:跨国企业往往面临各国家不同的数据安全要求,并需要兼顾全球总部 IT 部门管控要求的双重考验,因此从架构设计上,不仅要保证云上数据资产的的合规性,还要遵循企业全球总部 IT 已有云治理体系,尤其在多云策略的趋势下,要形成统一的安全合规管控规范。l 卓越运营:跨国企业的总部 IT 部门往往有着严格的管控要求,在其他区域上云时,通常需要遵循企业全球总部 IT 已有的上云标准和成熟的治理体系,尤其在多云策略的前提下,基本沿用统一的运营模式以及自动化方式,因此基本展现出较高的运营成熟度。l 成本效益:随着全球业务的不断发展,跨国企业对上云之后的 IT 成本管控更加
44、严格、透明度要求更高,并需要 IT 部门能够随时以更精细化的颗粒度展现云上成本和账单的分摊;除此之外,跨国企业的分支及部门众多,用云的业务部门多,对成本效益转化的要求也更复杂。综上所述,不同行业的企业客户,云治理现状和关注重点各有不同。例如:互联网行业云上自动化水平普遍更高,多数已经完成稳定安全架构设计更新,更加关注用云的灵活性,以及挖掘云技术实现业务二次增长的机会。新零售和金融行业对数据、身份安全的关注度更高,其中新零售行业对成本效益优化也给予高度重视;跨国企业以符合当地法规和兼顾总部统一管控为云治理核心工作。因此,各行各业在进行云治理时,通常会根据其特定需求和挑战来确定重点关注方向和优先级
45、,根据自身行业特性制定相应云治理发展战略。云治理的实践路径 在云治理的具体实践阶段,企业面临的重要问题,例如从哪个领域开始着手、如何设定成果目标、如何组织内部人员和管理资源、如何采用具体的工具来展开落地工作、如何持续治理优化等,这些都需要有一套可持续发展的实践路径以供参考遵循。基于本报告的企业调研总结,我们建议在云治理的过程中,首先学习并吸收业内的最佳实践经验,沉淀对云治理领域的认知和理解。其次,针对企业自身的用云现状,使用科学的度量模型进行定量评估,并配合专业和深度的定性调研,了解并记录当前的现状发现。在学习和度量的基础之上,推进有效的云治理优化动作。1.学习:即学习云治理各个专项领域的知识
46、、经验和最佳实践。2.度量:即通过科学先进的度量模型及手段,客观度量和主观度量一起来综合评估企业当前在云治理的现状成熟度水位,帮助企业对自身的情况有更加清晰具体的认识,以便于后续进行针对性的治理优化。其中,客观度量是通过云治理多个领域维度的模型计算评估得分(定量),主观度量是通过专业人员对企业进行调研访谈等方式(定性)对无法数据量化的情况进行分析解读。3.优化:即治理方案,基于企业现状的度量结果发现,梳理企业的治理需求和优先级,制定个性化的治理优化方案并最终落地。通过学习-度量-治理的有机路径,能够帮助企业规避“盲目治理”现象,更好的基于科学精确的度量结果,为企业提供更具个性化的指导建议和方案,最终实现可持续发展的云旅程和成熟健康的云现代化之路。出品团队 阿里云计算有限公司 埃森哲(中国)有限公司 撰写作者:唐雨微、朱玥、曲骏、周玥琳、朱彩辉、程超、麻芃、周金龙、王觯程 特别鸣谢:戴虹、何登成、姚靖宇、宋广宇、刘湘雯