《灵迹(Dynatrace):2022年网站可靠性工程现状报告(46页).pdf》由会员分享,可在线阅读,更多相关《灵迹(Dynatrace):2022年网站可靠性工程现状报告(46页).pdf(46页珍藏版)》请在三个皮匠报告上搜索。
1、网站可靠性工程现状报告2022 版本调查报告由 Dynatrace 提供网站可靠性工程现状 2022 版2随着组织寻求驾驭云自动化以加快数字化转型,网站可靠性工程(SRE)已经走上了中央舞台。大多数组织在采用网站可靠性工程时仍处于相对不成熟的阶段,网站可靠性工程是一个经常被误解的专业。首先,网站可靠性工程涉及创新、教育及赋能。它推动开发团队之间的一致性并为共同合作提供支持以确定最佳实践,使团队能够跨专业进行规模化的自动化处理,以符合组织的业务、安全、质量及性能目标。开发流程的自动化、服务水平目标(SLO)的配置,或者避免超出错误预算的修复和解决方法的制定,不能完全由一个团队负责。也不能只由一个
2、团队来分析漏洞或者建立自行修复、深入应用和基础设施的可观测能力。如果所有这些工作都由一个团队完成,网站可靠性工程将成为又一个传统运维或安全职能。网站可靠性工程正在演变为更具战略性的角色,侧重于为开发团队配备他们推动当今开发和创新所需的工具、数据及能力。网站可靠性工程还具备有利条件帮助组织应对各种新挑战,例如在云原生交付过程中的新技术、语言、平台及工具的发展,这些领域出现了复杂性大爆发。目前,在云原生计算基金会(CNCF)生态体系中有 1,000 多种解决方案,数量多到任何单独的开发人员或团队都无法管理。因此,各种软件开发群体不断涌现,他们拥有零散的知识、工具及喜好。这样就有可能对可观测能力、自
3、动修复及漏洞管理采用某种标准方式,而这在整个开发生命周期中推进可靠性是不可或缺的。因此,为网站可靠性工程定义一条“金光大道”至关重要开发团队可以采取的一组关键步骤驾驭这些复杂性、实现他们的目标,无论他们使用什么样的工具。涵盖开发安全运维生命周期的自助服务式可观测能力的可用性以及监测即代码方法至关重要,它们使得开发团队只需几次点击即可在其应用内建立反馈回路。这样,网站可靠性工程将率先由基础自动化阶段进入到客户体验和业务成效的智能调度阶段。通过自动修复云应用、迅速根据业务需要扩充,同时自动做到既可靠又安全,这将赋能开发团队以前所未有的速度推动转型。本报告剖析了当前网站可靠性工程成熟度,识别出组织在
4、错综复杂的云原生开发中正在应对的关键发展趋势和挑战。这份报告展示了来自世界各地组织的 450 个网站可靠性工程的汇总数据,获得了来自这些推动可靠性最佳实践的第一手经验。我希望您能从这些内容中找到有价值的见解,帮助您定义自己的金光大道,让网站可靠性工程更上一层楼。BerndGreifeneder Dynatrace 创始人兼首席技术官前言网站可靠性工程现状 2022 版3Contents引言执行概要.4第 1 章网站可靠性工程的发展.5第 2 章服务水平目标的角色.16第 3 章网站可靠性工程成功的关键.32结束语.44方法论.45网站可靠性工程现状 2022 版4网站可靠性工程日渐成熟,但成熟
5、的速度还不够快 随着组织对网站可靠性工程的战略价值理解加深,网站可靠性工程师(SREs)越来越受到欢迎。但这些人供不应求,因此找到支持、促进其工作的方式至关重要。网站可靠性工程实践日益成熟,由于实践者越来越多地参与属于生命周期初期的架构设计、软件开发及测试过程,这些实践正缓慢地“前移”。这些实践还促进了开发安全运维实践的普及,从而确保安全在开发生命周期的各个阶段成为重中之重,但这些趋势需要提速。服务水平目标对于网站可靠性工程不可或缺,但难点在于充分发挥其全部潜能 尽管发展的重点放在衡量成功的服务水平目标(SLO)上,但几乎所有的网站可靠性工程师都表示,定义和制定这些服务水平目标是一个严峻挑战。
6、但其中的大部分问题属于战术问题,有了正确的方法就很容易克服。评估服务水平目标仍是一个混乱的过程,需要在整个组织内以更统一、更有效的方式去定义和实施,这是因为许多组织对于服务水平目标的归属仍不明确,将太多的难题都甩给了网站可靠性工程师。为获得成功必须加倍努力减少网站可靠性工程实践的繁重工作 在网站可靠性工程实践中,自动化的应用越来越普遍,但效果有好也有坏。组织必须找到差异并运用战略和解决方案,以提高其网站可靠性工程师的生产率。人工智能运维和一体化可观测能力解决方案对于将网站可靠性工程实践扩大到整个组织日益重要,但不能只是将它们作为现有工具链之上的一层。执行摘要本报告基于对 450 个网站可靠性工
7、程的全球调查,涵盖各种类型的行业,为网站可靠性工程(SRE)这门学科如何发展提供了绝无仅有的视角。本报告揭示了在哪些领域存在着需要克服的挑战,在数字化服务的可靠性、安全性及韧性成为商业成功的首要因素的世界里网站可靠性工程的未来面貌。我们将深入探讨的一些主要调查结果包括:网站可靠性工程现状 2022 版5网站可靠性工程处于接受曲线的早期阶段网站可靠性工程势在必行,但组织之间存在着差距。组织需要将他们的方法转变为网站可靠性工程,因为只有五分之一(20%)的组织声称拥有了成熟的实践。此外,88%的网站可靠性工程师表示,与三年前相比,现在更多的组织认可了他们对于商业成功的战略重要性。第1章网站可靠性工
8、程的发展网站可靠性工程现状 2022 版6第 1 章:网站可靠性工程的发展目前您的组织处于网站可靠性工程(SRE)历程的哪一个阶段?6%32%42%20%不成熟 我们尚未正式实施网站可靠性工程,但尽量遵循网站可靠性工程原则初级阶段我们已在最近两年实施了网站可靠性工程实践,所以尚处于初级阶段成熟中我们已经实施网站可靠性工程实践两年以上,正在不断地推进我们的方法高级阶段 我们已经实施网站可靠性工程实践五年以上,正在采用高级的网站可靠性工程原则网站可靠性工程现状 2022 版7 7第 1 章:网站可靠性工程的发展主题 1缩短平均修复时间一直高居网站可靠性工程任务单榜首网站可靠性工程师始终致力于改进生
9、产系统的可靠性,其中缩短平均修复时间(MTTR)是他们的首要任务。然而,大多数(60%)网站可靠性工程师发现,自己的大部分时间被构建和维护自动化代码消耗掉。尽管提高自动化程度是关键目标,但如果实现这一过程既艰难又费时,由自动化所带来的效率就会丧失殆尽。其中大多数问题源于网站可靠性工程团队构建自动化开发运维工作流的方式。通常团队会按具体情况处理,因为他们的工具不是自动化过程自带的,不具备一切皆代码的能力。因此,他们被迫在自己工具的最顶端构建一个自动化层。经过一段时间后,这就形成了一堆复杂的Web代码,愈发难以扩大到整个开发运维流程。毫无疑问,网站可靠性工程师发现,如果他们不找到一种更高效的长远方
10、法,未来他们会消耗越来越多的时间。这凸显出需要网站可靠性工程师与开发运维团队、开发人员及架构师共同合作,以确保软件不仅要满足业务需求,还要先天具有韧性、可做到自动化。这使团队能够轻松地将新的自动化功能与现有的工具和工作流进行整合,减少网站可靠性工程师的手工操作、改进工程实践。网站可靠性工程最佳实践:远离手工、临时的脚本,采用基于平台的解决方案,拥有最新的自动化技术和一切皆代码能力:支持从配置、测试到可观测能力、修复的整个生命周期。的网站可靠性工程师表示,与三年前相比,现在更多的组织理解了他们对于商业成功的战略重要性。88%网站可靠性工程现状 2022 版8第 1 章:网站可靠性工程的发展以下哪
11、项工作让您组织的网站可靠性工程师平均每周付出的时间最多?(所有的回答)缩短平均修复时间构建、管理自动化代码确保快速发现并消除安全漏洞设计实验并运行测试以减少生产环境发生故障的风险影响架构设计决策以确保可靠性和可伸缩性确保系统在出现异常时可靠运行设计实验并运行测试以便根据用户负载扩容插装应用使其具备可观测性67%60%58%52%51%48%48%43%网站可靠性工程现状 2022 版9第 1 章:网站可靠性工程的发展主题 2转变为由网站可靠性工程驱动的工程超过半数(51%)的网站可靠性工程师表示,他们花费大量的时间去影响架构设计决策以提高可靠性。这意味着在向着网站可靠性工程驱动的工程迈进,为组
12、织提高可靠性、韧性及安全性的工作提供支持。但还有很长的路要走。大多数成熟的网站可靠性工程实践都有身经百战的开发人员,并且有许多经验教训。他们懂得用什么来构建系统,可以从单个用户扩容到一千,或者从一百万扩容到一千万。让这些开发人员参加新系统的设计过程,从一开始就能为架构师在设计中纳入可靠性提供意见。DevOpsSRE10网站可靠性工程现状 2022 版网站可靠性工程的观点:“网站可靠性工程是一种文化转型,最终是要让软件运行得更好。到目前为止,我们发现的情况有时出人意料,比如需要便于存取的简单文档。文档似乎与“网站可靠性工程”无关,但当你以知识为中心建立实践时,如果不将这些知识保存到某个地方,你就
13、会遇到各种麻烦。”StephenTownshend,网站可靠性工程网站可靠性工程现状 2022 版1111第 1 章:网站可靠性工程的发展主题 3安全是可靠性的核心支柱网站可靠性工程在将开发安全运维扩大到整个组织方面也取得了进展,可以确保根据发现的漏洞迅速恢复系统。超过三分之二(68%)的网站可靠性工程师表示,随着组织不断采用第三方库用于云原生应用开发,他们希望自己今后在安全方面的角色变得更核心化。正如我们所看到的,鉴于 2021 年 12 月 Log4j 漏洞的发现,第三方代码库有可能包含重大的安全风险,而网站可靠性工程团队在确保迅速识别并消除此类缺陷、为组织提供保护上发挥着关键作用。的网站
14、可靠性工程师表示,希望自己今后在安全方面的角色变得更核心化。68%网站可靠性工程最佳实践不要事后才想起可靠性和韧性。这足以证明应将网站可靠性工程原则纳入设计过程(即网站可靠性工程驱动的工程)。12网站可靠性工程现状 2022 版第 1 章:网站可靠性工程的发展主题 4网站可靠性工程师必须能够自由地实验超过一半(52%)的网站可靠性工程师花费大量的时间设计实验、进行测试,以期降低生产环境发生故障的风险,但只有十分之一的网站可靠性工程师强调这是他们的首要任务。鉴于实验对于网站可靠性工程师的重要性,团队仍需要想方设法确保他们能够腾出更多的时间去完成这些任务。为使网站可靠性工程师更加成熟、创造更大的战
15、略商业价值,他们必须精简那些涉及密集手工操作的任务。13网站可靠性工程现状 2022 版第 1 章:网站可靠性工程的发展23%缩短平均修复时间11%确保快速发现并消除安全漏洞10%设计实验并运行测试以便根据用户负载扩容10%确保系统在出现异常时可靠运行9%插装应用使其具备可观测性12%影响架构设计决策以确保可靠性和可伸缩性12%构建、管理自动化代码11%设计实验并运行测试以减少生产环境发生故障的风险对网站可靠性工程师的期望和需求与日俱增,这使他们的时间日益捉襟见肘以下哪项工作让您组织的网站可靠性工程师平均每周付出的时间最多?网站可靠性工程现状 2022 版1414第 1 章:网站可靠性工程的发
16、展主题 5需要更多地准许网站可靠性工程师优先进行战略性工作尽管这一条在网站可靠性工程师任务优先级列表中排名相对较低,但 51%的网站可靠性工程师表示,组织鼓励他们去做实验,而且在四分之一(26%)的组织中即使项目失败也被视为正常。这再次证明,其他的压力有可能会分散网站可靠性工程师的精力,使得他们在实验上花费的时间无法达到自己的预期。因此,组织必须寻求新的战略和解决方案,以减少由网站可靠性工程团队执行战略价值较低的任务的需求。组织负责人还需要培养一种文化,不仅能接受失败,而且理解“快速失败、经常失败”能提供最大的竞争优势。为实现这一点,他们需要将网站可靠性工程从把 IT 看作是成本中心的传统目标
17、中解脱出来。鼓励网站可靠性工程师进行实验,理解许多项目将不会带来积极的结果IT 项目失败被视为“正常”,因为我们遵循 快速失败、经常失败 的敏捷原则制定了失败预算来跟踪并控制失败对于项目失败的接受度非常低51%26%14%9%在您的 IT 组织中如何对待网站可靠性工程师的项目失败?网站可靠性工程现状 2022 版15第 1 章:网站可靠性工程的发展主题 6可靠性工程受到表彰和奖励网站可靠性工程师必须能够自由挑战公认的准则,为以创新为导向的设计和工程实践制定新的基准。许多组织在这方面取得了长足进步,有针对网站可靠性工程团队成功奖励的办法。近三分之一(31%)的组织通过黑客马拉松来发明改进可靠性的
18、新途径,为获胜的网站可靠性工程团队提供奖金。在鼓励提升网站可靠性工程的商业战略价值的实验文化时,这些方法将成为关键。您的组织对可靠性工程有何表彰和奖励?76%的组织对可靠性导致关键绩效指标大幅提升的情况有具体的奖金/奖励44%的组织对那些在处理紧急事务以外的业务方面有积极影响的工程师给予特别表彰31%的组织通过黑客马拉松来提高可靠性并给予奖励网站可靠性工程现状 2022 版16服务水平目标已成为网站可靠性工程师的指明灯组织意识到在对服务水平的基本测量之外还要基于对业务有意义的指标制定目标的重要价值。除了要将主要精力放在服务水平目标上,超过半数(58%)的网站可靠性工程师采用开发运维研究与评估(
19、DORA)指标,该指标已成为在软件开发和交付过程中识别所需改进之处的行业标准。第2章服务水平目标的角色网站可靠性工程现状 2022 版17第 2 章:服务水平目标的角色网站可靠性工程师以指标为导向随着网站可靠性工程日益成熟,团队需要专注于识别他们测量成功的方法上的欠缺之处;尤其是在优化关键用户历程之时。这将使那些能够提供真实用户体验详细深入分析的可观测能力平台愈发重要,由此网站可靠性工程师不仅能看到后台性能监测数据,还能了解哪些因素影响了用户行为,从而推动业务成功。同样地,这些平台可以帮助他们准确地识别、了解是哪些应用在消耗错误预算、消耗的速率是多少,并量化这些问题可能对服务造成的整体影响。恢
20、复服务时间组织从生产环境的故障中恢复所需的时长4 项关键指标网站可靠性工程是由指标驱动的,它的成功取决于可靠的指标。按照 DORA 的要求,这些指标包括(但不限于):部署频次组织向生产环境成功发布的频次更改前置时间提交进入生产环境所需的时长更改故障率导致生产环境发生故障的部署的百分比网站可靠性工程现状 2022 版18第 2 章:服务水平目标的角色我们制定了服务水平目标(SLO)我们制定了目标与关键成果(OKR)、关键绩效指标(KPI)我们采用来自服务提供商的服务水平协议(SLA)我们采用开发运维研究与评估(DORA)指标(例如恢复时间、部署频次)我们使用能够获得的简单监测工具您的组织如何评估
21、应用和基础设施的服务水平?81%75%65%58%38%19网站可靠性工程现状 2022 版网站可靠性工程的观点:“没有服务水平目标就没有网站可靠性工程,就是这么简单。服务水平目标是测量可靠性、系统及客户的标尺。掌握它们就找到了通往网站可靠性工程成熟度的最快捷径。如果服务水平目标成为衡量成功与否的方法,团队之间就会更平等,大家都在为实现共同目标而努力的认同感也会更强。”MichaelCabrera,网站可靠性工程负责人网站可靠性工程现状 2022 版2020第 2 章:服务水平目标的角色数据过多阻碍了制定服务水平目标尽管使用服务水平目标的情况不断增加,99%的网站可靠性工程师表示定义、制定服务
22、水平目标存在挑战。但这些挑战主要是战术性的,因此通过采用正确的解决方案相对容易解决。对于他们更具战略性的挑战,网站可靠性工程师应在与业界最佳实践保持同步上投入时间,通过 Google 网站可靠性工程手册之类的来源。持续检查竞争对手和同行哪些作为其基准,有助于加深对服务水平目标的了解。在定义、制定服务水平目标时您的团队遇到的最大挑战是什么?不知道如何/从何开始16%!监测工具无法便捷地定义、跟踪服务水平目标的性能历史36%!不知道如何才能制定出良好的服务水平目标22%!不知道如何评估服务水平目标18%!指标过多,难以发现与特定服务最相关的指标54%!不知道跟踪哪些指标18%!数据源过多,难以整合
23、各不相同的数据64%!的网站可靠性工程师表示,他们在定义、创建服务水平目标时遇到挑战。99%孤岛式团队、复杂性与日俱增使得服务水平目标管理困难重重在定义、制定服务水平目标时,网站可靠性工程师要应对数据过多的情况。其原因通常在于团队用来管理应用和基础设施的监测解决方案和指标过多,而它们为网站可靠性工程师制定服务水平目标所提供的帮助有限。这不仅仅是制定服务水平目标的问题一旦定义了服务水平目标,网站可靠性工程师在对其进行管理、评估时也会遇到各种严峻挑战。挫败感的主要来源是使用多种工具,另外还有团队孤岛、盲区比比皆是、需要将性能与用户体验数据进行关联。采用人工方式对服务水平目标进行评估也会导致浪费宝贵
24、时间,妨碍了团队将更多的精力放在创新上。如果他们不能妥善解决这些问题,团队将会继续在孤岛状态下工作,而等到错误预算耗尽、服务水平目标不达标之时,他们就开始“指责游戏”,这会浪费时间。此外,不仅要制定有意义、可行的服务水平目标,还要实施有效的过程对不达标情况进行监测、报警及应对,这更是让他们雪上加霜。其结果是,网站可靠性工程的核心原则可能最终被放弃,随着解决时间的增加,在用户受到影响之前实施修复计划变得越来越困难。网站可靠性工程现状 2022 版2121第 2 章:服务水平目标的角色在管理、评估服务水平目标时您的团队遇到的最大挑战是什么?孤岛式的团队和多种工具难以统一成单一版本的服务水平“真实信
25、息”68%由于与日俱增的复杂性导致盲区且无法采集监测数据,准确测量服务水平目标是否达标过于困难和费时59%由于无法将性能指标与用户体验进行关联,准确测量服务水平目标是否达标过于困难和费时52%人工评估服务水平目标要占用太多的时间41%在服务水平目标不达标发生之前,没有简便的方法对这种情况进行预测22%服务水平目标没有业务所有者,因此没有人会为维护它们负责18%18%没有能方便地查看、跟踪所有的服务水平目标和错误的单一仪表板网站可靠性工程现状 2022 版2222第 2 章:服务水平目标的角色网站可靠性工程需要围绕单一版本的“真实信息”统一团队为克服他们在定义、制定、管理及评估服务水平目标时所面
26、临的挑战,组织应将一切有关工作都整合到一个能满足所有关键相关方需求的单一可观测能力平台上,而不是使用多种监测工具。如果该平台还具备原生服务水平目标能力,组织就可以避免要向他们业已臃肿不堪的工具链增加其他工具的可怕情景。这让网站可靠性工程师能够创建单一真实信息来源,因此他们可以轻松地对错误预算进行监测、跟踪,同时以更高的精度、更少的手工操作来管理其服务水平目标。确保服务水平目标仪表板、错误预算、修复计划以及报警机制事先达成一致,并进行测试和实施,这一点至关重要,可以最大限度地降低在出现不达标情况时合作破裂的风险。网站可靠性工程最佳实践实施持续发布验证,根据关键服务水平目标自动、持续地对代码质量进
27、行评估,随着它通过交付流程,以防出现违规情况。这样可以阻止不良代码继续前进,允许开发人员在错误进入生产环境之前将其修复,减少对人工方式的干预和修复工作的需要。选择正确的服务水平目标入门在实施服务水平目标时,网站可靠性工程师面临的最大障碍是弄清从何开始,然后是识别他们应关注的指标。在试图寻找最佳方法时很容易迷失方向,重要的是要切记不存在大小通吃的方法论。最常见的陷阱是被引诱选择阻力最小的途径,通过完全基于已经采集的服务水平指标(SLI)来制定服务水平目标。这种方法最简单,但也极其低效。更好的途径是通过询问哪些因素对业务最重要,由此识别服务水平目标需要满足的业务目标和服务水平协议(SLA)。组织可
28、以用来入门的四个常用服务水平目标包括:可用性服务是否可供用户使用 用户满意度(Apdex)满意程度,基于服务性能 错误率失败请求与全部请求之比 崩溃率(移动)所支持的各种设备上的崩溃率对于那些想让自己建立的实践尽快成熟的组织,可以考虑另外一些常见的服务水平目标。但一定要切记,所有这些服务水平目标不一定都与所有的组织有关,因此网站可靠性工程师不仅要按照具体情况实施,还要对它们如何支持业务心中有数。对服务水平目标来说,切记少就是多。网站可靠性工程现状 2022 版2323网站可靠性工程现状 2022 版第 2 章:服务水平目标的角色网站可靠性工程现状 2022 版24第 2 章:服务水平目标的角色
29、可供考虑的常见服务水平目标推荐的移动应用服务水平目标我们从考察一个移动应用服务水平目标的例子开始。网站可靠性工程师不仅要将业务与性能服务水平目标进行合并以确保它们保持平衡,还要测量与应用获得成功及其业务成效有着重要关系的因素。业务服务水平目标(以终端用户为中心)性能服务水平目标可用性 服务是否可供用户使用?利用率 提供服务占用资源的平均时间响应时间 服务请求所需的时长流量 测量在您的系统上承接了多少需求成功率 成功请求数与总请求数之比饱和度 最紧张的资源转化率 达成了我的业务目标的用户占比是多少?可用性 获得有效响应的请求的占比参与度 用户的参与程度如何?应用接受度 日活用户数与总用户数之比应
30、用评分 基于 Android 或 iOS 商店的评分 崩溃 官方所支持设备上的崩溃率用户满意度(ApDex)对我的应用的性能按 0-1 评分,满意程度是多少响应时间 登录请求响应时间不到 100ms 的占比成功率 成功请求与 HTTP 500 错误之比不要“猜测”您的服务水平目标网站可靠性工程师采用一系列的方法来识别其服务水平目标的指标,借助了未明确公认的“标准”或已建立的最佳实践。半数的网站可靠性工程师注意到,他们的组织用于如何确定其服务水平目标的指标的方法论寥寥无几。最常用的方法是根据终端用户体验需求来估计正确的指标,这也是最科学的。对大多数组织来说,确定会对业务产生有形影响的服务水平目标
31、的指标极其困难。阈值设置得过高,目标会难以达成;但设置得过低,它们又会无足轻重,因为不会给团队带来任何以期改进服务水平的激励。网站可靠性工程团队采用更准确的方法来定义其服务水平目标的指标至关重要。例如,他们可以求助于先进的监测解决方案,指导他们根据历史数据和行业标准来设置正确的服务水平目标阈值。然而,只有不到四分之一(24%)的组织采用了这种方法。显然,沿着这一方向去确定服务水平目标会取得很好的效果。为确保其组织始终处于行业领先地位,对网站可靠性工程师来说,考虑最佳实践、竞争对手以及同行的战略也非常重要。2525网站可靠性工程现状 2022 版第 2 章:服务水平目标的角色26网站可靠性工程现
32、状 2022 版第 2 章:服务水平目标的角色您如何识别您的每一个服务水平目标的指标?我们根据终端用户体验来估计哪些因素感觉似乎是正确的指标我们的解决方案指导我们根据历史数据和行业标准更明智地设置服务水平目标阈值无论我们的系统目前在做什么,我们都以它们为依据它们由 IT 部门的高级经理决定我们根据直觉来估计哪些因素感觉似乎是应力求达到的正确指标我们不知道这些指标从何而来,我们只需要遵照它们26%24%20%18%11%1%27网站可靠性工程现状 2022 版网站可靠性工程的观点:“服务水平目标是我们的信号灯、温度计。它们能告诉我们什么时间可以在我们的系统上进行更改/部署,什么时间我们需要去修复
33、出问题的部分或者改进不够好的部分。关键在于要为服务水平目标选择正确的服务水平指标。就像自动化,如果你用质量不高的数据作为服务水平目标的输入,就别想获得高质量的结果。”DanneMeiraCastro,网站可靠性工程网站可靠性工程现状 2022 版28第 2 章:服务水平目标的角色服务水平目标采用多个指标网站可靠性工程师针对不断增加的指标来管理服务水平目标,不仅确保了符合服务水平协议,也使得服务水平目标的运用日渐成熟。这是他们工作的核心,也是组织成功的保证。但还存在可以改进的空间,因为在数据中没有出现明显的异常值,这表明所采用的服务水平目标对于任何确定的目的都达到了高水平。在您组织内部如何使用服
34、务水平目标?服务水平目标的战略重要性与日俱增,它们的作用不只是确保在业务的其他许多方面都符合服务水平目标。我们不断发展我们的服务水平目标,制定新的基准,挑战客户体验的极限我们专门通过评估发布所造成影响的方式来检查服务水平目标由我们的服务提供商对他们给我们业务造成的影响负责我们通过我们的服务水平目标来评估我们的服务水平协议是否充分满足了我们业务的需求为 IT 团队提供其工作对业务影响的深入分析向业务部门报告 IT 性能为我们的开发运维/开发团队划分任务优先级为部署/架构决策提供信息59%53%49%45%42%39%39%36%网站可靠性工程现状 2022 版2929第 2 章:服务水平目标的角
35、色网站可靠性工程师是团队合作的领导者网站可靠性工程师自然会表示,他们对服务水平目标负有首要责任,但多个其他团队会参与其中,特别是安全和商业经营团队。这凸显出随着组织认可需要确保其系统先天具备可靠性和安全性,网站可靠性工程开始融合并转向开发安全运维。鼓励业务、开发、安全及运维团队之间密切协作的组织向这些方法论转变的过程将会更加成功。这些团队之间的协作越密切,他们制定的服务水平目标就越有意义,对他们改进过程和业务成效的评估就越有效。只有通过由顶层推动的文化变革,并且高级 IT 负责人为他人树立了榜样,才能实现这种程度的协作。网站可靠性工程最佳实践识别并划分对业务影响最大的目标的优先级,召集来自业务
36、、开发及运维团队的相关方共同制定有助于满足这些目标的服务水平目标网站可靠性工程现状 2022 版30第 2 章:服务水平目标的角色在您整个组织内哪个/哪些团队负责推动采用服务水平目标并管理服务水平目标?88%网站可靠性工程60%安全49%业务47%基础设施45%开发运维41%运营36%平台33%开发32%应用网站可靠性工程现状 2022 版3131网站可靠性工程现状 2022 版第 2 章:服务水平目标的角色需要明确确定服务水平目标拥有者一旦制定了服务水平目标,将主要由开发团队负责维护它们。虽然这对于非生产环境应用很重要,但运维或网站可靠性工程团队更适合负责其他环境的服务水平目标。这意味着在大
37、多数组织内部存在着关于应由谁来负责服务水平目标的不确定性,这给网站可靠性工程师带来了挑战。如果其他团队没有意识到在确保符合服务水平目标中他们自己角色的重要性,保持这些服务水平目标并在整个组织中推动网站可靠性工程成熟度将会非常困难。只有 8%的网站可靠性工程师表示,为确保符合服务水平目标,制定它们的团队需要直接与开发运维或开发团队合作。将职责转移到其他团队意味着倒退,而不是坚持真正的开发运维最佳实践。服务水平目标的拥有者要切记不存在大小通吃的方法,这一点至关重要。开发、运维及开发运维团队都有自己的工作职责,但需要由网站可靠性工程师来带领他们并确保所有的团队维护为其环境制定的服务水平目标。开发团队
38、负责监测、管理为其应用制定的服务水平目标单独由开发运维或网站可靠性工程团队负责监测、管理服务水平目标由制定服务水平目标的团队独自负责管理服务水平目标制定服务水平目标的团队直接与开发运维或开发团队合作以确保其符合您组织内部的团队如何开展工作以确保符合服务水平目标?48%27%17%8%网站可靠性工程现状 2022 版32网站可靠性工程的障碍是什么尽管网站可靠性工程方法论已被广泛采用,但大多数(97%)组织在实施专用的实践时会遇到障碍。这是关于获得必要技能的挑战,要么引进新员工,要么提高现有团队的技能。这意味着需要一种新方法,通过使开发运维和开发人员团队成为网站可靠性工程师来减少此类障碍,同时无需
39、其他专业技能。第3章网站可靠性工程成功的关键网站可靠性工程现状 2022 版33第 3 章:网站可靠性工程成功的关键您认为在您的组织内实施网站可靠性工程实践时最严峻的挑战是什么?59%51%43%20%19%认为培训/再培训现有 IT 运维/系统管理人员成为网站可靠性工程师非常困难认为网站可靠性工程师成本高且难以招聘到认为难以在市场上找到网站可靠性工程技能认为自己的 IT 组织不具备采用当今 IT 准则的文化认为改变运维方式不是 IT 管理层的优先工作的网站可靠性工程师表示,实施网站可靠性工程实践在其组织内存在挑战。97%网站可靠性工程现状 2022 版3434第 3 章:网站可靠性工程成功的
40、关键关键点 1开放、可扩展的平台是打造推动网站可靠性工程成功的统一工具链的关键网站可靠性工程师在很大程度上依赖于公司自研、自己开发以及开源的解决方案来完成其工作。这使他们能够打造专门针对其组织特定需求的工具链。还需要少量的前期投资用于新工具,使网站可靠性工程师能够在自己的需求发生改变、推进解决方案时接入或退出生产环境。但这种自己开发的方式难以规模化,经过较长时间后会带来问题。这些工具链需要投入大量的时间、人工及专业技能来维持,这给网站可靠性工程师带来了额外的繁重工作,分散了对核心职责的注意力。现成的商业解决方案也经常被证实收效平平,限制了网站可靠性工程师从开源解决方案中受益的能力。因此,组织常
41、常发现自己处于一种困境,因为他们需要将网站可靠性工程师的注意力转移到维持用于推动网站可靠性工程实践的工具链上。雇佣更多的网站可靠性工程师通常不是选项,因为他们很稀缺,因此组织必须找到其他途径。最有效的方法是减轻网站可靠性工程维护工具链的繁重工作,这样团队就能将主要精力放在更接近其核心职责、能创造更多商业价值的工作上。组织应寻求这样一种基于平台的解决方案,它支持开放生态系统,能够无缝集成网站可靠性工程师、架构师及开发人员喜欢使用的各种工具,并在单一地点对数据进行调度。具有自助服务、一切皆代码方式的平台将大幅减少网站可靠性工程团队的繁重工作,因此可以迅速将其推广到整个组织。自己开发的解决方案开源解
42、决方案现成的商业解决方案(COTS)66%20%14%在网站可靠性工程工具集中最流行的解决方案网站可靠性工程现状 2022 版3535第 3 章:网站可靠性工程成功的关键关键点 2自动化是减少网站可靠性工程繁重工作的关键不难想象,组织会想方设法通过自动化来减轻开发人员和网站可靠性工程师的负担。团队寻求将安全漏洞、应用故障的处理自动化,着力加快推动应用的自动修复。可观测能力对实现这一目标至关重要,它能精准提供推动自动化所需的数据。将这些数据与运行时漏洞管理进行整合也非常重要,不仅能让团队随时了解生产环境中运行的一切,还能将人工智能用于优先处理对业务威胁最大的漏洞。如果他们能够实现这些目标,就无需
43、为处置紧急事件花费时间,组织可以为开发人员和网站可靠性工程师减少大量的繁重工作,这样他们就可以专注于能为企业创造更大价值的工作。网站可靠性工程最佳实践寻求具备端到端可观测能力、基于单一数据模型的解决方案,以确保自动化能以精准的方式推动。的网站可靠性工程师表示,他们能否在整个公司推广网站可靠性工程实践,在很大程度上取决于所能获得的自动化和人工智能能力。85%网站可靠性工程现状 2022 版36第 3 章:网站可靠性工程成功的关键为减少开发人员和网站可靠性工程师的繁重工作,您的组织做了什么?71%的组织在生命周期的各个阶段增加了自动化的运用58%的组织在持续集成/持续交付流程中增加了自动化的运用5
44、8%的组织对工具栈进行了整合46%的组织对工具栈进行了现代化升级网站可靠性工程现状 2022 版37第 3 章:网站可靠性工程成功的关键61%57%43%48%49%55%56%在以下网站可靠性工程的工作中,目前您的团队将其中的哪项实现了自动化来为他们的工作提供支持?解决安全漏洞通过自动修复解决应用故障加快代码交付速度预测服务水平目标不达标提升代码质量评估安全漏洞通过自动化事件管理来评估性能和/或可用性警报网站可靠性工程现状 2022 版3838第 3 章:网站可靠性工程成功的关键关键点 3服务水平目标的未来是自动化在网站可靠性工程师通过服务水平目标来管理、评估服务水平的道路上,自动化还将在未
45、来起到日益核心的作用。这一战略将会减少开发人员、开发运维及网站可靠性工程团队的手工操作,让他们能够腾出手来将主要精力放在实验和持续创新上。我们还将看到,越来越多采用业务水平目标的组织会将其成功与更多有意义的指标进行捆绑,例如客户满意度,因为每一秒的停机时间都会影响收入、损害品牌形象。这些方法将进一步提高网站可靠性工程成熟度。您希望到 2025 年您测量服务水平的方法发展到怎样的程度?我们将继续采用我们现有的方法,其中包括以自动方式评估的服务水平目标44%除了以自动方式评估的服务水平目标之外,我们还将引入业务水平目标(BLO),以确保团队之间更加步调一致22%我们将从以人工方式评估我们的服务水平
46、目标转变为自动方式20%我们将继续采用我们现有的方法,其中包括以人工方式评估服务水平目标13%我们将继续采用我们现有的方法,其中不包括使用服务水平目标1%网站可靠性工程现状 2022 版3939第 3 章:网站可靠性工程成功的关键关键点 4人工智能运维是网站可靠性工程成熟度的核心除了他们关注点的在自动化上,网站可靠性工程师注意到人工智能运维对其未来的角色越来越关键,凸显出一些重要的优势。网站可靠性工程师正寻求人工智能运维能有助于进一步减少繁重工作,使他们做出更多的数据驱动决策,围绕他们如何优先他们的时间以便为企业推动最佳产出。着表明网站可靠性工程成熟度的增加,自动化和人工智能帮助它成为高度集中
47、,满足业务及其客户的需求,通过减少繁重工作、让团队能将主要精力放在更快地决策上。网站可靠性工程最佳实践:使人工智能运维成为您的网站可靠性工程战略的核心支柱但不要将它作为后补对待。点式解决方案只具备有限的价值;人工智能运维必须融入解决方案和平台,开发人员和工程师所依赖。的组织在整个生命周期的各个阶段越来越多地采用人工智能运维,以减少开发人员和网站可靠性工程师的繁重工作。68%40网站可靠性工程现状 2022 版网站可靠性工程的观点:“在处理应用受影响的事件时,人工智能运维平台能让网站可靠性工程师由被动变主动。因此,网站可靠性工程师不仅可以更快速地应对性能下降和宕机情况,而且轻松省力。”Andrz
48、ejGebski,网站可靠性工程41网站可靠性工程现状 2022 版第 3 章:网站可靠性工程成功的关键人工智能运维会对以下网站可靠性工程实践造成多大程度的影响?使团队能够让更多的流程自动化,这些流程对确保服务水平持续达标至关重要64%使团队能够优先处理对服务水平和用户满意度影响最大的问题63%使团队能够优先处理安全漏洞以最大限度缩短服务停机时间62%运维团队完全不必再“经营生意”,因此可以重新安排这些资产,专注于改进开发和工程实践62%使团队能够在服务水平目标不达标发生之前做出预测61%释放出更多的开发运维时间专注于网站可靠性工程工作,例如混沌工程59%42网站可靠性工程现状 2022 版4
49、2第 3 章:网站可靠性工程成功的关键关键点 5网站可靠性工程师通过一体化解决方案将团队凝聚在一起组织也在考虑他们应该如何更新他们的工具栈以便打造更简练的解决方案,让网站可靠性工程和开发运维团队能够更有效地工作。这凸显出向一体化解决方案发展的趋势,藉此团队不再需要在不同的仪表板之间切换。这些解决方案提供了单一的真实信息来源,因此团队可以实现各方统一,支持他们为网站可靠性工程所倡导的共同目标通力合作。的网站可靠性工程师希望,到 2025 年,从开发到运维、安全都能在同一个可观测能力平台上实现标准化。85%43网站可靠性工程现状 2022 版网站可靠性工程的观点:“可观测能力是所有网站可靠性工程的
50、根基。如果没有它,您就无从衡量成功与否或者识别需要改进的领域。”MarioBiemans,网站可靠性工程 A large payment service provider网站可靠性工程现状 2022 版44网站可靠性工程是当今数字化业务的核心支柱。随着这个世界越来越数字化,每一秒的停机时间都会造成收入损失、股价下跌以及持久的声誉损失,因此可靠性成为关键的成功因素。尽管网站可靠性工程已经获得普遍认同,但我们还处于这一旅程的开始,许多组织的实践仍然相对不成熟。在技艺娴熟的工程师远远供不应求之时,组织应尽其所能加强网站可靠性工程的工作力度。他们需要将网站可靠性工程进一步前移,更深入地植根于工程和架构
51、设计实践中。尽管如此,我们已经注意到,并非其角色核心任务的繁重人工工作和不必要的工作极大地分散了网站可靠性工程师的精力,这使得网站可靠性工程倒退到成熟度的初期。自动化是克服这一障碍的重要因素,但如果没有正确的战略和方法,它所带来的问题可能比解决的问题还要多。承认并非所有的自动化都是一样的功效至关重要自动化也有好有坏。如果网站可靠性工程师忙于编写自动化脚本并将其复制到多个过程中,则只不过是将手工操作转移到别处,并不会减轻负担。要想做到卓有成效,网站可靠性工程师需要一个平台,让他们能够通过先天具备的自助服务和一切皆代码功能来推动可靠性和自动化。通过这种方式,网站可靠性工程师能让整个组织的开发人员轻
52、松地为他们所创建的服务打造关键能力,从可观测能力、测试一直到制定有意义的服务水平目标、自动修复应用。因此,团队可以从繁重的工作中解脱出来,将重心放在网站可靠性工程师角色的核心事务上,同时通过推动最佳实践为其组织创造更多的价值,最大限度提升可靠性、韧性、安全性、性能,最终提高业务成效。结束语网站可靠性工程现状 2022 版45方法论本报告基于一项对大型企业 450 位网站可靠性工程师的全球调查,其中美国 150 人,欧洲、中东及非洲 150 人,亚太地区 150 人。此次调查由 Dynatrace 委托 Coleman Parkes 完成。您主要在哪个国家?美国33%英国7%爱尔兰3%法国3%瑞
53、典3%挪威2%德国6%荷兰4%丹麦3%芬兰4%澳大利亚7%新加坡3%印度17%马来西亚2%泰国2%新西兰3%您公司主营哪个领域?工业、制造及运输14%金融机构13%医疗与生命科学12%技术、媒体及电信12%消费品与零售10%采矿与基础设施8%专业化服务8%石油与天然气8%接待、旅行及观光8%公共领域(当地政府、国家政府及教育)6%您公司上个财年的全球年收入以美元计算相当于?7.5 亿 10 亿(8.75)20%11 亿 50 亿(30.5)27%51 亿 500 亿(75.5)16%101 亿 150 亿(125.5)18%超过 150 亿(150)19%公司在全球总共有多少员工?1,000
54、至 3,000(2000)12%3,000 至 5,000(4000)10%5,000 至 10,000(7500)23%10,000 至 20,000(15000)19%超过 20,000(25000)36%06.14.22 17454_EBK_CHN_cs关于DynatraceDynatrace 的软件智能可以让云计算化繁为简、加快企业数字化转型。依托各种规模的自动化和智能化可观测能力,Dynatrace 一体化平台可提供有关应用的性能与安全、底层基础设施以及所有用户体验的精准解答,让组织能够在加快创新、高效协作、实现更多价值的同时大幅减少工作量。Dynatrace 因此深受众多全球顶尖企业的信赖,并帮助这些企业实现云运营的现代化和自动化、又快又好地推出软件、提供无与伦比的数字化体验。了解更多信息请访问 2022 Dynatrace