《灵迹(Dynatrace):现代云可观测性如何突破复杂性壁垒(2023)(22页).pdf》由会员分享,可在线阅读,更多相关《灵迹(Dynatrace):现代云可观测性如何突破复杂性壁垒(2023)(22页).pdf(22页珍藏版)》请在三个皮匠报告上搜索。
1、2023 Dynatrace现代云可观测性如何突破复杂性壁垒现代云可观测性如何突破复杂性壁垒|2内容介绍第 5 章Dynatrace 如何提供现代云可观测性第 4 章现代云可观测性平台的基本特性第 3 章现代可观测性如何克服云复杂性第 2 章可观测性对数字化转型的作用第 1 章什么是可观测性?引言IT 复杂性壁垒以及对可观测性的需求现代云可观测性如何突破复杂性壁垒|3引言 IT 复杂性壁垒许多组织正在遭遇 IT 复杂性壁垒,这加剧了对可观测性的迫切需求。各组织采用现代云技术来提高竞争力、效率和创新能力,但也遇到了这些新技术带来的不断增加的复杂性。多云应用程序和基础设施使用分布式容器化架构、开源
2、软件和瞬息万变的动态微服务。在企业层面,这种复杂性通常会成为模糊难解的壁垒。作为应对,IT 运营、开发和安全 团队开始认识到,他们需要对其分布式现代架构具有可观测性,才能进行有效的管理和保护。在这本电子书中,我们将探讨什么是可观测性及其对管理现代云环境的作用。我们还要研究为什么使用自动化和人工智能(AI)实现的可观测性已成为关键选择,从而克服多云复杂性并自动提供方案,使客户能够更好、更安全地大规模运行软件。现代云可观测性如何突破复杂性壁垒|4第 1 章 什么是可观测性?可观测性是根据系统生成的数据衡量系统当前状态的能力,以及通过数据分析和其他功能预测系统未来行为的能力。传统的可观测性方法侧重于
3、监控少量应用程序和基础设施组件。这些方法依靠被动警报(或仅在警报后对其做出响应)。因此,组织只能在问题发生并对用户体验产生负面影响后才能修复问题。随着应用程序使用云原生技术实现现代化,传统监控方法已无法适应发展趋势。可观测性的三大支柱可观测性包括三大要素:日志、指标和跟踪(见边栏)。这三大要素描述了 IT 环境发生活动的情况以及有关其组件之间关系的信息。但在涵盖多个云和开源技术的基于微服务的分布式环境中,可观测性的三大要素通常并不足够。可观测性还应包括上下文信息和用户数据。上下文信息为了从日志、指标和跟踪生成的大量数据中获取可操作的情报,分析师还需要了解事件或警报 的上下文信息。该事件只是常规
4、条件关联的一部分,还是关键功能被故障代码片段阻止了运行?了解上下文信息能使分析师查明问题根源并过滤掉警报噪音。用户数据分析师还需要了解数据传输如何影响最终用户体验。通过跟踪真实的用户会话,分析师可以实时了解用户体验。日志日志是包含 IT 环境中活动记录的数据文件。数据环境的每个实体 都会生成日志,包括应用程序、服务、容器、开源软件、操作系统和基础设施。指标指标是 IT 节点生成的大量可测量数据点,使团队能够确定应用程序 性能、真实用户活动和云平台统计数据等元素。跟踪跟踪提供各种服务、应用程序和基础架构之间的事务关系及其依赖 关系。现代云可观测性如何突破复杂性壁垒|5现代可观测性策略为了克服云复
5、杂性壁垒并满足客户需求,企业必须重新考虑其可观测性策略。通过筛选大量数据并根据相关性猜测问题根源来被动响应问题,这在云规模层面并不奏效。团队需要一种可观测性的现代方法,使其能够从被动响应转变为主动解决问题,从而促进自动化程度的提高。借助可观测性平台方法,即使用人工智能(AI)和自动化来发现和监控所有微服务,团队可以在用户受到影响之前主动找到方案。通过简化可观测性,团队可以节省大量手动任务时间,从而加速创新并改善客户体验。现代可观测性战略涉及三个关键能力:感知、思考和行动。感知IT 团队要能够自动、实时并在与其交互的其他应用程序、基础架构和服务的环境中收集数据。思考然后,团队需要一种方法来自动分
6、析和映射这些数据及其涉及的数百个组件和数百万个依赖项。行动借助这种上下文数据,团队需要一种方法来自动生成实时方案,以便团队可以自动响应并有更多时间进行创新。现代云可观测性如何突破复杂性壁垒|6现代云可观测性如何突破复杂性壁垒|7第 2 章 可观测性对数字化转型的作用了解可观测性对现代 IT 环境的重要性,这有助于更清楚地理解推动其需求的数字化转型。根据国际数据公司(IDC)的 全球数字化转型支出指南,预计到 2025 年全球数字化转型支出将达到 2.8 万亿美元。这是 2020 年支出金额的两倍。我们来研究一些多云架构组件,这些组件可以推进数字化转型,但也会增加云复杂性。现代云可观测性如何突破
7、复杂性壁垒|8多云架构组件我们来研究一些多云架构组件,这些组件可以推进数字化转型,但也会增加云复杂性。所有这些技术有助于团队变得更敏捷、更具适应力。但这些技术也使团队需要跟踪的元素数量激增。无服务器平台 动态多云使企业能够跨公有云(例如 Amazon Web Services、Google Cloud Platform 和 Microsoft Azure)采用无服务器功能和 Kubernetes 基础架构。微服务架构这些平台促进微服务架构,这是一种应用程序设计方法,可将应用程序分解为小型、独立的服务,从而协同工作,提供灵活的功能。微服务提高开发敏捷性,并使团队能够更有效、更可靠地扩展性能。开源
8、软件操作系统和 JavaScript 库等开源软件为开发人员提供灵活性和访问可配置代码模块的权限,他们可以使用这些模块来加速开发和增加功能。容器这些新环境的关键推动因素是转向容器化应用程序模式。引入容器化架构通常需要进行重大转型,但会在可扩展性、可靠性、敏捷性和性能方面带来新的好处。现代云可观测性如何突破复杂性壁垒|9突破现代复杂性的可观测性 随着微服务环境的动态性越来越高并扩展到数十万台主机,真正的挑战是在整个技术堆栈的上下文中实时了解数据。从业者需要快速了解对用户的影响并防止有害问题扩散。这可能是一项艰巨任务,即使是最熟练和最有经验的操作人员也无法胜任。与此同时,组织变革步伐不断加快,这已
9、成为可观测性需求的关键 推动力。使云原生技术能够为快速发展的组织提供技术和业务优势的灵活性和多样性,同样也带来了运营的复杂性挑战和庞大繁杂的选择。在评估 Aptum 的“全球云影响研究”结果的 弥合云转型差距 报告中,62%的受访者认为复杂性和海量选择是数字化转型规划的障碍。如今关于数字化转型的共识是,在可预见的未来,复杂性将成为企业面临的主要挑战。在转型之前或期间解决复杂性问题的企业将比转型后解决的企业表现更好。从业者需要快速了解对用户的影响并防止有害问题扩散。这可能是一项艰巨的任务,很快就会超出人工操作的能力范围。的受访者认为,在使用 多云技术规划数字化转 型时,复杂性和海量选择是阻碍因素
10、来源:弥合云转型差距62%现代云可观测性如何突破复杂性壁垒|10第 3 章 现代可观测性如何克服云复杂性云复杂性壁垒(也称为云可观测性壁垒)是指伴随分布式云原生架构出现的数据激增。毫无疑问,转向基于微服务的容器化软件开发方法为 DevOps 方案带来了好处,并提高了可靠性和规模。但是,这些多云环境产生的遥测数据范围之广,产生的数据量之大、种类之多、速度之快,都是人类无法独立管理的。数据的 3V 特征数量(Volume)用户通过大量服务生成的数据量远超以往。2021 年,全球 IT 环境生成了 79 泽字节的数据。类型(Variety)遥测数据在云内和云间差异巨大。团队需要一种方法涵盖来自任意位
11、置的所有数据类型,并且能够识别因果关系。速度(Velocity)随着容器以毫秒为单位上下运行,现代系统生成数据的速度越来越快。团队需要一种方法来捕获并自动分析所有这些信息,从而能够发现问题。数据孤岛复杂性壁垒的另一个主要挑战是大多数组织都在孤岛中运营。这些孤岛导致团队不得不在动态多云应用程序中使用不同的工具。全球 CIO 报告 同样指出了这种孤岛效应:“49%的 CIO 表示 IT 和业务团队各自为政。”结果就是,如果出现问题,团队最终会陷入冗长的集中会议与相互指责中,原因就是缺乏集中化事实来源。遇到复杂性壁垒的常见影响是团队疲于应对应用程序 问题,导致负面的客户体验。而且,这也减缓了创新,因
12、为开发团队忙于处理和修复问题,而不是实现新特性和功能。现代云可观测性如何突破复杂性壁垒|11的 CIO 表示 IT 和业务团队各自为政。来源:全球 CIO 报告49%现代云可观测性如何突破复杂性壁垒|12复杂性如何破坏业务效益最终,遭遇复杂性壁垒会阻碍实现业务成果。数字化转型的商业价值是建立支持快速解决方案和敏捷性的基础。如果团队陷入解决复杂性导致的战略问题,业务将很快受到负面影响。如图 1 所示,与许多企业的数字化转型目标相比,云计算复杂性的数量和类型会日益加剧。缺乏克服这种复杂性的能力就不可能实现真正的数字化转型。由于一切都是动态和容器化,这导致复杂性和规模远超以往的数据中心环境数据量、类
13、型和速度的增加已经超出了仅凭仪表板可以管理的范围更频繁的变更让监控、发布、变更管理和安全等方面的旧方法力所不及应用程序比以往任何时候都更加重要,随着各企业都在实现数字化,企业及其客户需要依靠完整的软件堆栈来运作资源始终有限,而增加的复杂性和故障排除任务将占用更多创新时间12345图 1:云复杂性正在成为企业巨大挑战的原因。现代云可观测性如何突破复杂性壁垒|13当企业遭遇复杂性壁垒时,团队通常会在数字化转型的过程中经历不同的阶段。阶段 1:继续使用原有工具团队开始通常会使用他们一直使用的相同监控工具。其优势是对现有实际工作的干扰最小,但现代多云环境很快就会超过原有工具的容量。阶段 2:自己动手许
14、多团队开始采用大量专用工具、开源技术和全新开发,然后将结果拼凑在一起。这些技术更适应现代环境,但往往会导致数据孤岛和盲区。阶段 3:采用平台方法最后阶段是采用可观测性的平台方法,这种方法专为处理云原生复杂性而构建。使用自动化和 AI 的平台方法几乎可以从任何来源提取数据,并将其集成到单一视图中,并自动提供问题的解决方案(见图 2)。突破现代云复杂性壁垒的方法继续使用原有工具希望为老一代技术构建的旧工具能 够跟上现代技术快速变化的节奏 以及现代多云环境的加速复杂性。自己动手使用最出色的开发人员,利用开源 工具,构建自己的网络规模可观测性平台。起初看似简单的问题会变得非常复杂和耗时。充分利用平台
15、寻找一个专为现代多云环境的规模、复杂性和变化速度而设计的平台,该平台采用开放和可扩展架构,能够满足独特的数字化转型需求。图 2:随着复杂性日益成为挑战,组织通常会逐步过渡到理想的云原生可观测性解决方案。现代云可观测性如何突破复杂性壁垒|14自动化和智能平台方法云原生可观测性的第一步是考虑确定一流可观测性平台的功能。最重要的是评估最有效突破复杂性壁垒的技术。这种理想平台具有以下特性:自动收集数据首先,理想的可观测性平台不需要脚本编写、配置或特殊工具来收集数据。相反,它会自动汇集数据。各种来源也会自动提供数据,例如开源遥测数据。本机数据存储库理想的平台还需要本地位置来存储现在由多云环境生成的海量数
16、据,且无需为基于云的数据存储支付高昂费用。自主了解问题根源可观测性平台应能自动组织数据,并自主了解问题根源关系、基线和模式。自动抑制警报噪音可观测性解决方案应能消除警报噪音并检测真 正值得注意的警报,以及哪些警报指示问题的确切根源。灵活的报告引擎对于有效的可观测性平台,仪表板不仅能提供屏显数据,还应包括安全且可定制的报告引擎,从而确定真正重要的问题。启用自动化响应能够在上下文信息中可靠查明根源的平台可以使团队在出现问题时自动做出响应,从而节省时间并提 高灵活性。可扩展性该平台可以扩展以支持更多应用程序、新动态、新技术、海量数据流、新基线等。现代云可观测性如何突破复杂性壁垒|15第 4 章 现代
17、云可观测性平台的基本特性现代云可观测性如何突破复杂性壁垒|16在评估现代可观测性平台时,IT 购买者应寻求以下关键功能:端到端视图“左移”可查看开发中的应用程序,“右移”可查看生产中实时应用程序的 问题。拥有整个软件交付生命周期的端到端视图还可以衡量应用程序如何影响用户体验。开放和可扩展的平台由于组织运行一系列开源和云原生技术,因此可观测性平台应该可扩展,并能够从所有来源获取遥测数据。解决方案应使用 AI 和自动化来提供有关整个生态系统的准确方案。持续自动化现代云环境的动态特性给可观测性带来了新压力。因此,现代可观测性平台要始终保持最新状态,并不断实时发现和映射环境。定制化体验由于组织的团队具
18、有不同的优先级,因此可观测性解决方案应提供定制化体验,以便每个团队都能获得所需的数据。通用事实来源实现跨团队协作。确定性 AI由于遥测数据量呈爆炸式增长,因此可观测性平台应使用确定性的、基于原因的 AI 来提供答案,而不仅仅是在仪表板上堆集更多数据。可观测性应能实时检测问题并提供即时的数据驱动答案。云平台扩展随着超大规模平台和无服务器服务的出现,现代可观测性解决方案应使组织能够突破云可观测性壁垒,并确保能够观测所有应用程序和服务。现代云可观测性如何突破复杂性壁垒|17借助现代的可观测性方法,IT 专业人员可以克服云复杂性并加速创新,从而提供卓越的用户体验。IT 团队无需陷入枯燥的手动任务以及耗
19、时长久的补救工作,而是可以自动确保应用程序能够可靠、快速地在每种渠道工作,包括移动设备、Web、物联网和应用程序编程接口。因此,IT 团队可以随时重点关注战略性的创收工作,而不是解决战术性的问题。现代可观测性平台还可以通过识别测试和开发环境中的问题并自动解决这些问题来增强开发团队的能力。由于 Dynatrace 会在多云环境中实时收集数据,因此企业可以全面了解其整个应用程序生态系统。AI 和自动化的结合确保即使在变化最迅速的环境中也能实现大规模的全面覆盖。借助代码层面的问题根源分析,云从业者可以在问题破坏系统性能或数字体验之前找到问题的根源。想想 2021 年 12 月的亚马逊网络服务中断,当
20、时影响了美国东北部地区的各种流媒体服务。云中断可能产生连锁反应,并需要进行精确、快速的问题根源分析才能恢复客户的服务。由于能够为整个云堆栈和因果 AI 的相互依赖关系提供上下文信息,为解决问题实时提供可操作方案,IT 从业者可以抢先解决问题,避免系统受到不利影响。因此,多云可观测性能够推动真正的商业价值,使云从业者能够专注于软件创新和业务增长。现代云可观测性如何突破复杂性壁垒|18为所有利益相关方提供独一无二的价值开发进行更快、品质更高的创新品质更高的创新更高效地运营业务持续推动更好的业务成果4 倍60%20%4.2 万99%65%080%32%创新能力提高 AGII运营效率提高 SAP购物车
21、价值增加 Mitchells&Butlers每年创新 工作时数增加 TIAA支持工单减少 Kroger客户流失降低 Vitality生产后代码严重错误 Rack Room Shoes问题解决加快 Porsche Informatik转化率增加 BTHow modern cloud observability addresses the cloud complexity wall|19Dynatrace 确保基本政府服务始终畅通本文主要内容如下:明尼苏达州就业和经济发展部(DEED)成功应对 2020 年失业救济金申请同比增长 850%的情况,并且没有中断向明尼苏达州工人提供基本失业救济金。DE
22、ED 开发了新的 DevOps(或开发或运营团队)最佳实践,使其能够协作解决其社会福利应用程序的问题。通过自动识别异常、查明问题根源并在发生真正影响业务的问题时发出警报,DEED 可以减少人工工作并专注推动创新,而且不会危及现有服务表现。因此,现代可观测性使拥有多云环境的组织能够感知、思考,然后自动针对其环境的问题根源采取行动。政府服务为公民提供必不可少的安全网。政府机构及其 IT 基础设施在危机时刻可能面临巨大压力。新冠疫情在全球蔓延后,社会和经济活动受到严重干扰,2020 年有近 6000 万美国工人申请失业救济。管理明尼苏达州公民失业救济金的就业和经济发展部(DEED)的失业申请出现指数
23、级增长。例如,2019 年,DEED 处理了约 80,000 份申请。到 2020 年 8 月,该机构已经处理了 709,000 份申请,同比增长 850%,总登录量达到 2600 万次。明尼苏达州 IT 服务部门的应用程序架构师 Kailey Smith 说:“我们从没想过申请数量会达到这种程度。”这些前所未有的活动负载给 DEED 基于 Java 的失业网络应用程序带来沉重负担,Smith 称该应用程序具有“庞大而复杂的代码库”。惊人的申请数量可能导致该应用程序崩溃,从而对州内的失业工人造成灾难性后果。Smith 说:“失业(福利)是必要服务。无论难度多大,我们都有责任保持应用程序正常运行
24、和性能良好。”失业(福利)是必要服务。我们有责任保持应用程序正常运行和性能良好。Kailey Smith,应用程序架构师,明尼苏达州 IT 服务部门How modern cloud observability addresses the cloud complexity wall|20云可观测性是应用程序性能的关键 应用程序性能对 DEED 这样的组织至关重要。但失业应用程序基于云的架构是分布式、复杂且对流量高峰敏感,为 Smith 这样的团队带来了新的负担,他们要确保应用程序的正常运行时间。这是因为组织现在非常依赖 AWS、Azure 和谷歌等公共云以及混合云。根据 Dynatrace 最新
25、研究,99%的组织使用云计算。Datanami 的 Alex Woode 写道:“当今的组织都在努力保持其 IT 基础设施和应用程序的正常运行,并尽量减少停机时间。这一直是我们的目标,但由于现代架构(微服务、容器化、混合云部署、边缘增长)及其开发方式,目前实现难度更大。”单一事实来源缓解危机 DEED 用户开发了定制磁贴来监控应用程序和周围环境的整体运行状况,包括应用程序服务器、Web 服务器、FileNet 服务器以及批处理服务和数据库、实时用户数量。用户还可以访问仪表板磁贴,了解系统任意位置发生的所有未解决问题。运行状况磁贴用绿色或红色圆圈表示服务器、应用程序和数据库的状态。Smith 说
26、:“这让我们可以即时直观地了解整个应用程序中的问题。Dynatrace 会提示有多少用户受到影响,哪些服务受到影响,检测到哪些指标异常。在许多情况下,Dynatrace AI 能够找出 问题根源。”因此,DEED 使用来自 Dynatrace 的数据作为单一事实来源来识别应用程序问题根源并加以解决。DEED 的可观测性实施有助于感知、思考,然后对环境中的问题采取行动,以保持其系统正常运行。Smith 说:“Dynatrace 是我们的首选信息来源。”Dynatrace 是我们的首选信息来源。Kailey Smith,应用程序架构师,明尼苏达州 IT 服务部门Dynatrace 推动了跨团队协作
27、。Kailey Smith,应用程序架构师,明尼苏达州 IT 服务部门云可观测性实现跨团队协作 根据最近的 Dynatrace 研究,70%的 DevOps 团队表示应用程序复杂性是 DevOps 成功的障碍。在了解应用程序问题的过程中,DEED 在基础架构、开发、中间件和数据库团队之间加强了跨团队协作。各种仪表板使团队能够协同工作,确定可能影响应用程序性能的问题。Smith 回忆道:“Dynatrace 推动了跨团队协作。我们必须迅速就所需的改变达成共识。我们必须确保所有人步调一致并查看相同的数据。Dynatrace 仪表板就是解决方案。”通过单一数据源,团队可以在关键指标出现分歧时共同确定
28、问题的真正来源。Smith 说:“如果团队成员观察到不同的指标,他们就会进行交流。各团队查看相同的数据,并齐心协力确定解决方案。高水平的跨团队协作对支持应用程序至关重要。”单一事实来源可以识别系统异常,并使员工展开协作,甚至包括在家下达命令。而在过去,团队要在会议室开会讨论问题,而现在他们可以召开线上会议并讨论数据,这只有在统一平台上才能实现。Smith 回忆道:“我们不再需要集中开会。我们每天举行在线会议来协调工作处理大量问题,解决问题并共享信息。”最终,Dynatrace 让 DEED 能够轻松提供必要服务。Smith 说:“在最动荡的时期,明尼苏达州可以依靠 Dynatrace。它为我们
29、提供了单一视图提供准确的方案,帮助我们确保系统始终可用且性能良好。”现代云可观测性如何突破复杂性壁垒|21的受访者表示集成工具链的统一平台对于扩展 DevOps 工作至关重要来源:Dynatrace 全球 DevOps 报告71%的 DevOps 团队表示应用程序复杂性是 DevOps 成功的障碍。来源:Dynatrace 全球 DevOps 报告70%blogdynatraceDynatrace(NYSE:DT)旨在让全球的软件完美运作。我们的统一软件智能平台将广泛而深入的可观测性和持续的运行时应用程序安全性与最先进的 AIOps 相结合,提供基于大规模数据的答案和智能自动化。这使创新者能够
30、实现云运维的现代化和自动化,更快、更安全地交付软件,并确保完美的数字体验。这正是全球大型组织信任 Dynatrace 平台可以加速数字化转型的原因。想知道如何简化云并最大程度地发挥数字团队的影响?让我们向您展示。注册 Dynatrace 15 天免费试用。05.31.23 BAE5592_EBK_jvs申请 Dynatrace 实际应用演示,了解更多内容。Dynatrace 与众不同之处利用 Dynatrace 的确定性 AIOps 平台,获得的不仅仅是警报和相关性信息。通过采用和构建开放标准(例如 OpenTelemetry),Dynatrace 提供即时可行的问题根源识别。借助基于因果关系的实时分析,Dynatrace 不仅会告知团队可能出现的问题,还让工程师能够专注于真正重要的事情,即富有成效的、创造价值的工作,而不是耗时的被动工作。因此,Dynatrace 软件智能可帮助团队在整个 IT 组织中建立协作和共享工具的文化。了解更多