《刘征&刘刚-用可观测性工程构建生产环境的护城河.pdf》由会员分享,可在线阅读,更多相关《刘征&刘刚-用可观测性工程构建生产环境的护城河.pdf(42页珍藏版)》请在三个皮匠报告上搜索。
1、用可观测性工程构建生产环境的护城河主讲人:刘征&刘刚演讲嘉宾介绍刘征 观测云首席架构师 中国DevOps社区的核心组织者 DevOps实践指南和Google SRE 工作手册的译者 精通DevOps/SRE/ITSM等理论体系,致力于推动可观测性实践和工具在云环境中的落地。热爱开源技术,专注于云计算、运维大数据分析、云原生、APM全链路追踪和AIOps等使用场景。CONTENT目录2023K+01为可观测性的理念正本清源分步骤循序渐进落地的最佳实践深度前端性能调优案例分析0203Part 01为可观测性的理念正本清源 术语的定义和来源 当前时代背景下的定义 可观测性与 DevOps 的关系 可
2、观测性与 SRE 的关系故宫护城河:世界十大护城河之首“紫禁城护城河”,护城河距城墙二十米,河宽五十二米,周长三千八百四十米,水深五米,平均蓄水量达五十四万二千八百八十立方米。护城河:不可缺失的攻守兼备的职能作用很少有人能忍受可怕的索伦之眼眼睛能看到一切,眼睛也能影响它所看到的一切。被它或他盯上就等於受到索倫的影響。可观测性:度量一切,影响所有它所发现的问题,也是生产环境不可或缺的稳定性的保障。常见可观测性定义都参考了控制论:源于数学&机械工程学科领域“可观测性”于1960年,在控制论中被首次提出。定义:指系统可以由其外部输出推断其内部状态的程度。特点:用已知的输入输出推断机械内部的工作状态美
3、诺伯特维纳(1894-1964)Cybernetics分支:现代控制理论Modern Control Theory控制论:或关于在动物和机器中控制和通信的科学 Observability,在云原生时代,我们将其简称为 o11y将会不太适用于“虚拟的软件系统”可观测性工程将开启你编写软件代码并与生产环境交互的全新模式。未知的用户行为,未知的生产环境现象维基百科 控制理论中的可观测性是指系统可以由其外部输出推断其其内部状态的程度。系统的可观察性和可控制性是数学上对偶的概念。可观察性最早是匈牙利裔工程师鲁道夫卡尔曼针对线性动态系统提出的概念。若以信号流图来看,若所有的内部状态都可以输出到输出信号,此
4、系统即有可观察性。Red Hat 可观测性是指能够通过检查系统或应用的输出、日志和性能指标来监控、测量和理解系统或应用的状态。在现代软件系统和云计算中,可观测性在确保应用和基础架构的可靠性、性能和安全性方面发挥着越来越重要的作用。IBM 一般来说,可观察性是指您仅根据所了解的外部输出对复杂系统内部状态或条件的理解程度。系统的可观察性越高,您就能越迅速、越准确地从发现的性能问题找到根本原因,而不必进行额外的测试或编码。公有云 可观测性描述了你能如何清晰地理解一个系统内部正在发生着什么,通常需要通过埋点来采集指标、日志或追踪。可观测性是可帮助团队有效调试其系统的工具或技术解决方案。可观测性基于对事
5、先未定义的属性和模式的探索。系统的可观测性:应该具备的三大基本特征度量能力按需改变探索分析无论系统中着发生多么费解的现象它帮助你更好地理解和解释系统当前的状态能够在各类状态数据的所有维度和组合之间进行关联分析无预定调试&排查模式和路径最好是不需要改变原有代码也能随心所欲的按需埋点洞察可观测性与 DevOps 的关系 运维效率 自动化和持续交付 跨团队协作 故障排除和持续改进可观测性与 SRE 的关系 服务质量协议 SLA Service Level Agreement 服务质量目标 SLO Service Level Objective 服务质量指标 SLI Services Level In
6、dicatorSLA(1)文档客户SRE产品产品SREDev(n1)(11)(1n)延时流量错误饱和SLOSLI应用系统(1n)(nn)可观测性与 SRE 的关系(续)可观测性是SRE的核心原则之一可观测性促进故障预防和容错设计可观测性与 SLI、SLO 和 SLA 的关系可观测性推动持续改进和演进Part 02分步骤循序渐进落地的最佳实践1.标椎化监控信号量的数据源头2.端到端的覆盖所有可用信号量3.从生产环境中的重大故障排查开始4.成为各个团队和角色的协作平台第一步:标椎化监测信号量的数据源头基于统一数据模型采集、存储、处理和分析基础设施以及应用系统的海量运维数据能从业务、应用和基础设施等
7、多重视角,用高维度的免治理的数据,支持探索式生产故障排查符合第一性原则的生产环境“全景”实时可观测性平台第二步:端到端的覆盖所有可用信号量提供各种操作系统:Linux、Windows、macOS、容器环境全功能的数据采集能力,涵盖主机、容器、中间件、Tracing、日志以及安全巡检所有可观测性信号量支持开源工具 Telegraf/Prometheus/SkyWalking/Filebeats 以及 OpenTelemetry 等第三步:从生产环境中的重大故障排查开始目标场景 1:快速定位生产故障,缩短 MTTR 95%端到端的数据关联,多维度的下钻分析第三步:从生产环境中的重大故障排查开始目标
8、场景 2:提升最终用户体验,应用错误率减少 20%构建面向最终用户使用体验的实时感知,优化产品代码第三步:从生产环境中的重大故障排查开始目标场景 3:持续优化后端微服务,性能提升300%支持微服务的方法、库、线程等多个维度数据探索分析查看,更快的定位应用故障第四步:成为各个团队和角色的协作平台DF-Kodo预处理引擎Function大数据计算引擎DF-Studio图形界面关联分析快速查询在线笔记团队协作NSQ消息队列数据存储层核心计算层 DQL 统一查询引擎邮件短信事件webhookMessage-desk内部开放接口Core-InnerKodo-Inner基础设施层网络层应用层用户层云容器K
9、8s统一采集&关联第 三 方 接 口 数 据DataWay数据源注入业务层Kuberneteselasticsearch可观测性管理平台的四大特征第-52-页统一采集提供一体式、开源的数据集成 Agent 工具 DataKit提供全平台操作系统支持(Linux/Windows/macOS)拥有全面数据采集能力,涵盖主机、容器、中间件、Tracing、日志以及安全巡检等各种场景支持开源工具 Prometheus/SkyWalking/OpenTelemetry/Logstash 等统一标签支持从各种基础设施、技术栈中采集 Metrics、Logs、Traces 等数据,并对这些数据进行结构化处理
10、从基础设施、网络、容器、应用到云,默认添加全局统一标签,默认标签是数据关联的基石支持自定义设定标签,区分不同的主机、项目、环境等,实现数据关联、查询与分析统一存储数据仓库级别的数据融合方案,非简单的开源组合,实现更深程度的可观测数据关联融合分析Schema-free 设计,无序事先定义结构,更好的应对灵活、可扩展的可观测数据类型自研存储组件(GuanceDB),全面支持海量数据下的高性能数据查询分析需求统一分析在同一个平台观测指标、日志、APM 链路、基础设施、容器、中间件、网络性能等数据在同一个平台内可以将日志、基础设施指标、应用链路及配置的告警信息相互关联、无缝切换通过标准的 DQL 语言
11、,统查询 Metrics、Logs、Traces、Events 等类型数据自定义仪表板,支持丰富的图表组件、灵活的DQL查询和内置的数据关联查询引导,实现更快的数据分析路径Part 03深度前端性能调优案例分析 网站性能度量体系-用户视角 网站性能度量实践-研发视角 网站性能提升实践-用户收益演讲嘉宾介绍刘刚 观测云布道师 观测云高级技术专家 可观测性工程-译者 精通RUM等理论体系,致力于推动网站可观测性的实践和工具在云环境中的落地。热爱开源技术,专注于用户体验、数据分析等场景。从用户视角洞察第-55-页第-56-页第一步:全面的可观测性体系第-57-页全面、统一第-58-页标准、可量化第-59-页一览无余第-60-页第二步:可量化的数据串联第-61-页时序图、概览图、表格图、矩形树图、漏斗图、饼图、柱状图、直方图、SLO、排行榜、仪表盘、散点图、气泡图、中国地图、世界地图、蜂窝图、文本、图片、视频、命令面板、IFrame、日志流图、对象列表图、告警统计图第三步:多维度的性能可视化第-62-页第三步:多维度的性能可视化第-63-页第三步:多维度的性能可视化第-64-页第四步:性能探索与洞察第-65-页收益一:用户操作的可视化第-66-页收益二:丰富的上下文情景(报错、卡顿)第-67-页收益三:重点客户的保障第-68-页可观测性工程THANKS