上海品茶

您的当前位置:上海品茶 > 报告分类 > PDF报告下载

2022年阿里云可观测技术峰会演讲资料PPT合集(298页).pdf

编号:82845 PDF 298页 51.13MB 下载积分:VIP专享
下载报告请您先登录!

2022年阿里云可观测技术峰会演讲资料PPT合集(298页).pdf

1、可观测性技术发展趋势栗蔚中国信通院云大所 副所长可观测性技术发展趋势需求系统稳定性保障软件全生命周期质量保障02发展可观测性从硬件到软件云时代的可观测性01痛点缺乏统一认知与建设方式造成多种工具与数据间的割裂03趋势观测标准化数据统一化数据类型持续丰富04发展可观测性从硬件到软件云时代的可观测性01可观测性技术发展:从硬件到软件从硬件领域诞生最早的可观测性概念早期软件可观测性助力系统故障排查可观测性的概念最早诞生于电气工程领域,为了了解黑盒系统的辡行情况,通辟对应的仪表 观察输出信号来判断系统辡行状态。软件普及以后,软件从业者也需要对软件系统的辡行情况进行检测。从而诞生了日志和监控两种早期的软

2、件系统观测手段,用于故障发现及故障排查。可观测性技术发展:云时代的可观测性可观测性技术栈 CNCF 随着微服务、解耦合的架构成为主流,在多级服务依赖场景下,传统监控手段很难有效进行故障定位链路追踪(tracing)作为新型观测数据应辡而生。传统观测数据的治理方式也在持续进步Kafka、ELK、Prometheus等工具的诞生,使得日志、监控等传统观测数据被更有效的采集和利用。观测方式持续进化 eBPF技术的诞生及其在可观测性领域的应用,使我们可以采集到更多样的系统辡行数据。用户对观测数据进行灵活定义的需求,催生了多种观测数据编排工具,允许用户低门槛地拓展及自定义更多样的采集数据观测数据更加多样

3、为适应云时代的软件架构,可观测性技术进一步演进需求系统稳定性保障软件全生命周期质量保障02可观测性是系统稳定性保障的必要手段数据来源:中国混沌工程调查报告(2021)2021年12月7日与16日,亚马逊AWS在一周内连续发生两次大规模宕机宕机事故。2021年7月14日,B站服务器故障3小时造成服务无法访问。2020年12月14日,Google Cloud服务器由于内部存储配额问题造成身份验证系统中断,引发全球宕机45分钟,影响波及全球用户。故障平均发现时长(MTTD)故障平均修复时长(MTTR)云时代下,复杂业务系统难以洞察,为稳定性保障带来挑战中国混沌工程调查报告(2021)数据显示,仅不到

4、一半的受访企业故障平均发现时长(MTTD)小于1小时;故障平均修复时长普遍超过1小时,超辟6成故障修复时间(MTTR)高于1小时,甚至有约20%的服务故障修复时间超过12小时。系统运行情况的观测水平不足,面临故障时的反应速度差强人意通辟建设可观测性平台,高效全面的收集系统辡行状态数据,在此基础上制定完善的告警策略,可大大提高系统故障时的响应速率,降低辡维人员排查成本,增强系统稳定性。系统状态可观测是系统稳定性保障的基础软件全生命周期的可观测极大提升交付质量 将可观测性应用到软件开发全生命周期,使得软件开发、测试、部署、辡营白盒化,避免“暗疾”。可观测性为业务对比及调优提供数据支撑,如A/B测试

5、等多版本功能对比时,通辟观测数据对比版本业务效果优劣,助力服务质量提升。需求 需求提出 需求分析 需求评审 开发 代码开发 代码评审 代码合并 测试 功能测试 性能测试 故障演练 部署 制品管理 部署发布 运营 AB测试 性能监控 服务质量目标 全生命周期可观测,避免开发过程中“暗疾”随着敏捷开放与CI/CD的推广,服务功能的更新迭代速度也大大加快,更需要观测工具实时监控业务质量,确保每个版本更新都能满足服务质量目标。目前业界也在推广敏捷开发流水线与观测工具的结合,打破“先发布,后观测”的现有格局:流水线实时读取观测数据,确保部署前的测试辟程无问题、部署之后版本辡行状况良好。在提升迭代效率的同

6、时,保障版本质量。可观测性渗透软件开发全生命周期,提升软件交付质量结合CI/CD,敏捷开发的同时保障软件质量痛点缺乏统一认知与建设方式造成多种工具与数据间的割裂03可观测性当前缺乏统一认知、缺乏统一建设方式云原生时代的可观测性概念发展迅速,可观测性概念未能被及时广泛更新可观测性技术落地的最佳实践方面,企业缺乏可观测性的建设指南当前国内对于可观测性技术落地的最佳实践方面仍有较大空白。虽然市面上具有琳琅满目的观测工具,但缺乏可观测性相关的规范标准及建设指南。对于刚接触的企业来说,有时即使接触到了这些观测工具,也未能最大化发挥其价值。可观测性的理念经辟多年发展,随着软件技术及架构的演进,可观测性的内

7、涵也经历了多轮的迭代更新。我们在行业研究辟程中发现,仍有不少企业对可观测性的理解还偏向于传统的监控手段。业界仍然缺少对可观测性最新内涵的普及认知。多种可观测性工具隔离造成数据间的割裂数据内容割裂不同工具的数据格式定义各有不同,无法进行跨工具间的数据流通各工具间缺乏协调,数据内容涵盖不全面,要么重复采集、要么采集不全多种观测数据间的内容无法互相印证数据处理割裂不同工具的数据采集方式不同,造成采集时的资源冗余和浪费不同工具的数据储存策略及载体不同难以跨工具对多种观测数据进行统一分析数据展示割裂难以跨工具对多种数据进行统一展示难以跨工具对多种数据进行统一搜索查询难以跨工具在多种数据间建立联系、挖掘并

8、展示数据间的关联面对多样化的观测手段,如果没有“统一观测”的认知、且缺乏建设参考,则可能发生“同时使用多套观测工具却无法做出整合,造成各观测工具间互相独立、互相割裂“的现象,无法对数据进行组合分析、无法达成数据利用最大化趋势观测标准化数据统一化数据类型持续丰富04可观测性技术发展趋势可观测性技术的未来发展,总体将呈现以下趋势,解决现有痛点观测标准化为推进产业内对可观测性辛成共识解决建设方式不统一 以及使用多种观测工具造成割裂等问题发展可观测性标准化及建设指南数据统一化在可观测性认知统一的基础上规范数据格式,统一存储与处理促进多种观测数据整合统一数据类型持续丰富以eBPF为例的新技术持续发展推动

9、可观测性数据类型持续丰富可观测性技术发展趋势观测标准化2021年,中国信通院牵头业内企业可观测性资深实践企业编写可观测性平台技术能力要求行业标准,并纳入中国信通院“系统稳定性保障”标准体系中针对当前业界对可观测性缺乏统一认知及建设指南的现象,已有不少专家学者投身可观测性的普及与推广工作中,可观测性技术持续向标准化与普及化方向发展中国信通院联合了业内多位可观测性资深实践专家,启动了可观测性技术发展白皮书编写,旨在向业内输出一份可观测性的最佳实践及建设指南 中中国国信信息息通通信信研研究究院院云云计算算与与大大数数据据研研究究所所 混混沌沌工工程程实验室室 2 20 02 22 2 年年 5 5

10、月月 2022 当前已经有来自阿里云、腾讯、观测云、日志易、PerfMa等企业的多位可观测性技术专家参与内容编写白皮书内容扔在持续迭代中,预计于7月底信通院可信云大会上正式发布混沌工程平台全链路压测可观测性容量管理应用多活系统稳定性度量稳稳定定性性保保障障标标准准体体系系混沌工程成熟度根因分析平台数据调用数据调用分析指导稳定保障安全生产应急管理辅助支撑可观测性技术发展趋势数据统一化在对可观测性认知普及的同时,软件社区及观测产品建设者正在持续推动观测数据的整合,多种观测数据向格式及处理方式统一化的方向发展软件社区致力于推动多种观测数据的规范整合2019年,CNCF对其原有独立的可观测性项目Ope

11、nTracing及OpenCensus进行合并,形成整合版的数据规范及工具:OpenTelemetry,涵盖日志、监控、及链路追踪。观测产品也在向多种观测数据统一化的方向建设对可观测性数据进行统一采集、统一处理、统一储存,将原本割裂的多种观测数据进行整合、关联分析,辛成数据利用最大化统一储存跨数据种类展示、跳转多种数据统一查询统一采集降低多数据采集冗余统一处理数据可跨种类关联可观测性技术发展趋势数据类型持续丰富多种新型数据采集和分析技术的出现,使我们可以更灵活的采集系统辡行数据、分析系统辡行情况,观测数据的类型和内容持续丰富以eBPF为例,eBPF技术在可观测性领域的应用,使得原本难以触辛的系

12、统底层辡行数据也可以被观测和采集。后续新技术的出现,还将推动系统可观测范围进一步扩大。同时,支持用户自定义数据采集等相关功能也成为主流,推动可观测性数据内容进一步丰满日志链路追踪监控CrashdumpProfile在原有的日志、监控、链路追踪三大支柱基础上,衍生出了如profile,crash dump等特化的数据展示手段,促进可观测数据类型持续丰富可观测驱动高效决策云原生架构追逐Day0&Day1效率,使得Day2复杂度大幅上升。可观测性是微服务架构下降低复杂架构下无序熵增的唯一手段。可观测引领协同创新SRE/DevSecOps/BizOps/FinOps等新角色、新范式出现,可观测能力成为

13、多重角色的共同关注点与沟通桥梁。可观测无处不在企业数字化转型凸显体验价值,IT系统全栈上云技术栈日趋收敛。新一代可观测性产品向下覆盖云边端,向上连接业务与最终用户体验。云原生时代,可观测成为主角基础设施不断下沉,应用仍然是最佳观测视角阿里云上的每一个应用,都天生可观测-阿里云应用托管产品家族容器服务(ACK)、企业分布式应用服务(EDAS)、Serverless应用引擎(SAE)、函数计算(FC)全系默认集成应用实时监控(ARMS)。-基于eBPF的应用可观测技术去年开始被容器服务默认集成,低功耗、无侵入实现应用黄金指标检测和应用全局拓扑可视化,已于生产场景大规模使用。观测、防护、治理一体化-

14、阿里云应用治理类产品应用性能测试(PTS)、微服务引擎(MSE)、应用高可用服务(AHAS)全系默认集成ARMS应用监控。-ARMS应用安全服务(RASP)将应用安全“注入”到应用内,并于6月正式商业化。越标准,越智能,AI 辅助运维已经成为可能-ARMS应用监控指标+超过50个云产品监控指标全面打通托管版Prometheus,链路全面支持OpenTelemetry SDK。-ARMS Insight支持超过20类微服务场景高频问题的自动发现与诊断,并打通告警系统。应用管控应用观测用户体验性能分析风险分析安全防护微服务治理应用生命周期管理阿里云十年可观测能力沉淀微服务化DevOps/运维自动化

15、业务中台化全面容器化/云化云原生200152021微服务架构下的可观测基础设施技术中台下的稳定性运营中心云原生时代的标准化观测服务信通院先进级认证Forrester容器可观测能力满分Gartner国内唯一入选iLogtailArthasJaegerElastic LabsGrafana Labs袋鼠云博睿谐云OpenTelemetryPrometheusSkywalking可观测开源与合作伙伴生态自主开源拥抱开源行业生态行业生态拥抱开源自主开源可观测左移数字化运营全栈可观测万物皆云时代,观测力将成为每一个参与者的核心竞争力将可观测性融合至研发运维环节中,使得问题获得更快反

16、馈闭环;持续使用应用性能(APM)管理工具发现未知性能问题;使用用户体验管理工具模拟真实用户访问行为。通过可观测数据洞察IT成本,提升ROI;可观测技术和安全技术(如RASP和Cloud SIEM)的融合使用,降低IT风险;基于可观测数据协同各部门间合作,使用 ChatOps 方式与云交互。使用开源标准(如PrometheusExporter/OpenTelemetry SDK)暴露服务运行指标;审计、事件信息汇总至云事件总线(EventBrdige)便于统一管理与分析;拥抱分布式云架构,提供云、边、端一体化的可观测视图。运维工程师/研发人员项目管理者/架构师/团队负责人基础云服务提供者Mor

17、e than Tracing Logging and Metrics吴晟SkyWalking v9 Full-stack APMMetricsTracingLoggingThe hottest topic in ObservabilityTracinghttps:/skywalking.apache.org/docs/main/latest/en/papers/stam/Dapper 10 years ago Google ResearchTrace ConceptSpan ConceptContext-enhanced LogsLow sampling rateSTAM:Enhancing

18、Topology Auto Detection For A Highly Distributed and Large-Scale Application SystemMetricsMetrics Native format&EcosystemPrometheus FetcherZabbix FormatOpenCensusEnvoy Metrics ServiceSkyWalking MeterTelegraf(WIP)Monitoring Kubernetes through kube-state-metrics(KSM),cAdvisor and OpenTelemetryStreamin

19、g log processLoggingFluentdFluent-bitElastic FileBeatEnvoy Access LogOpenTelemetry CollectorMultiple AgentsService Logging CollectingProfilingAgent/SDK based profilingNative Java and Python agentseBFP profilingFor all C,C+,Golang,Rust serviceshttps:/ Demand LoggingOn-DemandLoggingZero cost行业 SaaS 的微

20、服务稳定性保障实战祁晓波自我介绍祁晓波 南京爱福路汽车科技有限公司稳定性负责人经历 13年本科毕业 16年加入南京爱福路汽车科技有限公司(f6)负责f6后端的架构设计 实施了微服务的拆分 主导了k8s 在f6的落地和实践 全程参与f6内部DevOps的设计建设和演进 f6云原生理念布道者 f6内部稳定性倡导者 可观测性倡导者 SRE探索者专注 Java/SpringBoot/Dubbo架构 微服务架构 云原生领域 DevOps实践/CICD SRE领域Twitter工程师在2017年发表的Monitoring and Observability,首次将Observability一词带入开发者的

21、视野。通过半玩笑的方式调侃了关于可观测性和监控的区别在软件产品和服务领域,可观测性则是指从应用系统中收集尽可能多的遥测数据,以便可以调查和解决新出现的复杂问题,确保企业能够主动观察系统,在影响客户体验之前解决故障及问题,安全地进行测试并实施优化,更好地管理和控制业务风险。由此,可观测性可以被视为系统的一个属性,与功能性、安全性相似。引言可观测发展趋势数字表示相对于图表上给定区域和时间的最高点的搜索兴趣。值 100 是该术语的峰值流行度。值为 50 表示该词的受欢迎程度是前者的一半。得分为 0 表示该术语没有足够的数据。可观测性定义控制理论中的可观测性(observability)是指系统可以由

22、其外部输出推断其其内部状态的程度。系统的可观察性和可控制性是数学上对偶的概念。可观测性最早是匈牙利裔工程师鲁道夫卡尔曼针对线性动态系统提出的概念12。若以信号流图来看,若所有的内部状态都可以输出到输出信号,此系统即有可观测性。-wikipedia目录难点与挑战业务蓬勃发展康威定律的作用稳定性诉求01可观测演进传统监控+微应用日志收集架构升级+可观测性引入云原生改造可观测理念02未来畅想ebpfchaos-engineering融合 OpenTelemetry03难点与挑战:业务蓬勃发展 稳定性诉求激增F6汽车科技,一家专注于汽车后市场信息化建设的互联网平台公司为维修企业开发智慧管理平台,为行业

23、提供维修应用大数据难点与挑战:康威定律的作用Any organization that designs a system(defined broadly)will produce a design whose structure is a copy of the organizations communication structure.Melvin E.Conway当业务膨胀时,从组织上来看,由于康威定律的作用导致我们设计微服务将趋同于组织架构。此时相对来说沟通效率是趋近极大值。但是也带来了分布式系统的一些问题,没有人可以对服务有整体的全局性的了解。作为研发,其最直接的期望是“分布式的系统,

24、单机系统的排查效率”。促使我们需要将传统的以服务器为中心的思路转变为以调用链为中心的思路。难点与挑战:稳定性诉求激增烟囱应用B烟囱应用A目录难点与挑战业务蓬勃发展康威定律的作用稳定性诉求01可观测演进传统监控+微应用日志收集架构升级+可观测性引入云原生改造可观测理念02未来畅想ebpfchaos-engineering融合 OpenTelemetry03传统监控+微应用日志收集ELKStack获取日志和查询 ElastAlert完成日志告警图片图片“ELK”是三个开源项目的首字母缩写,这三个项目分别是:Elasticsearch、Logstash 和 Kibana。Elasticsearch

25、是一个搜索和分析引擎。Logstash 是服务器端数据处理管道,能够同时从多个来源采集数据,转换数据,然后将数据发送到诸如 Elasticsearch 等“存储库”中。Kibana 则可以让用户在Elasticsearch 中使用图形和图表对数据进行可视化ElastAlert 它通过将 Elasticsearch 与两种类型的组件、规则类型和警报相结合来工作。Elasticsearch 会定期查询并将数据传递给规则类型,该类型确定何时找到匹配项。发生匹配时,会收到一个或多个警报,这些警报会根据匹配采取行动。ELKElastAlert架构升级+可观测性引入Grafana看板+Zorka支持jvm

26、监控图片图片Grafana是一个跨平台、开源的数据可视化网络应用程序平台。用户配置连接的数据源之后,Grafana可以在网络浏览器里显示数据图表和警告。该软件的企业版本提供更多的扩展功能。扩展功能通过插件的形式提供,终端用户可以自定义自己的数据面板界面以及数据请求方式。Grafana被广泛使用。Zorka 是个复杂的可编程的分析和监控 Java 运行应用程序的代理工具,无缝集成了流行的监控系统和协议(Zabbix,Nagios,syslog,SNMP),并且提供额外的跟踪,分析功能,以及数据收集器,这些能帮助发现性能问题和一般的系统问题。来添加其他功能。GrafanaZorkaJMX tech

27、nology is present in the Java SE platform since J2SE 5.0 version and provides ways to monitor any application or device present in the JVM.云原生改造k8s的编排能力和微服务相辅相成 迫切需要trace组件的支持应用实时监控服务ARMS(Application Real-Time Monitoring Service)是一款阿里云应用性能管理(APM)类监控产品。借助本产品,您可以基于前端、应用、业务自定义等维度,迅速便捷地为企业构建秒级响应的应用监控能力。

28、Prometheus是CNCF的一个开源项目,Google BorgMon监控系统的开源版本,是一个系统和服务的监控系统。周期性采集metrics指标,匹配规则和展示结果,以及触发某些条件的告警发送。Prometheus应用实时监控服务ARMS云原生改造JmxExporter快速支持云原生Java组件的jvm信息展示JMX Exporter 通过JavaAgent直接利用Java 的JMX 机制来读取JVM 运行时的监控数据,然后将其转换为Prometheus 可辘识的metrics 栺式,让Prometheus 对其进行监控采集。通过PrometheusOperator注册对应Service

29、Monitor即可。云原生改造利用配置中心完成应用到owner的精准告警配置中心带来了较好的解耦能力 将应用和owner分开 出现告警时通过此方式可以通过webhook进行at具体的人利用apollo的多语言SDK 我们自研了精准告警转发 结合apollo体验完善云原生改造ARMS:无侵入支持Trace可观测升级Log Trace Metrics 理念升级业界广泛推行的可观测性包含三大支柱:日志事件(Logging),分布式链路追踪(Tracing)和 指标监控(Metrics)。Logging:不能单纯的理解就是日志,泛指的是应用运行而产生的可以详细解释系统运行状态的各种事件,日志记录是其中

30、最常用一种手段。Tracing:全链路追踪,面向的是请求,通过对请求打标、透传、串联,最终可以还原出一次完整的请求,可帮助工程师分析出请求中的各种异常点。Metrics:是对Logging事件的聚合,泛指各种指标监控和大盘,通过多维度聚合、分析和可视化展示,帮助工程师快速理解系统的运行状态。可观测升级简版根因分析上线通过简单的归类算法 将当前服务报错日志进行聚类分析 完成可能服务报错原因分析可观测升级ARMS支持traceId透出responseHeader2022-06-04 22:01:13,479 INFO DubboServerHandler-x.x.x.x:20880-thread-

31、176 c.f.m.r.c.PlatformRoutingHintKeyLocator:?ea1acd43a6582027d0006 getHintKey=NCZ,group=xxx39.148.116.191-04/Jun/2022:22:01:57+0800 GET/portal/operating/guide/queryAll 200 900 https:/ 200 x.x.x.x:x 0.004 0.004 -on ea1acd5b94963061d0007小方栾解决大问题 无需修改代码点击arms开关支持在接入层日志支持相关展示即可 发生异

32、常可以快速联动同时仅需要修改日志pattern 即可以支持日志展示traceId可观测升级prometheus exporterhttps:/ blackbox exporter allows blackbox probing of endpoints over HTTP,HTTPS,DNS,TCP and ICMP.https:/ metrics for certificates collected from various sources:TCP probesHTTPS probesPEM filesKubernetes secretsKubeconfig filesThe metrics

33、 are labelled with fields from the certificate,which allows for informational dashboards and flexible alert routing.BlackBoxExporter SSLExporter等各种Exporter生态 支持更大的可观测范围可观测升级ARMS支持运维告警平台 将自建Prometheus、ARMS、日志服务、云监控或自定义事件集成到ARMS告警管理中。ARMS告警管理将集成的所有事件汇总并去重。ARMS告警管理通过静默过滤,过滤掉不重要的、不需要发送告警通知的事件。ARMS告警管理通过

34、通知策略和升级策略对所有告警事件进行分派,并通过电话、短信、邮件、钉钉等方式发送告警通知,其中,通过钉群发送的告警通知可以在钉钉群中管理告警。可观测升级ARMS支持运维告警平台。、可观测升级成本观测通过成本可观测的方式利用kubecost的相关特性优化成本可观测升级Java生态免修改注入agent方式-JAVA_TOOL_OPTIONS通过InitContainer的方式注入JAVA_TOOL_OPTIONS 免修改支持到宿主pod通过共享volume的方式完成javaagent的共享我们可以通过开源组件(如opekruise)workspread通过patch的方式支持目录难点与挑战业务蓬勃

35、发展康威定律的作用稳定性诉求01可观测演进传统监控+微应用日志收集架构升级+可观测性引入云原生改造可观测理念02未来畅想ebpfchaos-engineering融合 OpenTelemetry03ebpf基于 eBPF 的 Kubernetes 一站式可观测性云原生组件愈发进入深水区 排查问题不仅仅是应用层 需要关注系统层面比如DNS导致的抖动或者网络重传等均需要更加底层的数据进行追踪排障利用ebpf能够更好的回答Google SRE提出来的 延迟 流量 错误率 饱和度等等黄金指标chaos-engineering混沌工程鼓励和利用可观察性,试图帮助您先发制人地发现和克服系统弱点2020年6

36、月 cncf针对可观测性提出了特别兴趣小组。TAG Observability 主要关注与观察云本地工作负载有关的主题。此外,它还为最终用户提供辅助材料和最佳做法,并为技术咨询小组范围内的 CNCF 项目提供指导和协调。除了三大支柱之外,还提出了混沌工程和持续优化。当然混沌工程是否能够划分在可观测性确实有些疑义,混沌工程与其说是可观察性或分析工具,不如说是一种可靠性。但是混沌工程的很重要的前提确实也是可观测性。OpenTelemetryOpenTelemetry,这是一个由OpenTracing和OpenCensus合并创建的开源可观察性栽架。今天实施应用程序跟踪解决方栾,无论它是商业的还是开

37、源的,实际跟踪很可能是通过向事务添加特定的 HTTP 标头来完成的,这样您就可以跨层获得端到端视图应用。问题是,添加到事务中的标头是特定于供应商的,并且可能被不了解它们的中介(例如防火墙、负载平衡器等)丢弃,从而导致“损坏”的跟踪。W3C Trace Context 的创建是为了解决这个问题,方法是制定一个实际标准,指定将使用哪些 HTTP 标头来传播跟踪上下文,减少并有望消除丢失上下文的问题。我们需要更加面向终端研发的统一的可观测视图 融合了log metrics trace的全流程数据的方式。阿里云可观测峰会Observability Conference万节点规模云服务的SRE能力建设阿

38、里云可观测峰会Observability Conference 宋傲(凡星),2021年加入阿里巴巴 阿里云-云原生应用平台 研发工程师 目前主要参与阿里云产品的稳定性及SRE工作自我介绍阿里云可观测峰会Observability Conference目录背景及现状系统架构简介系统现状工作内容01实践经验分享可观测数据的收集和接入数据可视化和问题排查告警分级响应机制白屏化运维工具链建设02总结和未来工作告警准确度&接手率优化多类型数据联动埋点成本控制03阿里云可观测峰会Observability ConferencePart.01 背景及现状:系统架构简介 系统用途:实时数据流计算&存储 底座

39、:阿里云 容器服务ACK 流量入口:Gateway Service(LoadBalancer)存储介质:阿里云块存储ESSD&文件存储NAS 中间件:Kafka服务(流量缓冲及通信)元数据管理:ACM 流式计算及查询:Consumer服务、Center服务阿里云可观测峰会Observability ConferencePart.01 背景及现状:系统现状 部署地域多:部署Region数量接近20个 读写链路长:数据读写会依次经过多个组件的处理,组件之间依赖关系较为复杂 监控对象复杂:基础设施(调度、存储、网络etc.),中间件(Kafka),业务组件(Gateway,Center,Consum

40、er)阿里云可观测峰会Observability ConferencePart.01 背景及现状:工作内容可观测数据的收集数据可视化及问题排查告警&应急处理阿里云可观测峰会Observability ConferencePart.01 背景及现状:工作内容可观测数据的收集衡量应用状态,信息少,可通过增加维度来增加额外信息,通过指标告警快速发现异常。请求从接收到处理完成的全周期跟踪路径。相较于指标,增加了请求相关信息。通过排查链路快速定位异常。应用运行产生的事件的日志数据。通过日志分析快速排除故障。指标Metrice日志Log链路Trace阿里云可观测峰会Observability Confer

41、encePart.01 背景及现状:工作内容数据可视化&问题排查阿里云可观测峰会Observability ConferencePart.01 背景及现状:工作内容告警&应急处理告警分级通知&升级策略运维处理工具化,白屏化事后统计及复盘问题的认领和处理流程标准化流程+工具阿里云可观测峰会Observability ConferencePart.01 背景及现状:工作内容告警&应急处理流程工具阿里云可观测峰会Observability Conference目录背景及现状系统架构简介系统现状工作内容01实践经验分享可观测数据的收集和接入数据可视化和问题排查告警分级响应机制白屏化运维工具链建设02总

42、结和未来工作告警准确度&接手率优化多类型数据联动埋点成本控制03阿里云可观测峰会Observability ConferencePart.02 实践经验分享可观测数据的收集数据可视化及问题排查告警&应急处理阿里云可观测峰会Observability ConferencePart.02 实践经验分享:可观测数据收集&接入指标(Metrics)数据阿里云可观测峰会Observability ConferencePart.02 实践经验分享:可观测数据收集&接入指标(Metrics)数据阿里云可观测峰会Observability ConferencePart.02 实践经验分享:可观测数据收集&接入

43、指标(Metrics)数据阿里云可观测峰会Observability ConferencePart.02 实践经验分享:可观测数据收集&接入指标(Metrics)数据阿里云可观测峰会Observability ConferencePart.02 实践经验分享:可观测数据收集&接入指标(Metrics)数据 接入难度?可靠性&运维成本?易用性?采集能力?存储能力?Metrics协议选型:Prometheus(毋庸置疑)开源自建 or 云托管Prometheus?阿里云可观测峰会Observability ConferencePart.02 实践经验分享:可观测数据收集&接入指标(Metrics)

44、数据一键接入阿里云可观测峰会Observability ConferencePart.02 实践经验分享:可观测数据收集&接入指标(Metrics)数据K8s基础监控&节点状态的接入(ACK组件管理中心)阿里云可观测峰会Observability ConferencePart.02 实践经验分享:可观测数据收集&接入指标(Metrics)数据Kafka的接入(Prometheus云服务实例)阿里云可观测峰会Observability ConferencePart.02 实践经验分享:可观测数据收集&接入指标(Metrics)数据云盘ESSD监控的接入(CSI存储插件监控)阿里云可观测峰会Obs

45、ervability ConferencePart.02 实践经验分享:可观测数据收集&接入指标(Metrics)数据应用埋点+服务发现阿里云可观测峰会Observability ConferencePart.02 实践经验分享:可观测数据收集&接入指标(Metrics)数据Java组件的接入(MicroMeter/Spring BootActuator+ServiceMonitor)阿里云可观测峰会Observability ConferencePart.02 实践经验分享:可观测数据收集&接入指标(Metrics)数据Java组件的接入(MicroMeter/Spring Boot Act

46、uator+ServiceMonitor)阿里云可观测峰会Observability ConferencePart.02 实践经验分享:可观测数据收集&接入指标(Metrics)数据Go组件的接入(Prometheus Go SDK+ServiceMonitor)阿里云可观测峰会Observability ConferencePart.02 实践经验分享:可观测数据收集&接入指标(Metrics)数据R:Rate,接口调用频率E:Error,接口错误数D:Duration,接口RT无侵入监控接口RED(基于eBPF)阿里云可观测峰会Observability ConferencePart.02

47、 实践经验分享:可观测数据收集&接入指标(Metrics)数据应用层接口RED状态的接入(基于eBPF)ACK组件管理中心安装cmonitor即可阿里云可观测峰会Observability ConferencePart.02 实践经验分享:可观测数据收集&接入链路(Trace)和日志(Log)数据链路及日志读写链路监控:基于ARMS Cmonitor&链路追踪系统组件日志:基于arms-Promtail&LokiK8s系统事件日志:基于ARMS事件中心阿里云可观测峰会Observability ConferencePart.02 实践经验分享:可观测数据收集&接入读写链路监控和问题定位阿里云可

48、观测峰会Observability ConferencePart.02 实践经验分享:可观测数据收集&接入组件运行日志收集和存储阿里云可观测峰会Observability ConferencePart.02 实践经验分享:可观测数据收集&接入K8s运行事件收集和监控阿里云可观测峰会Observability ConferencePart.02 实践经验分享:数据可视化及问题排查Grafana大盘配置实践大盘配置Tips 控制查询时间线个数,避免TimeSeries Panel渲染压力大 善用Variable,包括数据源类型变量,值类型变量等 可使用Transform让Table Panel灵活

49、显示统计信息 分清Range&Instant查询,避免无用的范围查询拖慢大盘显示速度阿里云可观测峰会Observability ConferencePart.02 实践经验分享:数据可视化及问题排查Grafana大盘配置实践:内部大盘分享K8s集群总览阿里云可观测峰会Observability ConferencePart.02 实践经验分享:数据可视化及问题排查Grafana大盘配置实践:内部大盘分享节点水位阿里云可观测峰会Observability ConferencePart.02 实践经验分享:数据可视化及问题排查Grafana大盘配置实践:内部大盘分享全局SLO阿里云可观测峰会Obs

50、ervability ConferencePart.02 实践经验分享:数据可视化及问题排查Grafana大盘配置实践:内部大盘分享 Kafka客户端及服务端监控阿里云可观测峰会Observability ConferencePart.02 实践经验分享:数据可视化及问题排查Grafana大盘配置实践:内部大盘分享Java应用运行情况监控阿里云可观测峰会Observability ConferencePart.02 实践经验分享:数据可视化及问题排查Grafana大盘配置实践:内部大盘分享 Table格式的错误类型复盘统计表阿里云可观测峰会Observability ConferencePar

51、t.02 实践经验分享:数据可视化及问题排查问题排查案例分享:基于Histogram指标和Loki日志的服务慢查询问题排查阿里云可观测峰会Observability ConferencePart.02 实践经验分享:告警和分级响应机制应急响应流程告警配置排班告警触发应急处理事后复盘和机制优化阿里云可观测峰会Observability ConferencePart.02 实践经验分享:告警和分级响应机制原有告警系统中存在的问题告警配置排班告警触发应急处理事后复盘和机制优化难以跨Region同步生效告警,配置工作效率低且易出错告警依赖自建定时任务检查,稳定性难以保证原有系统的问题阿里云可观测峰会O

52、bservability ConferencePart.02 实践经验分享:告警和分级响应机制原有告警系统中存在的问题告警配置排班告警触发应急处理事后复盘和机制优化排班依靠手工,易出现漏排班或backup缺失原有系统的问题阿里云可观测峰会Observability ConferencePart.02 实践经验分享:告警和分级响应机制原有告警系统中存在的问题告警配置排班告警触发应急处理事后复盘和机制优化告警触发条件单一,难以在告警触发链路上增加额外业务逻辑(如动态阈值,动态打标等)原有系统的问题阿里云可观测峰会Observability ConferencePart.02 实践经验分享:告警和分

53、级响应机制原有告警系统中存在的问题告警配置排班告警触发应急处理事后复盘和机制优化告警无法主动认领,易出现无人处理的告警告警无法主动屏蔽,问题发生时易出现告警风暴原有系统的问题阿里云可观测峰会Observability ConferencePart.02 实践经验分享:告警和分级响应机制原有告警系统中存在的问题告警配置排班告警触发应急处理事后复盘和机制优化告警体系没有事后复盘和优化,易出现大量的低价值告警告警处理情况难以进行事后统计,缺乏数据支撑原有系统的问题阿里云可观测峰会Observability ConferencePart.02 实践经验分享:告警和分级响应机制基于ARMS告警运维中心的

54、告警系统建设实战ARMS支持的解决方案:告警模板全球生效功能难以跨Region同步生效告警,配置工作效率低且易出错告警依赖自建定时任务检查,稳定性难以保证原有系统的问题阿里云可观测峰会Observability ConferencePart.02 实践经验分享:告警和分级响应机制基于ARMS告警运维中心的告警系统建设实战ARMS支持的解决方案:告警排班表和动态通知排班依靠手工,易出现漏排班或backup缺失原有系统的问题阿里云可观测峰会Observability ConferencePart.02 实践经验分享:告警和分级响应机制基于ARMS告警运维中心的告警系统建设实战ARMS支持的解决方案

55、:事件处理流和告警富化Demo:基于ACM配置中心+Serverless云函数+ARMSITSM的告警动态优先级告警触发条件单一,难以在告警触发链路上增加额外业务逻辑(如动态阈值,动态打标等)原有系统的问题阿里云可观测峰会Observability ConferencePart.02 实践经验分享:告警和分级响应机制基于ARMS告警运维中心的告警系统建设实战ARMS支持的解决方案:告警的认领、关闭和屏告警无法主动认领,易出现无人处理的告警告警无法主动屏蔽,问题发生时易出现告警风暴原有系统的问题阿里云可观测峰会Observability ConferencePart.02 实践经验分享:告警和分

56、级响应机制基于ARMS告警运维中心的告警系统建设实战ARMS支持的解决方案:告警的认领接手率统计大盘告警体系没有事后复盘和优化,易出现大量的低价值告警告警处理情况难以进行事后统计,缺乏数据支撑原有系统的问题阿里云可观测峰会Observability ConferencePart.02 实践经验分享:告警和分级响应机制基于Grafana的白屏化运维工具链阿里云可观测峰会Observability Conference目录背景及现状系统架构简介系统现状工作内容01实践经验分享可观测数据的收集和接入数据可视化和问题排查告警分级响应机制白屏化运维工具链建设02总结和未来工作告警准确度&接手率优化多类型

57、数据联动埋点成本控制03阿里云可观测峰会Observability ConferencePart.03 总结&未来工作告警准确度和接手率的优化及时调整不合理的告警阈值,尝试多阈值告警埋点成本控制自监控指标的维度治理和无用数据清理多类型数据联动尝试将三类可观测数据与Profiler进行联动,提升问题排查效率阿里云可观测峰会Observability Conference加入钉群,了解更多可观测实践阿里云可观测峰会Observability Conference友邦人寿可观测体系设计与落地沈斌客户背景部分友邦保险友邦人寿 卓越的营销员队伍 6W健康长久好生活2021最佳保险科技平台 友邦友享APP

58、沈斌CloudSolution-云应甠架构负责人业务特点和架构 业务复杂性高 安全性要求高 稳定性要求高 性能要求高保险行业的特点 历史包袱重 技术架构复杂 调甠链路复杂 网络链路复杂保险行业架构特点Kubernetes生态IaaS:VM、存储、网络、安全服务领域A微服务A1微服务A2服务领域B微服务B1微服务B2PaaS:数据库、中间件应甠系统1数据库中间件操作系统物理服务器+存储+网络设备+安全设备VM虚拟机AS400OLAS应甠系统2IDCAli Cloud可观测性建设痛点和挑战微服务化程度高业务监控指标分散全局视角1.观测复杂度提升Servlet Structs WebServiceS

59、pringCloud SpringBoot技术栈不统一 版本差异大2.技术选型困难角色分工数据隔离3.统一观测困难观测指标繁多业务指标多指标沉淀4.指标治理复杂的应甠部署架构调甠链不完整故障定位困难5.快速故障定位可观测性建设流程和规划 业务目标调研 技术架构调研应甠架构系统架构部署架构 运维体系调研 痛点、差距分析 统一监控目标制定 服务资源追踪CPU,内存,磁盘,网络,IO,应甠指标 服务的Top N视图按照服务调甠量按照请求耗时按照热点排名 调甠链追踪关联服务上下游,无侵入,关联日志 调甠时长分布观察服务上下游耗时,异步耗时 数据库关联操作慢SQL,Redis慢查询 可观测性架构改造 统

60、一监控大盘配置业务监控大盘配置应甠性能监控大盘配置资源(容器、中间件等)大盘配置 统一日志配置及改造日志规范日志采集、配置 统一报警设计报警规则配置报警渠道对接 监控正式上线 统一监控展示 故障排查演示 知识分享1.调研分析2.方案设计3.改造实施4.上线验证阿里实施部分个人介绍&云原生服务介绍个人介绍花名:右京阿里云GTS-交付技术部 交付专家云原生布道师、爱好者、实践者企业云化IT治理服务(Langing Zone)应用容器化交付服务微服务架构咨询服务可观测性咨询和实施服务应用架构优化服务云原生服务介绍容器 CaaS 资源监控物理机/虚拟机层监控友邦保险-可观测性整体设计思路1、根据业务价

61、值设计自上而下的监控系统,明确应甠系统中更有价值的部分,优先业务监控,应甠监控、资源监控依次向下推进2、需要回答客户几个问题:出问题了吗?哪里出问题了?是什么问题?提升甠户体验洞察及故障定位能力3、最后考虑可观测架构设计(metrics、tracing、logging)和 开源可观测组件、云厂商产品的选型业务指标监控应用调用链监控应用性能监控CPU、内存、网络、磁盘、TCP、Load JVM 堆内存、GC、Thread,Method性能.POD内存、CPU、健康度(Running、Pending、Failed)、集群资源监控、核心组件、运行事件服务调甠全景、RT、TPS、Exception、慢

62、sql、MQ、Redis业务核心指标,如:订单数量、订单金额、日活、月活、投保人数及其它业务指标自上而下设计云监控Prometheus+GrafanaARMS+SLS应用日志业务日志、应甠日志、异常日志自下而上设计X友邦保险 全生命周期监控指标设计1.Pipeline监控2.系统层监控3.应甠层监控4.业务层监控运行态研发态?信息展示?指标展示构建次数 构建频率构建时长 构建成功率部署频率 部署成功率部署时长应甠名 微服务名容器集群 命名空间分支名 修订版本 镜像?节点监控内存总量、使甠量、限制量CPU总量、使甠量、限制量网络带宽 磁盘空间?POD监控内存、CPU使甠量Pod健康度(Runni

63、ng、Pending、Failed)网络带宽?应用健康度耗时 状态码 联通性?应用监控实例数 累计请求量 累计错误QPS RT ErrorJVM监控(FullGC、Heap 等)慢Sql Ingress监控(访问成功率、500错误比例、平均延迟)?云产品监控SLB Redis MQ RDS?业务监控PVUV投保人数投保金额投保签单数核保通过率每天签约数友邦保险-可观测性架构大图需求简述可观测性应覆盖从研发到生产的全周期同时需要监控多个容器集群架构总结自建 Grafana V8.0+,HA 高可甠自建流水线数据采集系统,通过Grafana 展示应甠构建数据采甠 ARMS Prometheus 产

64、品监控容器集群和应甠性能及调甠链,集成Grafana 完成多集群统一监控SLS 产品完成业务日志、应甠日志、容器日志的采集/存储/展示,并通过查询语句生成指标,在grafana中展示1234友邦保险 统一监控平台(DEMO演示)研发流水线指标,度量研发效率应甠性能指标、全局调甠链、日志,快速定位跟因素业务监控大盘容器双集群监控大盘POD 健康度及联通性告警推送(小屏)31通过应甠统一监控平台,形成指挥决策、仪表盘展示、告警推动多维度监控能力指挥决策(大屏)2仪表盘(中屏)业务指标+通甠指标全局呈现,形成决策支撑实时监控告警呈现,及时响应钉钉呈现业务系统的核心监控告警阿里云ACK容器服务生产级可

65、观测体系建设实践冯诗淳(行疾)阿里云-云原生ACK容器服务团队引言-可观测能力对用户IT系统的重要性2022年1季度,权威咨询机构 Forrester 发布的公共云容器平台分析师报告中,阿里云容器服务ACK成为比肩Google的全球领导者。首次有中国科技公司进入容器服务领导者象限。其中可观测能力(Observability)得到了分析师非常高的肯定:Excellent Seamless Efficient“Reference customers praised its excellent observability in logging and monitoring,efficient clu

66、ster lifecycle operation,and seamless integration with other services.”Data source:Forrester Wave:Public Cloud Container Platforms 2022Q1.https:/ 业务异常故障诊断场景场景二 稳定性保障场景与实践场景三 生产级规模集群稳定性保障实践01ACK可观测体系介绍1.1 ACK可观测体系全景桜要介绍1.2 ACK中的Logging体系1.3 ACK中的Metric体系1.4 ACK中的Tracing体系02基于ACK可观测能力建设Ops体系3.1 DevOps

67、/ITOps/AIOps3.2 FinOps03内容大纲1.1 ACK可观测体系介绍-全景概要介绍 容器服务日志监控 容器服务Ingress Dashboard ARMS 前端监控 容器服务事件中心 容器服务报警中心 Kubernetes监控(无侵入、架构拓扑感知)阿里云Prometheus 云监控 基础资源监控 操作系统内核层 虚拟化层监控 JAVA应甠监控 OpenTracing/OpenTelemetry(ARMS APM)From blog of Peter Bourgon场景一:异常诊断场景的可观测能力实践1.Alert(Stop Bleeding!)2.Ingress Dashbo

68、ard3.Adhoc Query5.Distributed Tracing&Profiling(Located Root Cause!)6.Fix!(Close the Loop!)4.Log Aggregation1.2 ACK可观测体系-事件体系介绍Kubernetes Application EventsOS/Kernel Exception EventsCluster Ops EventsInfrastructure Platform EventsCluster Control Plane EventsSurfaceBottomKubernetes Runtime Events1.2

69、ACK可观测体系-事件体系介绍开箱即甠的事件中心能力强大、灵活、易甠的数据分析能力以事件为锚点的资源生命周期监管控能力Pod生命周期事件1.2 ACK可观测体系-日志体系介绍Event Center from SLSPrebuilt Dashboard for Ingress access log from SLSLogging-Prebuilt-E.g.IngressLogging-AuditLogging Application Logs 1.3 ACK可观测体系-Metric体系介绍Prebuilt Dashboard from ARMS PrometheusPrebuilt K8S D

70、ashboards One Service for All MetricsCluster Control Plane Metric EnhancementApplication ComponentsCloud ServiceKubernetes MetricsMore enhance features refer to Prom for ACK ProK8S kubeletK8S Control PlaneK8S Storage-CSIK8S NetworkCoreDNS/TerwayAI on K8S-GPUK8S AddonFinOps/Profile场景二:稳定性保障-2022冬奥会 A

71、CK助力圆满平稳举行保障冬奥会多个业务系统稳定运行阿里云ACK 保障冬奥会业务稳定。包括奥林匹克国际官网、奥林匹克频道OCS、奥林匹克广播服务公司OBS等,涵盖比赛场馆票务、新闻发布会系统、冬奥会官方App冬奥通、广播数据推送、自动化媒体标注、国际实时信号转播、数据仓库、人员抵离ADS、网约车出行RHP等多个业务场景保障冬奥通App超大流量访问顺滑冬奥通后台应甠为java系的微服务架构,包含了近千个Kubernetes的Deployment应甠实例,ACK引入了自动化评估配置合理性的手段来快速发现异常的内存配置,避免冬奥会期间应甠的OOM的产生,保障了赛事期间的应甠稳定性Beijing 202

72、2 Winter OlympicsTechnical Operation CenterOn Beijing Gov RegionMy 2022OneAppTicketingSystem onACKEdgeInfoAV-News and press conference场景三:生产级规模集群稳定性保障实践场景3.1:用户侧组件异常请求泛滥影响apiserver场景3.2:K8S集群的SLB带宽打满影响apiserver常见于千级别节点规模集群,用户应用进行密集、大规模ListWatch集群内Node/Pod资源。API Server请求数高位API Server Mutating请求数处于高位A

73、PI Server 开始出现丢弃请求诊断路径:1.【问题快速发现】依据API-Server指标水位进行问题定位2.【根因快速定位】依据API-Server访问日志定位问题瓶颈应用3.【止血/闭环问题】停止/优化应用的List-Watch资源行为、性能。API Server请求延时RT飙升至高位API Server 只读请求数飙升API Server访问日志出现大量秒级频率读请求1.3 ACK可观测体系-Prometheus For ACK ProMore enhance features refer to Prom for ACK ProPromethues For ACK Pro包含一组符合

74、关联分析逻辑且可交互的大盘,包含标准输出日志,集群事件,eBPF无侵入式应用指标,系统指标,网络指标,Kubernetes管控等数据源,针对全局和特定资源,提供总览发现问题,细节定位问题的一致性体验。2.ACK可观测体系-Tracing体系介绍 应用层Trace14phpnode.jsgoLangrubyProprietaryagentsProprietaryagentsProprietaryagentsJaegre|ZipkinSDKJaegre|ZipkinSDKProfilingServiceMetricsServiceTracingServiceDashboardAlertingrep

75、ortingRealtime CalculatingUnified Storage代码堆栈级调用监控Profiling分布式全局拓扑图分布式调用追踪多种语言支持应用实时监控服务OpenTracing and OpenTelemetry Support 无侵入代码即可获得Profiling、微服务分布式调用追踪能力。2.ACK可观测体系-Tracing体系介绍-集群网络、调用Trace基于eBPF插桩技术,内核层面、零代码改动、低性能消耗全局拓扑快速定位调用链异常通过网络拓扑,资源拓扑展示相关资源的关联。K8S应用全局拓扑视角service/deployment topology and wor

76、kload-resource mapping统一视图,集合metrics/traces/events/logs,支持可观测的各种类型数据。KerneleBPFeBPF AgentContainerContainerPrometheus ServiceTracing Analysis ServiceACK可观测场景与实践介绍(穿插介绍)场景一 业务异常故障诊断场景场景二 稳定性保障场景与实践场景三 生产级规模集群稳定性保障实践01ACK可观测体系介绍1.1 ACK可观测体系全景桜要介绍1.2 ACK中的Logging体系1.3 ACK中的Metric体系1.4 ACK中的Tracing体系02基

77、于ACK可观测能力建设Ops体系3.1 DevOps/ITOps/AIOps3.2 FinOps03内容大纲3.基于ACK可观测能力建设AIOps体系基于ACK事件体系快速构建事件驱动(event-driven)的AIOps体系Event CenterControl PlaneWorker NodePolicy InspectorPodPodCSI/CNINPDWorker NodePodPodCSI/CNINPDK8s EventsACK Infrastructure EventerInfra EventsE.g.VM crashedSLS Log StoreEvent BridgeAler

78、t ManagementOne Event SpecOne Event ProcessingOne Alert MgmtMQFunctionComputeACRImage lifecycleEventsE.g.push/scan imageK8s RuntimeEventsNode OS/KernelEventerKernel EventsE.g.SoftLockUpHung3.基于ACK可观测能力建设ITOps体系基于ACK报警中心功能快速构建运维ITOps体系ITOpsSOP开箱即用报警中心能力支持配置灵活规则订阅关系 快速建立ITOps体系异常分类对应常见问题SOP处理流程 缩短故障处理

79、时间3.基于ACK可观测能力建设FinOps体系企业降本增效面临5大难题:2021 CNCFFinOps Kubernetes Report规划难、计费难、分账难、优化难、管理难1独有的云原生容器场景成本分摊与估算模型3全场景的成本优化能力、解决方栾的覆盖。5企业云原生IT成本治理的专家服务。4全场景的成本优化能力、解决方栾的覆盖。2多维度的成本洞察、趋势预测、根因下钻。云原生企业IT成本治理方案-加速企业FinOps进程3.基于ACK可观测能力建设FinOps体系基于ACK可观测能力建设FinOps体系 降本增效专题-客户栾例实践 客户痛点中华财险作为互联网金融场景的头部客户,在云原生化的过

80、程中,需要在千核级别规模的集群中,同时管理运维多个SaaS化的线上业务,具有高度多租化、对业务稳定性要求高、对业务资源、成本趋势敏感度高等行业特点。在云原生化过程中也面对了多租业务容量规划难、算清成本难、闲置/浪费资源难发现、资源成本优化与业务稳定性难平衡等挑战。解决方案1.使甠压测服务PTS压测实际业务场景,有理有据进行容量预算规划。2.使甠费甠中心/ACK成本分析清晰进行业务单元的成本拆分与分析,实现云原生环境下业务单元账算得清。3.使甠ACK成本分析发现并优化闲置浪费资源,逐步优化调整应甠资源分配,持续收敛集群闲置资源。4.细粒度容器化部署,根据业务量拆分应甠成多个小更细粒度副本,根据业

81、务实时流量弹性扩容来细粒度分配实际资源,资源成本分配更合理,更少资源浪费。5.核心应甠保质保量,设置节点亲和,预留干扰预算,避免资源争抢等造成业务影响,保证生产业务质量。优化效果拥有多个千核级别规模的生产集群,资源浪费情况从上云前的30%+闲置率,逐步优化最终达到压制到平均10%资源闲置率以下,部分稳定业务集群甚至可以做到5%以下资源闲置率。图1.某集群中业务应用成本分布与闲置率图2.某集群中业务应用的浪费情况发现分析微服务异常诊断与根因分析算法实践阿里云 日志服务 刘贵阳个人介绍刘贵阳(悟冥),2018年加入阿里云SLS团队负责日志服务平台AIOps系统建设,主要关注时序异常检测、因果推断、

82、根因分析、图数据挖掘等问题。分享大纲AIOps系统能力有哪些?AIOps系统落地的挑战从机器学习视角浅谈AIOps系统能力SLS具备什么样的能力?01异常诊断和根因分析算法介绍对“微服务”系统中的问题进行拆解如何通过数据和算法解决诊断和定位问题02微服务诊断分析案例实验环境介绍算法效果演示03分享主题AIOps系统能力有哪些?AIOps系统落地的挑战 从机器学习视角浅谈AIOps系统能力 SLS平台具备什么样的能力?AIOps系统落地的挑战规模大产品线众多,模块众多观测对象、指标、事件众多变化快服务变更频繁日志格式变化频繁界定不清晰单点异常和全局异常无法界定服务之间关系复杂,异常传导很复杂从机

83、器学习视角浅谈AIOps系统能力数据预处理模型训练模型评估模型更新从DevOps-DataOps-MLOps-AIOps演进来看,我们要解决AIOps中的问题,那边必须具备“数据”+“建模”的能力!SLS是什么?日志服务 SLS 是云原生观测与分析平台,为 Log、Metric、Trace 等数据提供大规模、低成本、实时的平台化服务。日志服务一站式提供数据采集、加工、查询与分析、可视化、告警、消费与投递等功能,全面提升您在开发、运维、运营、安全等场景的数字化能力。Log/Metric/Trace统一接入一站式SLS提供的基础能力分享主题异常诊断和根因分析算法介绍 对“微服务”系统中的问题进行拆

84、解 如何通过数据和算法解决诊断和定位问题智能运维场景的拆解(功能角度)故障预测针对历史事件热点分析容量预测趋势预测针对当前事件针对未来事件瓶颈分析热点分析指标聚类指标关联关系指标因果关系全链路分析故障传播关系构建异常检测快速止损异常定位异常报警聚合故障根因分析引甠自“裴丹”教授的分享智能运维场景的拆解(系统角度)智能运维场景的拆解(系统角度)智能运维场景的拆解(系统角度)对“微服务”系统进行抽象服务节点机器节点通过请求数据典型的微服务系统部署模型服务混部,故障可传播服务和机器的位置关系变化频繁指标和事件的粒度很细关于“微服务系统”需要关注什么?容量管理基础资源利甠率应甠服务利甠率极致的资源弹性

85、配置管理和编排应甠配置管理应甠和服务之前的依赖管理自动化部署服务监控和诊断服务自动发现Trace、Log、Metric、Event采集基础设施监控应用服务监控故障快速定位通过“指标”了解“系统”的状态单个对象系统对象是否有异常?多维度之间的影响关系如何?系统间的异常如何传导?通过“图”来看单时序的演化(StateGraph)Cheng,Ziqiang,et al.Time2graph:Revisiting time series modeling with dynamic shapelets.Proceedings of the AAAI Conference on Artificial In

86、telligence.Vol.34.No.04.2020.SegmentShapeletEvolutionary State GraphHu,Wenjie,et al.Time-series event prediction with evolutionary state graph.Proceedings of the 14th ACM International Conference on Web Search and Data Mining.2021.Y:下一个时间分段的状态通过“图”来看单时序的演化(StateGraph)Cheng,Ziqiang,et al.Time2graph:R

87、evisiting time series modeling with dynamic shapelets.Proceedings of the AAAI Conference on Artificial Intelligence.Vol.34.No.04.2020.Hu,Wenjie,et al.Time-series event prediction with evolutionary state graph.Proceedings of the 14th ACM International Conference on Web Search and Data Mining.2021.寻找系

88、统视角“端到端”KPI异常检测方法反馈调参训练模型优化手段异常检测器时序指标同环比基线检测ML检测时序指标时序指标?现阶段对于“检测”我们是怎么做的?寻找系统视角“端到端”KPI异常检测方法寻找系统视角“端到端”KPI异常检测方法?如何区分流量的“自然下降”和“依赖服务异常”引发的下降??算法模型能否适应“系统自愈阶段的异常”??“告警风暴”的治理能否在“告警产生”阶段就处理掉??能否将“系统”作为整体进行“异常检测”??几个出发点o 服务的SLA是可以直接反映服务质量的;o 各个子系统分别对“调甠方”保障服务的SLA;o 下游系统的异常按照一定的逻辑传递到上层;?样本的采集o 按照各种流量P

89、attern给系统进行流量压力模拟;o 采集正常时的系统的观测作为正样本;o 每隔一段时间给系统中随机注入异常,并将这时的样本作为负样本;?模型的建立o 以“图模型”为基础,完成各服务节点间的“特征”的传递;o 使甠“分类”任务作为下游任务,进行学习模型设计通过“文本”了解“系统”的状态系统中的“边”基于“异构图神经网络”的根因定位分享主题微服务诊断分析案例 实验环境介绍 算法效果演示实验环境介绍o 在K8S环境中搭建的Sock Shop微服务系统o 通过iLogtail去采集ECS物理机的指标信息o 通过RemoteWrite方式存储集群的Prometheus数据o 在Sock Shop微服

90、务环境中接入Open Telemetry协议的Trace探针o 使甠ebpf去采集集群中的网络连接o K8S集群中的事件数据Remote WriteSLSiLogtailiLogtail硬件和数据环境实验环境介绍?实验特征数据ECS指标POD指标业务指标事件数据元数据实验环境介绍?实验中的异常注入o 使甠LOCUST进行流量模拟o 提供不同甠户数、不同服务入口、不同访问频率的模拟流量?流量模拟服务(POD维度)机器(ECS)注入命令CPU故障stress-ng-matrix X-t XX内存OOMstress-ng-brk X-t XXstress-ng-bigheap X-t XX网络延时t

91、c qdisc add dev eth0 root netem delay 500ms;sleep 60;tc qdisc del dev eth0 root网络丢包tc qdisc add dev eth0 root netem loss 0.3%25%o 使甠stress ng/tc工具分别在物理机、容器环境中注入不同类型的异常o 通过参数来调整异常程度的大小,尽可能使得某个异常的注入去影响服务实验中的微服务拓扑图实验结果说明?实验样本o在一个具有20台ECS机器的K8S集群中,部署了Sock-Shop微服务系统o通过Locust注入不同波形和压力的流量o通过故障注入命令,在POD和ECS

92、中每小时随机注入不同类型的异常?特征和关系oPOD的指标和事件特征汇总到服务节点o通过Prometheus可以准确的描述POD和ECS的关系o通过Istio可以准确的拿到一段时间的POD和POD之间的关系服务名front-endorderscatalogueusercartsshippingpaymentavergaeLatencyPR30.880.910.90.890.90.910.910.9CPU HighPR31.01.01.01.01.01.01.0MemoryPR31.01.01.01.01.01.01.0下一步的重点?算法下一步重点o现阶段大量的实验使甠的GCN网络,对于“异常现场

93、”的可解释性要进一步探索o目前很多地方还是需要标签的,如何能降低对于标签的依赖?o探索是否有更加通甠的网络结构,可以较好的迁移到其它“微服务”系统?工程化和产品化o接下来,会逐步将这个场景的算法,集成到SLS平台o将建模和标注能力整合到产品中去阿里云 Serverless 可观测最佳孬践孔德慧目录Serverless 简介01函数计算内置可观测能力02函数计算孿开源和三方可观测能力的探索03物理机虚拟化云主机孴器ServerlessServerless 是云原生技术发展甹高级阶段,Serverless 界对于 Serverful,对甠户强调 No Server(Serverless 并不是说没

94、有服务器,只是业务人员无需关注服务器,代码仍然是辡行在畑实存在甹服务器之上),计算资源甹维护交给了云服务。甠户只需要聚焦业务逻辑代码、按实际使甠付费。业务逻辑底宗孬现孴器Serverless资源成本人力成本云主机虚拟化物理机不关心关心关心高低高从物理机到 Serverless不同抽象级别的 Serverless 形态Serverless vs FaaSFaaS 下的可观测函数计算架构的特征:?组件分家化典型甹事件触发场景,请求流转多款云产品,函数计算只是其中一环?调度黑盒化,执行环境黑盒化调度节点与执行环境归云产品所有,甠户无法感知?极致的弹性,毫秒级扩缩孴函数计算可观测面临的挑战:?数据收集

95、难实例生命周期短,实例规格丰富(最小只有 128M 内存,1/12 vCPU)传统甹部署 agent 甹可观测技术无法施展?问题孨位难?分布式甹组件使得畁控数据散落在各处,定位问题流程繁琐?调度黑畂化、执行环境黑畂化要求云产品侧暴露更多指标?函数调甠与资源调度以请求为粒度,以实例为粒度甹畁控不足以帮甠户快速定位问题FaaS 下的可观测函数计算可观测的目标?提供开箱即用的观测寉台,统一的观测页面?平台端无侵入地进行数据甹采集、上报、处理、展示?提供丰富甹指标、完备甹日志、详细甹调甠链?以请求为粒度实现全链路男畂化?兼孴传统开发者的开发习惯?数据开放,协议开源开箱即用开源开放兼孴体验?兼容传统开发

96、者以实例为问题定位单元甹观测体验?观测数据投递给甠户,允许甠户自定义处理?协议使甠开源规范,方便甠户统一处理目录Serverless 简介01函数计算内置可观测能力02函数计算孿开源和三方可观测能力的探索03函数计算可观测能力函数计算可观测能力图谱函数计算可观测能力数据采集数据孖储数据处理数据实示?存储到甠户云产品中?数据开放,甠户可以进行自定义处理与二次加工?可扩展性强?Serverless 架构甹 Web API,弹性高可甠?统一甹多维度甹展示平台?无侵入?支持多租?支持异构执行环境端侧数据采集?采集函数调甠产生甹 Metrics/Logs/Traces?不侵入甠户 runtime,不占甠

97、甠户资源?支持多租,并发收集不同甠户甹数据?支持不同执行环境?数据采集随实例生命周期启停采集内孴:日志采集数据采集特点?函数输出到标准输出甹日志?函数日志/实例日志指标采集?请求级别指标(请求执行时间、错误类型、调甠类型、资源类型等)?实例级别指标(实例 CPU/内存/网络流量)调用链采集?基于 OpenTracing 协议?自动上报系统内部耗时,如调度耗时、冷启动耗时、异步调甠队列积压耗时Serverless 化的数据处理架构?Serverless 架构,毫秒级扩容,轻松应对突发流量?国内外多区域部署,避免跨洋网络问题?性能优化稳孨性极致的体验1.开箱即用的统一可观测寉台丰富甹指标请求粒度畁

98、控-请求粒度指标请求粒度甹畁控-请求粒度甹日志请求粒度甹畁控 请求粒度甹调甠链极致的体验2.兼孴传统开发者的开发习惯提供实例级别畁控实例级别指标实例级别日志实例甶录函数计算可观测能力典型场景问题排查 Demo1.函数错误问题定位2.冷启动请求耗时分析目录Serverless 简介01函数计算内置可观测能力02函数计算孿开源和三方可观测能力的探索03扩实变成模型?FC 实例请求执行完成后实例会被冻结,下次请求来时才解冻?FC 实例生命周期短,且產系统控制,对甠户不可见?观测数据一般產后台定时批量发送观测数据在 FC 系统中大概率发送失败扩实编程模型?允许甠户畁听实例生命周期事件?在 Prefre

99、eze 中上传观测数据?在 Prestop 中关闭观测线程孿开源和三方可观测能力的探索Grafana Dashboard集成听云 APM集成 NewRelic APM?By?-?#01?#03?&?#04?“?”?#02?&?#01?#03?&?#04?&AIOps?“?”?/?Trace?3D?#02?IT?#3?/?IT?#1?#2?/?/?/?/?/?/?/?/?/?/?/?/?IP?/?SQL?SQL?/?2D?3D?/?/?/?/?/?/?/?/?/?IP?/?SQL?SQL?/?2D?3D?2022?9?-ObservableX Team?OPLG?0?1?-?Observabil

100、ity Conference?2016?EagleEye?2019?GitHub?StabilityGuide?ARMS?EagleEye?2016?2019?StabilityGuideGitHub?2021?ARMS?Observability Conference?2010?2020?2000?&?Web?APM?MetricsLogsMetricsTracesLogsTracesMetricsLogs?Observability Conference?+DevOps?+?/?/?Observability Conference?OPLG?Metrics?Traces?OPLG?OPLG

101、?(O)penTelemetry Traces?(P)rometheus Metrics?(L)oki Logs?(G)rafana Dashboards?OPLG?OpenTelemetry Collector?“?”?Observability Conference?OPLG?Traces-OpenTelemetryMetrics-PrometheusLogs-Loki?OpenTelemetry Collector?ARMS?/?Grafana?ARMS?Observability Conference?OpenTelemetry Collector?OTel?OTel API OTel

102、 SDK?Kubernetes L7 Proxy?OTel Collector?APIs?&APIOTLPOTLPOTLPOTLP?/?OTel SDK/APIPrometheus Exporter?/?Tagging?Tail-based Sampling?Observability Conference?ARMS?Metrics?70%?10?7 30?10?Traces?App+TraceId?3 10?Logs?HA?99.5+%SLA?Region?AZ?SLO?&?SLO?7*24H?ProjectProjectProject?AppLogStoreLogStoreLogStore

103、LogStoreLogStoreLogStore?TraceId?Project?LogStore?TraceId?Project?LogStore?/DDoS?Gateway?Kafka?-A?-B?-C?Streaming?SLS/InfluxDB/ClickHouse/MongoDB/OSS?Query Server?Observability Conference?Grafana+ARMS?Grafana?+?=?PromQL?LogQL?/?/SRE?Grafana?ARMS?Grafana?ARMS?Grafana?Grafana?Observability Conference?

104、OPLG+ARMS?0?1?Demo1?OpenTelemetry+ARMS?Demo4?RASP?Demo2?Prometheus+Grafana?Demo3?Loki?Demo5?DevOps?OpenTelemetry?Prometheus?eBPF?Observability Federation?ChatOps?Observability ConferenceTHANKS/?GitHub?StabilityGuide?基于eBPF的Kubernetes可观测最佳实践刘洋(炎寻)个人简介?刘洋,花名(炎寻),阿里云技术专家?2018年加入阿里巴巴中间件SchedulerX团队?2019

105、年负责落地开放应用桟型OAM(KubeVela是该桟型的实现)?目前负责阿里云eBPF监控产品的设计与开发工作背景介绍可观测理论通辟外部输出来理解内部系统状态的能力监控可观测背景介绍问题排查的原则理解复现定位修复?基础知识?大图?细节?工具?触发条件?数据现场?治本?确定不要引入新的问题?数据关联?二分查找?关注变更背景介绍Kubernetes可观测挑战应用:微服务架构、多语言、多协议Kubernetes容器网络、操作系统、硬件基础设施层复杂度日益增加挑战1:微服务、多语言、多协议环境下,端到端观测复杂度上升,埋点成本居高不下如何关联?挑战3:数据散落,工具多,缺少上下文,排查效率低下、挑战2

106、:基础设施能力下梒,关注点分离,应用和底层之间无法自顶向下形成关联基于eBPF的可观测实践分享eBPF介绍extend Berkeley Packet Filter,在Linux 内核中辡行沙盒程序,而无需更改任何源代码或加载任何内核桟块 无侵入:成本极低。应用不需要改任何代码。动态可编程:不需要重启探针,动态下发采集脚本 高性能:自带JIT编译成native代码 安全:verifier机制保障内核辡行稳定基于eBPF的可观测实践分享基于eBPF的统一可观测平台架构数据处理数据采集高性能辦程间通信Prometheus For MetriceBPF tracing数据存储数据服务Event Em

107、itter多内核版本支持辦程信息填充事件辟滤指标,链路,日志生成Protocol AnalyzerMTL Processor调用信息组装协议解析信息收敛指标,链路,日志传输CMDB Meta fillerOtlp Collector自定义应用信息填充K8s信息填充预处理与多数据目标SLS For Trace&LogARMS ConsoleGrafana基于eBPF的可观测实践分享如何进行无侵入式多语言的协议解析HTTPRedisDNSKafkaMySQLgRPC/HTTP2(Beta)支持协议协议解析生产者消费者桟型辩接管理请梆响应匹配算法应用协议解析基于eBPF的可观测实践分享线上问题与解决

108、方法内核版本适配动态编译低版本内核支持01内核事件爆炸辟滤高性能事件传输02协议解析效率高性能解析算法多线程内存复用03指标时间线爆炸维度收敛查询优化04统一可观测交互界面统一告警告警拓扑图排查根因定位修复告警收敛,幸福感UP指标日志Trace分析黄金指标网络指标服务依赖事后复盘拓扑图高可用、依赖分析面向失败、高可用设计优化告警主动发现智能降噪、去重系统性解决决系统性解关闭全栈数据源,70+个告警桟板开箱即用:应用:Pod/Service/DeploymentK8s控制面:apiserver/ETCD/Scheduler基础设施:节点、网络、存储云服务:Kafka/MySQL/Redis/统一

109、可观测交互界面统一的关联分析逻辑目标容量规划成本消耗辦度管理内容指标链路日志&事件使用路径当前是否有问题?未来是否会有问题?问题的影响是什么?应用性能影响面问题的根因是什么?我能做什么?关联关系问题上报路径统一可观测交互界面统一Grafana大盘1.关联分析逻辑2.总览与细节3.多数据源4.异常驱动5.可交互6.可定位统一可观测交互界面统一拓扑图简易电商应用-用户界面多维过滤typenamespacename查看详情节点:负载/服务边:调用关系对应集群拓扑All in one topology:拓扑感知、依赖分析、流量监控、上下文关联、容器服务默认集群拓扑Live Demo应用代码问题系统资源

110、问题网络性能问题服务依赖问题总结与展望总结对象存储外部服务RDSKafkaJavaPython云服务/自建中间件黄金指标基础资源指标日志、事件、调用链延时错误流量L4网络指标黄金指标黄金指标黄金指标L4网络指标L4网络指标 L4网络指标 4元组 重传 丢包 RTTECS高性能无侵入基于下一代数据采集技术eBPF,无需代码辦行埋点即可获取到丰富的应用网络性能数据多网络协议支持支持HTTPRESPKAFKAJDBCGRPC等网络通讯协议,支持任意编程语言,任意栽架全栈一体化基于使用场景提供覆盖Kubernetes全栈的监控指标,链路,日志,事件的可观测数据分析智能关联基于网络拓扑、服务发现和全链路

111、追踪提供Kubernetes内各组件的上下文关联分析网关总结与展望展望eAPM无侵入式多语言性能监控分布式链路追踪应用请梆粒度的系统与网络分析01Tools动态代码调用tracing动态性能profiling动态网络包跟踪eBPF用户态开发栽架02eBPF enhanced built-in MTL应用协议支持高阶系统指标高阶网络指标03结束语免费使用、开通:https:/ Elasticsearch 内核专家Elasticsearch Top 100 Contributor Elasticsearch为什么做TSDBElastic Stack全貌Elastic Observability6E

112、lasticsearch存储指标数据的挑战ES存储指标数据痛点使甠门槛过高-需要对ES有深入掌握,才能在时序场景最佳实践成本过大-存储容量是专业TSDB容量的几十倍查询慢&复杂-需使甠复杂的DSL,而且性能不佳ES做TSDB痛点使甠门槛过高-需要对ES有深入掌握,才能在时序场景最佳实践ES做TSDB最佳实践方式:-metrics字段,只存储doc values-根据dimension字段生成时间线id-使甠时间线id做routing-使甠时间线id和timestamp做index sorting-不存储_source-查询慢&复杂-查看指标up监控曲线ES DSLPromQLup/api/v1

113、query_range?query=up&start=2015-07-01T20:00:00.000Z&end=2015-07-01T21:00:00.000Z&step=15sPOST test/_searchsize:0,query:range:timestamp:gte:2015-07-01T20:00:00.000Z,lt:2015-07-01T21:00:00.000Z,aggs:by_time_series:terms:field:_tsid,size:10,aggs:by_date_histogram:date_histogram:field:timestamp,fixed_in

114、terval:15s,aggs:last_value:top_metrics:metrics:field:up,sort:timestamp:desc查询慢&复杂-按集群维度查看index_qps监控曲线ES DSLPromQLrate(index_qps1m)/api/v1/query_range?query=rate(index_qps1m)&start=2015-07-01T20:00:00.000Z&end=2015-07-01T21:00:00.000Z&step=1mPOST test/_searchsize:0,query:range:timestamp:gte:2015-07-

115、01T20:00:00.000Z,lt:2015-07-01T21:00:00.000Z,aggs:group:multi_terms:size:50,order:order_standard:desc,_key:asc,terms:field:cluster,agg:order_standard:sum:field:index_qps,by_date_histogram:date_histogram:field:timestamp,fixed_interval:1m,aggs:tsid:terms:field:_tsid,size:5000,aggregations:downsample:r

116、ate:field:index_qps,unix:1m,detect_resets:true,order_standard:sum_bucket:buckets_path:tsiddownsample,gap_policy:skip成本过大-存储容量是专业TSDB容量的几十倍来源:https:/ vs.Elasticsearch for Time Series Data&Metrics Benchmark12x less disk space成本过大-4300MB1945MB58MB612MB0MB500MB1000MB1500MB2000MB2500MB3000MB3500MB4000MB4

117、500MB5000MBElasticsearch(Default)Elasticsearch(Best Practice)InfluxDBClickHouse存储容量对比存储容量(单位:MB)阿里云ES监控数据74x less disk space13Elasticsearch存储指标数据的优化PUT _index_template/tsdsindex_patterns:tsds,data_stream:,template:settings:index.mode:time_series,index.routing_path:dimentions.*,mappings:properties:ho

118、stname:type:keyword,time_series_dimension:true,cpu.load:type:double,time_series_metric:counter,timestamp:type:date定义索引类型为time_series,引擎内部完成时序场景最佳使用设置维度和指标字段无需设置,time_series索引会自动创建Index Template降低使用门槛TSDS:Time Series DataStreamDSTSTime Series DataStream时间分区优化降低使用门槛TSDS:Time Series DataStream降低使用门槛-TS

119、DS:Time Series DataStream使用介绍数据模型PUT _time_stream/namePUT _time_stream/test_streamtemplate:settings:index.number_of_shards:10POST test_stream/_doc GET test_stream/_search读写数据(ES原生API)创建TimeStream索引类型描述labels指标相关的属性,Time series ID可由labels生成metrics指标数据集合timestamp指标记录对应的时间POST test_stream/_doclabels:na

120、mespce:cn-hanzhou,clusterId:cn-xxx-xxxxxx,nodeId:node-xxx,label:test-cluster,disk_type:cloud_ssd,cluster_type:normal ,metrics:cpu.idle:10.0,mem.free:10.1,disk_ioutil:5.2,timestamp:00存储成本优化-降低存储容量Elasticsearch数据存储容量分析-阿里云ES监控数据存储成本优化-降低存储容量存储容量优化目标:减少元数据的容量占比 Metrics容量提高压缩率存储容量优化方式:Synthet

121、ic _source:不存储_source,使甠doc_values合成_source Synthetic _id:不存储_id,使甠_tsid+timestamp作为_id Doc_values压缩:优化lucene数据压缩,在指标存储场景,压缩率提高10倍以上存储成本优化-降低存储容量4300MB1945MB1126MB288MB58MB612MB0MB500MB1000MB1500MB2000MB2500MB3000MB3500MB4000MB4500MB5000MBElasticsearch(Default)Elasticsearch(Best Prectise)Elasticsear

122、ch(Enable Compression)Elasticsearch(no _id/_source)InfluxDBClickHouse存储容量对比存储容量(单位:MB)阿里云ES监控数据:存储容量优化结果存储成本优化-降低存储容量存储容量优化结果存储成本优化-DownSamplePUT _time_stream/test_time_streamtime_stream:downsample:interval:1m,interval:10m,ilm_policy:long_expire_policy,interval:60m,ilm_policy:long_expire_policy存储成本优

123、化-DownSample79326457437742286346400350400450500Elasticsearch原始索引Elasticsearch1分钟精度索引Elasticsearch10分钟精度索引Elasticsearch60分钟精度索引ClickHouseInfluxDB阿里云ES监控数据查询性能对比Q0:各集群tpsQ1:集群一个节点的tpsQ2:一个节点cpu指标Q3:模糊查询命中的各集群tps指标查询优化Elasticsearch查询指标数据问题说明timestamp:date_histogram:fiel

124、d:timestamp,interval:1m,aggs:tsid:terms:field:_tsid,size:5000,aggregations:downsample:rate:field:index_qps,unix:1m,detect_resets:true,order_standard:sum_bucket:buckets_path:tsiddownsample,gap_policy:skip指标查询优化Elasticsearch查询指标数据问题解决方式aggs:query:time_series_aggregation:metric:index_qps,group:,without

125、:,interval:1m,downsample:range:1m,function:rate,aggregator:sum指标查询优化支持PromQL26Elasticsearch+Prometheus+Grafana实践阿里云Elasticsearch TimeStream对Prometheus支持情况支持的Prometheus API/api/v1/query /api/v1/query_range/api/v1/series /api/v1/labels/api/v1/label/values/api/v1/metadataPromQL支持度:语法方面:selector、operator、function以及全部二元运算符(subquery、join待支持)Aggregation Operator:常甠operator(stddev、stdvar待支持)Function:常甠function(支持40+常甠function,其他function待支持)Elasticsearch+Prometheus+Grafana整合直接使用Prometheus DataSource访问Elasticsearch使用PromQL访问Elasticsearch数据直接导入Exporter对应的Dashboard即可查看大盘数据Elasticsearch对复杂PromQL的支持

友情提示

1、下载报告失败解决办法
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。

本文(2022年阿里云可观测技术峰会演讲资料PPT合集(298页).pdf)为本站 (微笑泡泡) 主动上传,三个皮匠报告文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三个皮匠报告文库(点击联系客服),我们立即给予删除!

温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。
会员购买
客服

专属顾问

商务合作

机构入驻、侵权投诉、商务合作

服务号

三个皮匠报告官方公众号

回到顶部