《云原生可观测Prometheus:构建开放的全栈可观测能力.pdf》由会员分享,可在线阅读,更多相关《云原生可观测Prometheus:构建开放的全栈可观测能力.pdf(19页珍藏版)》请在三个皮匠报告上搜索。
1、云原生可观测Prometheus:构建开放的全栈可观测能力徐葛阿里云可观测产品专家Contents目录01可观测挑战和趋势分享02基于Prometheus x Grafana构建开放的全栈可观测能力03全栈可观测最佳实践分享可观测落地挑战和趋势Observable Challenges and Trends01企业建设可观测能力核心挑战数据和工具割裂超过 63%的企业组织拥有超过 10 种 以上的工具没有统一的观测数据模型*成本膨胀业务规模扩大,观测数据指数增长数据读写性能和投入产出比面临挑战“无法兑现的价值”技术架构、技术组件迭代快,可观测能力发挥严重依赖专家经验全球化业务需求、多云、分布式
2、云战略落地,使企业建设“统一”可观测能力难度进一步增加*引用ESG调查和信通院可观测性成熟度白皮书自身性能和稳定性挑战打通了淘系所有常见中间件的调用数据;大促和单元化的容量规划、依赖分析提供了数据支撑和故障定位能力EagleEye内部工具商业化,围绕微服务应用,结合Trace、Metric、Log提供应用可观测能力ARMS 应用实时监控服务前端监控、APP监控、云拨测基于Prometheus 容器监控多语言链路追踪全栈可观测能力云原生可观测服务20022阿里云可观测十年,从自研走向开放全栈可观测以 ARMS 应实时监控服务、可观测监控 Prometheus 版、可观测可视
3、化 Grafana 版、可观测链 OpenTelemetry 版为核,打造云原生时代标准开发可观测数据生态与产品统一标准而不是统一存储连接价值而不是搬运数据建设可观测系统而不是建设数据存储系统全栈可观测是企业可观测能力核心具备全栈可观测性的组织,其年平均停机成本下降了 37%,可观测性的平均投资回报率能提高了 14%。*引自2023 Observability Forecastby New Relic基于 Prometheus x Grafana构建开放全栈的可观测能力02New Future on CloudPrometheusOpenTelemetry开源标准的数据模型和观测界面数据完全兼
4、容 Prometheus 和 OpenTelemetry 协议,核心观测完全基于 Grafana 大盘开放数据探索能力用户从使用数据到真正拥有数据,使企业能发挥可观测数据最大价值统一接入统一标准数据存储数据探索CRM 用户体验Grafana应用监控中间件监控容器监控云产品监控调用链分析指标探索OpenAPIRemote ReadRemote Write数据投递200+开箱即用的数据集成基于阿里内部专家经验沉淀的 300+观测大盘、1000+告警规则模版更丰富、更开放的生态集成能力指标级成本洞悉以指标为基本单元,构建全局指标上报量聚合视图。直观洞悉指标的成本占比分布,友邦保险基于指标成本洞察治理
5、,成本下降 30%*高基数指标分析提供了指标级、标签级基数查询,轻松获取指标的时间线数量、标签的基数。高效定位高基数指标查询慢的原因,可做数据治理提速。无端游戏基于基数洞察长周期数据查询速度提示 10 倍*指标探索集成Grafana Explore,可视化界面支持多元的函数选择,通过指标名、标签名、标签值构造 PromQL,提高易用性。指标画像支持获取指标来源、指标名称、描述、指标类型、付费方式、Job、采集周期等元信息获取,建立可观测指标知识库。指标中心全新发布,构建统一的指标生态视图阿里云 Prometheus 指标中心分析治理数据统计数据管道指标来源慢查询预聚合推荐智能降采样异常诊断指标
6、画像热查询洞察实时写入实时消费数据加工数据投递指标上报量指标时间线指标齐全度标签基数指标元信息采集间隔存储时长标签详情标签数量*数据来自已授权客户的真实数据统计覆盖14个场景包括14个场景相应响应时间、错误率、调用量、http状态码支持快速覆盖新场景新场景覆盖只需要些少量样例准确率 86.9%基于Chain-of-Thought的Prompt engineering,给大模型更多的相关领域知识,以提升LLM回答的准确率PromQL智能问答:基于 CoT 的 Prompt Engineering*截图数据来自模拟数据,仅做功能效果示意0.4元/GB50GB/月费用下降 50%99%数据写入量免费
7、试用分桶指标无损收敛通过持续迭代释放技术红利费用下降 60%无试用期限制基本无额外资源消耗说明:新计费模式将于近期开启公测两种模式数据上报量对比两种模式资源占用对比内存开销CPU开销资源消耗0.5%费用5099%histogram_quantile(0.95,sum by(le)(sum_over_time(request_duration_bucket_deltaRANGE)histogram_quantile(0.95,sum by(le)(rate(request_duration_bucketRANGE)Prometheus重磅能力:分桶指标无损收敛上线*数据来自可观测团队真实测试数据
8、全局聚合实例,实现“去中心化”全局可观测数据聚合性能提升 10 倍*全面兼容开源支持remote-read,remote-write灵活集成统一Grafana展示开箱预置 300+大盘预制多种数据源配置与阿里云权限体系预集成统一告警预置 1000+告警规则基于 ChatOps 的高效协同智能降噪阿里云容器服务ACK集群阿里云ECS集群自建Kubernetes集群(ACK注册集群)自建Prometheus阿里云云服务Prometheus实例 for Global View部署在ACK的开源组件指标ACK内的业务指标ACK基础组件指标部署在ECS上组件及业务指标自建K8S集群内指标云服务指标作为自
9、建存储源一键接入ARMS Prometheus AgentRemote WriteRead Endpoint集成exporter集成exporter&服务发现for 容器服务for ECSfor 云服务for Kubernetesfor Remote Wirte*数据来自与可观测监控Prometheus版旧版性能进行对比V10.0.x 新特性阿里云新增特性Grafana 托管服务紧跟社区云服务生态-全新的导航栏-新增 4个 panel-多数据源支持-国际化中文支持阿里云可观测可视化 Grafana 版免运维、高可用、可观测、云服务集成、数据安全,帮助企业完成统一的观测分析-SmartMetri
10、cs App插件-ARMS 告警管理 App 插件-支持免密访问及页面嵌入支持-支持阿里云账号一键登录xx-50+云服务集成-开发者版:9.9元/月-支持数据备份-免运维,自动升级,漏洞修复无忧运维可观测可视化 Grafana 版,全新推出v10.0.x云原生可观测专家服务全新发布对客户的业务现状及应用系统进行全面调研,了解客户对于业务及应用的规划以及架构,排摸出客户的业务架构、技术架构、资源架构、数据链路状况,并初步制定云上可观测性的目标基于阿里云云原生产品以及开源生态能力,设计覆盖云上、云下,囊括日志、指标、链路追踪三大观测数据的统一可观测技术架构,并帮助客户落地基于业务特点以及客户痛点,
11、梳理并设计业务相关的关键指标,并设计相关数据采集、存储和分析使用,以数字化、自动化的方式呈现展示客户业务系统状态,方便企业业务人员快速了解业务系统情况基于可观测性方案设计,进行统一可观测架构搭建和配置;指标接入和聚合规则便些、链路追踪数据接入支持;配置大盘和报警从决策层、开发侧、运维侧等多个层级多个维度设计不同的可视化大盘,进行关键信息展示,帮助决策层构建业务、应用的全局视角,帮助开发和运维团队快速发现和排查问题根据客户需求,进行告警方案设计-包括告警路由规则、告警触发阈值、告警目的地等进行规划和设计,降噪,提升问题发现和响应的处理效率可视化大盘设计高信噪比告警方案设计POC验证/实施业务/应
12、用/IAAS指标和阈值设计统一可观测架构设计业务/技术/运维架构调研服务内容服务价值提升发现、定位、解决问题的效率建立完善的指标体系和告警体系统一监控、调用链、日志整体架构扫码了解服务详情帮助 Infra 建立端到端建立可观测体系,问题、发现定位效率提升50%,提升了业务稳定性。Infra 负责人 全栈可观测最佳实践分享03New Future on Cloud传音控股采用 Spring Cloud 进行全面应用微服务化,应用运行在阿里云容器服务 ACK 之上,并分布在欧洲、亚洲等地区,真正实现多地区服务体系。对于该体系而言,要构建完整可观测体系,挑战非常大。观测对象复杂且数量众多:观测对象分
13、布在不同的技术栈和架构中,要实现全面覆盖并有所侧重,是非常大的挑战。排查问线上问题缓慢排查问线上问题缓慢:微服务化后的业务结构变得复杂,排查线上问题需要分析复杂的调用链路,需要花费很长的时间。内部推广难度大:新业务上线频率高,有些业务为了减少上线工作量,不愿意接入可观测平台,需额外进行推广。监控数据源难以聚合:在实现多地区部署后,每个地区都有一套独立可观测平台,分散在多个地区的可观测数据无法聚合展示,日常使用非常不方便。无侵入式接入方案:只需要在应用部署时添加 2 行注解,自动注入 Agent 实现全链路监控,对代码无侵入,运维团队无需花费精力在可观测平台推广上。提供统一指标体系提供统一指标体
14、系:通过 ARMS 和可观测监控 Prometheus 版,建立覆盖资源层、容器层、服务层、应用层、用户体验层的统一指标体系,实现从零散单点到规模化全覆盖。全链路追踪诊断全链路追踪诊断:接入 ARMS 应用监控后,可以非常方便地查看服务的健康状况和依赖关系。在线上出现问题时,可以快速拉起全链路的调用链追踪并定位到代码级别,极大的提高排查问题效率。全局数据聚合全局数据聚合:通过可观测监控 Prometheus 版的全局聚合实例及智能报警中心,对部署在全球各地的业务系统进行统一大盘呈现、统一报警。运维技术全面升级:通过 ARMS 应用监控构建全链路追踪系统,结合可观测可视化 Grafana 版提供
15、的可观测统一视图,再对接 ARMS 告警平台并推送至飞书群,传音控股成功实现告警群内协作闭环,实现 ChatOps 运维新范式。提升业务创建效率:传音控股在建立全新可观测技术能力后,不仅提升问题诊断效率,还大幅提升用户体验。在此基础上,结合其他云原生新技术方案,业务上线效率提高60%,对高效业务创新起到至关重要的作用。传音移动互联全球统一可观测客户痛点方案亮点建设成果Web应用指标接口黄金三指标,JVM指标云服务观测指标RDS,Clickhouse,Kafka,消息队列MQ,SLB,OSS容器层&资源层指标Pod,Deployment,Node,Service,控制面、CPU,内存全链路追踪P
16、rometheus实例(容器服务)法兰克福新加坡孟买深圳Prometheus实例(云服务监控)Prometheus实例(ARMS应用监控)Prometheus实例(容器服务)Prometheus实例(云服务监控)Prometheus实例(ARMS应用监控)Prometheus实例(容器服务)Prometheus实例(云服务监控)Prometheus实例(ARMS应用监控)Prometheus实例(容器服务)Prometheus实例(云服务监控)Prometheus实例(ARMS应用监控)ARMS应用监控TraceARMS应用监控TraceARMS应用监控TraceARMS应用监控Trace全球
17、统一视图统一告警飞书群Grafana工作区ARMS告警平台本案例数据仅供参考,不代表阿里云观点/研究数据Tims 天好咖啡通过可观测助力服务稳定性提升微服务化带来故障定位缓慢:Tims 天好咖啡的交易链路核心服务在面临每日高峰订餐时间、营销活动等情况时,需在高并发大流量下保证服务可用和用户体验顺畅。但随着微服务数量逐步增多,链路越来越长,故障定位变得漫长与困难。海量持续告警信息难以管理:针对海量持续告警信息,如何进行告警合并,在保证不错过核心告警消息的前提下抑制告警消息数量,成为 Tims 天好咖啡的急需解决的重要运维难题。缺乏内部运维巡检机制:随着业务规模扩张,Tims 天好咖啡计划建立内部
18、巡检机制,主动评估发现IT运行风险,围绕业务连续性保障系统性能、容量、质量管理,打造先于用户的发现-定位-解决运维巡检闭环,做到技术驱动业务优化。客户痛点借助前端监控为迭代提供决策依据:采用 ARMS-前端监控掌握 PV/UV、首次渲染耗时等指标同时,实时发现JS错误数、API 请求错误等影响用户体验的异常指标。从多维度监测小程序健康度,降低加载时间、减少JS错误,提升用户体验。实现全链路追踪:利用 ARMS-应用监控快速掌握应用响应时间,吞吐量,错误率黄金三指标,并结合前端监控与应用监控,轻松构建前后端全链路追踪能力,将前端 API 请求从前端发出到后端调用链路完整串联,还原代码执行完整现场
19、。打造统一指标大盘:针对容器、云服务、应用监控,使用Prometheus+Grafana构建指标监控体系并形成统一大屏。通过阿里云可观测监控 Prometheus 版获取相关指标源,结合业务需求与对象赋予各类业务标签,通过可观测可视化 Grafana 版为各个应用搭建完整可观测视图。构建完整及时的告警体系:针对核心业务,结合业务实践配置静态阈值告警,保证告警完整与及时性。借助ARMS Insight 覆盖响应时间飙升、错误飙升等不同场景,自动判别近百种不同问题根因,提升问题诊断效率。方案亮点“如果监控解决的是及时知晓服务故障,那么可观测的落地最终目的是挖掘故障或异常的本质,分析根因并反哺业务增长与技术体系迭代。”借助以可观测为代表的阿里云云原生产品解决方案,Tims 天好咖啡更加从容的面对门店、交易数量、会员数量的急速增长,在愈发激烈的市场竞争中始终保持竞争优势。建设成果本案例数据仅供参考,不代表阿里云观点/研究数据THANKS