《云原生可观测套件ACOS构建无处不在的可观测基础设施 - 周小帆.pdf》由会员分享,可在线阅读,更多相关《云原生可观测套件ACOS构建无处不在的可观测基础设施 - 周小帆.pdf(10页珍藏版)》请在三个皮匠报告上搜索。
1、云原生可观测套件ACOS构建无处不在的可观测基础设施周小帆阿里云智能资深技术专家云原生时代,落地可观测“三大难题”难以估量的价值回报落地可观测基础设施的“收益”到底如何衡量高昂且难以预估的成本微服务架构下指数级上升的可观测数据计算、存储成本数据与工具的割裂开源、商业化产品与存量资产之间的艰难选择阿里云云原生可观测套件 ACOS高效构建开放、高质量、低成本的统一可观测体系通过开放标准连接孤岛 阿里云 Prometheus 服务、阿里云 Grafana 服务、链路追踪 OpenTelemetry,全流程无锁定 连接所有阿里云可观测产品,高质量全链路观测 连接存量可观测数据资产,融合观测开箱可见的价
2、值与低廉、可预估的成本 覆盖用户体验(UEM)、应用观测(APM)、云服务观测、成本管理、应急协同效率等场景 与阿里云应用托管平台默认集成 成本低于开源自建、可预估的计费模型客户案例一:友邦人寿可观测性覆盖研发生产全周期研发态与运维态相关指标的关联与展现,度量研发效率运维服务效率大幅提升应用性能指标、全局调用链、日志,快速定位跟因素多容器集群及应用服务的统一观测通过应用统一观测平台,形成指挥决策、仪表盘展示、告警推动多维度监控能力IE、Chrome、Firefox、Opera等浏览器容器 CaaS 资源监控物理机/虚拟机层监控业务指标监控应用调用链监控应用性能监控CPU、内存、网络、磁盘、TC
3、P、Load JVM 堆内存、GC、Thread,Method性能.POD内存、CPU、健康度(Running、Pending、Failed)、集群资源监控、核心组件、运行事件服务调用全景、RT、TPS、Exception、慢sql、MQ、Redis业务核心指标,如:订单数量、订单金额、日活、月活、投保人数及其它业务指标自上而下设计云监控Prometheus+GrafanaARMS+SLS应用日志业务日志、应用日志、异常日志自下而上设计X客户案例二:飞凡汽车快速构建全栈可观测异构分布式云统一观测成本相较于自建与传统方案大幅下降使用 Prometheus 聚合实例构建分布式云系统健康状况全景涵盖
4、应用层、云服务、基础资源,连接数据孤岛观测数据就近计算存储,降低公网传输费用阿里云容器服务ACK集群阿里云ECS集群自建Kubernetes集群(ACK注册集群)自建Prometheus阿里云云服务Prometheus聚合实例提供全局统一聚合查询,统一Grafana数据源,统一告警配置等能力部署在ACK的开源组件指标ACK内的业务指标ACK基础组件指标部署在ECS上组件及业务指标自建K8S集群内的指标云服务指标将阿里云 Prometheus作为自建Prometheus存储源一键接入ARMS Prometheus AgentRemote Write/Read Endpoint集成exporter
5、集成exporter&服务发现for 容器服务for VPCfor 云服务for Kubernetesfor 远程存储从专精容器,到全栈观测Prometheus 版企业云监控:50+款云服务一键集成Prometheus 版ARMS应用监控:APM 监控指标+eBPF 指标+OpenTelemetry 指标全新包年包月计费:一价全包,成本无忧覆盖 Prometheus for ACK/for remote Write 等不同实例类型同等业务规模下,平均相较于自建成本降低60%*一键开启全球化可观测中心Prometheus 版ACK、ECS监控、Remote 实例:ECS(非K8s集群)、K8s集
6、群、非阿里云集群统一观测Prometheus 聚合实例:数据去中心化计算存储,快速生成全球统一视图性能提升,降维打击支持十亿级别的时间线抓取与读写高基数、长周期查询优化,平均相较于自建性能提升5倍以上*阿里云 P r ometheus,无处不在的可观测基础设施根据CNCFCloud Native Observability MicroSurvey调查,84%受访者在可观测技术栈中使用 Prometheus阿里集团核心容器调度(千万核规模)与APM系统(PB级吞吐)以及 50+款云产品,全面基于 Prometheus 架构构建可观测体系以上数据来源于阿里云技术团队多次自建对比测试结果现已接入50
7、+款云服务,并持续加入PolarDB云监控CDN企业级分布式应用服务EDAS应用高可用服务AHAS日志服务SLSElasticsearch应用实时监控服务ARMSRedisAPI网管云服务器ECSOSSWAFMSE网关性能测试PTSServerless KubernetesGrafana 9.0 焕新升级全新 Prometheus 和 Loki 查询语句生成器全新交互页面与搜索 Explore 功能强化企业级特性全面增强一键导入/导出自建实例 自动数据导出报表一键数据备份、恢复 用户操作审计统一运维&业务观测界面150+款可观测存储服务集成向用户提供跨 Region 的安全私网数据通道Graf
8、ana Alerting&Smart Metrics高可用、高准确率的动态阈值智能告警基于AI算法的自动异常巡检与根因定界阿里云 G r afana 服务,“观测界面”事实标准2021年末,Grafana Labs 携手阿里云提供 Grafana 托管服务截止目前(2022.11),用户通过阿里云 Grafana 服务创建了超过 170000 张大盘ARMS Java Agent 提供高质量自动埋点,免去维护开销通过 OpenTelemetry 补充业务、自定义组件埋点实现厂商无锁定通过 TraceExplorer 实现多来源 Trace 统一查询Continuous Profiling 洞察
9、最后一公里瓶颈与Alibaba Dragonwell 团队联合推出生产环境性能问题定位至代码级别低功耗实现全天候主动剖析智能化再升级告警自动联动智能根因定位客户端-服务端联动诊断、数据/缓存连接池自动诊断基于 eBPF 技术的“轻量版应用监控”开放预览无侵入、支持全语言的应用监控快速获得集群全局拓扑结构在最新的 Grafana 9.X 中查看应用实时监控服务 ARMS,开启应用多维观测视角阿里云上的应用,“天生可观测”容器服务ACK、Serverless应用引擎SAE、函数计算FC、企业级分布式应用服务EDAS等应用服务默认集成OpenTelemetry 与Prometheus生态融合阿里云云原生可观测套件,全面提升企业观测力用标准连接数据孤岛释放更多隐形价值覆盖全栈场景赋能多角色预算更可控更高性价比THANKS