《基于Prometheus构建—体化监控平台的探索与实践-刘恺.pdf》由会员分享,可在线阅读,更多相关《基于Prometheus构建—体化监控平台的探索与实践-刘恺.pdf(21页珍藏版)》请在三个皮匠报告上搜索。
1、基于Prometheus构建体化监控平台的探索与实践刘恺阿云云原可观测团队级研发程师云原技术演进带来的痛点PART 1 /阿云可观测体系介绍PART 2 /阿云站式监控平台的实践PART 3 /云原技术演进带来的痛点PART 1云原发展带来的指标可观测挑战与痛点观测对象种类多,覆盖与打通成难题观测对象动态化,实时监控困难故障响应缓慢,运维协同敏捷要求可观测系统搭建/维护成本指标、链路、志可观测数据融合业务层应层中间件层系统层阿云可观测体系介绍PART 2阿云托管版 Prometheus数据孤岛存在观测盲区可维护性较差稳定性受限Prometheus已经成为指标观测的事实标准,助业务快速发现和定位
2、问题,减轻故障给业务带来的影响阿云托管Prometheus完全兼容指标观测的事实标准Prometheus,结合托管版Grafana、智能告警等产品提供站式指标观测平台多维数据之间难以有效关联数据的采集集中在中间件层和系统层,业务层有效观测式原适合单K8s集群,多云、建IDC场景难以统接内存、CPU消耗,复杂查询场景频繁崩溃强的数据关联能全栈覆盖的观测能0运维成本稳定性全增强通过标签、元数据等信息持各层数据之间的关联,通过Trace/Log/Metrics之间的转换能,持多维数据之间的串联,消除数据孤岛结合应监控、链路追踪、业务监控等产品,在各层均提供了观测案查询存储组件中化部署;Agent部署
3、在户侧,对K8s、ECS等环境都提供了接案引InfluxDB,并通过DAG执优化、算下推、Downsample、Downseries,提升复杂、时间跨度查询的性能阿云站式可观测平台:ACOS阿云站式监控平台的实践PART 3阿云站式可观测平台:产品架构业务层应层中间件层系统层业务监控志监控前端监控应监控eBPF监控Opentelemetry等容器监控云服务监控Exporters业务层观测LogsMetricsTracesApplicationStreamingPullPush持定义Trace/Log/Metrics的转化业务侵ConsumeConsume持指标定义持关联基础设施监控应性能观测:
4、总览应:微服务架构、多语、多协议Kubernetes容器操作系统、络、硬件挑战1:微服务间调次数指数增,性能问题难以定位挑战2:基础设施能下沉,应层和运时环境法顶向下形成关联挑战3:多种观测具法有效融合应性能观测:APM产品集成Prometheus GatewayApplication CodeJaeger SDKApplication CodeARMS AgentApplication CodeOTel SDK持线程剖析、法栈采集、智能诊断等能持Opentelemetry、Jaeger、Zipkin等多种开源协议持代码级别的根因定位开箱即的Grafana盘持Tracing、Continuou
5、s Profiling应性能观测:eBPF侵观测案侵:成本低,业务需修改代码动态可编程:需重启应,动态下发采集脚本性能:JIT编译成机器码执安全性:内核级别的验证器eBPF介绍extended Berkeley Packet Filter,运在Linux内核中的虚拟机,可以加载到指定的HOOK点并获取运时的上下。编译、加载eBPF程序监听内核事件识别络协议聚合指标应性能观测:eBPF侵观测案进程指标应层指标络指标元数据关联远端存储内核态户态探针侧BPF BPF BPF 定义指标聚合模块EventseBPF模块MetricsTraceacceptreadwritetcp_retransmittc
6、p_dropcloseData Events Control Events connectResponseDataBuffersRequestDataBuffersConnTrackerResponseDataBuffersRequestDataBuffersConnTrackerRequestDataResponseDataEgress Data StreamParse ProtocolsFindBoundaryParsePacketMatchReqRespIngress Data StreamConnTrackerState Events 应性能观测:eBPF侵观测案架构感知,提供动服务发
7、现能,络拓扑能内核协议栈全覆盖,补APM的盲点通过络流量分析应层协议,提供多语的统监控VFSFile SystemsVolume ManagerBlock DeviceSocketTCP/UDPIPEthernetSchedulerVirtual MemorySystem Call InterfaceSystem LibrariesApplicationShared LibrariesDevice DriversUser Libraries/SDKsContextsRuntimesUser Dataskernel spaceuser space仅eBPF持仅APM 持eBPF&APM 均持Class BytecodeJVM基于eBPF技术,零代码开销,低性能损耗中间件层观测:安装Exporters持20+开源主流中间件Exporters持键安装并动配置抓取规则持动配置告警规则持动同步Grafana盘中间件层观测:云服务集成需占客资源额外部署Exporter显著提升指标的度和深度持主流20+云服务的接持动配置告警规则持动同步Grafana盘基础设施层观测:多云ECS/线下IDC应组件应场景:业务突发异常场景下的可观测能实践告警业务监控盘应监控盘应志&Trace关联根因定位成交率下降打开缓慢中间件监控盘Thanks