《张鑫(千乘)-可观测性平台技术搭建实践.pdf》由会员分享,可在线阅读,更多相关《张鑫(千乘)-可观测性平台技术搭建实践.pdf(26页珍藏版)》请在三个皮匠报告上搜索。
1、微服务可观测最佳实践主讲人:张鑫(千乘)张鑫(千乘)阿里云技术专家 Apache SkyWalking PMC 10年工作经验 负责阿里云SLS可观测数据分析工具的研发工作,关注可观测性、AIOps,大规模分析引擎等方向 曾在多个APM厂商担任研发工作演讲嘉宾介绍CONTENT目录目录2023K+0 01 1可观测性已成为系统必要的属性可观测性带来的挑战与思考可观测平台搭建一些实践0 02 20 03 3Part 01可观测性已成为系统必要的属性电气工程的标准化A system is said to be observable if,for any possible evolution of
2、state and control vectors,the current state can be estimated using only the information from outputs.可观测性已成为系统必要的属性系统更加复杂运行环境多样开发协同2022可观测性趋势调研报告可观测数据的好处提升可靠性提升运维效率提升主动故障发现能力提升用户体验.可观测展望17个可观测能力组成了成熟完备的可观测实践,主要包括Log、APM、K8s监控、NPM、RUM、AIOps、Alert等,并且受访者普遍希望在2025年都能用上这些技术可观测工具使用情况 超过80%受访者使用4个或更多的可观测工
3、具 1/3的受访者必须手动检测事故或通过客户投诉发现。7%表示所有的观测数据存储在同一个地方,而且只有5%表示具有成熟的可观测实践经历Part 02可观测性带来的挑战与思考挑战一:可观测数据量巨大以SLS为例:一天3000亿+访问请求Logging数据量:单纯记录访问日志(1条数据1K),一天的数据量大约是300TBTrace数据量:Trace采样1%,一条Trace 大约10个Span(一个Span1K),一天的数据量大约为30TB指标数据量:1个Pod有100指标,10WPod有多少呢,如果记录维度信息*10/*100,那就有1亿/10亿时间线数据量爆炸针对数据量大,数据存储面临的问题稳定
4、性可观测性平台是系统最后一道防火墙,要时刻保证服务稳定性写入性能写入性能不高,容易出现数据延迟,造成发现问题不及时动态扩容面对激增流量情况下,能够动态扩充容量查询效率查询效率直接影响分析效率,进而影响排障速度挑战二:可观测数据关联带来的挑战排查链路长关于如何关联可观测数据的思考每新增组件或服务,需要关联相关的数据,操作繁琐无法全局鸟瞰整个可观测数据的关系parentSpan IDspanIDtrace IDservice服务的指标应用日志hostattribute.db.statementattribute.mq.topic.数据库相关指标&日志MQ 相关指标&日志Pod 相关日志、事件和指标
5、受UML启发是不是也可以定义一张类UML类图的存储引擎,用来存储对象及其关系?挑战三:挖掘可观测数据的价值上面描述的只是一个服务排障的故障流程.如果有10个呢,排障起来比较痛苦。如何让排障活动自动化,智能化?挑战四:兼顾展示多样化的述求观测角度不一观测系统角度不一,导致定制化页面无法适应拼装式页面更加适用于适用于可观测场景DrillDown需求旺盛关联可观测数据才能发挥高价值,定制DrillDown扩展性不高。配置DrillDown能力将在可观测数据展示大放异彩处理方式要求多可观测数据在不同的场合有多样化的处理方式。固化的处理方式应对多样化展示捉襟见肘Part 03可观测性平台搭建实践开源拼接
6、的存储方案1.运维复杂度高,毕竟多一个组件,就多一分“危险”2.运维成本高,除了机器外,为了满足性能和稳定性,还需要对应的专家经验ORORKafkatrace,loggingmetricsOTEL CollectorOROther Data Processor缓冲压力数据流扭转.处理业务可观测性的数据尾部采样画拓扑图.可观测平台整体架构图统一存储关联各类可观测数据基于盘古底座,写入性能和稳定性都非常高准实时,高效查询性能丰富的数据处理方式支持巡检,自动巡检系统支持智能化的分析支持多种告警方式支持用户自定义页面支持多种图表和下钻能力支持各种外部展示源数据关联-DataExpression受UML
7、类图的启发类图(Class diagram)是显示了模型的静态结构,特别是模型中存在的类、类的内部结构以及它们与其他类的关系等动态添加关联字段关联其他日志或指标基于上述配置,前端通过查询DataExpression API,关联到相关pod指标和主机信息多样化展示诉求Metrics异常判断Logs聚类分析概览信息Markdown模板复杂可视化能力利用Metric指标异常,分析所有造成服务慢的原因联合Metric和Log数据发现版本间的异常拼装式可视化能力智能化 寻找问题根因VS问题:异常点非常多导致排查时间长 静态阈值在复杂调用时将失效正常Trace异常Trace自动巡检应用,提高效率AIOp
8、sTraceNetworkError LogSysLogPaymentsMetricsEvents动态基线根因分析时序预测打标反馈模式识别巡检概览计算入口服务动态阈值,巡检出异常的Trace数据通过调用根因分析API,获取根因信息通过根因结果,推断异常主机并关联其指标示例一:数据+拼装式可视化=自助式多角度观测服务概览鸟瞰系统整体运行情况慢服务分析通过时序检测系统异常,加快定位速度,提高效率数据库分析查看数据库相关运行情况示例二:智能巡检巡检系统异常,并发现系统异常的根因根据根因结果分布情况,可快速服务或者应用,通过DataExpression,关联指标或者日志查看系统异常受影响的Trace列表,从而更好的分析受损业务THANKS