《智能驱动的云原生可观测平台.pdf》由会员分享,可在线阅读,更多相关《智能驱动的云原生可观测平台.pdf(29页珍藏版)》请在三个皮匠报告上搜索。
1、智能驱动的云原生可观测平台徐彤阿里云可观测高级技术专家Contents目录01云原生可观测智能落地前提02智能化数据处理03以人为本的事件处理04大模型时代下,可观测智能化的新探索云原生可观测智能落地前提Cloud native observable intelligent landing three elements01全面的数据决定智能化的起点AIOpsMachineLearningBig DataPlatformLog日志数据Trace链路数据Metric指标数据Profiling剖析数据优质的数据决定智能化的高度ARMS应用监控 eBPF 版ARMS应用监控云原生可观测可观测可视化Gr
2、afana 版可观测监控Prometheus 版ARMS业务监控ARMS用户体验监控PTS性能测试ARMS应用安全服务日志服务SLS应用生命周期集成EDASSAEACKFC智能告警告警收敛事件管理ChatOps 协同端到端可观测会话追踪全局拓扑持续剖析异构可观测数据源一站式全栈覆盖基础设施监控应用监控容器监控用户体验监控业务监控ARMS智能洞察ARMS云拨测云监控云服务监控多告警源集成应用实时监控服务 ARMS可观测链路OpenTelemetry 版智能洞察数据探索云服务监控智能化数据处理Intelligent data processing02相同告警合并告警降噪告警关联相同根因合并检测分析
3、收敛智能阈值智能分级智能巡检根因触发关键维度定位异常节点定界代码级/SQL 级定位影响面分析可观测智能化场景落地三板斧挑战1:没有放之四海而皆准的“检测”算法统计算法:k-sigma、箱线图、天/周同比、环比等 时序分析/解类算法:EWMA,STL、RobustSTL预测类算法:Holt-winters、ARIMA,Prophet、LSTM等机器学习分类算法:孤立森林、One-Class SVM、各类有监督模型 环比:对比值的变化率 单点比较:!#threshold 多点比较:$%#&!$count_num当前值是否过大或者过小 历史数据|=1.计算样本均值和样本标准差=(!)()(#&,=#
4、$%#&($)+异常检测!+3 or!过去同一周期时刻的值*max_threshold 突降:!过去同一周期时刻的值*min_threshold适用于周期性强&周期固定不变的场景适合数据偏正态/均匀分布的场景图片来源:https:/ 上百个微服务需要 快速、准确、低成本地定位根因 挑战2:微服务下如何快速实现根因“分析”能力定位方案总结目前典型的根因定位可以分成 3 大类多维度定位:当多维度 KPI 发生异常,如何定位到其根因维度,也叫指标下钻分析关联辅助定位:这类定位通过利用指标之间的关系(CMDB 关联,算法包括:相似,频繁项挖掘等),找到故障时不同指标之间的关联关系拓扑/调用链路定位
5、:这一类根因分析一般具有明确的服务调用拓扑关系图和实时调用链路。依托于拓扑图的随机游走/整体建模等方案多维指标 /日志明细 下钻定位微服务拓扑定位关联定位:指标关联辅助定位图片来源:YongqianSun,HotSpot:Anomaly Localization for Additive KPIs with Multi-Dimensional Attributes归因算法水平/垂直逐层下钻关键点1:如何低成本且准确的定界到异常节点我们应该给客户什么样的根因定位系统?不仅仅是一个异常的时间结果,更需要的是,对问题现象的精确描述,问题的根因分析,影响面的分析,和解决问题所需要的关键信息。目前业界的
6、故障诊断方案主流方案是从算法的角度,给出基线,从而快速发现问题。进一步的方案则是定界到异常节点,但是异常节点的问题诊断还是非常依赖于排查人员的经验和技能。故障发现关键特征匹配故障定界推送符合特征的专家经验故障定位 用户手动查看调用链路故障发现单/多指标异常检测故障定界根因分析算法、多指标关联算法;推送用户是机器、服务、日志等最终结果故障定位 无故障发现异常检测算法故障定界结合定界分析算法,模拟专家诊断,推送给用户是一个完整的诊断流程故障定位 打通code、metric、stack、异常日志,定位到代码、SQL级数据算法技能诊断专家异常算法我们的选择关键点2:如何实现代码级/SQL 级根因定位诊
7、断场景应用运行态服务性能应用服务异常突增服务下游依赖问题服务中间件依赖问题单机 FullGC 问题单机磁盘使用率高问题单机网络重传率高问题中间件问题慢SQL问题连接池满问题中间件服务端问题基础设施问题流量不均问题负载不均问题Container 短时间多次 Kill应用发布态应用发布异常发布后应用性能指标异常发布后应用系统指标异常发布后应用异常指标异常应用发布失败应用启动失败异常分析应用资源不足失败分析 水平分析服务依赖贡献 垂直分析基础设施异常 针对典型故障插件化深入分析通过算法+专家系统,实现自动化的代码级/SQL 级根因分析故障定界根因分析水平分析依赖拓扑异常贡献垂直分析基础设施异常行为p
8、od故障定位插件定位插件列表异常分析插件线程堆栈插件连接池分析插件方法栈分析插件开始定位插件1插件2插件3算法+专家系统hosthosthost服务1服务2MySQL异常服务A案例:应用监控下的智能诊断分析以人为本的事件处理People-centered incident handling03云原生告警事件流程告警事件告警事件降噪告警事件收敛告警通知告警复盘基于 IM 智能告警通知事件降噪智能配置流程告警接手处理Story line/History line/故障 review 时间线告警复盘告警事件智能关联告警内容富化告警指标关联Trace关联挑战1:告警过多的问题怎么解?告警噪音告警发散检
9、测不准告警过多的 3 种原因事件相似聚类类关联规则挖掘类指标相似关联类降噪方案总结目前常见的告警降噪方案文本距离K-means、DBSCAN、Drain、deep log Apriori、FP-Growth、E-ClatOne-pass Clustering、DBSCAN词频FT-tree某用户受噪音告警的叨扰,为此配置了事件智能降噪功能,之后每一条事件将附上事件重要性的标识,标识为 4 类:噪音,重要,新奇,异动。对于噪音类,用户可以不再关注/减少关注,避免用户在噪音事件上浪费精力。低效事件干扰告警风暴噪音事件异动关键点1:智能告警下的噪音识别告警痛点配置智能降噪基于自然语言处理和领域词汇库
10、,完成事件内容的词向量化,实现事件最小粒度的度量基于信息论中信息熵的概念,结合 tfidf 模型,构建词向量的信息熵值和重要性度量模型利用 sigmod,完成事件的非线性和归一化“信息熵”度量结合历史事件的处理记录和反馈,构建模型迭代训练与验证step 1step 2step 3step 4基于拓扑关联相似关联历史关联相似性度量 拓扑相关构建 资源层关联事件 应用层关联事件 历史相同事件 历史处理记录关键点2:告警事件智能关联 网络调用事件 变更事件 时序相似性 文本相似性主机/容器主机/容器主机/容器关键点3:如何打造更加自然的 ITSM 告警展示信息单一,无法在告警上增加更丰富的信息,比如
11、 GC 等级的客户?哪个集群等等信息 无法确定有没有人处理 无法一键屏蔽告警,处理问题的时候,还要处理告警风暴 修复后,没有沉淀,没有地方填写修复建议 缺乏有数字化复盘手段,对照文档感性复盘,对问题没有全局认知告警触发应急处理问题修复事后复盘传统故障管理流程关键点3:如何打造更加自然的 ITSM告警触发应急处理问题修复事后复盘自然的处理流程大模型时代可观测智能化新探索04New exploration of observable intelligence in the era of large modelLLM+Langchain+Agent,构建可观测智能机器人根因定位日常答疑Grafana
12、 大盘配置故障应急代码调试配置监控自动生成报表数据查询检测分析收敛应用场景模型提升邀测中体验方式无需接入、快速浏览、产品功能、全面覆盖经典场景、操作指南、动手实验、深入细节应用监控前端监控可观测监控Prometheus版可观测可视化Grafana版可观测链路OpenTelmetry 版更多产品控制台官方示例云起实验室Java、Golang、JavaScript 多语言应用示例快速部署自动注入 TraceId 到应用日志实现调用链日志关联切换 OpenTelemetry 透传协议,快速打通全链路免费试用覆盖 5+款核心 ARMS 产品试用接入畅享每月最高 200G 免费流量应用粒度数据写入量多维分析免费额度、业务接入、畅享体验、用量透明RUM云原生端到端可观测体验地址THANKS