《2018年AIOps智能故障管理在阿里巴巴集团的成功实践.pdf》由会员分享,可在线阅读,更多相关《2018年AIOps智能故障管理在阿里巴巴集团的成功实践.pdf(29页珍藏版)》请在三个皮匠报告上搜索。
1、AIOps智能故障管理在阿里巴巴集团的成功实践企业研发云专场阿里巴巴故障治理业务流程及挑战智能运维实战之异常检测和根因推荐AIOps智能运维解决方案万笔/秒订单量双11背后的巨大稳定性挑战32.5万笔/秒支付量25.6阿里业务的多样和复杂给稳定性带来挑战业务数量巨大50+BU40000+应用程序业务形态差异较大电商、金融、云计算、物流、文娱、社交 业务关联复杂用户行为对业务的影响应用程序之间的链路复杂线上故障需要统一的治理机制业务故障统一发现跨BU故障协同处理故障的影响面和根因需要统一收口和推送故障快速恢复需要统一的机制阿里巴巴全局故障治理流程故障发现故障定级故障通告故障辅助定位处理决策故障快
2、速恢复故障复盘故障演练业务流程业务痛点传统监控系统误报漏报较多监控维护成本较大故障等级定义差异较大判断条件繁多千万级别的运维事件,哪些与业务故障相关?跨BU的应用依赖复杂,如何梳理追溯快速恢复场景稍纵即逝,如何实时决策触发切换?我们引入了智能运维阿里巴巴全局故障治理流程故障发现故障定级故障通告故障辅助定位处理决策故障快速恢复故障复盘故障演练故障发现准确率40%80%故障通告耗时1分钟5分钟根因推荐依赖人的经验系统自动推荐可疑事件智能运维之时间序列异常检测业务指标异常检测的业务背景“淘宝交易量下跌%X是Pn故障”“Pn淘宝淘宝交易创建下跌X%”故障等级定义业务指标监控项(时间序列)异常点故障通告
3、异常发现的业务痛点如何确定基线不同周期整体趋势的起伏假日效应分段静态阈值无法应对业务局部趋势变化同环比/过去N周分段均值无法应用业务整体起伏趋势问题下跌15%是和什么相比下跌?异常发现的业务痛点如何判定异常与曲线本身波动程度相关与曲线宏观业务量相关与时间点相关与业务特性相关业务异常的判定尺度时间序列异常检测的方案选择途径一:端到端分类途径二:回归(拟合基线)+异常判别分步求解一步到位基于机器学习/深度学习基于时间序列分解异常判别依赖标注标准不统一回归各类机器学习模型训练样本充足异常判别简单策略复合方法回归各类时序分解算法方法可解释性强算法流程算法架构报警触发及抑制异常起止时间输出基线输出服务/
4、API异常检测Log-likelihoodGaussian Tail PropetyN-Sigma机器学习时间序列分析Isolation ForestLogistic RegressionEnsambleMethod基线拟合Modified Seanonal Trend LOESS特征工程One-hot编码统计特征滑动平均数据预处理插值补缺平滑去噪归一化异常发现业务效果故障发现准确率40%80%故障发现召回率80%30%每周因误报而花费的流程操作时间29小时智能运维之智能根因推荐实战案例:故障智能分析故障自动分析及定位的难点故障分析定位的范围及边界的确定故障分析定位的信息收集故障分析定位的判断
5、和决策逻辑故障分析定位的范围和边界IDC网络物理服务器虚拟机容器实例应用/服务产品/产品线站点业务功能/指标中间件/基础服务数据库输出发生在运维实体上的可疑事件价值快速确定影响范围,锁定怀疑范围以技术方式对故障作快照触发条件业务指标异常故障智能分析流程业务域业务域A AB BC CD Dkpi1kpi1kpi2kpi2kpi3kpi3kpi3kpi3kpi4kpi4kpi5kpi5kpi6kpi6kpi7kpi7kpi8kpi8app1app1app2app2app4app4app5app5app3app3app6app6app9app9app8app8app12app12app7app7ap
6、p10app10app11app11app13app13app14app14app15app15app16app16app17app17业务指标业务指标产品/产品线应用/服务业务功能/指标业务异常发现查询纵向拓扑,获取可疑应用查询横向拓扑,获取邻居可疑应用查询运维数据仓库,获取可疑事件类型应用事件指标突变淘宝/app1RT突增指标突变支付宝/app2QPS突降变更支付宝/app3发布新版本可疑程度321根据故障定位算法,给出可疑程度排序故障定位信息收集:运维数据仓库业务功能技术架构收集和故障相关的所有事件信息提供按运维实体及其拓扑实时检索的能力包括但不限于变更/上线,网络异常,系统/应用服务/
7、业务指标异常,报警,日志异常等查询层数据接入层运维实体元数据管理/CMDB拓扑管理ETL在线事件存储离线存储技术化故障快照:自动化检索和故障相关的所有运维实体及其上发生的事件故障智能分析效果展示全局业务状态监控相关可疑事件推荐应用链路追踪影响面实时展现AIOps智能运维解决方案Coming soon核心功能:异常检测发现趋式异常识别异常区间,抑制重复报警学习历史残差,避免过于灵敏造成的误报核心功能:基线预测当前时刻趋势预测抵抗不同程度的毛刺和抖动基线自动适应总体趋式拟合周期性之外的业务宏观趋式兼顾历史趋式和局部趋式的变化核心功能:基线预测典型场景正常(业务活动、爬虫)正常(冲高回落)正常(月初月末,例如信用卡还款)异常(交易量下跌)故障探测通过数据的时间序列分析和大规模数据的机器学习产生智能基线自动报警。不需要配置告警规则,降低人工维护成本,减少传统基于静态阈值告警的误报漏报数量。AIOps智能运维解决方案智能调参根据周期性趋势预测的变化,自动调节参数,不断提升预测模型的准确率和召回率。充分考虑业务整体起伏趋势,可以应对业务局部趋势变化。自动进化根据用户对报警结果的反馈,优化自动探测模型,提升故障报警的覆盖面和准确性。可以对异常点的准确性进行人工反馈,根据人工标注反馈进行算法进化。企业研发云专场