《2018年阿里智能化故障治理流程探索和实践.pdf》由会员分享,可在线阅读,更多相关《2018年阿里智能化故障治理流程探索和实践.pdf(25页珍藏版)》请在三个皮匠报告上搜索。
1、阿里智能化故障治理流程探索和实践阿里巴巴全局故障治理流程基于AIOps的全局故障治理架构故障治理实战案例新零售/云计算等新业态给故障治理带来的挑战智能运维大图阿里巴巴故障治理背景介绍业务环境给稳定性带来的挑战业务数量巨大订单量49.1万笔/秒业务形态差异较大电商、金融、云计算、物流、新零售、文娱、社交业务关联性复杂用户行为对业务的影响应用调用链路复杂线上故障需要统一的治理机制业务故障统一发现跨BU故障协同处理故障的影响面及根因统一收口推送故障快速恢复需要统一的机制要解决的问题:平衡监控准确率和召回率报警规则维护成本较大故障等级定义仁者见仁故障判断条件繁多千万级别的运维事件哪些与业务故障相关?跨
2、BU故障如何定位根因快速恢复场景稍纵即逝如何实时决策触发切换?如何快速响应并组织故障处理阿里巴巴全局故障治理流程故障发现故障定级故障通告故障辅助定位处理决策故障快速恢复故障复盘故障演练业务流程基于AIOps的全局故障治理架构AIOps故障治理产品架构监控展示异常发现故障通告根因分析信息流转故障恢复相关事件推送智能监控大盘智能基线多指标关联分析自动化通告智能干系人管理可疑应用分析多维下钻故障自定义分析快速恢复切换故障信息检索故障治理生命周期故障治理实战案例故障发现故障定级故障通告故障辅助定位处理决策故障快速恢复故障复盘故障演练通告排查自动化通告核心故障秒级通告故障知识图谱智能水位故障自定义分析人
3、工故障通告人工根据故障等级定义定级业务监控报警慢人工判断故障影响等级并组织通告内容发送一般在5分钟左右人工判断影响是否达到故障不可靠人的主观因素会影响故障判级,不能确保故障通告时效SLA,通告文案可能有错自动化故障通告故障等级定义结构化智能基线计算跌幅数据预处理基线拟合平滑去噪声Modified STL滑动平均插值补缺故障自动定级通告95%准确快速发出业务量下跌count失败率跌至percent自动化故障通告自动化故障通告通过多条监控规则,触发自动化故障通告生成自动化通告内容,发送给业务方故障概述故障等级影响范围监控等级定义从分钟级通告到秒级通告 涵盖了大部分业务,在业务发生重大故障时,一般最
4、快可在1-2分钟内发出报警,3-5分钟发出详细故障通告 报警发出快慢与故障持续时长有直接的关系故障发生报警发出1-2分钟分钟级监控 部分核心业务(如淘宝交易创建、支付宝交易创建),一旦发生故障,等到分钟级报警发出,即使立刻发出通告,报警发出之前业务已经产生巨大损失 故障处理需要争分夺秒缩短故障时长减少故障损失加快报警发现改分钟级监控为秒级监控核心故障秒级通告秒级指标波动大,传统报警策略误报多缩短故障时长减少故障损失加快报警发现接入条件:监控指标每秒数据量级=500趋势预测异常发现通告发出10-20秒故障发生准确率:80%召回率:80%零监控配置成本异常判定孤立森林逻辑回归特征工程集成策略时序分
5、析N-sigma统计特征One-hot自动反馈调节机器学习智能异常检测故障知识图谱故障场景复杂多样,目前暂无法做到所有故障自动化通告。存在大量人工通告人工故障通告,由值班同学根据平台提供的故障信息,结合个人经验,组织发送给处理人。易出错2、通过非结构化的故障通告,如何快速找到故障处理人?快速发现历史相关故障帮助处理?rdma1、人工发送的通告,出错率10%。其中90%由错别字导致WHO??错误通告示例故障知识图谱历史故障信息实体识别产品线、BU、人名、关键词等实体抽取实体关系故障知识图谱新故障通告实体抽取智能纠错历史故障匹配度查询实体匹配度查询原因初步怀疑为RDMA异常故障推荐干系人推荐实体查
6、询人工通告错误率减少50%智能水位 多个系统指标映射为水位指标 取值0-100衡量应用实时容量 通过水位发现业务容量瓶颈,提供扩容依据 不受应用扩缩容影响 不受应用流量成分变化影响 无需应用压测极限值作输入 无需预先假设服务异常CPU临界值多维指标映射,部分权重为线性关系,部分为非线性(阶跃拉升):水位=w*cpu,load,T+f(disk,mem,)业务需求水位特点关键业务包含的应用成百上千,如何快速发现应用容量瓶颈故障自定义分析分机房指标分析查看关联变更基础设施故障分析全链路应用状态分析关联业务分析监控、开发同学根据经验排查异常容量问题排查故障发生人工故障分析故障平均排查时间10分钟,影
7、响故障恢复时长排查结果受不同人影响较大,不可控往往查询多个平台,影响效率故障自定义分析多维下钻分析变更分析跨BU基础设施故障分析全链路应用分析关联业务分析通用分析自定义分析故障发生分机房下钻分门店下钻变更大盘IDC/网络中间件智能异常检测智能异常检测自动化故障通告故障秒级通告监控组故障知识图谱智能异常检测故障平均排查时间1分钟排查结论不受经验限制新零售给故障监控带来的挑战实体店故障给客户造成的感受更直接高峰期、活动业务不可用,易引发社会群体事件业务门店零散分布,中心难及时感知故障及影响面故障分门店下钻故障分门店下钻分析-及时启动应急预案故障定位故障总时长20Min2Min减少4倍1/4云计算给
8、故障监控带来的挑战ECSRDSSLBOSSCDN.监控系统GOC故障应急无法统一查看监控、报警数据,故障处理成本高报警发送云服务由于业务特性,拥有大量个性化基础设施,无法统一监控统一监控网关ECSRDSSLBOSSCDN.监控系统GOC报警发送MonitorGW抽象不同监控系统报警/监控统一查看监控查看提高故障应急效率通用参数特定参数智能运维大图AIOPS质量监控时序异常检测指标相关性分析报警收敛根因分析故障类型判定历史故障推荐可疑应用/事件推荐故障自愈自动化触发快恢脚本执行环境成本容量容量预测自动熔断调度资源调度流量调度效率无人值守发布值班运维机器人信息流转任务执行智能化故障治理总结无人故障治理(完全智能化)人工+部分场景智能化/自动化通过规则积累线上化数据,帮助智能化智能算法对数据标准化、量级、质量要求高。满足需求的数据有限愿景困难现状