《3-酷家乐稳定性保障体系实践-酷家乐-谢科鸣(时升).pdf》由会员分享,可在线阅读,更多相关《3-酷家乐稳定性保障体系实践-酷家乐-谢科鸣(时升).pdf(38页珍藏版)》请在三个皮匠报告上搜索。
1、酷家乐线上稳定性保障体系实践讲 师:时升时升酷家乐技术支持专家稳定性委员会负责人负责技术支持团队,公司稳定性建设等相关工作。目录一问题和挑战二酷家乐稳定性工作思路三酷家乐稳定性建设实践四酷家乐稳定性保障体系总结五价值和经验总结酷家乐故障原因类型占比一.问题和挑战意识问题意识问题能力问题能力问题流程机制问流程机制问题题VS“大厂”稳定性能力对比大厂,如何做好稳定性工作?1.组织管理制定目标,“总监-研发经理-应用Owner/一线研发”的三级责任制。3.数据运营&文化建设2.流程建设4.系统&能力建设稳定性结果指标和关键过程指标。通晒数据,驱动改进,形成文化&氛围。流程先行,实践后指导系统能力建设
2、稳定性平台能力建设二.酷家乐稳定性工作思路三.酷家乐稳定性建设实践1.意识问题线上敬畏意识薄弱对警报/抖动等危险信号不够重视管理不重视研发管理团队不重视应用运维能力培养责任不清晰部分团队存在责任模糊的问题。授权职责:1.制定规范&流程2.监管,问责,追结果职责:1.线上应急处理2.稳定性建设&落地稳定性组织保障-三级责任制自上而下负责稳定性文化建设实践1.稳定性宣传3.稳定性奖4.惩:违反红线,绩效&通报2.稳定性培训&分享实际结果和价值:响应时间大幅缩短2.流程机制问题流程执行不到位1.故障应急时,各自为战,信息不通畅。2.复盘文档分析不深入,改进措施无法避免再次发生。机制不完善缺乏明确的制
3、度要求流程建设实践以应急流程为切入点2.关键词:响应,判断,通告,拉群,升级,解决,验证1.SRE值守&业务线值班长机制流程管理机制和指标建设流程owner对流程结果负责从CTO自上而下为结果负责稳定性奖项红黑榜稳定性月报红线&通报故障处理流程故障等级定义规范值班长制度规范2.稳定性流程规范故障处理流程故障等级定义规范稳定性委员会SRE&运维1.组织管理测试架构技术支持值班长业务线TO故障分恢复时长监控发现率复盘分3.稳定性目标&指标4.稳定性文化故障复盘规范变更管理规范封网流程规范演练规范意识&流程机制建设概况3.能力问题:告警治理能力应急能力变更管控能力高P告警定位&治理。告警&巡检跟进闭
4、环。应急协同&规范。全链路监控辅助定位。应急改进闭环。多变更系统,高变更频率下,有序管控。故障时,快速辅助定位到对应变更,快速回滚。3.1 能力问题告警治理能力:高P告警数量多平均每天180+高P告警系统处于亚健康状态。告警&巡检跟进不彻底部分产生告警&巡检的问题没有彻底跟进解决,成为隐患。提前发现和解决在告警发生时,需要主动提前发现和快速解决,避免因处理不及时导致故障。监控值守&巡检闭环04监控优化监控值守02巡检0301每日报告监控持续优化全链路业务监控建设监控诊断定位告警问题根治稳定性值班日报每日汇总高P告警情况重点警告概述&分析线上业务量观察7*24小时监控值守高P监控告警拉起应急提前
5、发现&解决隐患事件复盘&改进巡检任务跟进云服务器,中间件,网络,应用等每日巡检自动创建任务跟进稳定性值班日报实际结果和价值:高P告警持续下降应急协同分工不明确,不知道应急的时候应该做什么。信息同步故障期间,各群内消息乱,易漏掉关键信息复盘管理故障复盘信息散落在各个文档action无系统跟进。3.2 能力问题应急能力:故障管理平台建设应急响应 一键拉群&一键外呼 故障通告信息&同步 明确角色分工,责任到人故障管理平台建设故障复盘&改进管理 故障复盘数据统一录入系统 关键信息形成数据分析报告 action进入迭代任务,形成闭环全链路业务监控能力变更数量多平均每天350+变更量变更范围广涉及到12+
6、变更系统,包括发布,配置,数据变更,运维操作等定位变更难故障时,无法快速定位到对应变更,无法快速准确的回滚。3.3 能力问题变更管控能力:实践:变更管控平台展示变更和监控,巡检,故障应急,封网能力建设实际结果和价值:违反流程故障数持续下降故障演练能力建设为什么要做故障演练?演练平台建设沉淀通用故障场景,低成本故障重现,常态化演练&推动系统、工具、流程、人员能力的提升。演练比赛活动运营1.前期准备 故障演练场景设计 活动方案制定 宣传和预热Step 01Step 03Step 023.活动颁奖 评选优胜队伍 组织颁奖仪式,邀请CTO等颁奖嘉宾 活动总结复盘和推送2.活动执行 执行突袭活动 演练后
7、复盘&打分 通晒数据&营造氛围变更管控监控&恢复故障演练?变更数量多变更范围广告警多,监控发现率低高P监控告警收敛优化全链路业务监控建设诊断平台建设预案管理建设缺少业务监控定位变更慢封网管控应急流程组织&文化稳定性案例分享稳定性目标和红线强化稳定性规范纳入新人培训体系值班长制度应急系统建设故障应急流程建设突袭演练开发缺乏经验线上敬畏意识弱考核力度较弱演练偏流程化演练成本高应急响应慢信息同步不通畅酷家乐问题解决方案定位难,恢复慢应急散乱,没有统一指挥演练后缺乏复盘常态化演练演练系统建设演练分&复盘突袭演练常态化演练演练分&复盘四.酷家乐稳定性保障体系总结统一收口变更故障辅助定位封网管控五.价值和经验总结历年故障数据呈下降趋势问题发现&跟进高P告警准确率达到90%+分钟级应急响应巡检发现和解决问题100+复盘改进改进措施完成率99%高P故障恢复高P故障恢复时间缩短30%变更收敛90%以上变更系统接入变更管控经验总结&对其他公司的借鉴意义4.以流程指导系统建设5.持续建设&将稳定性做到日常1.组织管理,自上而下的重视程度2.抓流程建设&流程owner落地3.重视文化建设&营造氛围酷家乐技术质量公众号