上海品茶

您的当前位置:上海品茶 > 报告分类 > PPTX报告下载

王晓川-腾讯 SRE 质量运营体系建设与实践.pptx

编号:122060 PPTX 19页 10.96MB 下载积分:VIP专享
下载报告请您先登录!

王晓川-腾讯 SRE 质量运营体系建设与实践.pptx

1、,腾讯SRE质量运营体系建设与实践,王晓川,腾讯PCG SRE研发负责人/SRE技术专家负责质量运营、可观测、混沌工程等平台的研发工作硕士毕业于北京大学,曾任职工行、美团,深耕SRE领域十年,CONTENTS,目 录,壹,行业背景,01,行业背景,理论层面众多可投入方向,如何进行稳定性建设?,产品层面SLO与On-Call在业界分别有一些产品或解决方案:,核心目标:科学解决产品稳定性建设问题核心路径:基于SLO与On-Call的质量运营体系,贰,基于SLO与On-Call的质量运营体系,02,基于SLO与On-Call的质量运营体系,问题背景产品稳定性无法量化:无法转化为明确的组织管理目标持续

2、性改进提升故障过程不透明不可控:受团队或个人主观因素影响较大,故障影响时间变长传统方法不具备先进性:没有应用DevOps方法论,研发与SRE团队协同不足,稳定性投入普遍积极度不高,SLO管理合理:树立稳定性与功能迭代的评估关系协作:SRE与研发共同制定合理的质量目标科学:面向用户场景而非面向系统应用:错误预算燃烧告警;错误预算决策,On-Call管理,产品架构,产品目标,面向用户:服务技术团队产品能力:参考SLO 与 PagerDuty,具备完整的理论与功能落地特点:内部大规模接入运营,服务所有产品线,目前产品落地情况:已服务腾讯视频、QQ、腾讯文档、腾讯新闻、中台平台等几十个产品,上百个团队

3、,基于SLO与On-Call的质量运营体系,叁,在鹅厂的大规模落地实践,03,2、SLO目标与错误预算,面向用户,谁是用户?组织复杂,谁来使用?一级场景:面向外部用户的核心场景二级场景:面向内部用户的核心场景团队边界:每个技术团队确认职责边界,定义场景和SLI,目标怎么定?时间周期:28天(Google推荐)推荐目标:自动计算历史周期给出推荐目标共同制定:SRE主导,研发参与共同制定,详细SLO手册,可参见 Google SRE Workbook-implementing-slos,1、核心场景与SLI指标,在鹅厂的大规模落地实践 SLO管理,在鹅厂的大规模落地实践 SLO管理,3、SLO应用

4、 基于错误预算燃烧率的告警,5、未来规划SLO已实现大规模接入,1000+业务场景,3000+SLO指标聚焦核心场景与指标降低SLO的配置成本基于错误预算进行决策,4、建立SLO运营机制,在鹅厂的大规模落地实践 On-Call事件管理,1、事件接入解决的问题,3、告警事件接入能力,4、告警接入与响应,告警泛滥如何解决?减少告警绝对数量=告警治理告警上层接入治理=On-Call事件接入,2、标准化定义渠道,哪些是自动发现或是用户反馈?-数据驱动提升故障自动发现,告警匹配、收敛、升级、恢复怎么做?,在鹅厂的大规模落地实践 On-Call事件管理,5、On-Call在研发流程中的定位,6、运行案例,

5、核心点 面向技术团队,toC用户:视频、QQ、文档等产品的用户反馈,聚类告警通知研发toB用户:云产品的客户反馈,售后/技术支持人工找研发内部用户:内部平台中台的用户反馈,内部用户人工找研发,全渠道接入:持续观测与提升故障自动发现比例数据置信度大大提升技术团队一站式管理各类事件,在鹅厂的大规模落地实践 On-Call响应管理,1、On-Call保证标准化执行,2、On-Call业务管理,基础功能-业务管理、值班管理、升级策略、工单管理,保证On-Call标准化执行,覆盖MTTR全周期,Service为最小业务管理单元,在鹅厂的大规模落地实践 On-Call响应管理,3、值班管理,提升团队整体研

6、发效率、提升故障处理效率,4、升级策略,5、工单管理,多级别满足灵活性多层级满足多角色,串联大部分On-Call能力,在鹅厂的大规模落地实践 质量数据模型,1、数据模型分阶段,2、数据决策与管理稳定性,通过整个体系的落地质量数据模型,不同阶段围绕不同数据维度SLO数据:核心场景、SLO、剩余错误预算运营数据:On-Call效率、投入人力渠道数据:各产品渠道覆盖率、自动发现准召率质量数据:MTTR、故障数、严重程度、根因分类,基于以上数据,进行管理决策,制定稳定性相关OKR,以上数据较敏感,仅提供文字示意,肆,总结展望,04,总结展望,总结,展望,标准化的产品与运营大规模推进落地客观描述产品稳定性,数据决策质量投入实现科学的解决产品稳定性建设,稳定性的提升是复杂的,需要长期投入SLO精细化运营:影响产品研发决策质量体系延伸:线上稳定性(CO)=研发过程(CI/CD)SRE稳定性建设:质量数据=可观测、混沌、演习、容量、巡检、治理等投入,

友情提示

1、下载报告失败解决办法
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。

本文(王晓川-腾讯 SRE 质量运营体系建设与实践.pptx)为本站 (2200) 主动上传,三个皮匠报告文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三个皮匠报告文库(点击联系客服),我们立即给予删除!

温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。
会员购买
客服

专属顾问

商务合作

机构入驻、侵权投诉、商务合作

服务号

三个皮匠报告官方公众号

回到顶部