《刘征-SRE提高服务质量和稳定性的套路.pdf》由会员分享,可在线阅读,更多相关《刘征-SRE提高服务质量和稳定性的套路.pdf(29页珍藏版)》请在三个皮匠报告上搜索。
1、解密 SLO 背后隐藏的算法和政治 刘征Elastic 社区布道师 站点可靠性工程是一门工程学科,致力于帮 助组织在其系统、服务和产品中持续实现适 当的可靠性水平。 DavidDavid BlankBlank EdelmanEdelman Microsoft SRE /Seeking SRE 站点可靠性工程是一门工程学科,致力于帮 助组织在其系统、服务和产品中持续实现适 当的可靠性水平。 DavidDavid BlankBlank EdelmanEdelman Microsoft SRE /Seeking SRE 站点可靠性工程是一门工程学科,致力于帮 助组织在其系统、服务和产品中持续实现适
2、当的可靠性水平。 DavidDavid BlankBlank EdelmanEdelman Microsoft SRE /Seeking SRE 站点可靠性工程是一门工程学科,致力于帮 助组织在其系统、服务和产品中持续实现适 当的可靠性水平。 DavidDavid BlankBlank EdelmanEdelman Microsoft SRE /Seeking SRE 相悖的激励机制相悖的激励机制 What Makes SRE, SRE 什么是 SRE 的 SRE? 指的是雇佣 Coder 为你的服务设置 SLA 度量和报告SLA的实时性能 在团队使用错误预算和门限发布 SRE和Dev统一的人
3、力池 过剩的 Ops 工作溢出至 Dev 保持SRE的Ops工作量在50% 与 Dev分享5%的运维性工作 Oncall 团队最少 8 人组成,或者 6x2 每次Oncall的值班,最多处理 2 个事件 每个事件都做事后回顾 无职责的事后回顾聚焦在流程和技术, 而不是人 SLO 监控决策 定义服务的稳定性 理解影响服务稳性的诱因 锁定需要持续度量的SLI 实施必要的 SLI 监控 共享生产的监控结果给 Dev 使之成为可信的参考源 RED SLO Green Green:可以按期发布 RED:探索问题根因 实施实施 SRE 的核心三部曲的核心三部曲 SLA Service Level Agreement SLO Service Level Objective SLI Services Level Indicator SLA(1) 基础架构服务/IaaS(1n) 文档 销售 / 用 户 客户