1、SRE核心概念与可观测性刘峰 中国SRE联盟 首席布道师|Google SRE:什么是:什么是SRE?SRESRE是一个学科是一个学科SRE是一种最佳实践是一种最佳实践SRE是一类创新岗位是一类创新岗位Site Reliability EngineeringGoogle SRE:起源SRE:站点可靠性工程(Google负责7*24小时运维的VP命名)1.SRE是学科:使用计算机和软件工程手段设计和研发大型、分布式计算机软件系统;2.SRE关注:焦点是可靠性,包括架构设计、运维流程优化“足够可靠”;3.SRE主要工作:运维分布式集群系统上的具体业务服务(Service)SRE是一种职业:专注于软
2、件系统生命周期管理的IT工程师Benjamin Sloss Treynor Google 的副总裁,他的一个主要工作就是确保Google 的网站永不掉线Google SRE:起源 Apollos计划中的SREApollo 7 飞船研发事故的启发:1.类似的情况不断发生2.对于细节的不懈关注3.做好充足的灾难预案和准备工作4.时刻警惕5.不放弃一切机会去避免灾难发生以上是SRE最重要的理念!世界上第一个SRE专注于参与阿波罗登月计划的MIT教授Margaret Hamilton服务水平目标运营是软件问题减少琐事自动化共享所有权降低失败成本核心原则关键成功因素(KSF)Google SRE 原则
3、PrincipleGoogle SRE 实践总结SRE方法论:1.确保长期关注研发工作2.在保障SLO的前提下最大化迭代速度3.监控系统4.应急事件处理5.变更管理6.需求预测和容量规划7.资源部署8.效率与性能 DevOps Institute unless otherwisestated304可观测性“我认为,在未来3年内,这三个类别APM、监控/指标、日志,可能还有其他类别都可能不复存在。将只有一个类别:可观测性。并且它将包含您需要了解系统可以进入的任何状态所需的所有洞察。”Charity Majors,CEOHoneycomb可观测性的定义“可观测性作为一个名词,是一个系统的属性,它是
4、从了解系统外部输出中推断(infer)出系统内部状态的尺度。因此,如果我们的 IT 系统没有充分将其状态外部化,那么即使最好的监控也不足 Peter Waterhouse,CA110为什么可观测性很重要 服务快速增长 动态体系结构 容器化工作负载 服务之间的依赖关系 客户体验更重要910监控和可观测性 分布式、复杂的服务以不可预测的用户和可变吞吐量大规模运行,意味着有数百万种不同的方法出错 但是我们不能预测它们(监控神话)刚需:将服务的所有输出外部化,使我们能够推断该服务的内部状态(可观测)11举例说明:SLO,SLI&可观测性 SLO 从用户的角度,帮助确定什么是重要的 例如,90%的用户应在一分钟内完成完整的付款交易 SLI 详细介绍了我们目前的表现 例如,98%的用户在一个月内在不到一分钟内完成付款交易 可观测性使使用服务的正常状态 38秒是用户完成付款的“正常”时间,这时所有监控都健康12SRE与可观测性:奇点在开发和运维之间-引入和推动“奇点”应用(Application)与系统环境(Environment)之间 软件工程(Software Engineering)与系统工程(Systems Engineering)之间最终的一切,都是通过可靠的服务为客户交付业务价值它是为了给客户带来快乐(幸福感、人性化)非常感谢您的观看|