《5-有赞-有赞支付团队SRE体系建设-山猫.pdf》由会员分享,可在线阅读,更多相关《5-有赞-有赞支付团队SRE体系建设-山猫.pdf(27页珍藏版)》请在三个皮匠报告上搜索。
1、有赞支付团队SRE体系建设 山猫 SRE是什么 Site Reliability Engineering(站点可靠性工程师) 概念来源: SRE Google运维解密,Google对系统稳定性、高可用、 团队持续迭代和持续建设的一种体系化解决方案 一句话理解: 通过各种手段增加系统的稳定性 为什么要做SRE 建设SRE体系前后,有赞支付团队稳定性指标变化 年份年份稳定性故障数量稳定性故障数量可用服务时间可用服务时间 201810+99.92% 2019699.96% 2020199.99% 为什么要做SRE 怎么做SRE 哪个角色更适合推动SRE体系建设 运维 技术能力强;不熟悉业务 开发 技
2、术能力强;熟悉自身业务 测试 技术能力较强;熟悉全局业务;把控项目流程 SRE整体规划 策略优先级 1.投入资源小: 加入项目流程规范,日常化 2.投入资源大、效果明显: 专项推进,投专人负责 3.投入资源大、效果不明显: 降低优先级,最后推进 SRE整体规划 一重境-开言 初始阶段,做一些沟通协调性工作,如: 对开发进行稳定性宣讲 推动开发配置系统的熔断/限流/降级 项目流程管控 故障处理流程管控 SRE实施 SRE实施-限流/降级/熔断 雪崩效应 分布式系统中经常会出现某个基础服务不可用造成整个系统不可用 的情况, 这种现象被称为服务雪崩效应 如服务A调用服务B: 1. 服务提供者B不可用
3、 2. 服务A调用重试加大流量压力 3. 服务调用者A不可用 4. 故障逐级传导到最上游,整条链路所有系统雪崩 service hysrtix commandmetrics confi guration ? ? propertiesmetrics mysql report load Third service Tesla: 有赞的限流/降级/熔断管理平台 使用令牌桶模式实现限流 基于开源的Hystrix实现降级熔断 服务依赖隔离、fallback降级 SRE实施-限流/降级/熔断 二重境-炼体 对业务及稳定性的理解更深入了,尝试探索更深层次的问题,如: 故障注入测试 并发场景测试 SRE实施 SRE实施-故障注入测试 Docker Monkey: 有赞的故障注入平台 基于开源的Sandbox开发 可以在QA环境注入网络故障、中间件故 障、JMV故障,测试对应的故障场景 三重境-聚气 有较强