上海油压会所(上海按摩会所/上海花千坊)

上海品茶

5-有赞-有赞支付团队SRE体系建设-山猫.pdf

上传人：li

编号：29826

2021-02-07

PDF 27页 63.50MB

《5-有赞-有赞支付团队SRE体系建设-山猫.pdf》由会员分享，可在线阅读，更多相关《5-有赞-有赞支付团队SRE体系建设-山猫.pdf（27页珍藏版）》请在三个皮匠报告上搜索。

1、有赞支付团队SRE体系建设山猫 SRE是什么 Site Reliability Engineering（站点可靠性工程师）概念来源： SRE Google运维解密，Google对系统稳定性、高可用、团队持续迭代和持续建设的一种体系化解决方案一句话理解：通过各种手段增加系统的稳定性为什么要做SRE 建设SRE体系前后，有赞支付团队稳定性指标变化年份年份稳定性故障数量稳定性故障数量可用服务时间可用服务时间 201810+99.92% 2019699.96% 2020199.99% 为什么要做SRE 怎么做SRE 哪个角色更适合推动SRE体系建设运维技术能力强；不熟悉业务开发技

2、术能力强；熟悉自身业务测试技术能力较强；熟悉全局业务；把控项目流程 SRE整体规划策略优先级 1.投入资源小：加入项目流程规范，日常化 2.投入资源大、效果明显：专项推进，投专人负责 3.投入资源大、效果不明显：降低优先级，最后推进 SRE整体规划一重境-开言初始阶段，做一些沟通协调性工作，如：对开发进行稳定性宣讲推动开发配置系统的熔断/限流/降级项目流程管控故障处理流程管控 SRE实施 SRE实施-限流/降级/熔断雪崩效应分布式系统中经常会出现某个基础服务不可用造成整个系统不可用的情况, 这种现象被称为服务雪崩效应如服务A调用服务B： 1. 服务提供者B不可用

3、 2. 服务A调用重试加大流量压力 3. 服务调用者A不可用 4. 故障逐级传导到最上游，整条链路所有系统雪崩 service hysrtix commandmetrics confi guration ? ? propertiesmetrics mysql report load Third service Tesla：有赞的限流/降级/熔断管理平台使用令牌桶模式实现限流基于开源的Hystrix实现降级熔断服务依赖隔离、fallback降级 SRE实施-限流/降级/熔断二重境-炼体对业务及稳定性的理解更深入了，尝试探索更深层次的问题，如：故障注入测试并发场景测试 SRE实施 SRE实施-故障注入测试 Docker Monkey：有赞的故障注入平台基于开源的Sandbox开发可以在QA环境注入网络故障、中间件故障、JMV故障，测试对应的故障场景三重境-聚气有较强