上海品茶

您的当前位置:上海品茶 > 报告分类 > PDF报告下载

5-有赞-有赞支付团队SRE体系建设-山猫.pdf

编号:29826 PDF 27页 63.50MB 下载积分:VIP专享
下载报告请您先登录!

5-有赞-有赞支付团队SRE体系建设-山猫.pdf

1、有赞支付团队SRE体系建设 山猫 SRE是什么 Site Reliability Engineering(站点可靠性工程师) 概念来源: SRE Google运维解密,Google对系统稳定性、高可用、 团队持续迭代和持续建设的一种体系化解决方案 一句话理解: 通过各种手段增加系统的稳定性 为什么要做SRE 建设SRE体系前后,有赞支付团队稳定性指标变化 年份年份稳定性故障数量稳定性故障数量可用服务时间可用服务时间 201810+99.92% 2019699.96% 2020199.99% 为什么要做SRE 怎么做SRE 哪个角色更适合推动SRE体系建设 运维 技术能力强;不熟悉业务 开发 技

2、术能力强;熟悉自身业务 测试 技术能力较强;熟悉全局业务;把控项目流程 SRE整体规划 策略优先级 1.投入资源小: 加入项目流程规范,日常化 2.投入资源大、效果明显: 专项推进,投专人负责 3.投入资源大、效果不明显: 降低优先级,最后推进 SRE整体规划 一重境-开言 初始阶段,做一些沟通协调性工作,如: 对开发进行稳定性宣讲 推动开发配置系统的熔断/限流/降级 项目流程管控 故障处理流程管控 SRE实施 SRE实施-限流/降级/熔断 雪崩效应 分布式系统中经常会出现某个基础服务不可用造成整个系统不可用 的情况, 这种现象被称为服务雪崩效应 如服务A调用服务B: 1. 服务提供者B不可用

3、 2. 服务A调用重试加大流量压力 3. 服务调用者A不可用 4. 故障逐级传导到最上游,整条链路所有系统雪崩 service hysrtix commandmetrics confi guration ? ? propertiesmetrics mysql report load Third service Tesla: 有赞的限流/降级/熔断管理平台 使用令牌桶模式实现限流 基于开源的Hystrix实现降级熔断 服务依赖隔离、fallback降级 SRE实施-限流/降级/熔断 二重境-炼体 对业务及稳定性的理解更深入了,尝试探索更深层次的问题,如: 故障注入测试 并发场景测试 SRE实施 SRE实施-故障注入测试 Docker Monkey: 有赞的故障注入平台 基于开源的Sandbox开发 可以在QA环境注入网络故障、中间件故 障、JMV故障,测试对应的故障场景 三重境-聚气 有较强

友情提示

1、下载报告失败解决办法
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。

本文(5-有赞-有赞支付团队SRE体系建设-山猫.pdf)为本站 (X-iao) 主动上传,三个皮匠报告文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三个皮匠报告文库(点击联系客服),我们立即给予删除!

温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。
会员购买
客服

专属顾问

商务合作

机构入驻、侵权投诉、商务合作

服务号

三个皮匠报告官方公众号

回到顶部