上海品茶

您的当前位置:上海品茶 > 报告分类 > PDF报告下载

吴召军-腾讯游戏混沌工程实践(23页).pdf

编号:82940 PDF 23页 1.70MB 下载积分:VIP专享
下载报告请您先登录!

吴召军-腾讯游戏混沌工程实践(23页).pdf

1、全球敏捷运维峰会广州站腾讯游戏混沌工程实践吴召军全球敏捷运维峰会广州站目录什么是混沌工程混沌工程平台建设混沌工程实践案例全球敏捷运维峰会广州站什么是混沌工程主动在分布式系统上进行异常实验,观察系统行为,发现系统弱点与新知识,并持续优化和实验,不断提高系统容错能力,让人们建立复杂分布式系统能够抵御突发事件的信心。混沌工程的定义全球敏捷运维峰会广州站什么是混沌工程故障预防故障发现故障响应故障定位故障恢复复盘改进架构评估优化容量评估优化全链路压测监控覆优化应急预案优化日志工具就绪观测工具就绪应急演练到位专家风险把控故障容灾演练监控告警主动拨测用户反馈舆情监控定期巡检客服反馈测试发现运行预测AIOPS

2、告警触达应急协同故障影响评估预案启动客服周知故障公告故障同步告警分析日志分析链路分析监控分析运营数据分析变更分析诊断工具定位专家决策AIOPS进展同步容灾切换扩容升配服务重启版本发布配置变更限流、熔断降级应急预案隔离进展同步沙盘演练过程推理根因分析故障复现故障影响统计改进措施同类排查问题跟进故障总结同步混沌工程防患未然检测快(MTTD)响应快定位快恢复快(MTTR)复盘演练全球敏捷运维峰会广州站1)混沌体系能力提升2)定制计划评估风险3)实验执行结果反馈4)架构优化能力提升5)优化反馈提交验证混沌工程实践事件编排指标观测环境恢复实验报告架构优化版本迭代开发能力运维能力1)混沌体系能力提升根据业

3、务场景给混沌能力的反馈与要求,不断迭代建设Chaos体系。2)定制计划评估风险从业务实际场景出发,设计具体实验计划,包括实验目标、范围、故障,选取稳态观察指标,限定爆炸半径,控制风险。3)实验执行并反馈结果执行前检查事件编排,查看当前观测指标状态,确认无误后下发实验,实验过程中观测稳态指标表现,据此判断实验是否符合预期,实验结束后恢复环境,同时输出实验报告。4)架构优化与能力提升业务相关干系人(运维、开发、测试等人员)收到结果反馈后需对已存问题进行review、评估整改方案、修复计划并检查同类问题,最后进行系统升级。5)优化反馈并提交验证根据业务的优化反馈,再次提交实验请求,验证改进是否生效,

4、进入下一轮混沌实验环节。混沌工程平台建设全球敏捷运维峰会广州站混沌工程平台建设:流程设计实验前实验中实验后故障场景稳态指标实验编排故障注入故障观测实验防护故障恢复实验报告汇总分析问题跟进统计度量靶点管理全球敏捷运维峰会广州站混沌工程平台建设:故障原子存储计算资源网络节点/容器磁盘空间满IO高负载IO延迟IO错误文件句柄耗尽文件删除丢包、延迟乱序、重复带宽满限速端口耗尽DNS篡改关机X秒开机重启/销毁重建删pod杀容器杀pod应用杀进程进程僵死状态码错误Body篡改请求延迟访问量激增CPU负载高单核CPU负载高内存满应用内存满虚拟内存满GPU负载高自研CHAOS TOOL网关MESH开源CHAO

5、S TOOL自定义shell脚本Python脚本二进制包API插件开源工具接入全球敏捷运维峰会广州站混沌工程平台建设:容器故障注入https:/chaos-mesh.org/全球敏捷运维峰会广州站混沌工程平台建设:应用故障注入Control PlaneService-AGWService-BGWService-CGWService-1GWService-2GWService-3GWService-XGWService-YGWService-ZGW网关MESH:服务治理,链路跟踪。全球敏捷运维峰会广州站混沌工程平台建设:应用故障注入请求网关响应通用治理负载均衡服务发现健康检查熔断限流监控度量访问

6、日志应用治理登陆校验访问控制服务加密参数校验调用跟踪流量复制混沌工程状态码注入延迟注入Header注入Body注入带宽限制用户过滤全球敏捷运维峰会广州站混沌工程平台建设:应用故障注入应用层故障注入全球敏捷运维峰会广州站混沌工程平台建设:实验编排全球敏捷运维峰会广州站混沌工程平台建设:实验观测基础监控系统业务监控系统Prometheus全球敏捷运维峰会广州站混沌工程平台建设:实验报告数据记录问题分析跟进解决改进方案全球敏捷运维峰会广州站混沌工程平台建设:收益传统故障演练:混沌平台演练:编排实验执行实验观察实验功能齐全的自助化和自动化工具30分钟10分钟10分钟1分钟5分钟5分钟1分钟2分钟1分钟

7、1分钟小时级分钟级全球敏捷运维峰会广州站混沌工程实践实践要点基础设施/平台实践目标业务/应用组织/流程控制风险自动化实验红蓝对抗全球敏捷运维峰会广州站混沌工程实践:风险控制切尔诺贝利核反应堆废墟演习环境,预生产环境,生产环境环境递进指定用户,指定微服务,指定大区范围递进一键终止,触发阈值自动终止实验防护避免流量高峰期,人齐且通知到位时机选择全球敏捷运维峰会广州站混沌工程实践:风险控制演习环境预发布环境生产环境结论:演习环境自测+预发布环境(每日自动化实验)+生产环境(半年一次)相结合可控性:低风险系数高,可能造成业务损失演习有效性:高演习效果真实有效人力成本:高演习需要多方人力参与可控性:较高

8、对线上业务基本上不会有影响演习有效性:较高接近线上的环境,效果较为有效人力成本:低可自动化,无需人力参与可控性:高不会影响线上业务演习有效性:中与线上完全隔离,有效性一般人力成本:低可自动化,无需人力参与全球敏捷运维峰会广州站混沌工程实践:实验防护图片来自网络登记exporter,上报稳态指标到混沌实验平台配置熔断规则(阈值、自定义PROMSQL)超过阈值,触发熔断,立即终止实验全球敏捷运维峰会广州站混沌工程实践:自动化混沌实验发布流水线集成混沌实验套餐,自动引用、执行。全球敏捷运维峰会广州站混沌工程实践:红蓝对抗制定攻防制度日常红黑榜,每周推送设定故障分,常态化演练设定演练分,突袭演练常态攻防,培养风险氛围大型攻防,固定攻防日全球敏捷运维峰会广州站混沌工程实践:实验内容实验分类实验目标单点故障检测故障隔离、主备切换、健康探针有效性告警验证检测告警系统的有效性,检验组织协作响应机制强弱依赖检测不合理的依赖关系,验证高内聚低耦合架构网络抖动检测快速失败、失败重试策略机房故障检测异地容灾、故障隔离策略的有效性第三方故障检测降级、熔断策略以及本地缓存的有效性过载保护检测防刷、拒绝服务攻击、流控规则的有效性全球敏捷运维峰会广州站THANK YOU!

友情提示

1、下载报告失败解决办法
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。

本文(吴召军-腾讯游戏混沌工程实践(23页).pdf)为本站 (小时候) 主动上传,三个皮匠报告文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三个皮匠报告文库(点击联系客服),我们立即给予删除!

温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。
会员购买
客服

专属顾问

商务合作

机构入驻、侵权投诉、商务合作

服务号

三个皮匠报告官方公众号

回到顶部