上海品茶

您的当前位置:上海品茶 > 报告分类 > PDF报告下载

03 腾讯云-周峰-混沌工程.pdf

编号:129361 PDF 10页 3.45MB 下载积分:VIP专享
下载报告请您先登录!

03 腾讯云-周峰-混沌工程.pdf

1、腾讯云混沌工程实践周峰目录1、背景 2、挑战及方案 3、实践效果4、产品化建设1.背景:云上规模持续提升,难预测、不可控、复杂度高等故障频发,影响客户和口碑故障数故障影响时长云规模持续提升故障时长上升人员误操作、现网变更失败、变更机制不合理、回退不及时等代码缺陷故障事件增多基础设施故障业务依赖的平台硬件故障、网络故障、电力故障等运营商故障运营商故障导致影响基础网络、通信业务等故障频发故障影响大经济损失产品口碑客户流失操作变更代码质量、程序逻辑、应用架构等故障稳定性建设腾讯云混沌工程建设可观测可度量持续验证中国信通院稳定性保障标准体系云服务生产标准混沌能力分级要求挑战1:动力不足挑战2:影响不可

2、控挑战3:门槛过高底层设施底层设施 虚拟服务器虚拟服务器 容器容器TKETKE 数据库数据库 动作注入探针动作注入探针 选择经验模版选择经验模版 创建演练创建演练 可视化注入可视化注入 实时监控实时监控 演练结束演练结束分析报告分析报告产品功能产品功能故障注入安全防护生命周期故障故障动作动作可视化可视化演练演练行业行业经验库经验库自定义自定义动作动作演练演练护栏护栏指标指标监控监控 权限权限管控管控环境环境预检预检演练演练报告报告演练演练计划计划 问题问题记录记录专家专家咨询咨询配置配置稳态指标稳态指标 跨可用区跨可用区容灾演练容灾演练 云上两地云上两地三中心演练三中心演练 云上云下云上云下容

3、灾演练容灾演练业务场景业务场景专线高可用专线高可用容灾演练容灾演练建设背景和思路 腾讯云混沌演练平台背景方案2.建设方案:直面混沌工程落地三大挑战,建设腾讯云稳定性保障体系系统复杂需求规模大运维难度大团团队队组组成成支撑工具支撑工具基础能力建设基础能力建设多场景演习多场景演习自动化提效自动化提效工工具具建建设设以混沌演练平台支撑演习建设跨AZ容灾等多个演习场景协同QTA打通产品关键P00用例拉通拉通产研团队产研团队支撑支撑团队团队技术管理技术管理委员会委员会混沌蓝军团队混沌蓝军团队联合联合质量团队质量团队协协同同指挥小组周会指挥小组周会蓝军接口人双周会蓝军接口人双周会可用性提升月会可用性提升月

4、会质量月会质量月会建立分层协作机制激激励励优秀质量奖目标达成奖混沌先锋奖全地域现网实战演习协同各领域技术专家团队提炼共性问题共性识别蓝军owner作为演习第一责任人协同推进业务自查实战演习挑战1:自上而下,成立第三方混沌蓝军进行大规模演习,质量运营考核,主动出击1 1演练目标:演练目标:TOC、网络设备等基础设施及各云产品快速恢复能力稳态指标:稳态指标:各产品服务稳定性监控实验假设:实验假设:假设机房发生电力故障时,实现 基础设施+网络+IAAS+云产品 快速恢复稳定状态实验方法:实验方法:通过对机房“列头柜拉闸断电/TOC远程关机”方式对服务器进行关机操作,关机后待稳态指标均掉底后恢复供电结

5、果验证:结果验证:通过统计演练各个环节恢复稳定状态的总耗时判断是否达到演练目标2 23 34 45 51 1业务授权现网变更审批机器数量阈值审批高危故障动作审批1.业务审批授权,层层把控3.灰度执行演练,更精细地控制爆炸半径2.演练随时止损能力安全护栏实时监控暂停/终止自动回滚类生产环境演习:新区断电演习解法1生产环境管控:产品安全兜底策略解法2 挑战2:类生产环境演习,生产环境强管控4 挑战3:结合腾讯云自研上云实践,打磨产品体验,提升易用性行业经验库行业经验库演习任务演习任务演习计划演习计划演习报告演习报告混沌演练全生命周期混沌演练全生命周期云上DB主从切换主备节点不可用Broker节点故

6、障云上CKafka磁盘只读云上CVM开关机l故障场景覆盖约20种资源类型l近400个故障原子动作l丰富云上Paas故障动作建设l提供电商/游戏/金融/多媒体等多个行业典型经验模板l跨az容灾/混合云容灾等场景l快速高效复用成熟解决方案电商行业秒杀活动服务压力演练金融行业混合云容灾演练l切换资源分布可视化视图,降低操作成本l实时查看故障注入效果演练计划关联经验库批量生成演练任务产品配置定时执行演练故障动作库建设1行业经验库2可视化演练3自动化演练450+覆盖团队数2000+2023年演练任务数2023年治理隐患数700+3.实践效果:混沌演练常态化、规模化,云产品业务稳定性稳步提升,混沌平台能力达到先进级故障数故障影响时长客户规模持续上升演练运营情况故障数快速下降故障影响时长快速下降l结合自研实践经验,夯实混沌平台产品能力l打造行业标杆客户案例l贴合业务应用场景进行落地l混沌工程先锋实践者l云服务稳定安全运行应急演练专项活动十佳优秀报告l混沌平台能力要求标准最高等级先进级认证4.腾讯云混沌演练平台:结合自研实践,打磨故障注入产品能力,建设稳定性治理体系产品演进路线1客户标杆案例落地2行业认证3自动化故障场景能力产品化应用可用性管理智能化AIGC x 混沌20232023故障注入动作建设THANKS扫码体验扫码体验 腾讯云混沌演练平台腾讯云混沌演练平台https:/ 谢

友情提示

1、下载报告失败解决办法
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。

本文(03 腾讯云-周峰-混沌工程.pdf)为本站 (2200) 主动上传,三个皮匠报告文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三个皮匠报告文库(点击联系客服),我们立即给予删除!

温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。
会员购买
客服

专属顾问

商务合作

机构入驻、侵权投诉、商务合作

服务号

三个皮匠报告官方公众号

回到顶部