《2-酷家乐线下环境稳定性建设-酷家乐-肖昌奔(肖邦).pdf》由会员分享,可在线阅读,更多相关《2-酷家乐线下环境稳定性建设-酷家乐-肖昌奔(肖邦).pdf(35页珍藏版)》请在三个皮匠报告上搜索。
1、酷家乐线下环境稳定性建设实践肖昌奔(肖邦)在酷家乐担任过多个团队测试负责人,目前负责测试架构团队肖昌奔(肖邦)环境建设背景 线下环境标准化建设 线下环境稳定性建设 总结展望目录 基础建设 事前预防 事发应急 日常运营酷家乐网站架构 依赖关系错综复杂 服务粒度细化 线下多套环境 多层级 环状依赖 高度耦合酷家乐工具前端业务线下环境是整个产品研发周期中重要的基石对线下环境的认知01挑战困难随着业务的发展,服务数量持续性增长,线下测试环境的数量剧增,环境日常维护的难度也在上升,同时我们对线下测试环境稳定性的要求也上升到新的高度标准化建设0稳定性建设2022今线下环境发展历程 环
2、境建设背景 线下环境标准化建设 线下环境稳定性建设 总结展望目录 基础建设 事前预防 事发应急 日常运营 链路依赖,单环境不稳定 新建一套环境非常复杂 测试无法并行,相互影响、相互阻塞 环境使用不规范早期存在的问题Stable环境:基线环境,全量的一套服务,且代码版本和线上保持一致,确保稳定Fe环境:功能/项目环境,基于基线构建的日常功能测试环境、项目测试环境,通过SOA进行请求路由Sit环境:集成测试环境,全量的一套服务,从功能/项目环境流转SOA路由环境流转标准化 环境流转结合测试流程环境流转标准化研发活动标准化长期存在的项目环境100+个线下环境pod10000+个每月创建临时环境160
3、0+个标准化建设成果 环境建设背景 线下环境标准化建设 线下环境稳定性建设 总结展望目录 基础建设 事前预防 事发应急 日常运营3个月时间测试环境挂了近30次稳定性建设契机问题剖析业务服务基础中间件硬件设施自建机房、硬件老旧、成本优先难自愈、影响广、数据丢失风险代码风险、配置低、监控混乱上万pod稳定性如何保障?线下环境稳定性治理整体思路 线下环境肯定会出问题 如何降低出问题的频率 出了问题如何快速恢复 如何不断完善形成长效机制readlinessProbe、startupProbe、livenessProbeProbe关键节点防单点核心服务和中间件至少两个podHPA基于服务实时状态进行动态
4、扩缩容迁移k8s包括业务服务、数据库全量迁移k8s01030204基于K8S的能力基础建设-自愈&高可用基线环境代码同步基础建设-同步&备份Ceph三磁盘备份核心链路巡检业务服务存活&soa检查基础中间件存活检查事前预防-巡检&存活检查日常预防手段,提前发现问题,提升自愈能力变更管控事前预防-变更管控&卡点&监控卡点监控前端一键批量回滚应急大盘分钟级全量服务重启事发应急事发应急-应急大盘范围:Api层、应用层、主机层、基础中间件层实时性:分钟级日常运营-长效机制日常运营-环境指标日常运营-环境指标稳定性治理效果 环境建设背景 线下环境标准化建设 线下环境稳定性建设 总结展望目录 基础建设 事前预防 事发应急 日常运营环境建设总结环境自愈展望个人微信号酷家乐技术质量公众号