《GCOS去哪儿旅行混合云基建优化实践-v3.pdf》由会员分享,可在线阅读,更多相关《GCOS去哪儿旅行混合云基建优化实践-v3.pdf(29页珍藏版)》请在三个皮匠报告上搜索。
1、邹晟 基础平台技术专家 GCOS 2023 全球云原生及开源峰会个人简介个人简介2017年加入去哪儿旅行,云原生 SIG 成员,主要负责 DevOps 平台的规划和实施、研发效能的提升,近期一直在做混合云的容器稳定性治理、根因分析、预案系统等工作邹晟邹晟基础平台技术专家基础平台技术专家 GCOS 2023 全球云原生及开源峰会1 13 32 24 4去哪儿旅行混合云背景与挑战单应用1000+pod发布优化实践混合云下的应用级容灾实践混合云下的可观测性优化实践03040102混合云背景与挑战 GCOS 2023 全球云原生及开源峰会混合云混合云背景背景010203 GCOS 2023 全球云原生
2、及开源峰会混合云混合云策略策略冷数据上云冷数据上云 动作动作:数据库备份、及部分数仓数据上 云长期备份 效果:效果:20+P本地存储释放,节省了成本业务混合上云业务混合上云 动作动作:业务优先 IDC 部署,超过 阈值自动弹公有云 效果:资源利用率提升到 60%60%,业务高峰无需人工扩容 动作:动作:完成1P数据上云,本地做灾备。包括 对象存储和镜像仓库等 效果:效果:稳定性 99.995%存储上云存储上云 GCOS 2023 全球云原生及开源峰会混合云混合云挑战挑战大应用发布效率大应用发布效率挑战:1000+pod 发布耗时1-2个小时 0101应用级容灾应用级容灾挑战:单机房挂掉应用如何
3、保障可用性0202挑战:故障期间如何降低处理时长0303可观测性实践可观测性实践03040102 GCOS 2023 全球云原生及开源峰会大应用发布优化大应用发布优化-数据数据分析分析发布总时长发布总时长=max(=max(单批次应用启动时长单批次应用启动时长)x)x 发布批次发布批次数数发布批次数发布批次数=pod =pod 总数总数/单批次最多单批次最多 pod pod变量应用启动时长批次数pod总数 应用启动加速 减少发布批次数 pod 纵向扩容降低pod总数 GCOS 2023 全球云原生及开源峰会大应用发布优化大应用发布优化-应用启动应用启动加速加速定义定义spring、tomcat
4、 初始化应用初始化应用启动应用预热应用上线测量测量各个阶段埋点统计时长评估评估spring、tomcat 初始化秒级,spring 初始化和 bean 数量有关应用初始化和启动 1min应用预热2-3min瓶颈主要在预热数据,这部分数据优化性价比不高动作动作无 GCOS 2023 全球云原生及开源峰会大应用发布优化大应用发布优化-减少发布批次减少发布批次数数定义定义动态评估系统容量水位确保服务稳定,包括mysql、redis 连接数、dubbo zk 连接等测量测量业务吞吐和延时服务的后端资源容量变化(mysql、rediis 等)评估评估mysql 大量并发授权批量写 user 权限表会导致
5、 db 有延时抖动业务指标延时增加,不能直接降低发布批次数动作动作减少并发授权 db 抖动:动态授权改为网段授权,不直接写 user表,通过token 获取账户信息 GCOS 2023 全球云原生及开源峰会大应用发布优化大应用发布优化-pod-pod 纵向扩容降低纵向扩容降低 pod pod 总数总数定义定义系统吞吐不变,通过提高实例规格来减少总的实例数,提高发布效率测量测量业务吞吐与延时不断优化调整线程池数量、gc 策略并关注系统和业务指标评估评估pod 资源改为16/32c,32/64/128/256G 大规格 pod 后,效果明显动作动作成本考虑,发布系统支持先缩后扩应用切换大规格 po
6、d 并计算资源比例 GCOS 2023 全球云原生及开源峰会大应用发布优化大应用发布优化-效果效果资源节省20%发布效率提升70%04010203 GCOS 2023 全球云原生及开源峰会应用级容灾应用级容灾私有云多机房部署默认应用对机房无感知,自动向多个集群调度分布公有云多AZ公有云 AZ 级别故障自动切换应用级容灾 GCOS 2023 全球云原生及开源峰会应用级容灾应用级容灾-部署部署架构架构0102添加简介0304 GCOS 2023 全球云原生及开源峰会可观测性实践可观测性实践-22-22年故障数据年故障数据分析分析0101故障平均发现时间订单类故障1分钟发现率处理时长30分钟故障比例
7、4 4分钟分钟20%20%48%48%GCOS 2023 全球云原生及开源峰会01010202标题一单击文本框,可修改文字内容,调整文字颜色和大小。标题二单击文本框,可修改文字内容,调整文字颜色和大小。可观测性实践可观测性实践-改进改进分析分析 GCOS 2023 全球云原生及开源峰会可观测性实践可观测性实践-线上问题线上问题排查流程排查流程01010202标题一单击文本框,可修改文字内容,调整文字颜色和大小。标题二单击文本框,可修改文字内容,调整文字颜色和大小。发现发现分钟级监控告警订单类秒级监控告警定位定位根因分析应用监控大盘事件平台日志平台Trace 系统知识图谱构建恢复恢复标准 SOP
8、 流程预案系统 GCOS 2023 全球云原生及开源峰会01010202标题一单击文本框,可修改文字内容,调整文字颜色和大小。标题二单击文本框,可修改文字内容,调整文字颜色和大小。可观测性实践可观测性实践-根因定位根因定位模型模型准确率:70%70%GCOS 2023 全球云原生及开源峰会01010202标题一单击文本框,可修改文字内容,调整文字颜色和大小。标题二单击文本框,可修改文字内容,调整文字颜色和大小。可观测性实践可观测性实践-根因分析根因分析架构图架构图 GCOS 2023 全球云原生及开源峰会知识图谱知识图谱构建构建日志trace监控告警应用画像全局事件.1.1.基础数据基础数据.
9、2.2.应用关联应用关联.3.3.资源关联资源关联.4.4.异常关联异常关联服务调用链强弱依赖关系应用依赖的资源关系物理拓扑感知-感知容器、kvm、宿主机以及网络环境通过异常指标能精确快速的找到对应的trace、log等异常的告警之间的关联关系挖掘 GCOS 2023 全球云原生及开源峰会01010202标题一单击文本框,可修改文字内容,调整文字颜色和大小。标题二单击文本框,可修改文字内容,调整文字颜色和大小。可观测性实践可观测性实践-根因分析根因分析实践效果实践效果 GCOS 2023 全球云原生及开源峰会01010202标题一单击文本框,可修改文字内容,调整文字颜色和大小。标题二单击文本框,可修改文字内容,调整文字颜色和大小。可观测性实践可观测性实践-应用监控应用监控大盘大盘 GCOS 2023 全球云原生及开源峰会可观测性实践可观测性实践-预案系统预案系统模型模型 GCOS 2023 全球云原生及开源峰会0202标题二单击文本框,可修改文字内容,调整文字颜色和大小。可观测性实践可观测性实践-预案推荐预案推荐流程流程1.告警2.匹配3.推荐 4.确认与执行 GCOS 2023 全球云原生及开源峰会G C O S 2 0 2 3ThanksThanks