《茶百道微服务架构升级及运维实践.pdf》由会员分享,可在线阅读,更多相关《茶百道微服务架构升级及运维实践.pdf(19页珍藏版)》请在三个皮匠报告上搜索。
1、茶百道微服务架构升级及运维实践 茶百道技术总监 马晓超ChaPandaContents目录01茶百道云原生历程02微服务架构升级及运维实践03未来技术演进茶百道业务架构与特点Kubernetes生态IaaSVM、存储、网络、安全Web应用微服务A1微服务A2Web应用微服务B1微服务B2PaaS数据库、中间件关于茶百道关于茶百道茶百道是四川成都的本土茶饮连锁品牌,创立于2008年。经过15年的发展,茶百道从成都市温江区开出第一家店,到如今已成为餐饮标杆品牌,全国门店超7000家,覆盖全国超过330个城市业务特点业务特点线上线下相结合,业务峰值变动大线上线下相结合,业务峰值变动大稳定性要求高稳定
2、性要求高新服务上线频繁,运维工作量大新服务上线频繁,运维工作量大店务POS美团饿了么小程序抖音支付宝技术架构SpringCloud微服务云原生容器化云原生PaaS全国多地域茶百道技术概览CPU核数1万+日活峰值5万+实例数量3万+业务店务POC小程序美团饿了么抖音支付宝中台营销中心会员中心订单中心商户中心配送中心infra数据库缓存中间件网关容器可观测稳定性成本本页面数据来源于茶百道内部统计茶百道云原生发展历程ChaPanda2018业务信息化全面升级,流量上升IDC托管机房承载业务流量业务信息化转型自建机房,采购服务器,虚拟化内部管理及部分业务系统线上化自建系统,本地化部署20132023C
3、端、B端业务系统全面云原生自建依赖容器、微服务能力应对突发流量全面云原生,容器化2021SAAS化平台,全面数字化业务系统采用SAAS化托管模式门店、订单、POS、小程序全面数字化资源弹性Elastic Infrastructure系统稳定性Reliability应用敏捷性Application Agility云原生,茶百道核心业务驱动力ChaPanda容器架构核心能力提升 资源弹性ApplicationScalingResourceScalingKubernetesECSPODPODPODPODGPUInscancePODPODPODPODSpotInscancePODPODPODPODVi
4、rtualNodeECIECIECIECIHPAPODPODPODPODVPAPODCron HPAPODPODPODPODPODPODECS千节点扩容60秒30秒ECI扩容pod数3000突发流量弹性资源10万core成本降低50%本页面成本降低数据来源于茶百道内部统计,云产品数据来自阿里云官网茶百道面临的系统稳定性挑战茶百道技术架构店务POS小程序美团饿了么抖音支付宝DNSSLBNG 集群业务关建K8S集群数据库、缓存、中间件DevopsIslandstraefik ingress故障快速发现与定位发布对业务有损突发流量系统防护茶百道全栈上云稳定性提升解决方案业务连续性管理体系故障预防快速
5、发现系统防护告警业务监控应用性能监控/中间件监控系统&云服务监控基础设施&网络监控多层次全链路监控tracing能力灰度环境商户中心门店中心商品中心.1%99%灰度环境无损上/下线生产环境商户中心门店中心商品中心.弱依赖自动降级商品中心积分中心耗时高或成功率低?是熔断并快速返回错误信息正常返回熔断降级流量防护预防能力建设,全面消除变更态风险 保障新版本发布时业务的连续性 业务下线、异常调度部影响线上业务 按业务标签、门店ID等,快速、安全地验证新版本 从网关、应用、到消息及数据库整条链路的隔离流量泳道,确保灰度环境全链路验证无损上下线全链路灰度可观测体系建设企业风险治理业务连续性保障智能运维I
6、T 成本管理敏捷组织提效故障恢复时间70%故障数30%本页面数据来源于茶百道内部统计全链路追踪诊断系统:从零散单点到规模化全面覆盖容器环境自动接入,运维效率指数级提升自动生成全局拓扑,微服务依赖一目了然端到端完整调用链追踪,慢调用错误快速定位指标观测关联链路和日志,可观测成为整体应用ARMS Pilot ControllerPrometheus服务容器服务集群POD链路、指标自动注入 Java agentARMS应用监控Deployment加入AnnotationARMS应用探针告警平台:从告警盯人到基于群的ChatOps转变应用监控云监控容器服务监控前端监控值班运维支持排班升级分拣提效压缩降
7、噪智能分组诊断自愈智能定位统一Prometheus数据源ARMS智能告警平台统一对接IM工具智能降噪内置告警数据分析大盘基于PromQL的告警规则告警事件-等级评估-分配处理人-状态追踪事件处理详情-事后回溯系统防护能力建设,轻松应对偶发异常动态请求静态页面CDN有效请求非法请求动静请求分离安全策略防攻击;粗放型流控容量之内超容云原生网关Web 入口后端应用DB缓存其它应用热点/普通流量探测分离;精细流控根据应用的容量进行流控;实时探测应用内部不稳定调用,及时隔离或摘除;自适应系统过载保护慢SQL治理、连接池治理;缓存热点 key 击穿防护;不稳定第三方服务探测、隔离与熔断服务A服务B服务C服
8、务D服务E服务F下游依赖数据库以应用为中心聚合和管理茶百道研发资产研发流程研发流程代码资源配置环境策略应用工程活动工程活动部署测试提交扫描审批回滚研发资产研发资产项目需求变更请求缺陷茶百道一站式DevOps工作流程开发任务创建变更代码提交执行发布应用代码应用环境变更部署编排研发流程角色权限应用设置分支云效应用交付云效研发项目需求任务效能洞察代码管理流水线制品仓库开发阶段(feature-*)测试阶段(dev)验收阶段(master)发布阶段(tag)开发环境测试环境UAT环境生产环境创建变更自动化测试工具接入用例管理测试计划手工测试测试报告测试管理安全工具接入集成安全扫描工具SLSARMSACK集群开发者运维人员模板定义集群管理123412MSE60%发布效率提升70%故障恢复时长大幅下降业务效果50%整体成本下降本页面数据来源于茶百道内部统计茶百道未来规划Serverless高效可伸缩高效可伸缩serviceAI智能决策智能决策采集、清洗、训练智能运维预防及自愈预防及自愈AIOPSTHANKS