《阿里云:第三届云原生实战峰会资料合集(2022)(143页).pdf》由会员分享,可在线阅读,更多相关《阿里云:第三届云原生实战峰会资料合集(2022)(143页).pdf(143页珍藏版)》请在三个皮匠报告上搜索。
1、阿里云智能中国区副总裁、苏皖分公司总经理曹思培云原生助力企业云上创新江苏正在全面推进数字化经济、生活和治理全面推进江苏经济社会数字化转型意义重大重点任务包括建立数字技术创新体系、建强数字基础设施体系等七项关于全面提升江苏数字经济发展水平的指导意见江苏省制造业智能化改造和数字化转型三年行动计划全面推进江苏民政数字化转型工作方案围绕企业“智改数转”,开展软件技术攻关、产品研发和解决方案集成等工作近期的一系列政策、文件,进一步指明了方向阿里巴巴在江苏助力江苏和南京高质量发展和数字化建设建设江苏总部园区可容纳3万人持续投资南京在产业、技术、基建等方面均有投资,总额数百亿深度服务南京1.4万名在南京的员
2、工总数,其中阿里云原厂团队数百人阿里云苏皖分公司总部所在地,拥有完整的客户经理、解决方案到售后服务团队阿里云总部政务、企业的部分专家团队长期驻扎,为政企提供整体数字化咨询咨询、集成、软件、交付生态伙伴聚集,整合阿里云产品和技术能力,全面服务客户各类场景阿里云本地团队在南京阿里巴巴集团在江苏阿里云为江苏政企数字化贡献力量深化与政府的紧密合作,落实好江苏的数字化战略,服务好江苏的政府和企业参与江苏省及多个地市的政务云建设,投身数字基础设施建设政务政务在医保、财政等领域,以中间件、云原生能力,支持大并发、大流量民生应用民生民生持续服务于政务数字化领域服务大型企业数字化提供整体规划和落地,为各类场景提
3、供IaaS、PaaS技术能力支撑企业企业为互联网企业提供稳定、可靠、安全的基础设施和全面等全栈云产品互联网互联网持续服务于企业数字化领域云原生激活应用构建新范式全面容器化全面容器化运维标准化,成为服务新界面高弹性可伸缩,助力降本提效全负载容器化无处不在的部署核心技术互联网化核心技术互联网化分布式可扩展,业务敏捷迭代弹性架构,从容应对流量高峰高可用高可靠保障业务连续性应用应用ServerlessServerless化化技术组件分层解耦,实现全托管自适应弹性免运维,按用量计费研发模式再升级,聚焦业务创新云原生是企业数字创新的最佳选择 助力企业实现资源弹性、系统稳定、应用敏捷、业务智能、安全可信,加
4、速企业数字创新加速企业数字创新 云原生通过开源和技术生态,让云计算更加标准化 向下延伸软硬一体化、向上延伸架构现代化 水平延伸解决研发运维全生命周期的挑战 云原生正在重塑整个软件的生命周期重塑整个软件生命周期 向下封装基础设施,屏蔽底层架构的差异性 链接异构算力,云边端一体化管理 向上支撑多种工作负载和分布式架构 容器+K8s逐步成为云计算的新界面成为云计算的新界面云原生加速千行百业数字化创新生长服务80%+的中国科技公司客户来自200个国家和地区覆盖197个行业全球合作伙伴数11000互联网金融零售通信交通制造政务传媒医疗能源文旅400万服务750万客户开发者数据来源于阿里云,截至2022年
5、5月THANKS丁宇阿里云智能云原生应用平台总经理云原生激活应用构建新范式云计算时代,企业应用构建面临新的挑战资源弹性系统稳定可信安全应用敏捷业务智能 运维标准化,成为服务新界面 高弹性可伸缩,助力降本提效 全负载容器化,无处不在的部署全面容器化 分布式可扩展,业务敏捷迭代 弹性架构,从容应对流量高峰 高可用高可靠,保障业务连续性核心技术互联网化 技术组件分层解耦,实现全托管 自适应弹性免运维,按用量计费 研发模式再升级,聚焦业务创新应用Serverless化云原生激活应用构建三大范式数据来源于阿里云,相较开源实现Apache DubboACK-Kubernetes ServiceASK-Se
6、rverless KubernetesSpring Cloud微服务MySQLApache RocketMQ有状态应用Apache FlinkTensorFlow大数据/AI应用区块链IoT创新应用ACK ONE多集群、多环境管理统一集群管理统一资源调度统一数据容灾统一应用交付服务网格ASM统一应用通信边缘容器 ACKEdge专有云企业版 ACKACK 发行版ACK 敏捷版容器镜像服务ACR统一应用资产管理飞天技术底座与基础云服务客户 IaaS中心云本地云公共云边缘云专有云内存密集型应用运行效率软硬一体资源隔离保障,精细化 NUMA 拓扑感知网络延迟阿里云虚拟化网络与 eBPF 深度融合异构资
7、源利用率异构算力高效调度 20%50%100%容器服务 ACK Anywhere:计算无界 承载无限智能化混部调度智能化成本治理新一代调度系统 Koordinator容器服务 FinOps 套件容器服务 AIOps 套件集群资源利用率提升 10%;降低计算成本 20%以上混部调度:资源效率提升 100%差异化 SLO 保障:应用间性能影响 20%50%100%可观测集成中心可观测集成中心 2.0 2.0 发布发布:企业观测接入效率企业观测接入效率50+款云服务和技术组件指标观测一键集成,ECS/ACK/EDAS等部署应用零改造观测集成可视化能力升级:看板搭建维护工作量可视化能力升级:看板搭建维
8、护工作量100+常见场景指标看板模版,支持80+款云数据库及主流可观测数据源集成智能告警能力全面增强:响应与处理效率智能告警能力全面增强:响应与处理效率高可用、高准确率的动态阈值智能告警,基于AI算法的自动异常巡检与根因定界数据来源于阿里云云原生可观测套件:助力企业轻松构建可观测体系提供20+开箱即用的工具能力,提升容器场景下调试与诊断效率;通过接口访问工具,可直达VPC内网进行服务访问与测试推出云原生工具箱推出云原生工具箱推出应用架构编排工具推出应用架构编排工具一图集成 8 种云资源管理,满足财务人员、架构师、运维人员对云上应用资源运营的诉求,交付效率提升 50%以上流量治理与微服务全面融合
9、流量治理与微服务全面融合SchedulerX 与 EDAS 全面融合控制面与数据面,应用可使用一个灰度策略支持三种(RPC、消息、任务)基础通信协议集群类型应用类型无侵入微服务流量无损治理容量弹性规划助力企业运营研发全流程任务调度SchedulerX应用内 Spring 任务大数据 DataWorks 任务云原生 Job 类型任务端云互联Jenkins/Terraform微服务接口测试自动化测试Spring Cloud云虚拟机 ECSHSFService Mesh优雅上下线金丝雀/全链路灰度服务预热限流降级单应用指标/定时弹性业务从 0-N 按需调度多集群/混合资源调度异构基础设施调度全站权限
10、控制业务成本视图应用资源划分全量 Open APIDubbo容器服务 ACKServerless 容器服务 ASK自建资源 IDCJavaEE(EAR)Fat JarWARImage缩短微服务落地路径,助力企业云原生应用架构转型企业级分布式应用服务 EDAS 全新升级应用运行时SAEFCASK应用集成大数据数据库存储人工智能微服务应用PolarDBAnalyticDBRDSEBSSLSNASOSSTablestoreHBR实时计算Flink版MaxComputeHologresElasticsearchKafkaMNSRocketMQSWFEventBridge智能客服PAIWAFCDNMSE
11、PTSARMS全面托管全面托管自适应弹性自适应弹性开箱即用开箱即用按用量计费按用量计费从资源到服务,阿里云核心产品全面 Serverless 化在线应用游戏互娱微服务前端全栈在线教育/音视频Apache Dubbo电商零售游戏中台Spring Cloud小程序数据智能HSFServerless Devs组件插件云效云+端一体化极速体验应用模块库经典案例库面向应用-SAE面向容器-ASK存储服务数据库服务应用监控&日志网络服务安全服务丰富的应用场景完善的开发工具消息服务Serverless 应用中心后端 BaaS 服务联动Serverless 计算平台面向函数-FCSAE 提供新负载、新场景、新
12、工具 Job 工作负载正式商业化 支持多语言微服务场景 提供更丰富的工具链函数计算 FC 深入三大场景 高性价比的音视频处理能力 开箱即用的消息 ETL 体验 Serverless GPU 算力更普惠Serverless 应用中心:让 Serverless 更易开发 海量模版,快速上手 企业级特性 全生命周期管理 开源开放,生态建设Serverless 运行时:云上构建应用更简单研发效率提升 30%以上业务峰值支撑能力提升 230%弹性资源成本降低 40%以上成本下降 40%开发运维效率提升 70%扩容效率提升 10倍以上成本节省 50%9人团队即可保证应用开发人力投入节省 50%以上数据来源
13、:世纪联华数据来源:南瓜电影数据来源:wolaiServerless 服务客户案例应用交付平台应用交付平台社区版社区版CNStack LocalCNStack Online标准版标准版ACK Distro平台管理能力中心企业服务运维服务资源服务(集群、分布式存储、虚拟网络、备份冗灾、负载均衡、证书)工作负载(有/无状态、批处理、混部调度)应用场景容器云分布式应用云边协同DevOps资源优化AI/大数据业务中台在线集成在线验证在线交付在线演示同标准同架构同体验同发布与标准版阿里云官网免费下载社区论坛免费技术支持云 服 务(多集群、虚拟化、分布式应用、边缘应用、DevOps)云 组 件(消息、数据
14、库、缓存、大数据)异构 IaaS运维效率研发效率30%运维效率数十倍统管全国近700个服务器节点统一算力支持统一算力支持一站式应用管理一站式应用管理丰富易用的能力中心丰富易用的能力中心资源占用数据来源:龙源电力数据来源:远东宏信云原生技术中台 CNStack 2.0:高效用云,专注业务本身30%80%运维割裂、难定位缺乏业务视角、难感知被动式运维、难恢复“1-5-10”应急快恢全流程 应急事件发现与预警管理 1分钟 应急事件响应与定位 5分钟 应急事件恢复与复盘 10分钟“三板斧”故障预防可观测可灰度可回滚监控配置故障等级定义事前准备行业方案质效医保数字化防疫金融核心系统上云新零售大促保障业务
15、场景重启回滚扩容切流限流降级灰度发布应用监控应用回滚1分钟发现5分钟处10分钟恢复故障通告故障响应故障快恢方案能力服务支撑产品能力变更接入变更规则设定回滚预案可观测可灰度可回滚变更灰度变更观测变更回滚告警域监控域故障域预案域快恢域变更域演练域工单域风险挖掘事中应急业务目标变更准备变更执行业务目标全链路监控服务故障应急服务演练评测服务变更管控服务场景一:“场景一:“1 1-5 5-10”10”故障快恢故障快恢场景二:“变更三板斧”故障预防场景二:“变更三板斧”故障预防数字化安全生产平台 DPS:一站式平台,保障业务连续性CNCF Landscape 中 580 个开源项目与发起企业在开源项目协作
16、影响力的变化趋势CNCF 开发者协作影响力全球第二Source:X-lab 开放实验室/木兰开源社区 OpenDigger 项目30+30+云原生开源项目2000+2000+Contributor27w+27w+GitHub star100w+100w+开发者标准化标准化开源开源商业化商业化OpenSergo.SPECOpenMessagingOAM全局高可用应用和服务治理AppActiveChaosBladeOpenSergoSentinel消息、事件、流一体化平台RocketMQRocketMQ-streamsRocketMQ-EventBridge云原生微服务架构ServerlessDu
17、bboHigressNacosSeataSpring Cloud AlibabaServerless-DevsDapr应用管理与交付KubeVelaAI&大数据混部FluidVineyardKoordinatorOpenKruiseKubeDLUpstream项目/SIG投入Kubernetes&SIGsArena/Flannel/VK/ACK商业化开源组件ACK Distro网络、存储、安全、调度等组件边缘/分布式云OpenYurtOCM其他InclavareContainerssealerDragonFly全局高可用应用和服务治理AHASMSHAEDASMSE服务治理消息产品线MQKafk
18、aEventBridge微服务产品线MSE注册配置中心MSE 云原生网关Serverless 产品线FCSAECNStackACK 敏捷版ADP云原生AI套件弹性混部解决方案ACK/ASK/ACKEdgeACK OneACR坚持三位一体策略,引领云原生开源生态持续繁荣THANKS邓学祥阿里巴巴高级技术专家高德地图 Serverless 落地实践Serverless 助力开发提效2022十一出行节FaaS QPS 超:50万以上数据来源于高德技术团队Serverless 部分落地场景示例多业务线中的落地场景示例长途天气行后门票推荐酒景美食推荐智能终点推荐-酒店Serverless 落地场景-美食
19、订座FaaS 贯穿全业务流程BFF 类业务面临的挑战用户体验样式多变高频的样式变化敏捷创新策略多变快速验证策略效果产研同频快速迭代快速发布上线BFF 场景的开发提效RequestBaas ServicesBaas ServicesBaas ServicesBaas ServicesNode.js/C+/Go FaasDataTemplate+ResponseRenderRendering EngineServerless 落地收益开发提效 30%以上SFF/BFF场景业务快速开发运维提效 60%以上多维度伸缩策略,完备的生命周期管理,免运维降低成本 30%以上潮汐流量,按需计费以上数据来源于高
20、德技术团队多次对比测试结果高德 Serverless 落地历程小试牛刀探索 Serverless 解题的可行性,和FC合作建设多语言Runtime,在可降级业务中谨慎探索落地蓬勃发展开发效率高,收益明显可观测性完善,稳定性完善,制定接入规范单一业务线深度使用,超10万级 QPS遍地开花多业务线多业务场景中全面落地超 50万 QPS以上数据来源于高德技术团队多次对比测试结果Serverless 的稳定性可监控可回滚可灰度全年无P4及以上故障 制定接入规范 最佳实践案例 Must have:稳定性三板斧:可灰度、可监控、可回滚 可观测性已完善,问题第一时间发现,做到1-5-10 接入checkli
21、st Nice to have:可降级 建立上下游的联合报警机制未来展望高德地图哪儿都熟通过 Serverless 助力高德更多业务场景的接入,实现高德地图哪儿都熟的品牌价值,从BFF拓展到后端服务,事件驱动,异步任务等场景THANKS阿里云资深技术专家阿里云Serverless 负责人杨皓然从上云到用云,Serverless 让业务开发心无旁骛云计算时代,企业应用面临的挑战资源弹性系统稳定应用敏捷业务智能可信安全Cloud 1.0,上好云客户核心关注是平滑迁移云厂商核心能力是云资源开源生态极大繁荣,但学习维护成本巨大Cloud 2.0,用好云组装式研发云产品全面 Serverless 化应用
22、架构 Serverless 化客户核心关注是用好云云厂商核心能力是云服务云服务能力上移,成为构建应用的基础组件消息队列 RocketMQ Serverless 化优势对比项架构能力按用量付费实时弹性平台能力开源自建依赖软件架构,和服务器分层解耦按预留服务器付费无开源组件,自运维自集成全托管云产品规模化算力支持按资源服务开通时长付费按实例规格扩缩容企业级特性加持Serverless 化云产品云基础能力自包含,存算分离软硬协同优化按实际流量和存储量付费自适应弹性伸缩企业级特性加持,开箱即用默认打通生态体系集成趋势1:云产品全面 Serverless 化应用运行时SAEFCASK应用集成大数据数据库
23、存储人工智能微服务应用PolarDBAnalyticDBRDSEBSSLSNASOSSTablestoreHBR实时计算Fink版MaxComputeHologresElasticsearchKafkaMNSRocketMQSWFEventBridge智能客服PAIWAFCDNMSEPTSARMS半托管到全托管开箱即用免运维自适应弹性按用量计费阿里云 Serverless 计算产品函数计算FC 内置负载均衡网关内置削峰填谷队列自研调度层按请求粒度的调度ECS+裸金属安全容器编写业务逻辑代码构建交付物ZIP、JAR、镜像Serverless 应用引擎SAE内置 Kubernetes 调度层内置微
24、服务、可观测组件ECI+裸金属安全容器编写业务逻辑代码构建交付物JAR/WAR、ZIP、镜像配置负载均衡网关Serverless Kubernetes ASKECI编写业务逻辑代码构建镜像搭建负载均衡网关配置集群网络、网段管理集群、管理应用管理应用软件弹性容器实例ECI编写业务逻辑代码构建镜像搭建负载均衡网关配置集群网络、网段管理集群、管理应用管理应用软件编排管理容器实例研发与运维效率趋势二:应用架构 Serverless 化互联网分布式架构serviceServerless 架构服务化/模块化/可编排/可组装企业级应用架构单体应用Serverless 架构耦合性模块化、自包含可组装、可编排可
25、用性分模块高可用有 SLA 保障弹性全链路自适应弹性资源利用率高研发协作模块高度可复用环境可快速搭建运维管理全托管服务运维复杂度低迭代效率迭代效率高按小时交付网关服务服务服务网关服务服务服务Serverless数据库Serverless 网关任务任务任务任务任务Serverless大数据平台服务服务服务服务异步任务趋势三:组装式研发成为主流BaaS 化的云服务由厂商提供,成为构建应用的基本组件基于 Serverless 计算实现业务逻辑,组合 BaaS 云服务构建应用所有组件做到可复用、可组合、免运维、高可用,提供 SLA 保障使用工作流编排实现业务逻辑,以少量代码定制研发粘合,流程和代码分离
26、无需关心服务器资源等基础设施,无需关心运维和容量天然具备快速创建开发联调环境、应用无损发布能力服务化、异步化、事件驱动等多种形态可并存千行百业背后的 Serverless 力量阿里云 Serverless 服务于互联网、金融、零售、游戏等 12 大行业,60+业务领域,百万开发者流量脉冲、流量潮汐场景GPU 场景敏捷应用开发场景泛 WEB/API 应用场景微服务场景事件驱动和任务处理场景互娱/教育拉流/推流内容送审浏览器录制音视频转码游戏游戏中台IM打包分发战斗结算新零售/电商前端 BFF电子价签商城/支付秒杀/大促传媒/医疗微服务图片识别ETL数据采集人工智能GPU 虚拟化弹性 GPU算法推
27、理能源/制造/文旅架构升级数据分析IoT物流成本下降研发运维提效周小时促销准备时间40%30%开发效率70%40%扩容效率10倍成本下降以上数据来源于阿里云技术团队多次对比测试结果THANKS阿里云智能资深技术专家、高可用架构负责人周洋云原生高可用技术提升业务连续性趋势:企业IT技术从多维度向云原生演进ITIT建设从面向建设从面向 基础设施基础设施 到到 面向应用构建的云原生转变面向应用构建的云原生转变软件部署软件部署IDCIaaSIaaS基础设施虚拟化(计算/存储/网络)CloudCloud-NoneNone业务业务面向面向IDCIDC80%80%以上企业践行DevOpsDevOps90%9
28、0%以上PaaS应用微服务化微服务化应用构建云原生化应用构建云原生化(容器化/微服务化/Devops)*机构预测到2021:CNCF/IDC/云计算开源产业联盟软件开发软件开发瀑布开发敏捷开发瀑布开发敏捷开发DevopsCloudCloud-Ready Ready 资源虚拟化,资源虚拟化,业务面向基础设施业务面向基础设施CloudCloud-Native Native 业务开发业务开发/测试测试/运维运维一站式基于云原生一站式基于云原生PaaSPaaS构建构建软件部署软件部署IOE中间件容器分布式中间件软件架构软件架构单体架构SOA架构单体架构SOA架构微服务SOASOASOASOA传统小型机
29、68%68%的机构生产环境容器化容器化日益复杂的IT系统与快速迭代的软件交付为系统稳定性的保障带来更多挑战和不确定性,需要贯彻稳定性优先(Stability First)战略,构建系统稳定性保障体系,稳固推进数字化转型进程。共同视角甲方视角(服务需求侧)乙方视角(服务供给侧)自研可控成本下降稳定安全成功案例咨询设计服务交付运维保障行业云原生行业标准云原生行业落地之路仍在探索阿里云云原生架构白皮书指标维度ACNA-1(0分)ACNA-2(1分)ACNA-3(2分)ACNA-4(3分)服务化能力(Service)ACNA-1(0分)ACNA-2(1分)ACNA-3(2分)ACNA-4(3分)弹性能
30、力(Elasticity)无服务器化程度(Serverless)可观测性(Observability)韧性能力(Resilience)自动化能力(Auromation)全人工扩缩容(固定容量)未采用BaaS无无无无(单体应用)部分服务化&缺乏治理(自恃技术,初步服务器化)半闭环(监测+人工扩缩容)无状态计算委托给云(计算、网络、大数据等)性能优化&错误处理(日志分析、应用级监测、APM)十分钟级切流(主备HA、集群HA、冷备容灾)基于容器的自动化(基于容器做CVCO)全部服务化&有治理体系(自恃技术,初步服务器化)非全云方式闭环(监测+代码伸缩,百节点规模)有状态存储委托给云(数据库、文件、对
31、象存储等)360度SLA度量(链路级Tracing、Metrics度量)分钟级切流(熔断、限流、降级、多活容灾等)具备自描述能力的自动化(提升软件交付自动化)Mesh化的服务体系(云技术,治理最佳实践)基于云全闭环(基于流量等多策略,万节点规模)全无服务器方式运行(Serverless/FaaS运行全部代码)用户体验持续优化(用观测大数据提升业务体验)秒级切流、业务无感(熔断、限流、降级、多活容灾等)基于AI的自动化(自动化软件交付和运维)云原生架构成熟度级别和定义零级完全传统架构(未使用云计算或者云的技术能力)基础级小于等于10分发展级大于10且小于16分且无ACNA-1 级成熟级大于等于1
32、6分且无ACNA-2 级第一步根据SESORA 对6个未读分别评分并汇总第一步根据SESORA 对6个未读分别评分并汇总云原生架构成熟度模型关键指标维度阿里云云原生架构成熟度模型(2020)Arms-agentsyslogTCP/UDPSNMP探针IPMI业务数据Prometheusexporter数据采集数据集成Agent管控、web管理、规则下发阿里云云监测数据采集&集成数据处理数据接收数据管道数据清洗数据加工数据存储数据鉴权数据解析数据转发数据聚类PB级日志搜索引擎PB级数据分析引擎SQL化开发算子化开发实时任务维护数据模型设备、服务器、数据库、通用软件、业务、k8s、云平台等日志分析及
33、其监测日志中心logging基础设施监测设备、服务器、JVM、数据库、通用软件、k8s、URL、端口、云平台资源等状态、性能监测事件中心告警事件集成、压缩、降噪、告警通知数据应用全景监测业务监测资源管理与容量分析应用监测后端链路分析(java)应用中心Tracing前端用户体验管理、运营数据分析前端监测用户体验管理运维驾驶舱故障发现、根因自动定位Insight应用性能监测统一日志策略驱动到数据驱动策略驱动到数据驱动建立稳定性优先战略的数据基础数据基础可观测性(Observability)主要是指了解程序内部运行情况的能力。2018 年 被 引 入 IT 领 域 后,成 为CNCF最火热的技术领
34、域之一。可观测平台能力要求可观测平台能力要求数据展示数据使用数据开放辅助分析异常检测被观测系统被观测系统可观测性平台用户可观测性平台用户可观测性平台可观测性平台数据处理数据聚合数据开放辅助分析异常检测数据安全数据采集数据采集日志(Log)监测指标(Metric)分布式追踪(Trace)采集范围运维支撑运维支撑自观测弹性伸缩高可用性环境适配完善的可观测性,是现代化应用的典型特征,是让应用整体的运维和IT智力从策略驱动变成数据驱动的重要基础。引自信通院可观测能力报告云原生高可用标准解读:可观测平台能力要求云原生高可用标准解读:混沌工程平台能力要求引自信通院高可用混沌工程报告混沌工程平台能力要求混沌
35、工程平台能力要求提升提升SLASLA,降低,降低MTTRMTTR建立稳定性优先战略的度量手段度量手段混沌工程通过在生产环境中执行探索性测试以发现系统中的隐藏问题,在软件系统稳定性维护上展现出巨大价值,其中提升服务可用性及降低故障修复时间是两大主要收益。介质状态介质下发介质清除完整性检查介质管理场景库管理场景库编辑串/并行组合动态可编程场景库管理实验并发量实验并发量节点编排量节点编排量平台性能平台性能平台功能平台功能基础设施支持基础设施支持支撑能力支撑能力演练计划计划管理申请/审批人员管理数据记录实验流程流程编辑串/并/循环实验动态可编程能力开放实验防护手工终止超时终止阈值终止智能终止实验观测状
36、态验证观测感知数据展示实验报告实验数据分析建议问题追踪故障场景故障场景应用服务故障基础资源故障累计型故障故障异常程度控制精细化故障操控多计算架构故障注入自定义故障公有公有/私有私有/混合云、容器、虚拟机、物理机混合云、容器、虚拟机、物理机权限管理权限管理安全审计安全审计应急事件发现预警应急事件响应与定位应急事件恢复与复盘混沌工程咨询服务混沌工程咨询服务监测告警上报故障发现能力体系建设场景分析生产环境/仿真环境数据损坏故故障障场场景景服务退出(死)服务无响应(吊)服务响应慢(卡)应用核心系统经验沉淀演练工单故障定位能力故障处置能力故障模拟预案执行切流自愈巡检辅助定位人工恢复故障恢复根因复盘监测项
37、检查改进措施故障复盘故障应急协同服务组介入监测辅助定位影响面评估故障根因定位定位实施规划混沌工程企业版混沌工程企业版演练场景容器平台演练业务应用演练云服务演练基础设施演练演练防护环境/资源隔离多维度权限管控应用级爆炸半径多样化演练制动平台易用架构自动感知故障可视化爆炸半径可视化0改造一键接入一站式演练容器演练容灾演练可视化演练微服务演练用户入口演练控制台OpenAPI行业特性行业特性证券业证券业银行业银行业通信业通信业分布式架构转型容器化/网格技术云端多系统融合(Linux/Windows)集中+分布式的融合架构自建云化架构X86/ARM架构物理设备多样化软件定义网络网络分区自治运维系统运维系
38、统监测监测系统系统变更变更系统系统测试测试系统系统应急应急系统系统业务监测应用监测体验管理系统监测发布系统数据变更配置变更网络变更功能测试稳定性测试性能测试预案平台应急工作台快恢平台故障管理CMDBCMDB应用数据网络数据设备数据组织数据行业创新行业创新基于应用架构,推荐演练场景场景探索场景探索架构弱点自动分析实验自动化实验自动化双随机演练稳态分析自动化/稳态标辅助监测异常检测模型训练量化评价量化评价纸牌演练业务稳定性量化评价监测覆盖度量化评价应急预案覆盖度量化评价融合融合系统集成风险分析指导培训改进建议65%的受访用户认为采用混沌工程提升了服务可用性,49.85%的受访者认为混沌工程帮助降低
39、了MTTR。某银行已完成云原生技术转型,需要提供一种有效的手段验证云上系统稳定性,发现系统薄弱点并能持续保障上云业务稳定运行。需求简述方案思路混沌工程目前已成为各企业提升系统稳定性的重要途径,其提供了一种端到端的稳定性测试理念与工具框架,通过主动引入故障来充分验证系统和应用的脆弱性,提前发现并解决问题,力求防患于未然,从而从根本上持续提高系统和应用的鲁棒性方案目标 围绕手机银行应用进行调研分析,开展手机银行应用、中间件&网络、容器服务混混沌工程实施,验证稳定性风险点,持续开展混沌工程实施持续提升上云稳定性验证业务具备容错能力验证中间件&网络高可用能力验证容器服务稳定性能力诉求方案主题手机银行应
40、用混沌工程实施容器服务混沌工程实施中间件网络混沌工程实施混沌工程体系建设满足持续开展混沌工程系统类故障进程类故障HA类故障证书类故障缓存类故障数据库类故障管控类故障存储类故障配置中心类故障自身服务类故障注册中心类故障外部服务类故障会话类故障消息类故障容灾类故障资源类故障演练规章制度爆炸半径控制案例解读:某股份制银行A的混沌工程实践建立稳定性优先战略的高可用手段高可用手段应用多活是应用容灾的一种高级形态,指在同城或异地机房建立一套与本地生产系统部分或全部对应的生产系统,所有机房内的应用同时对外提供服务。相比应用容灾,应用多活架构具有分钟级RTO、资源利用率高、切换成功率高、业务流量精准控制的优势
41、。管控层容灾多活能力要求容灾多活能力要求总体要求架构能力架构能力应用场景应用场景总体目标总体目标同城多活同城多活秒级 RPO/分钟级 RTO布局模式布局模式异地多活异地多活分钟级 RPO/分钟级 RTO一朵云一朵云Public/Private Cloud混合云混合云Hybrid cloud应用配置管理日常演练产品基础管理多活切换管控高可用应用多活平台应用多活平台无状态设计服务化方式流控机制服务注册与发现灰度发布幂等性设计数据库缓存文件系统数据同步数据一致性保护数据切换流量保护流量纠错策略路由流量统一管理流量路由流量保护故障隔离流量路由流量保护故障隔离总体要求总体要求架构能力架构能力应用场景应用
42、场景应用多活平台总体目标布局模式基础设施模式应用多活目标演练指导规范成本管理业务连续性管理安全管理接入层中间件微服务中间件数据库PaaS消息中间件应用层设计原则基础设施模式基础设施模式引自信通院高可用多活容灾能力报告云原生高可用标准解读:应用多活平台能力要求某银行云平台自建设以来,支持多个业务系统的对外服务。随着手机银行等核心业务的逐步上云,云平台必须具备同城多机房的容灾能力,从而为提升上层业务的业务连续性提供有力保障。新版手机银行对于业务连续性要求、迭代的敏捷度要求、低延迟的性能要求等方面都高于其他系统。需要具备按照业务模块灰度、按业务链路多活调度、RPC就近调用、故障节点自动容错等能力,需
43、要按照以应用多活思路进行容灾稳定性建设。RTO分钟级RPO等于0需求简述方案思路方案目标AZ1AZ2AZ3DMZ VPCDMZ VPCMSFE 路由网关MSFE 路由网关MPAAS VPCMPAAS VPCMGS 网关MGS 网关业务 VPC业务 VPCAPP 1APP 2APP 1APP 2一个注册发现空间RDS LeaderRDS FollowerRDS Logger一个数据库集群LTM1LTM2GTM阿里云行内系统行外系统移动开发平台移动分析服务移动同步服务移动发布服务移动网关服务移动推送服务互联网金融核心 EDAS中间件/数据库/大数据RedisOSSESRDSMQDataWords客
44、户前端业务中心运营前端行外路由行内路由用户银行管理人员访问运营中心账户中心用户中心运营中心推荐中心商户中心风控中心产品中心支付中心阿里云 应用高可用服务(AHAS)异地多活(近距离)同城多活Agent后端应用Agent后端应用AZ1微服务/消息/分布式任务灾难逃逸自封闭容灾网关AZ2对等应用Agent后端应用IDC1容灾网关Agent后端应用IDC2容灾网关异地多活(远距离)Agent后端应用IDC1容灾网关Agent后端应用IDC2容灾网关案例解读:某股份制银行C应用双活实践社区版社区版CNStack Local标准版标准版ACK Distro平台管理能力中心企业企业服务服务运维运维服务服务
45、资源服务资源服务(集群、分布式存储、虚拟网络、备份冗灾、负载均衡、证书)工作负载工作负载(有/无状态、批处理、混部调度)应用场景容器云分布式应用云边协同DevOps资源优化AI/大数据业务中台应用交付平台应用交付平台CNStack Online在线集成在线验证在线交付在线演示同标准同标准同架构同架构同体验同体验同发布同发布与标准版阿里云官网免费下载,社区论坛免费技术支持云 服 务云 服 务(多集群、虚拟化、分布式应用、边缘应用、DevOps)云 组 件云 组 件(消息、数据库、缓存、大数据、网络扩展)异构IaaS云原生技术中台(CNStack)异构IaaS(虚拟机、物理机、一体机、多厂商、多芯
46、片架构)各类政府部门行业中台其它各类行业中台自研CRM、ERP等其它自持系统(如运营支撑系统)各类政企行业应用各类政企行业应用Kubernetes发行版服务市场微服务、DevOps开发框架可观测安全生产企业数字化转型常见困难企业数字化转型常见困难合作伙伴业务方开源技术更新快选型维护难度大生产运维经验不足稳定性不够开发阶段环境获取成本高不同业务方技术底座适配工作量大云原生业务连续性的保障:CNStackTHANKS汤志敏阿里云智能资深技术专家容器服务助力云原生稳定性云原生场景的稳定性挑战和机遇微服务应用Sidecar应用Kubernetes调度容器网络、容器OS操作系统和底层网络虚拟化和硬件更多
47、的不确定性开源软件、多云环境、弹性环境找不到现场更大的规模规模爆炸、可观测指标爆炸如何降低系统复杂度?声明式和不可变架构智能化故障预防和定位智能化节点托管声明式和不可变架构DeclarativeImmutable加速问题定位、减少排查路径、可追溯安全软件供应链镜像不可变TAG/镜像签名全景可观测性Prometheus/OpenTelemetry/ebpf统一应用模型Helm Charts/OCI Artifacts/OAM节点池管理托管节点池/容器优化OS lifseaOS基础设施层Terraform/ROS不可变镜像层声明式可观测性声明式应用模型声明式节点管理基础设施即代码安全可信软件供应链
48、研发源代码镜像构建安全扫扫描镜像签名ACK容器应用更新自动触发策略通过应用发布策略通过一键修复策略阻断集群安全概览(节点漏洞、容器镜像、策略配置、运行时风险)ACR EEKMS私钥公钥云安全中小运行时防护节点漏洞自动修复开发阶段交付阶段运行阶段salesforce客户使用云原生 DevSecOps 能力,半年内实现万次镜像扫描,千次风险镜像拦截阻断,千次加签/验签安全交付。基于全自动化软件供应链安全流程,应用安全交付效率提升 3 倍。(以上数据为客户业务场景应用结果)容器全景可观测体系MetricsAggregatableTracingRequestscopedLoggingEventsReq
49、uest-scoped eventsRequest-scoped,Aggregatable eventsAggregatable eventse.g.rollupsRequest-scoped metricsFrom blog of Peter Bourgon 容器服务事件中心 容器服务报警中心 Kubernetes监控(无侵入、架构拓扑感知)容器服务日志监控 容器服务lngress Dashboard ARMS 前端监控 JAVA应用监控 Open Tracing/Open Telemetry(ARMS APM)阿里云Prometheus 云监控 基础资源监控 操作系统内核层 虚拟化层监控P
50、rometheus For ACK ProPrometheus For ACK Pro包含一组符合关联分析逻辑且可交互的大盘,包含全局资源总览、节点总览Kubernetes核心托管管控(APIServer、etcd、scheduler)集群事件分析eBPF无侵入式应用指标,系统指标,网络指标容器AIOps套件-故障预防与定位AIOps for Kubernetes Cluster:Fault Prevention and Problem Determination全栈巡检集群健康度巡查应用可用性巡检平台安全性巡检升级检查版本兼容性评估配置冲突检测业务影响评估智能诊断集群事件流分析网络仿真与诊断
51、OS内核指标分析专家系统+AI算法容器服务 ACK集群公有云IDC10年大规模容器运维经验沉淀,自动化诊断覆盖90%的问题场景在偶发性网络抖动场景,基于ACK内核网络智能化分析,快速定位异常网络栈路径,定位时间从周缩短到小时在JAVA容器应用响应时间抖动场景,使用AI智能诊断,联动Ingress、容器、内核快速定位,从小时优化到分钟级别(以上数据为客户业务场景应用结果)容器网络智能诊断-Skoop网络不通Dns/SVC/Pod深度网络监控应用层、内核网络抖动K8s 常见网络问题使用 KubeSkoop 诊断容器服务智能运维PrometheusGrafana LokiPath Construct
52、Netlnfo CollectorLatency AnalysisPacket TracingUICLIMetricEventKubeSkoopCNI插件MeshMtls/EnvoyKernel/eBPE基础设施根因定位全链路一键诊断网络栈延迟分析网络异常事件识别回溯即将开源托管节点池用户专注上层应用部署,ACK负责节点池基础运维管理ACK 托管节点池自升级Kubelet节点组件自愈运行时内核安全修复CVE修复内核加固弹性快速启动快速扩容容器优化OS:LifseaOS原子更新、精简内核通用OSAlibaba Cloud Linux、CentOS容器服务 ACK集群节点诊断和自愈:运行时、操作系
53、统CVE安全问题自动修复节点kubelet小版本自动升级节点组件自动升级(containerd/systemd等)THANKS中免日上资深运维总监贾路消息队列MQ助力中免日上打造稳定可扩展的在线交易系统中免日上业务介绍01交易场景应用实践02总结与展望03目录中免日上中免日上互联科技有限公司成立于2021年04月29日,是中国免税品集团(简称:中免集团)携手日上免税行打造的品牌零售电商平台。平台以“值得信赖的购物专家”为发展理念,坚持大盘正品,倡导品质消费,所有在售商品均接受海关全程严格监管。品类涵盖护肤、彩妆、香水、洋酒、时尚精品等众多品类,让消费者足不出户,买遍全球。平台以商品和服务为抓手
54、、以技术创新为依托,通过线上与线下相聚合,带动实体经济数字化转型,促进产业和消费“双升级”。业务场景网关网关&安全安全微服务网关负载均衡CDNWAF碉堡机Ddos防护业务层业务层ServiceServiceServiceES图搜OSS缓冲层缓冲层RedisMQKafka中间件中间件Redis数据库数据库数据数据分析分析RDSMongoDBPolarDBLindorm网易有数NatCENDTSDMS1.中免日上会员购2.会员购小程序3.线下离岸免税预定业务业务板块电商交易场景系统架构场景简介交易平台是买卖家在线上根据约定的契约完成钱货交换的过程涉及的系统。涉及到和支付、物流、下单、运营等多个子系
55、统的交互。交易平台的可靠处理是电商大促保障的核心。架构诉求 系统耦合复杂:交易系统耦合了大多数核心子系统,系统间相互耦合调用,极易造成风险 大促稳定性保障:业务经常会参加电商大促,存在突发洪峰,大促场景如何保护系统下游不被打垮 研发方案避坑:如果自建开源中间件,投入不足容易掉坑,不能满足业务方的复杂诉求 运维痛点和诉求:交易核心链路任何订单异常都需要排查处理,运维排查急需丰富的工具体系支撑打开购物车商品、库存校验查询库存MQ:接收废单消息,回补库存回补库存商品、库存校验付减:减库存验证状态再次预扣付减:减库存预扣订单回查支付成功支付:输入密码MQ:超时关闭,发送废单消息MQ:交易失败发送废单消
56、息商品、库存校验商品、库存查询确认订单创建订单订单关闭关闭、回补库存付款创建订单并Enable成功:预扣拍减减库存订单状态校验预扣库存恶拍识别如需要:查询区域库存gpet超时MQ:异步重试阿里云消息队列初印象全面的消息产品矩阵国内广泛的影响力大规模稳定性验证交易架构解耦:基于 MQ 实现交易订单履约的异步流转交易链路异步化、缩短链路耗时交易链路异步化、缩短链路耗时同步串行链路优化成并行异步链路,创建订单流程大幅缩短交易系统解耦,大促场景削峰填谷交易系统解耦,大促场景削峰填谷MQ支持亿级消息海量堆积能力,系统间解耦,大促场景下游流量削峰消息消息队列队列支付管理会员管理日志管理商品管理文件存储安全
57、系统监控系统数据库搜索引擎技术方案升级:基于 MQ 定时消息实现自定义延时调度定时调度数据库扫描内存任务队列业务处理任务库运行运行任务输出任务输出处理处理创建创建任务任务更新任务状态更新任务状态发送定时消息任务库创建创建任务任务MQ消息存储业务处理消息消息通知通知更新更新任务状态任务状态中止、变更中止、变更任务任务基于数据库的业务延时调度方案基于数据库的业务延时调度方案基于基于MQMQ定时消息的业务延时调度方案定时消息的业务延时调度方案升级价值任意时刻精准定时:任意时刻精准定时:MQ 提供秒级精度定时消息,避免大量扫描数据库带来的延迟和误差高性能、可扩展:高性能、可扩展:MQ 支持百万级TPS
58、能力,高性能可扩展,不会出现数据库扫描瓶颈等问题原生可靠、易使用:原生可靠、易使用:MQ原生高可靠,消费定时消息就可以保障任务可靠触发,业务逻辑更简单场景订单超时调度:订单超时调度:业务订单流程中很多支付超时、自动收货、打款等调度业务都需要定时能力业务异步重试:业务异步重试:业务做异步延迟重试,都需要可靠延迟触发能力运维效率提升:基于 MQ 全方位可观测能力提效日常运维阿里云 MQ 可观测 Metrics 大盘阿里云 MQ 消息轨迹追踪开箱即用的丰富指标阿里云MQ默认提供了几十种消息指标,覆盖消息全生命周期,日常巡检、监控更放心问题诊断指标快速透出阿里云MQ提供了日常排查问题需要的Top流量、
59、堆积等指标排序分析,可以快速找到异常业务全链路消息轨迹追踪阿里云MQ提供了非常全的轨迹数据,定位单条消息问题可以快速找到问题区间和业务机器5050%40%40%50%50%系统稳定性架构复杂度研发运维效率总结&展望*以上数据来源于中免日上THANKS阿里云云原生产品专家陈仲良消息队列 RocketMQ 5.0,云原生再升级助力业务集成更轻量、更智能云原生消息队列的挑战和机会风险控制容量水位风险运行状态风险运维变更风险运维效率问题诊断效率运维变更效率多样集成多模式数据处理上下游生态集成标准化运维集成RocketMQ 5.0:云原生架构升级高可用架构高可用架构Leaderless 多副本策略,多
60、AZ/Region 组建 Geo 高可用弹性架构弹性架构存算分离,无状态计算节点,海量分级存储轻量易接入轻量易接入轻量无状态,Serverless 友好,覆盖主流多语言 SDK云原生基础设施云原生基础设施运维体系 Kubernetes 化,云原生可观测RocketMQ云原生内核架构IaaS基础设施计算云存储VIPLB Group轻量接入层管控链路富客户端SLSARMSAPI互补Remoting 协议gRPC 协议StoreStoreStoreStore单副本StoreStore双副本三副本云原生-容器服务(Kubernetes)VPC 网络NameServer 集群Name ServergRP
61、CgRPC网关网关MQTTMQTT网关网关AMQPAMQP网关网关计算集群EventEvent网关网关访问控制多租隔离领域模型数据加密限流降级计量计费负载均衡可观测Name Server云原生可观测存储集群OpenTelemetryRocketMQ 5.0:轻量无状态消费模型新增消息发送消息消费不可见可见删除超时可见定时不可见消息消费消息确认可见统一队列存储模型统一队列存储模型队列队列Consumer1Consumer2按消息消息消费队列消息粒度负载均衡RocketMQ Proxy轻量消费语义统一队列存储模型统一队列存储模型队列队列Consumer1Consumer2按队列队列消费队列队列粒度
62、负载均衡多样负载均衡多样负载均衡,效率性能兼得效率性能兼得队列负载均衡队列负载均衡:适合批量拉取、单条消息状态不敏感消息负载均衡:消息负载均衡:细粒度打散,解决部分节点消费能力不均衡、局部阻塞轻量灵活轻量灵活,集成友好集成友好慢消费友好:慢消费友好:自定义消费超时、续期,消费慢场景更方便流控策略友好:流控策略友好:自定义批量、自主控制,流控友好异步消费友好:异步消费友好:异步消费处理和异步消费提交,编程更友好RocketMQ 5.0:消息分级存储+多样计算弹性存储空间:存储空间:数据无限存储,支持长达30天历史消息保存弹性低成本:弹性低成本:Serverless化,按实际使用付费,对比自建成本
63、降低67%高性能:高性能:冷热分离,碎片整理,堆积冷读场景更稳定分级存储弹性预留规格无感扩缩:预留资源预留规格无感扩缩:预留资源2K-100W大规格无感扩缩自适应突发弹性:自适应突发弹性:秒级自适应弹性,按实际使用付费收发计算弹性预留规格弹性规格超限部分限流保护弹性区间按量付费基准规格预留付费RocketMQ 5.0 收发计算弹性策略MessageMessage BrokerBrokerUnlimited Low-cost StorageHot DataManagerCold DataManagerCostly SSDMQ ServerMsg000Msg001MsgN00MsgN011 day
64、Msg300Msg301Msg200Msg201Msg100Msg101Msg000Msg0012 days3 days4 daysN daysRocketMQ 5.0 海量消息分级存储*以上数据来源于阿里云消息 ETL 集成:一体化/轻量消息后处理方案函数计算Serverless 应用引擎工作流EventBridgeMQTTKafkaRocketMQEventBridge物联网设备生产数据消息通道消息上报事件驱动数据流转KafkaMQEventBridgeOSSESRDS用户/系统数据其他事件海量业务消息存储Serverless应用消息 ETL 集成轻量、低门槛消息后处理计算内置集成模板,低
65、门槛完成ETL开发Serverless 计算能力,ETL任务弹性免运维开箱即用、丰富消息集成生态打通开箱即用 200+云产品事件/消息打通三方SaaS、自定义事件集成打通*以上数据来源于阿里云专家系统:智能化、低门槛运维实践健康度分析:健康度评价体系,健康度分析:健康度评价体系,数字化、低门槛数字化、低门槛展示风险展示风险360360 集群巡检:集群巡检:30+30+运行指标运行指标监控和探针巡检,分钟内异常告警通知监控和探针巡检,分钟内异常告警通知异常事件审计:异常事件审计:开箱即用事件采集、存储和分析,覆盖全链路低门槛风险治理一键问题诊断:一键问题诊断:问题模板化自助诊断,一分钟即可完成初
66、步定位自助运维管理:自助版本、运维计划管理,解除运维黑盒焦虑自助运维管理:自助版本、运维计划管理,解除运维黑盒焦虑轻量运维集成:支持轻量运维集成:支持OpenAPIOpenAPI和事件推送和事件推送集成,自建运维系统友好集成,自建运维系统友好高效率自助运维事件中心事件集成事件分析事件审计运维中心版本管理巡检告警计划管理模板训练自助诊断健康分析专家诊断云底座运维平台专家诊断系统消息队列 RocketMQ 集群*以上数据来源于阿里云THANKS祁晓波南京爱福路汽车科技可观测最佳实践南京爱福路汽车科技有限公司稳定性负责人自我介绍 微服务架构 云原生领域 DevOps实践/CICD SRE领域专注南京
67、爱福路汽车科技有限公司稳定性负责人祁晓波 负责F6后端的架构设计 主导了k8s 在F6的落地和实践 SRE体系建立经历引言可观测性可以被视为系统的一个属性,与功能性、安全性相似。而做好可观测性中就包含了一点很重要的告警体系的确立!目录01难点与挑战 康威定律的作用02可观测演进 ElastAlert告警 Grafana统一大盘 阿里云ARMS告警运维平台03未来畅想 动态阈值探索难点与挑战:康威定律的作用作为研发,其直接的期望是“分布式的系统,单机系统的排查效率”。促使我们需要将传统的以服务器为中心的思路转变为以调用链为中心的思路。Any organization that designs a
68、 system(defined broadly)will produce a design whose structure is a copy of the organizations communication structure.Melvin E.Conway目录01难点与挑战 康威定律的作用02可观测演进ElastAlertElastAlert告警告警GrafanaGrafana统一大盘统一大盘阿里云阿里云ARMSARMS告警运维平台告警运维平台03未来畅想 动态阈值探索ElastAlert收集告警通过钉钉获得告警通过webhook收到告警运维和研发需要共同关注出现报警但是没有具体人 处
69、理遗漏不同告警查看平台不一致Grafana统一告警大盘K8s 的编排能力和微服务相辅相成 迫切需要trace组件的支持Prometheus是CNCF的一个开源项目Prometheus应 用 实 时 监 控 服 务 ARMS(ApplicationReal-TimeMonitoring Service)是一款阿里云应用性能管理(APM)类监控产品。应用实时监控服务ARMS可观测性引入Grafana看板和告警通道Grafana是一个跨平台、开源的数据可视化网络应用程序平台。Grafana统一告警配置集中化查看告警列表精准告警到人配置告警可视化可以临时关闭告警OnCall能力升级基于ITSM的阿里云
70、ARMS运维告警平台可观测升级ARMS支持运维告警平台兼容开源接入存量PrometheusAlertManage和Grafana云监控集成支持阿里云各项云服务监控支持自定义事件处理流程精准告警方案支持自定义流程自定义事件级别字段丰富 数据源等多标签分组精准告警单个团队单个通知通道SRE按照级别收到通知Grafana看板支持目录01难点与挑战 康威定律的作用02可观测演进 ElastAlert告警 Grafana统一大盘 阿里云ARMS告警运维平台03未来畅想动态阈值探索动态阈值探索托管 Prometheus 和 Grafana基于阿里云 ARMS 托管版 SmartMetrics实现无需阈值的
71、动态基线智能检测。配合Grafana的告警配置,SmartMetrics可以提供完整的指标智能监控解决方案。查看时间序列未来走势,用于容量预估,水位预测等场景。THANKS构建无处不在的可观测基础设施徐彤阿里云高级技术专家Grafana服务及可观测专有云负责人52%的企业故障平均发现时长(MTTD)大于1小时Source:中国混沌工程调查报告(2021)68%的企业使用7种以上的可观测工具Source:research 1小时7种50000条60%的企业每月收到50000条告警Source:MIT Sloane Management review可观测“三大难题”开源、商业化产品与存量资产之间
72、的艰难选择割裂的数据高昂的成本微服务架构下指数级上升的可观测数据计算、存储成本难以估量的价值落地可观测基础设施的“收益”到底如何衡量开放、高质量、低成本的统一可观测体系阿里云原生可观测套件 ACOS以上数据来源于阿里云技术团队多次自建对比测试结果全球可观测中心结合运维协同新范式,最大化降低MTTD成本比自建降低 60%,性能提升5倍全面对接开放标准解决数据割裂现已接入50+款云服务,并持续加入50+云服务,专业打磨,一键集成跨集群、跨云的集成,开启全球化可观测中心支持多语言应用可观数据集成全新包年包月计费:一价全包,成本无忧阿里云容器服务ACK集群阿里云ECS集群自建Kubernetes集群(
73、ACK注册集群)自建Prometheus阿里云云服务Prometheus聚合实例提供全局统一聚合查询,统一Grafana数据源,统一告警配置等能力部署在ACK的开源组件指标ACK内的业务指标ACK基础组件指标部署在ECS上组件及业务指标自建K8S集群内的指标云服务指标将阿里云 Prometheus作为自建Prometheus存储源一键接入ARMS Prometheus AgentRemote Write/Read Endpoint集成exporter集成exporter&服务发现for 容器服务for VPCfor 云服务for Kubernetesfor 远程存储基于阿里云Prometheu
74、s构建可观测集成中心以上数据来源于阿里云技术团队多次自建对比测试结果Grafana 9.0 焕新升级增强型插件,补齐Grafana短板统一运维&业务观测界面Grafana Alerting&Smart Metrics App基于阿里云Grafana构建可观测统一入口以上数据来源于阿里云技术团队真实统计结果传统协作流程 告警展示信息单一,无法在告警上增加更丰富的信息,比如GC等级的客户?哪个集群等等信息告警触发 无法确定有没有人处理 无法一键屏蔽告警,处理问题的时候,还要处理告警风暴应急处理 修复后,没有沉淀,没有地方填写修复建议问题修复 缺乏有数字化复盘手段,对照文档感性复盘,对问题没有全局认
75、知事后复盘传统协作方式无法适应大规模集群的维护自然的处理流程告警触发应急处理问题修复事后复盘协同升级容器 CaaS 资源可观测物理机/虚拟机层可观测业务指标可观测应用调用链可观测应用性能可观测CPU、内存、网络、磁盘、TCP、Load JVM 堆内存、GC、Thread,Method性能.POD内存、CPU、健康度(Running、Pending、Failed)、集群资源可观测、核心组件、运行事件服务调用全景、RT、TPS、Exception、慢sql、MQ、Redis业务核心指标,如:订单数量、订单金额、日活、月活、投保人数及其它业务指标自上而下设计云可观测Prometheus+Grafan
76、aARMS+SLS应用日志业务日志、应用日志、异常日志自下而上设计X指标、日志、链路多维度数据关联通过指标、链路、日志三维度的观测,构建云上系统健康状况全景多云、多账号资源的统一观测统一管理不同云厂商、不同账号下云资源,连接数据孤岛不止于观测,多场景可视化展现实现基础资源、游戏业务、应用性能多维度观测数据统一展现客户案例 某游戏公司构建完整可观测体系客户案例 某一线城市健康码全栈可观测方案客户背景客户痛点方案及客户价值按照该市疫情防控工作领导小组统一安排,该市即将迎来疫情爆发后全面复工复产,“场所码”“核酸码”等平台是复工复产重要的数字支撑系统,健康码的稳定性直接关系着市民的生活和工作的便利性
77、,健康码相关系统底层服务厂商众多,各厂商间可观测数据无法实现端到端打通。如何保证系统稳定不故障,出现问题时快速定位与解决,保障系统稳定性。1.全面复工复产即将到来,时间紧,任务重,需要一个可以快速落地的方案2.整个健康码相关系统涉及多家厂商,缺乏全局统一的可观测能力和应急响应流程,导致异常的发现和问题定位耗时耗力基于独立输出的部署形态,快速完成产品交付业务效果保障了整个健康码系统在复工复产高峰期的稳定性,通知故障响应和问题定位提高到分钟级别建立“端到端的全链路”可观测能力1天完成了产品部署,2天内实现了关键业务的可观测数据接入、大盘配置、告警响应;基于敏捷版本快速响应现场需求实现了健康码三端(
78、微信、支付宝、市民APP)到应用、中间件、数据库、资源的全栈接入,完成2大运营商、4个可用区、6个VPC、5个开发厂商、几千0节点可观测统一可观测建立“三屏一体”安全生产体系基于阿里巴巴安全生产经验与方法沉淀,结合可观测ACOS产品能力配合阿里云专家服务,帮助该市大数据中心建立“三屏一体”安全生产体系,保障健康码业务的稳定性“你们这个全链路可观测系统ACOS很强大啊,前后端、端到端都覆盖了。下钻的这个功能非常实用,对于我们这么多厂商的管理,很有价值,故障定因解决了各厂商边界的问题”解决方案以上数据来源于客户真实反馈结果该客户属于智能手机厂商,随着业务发展,IT部门在当前生产环境下的应用实例超过
79、1000个,覆盖了营销领域、公共领域和生产制造领域。随着k8s容器及微服务架构的大规模落地,缺乏容器平台和微服务的可观测能力随着应用实例不断增加,为了帮助业务和应用异常的快速定位,亟需要建设一套完善的全链路可观测平台与客户自建DevOps平台无缝集成 基于ACOS 开放接口和控制台集成能力,完成了与客户DevOps平台集成,实现部署即可观测到效果提升了故障定位能力 与客户自建ELK系统完成集成,实现调用链和日志的关联查询,提升了故障定位效率优化了应用性能 结合调用链下钻,发现和优化影响应用性能瓶颈的慢方法、慢SQL,提升了代码质量 全生命周期可观测全球统一可观测应用分析调用拓扑应用性能分析主机
80、可观测JVM可观测在线诊断异常分析错误分析调用链分析方法栈分析实时告警JVM告警异常接口调用告警主机指标告警应用调用告警SQL分析MQ可观测日志集成日志查询调用链关联告警通知线程分析实时聚合时序数据存储可视化展示探针管理日志清洗/切割OpenAPI应用场景能力集成DevOps集成探针集成统一认证权限体系集成控制台集成告警事件集成价值异常告警性能分析依赖分析根因定位智能巡检实现了与客户DevOps体系的无缝集成,完成全球 4大地区,1000+应用,1500+实例,500+组织可观测接入。客户背景客户痛点方案及客户价值客户案例 某头部智能手机厂商全球统一可观测解决方案业务效果以上数据来源于客户经理
81、真实反馈结果阿里云云原生可观测套件,全面提升企业观测力预算可控全栈覆盖打破孤岛THANKS华泰证券稳定性工程负责人杨兰仓华泰证券云原生混沌工程实践混沌工程新挑战随着混沌工程在业务的逐渐普及和深入,业务对混沌工程提出了更高的风险识别要求,带来了新挑战。更全面从单一、朴素的故障模拟到全面的风险管理体系从单任务、单环境演练到批量化、全生命周期、便捷的五大风险检验能力更高效从具体明确的故障构造和任务执行向架构感知、智能推荐、智能调度迈进更智能阿里混沌工程实践借鉴基于阿里商业AHAS Chaos平台进行基础故障注入研发了华泰“稳定性工程平台”,打通监测、变更、测试、应急等生产运维场景稳定性工程平台对新增
82、的个性化功能需求迭代快,同时降低了后期系统开发运维成本更全面:细化五大风险分类实现运行五大风险的精细化管理,围绕加强风险管控能力,提升风险承受能力,完善风险处置能力进行改进,全面保证业务安全、持续、稳定运行。应用部署单点数据存储单点硬件部署单点机房部署单点内部线路单点外部应用单点外部线路单点单点故障风险输入检查异常接口返回异常数据处理异常功能逻辑异常输入检查异常数据库故障中间件故障功能缺陷风险数据库性能容量风险网络带宽容量风险应用主机容量风险应用性能不足性能容量风险数据库数据丢失损坏应用数据丢失损坏文件数据丢失损坏日志数据丢失损坏外部数据晚到外部数据错误数据丢失损坏风险监测配置操作规程版本变更
83、配置参数运维误操作风险更全面:增强风险模拟手段丰富的基础故障模拟能力,结合灵活的故障编排策略,实现全面的风险模拟手段。灵活的故障编排能力,实现复杂故障模拟能力 CPU 磁盘 内存 网络1.基础资源 端口 进程 JVM2.应用资源 卡 吊 死 错3.业务资源 数据丢失损坏 数据库 容器 微服务4.专项资源Linux OSWindows OS复杂故障编排能力基础故障模拟能力持续打造安全可靠的故障注入能力,良好的用户使用体验AB级系统单点风险主机覆盖更全面:丰富风险演练方式常态化与场景化相结合、用户自发与统一组织相结合,提供多维度、全方位的的风险演练方式。五大风险覆盖生产事件回放常规演练红蓝对抗生产
84、突袭关基系统五大风险场景覆盖涨乐全球通五大风险场景覆盖对已发生的关基系统生产事件进行回放演练,检验业务的改进效果,避免事件重复发生。业务专项交易行情接入和通道专项涨乐全链路性能容量演练专项数据备份恢复演练专项清算勾稽演练专项更全面:度量&跟踪风险闭环全面的风险度量能力和完整的风险跟踪手段,确保风险的识别和跟踪闭环通过演练报告度量单次演练效果,自动识别和跟踪演练过程中发现的技术风险。高级别技术风险同步运行质量管理平台,专人跟踪闭环低级别技术风险同步到OA待办任务进行跟踪单次演练集群节点故障场景应用系统风险跟踪风险度量通过随机主机能力度量应用集群节点维度的风险应对能力。通过双随机检验机制度量应用系
85、统对故障场景的应对能力。通过系统稳定性成熟度模型度量应用系统的稳定性和风险应对能力。更高效:批量化自动化通过构建批量化、自动化能力提升故障演练效率,为混沌工程实践持续拓宽广度,挖掘深度,提升高度奠定了基础。批量创建场景批量执行任务 多维度灵活组织专项活动;自动分解演练任务;形成待办批量下发到各责任人;大幅提升运活动组织效率。支持批量创建和文件导入两种方式;对接CMDB自动获取相关信息;自动填充+二次确认的方式实现演练场景自动创建;大幅提升创建效率,为规模化演练提供了前置条件。任务集串行演练;批量并发演练;随机主机演练;OpenAPI演练;像跑自动化用例一样执行故障演练,解放用户在成熟场景上投入
86、的精力批量组织活动自动执行演练并通知状态,提升用户演练效率,减少用户投入。故障超时自动恢复;故障恢复检查环节;恢复失败自动重试;恢复状态定期稽核;避免因为故障未及时恢复导致业务异常。通过业务影响统计、告警完整性检验等能力实现故障场景下稳态指标的自动分析能力,并自动生成技术风险跟踪闭环。演练过程中自动分析稳态指标,降低对业务的真实影响。演练报告:单次演练 双随机模型:故障场景 应急成熟度:系统评价自动化多维度的演练效果评价。自动执行自动分析自动评价自动终止 灵活配置任务执行时间策略 自动随机主机执行能力;多样的任务编排自动执行能力;更高效:三大阵地通过三大阵地混沌工程实践,覆盖软件全生命周期,为
87、全角色人员提供全天候的服务。全生命周期全角色全天候 面向业务的开发、测试、设计人员;将混沌工程理念融入到设计和研发阶段,进行深入业务逻辑的故障场景的模拟,实现问题发现能力前移。研发测试环境 面向解决方案测试人员和业务SRE;进行新业务上线前的专项故障演练;以及生产环境不具备条件的演练任务,与生产环境形成有效互补。仿真环境 面向SRE;以常态化演练、红蓝对抗、生产突袭等形式进行五大风险真实场景地毯式全覆盖和各类专项能力的演练;真实检验生产环境下系统应对各类风险的能力,有效压降生产事件,提升主动发现能力。生产环境更高效:TTP 稳定性矩阵为用户进行各类风险演练提供了稳定性工程平台可使用的原子能力的
88、映射指导,不断推进和完善风险管理体系化建设。更智能:架构感知和强弱依赖治理智能感知业务架构,并基于业务架构提供强弱依赖检验能力。智能感知业务架构人工确认和审核检验业务强弱依赖业务拓扑可视化自动生成业务拓扑智能感知智能检验系统重要性定级限流降级策略参考设定应用启动顺序故障根源定位依赖容量评估强弱依赖应用场景:更智能:智能调度混沌工程的各个环节持续向智能化迈进。智能评估系统风险隐患智能推荐演练故障场景智能选择演练时间窗口智能选择演练场景范围THANKS阿里云智能资深技术专家、高可用架构负责人周洋云原生高可用技术提升业务连续性趋势:企业IT技术从多维度向云原生演进软件部署软件部署IDCIaaSIaa
89、SITIT建设从面向建设从面向 基础设施基础设施 到到 面向应用构建的云原生转变面向应用构建的云原生转变基础设施虚拟化(计算/存储/网络)CloudCloud-NoneNone业务业务面向面向IDCIDC80%80%以上企业践行DevOpsDevOps90%90%以上PaaS应用微服务化微服务化应用构建云原生化应用构建云原生化(容器化/微服务化/Devops)*机构预测到2021:CNCF/IDC/云计算开源产业联盟软件开发软件开发瀑布开发敏捷开发瀑布开发敏捷开发DevopsCloudCloud-Ready Ready 资源虚拟化,业务资源虚拟化,业务面向基础设施面向基础设施CloudClou
90、d-Native Native 业务开发业务开发/测试测试/运维运维一站式基于云原生一站式基于云原生PaaSPaaS构建构建软件部署软件部署IOE中间件容器分布式中间件软件架构软件架构单体架构SOA架构单体架构SOA架构微服务SOASOASOASOA传统小型机68%68%的机构生产环境容器化容器化云原生行业落地之路仍在探索日益复杂的IT系统与快速迭代的软件交付为系统稳定性的保障带来更多挑战和不确定性,需要贯彻稳定性优先(Stability First)战略,构建系统稳定性保障体系,稳固推进数字化转型进程。共同视角甲方视角(服务需求侧)乙方视角(服务供给侧)自研可控成本下降稳定安全成功案例咨询设
91、计服务交付运维保障行业云原生行业标准阿里云云原生架构成熟度模型(2020)阿里云云原生架构白皮书指标维度ACNA-1(0分)ACNA-2(1分)ACNA-3(2分)ACNA-4(3分)服务化能力(Service)ACNA-1(0分)ACNA-2(1分)ACNA-3(2分)ACNA-4(3分)弹性能力(Elasticity)无服务器化程度(Serverless)可观测性(Observability)韧性能力(Resilience)自动化能力(Auromation)全人工扩缩容(固定容量)未采用BaaS无无无无(单体应用)部分服务化&缺乏治理(自恃技术,初步服务器化)半闭环(监测+人工扩缩容)无状
92、态计算委托给云(计算、网络、大数据等)性能优化&错误处理(日志分析、应用级监测、APM)十分钟级切流(主备HA、集群HA、冷备容灾)基于容器的自动化(基于容器做CVCO)全部服务化&有治理体系(自恃技术,初步服务器化)非全云方式闭环(监测+代码伸缩,百节点规模)有状态存储委托给云(数据库、文件、对象存储等)360度SLA度量(链路级Tracing、Metrics度量)分钟级切流(熔断、限流、降级、多活容灾等)具备自描述能力的自动化(提升软件交付自动化)Mesh化的服务体系(云技术,治理最佳实践)基于云全闭环(基于流量等多策略,万节点规模)全无服务器方式运行(Serverless/FaaS运行全
93、部代码)用户体验持续优化(用观测大数据提升业务体验)秒级切流、业务无感(熔断、限流、降级、多活容灾等)基于AI的自动化(自动化软件交付和运维)云原生架构成熟度级别和定义零级完全传统架构(未使用云计算或者云的技术能力)基础级小于等于10分发展级大于10且小于16分且无ACNA-1 级成熟级大于等于16分且无ACNA-2 级第一步根据SESORA 对6个未读分别评分并汇总第一步根据SESORA 对6个未读分别评分并汇总云原生架构成熟度模型关键指标维度云原生高可用标准解读:可观测平台能力要求策略驱动到数据驱动策略驱动到数据驱动建立稳定性优先战略的数据基础数据基础可观测性(Observability)
94、主要是指了解程序内部运行情况的能力。2018年被引入IT领域后,成为CNCF最火热的技术领域之一。完善的可观测性,是现代化应用的典型特征,是让应用整体的运维和IT智力从策略驱动变成数据驱动的重要基础。可观测平台能力要求可观测平台能力要求数据展示数据使用数据开放辅助分析异常检测被观测系统被观测系统可观测性平台用户可观测性平台用户可观测性平台可观测性平台数据处理数据聚合数据开放辅助分析异常检测数据安全数据采集数据采集日志(Log)监测指标(Metric)分布式追踪(Trace)采集范围运维支撑运维支撑自观测弹性伸缩高可用性环境适配Arms-agentsyslogTCP/UDPSNMP探针IPMI业
95、务数据Prometheusexporter数据采集数据集成Agent管控、web管理、规则下发阿里云云监测数据采集&集成数据处理数据接收数据管道数据清洗数据加工数据存储数据鉴权数据解析数据转发数据聚类PB级日志搜索引擎PB级数据分析引擎SQL化开发算子化开发实时任务维护数据模型设备、服务器、数据库、通用软件、业务、k8s、云平台等日志分析及其监测日志中心logging基础设施监测设备、服务器、JVM、数据库、通用软件、k8s、URL、端口、云平台资源等状态、性能监测事件中心告警事件集成、压缩、降噪、告警通知数据应用全景监测业务监测资源管理与容量分析应用监测后端链路分析(java)应用中心Tra
96、cing前端用户体验管理、运营数据分析前端监测用户体验管理运维驾驶舱故障发现、根因自动定位Insight应用性能监测统一日志引自信通院可观测能力报告云原生高可用标准解读:混沌工程平台能力要求混沌工程平台能力要求混沌工程平台能力要求提升提升SLASLA,降低,降低MTTRMTTR建立稳定性优先战略的度量手段度量手段混沌工程通过在生产环境中执行探索性测试以发现系统中的隐藏问题,在软件系统稳定性维护上展现出巨大价值,其中提升服务可用性及降低故障修复时间是两大主要收益。65%65%的受访用户认为采用混沌工程提升了服务可用性,49.85%49.85%的受访者认为混沌工程帮助降低了MTTR。介质状态介质下
97、发介质清除完整性检查介质管理场景库管理场景库编辑串/并行组合动态可编程场景库管理实验并发量实验并发量节点编排量节点编排量平台性能平台性能平台功能平台功能基础设施支持基础设施支持支撑能力支撑能力演练计划计划管理申请/审批人员管理数据记录实验流程流程编辑串/并/循环实验动态可编程能力开放实验防护手工终止超时终止阈值终止智能终止实验观测状态验证观测感知数据展示实验报告实验数据分析建议问题追踪故障场景故障场景应用服务故障基础资源故障累计型故障故障异常程度控制精细化故障操控多计算架构故障注入自定义故障公有公有/私有私有/混合云、容器、虚拟机、物理机混合云、容器、虚拟机、物理机权限管理权限管理安全审计安全
98、审计应急事件发现预警应急事件响应与定位应急事件恢复与复盘混沌工程咨询服务混沌工程咨询服务监测告警上报故障发现能力体系建设场景分析生产环境/仿真环境数据损坏故故障障场场景景服务退出(死)服务无响应(吊)服务响应慢(卡)应用核心系统经验沉淀演练工单故障定位能力故障处置能力故障模拟预案执行切流自愈巡检辅助定位人工恢复故障恢复根因复盘监测项检查改进措施故障复盘故障应急协同服务组介入监测辅助定位影响面评估故障根因定位定位实施规划混沌工程企业版混沌工程企业版演练场景容器平台演练业务应用演练云服务演练基础设施演练演练防护环境/资源隔离多维度权限管控应用级爆炸半径多样化演练制动平台易用架构自动感知故障可视化爆
99、炸半径可视化0改造一键接入一站式演练容器演练容灾演练可视化演练微服务演练用户入口演练控制台OpenAPI行业特性行业特性证券业证券业银行业银行业通信业通信业分布式架构转型容器化/网格技术云端多系统融合(Linux/Windows)集中+分布式的融合架构自建云化架构X86/ARM架构物理设备多样化软件定义网络网络分区自治运维系统运维系统监测监测系统系统变更变更系统系统测试测试系统系统应急应急系统系统业务监测应用监测体验管理系统监测发布系统数据变更配置变更网络变更功能测试稳定性测试性能测试预案平台应急工作台快恢平台故障管理CMDBCMDB应用数据网络数据设备数据组织数据行业创新行业创新基于应用架构
100、,推荐演练场景场景探索场景探索架构弱点自动分析实验自动化实验自动化双随机演练稳态分析自动化/稳态标辅助监测异常检测模型训练量化评价量化评价纸牌演练业务稳定性量化评价监测覆盖度量化评价应急预案覆盖度量化评价融合融合系统集成风险分析指导培训改进建议引自信通院高可用混沌工程报告案例解读:某股份制银行A A的混沌工程实践某银行已完成云原生技术转型,需要提供一种有效的手段验证云上系统稳定性,发现系统薄弱点并能持续保障上云业务稳定运行。混沌工程目前已成为各企业提升系统稳定性的重要途径,其提供了一种端到端的稳定性测试理念与工具框架,通过主动引入故障来充分验证系统和应用的脆弱性,提前发现并解决问题,力求防患于
101、未然,从而从根本上持续提高系统和应用的鲁棒性围绕手机银行应用进行调研分析,开展手机银行应用、中间件&网络、容器服务混混沌工程实施,验证稳定性风险点,持续开展混沌工程实施需求简述方案思路方案目标持续提升上云稳定性验证业务具备容错能力验证中间件&网络高可用能力验证容器服务稳定性能力诉求方案主题手机银行应用混沌工程实施容器服务混沌工程实施中间件网络混沌工程实施混沌工程体系建设满足持续开展混沌工程系统类故障进程类故障HA类故障证书类故障缓存类故障数据库类故障管控类故障存储类故障配置中心类故障自身服务类故障注册中心类故障外部服务类故障会话类故障消息类故障容灾类故障资源类故障演练规章制度爆炸半径控制云原生
102、高可用标准解读:应用多活平台能力要求管控层建立稳定性优先战略的高可用手段高可用手段应用多活是应用容灾的一种高级形态,指在同城或异地机房建立一套与本地生产系统部分或全部对应的生产系统,所有机房内的应用同时对外提供服务。相比应用容灾,应用多活架构具有分钟级RTO、资源利用率高、切换成功率高、业务流量精准控制的优势。容灾多活能力要求容灾多活能力要求总体要求架构能力架构能力应用场景应用场景总体目标总体目标同城多活同城多活秒级 RPO/分钟级 RTO布局模式布局模式异地多活异地多活分钟级 RPO/分钟级 RTO一朵云一朵云Public/Private Cloud混合云混合云Hybrid cloud应用配
103、置管理日常演练产品基础管理多活切换管控高可用应用多活平台应用多活平台无状态设计服务化方式流控机制服务注册与发现灰度发布幂等性设计数据库缓存文件系统数据同步数据一致性保护数据切换流量保护流量纠错策略路由流量统一管理流量路由流量保护故障隔离流量路由流量保护故障隔离总体要求总体要求架构能力架构能力应用场景应用场景应用多活平台总体目标布局模式基础设施模式应用多活目标演练指导规范成本管理业务连续性管理安全管理接入层中间件微服务中间件数据库PaaS消息中间件应用层设计原则基础设施模式基础设施模式引自信通院高可用多活容灾能力报告案例解读:某股份制银行C C应用双活实践AZ1AZ2AZ3DMZ VPCDMZ
104、VPCMSFE 路由网关MSFE 路由网关MPAAS VPCMPAAS VPCMGS 网关MGS 网关业务 VPC业务 VPCAPP 1APP 2APP 1APP 2一个注册发现空间RDS LeaderRDS FollowerRDS Logger一个数据库集群LTM1LTM2GTM阿里云行内系统行外系统移动开发平台移动分析服务移动同步服务移动发布服务移动网关服务移动推送服务互联网金融核心EDAS中间件/数据库/大数据RedisOSSESRDSMQDataWords客户前端业务中心运营前端行外路由行内路由用户银行管理人员访问运营中心账户中心用户中心运营中心推荐中心商户中心风控中心产品中心支付中心
105、阿里云 应用高可用服务(AHAS)某银行云平台自建设以来,支持多个业务系统的对外服务。随着手机银行等核心业务的逐步上云,云平台必须具备同城多机房的容灾能力,从而为提升上层业务的业务连续性提供有力保障。新版手机银行对于业务连续性要求、迭代的敏捷度要求、低延迟的性能要求等方面都高于其他系统。需要具备按照业务模块灰度、按业务链路多活调度、RPC就近调用、故障节点自动容错等能力,需要按照以应用多活思路进行容灾稳定性建设。RTO分钟级RPO等于0需求简述方案思路方案目标异地多活(近距离)同城多活Agent后端应用Agent后端应用AZ1微服务/消息/分布式任务 灾难逃逸自封闭容灾网关AZ2对等应用Age
106、nt后端应用IDC1容灾网关Agent后端应用IDC2容灾网关异地多活(远距离)Agent后端应用IDC1容灾网关Agent后端应用IDC2容灾网关云原生业务连续性的保障:CNStack应用交付平台应用交付平台社区版社区版CNStack LocalCNStack Online标准版标准版ACK Distro平台管理能力中心企业企业服务服务运维运维服务服务资源服务资源服务(集群、分布式存储、虚拟网络、备份冗灾、负载均衡、证书)工作负载工作负载(有/无状态、批处理、混部调度)应用场景容器云分布式应用云边协同DevOps资源优化AI/大数据业务中台在线集成在线验证在线交付在线演示同标准同标准同架构同
107、架构同体验同体验同发布同发布与标准版阿里云官网免费下载,社区论坛免费技术支持云 服 务云 服 务(多集群、虚拟化、分布式应用、边缘应用、DevOps)云 组 件云 组 件(消息、数据库、缓存、大数据、网络扩展)异 构 I a a S云原生技术中台(CNStack)异构IaaS(虚拟机、物理机、一体机、多厂商、多芯片架构)各类政府部门行业中台其它各类行业中台自研CRM、ERP等其它自持系统(如运营支撑系统)各类政企行业应用Kubernetes发行版服务市场微服务、DevOps开发框架企业数字化转型常见困难合作伙伴业务方可观测安全生产开源技术更新快选型维护难度大生产运维经验不足稳定性不够开发阶段环境获取成本高不同业务方技术底座适配工作量大THANKS