《阿里云:云原生架构容器&微服务优秀案例集(51页).pdf》由会员分享,可在线阅读,更多相关《阿里云:云原生架构容器&微服务优秀案例集(51页).pdf(51页珍藏版)》请在三个皮匠报告上搜索。
1、获取电子书加入交流群云原生架构容器&微服务优秀案例集云原生架构容器&微服务优秀案例集云原生应用平台2023云原生官方公众号前言I N T R O D U C T I O N云原生架构,特别是容器与微服务技术领域已经成为下一代技术演进的必经之路,同时也是各行各业快捷上云、高效用云的最合适的架构选择。虽然容器与微服务技术在开源领域已经有了长足的发展,但是如何把这些技术应用到生产体系,做好系统的安全性、稳定性以及支撑大规模并发业务,并不是开源能直接具备的。阿里云提供了开源兼容,具备SLA保障,生产可用,经过大规模验证的容器产品(ACK、ACR、ASM)、可观测产品(ARMS、SLS)以及微服务产品(
2、MSE)等帮助客户在云上构建可应用于大规模生产的云原生架构方案。本案例集是相关客户通过阿里云的云原生产品构建生产业务体系的经验分享以及最佳实践总结,为您构建合适的生产可用的云原生架构提供相应的成功案例参考,也希望帮助您更轻松实现云原生架构转型,助力业务腾飞!云原生上云方案业务中台技术方案应用多活及容灾方案ACK AI 加速提效方案云原生 FinOps 方案云原生可观测套件中心云公共云边缘云专有云本地云解决方案容器服务互联网中间件业务连续性Serverless企业级分布式应用服务 EDAS微服务引擎 MSE云服务总线 CSB服务网格 ASM函数计算 FC弹性容器实例 ECIServerless容
3、器服务 ASKServerless应用引擎 SAEARMSPrometheusGrafana链路追踪AHASPTS消息队列RocketMQ微消息队列MQTT消息队列RabbitMQ消息队列 Kafka微服务架构Serverless 产品家族云原生可观测高可用消息和事件驱动容器服务 ACK分布式云容器平台 ACK One边缘容器服务 ACKEdgeACK 发行版云原生应用平台产品家族ASSIST ENTERPRISES IN DIGITAL INNOVATION助力企业数字化创新(排列不分先后)目录CATALOGUEvivo AI 计算平台的 ACK One 混合云实践01合阔智云 通过 ASM
4、 轻松实现微服务治理03禾连健康 低容错业务的增效之路05站酷 基于 ASM 解决多语言技术栈下服务管理难题,实现运维提效07唱鸭 轻松玩转 DevSecOps,用 ACR EE 构建安全高效交付流程09任意门 基于云原生 AI 套件打造人工智能的社交网络平台11核桃编程 基于 ARMS 构建可观测体系,全方位提升用户体验13互联网01INTERNET小鹏汽车 基于云原生实现研发提效,加速探索未来出行15东风日产 借力 ASM 实现流量精细化管控17极氪汽车 APP全面升级云原生技术架构,高效提升用户出行体验19元戎启行 基于 ACKEdge 加速云端协同管理21云快充 云原生稳定性建设之路2
5、3致景科技 基于 MSE 一站式实现服务治理25来电科技 基于 MSE 无侵入式实现微服务治理27传音 基于 ARMS 构建全球一体化可观测平台,高效支撑业务创新37完美日记 容器化改造实现增效降本39商米科技 借力 ASM 实现业务迭代大幅提效29TCL 拥抱云原生,实现 IT 成本治理优化31硅基仿生 业务全面 Serverless 容器化的增效降本之旅33苏打智能 借力阿里云 AHPA 轻松应对突发流量35餐道 基于 ACK 构建创新底座,加速 SaaS 规模化演进41三只松鼠 云原生架构升级,完美应对双十一43斯凯奇 通过 MSE 提升业务迭代效率,轻松应对线上大促45识货 基于阿里云
6、容器服务实现云原生提效降本47波司登 云原生架构升级,实现数字化业务创新49震坤行 基于云原生高效提升应急供应链管理能力51厨芯科技 加速业务容器化进程,成功实现增效降本53汽车/制造02AUTOMOBILE/MANUFACTURING零售/电商03RETAIL/E-COMMERCE众安保险 云原生架构升级,贯通行业数字化转型“快车道”63费芮互动 通过 MSE 完成移动支付应用稳定性和安全性双提升65金融05FINANCESalesforce 容器化改造,成功落地安全可信软件供应链67汇量科技 通过容器技术加快全球业务拓展69国际项目06INTERNATIONAL PROJECTS商龙科技
7、容器化上云,保障业务稳定运行71万兴科技应用容器化改造,实现云原生转型升级73Landing Zone/咨询07LANDING ZONE/CONSULTING SERVICES申通 基于 ACKEdge 构建边缘 PaaS 实现业务全面提效55龙湖千丁 基于 ACKEdge 高效落地云边端一体化智慧停车业务57货拉拉 使用 ACK 轻松应对容器管理难题,实现精细化成本治理59丽迅物流 通过 ACR EE 管理大规模容器镜像,快速响应业务需求61交通/物流04TRANSPORTATION/LOGISTICS互联网INTERNET建设成果通过 ACK One 混合云的能力,该平台可将阿里云上的 G
8、PU 主机加入到客户自有集群,提供给用户在深度学习训练平台上使用,及时满足业务的算力需求。用户的使用习惯和之前保持一致。公共云资源根据不同业务的情况,使用周期在一个月到数个月。使用费用大大低于自行采购物理机的费用,有效降低成本。相关产品实施简单,成本低:客户原有集群无需改动,功能兼容,无需额外开发。提供一致性的体验:将云主机加入集群的流程和物理机基本一致。先通过公司云平台申请云主机,然后通过自动化平台将云主机初始化并加到集群中。提供更好的混合云网络:Kubernetes 的容器网络要求 pod 和 pod、pod 和宿主机之间通讯正常。该平台采用了 Calico+Terway 的网络方案,主要
9、表现为在客户机房内的工作节点采用 Calico BGP,阿里云上的工作节点采用 Terway 共享网卡模式,以获取更好的性能。vivo/互联网01客户简介客户痛点方案亮点vivo 是一家以设计驱动创造产品,以智能终端和智慧服务为核心的科技公司。采用 ACK One 方案,将云主机当做裸金属/物理机,加入到客户自有容器集群,集群使用人员体验感无差异,无需额外开发。云主机通过客户云平台申请,不改变当前资源申请流程。资源交付周期长:此前使用自建机房,新增资源的采购流程复杂,周期长,无法及时响应业务临时的大量算力需求,例如大规模参数模型的训练和在线服务的节假日活动扩容。同时由于服务器供应链形势严峻,网
10、卡、硬盘、GPU 卡等硬件设备都缺货,采购交付存在较大风险。需要更高性能的基础设施:AI 计算平台对网络、存储有更高的性能要求,在私有 IDC 里落地需要很高的时间和金钱成本。Vcontainer-混合云集群IDC 机房控制平面api工作平面专线物理机CalicoTerway物理机apinodenodeapiACKagent阿里云云主机云主机ACKACK控制台1分布式云容器平台 ACK One2容器服务 ACK02vivo AI 计算平台的 ACK One 混合云实践合阔智云/互联网03建设成果客户简介将 Linkerd 社区版本迁移到服务网格 ASM(阿里云提供的 Istio 云上商业版),
11、高效解决了多语言技术栈情况下应用链路调用复杂的运维难题,并解决了与云上其他产品搭配使用时的易用性问题,从而使运维效率提升了 40%。同时,借助 ASM 提供的丰富的企业级能力和完备的可观测能力,构建服务网格的实施周期缩短了 50%。相关产品配置推送优化资源利用率:通过 ASM 的配置推送优化,可以通过分析数据平面 Sidecar 产生的访问日志,获取数据平面服务之间的调用依赖关系,为每个工作负载自动推荐 Sidecar 资源,减少配置推送负担,提升资源利用率。合阔智云成立于 2011 年,核心是云原生和移动化设计的新一代全渠道“云端一体”履约中台和去中心化模式智能门店供应链业务中台。客户痛点方
12、案亮点开源项目易用性差:客户采用 Linkerd 社区版搭建 Service Mesh 基础设施,无法与阿里云提供的云上基础设施进行很好的融合。例如,Sidecar 使用默认配置,控制能力相对较少,在应对一些复杂的场景时无法灵活配置。Linkerd 的应用可观测性较简单,无法观测到偶发的链路熔断和某个端口无法访问的场景。链路调用复杂治理难:随着应用数量的增加,应用链路调用变得更加复杂。客户采用 gRPC 协议,但应用端没有做特别处理,导致基于 HTTP2 的长连接协议无法实现负载均衡,尤其是在单个客户端调用变大的情况下,服务端无法有效负载。应用本身比较薄,导致应用调用链路无法透明化,每次新的发
13、布部署容易出问题。数据平面集群的资源消耗大:客户的数据平面 Kubernetes 集群中的工作负载数量比较多。默认情况下,Sidecar 会增加对数据平面集群的资源消耗,同时控制平面会面临较大的配置推送负担,降低控制平面的效率和可用性。商业版架构和社区版一致,云上易用性强:服务网格 ASM 的架构与 Istio 社区版和业界趋势保持一致,并在托管的控制面侧提供了用于支撑精细化流量管理和安全管理的组件能力。控制面的托管解除了与所管理的 Kubernetes 集群生命周期的绑定,使得架构更加灵活,提升了系统的可伸缩性。自带的可观测面板清晰展现各种问题,例如不合理的应用补偿策略、不合理的应用部署、不
14、合理的应用报错。问题一清二楚,进而非常方便地推动应用架构的改造。企业级治理能力丰富,提升可用性:相比 Istio 社区版,ASM 提供了更加丰富的企业级治理能力,如流量标签、灰度发布、熔断、限流等能力。托管核心组件ASM Infra流量管理&协议增强可观测性&弹性伸缩零信任安全自适应xDS优化 软硬一体优化网络诊断智能分析Envoy Filter扩展中心异构服务注册集成Web用户界面/被集成能力:Open API/Terraform 声明式 API,兼容社区 Istio,支持控制面与数据面 Kubernetes API 访问为运行在异构计算基础设施上的服务提供统一的网格化治理能力ASM数据面多
15、集群支持混合部署多云混合云入口出口阿里云VPC其他公有云或IDCASM 网关Envoy 扩展证书管理协议增强Pod托管ASM控制面核心组件,标准/企业版架构统一,柔性架构、多版本支持、定制能力增强WAProxyServicePodWAProxyServiceECI PodWAProxyServiceECS VMWAProxyServiceENS PodWAProxyService外部集群WA数据面的扩展及运维Proxyless 支持及与 Proxy的互通网格 CNI 插件兼容优化eBPF 数据面性能加速ACK Kubernetes 集群&ECI 虚拟节点ECS虚拟机边缘集群外部注册集群Serv
16、erlessKubernetes 集群1服务网格 ASM2容器服务 ACK3Serverless 容器服务4弹性容器实例 ECI04合阔智云通过 ASM 轻松实现微服务治理客户证言相关产品“我们以横向的订单、落单、数据同步为主,重新梳理了模块和服务,同时部署架构换成了 Kuberne-tes,并把用于服务治理的一些中间件替换成阿里云微服务引擎 MSE 这类云服务,这个时候,整个系统总体就比较稳定了。总结来看,围绕业务来构建微服务,结合云的优势,提升了开发运维效率和线上稳定性。”客户简介禾连健康成立于 2014 年,是一家从体检场景切入的健康管理服务公司,目前已经覆盖全国 200 多个城市,20
17、00 多家医院。方案亮点禾连健康采用 MSE(Dubbo+Nacos)的微服务技术栈,提升了整体性能、减少了资源成本,并避免了一些安全风险。客户痛点自建性能低效:使用开源的 Dubbo2+Nacos 进行微服务重构,业务发布峰值触发 Nacos 性能瓶颈,导致服务异常下线,引发业务故障。人工运维风险高:客户服务 2000 家医院,每家医院的需求差异大、且变更频繁,会存在大量的特性开关,此类开关的人工运维操作非常危险,一旦出现误操作,会导致严重的线上故障。禾连健康/互联网05建设成果动态配置,无需重启:微服务引擎 MSE 的特性开关支持动态配置,无需重启应用,用户无感知,很好地解决了客户的痛点,
18、提升了业务的稳定性,同时集成 KMS 解决敏感配置存储问题。相比于自建,MSE 注册配置中心性能提升 50%,解决了业务高速发展中的扩展性问题,保障全国200 多个城市、2000 多家医院体验业务的稳定性超过 99.99%。性能强大、降低资源成本:微服务引擎 MSE 帮助客户扛住了频繁发布的压力,具有良好的兼容性,后续客户跟随社区升级至 Dubbo 3,解决了 Dubbo 2 服务模型的问题。另外,从内存视角看,MSE 具有出色的调优能力,使业务性能提升 4 倍,降低了客户的资源成本。服务观测(trace)服务实例隔离HTTP 协议转换网关DevOps特性开关加密配置阿里云 ARMS基于 Ap
19、ache ShenYu 改造POST/GET-鉴权-Dubbo 调用MSE+KMSACK云效CI Kubernetes+镜像发布/回滚 持续集成运营端Dubbo ServiceA,v1C端Dubbo ServiceA,v2基于 Dubbo 版本微服务治理1微服务引擎 MSE2应用实时监控服务 ARMS3容器服务 ACK06禾连健康低容错业务的增效之路客户简介站酷(ZCOOL)深耕设计领域多年,聚集了 1500 万设计师、摄影师、插画师、艺术家、创意人,在设计创意群体中具有一定的影响力与号召力。业务使用了 Node.js、Java、PHP 等多种技术栈进行开发,开发、运维协作成本高。客户痛点站酷
20、/互联网07建设成果方案亮点通过使用 ASM,客户成功解决了多语言技术栈情况下的多集群应用服务管理难题,同时提高运维效率 40%。ASM 还提供了统一流量治理和全业务的实时观测能力,大幅度提升了线上业务的稳定性。相关产品高效管理多集群、多语言下的应用服务:通过使用服务网格 ASM,多集群、多形态、多语言服务的统一管理变得非常简单。ASM 是一种托管式服务网格,可用于多种异构类型计算服务的统一管理,提供了统一的流量管理、服务安全、服务可观测性和代理可扩展能力,构建出企业级能力。南北向和东西向流量的统一治理:在社区版 Istio 的网关基础上,ASM 企业版提供了更多的企业级高级特性,包括指标伸缩
21、(HPA)、基于 Intel MultiBuffer 技术的软硬结合性能优化、网关无损升级、SLB 优雅下线等。这些特性使得网关真正达到了生产可用级别,能够很好地支持各种企业级服务。ASM 可观测中心实现全业务的实时监控:在生产环境中,站酷主要利用了日志中心进行了网格可观测性的建设。ASM 通过与日志服务集成,提供网关与网格内 Sidecar 日志的自动采集,并针对网关与网格内 Sidecar 访问日志分别提供了日志仪表盘。这些仪表盘提供了实用指标监控,如请求错误率、P95 延迟等,实现了对多集群异构应用的统一可观测性。插件市场完善:服务网格 ASM 在插件拓展中心中提供了即插即用的插件市场。
22、该市场针对各种实际业务场景提供了多种即插即用的插件,通过简单配置参数即可快速启用数据面 Sidecar 的各种拓展能力。通过利用 ASM 插件市场,站酷在很短时间内就解决了业务迁移中遇到的问题。支持自动化 API 集成:作为阿里云云产品,服务网格 ASM 除了通用的 OpenAPI/SDK 集成方式之外,还提供了其他多样化的产品功能模块集成方式,包括 Kube API、Terraform 等。ASM 提供的各大功能模块不仅能够通过 ASM 控制台进行访问,还可以以 API 的形式集成到厂商的自有业务中台中,助力网格运维自动化。多语言、多集群服务统一纳管难:站酷面向互联网用户,提供站酷网、站酷海
23、洛、站酷学习等各项服务。这些业务使用了多种技术栈,例如 Node.js、Java、PHP,部署在多个 Kubernetes 集群中。如何通过统一的业务中台来纳管这些业务是一个巨大的技术挑战。可观测体系构建难:对于上述业务架构,实现不同应用服务的统一可观测体系,以及进行服务指标的统一实时监控,是一个难点。服务治理自动化集成难:由于站酷建设了统一的业务中台,需要对服务的部署、维护、治理等方面实现较强的自动化配置需求。在多集群服务治理的场景下,自动化集成能力也是至关重要的。1服务网格 ASM2容器服务 ACK3应用实时监控服务 ARMS08站酷基于 ASM 解决多语言技术栈下服务管理难题,实现运维提
24、效客户简介作为国内首款弹唱 App,唱鸭在产品创新的不断探索为音乐行业带来了全新的用户价值,包括弹唱、音效键盘等功能,让它迅速成为了拥有千万级别用户量的音乐产品。客户痛点唱鸭/互联网09建设成果相关产品唱鸭团队通过采用微服务架构、容器落地 DevSecOps,安全且高效地交付部署,提高了业务的敏捷迭代、降低了人工介入的成本。容器镜像服务企业版 ACR EE 不仅具备高效的镜像分发能力,也提供了安全的云原生应用交付链能力,使唱鸭可以从容不迫地完成每天 10+次的容器化部署,DevSecOps 的体验非常顺畅。唱鸭团队依然处于快速发展阶段,但团队充满创新力,整体架构选型紧跟技术前沿趋势。方案亮点轻
25、松构建云原生 DevOps:业务开发将算法代码提交到 GitLab 代码托管平台,ACR EE 收到 GitLab 代码变更的 Webhook 通知后,可自动将代码构建成容器镜像并加密托管于实例中。高效安全的容器化应用交付:ACR EE 上创建了云原生应用交付链的 DevSecOps 流程。交付链将保障容器镜像自动安全扫描,如果发现高危漏洞则基于安全策略阻断后续的交付部署。如果通过安全扫描流程,则自动将镜像加签并触发后续不同环境的镜像部署。云上产品无缝集成:ACR EE 可与阿里云多产品实现无缝集成,唱鸭的 PAI-EAS 集群收到通知后,可自动从 ACR EE 实例中获取最新的镜像版本。唱鸭
26、采用阿里云容器镜像服务企业版 ACR EE,实现了应用与算法上云构建的镜像托管,更加便捷地构建了 DevSecOps 全自动化流程,具有以下优点:业务交付压力大:唱鸭团队人数大概 50+,研发人员 30+,唱鸭自身业务基于微服务架构,服务的日发布频率超过十次,需要提高研发迭代效率。容器安全风险:唱鸭业务采用大规模容器化部署,由于容器化存在高动态及高密度部署、不可信三方及开源软件引入的情况,容器安全风险很大。PAI-EAS 测试集群ACR EEPAI-EAS 预发集群PAI-EAS 生产集群DevSecOps云原生应用交付链开发GitLab提交代码提交代码构建容器镜像镜头加签触发通知安全扫描安全
27、阻断容器镜像服务 ACR1210唱鸭轻松玩转 DevSecOps,用 ACR EE 构建安全高效交付流程客户简介Soul 是任意门旗下基于兴趣图谱和游戏化玩法的社交 APP,属于新一代年轻人的虚拟社交网络。基于用户的社交画像和兴趣图谱,通过机器学习来推荐用户可能会产生的高质量的新关系,有丰富的AI 业务场景,包括语音匹配、聊天机器人、文本 OCR 识别、图像识别、多模态等。任意门在阿里云上,通过容器服务 ACK 云原生 AI 套件,构建了符合开源标准、自主掌控的 AI PaaS 平台,实现了以下特点:任意门/互联网11客户痛点方案亮点任意门 Soul 通过先进的算法驱动和数据分析技术,打造了“
28、平行宇宙”中独立的、沉浸式社区。作为下一代基于人工智能的移动社交网络平台,任意门 Soul 是中国社交 4.0 时代的领军者。其 AI PaaS 平台管理了从初期的数十张 GPU 卡到近千张的超大规模,日承载 AI 业务发布数百次,很好地支撑了业务的高速发展。建设成果相关产品AI 机器学习是公司核心业务,但在传统的虚拟机构建部署方式下,缺乏一个统一的管控平台,导致业务工作流不流畅,开发迭代效率低下,运维管理复杂且资源利用率低下,具体表现为:业务迭代速度慢:研发工程师需要花费大量时间在底层基础设施资源准备、业务集成部署、日志监控等 AI 工程化上,无法专注于业务开发,难以快速响应业务研发需求。运
29、维工作重复:日常需要处理安装 Nvidia GPU 驱动、CUDA 版本、OSS 数据源等环境问题,人力投入大,运维效率低。资源性价比低:CPU 机器处理速度慢,大量堆积机器,导致资源闲置浪费。GPU 机器虽效率高,但现有技术无法提升利用率,资源空置。全生命周期管理的一站式平台提升迭代效率:提升迭代效率,包括数据管理、AI 任务发布和模型评测等,开发迭代效率提升 25 倍。统一的异构资源管理和运维平台降低运维成本:降低运维成本,自动化管理 GPU 节点、算法代码与标准镜像解耦以及自动弹性推理,节省 1 倍运维成本。效率及资源利用率提升:提供专业的 GPU 共享及 Fluid 数据加速能力,同时
30、提升业务效能,成本节约 50%。语音合成语音合成数据管理开发Arena AI 工具集/SDK异构资源管理、弹性、可观测容器服务 ACK训练推理人脸匹配图像识别智能聊天CPUGPUOSSHDFS统一运维任务调度弹性伸缩数据库加速大数据集成工作流监控日志自愈多租户容器服务 ACK12任意门基于云原生 AI 套件打造人工智能的社交网络平台客户简介核桃编程作为少儿编程教育行业的领导者,致力于以科技手段促进编程教育,通过人工智能、自适应学习等先进技术和科学的教育方法,启发中国孩子的学习能力。核桃编程/互联网13客户痛点方案亮点降低运维工作量:相对于传统的前端日志埋点方式,ARMS 提供的前端可观测方案帮
31、助核桃编程节省了 30%以上的运维工作量。快速定位线上问题:定位线上问题的平均时长减少 60%。提升用户体验:通过前端可观测技术,全方面提升用户体验,带来了业务量的快速提升。核桃编程在成立后 3 年内付费学员数突破 200 万,并实现了单月营收过亿。建设成果相关产品随着核桃编程业务的快速增长,微服务架构变得越来越复杂,在提升用户体验方面面临很多困难。其中,出现以下问题:无法及时发现站点故障:用户体验是决定品牌形象的核心要素,但客户 IT 团队在多次用户投诉后才发现站点故障,导致用户体验下降。客户端监控手段缺失:相对于成熟的服务端监控技术,整个行业在客户端监控领域的技术方案一直比较欠缺,仅仅拥有
32、服务端监控手段,很难第一时间确认问题的根源到底在于前端还是后端。实时洞察用户体验:全面并实时地了解应用端到端健康程度,包括 PV/UV 情况统计、页面加载速度情况、JavaScript 执行情况,API 请求成功率等多个方面。客户端信息多维度聚合:ARMS 前端监控能够从地理位置、浏览器、操作系统、分辨率、网络运营商、应用版本等多个维度,对客户端性能指标进行聚合分析,从而帮助核桃编程更好地定位性能瓶颈。前后端统一链路追踪:ARMS 前端监控能够自动生成 TraceID 串联前后端链路,这样可以从完整链路的角度洞察瓶颈点,对于排查系统故障和性能瓶颈带来了非常大的帮助。接入简单:只需在客户端 HT
33、ML 页面的 Body 元素中加入一段由 ARMS 提供的统计接入脚本(一段 JavaScript 代码),就能完成监控数据的自动上报。应用实时监控服务 ARMS页面渲染、交互过程前端监控领域关注点后端监控客户端服务端请求过程服务端状态123应用前端健康度访问速度页面运行稳定性服务调用成功率14核桃编程基于 ARMS 构建可观测体系,全方位提升用户体验汽车/制造AUTOMOBILE/MANUFACTURING客户证言“小鹏汽车和阿里云携手共建自动驾驶智算中心 扶摇,为小鹏全场景智能辅助驾驶系统的训练奠定算力基础,我们相信跟阿里云一起能够更快更好更强的发挥作用。阿里云的技术支持,使我们的成本降低
34、,在过去及未来的时间里,阿里云的可靠性和稳定性,都是小鹏汽车最好的选择。”相关产品小鹏汽车/汽车&制造15客户痛点客户简介数据处理链路复杂:自动驾驶车联网数据链路长且数据增长快,因此数据时效性要求高。自动驾驶 AI 服务资源利用率低:缺乏有效的 AI 模型 GPU 训练和推理优化。可观测系统不完善:前端 Web 和后端服务缺乏有效的监控和分析,同时自建 Prometheus 稳定性不佳。支撑平台技术栈复杂:技术平台需要支持多种业务,并且需要建设如 Workflow CI 工作流、SRE 等工具平台,技术栈较为复杂。提升训练和仿真资源利用率:ACK 云原生 AI 套件支持了小鹏自动驾驶大规模训练
35、和仿真任务的调度和管理,提高了训练和仿真资源的利用率。同时,AI 套件还支持了小鹏互联网技术中台和鹏行业务的 NLP、ASR 等推理业务。ACK GPU 共享调度和隔离能力,成倍地提高了 GPU 资源的利用率。全链路可观测保障业务稳定:小鹏基于托管在 ACK 上的全量业务,采用 ARMS Prometheus 服务、前端监控和 APM 等工具实现全链路监控系统,有效洞察业务稳定性风险,保障业务稳定性。统一云原生技术栈简化运维:除了通过容器服务 ACK 支持仿真、音视频转码、视频截图、图片处理、数据处理等相关业务外,小鹏还支持 Airflow/Argo workflow、Kubeflow/Are
36、na 等工作流平台。采用统一的技术栈运行各业务及其支撑系统,简化了运维的复杂度。方案亮点阿里云云原生产品支持了小鹏汽车多个业务的技术平台建设。小鹏数据处理、AI 训练与推理服务、工作流、SRE 运维设施均通过 ACK 统一容器技术栈进行承载。小鹏汽车成立于 2014 年,是一家专注未来出行的科技公司。一直坚持饱和式研发投入,构建全栈自研的核心能力,今天小鹏汽车已经成为中国领先的智能电动汽车公司之一。弹性算力支持复杂数据处理:通过容器服务 ACK 运行数据处理和数据脱敏任务,容器为实时任务提供了弹性算力。ACK Pro 容器服务计算、网络、存储云基础设施容器集群管理异构资源 集群管理和调度ARM
37、S全链路监控统一存储管理日志管理ARMS Prometheus 监控计算能力(CPU/GPU)存储(OSS、NAS、CPFS)网络(VPC/CEN)云原生 AI 套件ACR EEAI 镜像服务GPU 共享与隔离Job 任务调度数据加速Job 任务队列数据处理和脱敏大规模训练和仿真测试智能制造/鹏行智能在线推理服务车联网用户平台和业务基础 PaaS 服务技术中台1容器服务 ACK2应用实时监控服务 ARMS3容器镜像服务 ACR4Prometheus 监控服务16小鹏汽车基于云原生实现研发提效,加速探索未来出行客户证言“借助云的能力,不仅加速向业务的延伸,进一步提升业务价值,降低运维成本,而且通
38、过服务网格实现了高效、低成本的资源供给。”相关产品东风日产数据服务有限公司(以下简称东方日产)成立于 2014 年,拥有员工 800 余人,是汽车全价值链数据服务供应商。专注为东风日产、东风启辰等品牌提供数营服务、销售服务,客户服务、商城运营服务,全渠道数据价值挖掘分析及应用。客户简介东风日产/汽车&制造17方案亮点建设成果客户通过引入 ASM,高效解决 7 层流量的精细化管理难题,享受 Service Mesh 带来的技术红利,缩短 50%的服务网格技术落地周期,同时节省控制面的资源成本。客户痛点成本控制难:除了能够自动按需提供环境,还需要增量式部署以节省服务器资源,控制服务器资源成本等问题
39、。生产环境灰度复杂度高:需要对 7 层流量进行精细化管理,可以按照设计的情况进行流量转发(例如 Header),命中对应需求的应用;否则,命中默认应用(基准环境)。服务鉴权机制缺乏:公司非常注重信息安全,需要一个端到端细粒度的安全授权机制。免运维、易升级、企业级能力丰富:东风日产引入阿里云服务网格 ASM,构建了基于流量管理的无限生肖系统,满足了自动按需提供环境的诉求。基于 ASM 提供的免运维、易升级以及丰富的产品支持能力,让产研团队集中享受 Service Mesh 带来的价值。这有助于东风日产缩短服务网格技术落地周期,减轻异常排错成本,并节省控制面资源成本。数据安全更有保障:此外,东风日
40、产数据服务有限公司非常注重信息安全。结合阿里云的云安全大数据能力,使用云防火墙保障业务和数据的安全。在对云资产的管理过程中,通过堡垒机的方式保障运维过程的安全,做到有据可依,有源可溯,切实保证云上应用和数据的安全可靠。流量负载均衡用户中心A用户中心商品中心B交易中心B内容中心B商品中心线索中心交易中心数据中心内容中心服务网格ASMACK集群特性环境A基准环境特性环境B1服务网格 ASM 2容器服务 ACK18东风日产借力 ASM 实现流量精细化管控相关产品极氪汽车/汽车&制造19客户简介建设成果极氪汽车 APP 已全面升级为云原生技术架构,大幅提升了用户的出行体验,同时也助力 001 猎装轿跑
41、成为高端纯电汽车销量冠军。通过深入的微服务化探索和云原生架构实践,极氪汽车 C 端业务系统的稳定性和敏捷性得到了极大的提高,为冲击更高的销量目标提供了坚实的技术支持。流量防护和容错提升微服务稳定性:利用 MSE Sentinel 实时监控和链路功能,快速定位慢调用和不稳定服务,及时进行流控和并发控制,保证系统可以从崩溃的边缘迅速回到正常水平。全链路灰度发布实现白天随时发版:针对客户核心业务链路上多个微服务同时需要发版的场景,基于 MSE 云原生网关和流量灰度打标来实现多业务的全链路灰度。云原生网关统一入口网关架构:云原生网关将流量网关和微服务网关二合一,内置服务治理能力,降低 50%资源成本,
42、同时缩短请求时间,降低运维复杂度。容器化助力资源利用率与效率的提升:相比传统的基于虚拟机部署方式,ACK 容器化部署方式帮助极氪提升了 20%的资源利用率和 50%的运维效率。方案亮点极氪汽车 APP 系统在阿里云上采用阿里云微服务引擎 MSE,以提升微服务系统的整体稳定性和开发迭代效率,降低入口网关的资源成本和请求的网络延迟。该方案的亮点包括:客户痛点极氪汽车是吉利控股集团旗下高端纯电汽车新品牌,2021 年 4 月极氪发布首款高端智能电动车型极氪 001,大获市场好评,截止 2022 年 12 月,001 车型累计交付量突破 7 万台。连续 3 个月问鼎自主品牌 30 万以上豪华纯电车型销
43、量冠军。随着极氪 APP 的上线,注册车主用户数量呈爆发式增长,用户身份及对应使用场景也不断扩大。在这一过程中,APP 用户体验变得愈发重要。然而,如何在用户规模高速增长的同时,保证 APP 满足互联网三高(即稳定性、流畅度、需求快速响应)的要求,对极氪来说是非常大的挑战:业务连续性要求高:APP 核心服务需要保证 7*24 小时持续在线,对业务连续性要求非常严格。在面临旺季销售活动、新车型发布、突发热点事件等情况时,系统需要在突发的大流量下保证可用性和用户体验的顺畅。版本发布压力大频率快:业务快速发展需要保证快速的迭代,但为了保证业务的稳定性,每次发布只能在业务低峰期(即凌晨)进行,这对开发
44、、运维和测试同学来说是非常困难的。网关架构不一致,入口链路过长:网关架构不一致,包括 API 网关、安全网关和微服务网关,导致请求链路过长,增加成本同时也影响请求响应时间。201容器服务 ACK2微服务引擎 MSEMSE云原生网关Nacos 注册配置中心MSE 服务治理中心RDS高可用企业版RocketMQRedis 集群全链路灰度流量防护全链路灰度流量防护全链路灰度流量防护全链路灰度流量防护全链路灰度流量防护全链路灰度流量防护阿里云 ACK 集群外部系统服务鉴权服务文件服务后台管理服务用户管理商城服务订单服务C端用户手机B端管理后台极氪汽车 APP 全面升级云原生技术架构,高效提升用户出行体
45、验 客户证言“运营车辆的车载设备通过轻量化接入 ACKEdge,接入资源占用降低 50%,接入安全性大幅提升。基于边缘侧 Pod 的启停、OTA 功能便捷化管理车载设备,业务发布运维效率提升 60%。”相关产品设备安全接入能力下沉,应用聚焦业务:设备安全接入能力下沉,应用可以专注于业务。通过 lite-kubelet (在车端设备上运行的代理程序)支持一机一密认证访问 MQTT,确保每个车载设备都使用自己的设备证书接入至 ACKEdge 集群,从而大大提高了接入安全性,整个过程对业务层透明。提供更丰富、灵活的设备管理能力:通过 OTA(软件通过空中接口更新)和边缘侧 Pod 离线启停管理,提高
46、了车载应用的发布运维效率。元戎启行/汽车&制造21客户简介客户痛点深圳元戎启行科技有限公司是一家专注于研发和应用 L4 级自动驾驶技术的科技公司,拥有自动驾驶乘用车“元启行”和自动驾驶轻卡“元启运”两大产品,覆盖量产汽车、Robotaxi 出行、轻卡运力三条业务线。其中,Robotaxi 出行搭载元戎启行自研 L4 级自动驾驶解决方案,通过自营车队和合作运营的模式落地。元戎启行 L4 级自动驾驶前装方案车队已投入运营,为乘客提供城市出行服务。传统的交付模式易出错:使用 deb 包进行部署与车端环境耦合,效率低下且容易出错,同时容易污染车端环境并导致依赖冲突。应用层需要考虑安全问题,维护成本高:
47、因为应用层需要在云端和车端设备之间进行双向通信,所以必须注意安全问题。弱网环境下,多设备难以管理:当多个设备接入时,需要进行统一管理,并考虑每个设备的独立性,由于车辆经常移动,因此需要解决在弱网环境下状态同步的复杂性。方案亮点统一的交付标准:使用 containerd+ACKEdge 进行应用交付,实现了统一的交付标准,简化了交付流程并减少了对车端设备的耦合,同时不会污染车端环境。ACKEdge(Powered by OpenYurt 1.0)异构资源便捷接入云边端统一管控云边端统一观测边缘自治边缘单元化云端协同场景MQTTOTA 升级Pod 启停运营车辆车载设备一机一密认证PodPodPod
48、PodLite-kubeletContainerd边缘容器服务 ACKEdge322元戎启行基于 ACKEdge 加速云端协同管理客户简介云快充成立于2016年,以充电服务和能源管理为核心,业务涵盖九个方向。截止到2022年11月,业务覆盖 370 个城市,接入电桩运营商 7400 人,接入充电终端 31 万家,与 640 个桩企达成合作。云快充/汽车&制造23客户痛点方案亮点生产事故率显著降低:云快充在一条业务线上落地了全链路灰度技术,将应用变更导致的生产事故降低了 70%,后续还会将这项技术推广到整个企业。业务高峰期系统稳定运行:从网关到微服务应用,到第三方依赖,每一层都配置流量防护规则,
49、确保在业务高峰期不会有任何系统被用户流量所压垮。研发效率提升:通过云原生稳定性建设,云快充接入的电桩数量完成了 20 万到 30 万的增长,平均需求迭代周期从 7 人日降低到 4 人日,极大地促进了业务的快速迭代。建设成果“在阿里云的帮助下,云快充通过全面容器化与稳定性建设,极大地促进了业务的快速迭代。希望新能源行业的其他技术团队可以和我们一起共同探索云原生稳定性方面的技术路径。”客户证言相关产品为确保业务的稳定运行,自 2019 年起,云快充采用百分百容器化的技术路线。然而,在容器化改造的过程中,云快充遇到了两个挑战:自建 Kubernetes 集群维护困难:Kubernetes 是一个大型
50、复杂的分布式系统,云快充曾经遇到过节点异常、Pod 异常、网络不通、etcd 性能瓶颈等问题,解决这些问题非常耗费精力,尤其是遇到 Kubernetes 本身的 bug 时更是无能为力。业务变更带来稳定性风险:随着微服务架构的不断演进,业务变更越来越频繁。由于应用上下线不够优雅以及缺少精细化和灰度策略,80%以上的线上业务故障都与版本发布有关。高 稳 定 性 的 托 管 版 Kubernetes 集 群:容 器 服 务 ACK 在 确 保 API 和 标 准 完 全 兼 容 开 源 Kubernetes 的前提下,提供了一系列稳定性提升手段,如 master 节点托管、智能巡检诊断、跨可用区的
51、高可用等等。这些手段都经过阿里双十一大规模场景和阿里云大型客户的实战验证,升级集群版本也变得足够简单。基于 eBPF 技术的应用诊断技术:一键开启应用诊断能力,不需要对应用进行任何修改。它提供全局视角的应用拓扑,并从请求数、错误数、延误三个黄金指标出发,发现异常的服务个体。通过微服务治理实现应用稳定性提升:采用基于 Java-Agent 字节码增强的技术,实现无侵入式微服务治理增强,让微服务应用获得无损上下线和全链路灰度能力,从而将版本发布对正常业务的影响降到最低。24ACKACK注册中心API调用用户Elasticseaech搜索服务RDS核心数据Redis缓存Kafka云原生网关TCP长链
52、接充电桩微服务治理GrafanaPrometheus主业务集群桩业务集群1容器服务 ACK2Prometheus 监控服务云快充云原生稳定性建设之路方案亮点全链路服务治理提升开发和交付效率:阿里云微服务引擎 MSE 标签路由+云效应用编排 AppStack 的方案,帮助客户定义了整个研发体系所需要的环境体系,包括多套的开放环境、多套项目环境(含基础环境)、集成测试环境、预发环境和生产环境。实现了默认按照域名进行项目/开发多环境逻辑动态隔离的效果,同时提供给研发团队便捷的白屏管理工具,可以由项目组独立拉起整个环境。通过三个场景化的实施方案,完美解决了项目测试环境被抢占、开发联调环境不稳定、线上灰
53、度环境等难题。客户证言“作为一支创业团队,快速实现一站式解决服务治理问题是非常酷的事情。在整个方案的讨论和实施过程中,我们的研发团队对 Kubernetes、Nginx Ingress、MSE 都有较深入的理解。像我们部门的研发团队一样,没有专门的运维团队,每个开发人员都可以深入了解每个产品的来龙去脉,这样做非常有意义。”相关产品致景科技/汽车&制造25客户简介客户痛点致景科技成立于 2013 年 12 月,是领先的纺织产业互联网企业,国家高新技术企业。旗下拥有“百布”、“全布”、“天工”、“致景金条”、“致景纺织智造园”、“致景智慧仓物流园”等业务板块,致力于通过大数据、云计算、物联网等新一
54、代信息技术,全面打通纺织服装行业的信息流、物流和资金流,帮助行业实现协同化、柔性化、智能化的升级,构建纺织服装纵向一体化的数智化综合服务平台。项目测试环境抢占冲突:项目测试环境经常被缺陷修复的测试流程抢占,导致项目测试时断时续,同时测试环节成为项目主要瓶颈,严重影响项目迭代的进度。开发联调环境不稳定:为了提升开发效率,开发环境允许开发同学自由发布,由于使用一套环境,不同的同学进行开发环境发布,经常性地导致联调中断。不少开发同学转而寻求端到端的线下联调,在个人机器上部署上下游应用,这种模式面对众多的微服务应用基本寸步难行。线上灰度能力缺乏:客户缺少专门提供给产品经理进行功能验证的预发环境。新功能
55、完成测试之后直接上线到生产环境,研发团队为了避免对客户产生不良影响,经常性地将发布计划安排在晚上。线上环境缺乏灰度发布能力意味着新功能上线以后就会对全量用户放开,一旦发生了产品设计缺陷或者代码漏洞的情况,那么影响面将会是全网的,风险巨大且不可控。custom_tag=testTraceID=1SpanID=1.1custom_tag=testTraceID=1SpanID=1.2服务 BB服务 CCcustom_tag=testTraceID=1SpanID=1Extract TraceIDExtract SpanIDExtract custom dataInject TraceIDInjec
56、t Custom dataGen and injectSpanIDTread-Local Storge服务 AExtractInjectA网关Generate TraceIDGenerate SpanIDcustom_tag=test微服务引擎 MSE426致景科技基于 MSE 一站式实现服务治理建设成果MSE 微服务治理专业版以无侵入的方式提供了全链路灰度、离群实例摘除、微服务治理流量可观测等核心能力,以更经济的方式、更高效的路径帮助来电科技在云上快速构建起完整微服务治理体系。这有效提升线上稳定性,保证服务可用率达到 99.9%。相关产品方案亮点无侵入、接入简单的全链路流量灰度管理:MSE
57、微服务治理能力基于 Java Agent 字节码增强的技术实现,用户无需修改代码即可使用。简单配置后,MSE 会自动为经过灰度环境的流量做标记,从而进行全链路的灰度路由,保证流量在灰度环境中闭环。无损的应用上下线能力:MSE 提供的预热能力使得流量按照一定的曲线进行缓慢增长,从而保证服务进行充分的预热。即使在高并发大流量场景中,也能保护应用安全启动。来电科技/汽车&制造27客户简介客户痛点来电科技自 2014 年起开始进入共享充电领域,定义并开创了行业,属于行业内最早的共享充电企业。主要业务覆盖充电宝自助租赁、定制商场导航机开发、广告展示设备及广告传播等服务。来电科技拥有业内立体化产品线,大中
58、小机柜以及桌面型,目前全国超过 90%的城市实现业务服务落地,注册用户超 2 亿人,实现全场景用户需求。生产环境缺乏高效的流量管理手段:当业务有新版本需要上线时,只能全量上线,无法引导部分用户到新版本。一旦出现问题,影响面过大。如果采用多套环境的硬隔离,会使成本大幅升高,发布方式变得复杂。应用发布过程容易出现业务受损:当业务流量过大的场景下进行应用发布,系统服务刚启动阶段,应用由于存在冷启动的过程,此时的应用容量往往会比正常情况下低。但是线上的流量是无法区分当前的服务是否是刚启动的,依旧会有大流量持续涌入。这时系统就会过载而崩溃,导致业务受损。HTTP100%webweb服务GrayHTTP9
59、0%web未打标RPCRPCRPCDubbo用户中心GrayDubbo未打标Dubbo未打标设备中心RPCDubbo订单中心微服务中心GrayRPCDubbo未打标RPCDubbo未打标支付中心Dubbo数据中心GrayDubbo未打标RPCNginxHTTPwebHTTPappHTTP充电宝设备节点服务注册发现配置中心微服务引擎 MSE28来电科技基于 MSE 无侵入式实现微服务治理托管核心组件ASM Infra流量管理&协议增强可观测性&弹性伸缩零信任安全自适应xDS优化 软硬一体优化网络诊断智能分析Envoy Filter扩展中心异构服务注册集成Web用户界面/被集成能力:Open AP
60、I/Terraform 声明式 API,兼容社区 Istio,支持控制面与数据面 Kubernetes API 访问为运行在异构计算基础设施上的服务提供统一的网格化治理能力ASM数据面多集群支持混合部署多云混合云入口出口阿里云VPC其他公有云或IDCASM 网关Envoy 扩展证书管理协议增强Pod托管ASM控制面核心组件,标准/企业版架构统一,柔性架构、多版本支持、定制能力增强WAProxyServicePodWAProxyServiceECI PodWAProxyServiceECS VMWAProxyServiceENS PodWAProxyService外部集群WA数据面的扩展及运维P
61、roxyless 支持及与 Proxy的互通网格 CNI 插件兼容优化eBPF 数据面性能加速ACK Kubernetes 集群&ECI 虚拟节点ECS虚拟机边缘集群外部注册集群ServerlessKubernetes 集群建设成果服务网格 ASM 提供了免运维、易升级和丰富的产品能力,让产研团队集中享受 Service Mesh 带来的价值。ASM 缩短 75%服务网格技术落地周期,由月缩短为周,提升 70%更新迭代效率,节省80%异常排错成本,大幅节省了控制面的资源成本。相关产品商米科技引入阿里云服务网格 ASM,构建智能的数字化商业智能 POS 软硬件一体化系统解决方案,基于 ASM 提
62、供的免运维、易升级和丰富的产品能力,让产研团队享受 ServiceMesh 带来的技术红利。成熟的治理能力:客户主要使用 HTTP 与 gRPC 协议,ASM Sidecar 代理和 Gateway 这些协议都有着很高的支持成熟度,能够原生地支持请求的负载均衡、以及基于多种丰富匹配条件的请求路由等网关能力。完备的观测能力:ASM 的可观测管理中心中提供了完善的可观测化方案,包括日志、监控与跟踪融合的一体化智能运维,以及直观易用的可视化网格拓扑、基于颜色标识的健康识别体系。异常排查更高效:ASM 产品内置了丰富的最佳实践,通过自助式网格诊断机制,帮助用户缩短异常排错的时长,提升更新迭代效率。随着
63、业务的快速发展,团队规模不断的扩大,商米科技面临两大挑战:商米科技/汽车&制造29客户简介客户痛点方案亮点商米科技成立于 2013 年,总部位于上海市杨浦区创智天地,是一家极具产品创新基因和互联网基因的公司。高昂的维护更新迭代和异常排查成本。随着产品研发进度的加快,应用的快速更新与灰度验证,使维护难度与人力成本急剧攀升。同时,微服务基础平台的稳定性与问题快速诊断也面临较大挑战。gRPC 服务负载均衡、链路追踪以及流量统一管理难。gRPC 长连接的特性,在不借助服务网格的前提下,很难实现负载均衡。且随着业务的扩展及调用链路的复杂,在可观测及统一流量管理上会带来较大的运维成本。HTTP/GRPC
64、入口网关入口网关IOT 服务入口网关长连接 WebRTC 入口网关设备接入管理服务新零售软件应用服务支付及电子发票服务数字商品管理服务结构化数据存储数据持久化及消息系统消息系统非结构化数据存储服务网格 ASMIOT 设备终端设备移动端应用合作伙伴后台综合管理后台支付宝小程序微信小程序一站式软件服务接口1服务网格 ASM2容器服务 ACK3弹性容器实例 ECI4Serverless 容器服务30商米科技借力 ASM 实现业务迭代大幅提效方案亮点相关产品TCL/汽车&制造31客户简介洞察资源使用量,调控周期性业务成本,提高集群利用率。针对具体应用类型,选择适合的机型和配置,并与业务团队协商容量上限
65、,在全链路压测中确定容量水位和容量画像,通过容器服务的成本分析功能,查看当前容量规划下应用的真实利用率。对于存在周期性业务的情况,采用定时伸缩模型降低资源成本,在生产环境和测试环境中调整超卖比配置,提高集群利用率。精细化成本管理,合理规划容量,应对突发业务。定时查看、巡检集群中应用的利用率和资源水位,汇总成本报表,通过云原生企业IT成本治理方案进行集群-部门-应用维度的实时成本预估,让部门时刻关注成本的趋势变化,开启 HPA 自动伸等缩策略和报警,保障业务在流量突增场景的鲁棒性。快速预估成本,基于数字化指标精准绘制资源成本画像。通过云原生企业 IT 成本治理方案提供的费用分摊功能,定期将拆分后
66、的成本分析数据推送给不同角色的人员,并建立复盘机制,协同技术、财务、业务团队迭代优化成本画像的合理性。建设成果通过云原生企业IT成本治理方案,TCL 工程师团队可以非常便捷地提供 Kubernetes 集群中的业务、组织等维度的成本数据,大大提升了部门之间的成本通晒的效率,配合技术、业务、财务“战略同频”的云原生 IT 成本治理流程,为集团优化了 10%闲置的资源,各类业务降低了 30%的配额,每年节省近千万的 IT 成本投入。客户痛点TCL 创立于 1981 年,总部设于中国广东省惠州市,目前已形成 TCL 实业和 TCL 科技两大主体,布局智能终端、半导体显示、新能源光伏三大核心产业,成长
67、为一家具有全球竞争力的智能科技产业集团。TCL 目前拥有 13 万名员工,在全球布局 43 个研发中心和 32 个制造基地,业务遍及 160 多个国家和地区,全球累计服务用户超 9.6 亿。业务容量、成本预估困难,缺少数字化指标支撑增效降本。在 TCL 工程师团队定下增效降本的目标后,如何数字化衡量和评估应用的容量和成本情况,成为了最大的挑战。只有当一个应用的资源成本画像可以被准确绘制时,才能有针对性地建立优化策略。整体资源利用率较低,成本洞察粒度不足,无法驱动策略优化。在早期上云的过程中,TCL 通过给不同的事业部分配独立云账号的方式,实现成本单元的规划与核算。但是当工程师团队希望洞察整体的
68、资源使用和浪费情况时,单纯从服务器等云资源的利用率来衡量业务的容量规划浪费情况是不够合理的。因为从单个业务的视角,容量规划需要根据业务的峰值情况来规划。业务高速发展,传统容量规划的周期无法满足,影响业务使用。TCL 上云的过程经历了上云迁移期、业务增长期、业务稳定期等多个阶段。在上云迁移期和业务增长期中,发现传统按照月度、季度甚至年度的 IT 成本治理周期无法跟上业务增长的速度,造成很多业务处于无资源可用或超预算使用的情况。临时作业/突发任务等短周期作业较多,对容量规划带来巨大挑战。TCL 压测平台是一个被重点关注的业务,因为压测任务具有短时间、大规模、低成本的要求,是传统企业 IT 成本管理
69、中最难以处理和解决的资源类型,但也是上云按需使用的最佳场景。容器服务 ACK04/1500:0004/1500:0004/1500:0004/1500:0004/1500:0004/1500:0004/1500:0004/1500:0004/1500:0004/1500:0004/1500:0004/1500:0004/1500:0004/1500:00300.0 CoresCPUUsageCPURequest250.0 Cores200.0 Cores1500.0 Cores100.0 Cores50.0 Cores0 Cores32TCL 拥抱云原生,实现 IT 成本治理优化硅基仿生业务系
70、统Serverless Kubernetes(ASK)应用托管流量灰度发布多版本管理可观测性基于请求自动弹性容器服务 Knative智能问答文章推荐血糖分析助手知识图谱标注AGP分析助手相关产品硅基仿生/汽车&制造33客户简介建设成果当前通过 Knative 完全支撑了硅基仿生的业务系统,实现硅基仿生业务 100%Serverless 化:糖尿病智能问答系统在内分泌专家和内测病友的支持下收集了 14 万+的问答库。糖尿病科普文章推荐系统为病友及其家属推荐个性化的科普文章。血糖分析助手和 AGP 分析助手助力患者达到更好的控糖水平。糖尿病事件知识图谱标注平台可更好地用于糖尿病相关的诊断、治疗以及
71、科研。客户证言硅基仿生科技数据中心算法研发部 NLP 项目负责人表示:“使用阿里云容器服务 Knative,解决了开发迭代慢的问题,加速了深度学习模型的性能提升;同时提供了弹性可伸缩的资源配置,满足网络服务需求,降低了服务部署成本。”客户痛点深圳硅基仿生科技股份有限公司成立于 2015 年,致力于慢病管理领域的创新医疗器械研发与产业化,公司规模超 500 人。核心团队由清华、北大、加州理工、普林斯顿、华盛顿大学等名校理工科科学家带领,主要项目包括连续血糖监测(CGM)、AI 眼底筛查、人工视网膜、胶囊胃镜机器人等,在多个细分领域打破国外技术垄断,引领基础学科与行业技术发展。硅基仿生期望拥有一种
72、新的技术架构,能够按需使用资源,节约使用成本,减少运维 Kubernetes 集群,基于 Kubernetes 云原生标准 API,使用 Serverless 简化应用运维部署,达到资源免运维的目的。硅基仿生的原有技术架构面临两个最大挑战:方案亮点经过充分沟通和深入推敲业务应用场景和需求,硅基仿生选用了阿里云 Serverless 容器Knative+ASK 产品解决方案,以满足业务需求:业务稳定性:Knative 内置 queue-proxy 容器能够与业务容器结合,实时观察请求流量并进行流量告警。再结合基于请求的灰度发布和多版本管理,可以全天候随时发布,极大提高运维效率和版本迭代速度。研发
73、效率低下:例如智能问答模型,需要反复进行测试和训练,而原有的技术架构需要运维人员不断检测部署,大大降低了产品的开发效率。资源成本严重浪费:使用固定资源的服务器,在高峰期会出现资源紧张,甚至宕机的情况;而在低谷期,又会出现资源浪费的情况。快速迭代:例如智能问答平台需要多次测试和训练,若使用以往的部署方案,可能会浪费大量时间在运维和部署上,从而降低产品的开发效率。现在采用 Knative 快速部署服务到 Kubernetes,可以大大提高产品开发效率,实现数据驱动的良性循环。极致弹性:以往的部署方案在面对脉冲式访问流量时,容易出现服务器宕机以及低谷时浪费网络资源的情况。而 Knative 的部署方
74、案可以极致的弹性能力和灵活的弹性策略,构建出高效、稳定的架构,满足部署需求的同时节省开支。Serverless 容器服务 ASK34硅基仿生业务全面 Serverless 容器化的增效降本之旅相关产品高猛科技/汽车&制造35客户简介建设成果高猛科技已在几个主要的 ACK 服务集群上启用了 AHPA。经过验证,相比于 HPA 的方案,AHPA 的主动预测模式额外降低了 12%的资源成本。同时,AHPA 自动计算负载曲线,设定目标容器数等特点,减少人工运维工作量,优化业务容器化架构。建设成果高猛科技高级后台工程师表示:“高猛科技已在几个主要服务 ACK 集群上启用了 AHPA。相比于 HPA 的方
75、案,AHPA 的主动预测模式额外降低了 12%的资源成本。同时 AHPA 能够提前资源预热、自动容量规划,能够很好的应对突发流量。”。客户痛点高猛科技是一家硬件设备制造商,专注于为全国高校学生提供高品质生活服务。服务项目包括自助洗衣、智能直饮水等。其“苏打智能”品牌(原“苏打校园”)成立于 2016 年,专注于用高新科技的力量构筑智能生态,保障、提升消费者生活品质。随着业务量的增长和业务微服务化以及容器化,应用程序的资源需求出现了周期性变化。当前客户所面临的主要难题是如何充分利用 Kubernetes 的资源弹性特性,使业务层更加灵活,同时降低成本。客户希望提供的弹性方案能够实现以下目标:方案
76、亮点相比 HPA(水平 Pod 自动伸缩器),阿里云容器服务的 AHPA 方案具有以下具体优势:按需使用资源,自动弹性规划,对业务所需资源提前预热。全托管,免运维,提供开箱即用的弹性能力。提供标准 Kubernetes API,方便平台集成和扩展。弹性组件自身高可用,基于阿里巴巴达摩院预测算法稳定高效。按需分配资源:可以及时根据业务实时资源消耗进行资源消耗预测,判断业务接下来对于资源的真实需求。降低工具本身资源开销:工具本身的资源消耗要尽可能小,不应成为运维的负担。操作方便,扩展性强:能够做到无需培训即可快速上手,具有良好的扩展性和可自定义性。安全稳定:高可用,算法和实施手段高效可控。容器服务
77、 ACK容器服务 ACK全托管、免运维资源预热容量自动规划提供集成APIAHPA苏打智能服务Apod.服务Bpod.RPC36苏打智能借力阿里云 AHPA 轻松应对突发流量零售/电商RETAIL/E-COMMERCE建设成果相关产品运维技术全面升级:通过阿里云 ARMS 应用监控构建全链路追踪系统,结合阿里云 Grafana 提供的可观测统一视图,再对接至 ARMS 告警平台,最终对接至飞书群,传音成功实现告警群内协作闭环,实现了 ChatOps 的运维新范式。提升业务创建效率:传音在建立全新的可观测技术能力后,不仅提升了问题诊断效率,还提升了用户体验。在此基础上,结合其他云原生新技术方案,业
78、务上线效率提高了 60%,对于高效业务创新起到了至关重要的作用。方案亮点无侵入式一键接入方案:只需要在应用部署时添加 2 行注解,就能自动注入 Agent 实现全链路监控,对代码无侵入,不再需要运维团队花费精力在可观测平台的推广上。全局聚合:通过阿里云 Prometheus 的全局聚合实例以及智能报警中心,对部署在全球各地的业务系统进行统一大盘呈现和统一报警。传音/零售&电商37客户简介客户痛点作为“非洲手机之王”,传音从事以手机为核心的智能终端的设计、研发、生产、销售和品牌运营,是新兴市场消费者喜爱的智能终端产品和移动互联服务提供商。据 IDC 报告显示 2021 年占据非洲智能手机出货量的
79、 47.9%。传音移动互联广告平台是传音控股的重要业务之一,是非洲最为主流的营销平台之一。在技术架构方面,传音控股采用 Spring Cloud 进行全面微服务化,应用运行在阿里云容器服务 ACK 之上,并分布在欧洲、亚洲等多个地区,真正实现了多地区服务体系。对于该体系而言,要构建完整的可观测体系,挑战非常大。观测对象众多:观测对象分布在不同的技术栈和架构中,要实现全面覆盖并有所侧重,是非常大的挑战。排查问线上问题慢:微服务化后,业务结构变得非常复杂,排查线上问题需要分析复杂的调用链路,需要花费很长的时间。推广难度大:新业务上线频率极快,有些业务为了快速上线减少工作量,不愿意接入可观测平台,需
80、要花额外的精力进行推广。监控数据分散:在实现多地区部署后,每个地区都有一套独立的可观测平台,分散在多个地区的可观测数据无法聚合展示,日常使用非常不方便。提供统一指标体系:通过阿里云 ARMS 和 Prometheus,建立了覆盖资源层、容器层、服务层、应用层、用户体验层的统一指标体系,实现从零散单点到规模化的全面覆盖。全链路追踪诊断:接入 ARMS 应用监控后,可以非常方便地查看服务的健康状况和依赖关系。在线上出现问题时,可以深入拉起全链路的调用链追踪,并定位到代码级别,极大程度地提高了排查问题的效率。全球统一视图Web应用指标接口黄金三指标,JVM指标云服务观测指标RDS,Clickhous
81、e,Kafka,消息队列MQ,SLB,OSS容器层&资源层指标Pod,Deployment,Node,Service,控制面、CPU,内存全链路追踪法兰克福Prometheus实例(ARMS应用监控)Prometheus实例(云服务监控)Prometheus实例(容器服务)ARMS 应用监控TraceARMS 应用监控TraceARMS 应用监控TraceARMS 应用监控TracePrometheus实例(容器服务)Prometheus实例(容器服务)Prometheus实例(容器服务)Prometheus实例(云服务监控)Prometheus实例(云服务监控)Prometheus实例(云服
82、务监控)Prometheus实例(ARMS应用监控)Prometheus实例(ARMS应用监控)Prometheus实例(ARMS应用监控)新加坡孟买深圳Grafana 工作区ARMS 告警平台飞书群统一告警1应用实时监控服务 ARMS2容器服务 ACK38传音基于 ARMS 构建全球一体化可观测平台,高效支撑业务创新客户证言“我们的技术人员跟阿里云的技术人员其实非常熟悉,在双 11 期间阿里云也给予了很多技术层面的支持:我们遇到的问题他们基本都遇到过,我们没遇到的问题,他们也都遇到过。在巨人的肩膀上进行容器化改造,对于当下的完美日记而言,是最合适的。”相关产品自行维护服务器成本过高:早期互联
83、网公司通常直接购买服务器,并在 IDC 机房租用机架进行部署,将应用程序直接运行在物理机上。如果需要扩展,就必须购买新的服务器。IDC 机房会频繁出现各种故障,如果发生 IDC 迁移,就更加麻烦,必须在半夜搬机器,在成本、服务稳定性和工作效率等方面都会造成巨大的消耗。人工发版繁琐易错:2019 年双 11 大促前夕,小程序刚刚上线。当时采用传统的部署方式,特别是某些应用需要在 SLB 上配置(openrestry),运维人员需要在 SLB 上一个个勾选服务器,发布版本的时间长达半个小时以上。如果发版中出现问题,通常还需要延长一个小时以上的时间来处理。大规模应用的研发与运维挑战:对于大规模应用的
84、研发和运维人员来说,是否拥有足够的技术和能力来应对挑战,产品架构设计是否可以满足未来的企业需求,组织架构和文化是否已经适应企业的新战略发展。云原生极大提升运维效率,降低人力成本:容器化改造之后,整个系统变得更加“轻松”。在切换到 Kubernetes 正式环境后,扩容时间只需要约 90 秒,节约了大量时间。根据运营节奏进行扩容,服务器扩容成本降低了 70%90%。同时,部署效率大幅提升,只需要按照文件模板创建一个服务,部署时间就能减少 90%。提升资源利用率,降低资源和管理成本:服务器资源可以自动计算并部署到服务器上,利用隔离技术可以部署多个项目服务器,提高 50%利用率。服务模块的自动负载均
85、衡无需人工干预,工作量减少 90%。服务模块的伸缩容无需编写脚本,只需点击伸缩按钮,就可以减少人工错误率,工作量降低 70%。服务模块不可用时会自动剔除并自动重启服务模块。服务器宕机时,运行在服务器上的服务模块会自动转移到可用服务器上,无需人工干预,工作量降低 100%。容器弹性灵活应对流量洪峰:利用 ACK 的快速弹性能力应对大促资源快速扩容,并结合在大促前进行 RDS/安全等产品扩容、链路梳理、缓存/连接池预热、后端资源保障等,以确保大促活动的平稳进行。全栈容器化简化服务器运维:从 2019 年开始,完美日记就开始筹备容器化改造,包括改造方案的设计和阿里云 Kubernetes 的选择。经
86、过仔细的测试和结合公司情况和人员配备情况,最终选择了阿里云 ACK 托管版进行大规模应用部署,一次性将所有应用迁移到 ACK 容器服务,并以标准的 Kubernetes 方式进行运维部署。全链路可观测和流量防护提升业务稳定性:完美日记将 IT 系统接入全链路可观测产品 ARMS,跟踪复杂的服务调用,并对异常服务进行快速定位和修复。ARMS Prometheus 对 ACK 容器资源进行统一监控。同时,使用性能测试服务 PTS 进行压力测试,利用秒级流量和真实地理位置流量等特性进行测试。通过收集压测数据并分析系统的强依赖和关键瓶颈点,对关键业务接口、关键第三方调用、数据库慢调用等进行限流保护。简
87、单稳定且低成本的容器镜像仓库服务:完美日记选用阿里云镜像企业版 ACR EE,因为它比自建 Harbor 更稳定、成本更低。自建 Harbor 需要考虑计算、数据库和磁盘成本,如果项目很多或镜像比较多,磁盘成本也会很高。而镜像企业版无需考虑维护成本。此外,镜像企业版可以高并发,而自建 Harbor 则容易出现镜像 PULL 问题。完美日记/零售&电商39客户简介客户痛点方案亮点建设成果完美日记成立于2016年,是广州逸仙电子商务有限公司旗下品牌。品牌致力于探索欧美时尚趋势,同时结合亚洲女性面部和肌肤特点,研发一系列“高品质、精设计”的欧美时尚彩妆产品。Redis云数据库sessionPTS性能
88、测试服务全托管注册服务、微服务治理服务容器服务ACK压力测试弹性伸缩ACR EEMSENQ消息队列挂卷APM类全链路监控ARMS监控、报警AHAS日志类数据采集、消费投递及查询分析能力云监控云日志限流,熔断,降级,系统保护云盘NASOSSDB弹性扩容容器服务 ACK容器服务 ACK容器服务 ACK容器服务 ACK容器服务 ACK容器服务 ACK1容器服务 ACK2容器镜像服务 ACR5微服务引擎 MSE6应用高可用服务 AHAS3性能测试 PTS4应用实时监控服务 ARMS40完美日记容器化改造实现增效降本客户证言相关产品作为国内最早一批涉足餐饮 SaaS 的先行者,餐道创始人认为,传统餐饮走
89、向互联网化是顺应时代的必然选择。从技术上而言,餐饮 SaaS 已经能从最初的采购,贯穿到顾客买单、顾客维护、外卖订单、骑手配送、人力管理以及供应链、数据中台等各个环节。餐道将主要的业务应用,包括前端 Web 容器、网关、后端微服务通过 Kubernetes 集群部署,以云原生的方式帮助业务快速迭代,灵活响应商业需求。建设成果资源利用率提升:服务器资源利用率提升了 30%。支撑业务快速发展:出现问题后可快速隔离,当面对急剧增长的业务量,可以在短时间内完成扩容,原本自建集群需要 15 分钟扩容一个节点,而现在 ACK 集群平均只需要 3 分钟即可扩容出一个节点,扩容效率提升了近 80%。迭代效率提
90、升:版本迭代期间,服务的更新速度有了明显的改善,缩短了近 40%的版本发布时间。0 集群故障:集群的稳定性也给系统提供了充分的保障,截至目前,餐道各业务平台上的集群故障次数为 0。餐道/零售&电商41客户痛点客户简介方案亮点餐道为餐道信息科技有限公司旗下注册品牌,品牌服务涵盖全渠道管理 SaaS 平台+业务数据双中台,主要为国内餐饮和零售企业提供一体化的 O2O 解决方案。自建集群稳定性差:餐道早期采用 Kubernetes 部署其餐饮 SaaS 平台,但自建集群稳定性不足,且缺乏与云原生监控和弹性集成的能力。弹性适配难:餐道 SaaS 平台用户访问具有明显的波峰波谷特征,实现应用的弹性适应业
91、务特点可以节省大量成本,但自建集群的适配难度很大。提升业务稳定性:餐道选择将其部署在自建 Kubernetes 集群上的业务应用迁移到阿里云容器服务 ACK 以构建其餐饮 SaaS 平台。ACK 经过阿里云大规模场景实践验证和优化,因此不需要花费过多精力进行应用优化适配。通过使用 ACK,不仅能提升系统稳定性,还能节省运维人力成本。快速弹性应对突发流量:ACK 可以快速弹性地应对突发流量,一次性扩容多台 ECS,无论扩容多少台,都能在 10 分钟内完成。简化用云体验:ACK 整合了阿里云云原生的多种能力,例如 ACK 中集成的 Prometheus 监控服务,可以帮助快速定位性能问题,更好地保
92、证业务的连续性。这些功能的集成简化了云计算体验,提高了企业运行云端 Kubernetes 容器化应用的效率。商家端入口各端入口集群外部流量SanS 平台服务相关PaaS 平台服务网关部署于 ACK 容器服务-(Resin4+SpringMVC)客户端入口.外卖对接会员对接对接项目集群部署于 ACK 容器服务传统的对接流量通过 PaaS 的对接流量数据交互部署于 ACK 容器服务(Tomcat+SpringMVC)PaaS 平台服务集群(SpringCloud)骑手对接.订单服务SanS 平台服务集群部署于 ACK 容器服务(Dubbo)餐品服务权限服务门店服务流量件业务中台开放平台应用中心.骑
93、手服务.外网负载均衡 SLB中间件集群MongoDBRDSRedis权限服务餐品服务权限服务权限服务第三方流量1容器服务 ACK2应用实时监控服务 ARMS42餐道基于 ACK 构建创新底座,加速 SaaS 规模化演进客户简介作为食品领域的上市公司,“国民零食第一股”三只松鼠连续数年参与天猫“双 11”回馈广大消费者。2019 年双 11 仅用时 19 分 23 秒销售额破亿,稳居天猫全网休闲零食行业交易指数榜首,是典型的互联网电商业务场景。在阿里云上,三只松鼠以阿里云容器服务 ACK 为基础构建了云原生 PaaS 平台,快速实现了从传统虚拟机交付部署模式到云原生容器化的架构转型:三只松鼠/零
94、售&电商43客户痛点方案亮点资源准备周期长:大促期间需要提前准备硬件资源,从资源申请、环境部署到业务上线,周期超过 1 个月。业务难以无损发布:当前虚拟机部署架构下,难以实现业务快速、无中断发布,影响用户体验。资源利用率低:大促期间资源水位预留高,无法实现按需动态申请资源,利用率整体偏低。建立 DevOps 体系提升业务发布效率:基于阿里云容器服务 ACK 底座建设研发一体化解决方案,从传统的虚拟机开发、部署、运维模式,演变成以 Kubernetes 容器编排+GitLab 自动化触发构建、部署的 DevOps 模式,解决了资源准备、运维发布等痛点问题。容器化弹性实现 IT 成本降低:硬件资源
95、投入持续下降,平均投入减少 10%。运维压力下降,效率提升 50%。双十一全渠道销售额 104.9 亿元,订单量 924 万,同比增幅 23%,订单处理 2527 笔/min;共处理库存单据 780 万,峰值为 800 单/s,共处理物流单据 719 万,处理时效缩短 36%。建设成果大促服务节点负载压力大,难以快速补充资源。上云后资源限定优化,订单处理 2527 笔/分时效缩短 36%,发现问题快速滚动迭代,整体感受快、稳、方便。客户证言相关产品大促期间资源准备缩短至“天”,平台业务构建速度快,故障率低。集群节点扩容分钟级,pod 扩容秒级,极大缓解线上大流量及高并发下的稳定性问题。大促期间
96、资源平均水位保持在 60%以上,相比以往提升 30%。线上发现问题可以快速滚动迭代,解决了服务发布有损问题,提升了用户体验。开发者源代码托管自动构建容器镜像仓库测试环境ACK 集群预发环境ACK 集群正式环境ACK 集群代码提交通知反馈容器化 DevOps 最佳实践ACR 云原生资产托管和分发平台镜像推送镜像拉取自动触发Webhook 通知源代码获取自动触发自动触发阿里云Code1容器服务 ACK2容器镜像服务 ACR44三只松鼠云原生架构升级,完美应对双十一客户简介斯凯奇(SKECHERS)1992 年诞生于美国加州,遍布全球 170 多个国家地区,在美国是仅次于耐克的第二大鞋类品牌。202
97、0 年 11 月斯凯奇宣布与阿里云达成合作,加速数字化升级。引入阿里云中台后,进一步推动全渠道优化,提升运营效率和供应链管理能力。斯凯奇将传统 API 网关升级成云原生网关,用于和外部渠道、内部老系统、第三方服务进行流量互通,在开发运维效率、性能、安全性上展现出更优异的表现。斯凯奇/零售&电商45客户痛点方案亮点相比自建 API 网关,MSE 云原生网关给客户提供了统一的微服务路由、流控、安全管理等能力,方便内外部多系统间的集成,极大地提高了中台服务的开发效率,并降低运维成本。建设成果相关产品自建网关性能和稳定性无法保障:斯凯奇的全渠道业务中台通过统一接入网关提供 API 接口供外部调用。由于
98、斯凯奇业务场景丰富且系统众多,近年来由于业务高速发展,双 11 大促等活动的流量高峰对自建网关的性能和稳定性提出更多的挑战。网关安全性不够健壮:外部渠道、内部老系统、第三方服务需要与业务中台互通或由中台提供能力,由于接入系统形态各异,急需丰富的安全认证手段并进行统一管理。开发运维效率提升:MSE 云原生网关直接打通了已有的微服务注册中心,直连后端服务,快速实现微服务之间的互通互访和统一管理。通过多种路由规则实现的灰度发布,能轻松满足大促前业务快速迭代上线的需求。网关性能更强:相比 Spring Cloud Gateway 等微服务网关,MSE 云原生网关性能更好,同时其负载均衡、流量控制能力可
99、增强后端服务的可用性,确保中台系统顺利应对双 11 流量洪峰。网关安全性更健壮:MSE 云原生网关集成了认证登录系统,利用 JWT 认证功能和黑白名单,让业务快速构建安全屏障。完备的可观测:MSE 云原生网关提供了丰富的可观测数据,包括流量全局看板、日志检索、业务 TOP 榜、延迟/失败率/错误码等多种响应指标等,并辅以报警管理,使运维人员对服务的整体状态及异常情况尽在掌握,减轻大促期间的工作负担。全渠道接入(MSE云原生网关)前台应用订单中心云POSO2O Oortal全渠道运营平台共享服务中心促销中心库存中心商品中心排单系统OACRMHR.渠道中心用户中心会员中心营销中心EDASDRDSM
100、QARMSKubernetesAHAS中间件ECSRDSSLBVPCSLSOSS基础资源官网全渠道小程序门店店员、运营人员、员工、经销商、用户天猫唯品会京东拼多多.内部服务仓库管理系统运输管理系统第三方服务wedappposHTTPMSE 云原生网关HTTPprimwebwebweb 服务订单中心微服务中心促销中心库存中心商品中心用户中心用户中心会员中心营销中心全链路监控ARMS日志服务SLS安全Web应用防火墙云数据库POLARDBRDSES消息队列 云数据库Rredis 版服务注册发现配置中心认证鉴权服务限流熔断分布式任务 LTSMSE 微服务治理调度分配ApolloHTTPHTTPRPC
101、1微服务引擎 MSE2应用实时监控服务 ARMS46斯凯奇通过 MSE 提升业务迭代效率,轻松应对线上大促客户简介识货 App 是国内领先的年轻人生活社区与消费决策平台,致力于为广大年轻用户提供专业的网购决策指导。2020 年起,识货业务系开始整体业务平台全容器化改造,有效提升系统稳定性,同时也迎来成本和效率的新挑战。客户证言相关产品识货 CTO:识货是典型的 Cloud First,将基础设施完全交给云,不断挖掘和利用好云产品的能力,让应用架构更简单、更快速。与阿里云合作期间,识货 APP 充分利用了阿里云 ACK 弹性伸缩能力以及资源调度能力,以往在 618、双十一大促期间的扩缩容时长和成
102、本都非常高,但上云之后,扩缩容只要几小时,完美实现大促期间的业绩增长,同时实现成本的大幅下降。识货通过阿里云容器服务 ACK 提供的 Serverless 弹性、智能预测 AHPA 以及混部能力,结合实际业务特征,实现了以下几个方面的改进:识货/零售&电商47客户痛点方案亮点识货基础架构团队构建的质量运维智能管控平台,支撑了识货 APP 全平台 GMV 超 300 亿,MAU 超5000 万。在 618、双十一大促期间,扩缩容时长缩短至几小时,完美实现大促期间的业绩增长,同时实现成本下降 20%。建设成果识货的主营业务是电商,其流量有明显波峰波谷的特点,并伴随全年多次大促。然而,缺乏资源与业务
103、的动态、精细化管理,具体表现在:业务大促响应慢:每次业务大促,资源准备、系统扩容过程持续长达数周,业务发展受制于 IT 基础设施保障。IT 成本增加远大于业务增长:公司考核业务增长与 IT 资源投入比例,CTO 要求技术费用零增长甚至负增长,运维面临极大的资源精细化管理挑战。按需 Serverless 提升业务弹性能力:平时业务使用固定 ECS 承载,大促或业务高峰流量使用 Serverless ECI 弹性,通过指定调度策略自动执行,无需上层业务框架改造适配。这一方案实现了高峰流量按需申请资源,并随着高峰结束自动回收资源,大促扩容从持续数周降低到小时级。智能预测弹性降低资源浪费:AHPA 通
104、过弹性预测提前预热资源,做到按需弹性,并根据业务趋势自动进行弹性策略规划,避免人工规划导致预估不准资源引发浪费或业务稳定性问题,弹性计算成本节省了 20%。混部提升利用率:ack-koordinator 提供商业化的混部接入能力,降低混部门槛,并通过单机 QoS 等差异化能力,确保多种业务负载混合部署后的服务质量得到保障。这一方案安全、有效、便捷地实现了整体资源利用率提升 15%。reclaimedbufferedusagePod1 reclaimedPod2 reclaimedPod1reclaimedbufferedusagePod2用于超卖的资源预留的buffer实际的资源使用量PodL
105、1PodL3PodL4reclaimedbufferedusage已分配未使用资源,经过资源画像之后,用于运行低优的 Pod容器服务 Kubernetes集群(ACK)ECS混部&超卖PodL2Serverless基础设施弹性ECSPODPODPODPODPODECIECIECIECIECI1容器服务 ACK2弹性容器实例 ECI48识货基于阿里云容器服务实现云原生提效降本建设成果支撑海量并发和大流量场景:在 ACK 的弹性能力和 MSE 的全链路稳定性治理的帮助下,波司登全面建立了支持百万级并发的技术能力,稳定支持近两年的双 11 大促活动。全面建立安全变更体系:在 MSE 的全链路流量治理
106、和 ARMS 应用监控的帮助下,波司登建立了成熟的安全变更机制,对每一次应用变更都进行充分的灰度验证,排查线上性能问题也变得更加轻松。该安全变更机制已被各团队广泛采纳,波司登的业务迭代频率提升了 2 倍以上,应用变更导致的生产事故降低了 70%。方案亮点波司登/零售&电商49客户简介客户痛点波司登创始于 1976 年,专注于羽绒服的研发、设计、制作,是全球知名的羽绒服生产商,连续 26年全国销量领先。在波司登全面上云以后,为了更好的支撑业务发展,CIO 亲自带队,围绕着云原生技术体系,推动波司登的各条业务线进行技术升级改造。随着系统微服务化的全面推进,波司登面临着应用复杂度和管理难度的双重挑战
107、。波司登技术团队在微服务架构的使用过程中遇到了两个难题:客户证言相关产品波司登的技术团队与阿里云深入配合,在云原生微服务治理方面的不断探索,在超大规模微服务架构领域积累了宝贵经验。波司登会继续拥抱云计算,通过更先进、更高效的技术,更数字化的运营方式,引领服装行业激发创新活力,与各行各业的时代变革者共同成长。性能问题定位困难:随着业务规模的增长,应用之间的调用关系变得越来越复杂,链路变得越来越长。遇到线上性能问题需要投入大量的精力排查,效率特别低。应用变更频繁造成事故:随着业务的快速迭代,应用变更的频次快速增长,包括新应用上线、新版本发布、新配置推送、应用扩缩容等方面。服务架构的复杂性让波司登的
108、技术团队在每次应用变更中都疲惫不堪,绝大多数生产环境的事故都由应用变更导致。全链路性能管理:通过快速定位出错接口和慢接口、重现调用参数、发现系统瓶颈等方式,大幅提升线上问题诊断的效率。基于全链路流量治理降低应用变更风险:采用多版本逻辑隔离的方式实现端到端的全链路灰度,全面降低应用变更的风险。无侵入式接入:通过 Agent 技术,在不需要修改代码的情况下,全面提升微服务治理能力。全面遵循开源开放的技术标准:云原生关网、注册配置中心、微服务治理框架背后都有对应的开源项目,基于 Kubernetes 标准和 Spring Cloud 架构进行扩展,确保用户的技术架构全面拥抱开源开放的技术标准,从根本
109、上避免厂商绑定问题。上海 RegionSLB接入层MSE Ingress容器服务ACK门店系统POS应用层电商系统OMS仓储ICC/OPC用户中心CRM调拨系统IOMS物流管理EWMRocketmqMSE治理中心MSE注册中心ARMS应用监控数据层Hologres-MmaxcomputePGSQLWAF北京 RegionSLB接入层MSE Ingress门店系统POS应用层电商系统OMS仓储ICC/OPC用户中心CRM调拨系统IOMS物流管理EWMRocketmqMSE治理中心MSE注册中心ARMS应用监控数据层Hologres-MmaxcomputePGSQL对等部署实时同步DTS同步DTS
110、同步DNS1容器服务 ACK2微服务引擎 MSE3应用实时监控服务 ARMS容器服务ACK50波司登云原生架构升级,实现数字化业务创新建设成果通过业务云原生改造,容器化和网格化为业务带来了更高的稳定性,缺陷密度下降了 60%,Devops平台的持续建设也帮助研发效率提升了 20%,交付速度提升了 200%。相关产品极大简化精细化应用流量管理策略与灰度发布:ASM 提供精细化的流量路由策略,帮助业务实现灰度发布、熔断、故障注入等 DevOps 场景。ASM 极大简化了遗留系统实现网格化的架构升级,同时支持某些老系统的极端场景,例如超长 header 请求(大约 40-60K)和超长 body 请
111、求(大约 2-10M 左右)。震坤行/零售&电商51客户简介客户痛点方案亮点震坤行工业超市(上海)有限公司(以下简称:震坤行)成立于 1996 年,是一家服务于工业领域与制造业的一站式工业用品服务平台。震坤行经营了 32 条产品线,500 余万种工厂使用的辅料和易耗品(MRO)。通过产业的网络协同、覆盖全国的智能化供应链、数字化的采购平台,震坤行工业超市线上平台拥有 8000 多家供应商与国内外知名合作伙伴,以及与超过 20000家先进制造企业。引入阿里云服务网格 ASM,构建智能的数字化供应链解决方案。基于 ASM 提供的免运维、易升级以及产品丰富的支持能力,让产研团队集中享受 Servic
112、e Mesh 带来的价值的同时,又避免了高昂的维护更新迭代和异常排查成本,并解决了诸如服务负载均衡、链路追踪和流量统一管理等核心问题。业务稳定性和安全性问题突出。目前的业务系统在部署过程中经常出现发布不稳定、上线需要人工干预等问题,这导致效率低下、误操作、无法稳定升级等问题。同时,在线业务需要完善的安全方案,以确保网关和内部调用的安全性。应用维护和异常排查成本较大。随着业务的快速发展,应用更新迭代的维护以及异常问题的排查成本急剧上升,同时服务负载均衡、链路追踪和流量统一管理等需求痛点逐渐扩大。稳定性提升:技术基座采用具备高可用、免运维、内建安全最佳实践可开箱即用的 ASM 服务网格实例,使开发
113、人员可以更专注于业务应用而非基础设施运维。无需复杂的配置即可获得稳定的服务网格能力。将服务网格组件和集群拆分开,对服务网格组件进行升级不会影响到集群,解耦网格实例和 Kubernetes 集群的生命周期管理,使服务运行更加稳定,节省了运维成本。安全和可用性提升:通过 ASM 系统保障服务的安全和高可用性,轻松启用 SDS,为服务网关提供 HTTPS 安全支持、证书动态加载,从而提升服务网关的安全性。支持以渐进方式逐步实现 mTLS 认证,并提供简单易用的 RBAC 功能。1服务网格 ASM2容器服务 ACK52震坤行基于云原生高效提升应急供应链管理能力托管服务网格 ASM异构服务统一治理软硬结
114、合性能优化端到端的可观测SLO驱动的应用弹性零信任安全卓越性能高效调度安全可信开箱即用扩展&生态兼容ACK Kubernetes 集群高性能 Terway 网络Docker/ContainerdECS 虚拟机PodPodPodPod建设成果厨芯科技已在几个主要服务 ACK 集群上启用了 AHPA。经过验证,相比于 CronHPA+HPA 的优化方案,AHPA 的主动预测模式额外降低了 10%的 ECI 容器成本。同时,AHPA 自动计算负载曲线,设置目标容器数等特点,替代了人工运维的工作量,加速了业务容器化的进程。客户证言厨芯科技 VP 表示:“使用阿里云弹性预测 AHPA,降低 Kubern
115、etes容器成本同时减轻了运维工作量,加速了业务容器化的进程。”相关产品厨芯科技一年前将业务系统从 ECS VM 迁移至 Kubernetes 集群。尽管这提高了微服务运维效率,但由于 ECI 容器单位成本高于 ECS,如何充分发挥 Kubernetes 资源弹性从而降低成本,成为厨芯面临的主要问题。目前存在两个业务场景需要优化:厨芯科技/零售&电商53客户简介客户痛点方案亮点厨芯科技,是全球领先的餐饮设备和服务提供商。从一台智能洗碗机开始,致力于改变餐厅后厨基础设施,驱动餐饮行业的智能化和自动化。经过充分沟通,对厨芯科技业务的应用场景和需求有了深入理解后,决定使用阿里云容器服务弹性预测 AH
116、PA 解决方案。方案的优势如下:Web 服务 HPA 弹性滞后:Web 服务每天有早、晚高峰和夜间低谷,而 HPA 扩容总是滞后于负载变化,会引入一些不必要的容器创建和删除,导致资源浪费。弹性策略配置复杂:定时任务 CronHPA 配置复杂,定时任务有相对固定的周期性。对于 15-30分钟的周期,随着 CronHPA 设置的时间段越来越多,运维成本逐渐提高且不够灵活。目标容器数的配置也比较困难,太少则无法保证应对业务高峰,太多又达不到优化成本的效果,需要反复调整。弹性预测,资源预热。AHPA 可以根据业务历史指标,自动识别弹性周期,提前扩容,解决弹性滞后的问题。简化弹性配置,自动容量规划。弹性
117、根据业务趋势变化,自动进行弹性规划,无需人工干预,极大降低运维成本。容器服务 ACKCPU、Memory业务后台任务调度性能指标QPS、RT流量指标自定义指标指标源弹性配置工作负载算法配置边界配置指标收集补偿机制分钟聚合指标采集预测分析智能弹性厨芯系统历史指标实时指标主动预测分析预测算法数据降噪周期识别鲁棒处理实例数预测指标查询被动预测分析指标处理数据缓存边界保护弹性伸缩54厨芯科技加速业务容器化进程,成功实现增效降本交通/物流TRANSPORTATION/LOGISTICS客户简介申通快递作为国内快递行业的龙头企业,目前在国内拥有上千家门店,经过 20 多年的发展,已在全国形成完善、畅通的自
118、营快递网络,且业务仍在高速发展。在申通快递整体单量持续不断增长的前提下,不同实操场景下也需要应对包括时延、稳定性、高可用、可扩展性等在内的不同要求和挑战。申通快递/交通&物流55客户痛点随着业务高速发展,申通传统云到端模式下的业务场景包括拦截、预售、错分等 6 大类,以下问题日益凸显:基于阿里云 ACKEdge 构建的申通快递 IoT 云边端架构,实现了云边协同、边缘侧资源托管和应用管理:建设成果方案亮点相关产品在基于 ACKEdge 构建的 IoT 云边端架构模式下,扫描校验等操作在本地即可完成,减少了对云端的强依赖,帮助企业成本下降 30%,整体边端响应时长降低至 50ms,稳定性从 99
119、.9%提升到 99.95%。该架构实践被信通院评选为“2021 年度分布式云与云边协同十佳案例”,为快递行业的边缘云原生演进树立标杆。边缘资源缺乏统一管理:在边缘场景下,各种基础设施条件参差不齐,依赖人工手动管理,容易出现配置遗漏或误操作,而面单量持续增长时,系统的健壮性无法得到保证。边缘弱网环境下面单扫描效率低:由于云边网络链路受到各种环境制约,无法满足申通边缘业务规范的 1 秒 3 单,实际操作人员明显感觉到卡顿。边缘服务器裸机资源浪费:由于边缘节点常常具备很强的区域性、地域性,不同地域节点之间存在资源不共享、资源异构等明显隔离属性,导致边缘服务器的裸机资源被浪费。业务管理维护成本高:边缘
120、基础设施薄弱,多套厂家的边缘自动化设备子系统、研发模型不统一等问题突出,导致重复建设,增加了边缘业务的管理和维护成本。容器化隔离应用环境降低边缘业务间相互影响:ACKEdge 提供一键初始装机、开箱即用的容器化隔离应用环境,解决了原始进程隔离模式带来的稳定性差问题,大幅缩小了申通边端应用相互影响范围,实现了边缘高可用。针对性解决边缘场景网络问题,大幅缩短服务响应时长:ACKEdge 面向边缘计算弱网络连接场景提供节点自治和网络自治能力,保证边缘节点和边缘业务的高可靠运行,并消除抖动带来的额外影响,从而大幅降低申通整体边端服务响应时间。支持异构资源混合调度,减少边端服务器裸机资源浪费:ACKEd
121、ge 支持丰富的异构边缘节点资源,包括自建 IDC 资源、ENS/IoT 设备、X86/ARM 架构等,通过支持异构资源混合调度,为申通云管边端、边缘自治的混合云架构提供基础。通过控制弹性策略和超卖比,可合理利用资源,降低整体投入成本。云边一体化协同模式,助力边缘 DevOps 实施:通过中心云进行统一交付、运维和管控,帮助申通构建统一的运维监控体系和研发模型,释放运维人员精力,同时使研发只需关注代码开发,无需关心部署问题。物流云边缘 PaaS 云平台逻辑边缘应用发布流水线资源申请/变更运维部署ACKEdge/Openyurt仓储中心(边)端设备仓储中心扫描协议适配UCS服务代理网关互通负载均
122、衡边缘应用边缘插件集合系统进程驱动管理连接管理系统保活插件体系Webshell自动化设备扫描客户端交叉带DWS设备LemoPDA巴枪边缘容器服务 ACKEdge 56申通基于 ACKEdge 构建边缘 PaaS 实现业务全面提效建设成果相关产品有效降低业务整体的报障率,提高了系统的稳定性。极大降低了停车云业务开发运维过程中的人员和时间成本,同时也避免了日常派人巡检的需要,提高了运维效率。发布时间从以前的需要数周时间缩短到了分钟级别,大大提高了业务的发布效率。形成了边缘场景的统一处理范式,内部相似业务形态可以复制该模式,从而减少了试错成本。方案亮点为解决以上问题,龙湖千丁停车云平台选择了阿里云边
123、缘容器服务 ACKEdge 提供的标准 Kubernetes 服务以及云边一体化协同解决方案实现以下能力:通过龙湖千丁停车云平台的自研新版停车云系统与 ACKEdge 提供的标准 Kubernetes 服务以及云边一体化协同解决方案相结合,我们成功将边缘部署时间成本从 1 天缩短到了 3 小时,同时还将手动升级方式迭代为自动 OTA 升级,升级时间从 3 小时缩短到 5 分钟。具体表现在以下几方面:弱网兼容:通过 ACKEdge 的边缘自治能力,即使在云边网络断开或主机重启等极端情况下,本地边缘服务器上的业务也可以正常运行。龙湖千丁/交通&物流57客户简介客户痛点龙湖千丁是国内最早一批参与智慧
124、城市、智慧社区建设的高科技企业,智慧停车是龙湖千丁生活服务的主要场景之一。依托龙湖千丁停车云系统,千丁智能已为全国范围内自有及托管的 1000+车场的智慧停车业务提供统一的车管解决方案。分布式边缘环境拖慢运维效率:由于客户各个车场地理位置分散,彼此网络隔离,车场内的计算资源无法直接被公网访问,导致业务发布和问题排查需要相关人员现场处理,对开发、测试、升级和运维造成了巨大挑战。异构环境差异导致稳定性问题突出:绝大部分车场的节点环境为 Windows PC 服务器,而车场之间的业务部署环境差异较大,需要屏蔽底层环境差异,确保业务平稳运行。应用发布效率低:由于接入龙湖千丁停车云平台的运营主体不同,以
125、及用户需求的频繁更迭,需要根据业务特点实现分批发布和灰度发布,以提高发布效率的同时保证业务的稳定运行。云端管控提升运维效率:通过一条命令,可以快速将节点接入到 ACKEdge 提供的标准 Kubernetes 集群中,并通过云端实现不同地域的计算资源的统一管理和统一的应用分发,提升运维效率。容器化封装实现业务一致性:通过容器化封装,可以在异构环境中最大程度保证业务的一致性,极大减少因环境差异导致的问题。单元化发布:根据业务特点,划分不同的节点池,让不同车场的算力接入不同的节点池,从而形成不同的发布单元。通过选择不同的发布单元,可以实现分批发布和灰度发布。云端运维,远程调试:借助 ACKEdge
126、 提供的通道,开发运维人员可以快速查看容器日志和进入容器进行调试。申通CMDB龙湖云智能停车平台PC ServerPC ServerPC Server抬杆登记车辆NodePool(特定版本单元)PC ServerPC ServerPC Server抬杆登记车辆NodePool(灰度单元)PC ServerPC ServerPC ServerPC ServerPC ServerPC Server抬杆登记车辆NodePool(通用单元)CloudEdgeACKEdge运维通道Edge-Tunnel运维通道Edge-Tunnel运维通道Edge-Tunnel边缘容器服务 ACKEdge58龙湖千丁基
127、于 ACKEdge 高效落地云边端一体化智慧停车业务建设成果相关产品稳定、低成本的容器基础设施:货拉拉使用阿里云容器服务,极大地增加了资源弹性能力和稳定性,实现了增效降本,成为稳定且低成本的容器基础设施。为全面云原生转型奠定坚实基础:货拉拉已应用 100%容器化,这是全面云原生转型的第一步。通过建设坚实的容器基础设施,货拉拉为容灾系统建设、大数据云原生化、混部系统建设等奠定了坚实的基础。提供多种工具优化成本治理:容器服务 ACK 帮助用户在使用裸金属实例时,能够直达物理性能。同时,通过 ACK 差异化 SLO koordinator 容器调度,进行 cpuset 调度、绑核和负载感知调度等,有
128、效地提升了应用性能和节点资源利用率。货拉拉业务具有明显的波峰波谷特征,同城货运白天高峰期比较稳定,晚上低峰期流量会降低。用户可以通过 HPA 和 CronHPA 进行定时扩缩容,满足这类可预期的弹性场景。结合 ACK 提供的监控数据链路,货拉拉实现了容器成本的计量和分账,有效地管理各团队用云成本。核心系统异地备份:通过 ACK 备份中心,实现货拉拉在 ACK 中运行的核心系统的异地备份,并通过 ACR EE 实现跨 Region 镜像同步。货拉拉/交通&物流59客户简介客户痛点方案亮点货拉拉于 2013 年创立,成长于粤港澳大湾区,是一家从事同城/跨城货运、企业版物流服务、搬家、零担、汽车租售
129、及车后市场服务的互联网物流商城。自建集群稳定性差:货拉拉内部运行大量微服务系统,错综复杂,对 Kubernetes 稳定性要求高。自建容易出现稳定性问题,运维成本高。IT 成本治理难:IT 成本治理往往需要对 Kubernetes 进行扩展。基于容器的能力构建需要进行一些核心能力的定制开发,比如在调度器、监控数据链路等方面的扩展,自建难以推进这些扩展。核心系统无备份容灾:由于应用架构复杂,很多系统没有单元化,核心系统容灾备份系统建设难。简化云运维复杂度:货拉拉基于阿里云容器服务 ACK,已经将大部分应用进行了容器化改造并迁移。容器服务 ACK 提供了高可靠稳定的基础设施,与裸金属实例、SLB、
130、ALB/NLB 和 SLB 的集成,极大地简化了用云复杂度。工具平台核心链路应用非核心链路应用其他ACR EE跨 Region 同步ACK 备份中心异地备份ECS、裸金属服务器存储(块存储、NAS)网络(CLB/NLB)低优先级抢占按量/竞价示例绑核CPUset 调度负载感知调度CA/HPA/CronHPA同城/跨城物流/搬家支撑组件离线大数据中间件核心链路应用弹性和成本优化业务应用ACK Pro 容器服务1容器服务 ACK2容器镜像服务 ACR560货拉拉使用 ACK 轻松应对容器管理难题,实现精细化成本治理客户证言相关产品“市场环境和消费者需求快速变化的现状下,我们更希望将精力专注于核心业
131、务的研发。为了实现业务增效降本,我们直接选择了 ACR EE 服务,可以让我们将更多精力投入到快速响应业务需求当中。”建设成果经过将自建 Harbor 仓库迁移至 ACR EE 后,丽迅物流已全面降低了应用的运维部署成本。ACR EE 除了提供自身完善的功能之外,还可以与阿里云的其他产品如容器服务 ACK、云效流水线 Flow 深度结合,为丽迅物流提供灵活易用的持续集成、持续验证和持续发布功能,帮助其高质量、高效率地交付业务,并实现全链路云原生 DevSecOps。通过将核心镜像迁移至 ACR EE,丽迅物流的镜像管理及运维 Registry 实例复杂度降低 50%,容器镜像分发效率提高 60
132、%,同时还确保了容器镜像端到端的安全。丽迅物流/交通&物流61客户简介客户痛点丽迅物流是百丽旗下专注于时尚产业、为企业提供专业物流及供应链解决方案的服务商。目前丽迅物流已在全国拥有 70+全渠道实体云仓、5 大中心电商仓,总面积达 100 万+平方米,服务覆盖 300+城市、3000+商圈。在技术架构转型及业务快速发展的背景下,为了降低业务各环节中的运维成本、提高物流服务效率,2021 年 8 月起,丽迅物流开始了在阿里云上完成自身从 IDC 自建到全面云原生化的进程。在技术架构转型和业务快速发展的背景下,丽迅物流的 IDC 自建 Harbor 托管容器镜像制品方案面临以下问题:大规模分发场景
133、下 Harbor 运维复杂:尽管 Harbor 最初能够满足企业镜像仓库的基本需求,但随着业务的发展和迭代,大规模分发场景需要考虑高可用性、网络带宽、安全性等问题。镜像安全问题无法得到满足:在生产场景下,对于镜像安全的需求越来越高,一些镜像版本的安全管理和部署需要进行二次开发。研发精力不聚焦:在市场环境和消费者需求快速变化的情况下,丽迅希望将精力集中于核心业务的研发,而不是对基础设施需求的响应中。方案亮点为实现大规模场景下的增效降本,综合考虑以下优势,丽迅物流选择了容器镜像服务企业版 ACR EE:便捷迁移,更易使用,免运维:基于 ACR EE 镜像导入功能,可以直接将 Harbor 镜像数据
134、导入 ACR EE 实例,无缝兼容镜像使用习惯,只需要 1 小时即可完成 Harbor 全部镜像实例向 ACR EE 的平滑迁移。此外,后续仓库的运维工作完全托管,让客户更加专注于业务开发。高质量的镜像分发能力:ACR EE 承诺 99.95%的业内最高 SLA 保障,并且具备大规模分发场景的 P2P 分发加速能力,可实现大镜像分发场景的按需分发加速、跨海分发场景的全球分发加速等。端到端的镜像安全治理:ACR EE 具有默认存储加密、自动化镜像安全扫描、镜像加签等功能,企业无需再担心容器镜像的安全可信问题。同时,ACR EE 还提供云原生应用交付链功能,支持全链路自动交付、全链路可观测、可追踪
135、,确保云原生 DevSecOps 场景落地。北京区域混合云(生产环境)云效KBS 自建集群深圳 IDC 机房ACK 托管集群阿里云深圳区域ACK 托管集群阿里云北京区域KBS 自建集群北京 IDC 机房深圳区域混合云(开发测试环境)免密拉取镜像免密拉取镜像Docker Login拉取镜像Docker Login拉取镜像就近获取镜像就近获取镜像云解析设置自定义域名镜像安全扫描、镜像加签、镜像同步流水线 Flow深圳区域ACR EE北京区域ACR EE1容器镜像服务 ACR2容器服务 ACK62丽迅物流通过 ACR EE 管理大规模容器镜像,快速响应业务需求金融FINANCE客户证言相关产品众安保
136、险 CTO 表示:“众安的 新保险 业务和技术都原生于云,未来我们将通过 微服务+实现更加弹性的服务治理,将 CPU 利用率从 15%提升到 60%。同时通过云原生研发体系和工具结合低代码智能编程,保守估计可以提升 20%的研发效能。”众安保险/金融63客户简介众安保险作为国内首家互联网保险公司,完全通过互联网展业。众安专注于应用新技术重塑保险价值链,围绕健康、数字生活、消费金融、汽车四大生态,以科技服务新生代,为其提供个性化、定制化、智能化的新保险。客户痛点以传统技术架构为基础,在开发、运维、安全管理等方面都面临着诸多挑战,其中包括:方案亮点利用阿里云容器服务 ACK 平台,采用 Kuber
137、netes、Docker、istio 等云原生技术构建容器云平台,同时建立 DevOps 体系。使用 ServiceMesh、SpringCloud、Nacos 等技术建立全司微服务架构,构建众安研发管理一体化平台,实现以下能力:100%云原生兼容:研发一体化解决方案基于阿里云容器服务 ACK 承载 PaaS,以 DevOps 层支撑业务场景研发需求,同时佐以度量中心提升研发效能。研发一体化解决方案基于云原生设计,100%兼容其他云原生方案的产品,实现自主可控。安全、快速、稳定:业务上线缩短到以小时为单位,年发布次数超过 4w 次;线上问题分钟级捕获及处理,业务系统稳定性达到 99.99%。I
138、T 成本降低:硬件资源投入持续下降,平均投入减少 10%。自动化运维保障体系,在系统稳定性提升的同时,运维投入大幅下降。研发效率低:无法快速响应多元化且更新频繁的市场和用户需求。业务上线速度慢,以周为单位。运营成本高:无法降低 IT 成本以及做到数据驱动的精细化运营。业务资源利用率低,造成 IT 资源浪费。运维压力大:应用发布方式过于传统,不够自动化、不具备灰度发布、基于时间控制的自动弹性伸缩等,业务系统与基础设施耦合深,不易于管理或观察。众安研发管理一体化平台已经成功应用于实际场景,其承保保单量已达到每天 2 千万、每年数十亿的规模。在双十一等重要时间节点,众安系统成功承接海量保单且运行稳定
139、。六年来,众安系统累计承保逾 260 亿张保单。升级后的系统能够支持千亿保费,并拥有以客户为中心的保险业务中台,支持各业务线快速展开。建设成果组织 A项目 A项资源 A应用交付DevSecOps微服务治理组织 B项目 B项资源 B组织 C项目 C项资源 C容器 PaaS on ACK容器服务 ACK64众安保险云原生架构升级,贯通行业数字化转型“快车道”客户简介费芮互动隶属于电通安吉斯安索帕集团,专注于移动营销、O2O、社交媒体、移动电商领域的创新与研发。费芮互动自主研发的自媒体平台运维超过 2 亿粉丝;有超过 4 万家线下门店采用费芮 O2O解决方案。费芮的主要客户包括优衣库,必胜客,肯德基
140、,星巴克,SPG,欧莱雅,Innisfree,迪卡侬,顶新集团等。费芮互动通过 MSE 云原生网关构建了零信任架构,无需重配 Nginx Ingress 规则即可平滑迁移,性能提升 90%,响应时间下降 50%,并大幅提升业务入口的稳定及安全性,高效支撑每日 1 亿+粉丝交互,4 万+线下门店、每月 3000 万+笔的移动支付需求。费芮互动/金融65客户痛点建设成果相关产品网关层性能受限:客户的业务应用在容器中运行,使用基于 Nginx 的 kubernetes Ingress 入口网关。由于网关和业务部署在同一集群中,面对突发流量时,网关层的横向扩缩容能力有限,导致性能受限。此外,当海量用户
141、发起 HTTPS 请求时,需要进行大量的 TLS 加解密操作,给服务器的 CPU 带来极大的压力。当性能无法承载时,会影响业务系统的稳定性。网关链路运维复杂度高:客户的南北向网关和东西向网关是独立部署和运维的。流量从网关层到后端服务的整个访问链路中存在许多跳转,这增加了线上问题的排查难度,导致网关链路的运维复杂度较高。方案亮点费芮互动基于 MSE 云原生网关将流量网关、微服务网关、安全合三为一,建立高集成、高性能、易扩展、热更新的新一代网关。缩短网关转发链路,提升网关性能:利用 MSE 云原生网关的路由管理能力,可实现南北向和东西向流量调度。云原生网关直连业务 Pod IP,RT 更低。通过对
142、 OS 内核参数与组件调优,QPS 比 Nginx 提升约 40%。硬件卸载 TLS 证书验证加速,HTTPS QPS 提升 80%。扩展服务治理和安全能力,提升稳定性:MSE 云原生网关作为托管型的独享实例,与部署业务应用的资源解耦,直连后端服务,打通多种服务来源,支持过载保护、故障自愈、限流降级等功能,确保流量高峰时的稳定性。云原生网关内置 Waf 模块,使得用户的请求链接可以同时完成 Waf 防护、流量分发、微服务治理,提升链路 RT,降低网关的运维复杂度。丰富的可观测性:MSE 云原生网关提供 Access Log、Tracing、Metrics 及报警的全栈能力,帮助客户更高效地定位
143、问题。PTS 压测云盾(证书管理)APP1(v1)PODAPP2(v1)PODAPP1(v2)PODAPP2(v2)PODMSE 云原生网关ACK 自动伸缩/节点自愈灰度控制变更风险监控报警ECS(硬件加速)MSE(服务治理)ARMS(Tracing)ARMS(Prometheus)1微服务引擎 MSE2应用实时监控服务 ARMS3性能测试 PTS4容器服务 ACK 67866费芮互动通过 MSE 完成移动支付应用稳定性和安全性双提升国际项目INTERNATIONALPROJECTS客户简介Salesforce 是一家提供云计算服务的软件公司,专门从事客户关系管理。Salesforce 的服务
144、可以让企业利用云技术更好地与客户、合作伙伴和潜在客户进行连接。Salesforce/国际项目67客户痛点三方及开源组件带来的安全隐患:企业软件项目越来越依赖于来自供应商、三方或开源社区的组件。这些组件常以基础镜像的方式在软件供应链中传递。攻击者可能利用组件中存在的漏洞,植入恶意代码或控制第三方机器环境,进行从加密货币挖矿、发送垃圾邮件,到通过大型僵尸网络发起 DDoS 攻击等恶意行为。软件交付长链路带来的风险:软件供应链的周期链路长,在各个环节中均可能存在安全风险,包括软件漏洞、软件后门、恶意篡改、知识产权风险和信息泄露等。容器化运行可能引入更多攻击面:容器应用部署依赖 Linux 内核特性,
145、很多黑客攻击者利用内核系统漏洞,从容器运行时组件和容器应用部署配置等多个维度发起针对性的逃逸或者入侵攻击。在进行容器化交付改造的过程中,需要解决云原生场景下的软件供应链风险挑战,主要包括环境复杂化、多样化等问题。方案亮点容器应用交付阶段,ACR EE 可提供云原生应用交付链能力:ACR EE 融合访问控制、镜像构建、内容安全、二进制认证、全球化分发等能力,支持预置风险拦截策略,实现发现即阻止、安全控制左移。容器应用运行阶段,ACK 保障容器应用一致性安全:ACK 集成云安全中心提供了容器运行时安全监控和告警能力,覆盖 ATT&CK 杀伤链的 200 余项安全检测模型,提升整体业务负载运行环境安
146、全性。基于 ISV 应用运行场景,ACK 也提供了安全沙箱容器作为运行时解决方案,确保更好的安全隔离能力和更高的稳定性。为了帮助客户更便捷地实现软件供应链安全,阿里云容器服务团队提供了端到端的解决方案:安全运营阶段,ACK+ACR 实现全局风险感知:客户可通过 ACR 自动同步、自动扫描、自动加签功能和 ACK 自动验签、自动策略实施,以及风险识别后自动阻断后续流程功能,实现容器化 DevSecOps 自动化流程。通过订阅 ACR、ACK、云安全中心的风险事件,实现镜像内容、镜像交付、容器部署、容器运行时全流程安全的风险感知,可以更及时高效地处理安全风险。2022 年 6 月,“阿里云助力 S
147、alesforce 软件供应链安全落地实践”成功获评“2022 安全守卫者计划优秀案例”,通过使用基于 ACR EE+ACK 的云原生 DevSecOps 能力,Salesforce 安全软件供应链实现万次镜像扫描、千次风险镜像拦截阻断,千次加签/验签安全交付;基于全自动化软件供应链安全流程,应用安全交付效率提升 3 倍。建设成果相关产品交付阶段开发阶段运行阶段研发源代码安全扫描一键修复集群安全概览ACR EEKMS镜像签名ACK容器应用云安全中心OPA PolicyBinary AuthZ Policy(节点漏洞、容器镜像、策略配置、运行时风险)运行时保护更新自动触发C镜像构建策略通过策略阻
148、断节点漏洞自动修复应用发布策略通过私钥公钥1容器服务 ACK2容器镜像服务 ACR91068Salesforce 容器化改造,成功落地安全可信软件供应链建设成果方案亮点相关产品业务系统容器化改造后,在降低单点击成本的同时还保障了业务高峰期的快速弹性,单点击成本降低30%,同时弹性按需扩缩的敏捷架构帮助业务在全球快速开服快速扩容,帮助客户增效降本。采用 ACK 容器化弹性技术方案作为核心技术架构后:容器技术简化全球业务拓展,实现业务全球范围内标准化部署、迁移和运维。弹性促进增效降本:业务大量使用弹性的计算资源,通过 HPA 及 CronHPA 实现按需扩缩;驱动 ACK 弹性节点池按需弹出预留+
149、抢占式竞价实例,极大地节约了资源成本。汇量科技/国际项目69客户简介客户痛点汇量科技是全球领先的技术服务公司,凭借全球化网络和本地化服务能力,为 112 个国家 7000 多个活跃的应用开发者提供从获客到变现的全栈式广告产品,每天触及超 35 亿活跃移动设备,覆盖 247 多个国家和地区。全球业务发布复杂度高:客户需要在全球多云环境下进行业务开发、部署、运维;需要通过标准化的方式实现业务发布和服务提供;需要在全球范围内敏捷发布业务,并用最低成本进行管理。业务访问量波动大,资源成本高:客户需要应对每天上百亿的广告交易请求处理数量;需要海量计算资源完成高并发的处理;客户的业务高峰低谷非常明显,按照
150、峰值业务需求准备资源会造成严重浪费。HPAVPACron HPAKubernetesPodPodPodPodPodPodPodPodPodPodPodPodPodECSPodPodPodPod应用伸缩资源伸缩PodPodPodPod裸金属服务器PodPodPodPodGPU实例PodPodPodPodECS-抢占实例1容器服务 ACK2ECS-抢占实例70汇量科技通过容器技术加快全球业务拓展Landing Zone/咨询LANDING ZONE/CONSULTING SERVICES客户简介天津市神州商龙科技股份有限公司是一家专为餐饮行业提供数字化整体解决方案及咨询业务的高新技术企业,提供智慧
151、餐厅管理、客户关系管理、供应链管理以及企业经营决策分析系统的一站式闭环解决方案的产品体系。天财商龙首席技术官表示:“非常感谢阿里云能够提供这么一套云上管理方案,对商龙有非常大的帮助,像账号规划、财务付款与分账、多账号日志与审计、多账号的运维管理等。能够让我们少走些弯路,业务迁移到阿里云更平滑”。商龙科技/Landing Zone&咨询71客户痛点方案亮点缺乏云上整体规划:商龙需要上云的业务系统较为复杂,不同的业务会分布在不同的账号下,导致缺乏整体规划。比如容器集群管理和财务分账等问题需要进行整体规划,但是目前缺乏这方面的解决方案。业务要求系统安全稳定:客户对于云上环境的安全、合规性和低风险性有
152、很高的要求。由于商龙的业务系统需要上云,系统出现问题会对业务造成极大的影响,甚至可能引起不良的社会舆论。因此,客户需要保证云上环境的安全、合规性和低风险性。规划多账号多容器集群:采用阿里云容器集群服务来提升运维研发效率。不同的业务在不同的环境下使用多个集群。通过阿里云资源目录,可以将不同业务所属的云账号进行统一管理,为未来新业务上线到容器集群提供基准定义。多账号日志统一管理:商龙有多个云账号,每个账号内都会有各种云产品(例如 RDS 和 ACK)。通过多账号日志统一管理方案,这些云产品的日志以及账号内主机的操作系统日志可以投递到日志账号中进行集中分析和告警管理,帮助客户进行整体云上规划。统一管
153、控:未来业务上云后,可以满足不同业务之间的权限与财务隔离需求,并方便统一管理。更加稳定:依靠阿里云 IaaS 产品的稳定性和基于体系化的上云设计,帮助商龙规避风险,提高业务连续性。提升效率:从每个账号内的日志和安全配置单独运维,到统一纳管和集中式管理,可以极大地提高运维效率。建设成果客户证言相关产品1容器服务 ACK2企业上云框架 Landing Zone 解决方案企业管理账号CoreApplication事业部2生产账号B测试环境测试账号生产集群-B测试账号日志账号共享服务账号运维账号事业部1生产账号A生产集群-A安全账号应用1-NS应用3-NS应用2-NS应用4-NS云上多账号管理Core
154、 OU日志账号业务线1账号 A账号 B业务线2Application OU企业管理主账号资源目录-RootSLS服务日志账号ECS/云产品账号 AECS/云产品账号 B72商龙科技容器化上云,保障业务稳定运行客户简介万兴科技致力于为全球用户提供 Windows、Mac OS X、iOS、Android 等诸多平台系统上的各种应用工具产品与服务,先后在深圳、东京设立产品与研发中心,在温哥华、东京、香港设立品牌与市场营运中心,着力布局全球市场。客户痛点随着万兴业务的快速增长,以及云化的逐步加深,系统面临着多方面的挑战。其中包括:因此,现有架构亟需进行云原生升级,以满足业务的持续发展。“在项目过程中
155、,项目团队充分体现了阿里的专业素养与精神,高效高质的完成了项目交付,使万兴的技术架构往云原生化方向迈进了坚实的一步。”万兴科技/Landing Zone&咨询73方案亮点系统利用率低:资源利用率较低,缺乏有效的提升手段。弹性能力不足:基于虚拟机级别的弹性能力无法满足业务需求。架构可扩展性不足:当前架构的可维护性和可扩展性面临诸多问题。提供完善的容器化标准与规范,帮助客户应用全面容器化打好了基础。帮助客户满足长期业务发展的需求,通过设计云上容器集群架构,提升弹性能力和可扩展性。基于不同业务场景为客户设计了 DevOps 链路,结合容器化,使客户能够快速实现全面的云原生技术升级。帮助客户统一云原生
156、技术设施,并进行可观测体系设计。客户证言相关产品1容器服务 ACK2容器镜像服务 ACR 4Prometheus 监控服务5容器化交付服务3应用实时监控服务 ARMS74AppOps SREAdmin Developers管理人员RAM Users/RolesEIP万兴ACK Cluster集群架构说明KubernetesAPI 接口 直接管控集群,部署,操作等阿里云存储服务NASOSS云盘内网 SLBIngressIngress 2Namespaceservice-1pod-1pod细节pod-1pod-2deployment-1deployment-2DaemonSetLogtailMas
157、ter Node 3个,有阿里云提供ECS 实例-Worker 节点空闲作为容灾和容量保证可用区1推送日志Namespace其他NS,按照需求创意service,deployment等deployment-3pod-3pod-4pod-1pod-npod-nnetworkpolicy 隔离service-2service-3service-n灰度环境Ingress 1VPC-SZVPC-GGVPC-FLKFapiCSI存储插件入口Logtail日志收集ARMS插件Terway网络插件ACR免密插件GrafanaACR 容器仓库企业版SLS日志服务云监控基础设施层监控PrometheusARMS
158、+Prometheus推送日志推送日志JenkinsECS 实例-Worker 节点可用区2可用区3PV 存储卷提供声明业务用存储PVC存储声明日志等临时存储临时存储卷app容器sidecar容器其他容器万兴科技应用容器化改造实现云原生转型升级附录产品介绍阿里云容器服务 Kubernetes 版(Alibaba Cloud Container Service for Kubernetes,简称容器服务 ACK)是全球首批通过 Kubernetes 一致性认证的服务平台,提供高性能的容器应用管理服务,支持企业级 Kubernetes 容器化应用的生命周期管理,让您轻松高效地在云端运行 Kuber
159、netes 容器化应用。DevSecOps:DevSecOps 是指先在应用程序开发的生命周期中引入安全性,从而尽可能地减少漏洞并使安全性更接近 IT 和业务目标。DevSecOps 带来了文化转型,使安全成为开发软件的每个人的共同责任。PAI-EAS:阿里云机器学习平台 PAI 的模型在线预测服务(Elastic Algorithm Service)。lite-kubelet:裁剪后的 kubelet,资源占用率极低,且使用了新的云边通信协议 MQTT,能耗更低。适合运行在弱网情况,在资源受限的设备上运行,可以为业务腾挪出更多的计算资源。云效 AppStack:云效 A
160、ppStack 是以应用为中心的云原生应用交付平台,提供对开发者友好的应用编排、环境管理、部署运维、资源管理、应用发布等一站式应用交付能力,帮助企业建立应用持续交付整体解决方案,加速企业云原生与 DevOps 转型,提升团队研发效能。SLO:Service Level Objectives,差异化 SLO,是阿里巴巴 Koordinator 实现的基于 QoS 的 Kubernetes 混合工作负载调度系统的核心能力,旨在提高对延迟敏感的工作负载和批处理作业的运行时效率和可靠性,简化与资源相关的配置调整的复杂性,并增加 Pod 部署密度以提高资源利用率。Access log:是 Apache
161、或者 Nginx 等 Web Service 生成的日志,对应于网页的每一次请求,包含有大量的信息,分析好 Access log 可以对网站的运行情况有一个整体的认识,在出现问题的情况下,也可以通过对 Access log 的数据分析结果,大致定位出问题所在。Tracing:是链路追踪,是请求级别的追踪,在分布式系统中可以看到请求在各个模块的延时、分析性能瓶颈。Metrics:是一款监控指标的度量类库,提供了许多工具帮助开发者来完成各项数据的监控。DDoS:全称为 Distributed Denial of Service,分布式拒绝服务攻击,这种网络攻击形式尝试用恶意流量淹没网站或网络资源,
162、从而导致网站或网络资源无法正常运行。ATT&CK:全称是 Adversarial Tactics,Techniques,and Common Knowledge(ATT&CK),它是一个站在攻击者的视角来描述攻击中各阶段用到的技术的模型,多用于模拟攻击、评估和提高防御能力、威胁情报提取和建模、威胁评估和分析。容器服务 ACK:https:/ ACK One(Alibaba Cloud Distributed Cloud Container Platform)是阿里云面向混合云、多集群、分布式计算、容灾等场景推出的企业级云原生平台。分布式云容器平台 ACK One:https:/ ACR(Ali
163、baba Cloud Container Registry)是面向容器镜像、Helm Chart 等符合 OCI 标准的云原生制品安全托管及高效分发平台。容器镜像服务 ACR:https:/ ACKEdge)是一款提供标准 Kubernetes 集群云端托管,支持边缘计算资源、业务快速接入、统一管理、统一运维的云原生应用平台,能够帮助您轻松实现云边一体化协同。边缘容器服务 ACKEdge:https:/ ARMS(Application Real-Time Monitoring Service)是一款阿里云应用性能管理(APM)类监控产品。借助本产品,您可以基于前端、应用、业务自定义等维度,迅
164、速便捷地为企业构建秒级响应的应用监控能力。应用实时监控服务 ARMS:https:/ PTS(Performance Testing Service)是一款简单易用,具备强大的分布式压测能力的 SaaS 压测平台。PTS 可以模拟复杂的业务场景,并快速精准地调度不同规模的流量,同时提供压测过程中多维度的监控指标和日志记录。性能测试 PTS:https:/ Prometheus 监控全面对接开源 Prometheus 生态,支持类型丰富的组件监控,提供多种开箱即用的预置监控大盘,且提供全面托管的 Prometheus 服务。Prometheus 监控服务:https:/ Landing Zone
165、 解决方案:https:/ High Availability Service)是一款专注于提高应用高可用能力的 SaaS 产品,包含流量防护、故障演练、功能开关和多活容灾四大独立的功能模块。应用高可用服务 AHAS:https:/ ASM)是一个统一管理微服务应用流量、兼容 Istio 的托管式平台。服务网格 ASM:https:/ 容器服务 ASK 是一款基于阿里云弹性计算基础架构,同时完全兼容 Kubernetes 生态,安全、可靠的容器产品。Serverless 容器服务 ASK:https:/ Nacos/ZooKeeper/Eureka)、云原生网关(原生支持 Higress/Ng
166、inx/Envoy,遵循 Ingress 标准)、微服务治理(原生支持 Spring Cloud/Dubbo/Sentinel,遵循 OpenSergo 服务治理规范)能力。微服务引擎 MSE:https:/ Kubernetes 容器服务 ACK。经过 7 年发展,阿里云容器服务产品线已成为企业的云原生操作系统。基于阿里云容器平台,阿里集团实现了100%业务云原生上云。2021 年,阿里云发布了 ACK Anywhere,进一步拓展产品的宽度,覆盖从公共云、边缘云、到本地数据中心的各个场景。让所有需要云能力的地方,都能基于统一的容器基础设施之上。云服务 IPv6 支持度测评工信部电子标准研究
167、院开源项目成熟度评估信通院云原生安全成熟度模型最高等级认证信通院云原生技术架构成熟度模型最高等级认证Gartner 评价阿里云应用实时监控服务 ARMS 与 Prometheus 监控服务:阿里云是中国最大的云服务提供商阿里云用户可以使用云上监控工具来满足其可观测性需求。得益于云上客户和阿里集团的大规模容器应用实践,阿里云容器产品能力得到业界广泛认可:容器服务 ACK微服务引擎 MSE2022 国内唯一入选 Gartner APM 与可观测魔力象限应用实时监控服务 ARMS 与 Prometheus 监控服务中国影响力最强阿 里 云 非 常 重 视 将 开 源 标 准 和 产 品(例 如 Pr
168、ometheus、Grafana、Opentelemetry 等)集成到其平台中。开源集成与在阿里云上使用第三方 APM 产品或开源自建相比,阿里云一方产品 ARMS 监控具有更高的成本效益。价格优势2021年成为国内唯一连续三年入选 Gartner 公共云容器报告的产品2022年1季度在权威咨询机构 Forrester 发布的全球公共云容器平台分析师报告中,ACK 稳居全球领导者象限,这也是中国科技公司首次进入该象限2022年2季度在 Omida 发布的全球容器管理解决方案报告中,由于在公共云、专有云、混合云等环境完善的产品体系,ACK 成为全球领导者,产品能力与规模国内领先2022年8月在
169、 CSDN 2022中国开发者调查报告中,有52%的国内开发者选择阿里云容器云平台Forrester 公共云容器平台Q1/22全球领导者Omdia 容器管理方案Q2/22全球领导者CSDN 2022中国开发者调查报告52%开发者选择阿里云容器云平台阿里云腾讯云华为云百度云图标58 容器云平台使用情况Top 5(调查项为多选)未使用,自建容器平台52%22%19%12%10%相比注册配置自建性能可提升40%线上变更风险可降低80%相比传统网关性能可提升90%微服务落地周期可缩短30%GartnerMagic QuadrantFigure 1:Magic Quadrant for Application Performance Monitoring and ObservabilitySource:Gartner(June 2022)