《曾海剑-大规模平台工程实践血泪史.pdf》由会员分享,可在线阅读,更多相关《曾海剑-大规模平台工程实践血泪史.pdf(41页珍藏版)》请在三个皮匠报告上搜索。
1、大规模平台工程实践血泪史曾海剑广东移动云原生总架构师 曾海剑广东移动 云原生总架构师l负责广东移动公司各个部门的DevOps平台以及云原生基础设施的架构设计、平台建设、部署实施以及运营支撑l多年大规模云原生转型实践经验,参与过多家大型金融、通信和科技企业的DevOps与云原生转型评估与指导工作l开源项目开发者,热衷已码会友目 录contents01云原生转型必要性02平台工程实践血泪史03大规模平台工程极简实践04极简 规模化的关键要素PART 01云原生转型必要性GOPS 全球运维大会 2024 深圳站转型驱动力环境安装统一打包123456Cloud Native应用部署统一部署维护管理统一
2、维护快速修复故障故障迁移故障无感知高可用性能容量管理水平扩缩容管理层面:分散 到 统一技术层面:困难 到 容易GOPS 全球运维大会 2024 深圳站云原生最佳拍档+复杂性自动化GOPS 全球运维大会 2024 深圳站第三方开发模式特点团队众多上百个不同的合作商的开发团队水平参差人员分散变动频繁分散在不同合作商办公环境远程开发各团队开发人员水平参差不齐由于每年投资缩减,人员变动大,普遍技能水平低开发团队PART 02平台工程实践血泪史GOPS 全球运维大会 2024 深圳站转型血泪史搭戏台当保姆找外援没人用小规模小规模开源方案开源方案商用方案阶段1阶段2阶段2.5造轮子大规模自研方案阶段3GO
3、PS 全球运维大会 2024 深圳站阶段1:开源+放养l 一套云原生环境:K8S+CephFSl 全套DevOps工具:代码仓库:Gitlab流水线:Jenkins镜像仓库:Harbor制品仓库:Nexus代码扫描:SonarqubeGOPS 全球运维大会 2024 深圳站阶段1:开源+放养(复盘)问 题过 程建平台选试点做培训投入大整合难没人用搭戏台GOPS 全球运维大会 2024 深圳站阶段2:开源+保姆l 三套云原生环境:测试环境(SIT)预发环境(UAT)生产环境(PROD)x2l 三条流水线:develop:发布到SIT环境master:发布到UAT环境release:发布到PROD
4、环境GOPS 全球运维大会 2024 深圳站阶段2:开源+保姆(复盘)问 题过 程帮编写帮配置帮调试累瓶颈复制难当保姆GOPS 全球运维大会 2024 深圳站阶段2.5:商用+自助l 商用的云原生技术底座l 商用的全套DevOps工具自建自维外部支持手工编写自助配置愿景GOPS 全球运维大会 2024 深圳站阶段2.5:商用+自助(复盘)问 题过 程买产品买培训买支持配置工作量大培训成本高严重依赖供应商找外援GOPS 全球运维大会 2024 深圳站问题分析:团队角度(要求)技能要求DevOps工具整合与编写技能K8S应用部署技能GOPS 全球运维大会 2024 深圳站问题分析:团队角度(现状)
5、技能现状常 态团队没有DevOps和云原生技能开发/运维人员本来的工作量就很大理解好需求,编写好程序才是开发人员的本职工作6-7k薪酬的现实,做不出20-30k薪酬的效果源 头开发人员是价值创造的源头开发人员最了解自己开发的应用应该如何编译、打包和部署DevOps平台首先应该为开发人员服务外 援团队不会只能靠专家把团队教会团队不想只能靠专家下手干但不是每个企业都有能力承担引入或者培养专家的成本GOPS 全球运维大会 2024 深圳站问题分析:技术角度现有开源方案优 势劣 势灵活:很多功能都可以通过编程实现灵活:很多功能都需要通过编程实现面向专家GOPS 全球运维大会 2024 深圳站问题分析:
6、技术角度现有商用方案优 势劣 势配置:用界面配置代替编程封装:对开源工具做了整合与封装支持:有供应商提供的专家团队支持配置工作量大培训成本高支持和定制严重依赖供应商面向专家开源封装GOPS 全球运维大会 2024 深圳站问题分析:总结开源方案商用方案租户想要的自己动手带着施工队租房拎包入住GOPS 全球运维大会 2024 深圳站DevOps的未来 平台工程l DevOps已死?不应该以增加认知/工作负担为代价l 平台工程DevOps的一种工程实践简 单减 负增 效PART 03大规模平台工程极简实践GOPS 全球运维大会 2024 深圳站平台工程核心价值学习认知负担编写/配置/调试工作量不求人
7、减负不用学不用写不用配GOPS 全球运维大会 2024 深圳站阶段3:自研+自助源码上线IDP(内部研发平台)GOPS 全球运维大会 2024 深圳站架构GOPS 全球运维大会 2024 深圳站演示 极速上手不用学不用写不用配5分钟演示、4分钟上手、3分钟上线GOPS 全球运维大会 2024 深圳站降低云原生应用部署难度以资源为单位定义部署(K8S)以应用为单位定义部署(自研)GOPS 全球运维大会 2024 深圳站面临云原生资源隔离难题收权?放权?平台管理者GOPS 全球运维大会 2024 深圳站解决云原生资源隔离难题GOPS 全球运维大会 2024 深圳站解决流水线构建隔离难题脚本越权访问
8、容器隔离GOPS 全球运维大会 2024 深圳站Serverless 2.0(源代码+流水线+Kubernetes)x(简单+安全隔离)=2.0简陋1.0 简单2.0GOPS 全球运维大会 2024 深圳站开箱即用,携码入驻开箱即用携码入驻简单123456优 势内建流水线模块/步骤开关零组装5分钟培训4分钟上手3分钟上线高效单流水线多微服务交互式流水线动态灵活构建环境易扩展上云步骤易扩展易扩展共用流水线共用云原生环境租户隔离PART 04极简 规模化的关键要素GOPS 全球运维大会 2024 深圳站平台工程大规模应用成果跨BMOS部门 6合作开发商 22 开发人员 1200+业务系统 100+
9、代码仓库 130+微服务种类 500+环境种类包括:开发调试/预发/生产/异地容灾接管k8s集群 16 节点数 600+CPU架构跨X86/ARM64k8s产品跨开源/国产k8s版本跨v1.18.x-v1.28.x接管GPU算力节点 14 部署Pod 3000+平台维护团队(自有人员)3 平台教练团队(外包人员)6GOPS 全球运维大会 2024 深圳站大规模普及关键要素快速复制快速复制的关键要素低成本超简单高质量高效率l 更低的学习成本l 更低的使用成本l 更低的维护成本l 更简单l 更轻量l 更快速l 内建质量门禁l 更安全的租户隔离l 更平滑的灰度发布l 更高的开通效率l 更高的上云效率l 更快的复制速度GOPS 全球运维大会 2024 深圳站云计算普及的未来 简单Simplicity is the future ofDevOpsCloudNativePlatform Engineeringetc价值=产出 投入GOPS 全球运维大会 2024 深圳站科技普及的未来 平民化GOPS 全球运维大会 2024 深圳站欢迎交流https:/ 全球运维大会 2024 深圳站Thanks高效运维社区DevOps 时代荣誉出品感谢大家观看THANKS