《王家琪-FinOps建设分享.pdf》由会员分享,可在线阅读,更多相关《王家琪-FinOps建设分享.pdf(19页珍藏版)》请在三个皮匠报告上搜索。
1、得物FinOps落地实践得物 SRE负责人 王家琪得物简介得物App 致力于打造全球领先的新一代潮流网购社区Gen Z 潮流人群聚集地年轻用户的潮流风向标和发声阵地潮流电商先行者致力于成为全球最大的潮流电商平台品质购物新体验创新服务模式激发年轻用户消费力从潮流生活社区到正品潮流电商,得物App不负年轻人的热爱,为亿万年轻人搭建了“了解、获取、交流”的平台,并成为中国潮流文化发展的土壤。七年来,得物通过创新服务模式,呈现差异化价值,引领时尚潮流新消费的发展。得物FinOps引入随着得物电商、社区业务迅速发展,云计算已成为支撑业务运行的关键基础设施。然而,云计算的便利性和灵活性也带来了一系列云成本
2、管理挑战,包括成本增速过快、成本归属不清晰、缺乏有效成本控制手段、对云厂商高度依赖等,因此云成本治理成为各公司的重要方向。得物技术从2021年开始关注云成本效能。经过对FinOps体系深入研究,反复讨论,持续了近2年的落地实践,FinOps成熟度级别从“走”逐步进入到“跑”阶段。实现年度云成本节省上亿元,成功抑制云成本的不合理上涨趋势。得物FinOps引入得物技术FinOps团队协作、决策集中、责任分散、实时报表、业务价值驱动、灵活运用云成本模型FinOps结合得物技术现状,借鉴FinOps社区主推的成本洞察、成本优化、成本运营层层递进、多管齐下的方式开展得物FinOps落地。从技术驱动、业务
3、驱动、运营驱动三个方面来推动机制流转,最终实现成本透明度和控制、优化云资源、并最大化业务价值得物技术得物FinOps构建历程InformVisibility&AllocationOptimizeRates&UsageOperateContinuous Improvement&Operations得物FinOps构建历程Imform/成本分摊 云厂商账单 CMDB 内部监控系统 内部平台 产品维度 部门维度 业务维度 场景维度 部门成本 资源利用率 成本趋势 成本预警 成本归因 辅助决策成本中心得物FinOps构建历程Imform/预算机制预算执行预算考核预算编制 预算编制:以半年或季度为预算周
4、期,设置总体目标和要求,逐级分解到部门/项目,落实到具体负责人;预算执行:根据预算规划业务,预算水位预警及工单审计联动;预算考核:对照设定的预算指标,总结预算执行情况、差异分析、归因分析、改进措施,形成预算反馈报告。得物FinOps构建历程Imform/新增成本收口穷奇审批平台成本预估在资源申请阶段,系统会自动进行成本预估,帮助研发人员更好地了解资源需求对成本的影响。预算管理可拉取部门预算水位,结合预估成本,综合展示申请资源对于本部门预算影响。智能审批节点结合预算和成本预估、预算信息,工单系统会自动添加相应的审批节点,确保资源申请的合理性和合规性。得物FinOps构建历程Optimize/利用
5、率提升ECS成本治理全站容器化垂直自动伸缩(VPA)服务画像得物FinOps构建历程Optimize/混合部署统一调度混部实现混部资源的隔离与保护混部资源调度优化混部的推进与落地得物FinOps构建历程Optimize/混合部署容器统一调度有效利用集群级别碎片资源实现资源隔离NUMA绑定核心可确保高优应用的算力混部资源调度优化采用EXPMA(指数平均数指标)容器资源总量下降30%得物FinOps构建历程Optimize/混合部署云服务器成本治理资源利用率上升12%单位资源成本下降4%全站容器化垂直自动伸缩(VPA)服务画像容器总资源量下降10%容器资源分配率上升10%统一调度混部实现解决碎片资
6、源、解决集群孤岛问题混部资源的隔离与保护绑定核心确保高优应用的算力,缓解I/O资源竞争问题混部资源调度优化实现实时资源感知,EXPMA算法来聚合数据降低单位成本30%容器总资源量再下降10%得物FinOps构建历程Optimize/自建PaaS自建KubeAI通过利用KubeOne容器平台的能力,建立了面向AI业务场景的KubeAI平台。KubeAI平台的设计理念在于让用户摆脱繁琐而重复的资源调度工作,专心致力于模型整个生命周期的开发,从需求到任务的编排,轻松管理模型的训练和推理服务。这个项目的完成让算法PAI任务的整体成本降低了35.6%自建Redis得物在2022年下半年启动了自建Redi
7、s研发与迁移计划,目前取得了不错的成果。生产环境接入自建的Redis涵盖了高 QPS、高流量、大容量的特征。为了研发无感下云,自建 Redis 服务也采用了类似云 Redis 的架构。整套系统由ConfigServer、Proxy、Redis-server 等核心组件构成。从云Redis迁移到自建Redis,成本收益至少 50%。自建日志平台自建日志平台将统一管理公司内部的日志数据,具有快速、精准的查询能力、提供方便的订阅功能和完备的运维管理功能。得物目前已经成功将日志平台从云上迁移至自建环境,最终实现了成本优化,节约了至少30%左右的成本。得物FinOps构建历程Operate/组织协同成本
8、运营岗技术研发财务部门采购部门SRE得物FinOps构建历程Operate/精细化运营成本拆分 确定核心场景 成本拆分到各核心场景构建效率指标 计算场景成本 根据场景成本和北极星指标建立长期观察效率指标复盘优化 定期复盘场景单位成本及效率指标是否恶化 如有异常需做出干预优化决策ROI评审 申请资源时需提供AB 实验数据 预估推全单位成本及效率指标变化 判断投入ROI,给出成本管理建议指标确定 与业务方一起确定场景的北极星指标持续改进得物FinOps构建历程Operate/平台建设成本运营分析平台成本分摊、利用率监控、成本预测资源巡检、推荐配置、一键优化容量评估、成本效能、ROI复盘SRE平台多云管理控制和身份验证、网络安全和漏洞管理;跨云统一视图的可视化监控能力、双活网络环境辅助平台工单系统、IT全链路系统发布系统、容器平台总结未来持续建设未来得物将继续推进成本治理,完成自建paas全量接入、扩大k8s混部范围、服务器基础机型更新迭代、应用多云部署等,通过技术持续提升服务器利用率、摆脱云商绑定及PaaS产品价格约束。成本运营侧,进一步完善预算、资源申请流程,把单位订单/dau成本等效能指标拆分到各部门,加入考核kpi;联合财务进行大宗资源申请业务roi分析,达到FinOps成本治理成熟阶段。