《华为云:2023云财务管理实践白皮书(32页).pdf》由会员分享,可在线阅读,更多相关《华为云:2023云财务管理实践白皮书(32页).pdf(32页珍藏版)》请在三个皮匠报告上搜索。
1、云财务管理实践白皮书参编单位中国信息通信研究院云计算与大数据研究所华为云计算技术有限公司哔哩哔哩极氪汽车美的楼宇科技挚文集团顺丰科技参编人员中国信息通信研究院云计算与大数据研究所:刘如明、蔡钰华为云计算技术有限公司:孟凡忠、顾昊、刘丽娟、温嘉佳、杨善勃、秦韵、毛杰哔哩哔哩:叶翠极氪汽车:鲁阳美的楼宇科技:程俊挚文集团:周峰顺丰科技:蔡适择数字经济步入全面发展阶段,企业逐渐从上云阶段走向深度用云阶段,传统“粗放式”的上云用云带来的云成本问题已经超越云安全成为头号挑战,在企业依托云助力数字化转型的持续性动作中,如何精细化管理云成本以增加资金效率、降低用云复杂度,用有限的资源实现最大云效能成为亟待解
2、决的问题。在此背景下,华为云联合中国信息通信研究院云计算与大数据研究所撰写本白皮书,从行业发展背景、云上成本关键挑战、FinOps模型框架和行业财务管理解决方案等方面,详细阐述深度用云管云阶段企业如何精细化管理云成本,最大化云价值,支撑企业提升资源利用率,以增强核心竞争力。本白皮书可用于企业管理云成本的参考。前言步入深度用云阶段,管理云成本成头号挑战01企业管理云成本的四大难点02企业管理云成本优秀框架FinOps03未来展望06实践案例5.1 华为终端云深入实践FinOps,实现降本增效 135.2 哔哩哔哩实践FinOps,降低数亿IT成本 165.3 极氪智能科技运用FinOps理念及云
3、原生技术降低IT成本 175.4 美的楼宇科技基于云原生技术的成本优化实践 195.5 陌陌基于容器技术实现资源成本优化 215.6 顺丰基于资源精细化运营平台的降本实践 2305企业通过云财务管理实践FinOps,精细化管理云成本4.1 云财务管理全景 044.2 成本可视 054.2.1 预测和规划 054.2.2 管理与控制 064.2.3 分配和可视 074.3 成本优化 094.3.1 优化优先级 094.3.2 计费优化 104.3.3 资源优化 104.3.4 架构优化 104.4 持续运营 32704目录contents01PAGE步入深度用云阶段,管理云
4、成本成头号挑战 数字经济是当今世界最重要的经济形态,数字化浪潮正席卷所有行业,企业能否跟上时代潮流及时高效的进行数字化转型尤为重要,这需要先进的基础设施来支撑。云计算已从IT资源的服务形式演变为新一代软件架构范式,支撑企业实现以资源为中心到以应用为中心,成为企业数字化转型和智能升级的基石。国务院“十四五”数字经济发展规划要求“不断做强做优做大我国数字经济”,并提出“推行普惠性上云用数赋智服务,推动企业上云、上平台,降低技术和资金壁垒,加快企业数字化转型”。以云为底座开展数字化已成为行业共识,在政策、产业发展等因素的共同推动下,我国云计算产业保持了年均超过 30%的增速。中国信息通信研究院报告显
5、示,2022 年我国云计算市场规模达4550 亿元,同比增长约40.91%。政企是行业数字化转型的主力军,也是云化的先行者,用云的深度和政企数字化程度息息相关,决定了能否最大化释放数字生产力。随着数字化转型的深入,行业加速从业务上云向深度用云转型,管理云成本成为行业普遍需求。State of the Cloud Report 2023,FLEXERA报告显示,管理云成本取代了云安全成为企业用云的头号挑战,企业云成本平均超预算18%,云成本中28%属于“无效”开支。步入深度用云阶段,管理云成本成头号挑战0102PAGE企业管理云成本的四大难点越来越多的企业在利用云的敏捷高效、创新、弹性扩展优势时
6、,遇到云成本管理方面的一系列难题,主要有如下四个难点。企业管理云成本的四大难点02企业面对这些问题时,发现难以精细化管理云成本,也难以选择最优的成本调优路径,且实施的优化措施成效难以持续,因此FinOps被提上日程。云服务丰富成本调优困难:云厂商服务众多计费量纲多样,各服务也没有统一的调优方案。而且云厂商持续发布新服务、新实例类型和新的优惠。面对云上如此丰富的供应和选择,企业难以调控最优成本;去中心化采购控制困难:传统IT采购由采购部门集中采购,可管可控。而上云后云资源消费贯穿用云整个过程,采购责任也从集中采购变为去中心化采购,即工程师直接购买资源而非传统的采购人员购买。工程师在消费云资源时成
7、本意识薄弱,且消费云资源的工程师部门多人数多,使得云成本控制困难;成本可变规划困难:传统IT采购后成本固定,上云后这一规则被打破。云资源按需弹性使用,云成本随着业务动态变化,如高峰流量时云资源占用多、升级扩容时动态开通新资源等。云成本可变导致静态规划的预算和业务实际产生的成本偏差大;灵活开通精细化管控困难:云的灵活扩展和支出限制少,有利于业务发展和创新,但也容易产生资源浪费。如为了追求性能和质量,业务团队配置的资源大于运行工作负载实际需要,产生过度配置;部分项目新建环境或者扩容实例后,最后忘记关闭形成闲置等;03PAGE企业管理云成本优秀框架FinOps FinOps是“Finance”和“D
8、evOps”的结合,目的是解决企业管理云成本难题。FinOps基金会将FinOps定义为“不断发展的云财务管理纪律和文化实践,通过帮助工程、财务、技术和业务团队在数据驱动的支出决策上进行协作,使组织获得最大的业务价值”。企业云资源消费贯穿用云的整个过程,管理云成本也需要持续迭代优化。FinOps框架提出三阶段(可视、优化、持续运营)实践模型,指导企业持续优化。在优化时,FinOps指导企业找到成本、质量与效率的平衡,避免企业为了极低成本导致业务效率和稳定性受影响。在一个公司内部业务团队众多,各团队实践FinOps进展不一,不同团队可能处于不同的阶段。FinOps指导企业通过多团队协作和基于数据
9、决策,精细化管理云成本。各业务团队成本可视,主动控制不超支不浪费;企业基于数据决策云投资,保障企业核心业务和战略业务方向的支出。企业应用FinOps后,持续降低单位业务成本。03企业管理云成本优秀框架FinOps 运营从组织、文化、流程等方面建设成本运营体系 可视看清成本趋势和构成,预测未来成本优化提供智能化的成本优化建议FinOpsInformVisibility&AllocationOptimizeRates&UsageOperateContinuous Improvement&Operations用量单位业务成本(如云成本/月活用户数)跟随业务增长,单位业务成本逐步下降04PAGE企业需
10、要E2E的云财务管理能力进行FinOps实践,实现管好云,降低用云复杂度,加速企业数字化转型。建议企业优先使用云厂家提供的云财务管理方案,从小规模开始,在适合本企业的FinOps活动成熟的情况下逐步扩大规模和范围。同时,企业云消费贯穿上云的整个过程,企业需要从组织、文化、流程等方面建设成本运营体系,构建长效机制,支撑持续优化。企业通过云财务管理实践FinOps,精细化管理云成本企业通过云财务管理实践FinOps,精细化管理云成本044.1 云财务管理全景流程运营优化可视 组织匹配 成本预测 预算规划规划与计划事前规划:未来成本可视 运行时监控 账单与对账管理与控制事中监控:异常可视 直接成本分
11、配 公共成本拆分 可视化成本分析分配与可视事后分析:精细化可视 组织 文化 流程 自动化持续运营 计费优化 资源优化 架构优化节省和优化工程/运维财务/采购FinOps教练业务/产品管理者05PAGE企业通过云财务管理实践FinOps,精细化管理云成本无论已经用云,还是刚刚开始云迁移之旅,都需要定期完成未来规划并做好计划跟踪,实现规划先行。规划阶段首先需要规划匹配企业管理模型云上IT治理架构,合理预估未来云成本,并通过预算工具跟踪未来成本;预测和规划在云成本可变情况下,成本控制需要持续精细化管理,所有支出需要有跟踪和可视。通过成本监控,运行时及时管控异常成本,变事后回溯为事中控制;通过多维度精
12、细化分析,看清成本结构与趋势;将成本分配到责任团队,使各责任团队清晰了解自己业务成本,加强团队成本意识,支撑成本责任制。管理与控制分配和可视成本可视是理解成本构成和优化成本的基础。成本可视使企业看清成本结构和趋势、预测未来云开支,让企业通过数据支撑决策,最终确保云支出与业务目标保持一致。分配到业务团队的成本报告也有助于加强团队成本意识,让业务团队根据预算调整云的使用,减少预算超支和浪费。成本可视包含三方面内容:4.2 成本可视1.匹配企业管理模型,确保未来成本可追溯4.2.1 预测和规划随着经营范围和规模的不断扩大,企业不断建立子公司、分公司,子公司再建立孙公司,大部门也逐步拆分成多个小部门,
13、组织结构的层级也就越来越多。企业的IT治理架构也会受到组织结构的影响,需要匹配企业管理模型,帮助企业以多层级组织的方式管理人、财、物,所有资源都可以找到责任团队。企业根据组织结构合理规划IT治理架构后,可将成本分配到业务团队,让各业务团队为使用的云服务成本负责。利用云厂商的企业组织+多账号、项目、标签能力,助力企业合理规划组织,通过合理的IT治理架构支撑各部门/业务团队成本可视和可追溯。常见的IT治理架构如下:大型企业或集团公司:使用企业组织+多账号的方式,通过账号隔离资源和成本,方便业务快速拓展;中小型企业以及单账号客户:优先使用项目来映射组织。如果存在更多维度、更细粒度规划的诉求,可以使用
14、标签作为组织规划的补充。比如用标签来区分资源归属的产品团队和负责人。06PAGE企业通过云财务管理实践FinOps,精细化管理云成本2.通过智能预测和估算,预估未来成本随着企业深度上云,企业云上支出持续高速增长,如何预估未来云成本对企业的规划至关重要。企业未来用云成本通常包含两类,一是已经上云的业务持续产生的云成本,另外一类是因为新规划业务产生的云成本,如新上云业务或者出海等在其他区域提供服务产生的云成本。由于云支出是可变的,没有一种预测方法可以适用所有场景,结合基于趋势(已上云业务的历史支出作为输入)的预测和基于业务驱动因素(例如新业务上云或区域扩张)的预测,可以有效改进并提升企业的财务预测
15、准确率。利用云厂商的成本预测、价格计算器支撑企业可视化未来成本。利用成本预测能力,结合机器学习和基于规则,根据客户的历史波动预测未来时间范围的成本 利用价格计算器,根据新规划业务所需的资源,自主搭配估算未来成本。3.通过预算管理,跟踪未来资源用量和费用执行预算超支是管理云成本核心难题之一。完成组织和成本的规划后,企业可以为各业务团队制定预算,并跟踪各业务团队预算执行情况。通过预算跟踪,确保各业务团队及时看到预算执行情况,并根据实际成本和预算的差异及时控制,避免预算超支。利用云厂家预算管理能力,对规划的预算做跟踪,并可以精细化跟踪具体产品、团队、项目的成本。1.运行时及时管控异常,避免意外高额账
16、单4.2.2 管理与控制云资源按需灵活扩展,云成本在用云过程中不再固定不变。为了避免意外账单,需要在用云过程中精细化控制,对风险事项建立监控预警机制和应对机制,一旦产生预警则及时应对,避免产生异常高成本。在发生异常时,分析根因也至关重要。如发现异常成本时,需要确认是业务发展导致,还是资源过度配置或资源闲置导致,并根据根因进行扩大预算或者优化资源使用。云厂家提供多种能力帮助企业监控处理运行时异常成本。包括异常成本监控和根因分析、超预算监控、资金可用额度监控、资源包剩余不足监控。异常成本:对于不符合历史数据模型的成本增长,识别为异常成本记录,同时提供异常增长的Top潜在原因。企业可设置监控提醒,并
17、根据系统提供的潜在原因,结合成本分析和业务情况进行深入分析,并快速做出应对;超预算监控:设置预算超支预警,及时接收系统发出的短信或邮件预警。对应责任人可结合成本分析和业务情况深入分析控制措施,如优化资源或者禁止开通新资源等;可用额度监控:监控资金可用额度是否不足,避免欠费影响业务;资源包预警:监控资源包剩余量,避免资源包用尽自动转为按需计费。07PAGE1.成本分配驱动业务方承担财务责任4.2.3 分配和可视企业通过云财务管理实践FinOps,精细化管理云成本项目 1品牌 A品牌 B按项目分配按品牌分配总成本项目 22.通过账单核对支出,个性化对账提高对账效率云厂商会向客户出具实际消费的账单,
18、企业可以根据云厂商的账单,快速评估每月支出是否和预计一致,并对每一笔消费都明明白白。如果支出和预期不一致,企业可以进一步深入分析,并及时纠正。通过多种维度的汇总账单和消费走势,快速评估支出是否和预期一致;从汇总到明细看清每一笔消费。使用多维度汇总账单(按产品类型、企业项目、区域、计费模式)、明细账单进行核对,确认资源的购买、使用和账户的实际支出一致;各企业对账流程存在差异,可通过个性化对账提升对账效率和体验,包括自定义信息卡片布局,自定义汇总维度(按产品汇总、按产品规格),自定义嵌套方式(账号、计费模式、产品类型、账单类型)。成本分配支撑企业将成本分配到各业务团队中,使得各业务团队的成本清晰可
19、见。根据清晰的成本,业务部门可准确定价,并平衡成本、稳定性和性能,经济高效的提供领先方案。企业管理者基于数据决策各业务的云开支,保障核心业务和战略业务方向的支出,不超支,不浪费。典型的成本分配场景包括:分配成本到项目:呈现不同项目团队成本情况,如创新项目、拓展项目等;分配成本到部门:呈现各个部门的成本情况,如研发部门成本、测试部门成本;分配成本到品牌:呈现各个品牌的成本情况,如研发、制造、门店销售过程中用云成本等;分配成本到各系统:呈现服务内部的IT系统成本,如多业务使用的中台成本。云厂商提供多种成本分配能力支撑企业分配成本:直接成本分配:企业可以通过关联账号维度、企业项目维度或成本标签维度进
20、行成本分配;多维度分类和汇总:利用云厂商成本分类能力对成本进行分类和汇总,如品牌维度、子系统维度等;08PAGE 公共成本分配:利用云厂商公共成本拆分能力,将公共成本(例如共享资源&平台服务等公共成本、未及时标记的成本)按比例在组织内进行再分配,满足各团队或业务部门公平分配公共成本的需求;流量型资源的公共成本按用量拆分 针对跨团队共享使用的云资源成本,如CDN、直播、共享带宽等,各业务团队使用量比例变化较大,则需要根据被使用情况拆分到不同的业务团队。如对公共的CDN成本,可按域名用量占比进行拆分。企业通过云财务管理实践FinOps,精细化管理云成本成本分析报告 总成本自定义规则分配公共成本拆分
21、公告成本70%30%部门 A部门 B成本占比总成本:xxxx部门 A:xxxx部门 B:xxxxx2.多维度成本分析探索成本和用量企业针对云成本做精细化分析,看清成本结构和趋势,常用的成本分析场景包括:成本增长趋势是否和业务一致,增长趋势是否平稳;哪些云服务开支最大,哪些云服务开支增长最快;资费模式是否合理,是否使用了性价比最高的新规格资源;资源布局是否合理?是否使用了低成本的Region资源;哪些原因导致成本波动。面向这些场景需求,利用云厂商成本分析能力精细化分析:按云服务维度查看云成本,识别TOP云服务和增长最快的云服务,重点分析优化;按布局维度查看云成本,针对灾备、分析、转码、运维等网络
22、容忍度高模块,分析是否可使用乌兰察布、贵阳等区域低成本资源;针对TOP云服务,进一步细化分析和探索根因,如按照趋势、布局、费用、规格、资源等维度分析优化机会。09PAGE各业务成本可视后,就可以针对主要支出驱动因素(例如计算、数据库、存储、网络或其他高阶服务)进行优化改善。典型业务云化模型包括布局、资源、数据,以及短信、云中间件等,需要从业务角度考察成本与业务之间的平衡,发现潜在降本方向,在以业务稳定性、可靠性为前提,并兼顾业务连续性、扩展性的基础上优化成本。4.3 成本优化云支出的主要影响因素是费率和用量,结合云化业务模型和成本数据分析优化措施,包括费用优化、资源优化和业务架构优化三种类型。
23、对多种优化措施,企业需要首先基于业务目标、对业务影响、优化投入和收益等维度确定这些措施的优先级和先后顺序,然后逐步优化。费用优化、资源优化和业务架构优化代价逐步增高,对业务的影响也依次增大。企业根据业务目标、对业务影响、优化代价和收益的评估,确定优化目标和优化措施优先级。确定优化措施优先级后,就可制定优化目标与计划,按计划实施优化。优化措施执行完毕后,企业通过成本可视及时评估优化效果,总结优化经验,并根据效果和经验启动下一轮优化。4.3.1 优化优先级企业通过云财务管理实践FinOps,精细化管理云成本大数据数据库AI存储数据虚机容器裸机GPU带宽资源短信云中间件.数据中心公有云边缘站点布局北
24、京上海苏州广州10PAGE云服务存在按需、包年包月、资源包、竞价实例等多种计费模式,不同的计费模式有着不同的适用场景。企业根据自己的需要,合理选择各种计费模式来适配不同的业务形态和降低费率,实现成本节省。按需计费:适用于临时、突发的业务场景;包年包月:通过预付一定周期的资源使用费用,来获取优惠的计费模式。一般适用于资源长期使用,业务较稳定的场景;资源包:一种特殊的包年包月,可通过预付一定周期下某种资源使用量的费用,来获取优惠的计费模式。资源包可以抵扣多个资源的用量,适用于长期使用且用量比较稳定的场景;竞价计费:适应于业务稳定性不高,中断也不影响业务的场景。利用云厂家计费优化能力,基于历史消费数
25、据,通过智能消费预测算法和优化建议算法进行综合对比测算,降低费率节省成本,典型能力包括:按需转包年包月:自动识别客户长期按需使用的资源,提供转包周期的优化建议和节省评估;资源包购买建议:根据企业资源包覆盖产品的按需资源消费情况,提供相应的资源包购买建议;通过资源包的使用率/覆盖率分析,了解已购资源包的使用情况,识别资源包购买过多(使用率低),还是过少(覆盖率低),从而优化下一阶段的购买。4.3.2 计费优化使用云厂商资源优化能力,根据历史消费和资源使用情况,识别低利用率资源并获得优化建议。企业可参考给出的优化建议、节省金额,协同业务团队实施优化,提升资源利用率。如识别空闲云主机后,针对长时间不
26、再使用的闲置资源进行关停;对低负载使用的资源进行降配;对有忙时闲时使用的场景,通过灵活计费方式(节省计划+按需)与弹性使用资源相组合的方式节省成本。4.3.3 资源优化企业通过云财务管理实践FinOps,精细化管理云成本结合企业业务场景优化方案架构,对业务布局、资源规划、数据各层次成本进行优化,如在线离线业务混合部署提升资源利用率、存算分离使计算和存储各自按需使用避免绑定浪费、冷热分离降低冷数据存储成本等。4.3.4 架构优化1.布局优化:使用低成本算力资源国家已启动“东数西算”工程,将东部发达地区的数据,传输到西部算力资源丰富的地区进行运算、存储。西部数据中心综合成本有明显优势,低PUE低能
27、耗,如贵阳资源价格比广州上海等区域低10%左右。企业可将灾备、离线分析、转码、运维等对网络要求低的系统部署在贵阳、乌兰察布,降低资源成本。11PAGE2.资源规划优化:通过在离线业务混合部署提升利用率企业通过云财务管理实践FinOps,精细化管理云成本广告电商等在线作业服务SLA要求较高,高峰时段明显,使用资源存在潮汐现象;大数据/转码等离线作业容错性高,计算需求大,可容忍较高的时延。为了保证在线业务的性能和稳定性,通常按波峰时需要申请资源,这样在非波峰时段就有资源浪费。将在线离线业务混合部署,可有效提升整体利用率。3.数据优化:通过大数据存算分离提升性价比传统大数据方案计算和存储融合部署,扩
28、容磁盘时必须扩容计算节点,在实际使用时产生浪费。如某导购网站日志分析业务,存储经常扩容,计算需求没有明显增长,计算资源浪费;某互联网客户推荐业务,存储容量缓慢线性增加,计算突发需求大,峰值计算资源消耗是低谷时几十倍,无法弹性使用计算资源。使用对象存储代替HDFS/本地盘,计算存储分离,多种计算组件独立部署,计算和存储各自按需使用,避免绑定性浪费,结构化降本30%。12PAGE企业云消费贯穿上云的整个过程,企业需要从组织、文化、流程等方面建设成本运营体系,支撑持续优化。4.4 持续运营企业通过云财务管理实践FinOps,精细化管理云成本1.推动成本意识文化在组织内部贯彻成本意识,推动云财务管理文
29、化,履行成本责任制;2.建立团队协作机制管理云成本需要财经、IT、业务、FinOps教练多角色协同,需要制定团队协作机制,如:报告公示:定期生成报告,并同步给干系人;联席例会:组织多角色参与的例会(如月度例会),审视预算执行情况、讨论风险应对策略、总结优化经验和计划下一步重点工作等;3.制定成本运营目标和计划 基于公司业务目标和市场竞争,制定成本目标和关键KPI,并将成本目标分配到各个业务团队;业务团队根据成本目标制定优化措施和计划;主动推送预算报告给业务责任人,让业务团队根据预算执行情况调整云使用,避免超支;业务团队预算超支后,及时实施措施,如优化现有资源使用或者控制新资源申请;4.构建自动
30、化能力 减少人工工作量,提升运营效率。如设置自动启停云资源策略、设置超过额度后限制开通新资源策略、检查并预警没有打标签的云资源等;5.定期复盘,迭代改进复盘和制定下一轮优化目标 审视成本目标达成情况和重点工作进展;总结优化经验;评估下一轮优化目标和方案,启动下一轮“可视、优化、持续运营”循环。13PAGE实践案例实践案例05华为终端云业务量非常大,数亿的终端和账号会随时连接云端,产生数亿的并发连接。华为终端云从百万用户到数亿用户的发展过程中,云的灵活和弹性让基础设施和应用架构快速适应了业务的发展。随着云的大量和深度使用,云资源规模变得非常大,带来了资源使用率的下降,成本的上升高于业务的上升。因
31、此华为终端云基于华为云的云财务管理解决方案和自身实践,建设了成本洞察、成本优化、成本运营的端到端能力,还把FinOps作为一种文化,融入到研发、运维和财务的各环节中。最终不但带来巨大的直接成本收益,还规范了云资源的使用,成为华为终端云持续发展的基础。5.1 华为终端云深入实践 FinOps,实现降本增效1.成本可视,建立以预算和资源为核心的立体视图数据的可视化是基础,确保可以呈现出基本的成本数据。华为终端云不仅要求成本“能看到”,还要能对数据做整合,针对不同视角建立视图,形成立体洞察:资源标签体系成本数据的收集,是FinOps得以实施的基础。在云资源的使用过程中,华为终端云建立了一个自动化的体
32、系,对每个云资源都建立好标签。标签的关键信息包括组织(归属哪个团队、哪个部门、哪个项目等),业务信息(归属哪个服务/微服务、哪个业务领域等)。标签的建立是一个相对复杂的过程,除了云资源的信息,还要自动化的跟团队、部门等企业内部组织建立关联,同时还要有业务输入,需要了解业务架构。预算视图华为终端云管理成本的一个核心是预算,预算为云资源的使用框定了一个基本的范围。对于超出预算范围的资源使用,需要业务团队、平台团队和SRE一起去审视。所以针对预算,形成了全方位的视图,包括:预算目标、预算执行情况、配额超标预警等。资源视图云上的资源类型繁多复杂,华为终端云针对不同类型的资源,建立了一套完整的指标体系,
33、用于全方位的了解资源的使用情况,作为提升资源利用率的基础。以云上的虚拟机为例,首先从指标上看,需要重点关注CPU利用率和内存使用率;同时,要定义好CPU利用率和内存使用率的目标,可以看到虚拟机CPU利用率和内存使用率的视14PAGE实践案例图,使用率不达标的虚拟机属于哪个团队,哪个业务。形成一个全方位的资源视图。合同与价格视图云上资源除了种类繁多复杂,其合同、单价、折扣率、结算等信息,不同资源也是不同的,需要综合考虑最优方案。华为终端云针对合同与价格等商务层面信息,建立了一套数字化的体系。对于技术人员来说,需要综合考虑价格因素做选型,比如说,从单价上看包年包月实例折扣率更低,整体价格优势下,在
34、一些弹性场景下也可以选择包年包月。对财务(比如要制定怎样的框架合同)、供应链(比如某个服务的折扣对整体影响最大)、规划(根据历史结算信息预测未来使用)人员来说,可以利用这些信息做整体设计,为企业在各个层面上实现降本。成本视图把云上的资源信息,通过大数据的分析,形成成本上的综合视图,为成本的优化提供最直观的输入。包括:成本趋势预测、业务资源拓扑、低负载资源统计、各维度的成本统计、成本浪费看板、成本KPI执行率等。2.成本优化,建设上百种工程能力,覆盖从虚机、网络等基础服务到数据库、缓存等高阶服务 成本优化工程能力华为终端云把历史上成本优化的能力,形成可复制的工程化能力,覆盖了主要的云上服务,包括
35、:计算、网络、存储、CDN、缓存、数据库、大数据、短信,形成100+种工程能力;同时也从管理和商务上形成最佳实践,如组网、机房部署选择等,丰富成本优化的武器库。精细化管理驱动优化有了成本优化的武器库是不够的,还要有精细的管理方法去驱动组织去做成本优化。华为终端云管理驱动措施包括:1)形成文化:让每个人都清晰的知道成本优化需要全员共同落实,每个人都有责任去做贡献;2)资源角度驱动:低使用率的资源属于哪些团队,哪些业务,团队和业务的负责人就是去做优化的第一责任人;3)成本优化KPI驱动:根据人员和业务的差异,每个团队都有成本优化的KPI,在管理中持续跟进达成情况。结合AI助手,辅助实施对于华为终端
36、云这样几千人的大团队,每个人都有不同角色,属于不同团队,负责不同业务,面临的成本问题千人千面。每个人都可以通过跟AI助手对话,获取成本优化的相应信息:有哪些方面的成本还可以优化,如何进行优化(推荐成本优化方案)。3.成本运营,融入流程的持续运营 运营平台建设管理云成本涉及到的领域多,每个人都需参与进来,需要有一整套的数字化工具。对于华为终端云,这套数字化工具就承载在成本运营平台上。数字化平台的底层需要利用大数据技术,对原始数据进行处理建模;上层的可视化报表,尽管已经提供了常用视角的洞察,但仍然完全满足每个角色的需要。通过引入低代码技术,运营平台的用15PAGE实践案例户可以在非常短(通常小于2
37、天)的时间定义自己需要的洞察。预算执行确保预算按计划执行是管理云成本的关键之一。华为终端云对预算的执行有一套完善机制,预算制定好以后,需要持续的监控预算的执行情况:业务部门对云资源的使用,需要有专门的平台部门(通常是SRE)对预算的使用进行管控,确保在预算范围内对资源进行使用。执行过程中做好流程设置,既要让避免资源的随意使用造成浪费,也不要设置障碍,让云资源发放到业务部门的效率变低。成本治理融入流程华为终端云对云资源的使用,集中在三个平台,DevOps、DataOps和MLOps,把管理云成本的方案都融入到这三个平台。DevOps平台关注在线应用资源的使用率的提升,DataOps关注降低大数据
38、存储和任务执行的成本,MLOps关注于提升GPU/NPU的使用率。除了对云资源的直接使用,财务、供应量等团队也会把成本治理的相关要求形成流程,融入到日常的工作。16PAGE哔哩哔哩做为视频网站,IT成本是公司成本的大头,在采用FinOps之前,成本控制的手段主要围绕着预算的编制和执行,那么问题则是成本控制力度不足,缺乏成本数据导致各业务团队没法深度参与。从2022年开始,基于FinOps的一整套理论,开展了成本洞察、成本优化和成本运营等一系列的工作,各业务也都积极参与到降本工作中,取得了数亿的成本收益。5.2 哔哩哔哩实践 FinOps,降低数亿 IT 成本1.成本可视,围绕账单和资源效能的多
39、维度分析首先需要数据的支撑。所以第一步是成本可视。成本可视的主要工作是:技术账单引入CAPEX(Capital Expenditure,即资本性支出)与OPEX(Operating Expense,即运营支出)财务概念,基于TCO(Total Cost of Ownership)核算技术成本,让各个业务了解成本构成,形成有效的成本衡量标准与核心数据。支持全域账单,对所有IT成本按照业务、组织、服务进行拆分,通过技术账单推广,让业务研发快速、全面地识别财务问题。成本对账支持定期技术账单的中台出账、业务对账、账单分析、针对优化、效果反馈的对账流程,对账中分析现有成本的组成与分配,跟进当期成本优化项
40、目效果,确定未来降本增效方向,实现成本问题的精细化、可视化、责任化,搭建FinOps闭环流程。资源效能涵盖服务器、套餐类资源利用率数据的采集、可视化、自定义查询。制定利用率目标,建立公司内各类技术中台建立效能模型,支持平台资源水位线管理,度量使用效率和技术优化空间,并持续推动提升利用率。数据支持打通多部门数据壁垒,采集并清洗和转换基础数据,建设资产、成本、使用率数仓,支持成本优化项目的多维度数据需求。通过使用数据挖掘、机器学习和可视化工具,辅助业务决策,提供一定范围内的成本预测。2.成本优化,推进平台和业务协作的优化项目 带宽根据成本模型数据分析,点播带宽的优化主要思路是降低码率和降低单价。具
41、体实现包括窄带高清编码系统、AV1覆盖、机器学习优化转码预测、清晰度策略、廉价带宽占比提升、自建CDN专线互联、内容分层、削峰填谷等。除了点播带宽,直播、Web动态、Web静态也同步推进优化。实践案例17PAGE3.成本运营,从预算和成本出发的资源生命周期管理 预算控制为了降低成本并实现成本最优化,需要更加严格地控制预算。由于预算实际执行的时间可能与预算规划时间相隔较长,内部和外部都可能发生变化,因此需要及时根据变化进行调整,以尽量减少金额。通过上述的技术手段来协助进行预算控制。使用数据分析工具来监控和分析预算执行情况,以及预算与实际支出之间的差异。资源管理通过资源的生命周期管理,定期Revi
42、ew资源利用率,及时清退低利用率资源,减少资源浪费。通过账单反应资源的使用情况,合理的设定业务资源buffer,合理设置数据的生命周期,提升资源的使用效率。跨部门协作降本增效沟通流程沟通范围包括业务研发负责人、基础平台负责人、财务、采购等各角色,FinOps负责人作为PMO,在其中进行异常成本预警与资源协调等工作,共同商议改进措施和策略。服务器服务器成本优化的主要手段包括硬件迭代和服务器虚拟化混部。硬件迭代速度极快,每一次迭代在降低单位算力的成本,因此应尽量引导业务配合硬件升级。服务器虚拟化混部主要基于资源的效能模型,包括提升容器总资源量、池化率、分配率和利用率等手段。此外,混部也是提升利用率
43、的一大利器,可以利用不同业务的潮汐效应,分时复用资源。AI场景下的混部需要更加谨慎。公有云根据业务特性适配资源是云上项目的重要一环。网络流量的计费方式有按带宽计费和按流量计费,网络线路类型也有不同选择,需根据业务特点选择最优计费方式。IaaS类资源多以实例使用时长的形式计费,可在申请阶段就控制新增资源量。其他产品采用自研或公有云方案,需根据产品的功能需求、成本等因素进行选择。混合云方案可实现常量私有云+公有云混合部署,突发公有云弹性兜底,节省成本。1.通过成本管理的可视化,快速全面地识别财务问题5.3 极氪智能科技运用 FinOps 理念及云原生技术降低 IT 成本极氪智能科技面临着电动汽车和
44、智能驾驶等新技术的迅速发展。为了提高竞争力,企业决定运用FinOps理念优化IT基础设施降低运营成本。首先,企业通过成本预测和预算规划,让未来成本可视;其次,运行对账和异常控制,让支出和异常成本可视;最后,分析现有成本的组成与分配,实现问题精细化可视、问题根因可视。实践案例18PAGE2.针对问题,评估有效的成本优化手段,并逐步推行 费用优化企业发现,由于多个数据中心的维护及多种IT基础设施之间的运维复杂性,造成了高昂的运营成本。因此,企业决定采用多云策略,将部分非关键业务迁移到云端,实现按需付费和弹性伸缩,以降低整体运营成本。资源优化企业分析发现,当前IT基础设施资源利用率较低,存在大量闲置
45、或低效使用的资源。企业决定采用容器化技术,实现应用的快速部署和轻量化管理,提高资源利用率,同时减少软硬件维护成本。极氪汽车自动驾驶需要采购多台GPU硬件设备,同时为了资源可以高效利用,采用多台GPU组件容器云的方案来共享资源,通过技术手段降低硬件支出成本。方案优化在深入了解业务需求和IT基础设施现状后,企业发现数据处理和存储方面存在冗余和不合理的配置。企业采用存算分离的技术方案,将计算和存储资源分离,使得资源可以根据需求进行灵活调整,提高整体效率,降低成本。3.通过持续运营手段实现业务成本的持续优化 团队协作企业建立了专门的FinOps团队,跨部门协同工作,共同为企业IT基础设施降本增效。团队
46、成员分别来自技术、运维、财务等部门,共同努力,实现各方面的优化措施。践行成本意识企业倡导全员参与,普及成本意识,鼓励员工在日常工作中关注成本,提出降低成本的建议和方案。制定成本运营目标企业制定了明确的成本运营目标,并将其分解为各个部门和个人层面,确保目标的实现。同时,企业定期审查目标完成情况,对完成情况进行评估和激励。定期复盘迭代改进企业每季度进行一次成本复盘,总结过去的经验教训,及时调整和优化成本控制策略。同时,企业鼓励员工提出改进意见和建议,不断迭代改进,实现持续优化。构建成本的自动化管理能力企业利用云原生技术和自动化工具,构建起一套成本自动化管理体系。例如,通过自动化监控和报警,实时掌握
47、资源使用情况;利用自动化脚本,实现资源的自动调整和优化,从而降低人工干预成本。通过以上举措,极氪汽车制造商成功地运用FinOps理念及云原生技术实现了IT成本的降低,也充分展示了FinOps理念在实际应用中的价值,以及云原生技术在降低企业IT成本方面的潜力。企业应充分利用这些理念和技术,实现业务成本的持续优化,提高核心竞争力。实践案例19PAGE数据技术已成为企业竞争和创新的重要支撑,作为暖通行业和智慧楼宇行业的领军企业,美的楼宇科技深知数据技术在其发展中的不可或缺性,然而面对着业务的快速扩张、数据极速暴涨的情况,导致资源成本居高不下,业务的访问和计算性能存在严重瓶颈。5.4 美的楼宇科技基于
48、云原生技术的成本优化实践实践案例我们主要围绕着业务场景、资源使用情况、成本结构等方面进行了深入分析:业务场景分析根据当前的业务布局,从区域维度(海内外、国内区域分布)、业务分级、业务分类等方面进行分析,寻找可降低资源投入、降低资源配置的或融合使用资源的方向。资源使用分析根据云资源、本地资源的分配情况,持续利用率情况,结合业务场景,分析并列举需要增降配、分离或合并、架构优化的方面,进行统计。成本结构分析根据年度成本结构,按月查看各资源线、业务线的成本结构和成本走向趋势,分析成本构成,挖掘可降本资源、重点降本资源等信息。经过深入分析,我们发现在数据平台的架构、存储管理和监控、数据备份和恢复策略等方
49、面,具有采用云原生技术进行优化的巨大空间。1.成本可视:确定降本方向2.成本优化:用运营和技术手段降本本文重点从存储和计算资源两方向对成本优化方案进行介绍。存储资源优化首先,采用数据压缩、去重、快照等技术来优化存储空间的使用,并确保备份和恢复策略的可靠性和效率,避免不必要的存储资源浪费,例如,只备份必要的数据、避免重复备份等,再通过引入存储管理和监控工具,精确监视数据存储的使用情况,及时发现问题并进行解决,并对存储资源进行分类管理,将不同等级、不同访问频率的数据分配到合适的存储介质中,降低数据存储成本。同时,基于存算分离架构,采用云计算和边缘计算等技术,将数据存储在云端或边缘设备上,计算时再将
50、数据拉取到计算资源上进行处理,从而降低数据成本。据我们统计,采用该方案可以节约数据中台的存储成本30%40%。20PAGE另外,采取冷热数据分离策略,将热数据存储在高性能设备上、冷数据存储在低成本介质上,在保障整体数据处理性能的同时,实现成本最小化。我们分析发现,数据中台80%是冷数据,且只有20%的冷数据需要在特定时期内访问,因此采用冷热数据分离能有效实现成本控制,将iBUILDING数据中台50%90%的数据存储成本降至最低。此外,我们将数据存储在多个分布式源站上,以提高数据的可靠性,同时也为数据的备份提供更全面的保障。采取该方案,可以将数据备份的时间缩短50%以上,在降低备份成本的同时提
51、供更可靠的数据备份与恢复策略,并降低数据中台的运营成本,节省维护和备份开支。计算资源优化我们在Hadoop架构基础之上,引入了MPP(Massively Parallel Processing)架构的数据处理引擎,整合成云原生混合架构,混合架构综合了MPP 架构和 Hadoop 架构各自优点:1)基于MPP 的海量并行处理数据库(Starrocks),具有更好的实时性能;2)基于 MPP-Hadoop 混合框架构建的异构数据融合与集成系统,提升了数据查询和加载效率;3)StarRocks同时支ES/MySQL/Hive等外表功能,可以实现对Hadoop生态的查询,可以做到存算分离,对于节省成本
52、,打通Hadoop生态很有意义。相比于之前的架构,新架构使得机器成本降低了50%以上、聚合上卷查询,关联查询方面性能可以提升20-30倍、明细聚合查询性能提升4倍以上。同时,容器技术可以用来保持数据分析应用程序的隔离性,使它们更容易管理,并针对不同业务容器执行不同等级、不同规格的标准化资源配置,来提升计算资源的利用率。在未来的数字化发展进程中,降本增效是企业必然要面对的事情,楼宇科技iBUILDING美的楼宇数字化平台在不断丰富和完善数字化能力,满足建筑智能化市场的需求,并不断地利用云原生技术进行创新,为市场带来性价比更高、功能更强的产品,为客户创造更多价值。实践案例21PAGE陌陌公司的技术
53、资源成本中,IDC机柜部分占比最大,机柜成本随着服务器数量的增加而增加,持续优化服务器资源利用率能够有效的降低公司的资源成本。5.5 陌陌基于容器技术实现资源成本优化实践案例1.成本可视我们发现相对传统虚机,容器在资源管理上粒度更细,更有助力提升资源的利用率,因此首先我们将相关业务进行了容器化改造,并基于云原生Prometheus框架建设了容器资源数据的数据大盘,在对容器资源的使用数据进行分析后,发现容器资源整体的CPU日均值只有18%,处于非常低的水平,主要存在以下问题:单节点上实例的平均部署密度非常低:平均每个节点只有10几个实例,主要受限于K8s原生静态调度缺陷导致个别节点负载长尾的影响
54、;在线业务集群的流量有明显的波峰波谷特征:晚高峰期间峰值足够高,但是凌晨又非常低,导致日平均利用率非常低;除此之外,还有业务申请量和实际使用量偏差大、资源碎片等问题。2.成本优化 优化方案分析节点负载长尾的问题不仅制约了资源利用率提升,还会影响业务的稳定性,所以我们优先针对节点负载长尾的问题和方案进行了分析。该问题的根因在于,实例调度时所参考的实例资源、节点资源申请量与业务在晚高峰时的真实使用量、节点在晚高峰时的真实使用率有比较大的偏差。解决这个问题的关键在于,调度实例时能预测出节点在下一个晚高峰时的真实使用率,考虑到节点所消耗资源是由运行在上面的服务实例所占用的,因此可以通过预测晚高峰时段服
55、务利用率的方法来推导出节点利用率。优化方案实施因为同一服务每天利用率变化很小,所以我们通过某服务前一天晚高峰的利用率直接获取当天晚高峰的利用率,然后将所预测的服务晚高峰数据后,转化成实际的资源损耗,再聚合成节点粒度的资源损耗,最终得出节点的资源利用率。同时,为了解决节点上服务实例组合不断变化的问题,我们在系统初始化时将节点利用率的预测值设置为当前时刻节点上所包含实例在上一个晚高峰时段利用率的聚合,当实例有新增或者删除时,系统基于informer机制实时感知实时的变化,并动态调整节点的预测值,以保证预测的准确性。22PAGE在将服务晚高峰数据转换成节点数据过程中,会存在一些数据合并不准确的问题,
56、如上图所示,如果只是把前一天服务实例晚高峰的利用率叠加,那么会得到预测曲线B的结果,但由于晚高峰期间节点上所有服务实例的负载变化并不完全一致,服务a、b、e在21:00左右达到峰值、服务c是在20:00达到峰值、服务d是在21:30达到峰值,所以服务器的真实利用率要低于所有服务实例的max之和。为了解决这类问题,我们把聚合维度缩小到了10分钟,晚高峰从(19:00到23:00)每10分钟采集聚合1次,这样就能尽可能获取到接近真实利用率曲线的预测序列,序列形成的曲线类似预测曲线A,经过优化调整,我们最终确定了如下的预测机制:实践案例 基于以上方案,我们有效地解决了容器集群中的节点负载长尾的问题,
57、上线后的实际效果如下图所示,节点上服务实例部署更加平均,且节点负载波动更小,利用率明显提升。23PAGE实践案例3.成本运营相关优化措施落地后,为了实现业务成本的持续优化,我们还开展了下面几个事情:基于底层的容器资源信息,构建上层的业务资源用量平台,帮助业务更清楚地了解到部门内资源开销都聚焦在哪些服务,以及服务申请和使用是否合理,联动业务侧开展一些不合理的资源使用情况的校准;定期制定成本运营目标:制定合理的年度、季度的成本优化目标,多维度多团队配合推进,从少买服务器到不买服务器,推进云服务成本持续下降。围绕容器集群进行全面的指标体系建设:从调度、容量、画像多个角度进行精细化运营,及时发现存在的
58、不合理问题。顺丰作为物流行业龙头企业,海量数据的存储、计算成本占据IT成本的一大部分,通过探索和落地FinOps,顺丰建立了以资源数字化运营为基础的,成本可洞察、可优化的资源精细运营模式,并取得了大幅的降本收益。5.6 顺丰基于资源精细化运营平台的降本实践1.成本可视:通过资源精细化运营平台提供的成本数据,我们发现以下关键性问题:离线资源高峰时段使用率超过90%,其余时间在60%左右,整体利用率仍有较大的提升空间24PAGE实践案例 存算一体的基础设施架构无法进行存储或计算的定向按需伸缩,造成资源浪费 tez、mr老旧计算引擎效率低,资源消耗量大 冗余数据、垃圾数据占据不小的存储资源,有很大的
59、成本优化空间2.成本优化:方案设计与落地 打造弹性大数据底盘能力我们以顺丰本地IDC机房为基础,打造跨机房+公有云弹性资源供给的基础架构,低峰时段将大数据基数设施资源进行缩减,高峰时借助别的机房闲置资源和公有云资源进行补充扩容以满足业务需求,从而使资源利用率得到大幅提高,具体包括:1)存储跨机房融合:数据多机房自动分布,数据副本异步实时自动分布到不同机房,对比传统方式,做到了数据实时的强一致性,并通过数据透明加解密,数据传输链路全透明加密,使得数据更加安全可控;2)缓存精细化、智能化:数据透明缓存,缓存的读写对用户透明无感,可以0门槛使用,缓存数据生命周期实现自动化管理,无用缓存及时淘汰,并做
60、到列、块级别精细化缓存,提升内存使用率;3)资源精准调度、智能调度:将顺丰云、本地IDC和公有云资源纳入计算池,业务高峰时将任务弹性至公有云,高峰过后及时释放,并自动计算缓存所在位置实现算子运行的智能调度,提高缓存的命中率,同时,根据数据所在机房进行任务灵活调度,尽量减少跨机房网络带来的性能损耗。25PAGE实践案例依托弹性大数据底盘能力,离线资源平均使用率提升到80%以上,并打破了机房限制,保障资源供给的战略能力。构建计算和存储的云原生能力构建计算和存储的云原生能力,解决基础设施维护成本高问题,计算能力方面,通过构建基于spark+rss+oss on k8s的离线计算模式,解决了跨机房任务
61、性能损耗问题、rss的动态扩缩容问题,使得资源能够进行更高效地弹性伸缩;存储能力方面,将HDFS和OSS实现了架构融合,使得数据副本可同时分布在hdfs和oss上,用户可实现透明平滑的上下云。目前该方案正在顺丰内部进行小规模应用,预计可进一步降低整体的资源成本。统一数据语言能力首先,构建统一SQL语言,在标准SQL的基础上扩展支持HiveQL等方言语法,覆盖离线开发与分析场景,降低用户学习成本;然后,对认证和鉴权进行统一,实现表级、列级、行级细粒度的权限控制,以及字段级的数据脱敏,保障数据安全;同时将任务执行引擎升级至Spark,并自动对SQL执行计划进行优化,性能比Hive提升1倍以上、比原
62、生Spark提升20%以上。通过以上一系列手段,极大便利了顺丰离线计算引擎历史债务的清理,在双11前,15天内完成12000+TEZ任务(整月累计超3万个任务)的平滑迁移,全程无需用户参与,并在双11高峰期稳定运行,任务平均资源消耗节省约54%,目前正进一步替换传统离线十数万个hive任务。3.成本运营:建立大数据资源精细化运营平台,持续进行成本优化从上至下建立经营意识体系,促使每个使用数据的用户都关注自己的资源投入和产出,关注资源效能。26PAGE实践案例图三:顺丰资源运营平台首先,通过大数据资源使用账单,建立多维度的账单量化用户的资源效能;然后,对存储资源进行持续治理,识别冗余重复数据、冷
63、热数据,分别采取重复数据清理合并、垃圾数据清理、冷热数据分级存储压缩等手段进行治理;同时,对计算资源进行甄别,识别无用、资源浪费量大的任务,提供清理,自动化资源推荐手段,达到降本目的。通过冗余数据、冷热数据治理、闲置资源清理、计算效率提升、资源自动化等手段,已节约存储空间超50PB、节约计算资源超过50000CU。27PAGE未来展望数字化、智能化、低碳化已经成为确定的大趋势。一方面,数字化的浪潮正在深刻改变千行百业。随着ChatGPT发布,人工智能进入“iPhone时刻”,各行业都在积极推广AI技术大模型的应用,人类社会将加速迈入智能世界。另一方面,为了实现全球气候和能源的可持续发展,碳达峰
64、、碳中和已经成为一个承诺性的目标,低碳化成为全球共识。智能化、低碳化成为云财务管理的未来发展要点。云财务管理将与人工智能技术深度融合,智能化成为重要发展方向。通过人工智能,云财务管理提供自然语言人机交互,实现快速分析、深入诊断和智能优化,帮助云使用者更好地了解、分析、管理和预测云成本。Gartner2022年Gartner新兴技术成熟度曲线也指出未来应用人工智能和机器学习,可驱动云财务管理、预算和成本优化的自动化,实现增强型FinOps。云财务管理持续增强资源优化能力,提高资源利用率降低能源消耗,支撑低碳节能;另在可持续发展的要求下,全球政企客户普遍关注如何低碳节能,通过碳排放计算工具,让客户
65、查看使用的云资源产生的碳排放量和对比使用IDC节省的碳排放量,实现碳排放量化和可证明。未来展望06华为技术有限公司深圳龙岗区坂田华为基地电话:+86 755 28780808邮编:中国信息通信研究院(原工信部电信研究院)北京市海淀区花园北路52号电话:+86 10 62300559邮编:免责声明本文档可能含有预测信息,包括但不限于有关未来的财务、运营、产品系列、新技术等信息。由于实践中存在很多不确定因素,可能导致实际结果与预测信息有很大的差别。因此,本文档信息仅供参考,不构成任何要约或承诺,华为不对您在本文档基础上做出的任何行为承担责任。华为可能不经通知修改上述信息,恕不另行通知。版权所有 华为技术有限公司和中国信息通信研究院共同所有。保留一切权力。非经华为技术有限公司和中国信息通信研究院共同书面同意,任何单位和个人不得擅自摘抄、复制本手册内容的部分或全部,并不得以任何形式传播。商标声明 ,是华为技术有限公司商标或者注册商标,在本手册中以及本手册描述的产品中,出现的其它商标,产品名称,服务名称以及公司名称,由其各自的所有人拥有。