《AI算力租赁行业研究框架:时势造英雄宜谋定而后动-231008(34页).pdf》由会员分享,可在线阅读,更多相关《AI算力租赁行业研究框架:时势造英雄宜谋定而后动-231008(34页).pdf(34页珍藏版)》请在三个皮匠报告上搜索。
1、2023年10月8日时势造英雄,宜谋定而后动AI算力租赁行业研究框架行业评级:看好证券研究报告分析师刘雯蜀分析师刘静一分析师李佩京邮箱邮箱邮箱证书编号S02证书编号S05证书编号S01添加标题95%摘要21、商业逻辑为什么AI算力租赁具有商业价值AI算力租赁业务聚焦于解决大模型训练的算力需求,连接多方资源。其商业价值为实现算力资源配置效率的最优化,即设备调试和网络搭建的know-how得以最大化复用。AI算力租赁业务涉及到多方实体,包括项目投资方、项目建设方、项目运营方、模型研发商以及终端模型用户。短期来看,我们考虑国内15家头
2、部大模型厂商对标GPT-3模型的训练需求,测算需要1920台A100/A800服务器,对应15360张GPU;长期来看,我们考虑国内5家头部大模型厂商对标GPT-4模型的训练需求,测算额外需要13705台A100/A800服务器,对应近11万张GPU。2、盈利模型AI算力租赁业务的盈利能力从价格来看,GPU的租金价格随着配置性能的提升呈现上升趋势(不考虑CPU、存储等其他参数的影响),其中单就A100算力而言,最高配置约为最低配置价格的1.8倍。从成本来看,AI算力租赁业务的运营成本主要包括设备折旧、数据中心日常运营、以及人员成本,其中设备折旧为非现金支出。3、相关标的哪些上市公司在布局AI算
3、力租赁布局AI算力的上市公司可分为四类:IaaS云服务厂商、传统IDC服务厂商、AI算力用户向上游扩张、跨界布局第二生长曲线。从建设方式来看,分为自建和共建;从经营方式来看,分为自用和出租。4、海外映射GPU云短期来看,海外云厂商大量囤积英伟达A100/H100芯片;长期来看,头部厂商推进自研AI芯片。GPU云是算力租赁业务的长期进阶方向,具有更高的价值量和技术壁垒,市场想象空间更大。0UgVgYkZdYiYsOqMtO6MaO8OpNmMsQsRfQqRnNfQqQvMbRnMrRMYrQpNvPmNzR风险提示31、报告中对于商业模式的总结以及对于盈利模型的测算包含部分主观假设2、AI算力
4、租赁业务落地不及预期3、上游AI服务器供应持续短缺,或受到美国商务部禁令影响,中国厂商无法获得英伟达相关服务器设备4、AI算力产业政策发生重大变化5、布局AI算力租赁业务厂商持续增加,市场竞争风险加剧目录C O N T E N T S商业逻辑为什么AI算力租赁具有商业价值010203盈利模型AI算力租赁业务的盈利能力相关标的哪些上市公司在布局AI算力租赁404海外映射GPU云商业逻辑为什么AI算力租赁具有商业价值01Partone5添加标题95%大模型时代算力需求涌现,AI服务器量价齐升016大模型训练的爆发带动高端AI服务器(以A100、H100为主)需求的涌现:随着模型参数量的增加,需要的
5、GPU数量非线性增加。根据英伟达和微软联合发布的论文,给出一个模型的参数量P、GPU数n、每个GPU的吞吐量X、以及需要训练的总token数T、训练时间的估计公式为:Training time 8TP/nX。以GPT-3到GPT-4的迭代为例,参数规模增大10倍,对应训练计算量增加至少60倍。LLaMA-65B模型使用2048张A100,训练21 天(基于 32k 大小的词表,在 1.4T 的 Tokens 上)GPT3-175B模型使用1024张A100(80G显存),训练34天GPT4-1800B模型(预估)使用约 25000个A100GPU,训练90-100天(利用率约32%-36%)T
6、rendForce持续上调人工智能服务器出货量。根据TrendForce集邦咨询,2023年AI服务器(包含搭载GPU、FPGA、ASIC等)出货量近120万台,年增38.4%,占整体服务器的出货量有望从2023年近9%提升至2026年15%,同时上修20222026年AI服务器出货量年复合成长率至22%,而AI芯片2023年出货量将成长46%。供需失衡导致GPU价格上涨,同时交货周期拉长:英伟达A100价格2022年12月份至2023年4月上半月期间,5个月价格累计涨幅达到37.5%,根据IDC,2023年5月17日A100 GPU市场单价达15万元英伟达A800价格2022年12月份至20
7、23年4月上半月,5个月价格累计涨幅达20.0%,根据IDC,2023年5月17日A800 GPU市场单价达9.5万元交货周期拉长,根据集微网,截至2023年5月13日,交货周期由此前一个月左右至三个月甚至更长资料来源:Efficient Large-Scale Language Model Training on GPU Clusters Using Megatron-LM、A Survey of Large Language Models、The Decoder、国际电子商情、天天IC(集微网)、199IT网站、浙商证券研究所添加标题95%GPU多重参数影响大模型训练效果017单卡运算性能
8、、显存和传输效率是影响GPU训练大模型效果的三个关键参数从算力供给侧来看,单卡每秒运算次数、显存、传输效率从三个维度共同影响大模型的训练效果从模型需求侧来看,模型参数规模、训练数据集规模、训练批次大小以及模型训练方式决定了模型训练所需的总计算次数、训练和推理阶段所需的显存大小,从而进一步决定了大模型训练所需最少GPU数量以及模型训练时间。参数规模训练数据集规模训练批次大小模型训练方式模型特征决定训练所需GPU的性能参数以及数量影响模型训练时间和效果单卡运算性能显存传输效率训练:一般为浮点运算,单位为FLOPS,计算精度以及模型结构的稀疏性是影响单卡训练性能的主要变量推理:一般为定点运算,单位为
9、TOPSGPU间传输效率:主要由卡间通信方式决定,分为PCIe和NVLink两种,NVLink传输速率约为PCIe传输速率的10倍服务器间传输效率:主要由通信网络架构决定,分为以太网和InfiniBand网络两种,IB网络传输快于以太网显存大小:主要显存用于存储数据的总容量,模型训练和推理所需的显存容量与单卡显存大小影响大模型训练所需最少GPU的数量显存带宽:决定GPU能够同时处理数据的吞吐量,显存带宽、GPU通信效率、服务器通信效率三者中的较低者决定了大模型训练过程中传输性能的瓶颈三个维度参数共同决定GPU是否能用于训练大模型或影响模型训练效果资料来源:Accelerating Large-
10、Scale Inference with Anisotropic Vector Quantization、浙商证券研究所总结梳理英伟达A100-SXM和H100-SXM为目前训练大模型的首选GPU英伟达GPU根据使用场景分为多种类别,其中以RTX4090等为代表的消费级显卡主要用于游戏场景,以Tesla T4等为代表的工业级显卡主要用于图形处理和人工智能推理领域,而以V100、A100、H100等为代表的加速计算卡主要用于人工智能训练场景。英伟达2017年5月将Tensor Core引入V100,大幅提升GPU进行混合精度矩阵乘加运算的速度,可大幅缩短AI场景下大规模矩阵计算的时间,为人工智能
11、场景下的加速计算奠定了基础。随着模型参数的增加,对于GPU运算性能以及通信传输性能的逐步提升,目前搭载NVLink和IB网络的A100-SXM和H100-SXM成为大模型训练的首选GPU。表:英伟达不同类别GPU性能梳理游戏图形处理/AI推理人工智能加速计算4090T4V100A100H100RTX4090Tesla T4V100-SXM V100S-PCIe A100-SXMA100-PCIeA100-PCIeH100-SXMH100-PCIe运算性能FP32-cuda core(TFLOPS)8.115.716.419.56751FP16-tensor core(TFLOPS)/65125
12、130312/624*19791513显存容量(GB)24(GDDR6X)16(GDDR6X)16(HBM2)32(HBM2)80(HBM2)40(HBM2)80(HBM2)80带宽(GB/s)8传输卡间(GB/s)PCIe 4.032(PCIe 3.0)300(NVLink)32(PCIe 3.0)600(NVLink)64(PCIe 4.0)64(PCIe 4.0)900128(PCIe 5.0)服务器间(GB/s)/500(双向IB网络)500(双向IB网络)900(双向IB网络)半精度(FP16)单卡算力(P)0.070
13、.130.130.62*1.981.51单卡平均售价(万元)1.450.672.705.6011.008.4011.5019.0019.00GPU多重参数影响大模型训练效果018资料来源:NVIDIA网站、TOPCPU、京东商城、钛媒体、机器之心、浙商证券研究所总结梳理添加标题95%AI算力租赁业务应运而生019AI算力租赁业务聚焦于解决大模型训练的算力需求,连接多方资源AI算力租赁业务产生的两个催化条件:1)可用于大模型训练的算力资源和大模型训练需求供需失衡,短期算力需求远高于算力供给(尤其针对用于大模型训练的英伟达A100-SXM和H100-SXM两类GPU);2)时间对于大模型研发厂商而
14、言是较为稀缺的资源,即先行完成大模型研发的厂商有望获得更多的先发优势。AI算力租赁的商业本质为具有大模型训练需求的软件研发厂商向具有GPU资源的厂商租赁GPU算力,按月或按年支付租金,市场上常见的租金计量方式包括:1)按整台服务器租赁(每台服务器含8张GPU),租金按照每台每月计量;2)按算力规模租赁,租金按每P每年计量;3)按单张GPU租赁,租金按照每GPU每小时计量。以上三类计量方式可相互换算。AI算力资源大模型训练互联网厂商自动驾驶厂商药物研发厂商科研机构算力租赁单台服务器资源换算GPU数量8单台服务器算力A100/A8005PH100/H80016P单卡GPU算力A100/A8000.
15、625PH100/H8002P资料来源:NVIDIA网站、浙商证券研究所总结梳理添加标题AI算力租赁的商业本质为实现资源配置的最优效率0110AI算力租赁业务的商业价值为实现算力资源配置效率的最优化,即设备调试和网络搭建的know-how得以最大化复用若只比较服务器采购成本与租金成本,AI算力租赁并不具备性价比优势:根据阿里云网站,8卡英伟达A100-NVLink(80GB显存)的GPU服务器的月租金约为13.34万元,对应全年租金约为160万元根据京东商城数据,8卡英伟达HGX加速显卡A100 SXM模组售价为160万元,基本与同等规格GPU服务器月租金相当但若考虑到服务器的等待、调试、运维
16、成本,以及软件研发的试错成本,AI算力租赁对于大模型研发厂商来说仍极具性价比:硬件交付等待周期拉长:硬件交货周期在3个月以上,而28天足够训练一款大模型GPU服务器调试难度增大,GPU利用率低,间接增大GPU算力成本:根据趋动科技,多数用户GPU利用率仅达到10%-30%(根据头部科技,OpenAI 在GPT-4模型训练的GPU利用率约为32%-36%)。一方面,GPU的任务运行需要与CPU协作,两者资源需要合理调配;另一方面,随着模型参数量增大,单机无法完成运算,引入分布式任务的过程中机器间通信效能再次对服务器利用率造成影响算力运维需要额外的专业团队,进一步增大算力使用及管理的成本:涉及到资
17、源管理审批、调配、监控、排错、管理,以及底层Driver、CUDA等各种API、AI框架等工作,同时部分公司还需考虑到支持异构算力芯片以报证供应链安全考虑到模型参数调整和架构修改的时间成本,自有算力成本进一步提升互联网厂商为例外:互联网大厂自建AI算力具有较高复用价值,可形成规模化效应,故而自建AI算力为最优解一方面,互联网厂商拥有庞大的数据中心运维团队,自建AI算力可进一步提升运维团队的利用效率,提升人均产出另一方面,互联网厂商可将GPU资源池化后,将未占用部分打包出租,进一步提升单位算力建设的投入产出比资料来源:阿里云网站、京东商城、趋动科技、头部科技、浙商证券研究所总结梳理添加标题AI算
18、力租赁业务模式0111AI算力租赁业务涉及到多方实体,包括项目投资方、项目建设方、项目运营方、模型研发商以及终端模型用户核心资源资金GPU渠道资源下游客户GPU调试、调度大模型研发软件能力 100P半精度算力(16位)智能计算中心的基础设施价格约为1亿-1.5亿元 1000P规模的AI算力中心投入规模约10-15亿元 一般训练大模型需要服务器整机(含8张A100/A800或者8张H100/H800 GPU)服务器分为进口机DGX和代工机HGX两个版本 需要对接英伟达渠道资源 GPT-3模型训练使用了128台英伟达A100服务器,对应640P算力 2000P基于A100/A800的算力可支持3个
19、GPT-3规模的大模型训练;2000P基于H100/H800的算力仅能支撑1个GPT-3规模的大模型训练(考虑到显存限制)高质量训练数据 高效率算法框架 可落地的应用场景盈利模式 稳定项目分红 政府重点项目支持 项目建设收益(项目制)项目运营分成收益(类订阅制)PaaS或SaaS增值服务收入(订阅制)MaaS收入(订阅制)基于AGI的定制化开发/部署收入(项目制)投资方建设方运营方模型研发商终端模型大用户可持续现金流项目制现金流资料来源:虎嗅APP、Anlink天津、浙商证券研究所总结梳理添加标题AI算力租赁潜在需求规模0112地方政府是AI智算中心建设的主要规划与投资方根据IDC圈,全国有超
20、过30个城市正在建设或规划智算中心,其中一些已经投入运营或即将投入运营,总规划算力达到了数十EFLOPS。若假设未来全国智算中心算力达到50EFLOPS(对应50000PFLOPS),对应AIDC建设规模空间为500-750亿元。据不完全统计,目前已经明确公开宣布规划或建设中的地方智算中心规模已超26000P(统一换算成FP16口径)。表:地方政府智算中心建设规划(基于公开资料不完全统计)地区规模(PFLOPS)服务器合作方状态北京亦庄1000规划广州900鲲鹏+昇腾华为规划成都300(FP16)昇腾华为建设中沈阳200规划大连200昇腾德泰控股规划福建295规划南京市浦口区900建设中贵阳2
21、000摩尔线程、威星智能规划芜湖3000规划宁波200规划青田100浪潮信息、谷梵科技规划昆山500建设中杭州400建设中长沙1000建设中北京朝阳1000规划北京中关村科学城4000电信、京能规划长春200神州控股规划上海松江上海仪电、云赛智联规划上海临港5000(FP32)英伟达A800建设中资料来源:IDC圈、北京亦庄、网信辽宁、福州新区集团、数字城市产业研究、贵州省大数据发展管理局、中国电信安徽公司、皇姑创新发展研究、物联网智库、仪电互联、云酷智能、浙商证券研究所总结梳理添加标题AI算力租赁潜在需求规模0113对标GPT-3和GPT-4模型,算力需求非线性增长,受限于显存,单卡算力的升
22、级不会减少模型训练所需GPU的数量GPT-3模型训练使用了128台英伟达A100服务器(训练34天),对应640P算力,GPT-4模型训练使用了3125台英伟达A100服务器(训练90-100天),对应15625P算力。从GPT-3至GPT-4模型参数规模增加约10倍,但用于训练的GPU数量增加了近24倍(且不考虑模型训练时间的增长)。短期来看,我们考虑国内15家头部大模型厂商对标GPT-3模型的训练需求(百度、腾讯、阿里、字节、京东、美团、讯飞、网易、360、商汤、云从、百川、智谱、minimax、深言),则需要1920台A100/A800服务器(考虑到A100和H100的单卡显存容量相同,
23、使用H100理论上也需要相同数量的服务器,但可以大幅缩短训练时间),对应15360张GPU。长期来看,我们考虑国内5家头部大模型厂商对标GPT-4模型的训练需求,则额外需要13705台A100/A800服务器,对应近11万张GPU。1920台A100/A800(或H100/H800)服务器 15360张GPU短期:15个对标GPT-3的大模型 额外13705台A100/A800(或H100/H800)服务器 对应近11万张GPU长期:5个对标GPT-4的大模型资料来源:Efficient Large-Scale Language Model Training on GPU Clusters U
24、sing Megatron-LM、A Survey of Large Language Models、The Decoder、浙商证券研究所盈利模型AI算力租赁业务的盈利能力02Partone14添加标题收入端0215支持NVLink传输的A100算力资源主要集中在互联网大厂,但仍较为稀缺从供给端来看,各大云厂商尚未推出基于H100/H800的云端GPU实例,目前的可租用资源以A100为主,但支持NVLink传输以及单卡达到80GB显存的GPU算力资源,目前只有火山引擎能提供可供租用的资源。从价格来看,GPU的租金价格随着配置性能的提升呈现上升趋势(不考虑CPU、存储等其他参数的影响),其中单
25、就A100算力而言,最高配置约为最低配置价格的1.8倍。表:各类云厂商网站GPU实例售价对表(单位:万元/月,均按照8卡GPU换算,截至2023.9.20报价)GPU型号显存卡传输腾讯云阿里云火山引擎天翼云优刻得青云均值A10080GBNVLink13.34*(缺货)15.7714.6A10040GBNVLink11.4011.4A100未披露10.1610.2A10040GBPCIe8.188.2V10032GBNVLink4.86.835.195.6V10016GB未披露1.992.0年折扣半年8.8折/8.8折1年8.3折8.5折8.3折8.3折8.3折2年7折7折7折7折3年5折5.5
26、折5.5折5折5.3折注释:以上报价对应的CPU、存储等配置或有不同,我们仅列示GPU参数作为价格参考资料来源:腾讯云官网、阿里云官网、火山引擎官网、天翼云官网、优刻得官网、青云官网、浙商证券研究所添加标题成本端0216AI算力租赁业务的运营成本主要包括设备折旧、数据中心日常运营、以及人员成本,其中设备折旧为非现金支出设备折旧:设备折旧在AI算力租赁成本中占比最高,其中既包括服务器也包括网络设备等,且设备折旧年限对毛利率影响较大仅以服务器为例:以市场7月A800服务器成交价140万元为例,若按3年摊销对应月折旧成本约为3.9万元,按5年摊销对应月折旧成本约为2.3万元,参考市场8卡A800-8
27、0GB-NVLink实例月租金14.6万元,对应成本占比分别为27%和16%,对毛利率影响11pct。数据中心日常运营:主要包括数据中心运营所需的成本以及部分情景下对于机房改造的成本数据中心运营:能源功耗成本(水电等)、散热成本、房屋租金成本等数据中心改造成本(或有):英伟达DGX H100服务器系统功耗约为10.2kW,而传统数据中心每个机架的功耗约7kW,故而若采用H100/H800建设AI算力集群,还需对传统数据中心机房进行改造人员成本:参考奥飞数据2022年报,人工成本在IDC服务业务成本中占比约3%,占IDC服务收入比例约2%。设备折旧:服务器+网络设备+安全设备+存储设备等非现金支
28、出成本折旧摊销年限对毛利率影响大数据中心运营:能源功耗+散热+房屋租金等自有机房:按照原有成本计量采用第三方机房:可按照机柜租金进行估算(默认租金包含所有数据中心运营成本)人员成本:参考奥飞数据,人工成本在IDC服务营业成本中占比约3%,占IDC服务营业收入比例约2%AI算力租赁营业成本构成资料来源:小猫芯城、英伟达官网、机房360网、奥飞数据公司公告、浙商证券研究所相关标的哪些上市公司在布局AI算力租赁03Partone17布局算力上市公司分类0318布局AI算力的上市公司可分为四类IaaS云服务厂商:包括BBAT及三大运营商等云计算Iaas服务商,其中头部互联网厂商高端算力资源更充足传统I
29、DC服务厂商:从传统IDC服务业务切入,在数据中心建设运营和能耗成本方面更具有优势AI算力用户向上游扩张:由AI算力需求方延伸为AI算力供给方,天然具备应用场景,AI算力运维能力可复用提升投入产出比跨界布局第二生长曲线:传统主业保持平稳或增长乏力,布局AI算力以期拉动业绩增长表:布局AI算力上市公司分类代表厂商优势劣势IaaS云服务厂商 BBAT:字节、百度、腾讯、阿里 三大运营商:天翼云、移动云、联通云 独立IaaS厂商:优刻得、青云科技 头部互联网厂商高端GPU资源充足 云资源平台化管理与调度能力强 客户基础良好 部分厂商高端GPU资源不足 头部互联网厂商以满足自用为先,对外供应的智算算力
30、的易用性、规模相对较少传统IDC服务厂商 IDC设备厂商:浪潮信息、中科曙光 IDC服务:首都在线、中贝通信、云赛智联、真视通、润建股份、亚康股份 熟悉数据中心建设运营,数据中心机房资源充足 能耗成本管控方面更具有优势 GPU设备调试与运维能力不足AI算力用户向上游扩张 AI软件公司:商汤科技 车厂:吉利汽车、长城汽车 熟悉AI模型框架 天然具备应用场景 AI算力运维能力可复用提升投入产出比 以满足自用为先 内外兼修,资源管理难度增大跨界布局第二生长曲线鸿博股份、恒信东方、恒润股份、威星智能、电子城、利通电子、协鑫能科、小商品城、测绘股份、弘信电子、超讯通信等资金实例充足跨界转型具有一定壁垒,
31、需从头积累行业knowhow资料来源:各公司公告、浙商证券研究所分析整理上市公司布局算力租赁的业务模式0319从建设方式来看,分为自建和共建;从经营方式来看,分为自用和出租具备AI训练需求和AI应用场景的公司以自建AI算力中心为主,以头部互联网公司、AI算力用户为代表,且所建设的AI算力以满足自身业务需求为先,其次再为提供给外部客户使用。此类模式一方面可提升公司算力基础设施的利用效率,另一方面也可基于软、硬件实力构建生态圈,赋能合作伙伴。主业涉及算力中心产业链条的公司以共建AI算力中心为主,以运营商、独立IaaS云服务商、传统IDC服务厂商为代表,合作对象主要为政府(或政府授权的公司主体)。此
32、类模式受益于政策红利以及政府支持,区域属性较强。跨界布局第二生长曲线的公司业务模式相对更加灵活,各类业务模式均有涉及,在共建模式下合作方也更加多元。头部互联网公司、独立IaaS云服务商、AI算力用户运营商、传统IDC服务商跨界布局第二生长曲线厂商自建合作共建自建合作共建or智算算力优先自用需求对外出租通用模型垂类应用互联网公司:百度、阿里、字节、腾讯等;AI软件公司:商汤科技自动驾驶:长城汽车(毫末智行)、吉利汽车等;遥感测绘:测绘股份独立IaaS云服务厂商:青云科技、优刻得运营商:天翼云、移动云、联通云;传统IDC服务商:浪潮信息、中科曙光、首都在线、中贝通信、云赛智联、真视通、润建股份、亚
33、康股份跨界布局厂商:鸿博股份、恒信东方、恒润股份、威星智能、电子城、利通电子、协鑫能科、小商品城、测绘股份、弘信电子、超讯通信、阿尔特等资料来源:各公司公告、浙商证券研究所分析整理上市公司公告信息统计0320上市公司公告/公开披露信息统计(不完全统计)上市公司算力规模(P)总投资规模(亿元)售价预计年收入(亿元)净利率预计年净利润(亿元)项目内容真视通1设立子公司,原主业数据中心业务升级为新一代智算中心和新一代绿色节能数据中心业务作为智算中心业务的承建及运营平台恒润股份1计划于上海、福州经开区、安徽芜湖、山东济宁等地合作建立算力中心,规划的项目领域包括:(1)AIDC(人工智能计算中心)一站式
34、服务;(2)新型计算中心建设与运维;(3)算力对外租赁威星智能200030(5+10+15)3.75万元/P/月966%5.93分三期建设2000P以上算力的智算中心,一期不少于370P算力。建成后可用于3D图形渲染和视觉设计、高性能科学计算、HDV高速视频解编码、AI训练和推理等场景的智算需求。中贝通信5002提供不低于500P的算力运营服务能力润建股份1722T4:25万/台/年云存储:120万/台/年3.464%2.20最高2533Pops(Int8)定点算力或43Pflops(FP32)浮点算力及配套云存储,建成后主要提供AI大模型训练、推理算力、图形渲染算力服务,服务于人工智能大模型
35、、行业模型等。弘信电子10国产AI算力服务器智能制造基地:年产10万台,一期建设AI算力服务器工厂;二期建设AI算力服务器二期工厂、国产AI算力服务租赁基地电子城3.5购置算力服务器及软件建设算力中心,构建以CPU+AI加速芯片为主体的计算集群,提供数据中心服务以及人工智能应用所需的算力服务云赛智联20一是综合管理板块;二是技术研发板块,包括算力调度平台开发、平台运维等;三是项目运营板块,包括算力平台运维保障,商务合作和市场拓展、客户服务等超讯通信7.6IRR13.68%1.05宁淮绿色数字经济算力中心项目:含数据中心、云计算中心于一体的数字经济算力中心,预计可实现3,960个IDC机柜首都在
36、线3.7IRR12.87%0.54渲染一体化智算平台项目:建设算力高质量供给、数据高效率流通的GPU算力资源池利通电子5设立合资公司世纪利通,提供 AI算力租赁服务资料来源:各公司公告、浙商证券研究所整理上市公司公告/公开披露信息统计(不完全统计)上市公司算力规模(P)总投资规模(亿元)售价预计年收入(亿元)净利率预计年净利润(亿元)项目内容协鑫能科50设立协鑫能源算力中心全球总部,计划2024年底前在全球建立15个能源算力中心小商品城5018国际数据中心项目一期规划机柜3000架,计算能力约12万VCPU,智算能力约50Pflops,互联网总带宽约2T和构建与北美、欧洲、东南亚、阿拉伯等国内
37、外主流云服务商、数据中心的国际新型互联网数据专用通道。恒信东方550.518万/台/月0.2638%0.10配置30台服务器,11台训练(24.86P)+5台国产推理(昇腾310,560T)+16台NV推理(T4,200T)测绘股份1.5购置办公楼及各项软硬件设备建设算力中心,在现有算力水平基础上增加算力节点亚康股份以CPU服务器为主2.65拟在庆阳、怀来、简阳、芜湖、贵安、韶关建设算力集群与节点支持服务站点青云科技1.790.910%0.09采购部分硬件设备自建超算和智算领域的公有云鸿博股份3000A800:16万/月/台;H800:30万/月/台北京AI创新赋能中心百度200百度智能云-昆
38、仑芯(盐城)智算中心47.08百度阳泉智算中心阿里1200013万/月/台阿里云张北超级智算中心3000阿里云乌兰察布智算中心腾讯12万/月/台腾讯长三角人工智能先进计算中心腾讯智慧产业长三角(合肥)智算中心商汤科技3740商汤科技智能计算中心项目吉利汽车100010吉利星睿智算中心中国联通浪潮信息2克拉玛依浪潮智算中心长城汽车毫末智行:智算中心雪湖绿洲(MANA OASIS)阿尔特推进“阿尔特AI创新赋能中心”项目,探索人工智能+汽车设计研发解决方案开发上市公司公告信息统计0321资料来源:各公司公告、中国日报网、IDC圈、量子位、上海松江、浙商证券研究所整理海外映射GPU云04Parton
39、e22表:云服务商拥有的英伟达H100 GPU数量公司英伟达H100数量微软8(28.5万块A100)Oracle16000亚马逊AWS20000谷歌GCP26000CoreWeave35000(预估)海外云厂商纷纷入局AI计算资源军备战0423短期来看,海外云厂商大量囤积英伟达A100/H100芯片;长期来看,头部厂商推进自研AI芯片根据硅谷风投机构A16Z,生成式AI所产生总收入的10%20%最终流向了云服务商短期来看,英伟达A100和H100芯片是大模型训练与推理的最佳选择,生成式AI爆发之后,云服务商对于英伟达GPU的采购进一步加大长期来看,头部厂商加速推进自研AI芯片计划,削减英伟达
40、的“GPU税”。如谷歌、亚马逊、微软先后在内部启动自研AI芯片项目谷歌的TPU系列,亚马逊的Inferentia和Trainium系列,以及微软的Athena芯片,但从通用计算数据中心到加速计算数据中心的过渡仍需要一定时间表:海外云服务商GPU出租价格(截至2023.9.17)公司A100 40GBA100 80GBH100Lambda Labs/FluidStack$1.79/hour$2.13/hour/Runpod/$1.69/hour$3.99/hourCoreWeave$2.06/hour$2.21/hour$4.76/hourOCI$3.05/hour$4.00/hour资料来源:
41、甲子光年、GPU Utils、Oracle网站、CoreWeave网站、浙商证券研究所英伟达DGX Cloud0424英伟达DGX Cloud是为客户打造的“软硬件一体及服务”,售价为每实例3.7万美元/月起DGX Cloud是2023年3月英伟达推出的一项人工智能超级计算服务,可以让企业快速访问为生成式人工智能和其他开创性应用训练高级模型所需的基础设施和软件,价格为每实例3.7万美元/月起与传统购买英伟达AI服务器相比,DGX Cloud还提供丰富的软件栈服务,如Base Command Platform(基础命令平台)、AIEnterprise、AI Foundations等,可为客户提供
42、全面的AI算力支持及解决方案Base Command Platform(基础命令平台)是一个管理与监控软件,不仅可以用来记录云端算力的训练负载,提供跨云端和本地算力的整合,还能让用户直接从浏览器访问 DGX Cloud;AI Enterprise是英伟达 AI 平台中的软件层,高达数千个软件包提供了各种预训练模型、AI 框架和加速库,从而简化端到端的 AI 开发和部署成本;AI Foundations是模型铸造服务,让企业用户可以使用自己的专有数据定制属于自己的垂直大模型;DGX Cloud 架构资料来源:TechWeb网站、NVIDIA网站、浙商证券研究所英伟达DGX Cloud0425英伟
43、达自身定位为算力服务商,采用托管模式经营,与传统云服务商既合作又竞争英伟达自身定位于AI算力服务商,而非GPU厂商,我们认为这是在谷歌、亚马逊、微软等厂商先后在内部启动自研AI芯片项目的背景下,英伟达进行的前瞻性布局,但英伟达并未从零搭建云基础设施:一方面,英伟达将DGX Cloud托管在各家云服务厂商的云平台上,先将基础硬件设施出售给云厂商,再向他们购买云计算资源,最后把云服务出售给企业客户并自留全部收入,目前合作的云厂商包括Oracle、微软Azure和谷歌云;另一方面,英伟达扶持中小云厂商,2023年4月跟投中小云服务商CoreWeave,并拟收购另一家云服务商Lambda Labs股权
44、,为合作中小云厂商提供稀缺的A100、H100资源。英伟达英伟达A100/H100云厂商:阿里、百度、腾讯、字节等AWS、Oracle、Azure等云厂商:Oracle、Azure、Google CloudCoreWeave、Lambda Labs用户自建PaaS/SaaS平台云计算资源出租硬件资源出售云计算资源出租英伟达软件栈:Base Command Platform、AI Enterprise、AI Foundations英伟达渠道DGX Cloud经营模式云厂商渠道竞争关系资料来源:甲子光年、浙商证券研究所微软 Azure0426持续布局AI软硬件,提升产品竞争力从Bing Chat,
45、到跨Microsoft 365应用程序组合的CoPilot内容创建体验,使用GitHub Copilot进行自然语言编码等等,现在这些大型语言模型都在Azure中运行。Azure OpenAI 服务提供对GTP-4、GPT-3、Codex 和 Embeddings 模型的访问权限。Microsoft Azure 和 NVIDIA 使云中的企业能够利用 NVIDIA 加速计算和 NVIDIA 按需网络的组合功能,以满足人工智能、机器学习、数据分析、图形、虚拟桌面和高性能计算(HPC)应用程序的各种计算要求。客户可在Azure上使用ND A100 v4 VM、NDm A100 v4 VM、NC A
46、100 v4 VM、NV A10 v5 VM四类NVIDIA GPU虚拟机以满足不同情景下的需求。微软 Azure AI+机器学习产品与服务Microsoft Azure 上的 NVIDIA GPU 加速虚拟机资料来源:Microsoft Azure、浙商证券研究所甲骨文 OCI0427凭借AI算力布局加速赶超,云基础设施IaaS收入连续多个季度增长超过50%Oracle Cloud Infrastructure(OCI)在一个全球云平台上提供 100 多个云服务和先进的行业特定 SaaS 应用。甲骨文公司与英伟达(NVIDIA)合作持续加深:全新的 Oracle 云基础设施远程软件服务(Or
47、acle Cloud Infrastructure,OCI)Supercluster 上运行战略性 NVIDIA AI 应用英伟达选择 OCI 作为该企业的超大规模云技术提供商,提供大规模的AI超级计算服务 NVIDIA DGX Cloud英伟达基于 OCI 的 DGX Cloud 提供生成式 AI 云服务 NVIDIA AI Foundations OCI 上的 NVIDIA GPU 加速虚拟机及收费标准0%10%20%30%40%50%60%70%80%90%024682Q32022Q42023Q12023Q22023Q32023Q42024Q1基础设施云服务(Iaa
48、S)收入(亿美元)YOY(按固定汇率计算)甲骨文OCI云基础设施收入及增速(年份对应公司财年)资料来源:Oracle、浙商证券研究所谷歌 Google Cloud0428AI先行者,已形成较为完整的服务矩阵,CloudTPU+TensorFlow的软硬结合打造差异化优势谷歌先后于2015年推出TensorFlow、2018年推出AutoML、2021年推出Vertex AI,在AI与机器学习领域深度布局模型、工具、平台等环节。在面向开发者的产品方面,目前Google Cloud平台已形成较为完整的服务矩阵,包含用于语音转文字的Speech-to-Text、用于图片识别的Vision AI以 及
49、用于视频识别的Video AI等;在AI解决方案方面,目前已有智能客服解决方案Contact Center AI以及商品搜索解决方案Discovery AI for Retail等产品。Compute Engine 以直通模式提供 NVIDIA GPU服务:Compute Engine 提供了可添加到虚拟机实例的图形处理单元(GPU),用户可以使用这些 GPU 加速虚拟机上的特定工作负载,例如机器学习和数据处理NVIDIA AI Enterprise 现已在Google CloudMarketplace上推出Cloud TPU加速 AI 开发:TPU 是 Google 专为神经网络设计的应用专
50、用集成电路(ASIC),针对大型 AI 模型的训练和推断进行了优化,非常适合用于加快 AI 训练和推断速度Cloud TPU可与谷歌的AI软件栈结合,加速AI研发进程Google Cloud 上提供的可供选择GPU类型资料来源:Google Cloud、浙商证券研究所国内算力租赁市场的未来向云之路0429GPU云是算力租赁业务的长期进阶方向,具有更高的价值量和技术壁垒,市场想象空间更大算力租赁业务的本质是AI算力固定资产变现,就其商业模式而言,可挖掘的增量价值空间有限:从收入端来看,AI算力的出租价格受到市场供需关系以及市场竞争的影响:供不应求时,AI算力租赁厂商具有较高的议价权;而当算力资源
51、紧缺程度缓解之后,AI算力租赁厂商议价权减弱,存在租金下行的风险从成本端来看,给定算力租金水平和折旧年限,AI算力租赁的毛利率基本固定,可提升空间有限:由于AI算力租赁的成本由设备折旧摊销、数据中心能耗成本、人工运维成本构成,对于大部分成本AI算力租赁厂商处于被动接受的状态,议价能力弱基于以上,我们认为算力租赁业务的利润规模量级基本由投资规模决定,增厚利润的最有效方式为增大投资,扩张算力规模GPU云的本质是算力资源分配优化,同时提供AI软件开发相关的增值服务,壁垒高且易行程规模化优势:从收入端来看,给定算力规模和算力租金水平的情况下,算力的调度和优化能力可进一步增加GPU云厂商的收入天花板;同
52、时,围绕AI软件开发相关的增值服务(PaaS层或SaaS层),可为GPU云厂商额外贡献增量收入,且收入天花板不受到算力规模的限制从成本端来看,算力调度与软件增值服务的研发投入体现在费用端,随着对应营收规模的增长,盈利能力有望持续提升基于以上,我们认为GPU云相较于算力租赁业务而言具有更高的技术壁垒以及成长性,我们看好AI算力租赁厂商向GPU云的迭代转型风险提示05Partone30风险提示311、报告中对于商业模式的总结以及对于盈利模型的测算包含部分主观假设2、AI算力租赁业务落地不及预期3、上游AI服务器供应持续短缺,或受到美国商务部禁令影响,中国厂商无法获得英伟达相关服务器设备4、AI算力
53、产业政策发生重大变化5、布局AI算力租赁业务厂商持续增加,市场竞争风险加剧点击此处添加标题添加标题点击此处添加标题点击此处添加标题点击此处添加标题点击此处添加标题点击此处添加标题添加标题点击此处添加标题点击此处添加标题添加标题点击此处添加标题添加标题95%行业评级与免责声明32行业的投资评级以报告日后的6个月内,行业指数相对于沪深300指数的涨跌幅为标准,定义如下:1、看好 :行业指数相对于沪深300指数表现10%以上;2、中性 :行业指数相对于沪深300指数表现10%10%以上;3、看淡 :行业指数相对于沪深300指数表现10%以下。我们在此提醒您,不同证券研究机构采用不同的评级术语及评级标
54、准。我们采用的是相对评级体系,表示投资的相对比重。建议:投资者买入或者卖出证券的决定取决于个人的实际情况,比如当前的持仓结构以及其他需要考虑的因素。投资者不应仅仅依靠投资评级来推断结论行业评级与免责声明33法律声明及风险提示本报告由浙商证券股份有限公司(已具备中国证监会批复的证券投资咨询业务资格,经营许可证编号为:Z39833000)制作。本报告中的信息均来源于我们认为可靠的已公开资料,但浙商证券股份有限公司及其关联机构(以下统称“本公司”)对这些信息的真实性、准确性及完整性不作任何保证,也不保证所包含的信息和建议不发生任何变更。本公司没有将变更的信息和建议向报告所有接收者进行更新的义务。本报
55、告仅供本公司的客户作参考之用。本公司不会因接收人收到本报告而视其为本公司的当然客户。本报告仅反映报告作者的出具日的观点和判断,在任何情况下,本报告中的信息或所表述的意见均不构成对任何人的投资建议,投资者应当对本报告中的信息和意见进行独立评估,并应同时考量各自的投资目的、财务状况和特定需求。对依据或者使用本报告所造成的一切后果,本公司及/或其关联人员均不承担任何法律责任。本公司的交易人员以及其他专业人士可能会依据不同假设和标准、采用不同的分析方法而口头或书面发表与本报告意见及建议不一致的市场评论和/或交易观点。本公司没有将此意见及建议向报告所有接收者进行更新的义务。本公司的资产管理公司、自营部门
56、以及其他投资业务部门可能独立做出与本报告中的意见或建议不一致的投资决策。本报告版权均归本公司所有,未经本公司事先书面授权,任何机构或个人不得以任何形式复制、发布、传播本报告的全部或部分内容。经授权刊载、转发本报告或者摘要的,应当注明本报告发布人和发布日期,并提示使用本报告的风险。未经授权或未按要求刊载、转发本报告的,应当承担相应的法律责任。本公司将保留向其追究法律责任的权利。联系方式34浙商证券研究所上海总部地址:杨高南路729号陆家嘴世纪金融广场1号楼25层北京地址:北京市东城区朝阳门北大街8号富华大厦E座4层深圳地址:广东省深圳市福田区广电金融中心33层邮政编码:200127 电话:(8621)80108518 传真:(8621)80106010