《2023AI算力租赁市场需求空间、发展趋势、竞争格局和要素分析报告(32页).pdf》由会员分享,可在线阅读,更多相关《2023AI算力租赁市场需求空间、发展趋势、竞争格局和要素分析报告(32页).pdf(32页珍藏版)》请在三个皮匠报告上搜索。
1、2 0 2 3 年深度行业分析研究报告2WiXnXkZdYlXtPqMtO6MaOaQmOnNoMpMlOmNqQjMoPmNbRmNqQuOrMqRNZsQqRCONTENTS目录CONTENTS目目录录发展趋势竞争格局和要素重点公司算力布局情况02030401AIAI算力需求空间测算算力需求空间测算请仔细阅读尾部的免责声明资料来源:迎接大模型时代:大模型发展简史及攻略、云布道师公众号,西部证券研发中心4AIGC浪潮汹涌浪潮汹涌,大模型开启新一轮大模型开启新一轮AI技术革命技术革命2023.4阿里云通义千问发布面向企业用户开放阿里全系业务将接入连续对话能力主动承认错误理解上下文捕捉用户意图C
2、hatGPT人类人类意图意图算法算法屏蔽屏蔽连续连续对话对话GPT4InstructGPT/GPT3.5/ChatGPTGPT3Transfor-merPyTorch微软云Azure算力资源算力资源OpenAI的独家云提供商深度学习框架深度学习框架易使用、API迭代更稳定模型框架模型框架Attention机制参数少、速度快、效果好大模型大模型Transformer的Decoder分支1750亿个参数、小样本学习能力模型调优模型调优人类反馈强化学习RLHF 20232022202011谷歌大脑部门成立谷歌大脑推出Transformer,深度学习模型参数
3、突破1亿亿OpenAI成立谷歌推出3亿参数的BERTOpenAI推出1.17亿参数的GPT-1OpenAI推出15亿参数的GPT-2OpenAI推出1750亿参数的GPT-3微软和英伟达发布5300亿参数的MT-NLG谷歌推出1.6万亿参数的Switch TransformerOpenAI推出InstructGPT与ChatGPTStability AI推出Stable DiffusionOpenAI推出GPT-4谷歌推出PaLM2请仔细阅读尾部的免责声明资料来源:Emergent Abilities of Large Language Models、Large Language Models
4、:A New Moores Law?、云布道师公众号、西部证券研发中心训练规模突破临界值训练规模突破临界值,大模型大模型“智慧涌现智慧涌现”5图:近年来超大规模预训练模型参数增长趋势图:近年来超大规模预训练模型参数增长趋势图:训练规模超过阈值时效果显著提升图:训练规模超过阈值时效果显著提升大模型训练规模与参数量、数据量及训练轮数等紧密相关。当模型规模突破阙值,即出现“智慧涌现”。大模型训练规模与参数量、数据量及训练轮数等紧密相关。当模型规模突破阙值,即出现“智慧涌现”。左图横坐标为模型训练的预训练规模,用FLOPs综合表示;纵轴为精确性等评判模型效果的指标。当模型规模在一定范围内时,模型能力并
5、未随着规模提升而提高;当规模超过此临界值时,模型效果显著提升,出现“智慧涌现”。1212层层参数:参数:1.21.2亿亿数据:数据:5GB5GB4848层层参数:参数:1515亿亿数据:数据:40GB40GB9696层层参数:参数:2.7B/6.7B/13B/175B2.7B/6.7B/13B/175B数据数据 45TB45TB9696层层参数参数 1.3B/6B/175B1.3B/6B/175B参数量可能突破参数量可能突破万亿万亿GPT-1(2018.6)GPT-2(2019.2)GPT-3(2020.5)ChatGPT/GPT3.5(2022)GPT-4(2023)请仔细阅读尾部的免责声明
6、资料来源:云布道师公众号、西部证券研发中心迈入迈入AI智能时代智能时代,计算芯片依赖已从计算芯片依赖已从CPU转向转向GPU62003201020172019应用应用互联网时代互联网时代(信息获取)移动互联网移动互联网(信息交换)大数据大数据/短视频短视频(信息感知/交互)AI智能时代智能时代(认知/决策)端端PC(Windows)手机手机/IoT设备手机/汽车/机器人智能硬件.服务器服务器应用应用应用应用OS/平台平台UNIX/SolarisLinux/OpenStackK8S/SparkTensorFlow/Caffe/Torch芯片芯片PowerPC/SparkIntel/AMDInte
7、l/AMDNVIDIA-GPU网络网络ADSL/2GPCIE 1.0100M网络3GPCIE3.0(8GT/S)10G网络4GPCIE4.0(16GT/S)25G网络5GPCIE5.0(32GT/S)100G网络新闻/媒体/搜索社交/出行服务广告推荐/短视频/在线教育NLP:ChatGPTAIGC单一服务器单一服务器但服务器性能单核CPU依赖主频提升性能云数据中心云数据中心大规模服务器集群整体性能,多核CPU,核数+虚拟化,vCPU/云网络/分布式存储边缘计算边缘计算异构融合计算CDN加速网络:云-管-端协同AI服务器服务器AI/ML,大规模并行计算,多重向量/张量计算网络:东西向流量为主 A
8、I时代离不开机器学习,而神经网络训练及推理需要进行大量的矩阵运算和卷积运算,具有强并行运算与浮点计算能力的时代离不开机器学习,而神经网络训练及推理需要进行大量的矩阵运算和卷积运算,具有强并行运算与浮点计算能力的GPU逐渐成为计算主力军。逐渐成为计算主力军。请仔细阅读尾部的免责声明资料来源:云布道师公众号、西部证券研发中心大模型训练大模型训练、微调微调、推理催生大量推理催生大量AI算力需求算力需求7算法架构算法架构/训练训练方法设计方法设计数据及制作标注数据及制作标注模型训练模型训练算法测试算法测试应用测试应用测试算力需求算力需求训练阶段训练阶段小样本学习小样本学习微调阶段微调阶段SFT监督学习
9、、监督学习、RM奖励模型、迁移学习奖励模型、迁移学习推理阶段推理阶段参数加载、推理计算、信息交互参数加载、推理计算、信息交互单次单次GPT-3.5 Small(1.25亿亿)计算量计算量 2.6 PFLOPS*天天单次单次GPT-3 XL 计算量计算量 27.5 PFLOPS*天天单次单次GPT-3(175B)计算量)计算量 3640 PFLOPS*天天PalM计算量(计算量(5400亿)亿)29600 PFLOPS*天天 预计算力预计算力 1350.4 PFLOPS*天天ChatGPT 2023年年1月官网总访问量月官网总访问量6.16亿次亿次单月运营算力约单月运营算力约 4874.4 PF
10、lopsGPT3(175B)3640 PFLOPS35000张张 A100跑一天跑一天 或或 1024张张A100跑一个月跑一个月13000张张A100跑一天跑一天 或或 433张张A100跑一个月跑一个月通过模型剪枝通过模型剪枝/量化优化到量化优化到INT4/8,13B 50B模型模型,可采用可采用A10或或V100设备设备 以阿里云以阿里云 GPU实例目录价计算实例目录价计算1024/8*17万万¥2200万月万月¥920万万/月月¥4000万万/月月分阶分阶段段计算计算量量芯片芯片需求需求成本成本请仔细阅读尾部的免责声明资料来源:Efficient Large-Scale Languag
11、e Model Training on GPU Clusters Using Megatron-LM、西部证券研发中心大模型大模型训练侧训练侧 GPU 需求测算需求测算82022年,英伟达、斯坦福联合微软研究院共同训练出了万亿级参数的GPT,比1746亿参数的GPT-3还高出了一个量级;论文中的测试基于DGX A100-80GB集群完成。对于最大的 1T 规模的模型,一共使用了384台8卡DGX-A100服务器,服务器内部各GPU间使用超高速NVLink和NVSwitch互联,每台机器装有 8个200Gbps的 InfiniBand网卡;GPU利用率利用率=单张单张GPU训练时吞吐量训练时吞吐
12、量/单张单张GPU峰值吞吐量峰值吞吐量,论文使用了数据并行、流水线模型并行、张量模型并行、服务器通信优化等加速技术提高GPU利用率。训练过程中,英伟达A100卡使用数量的变化范围为32,3072,GPU利用率随参数量增加而增长,变化范围为44%,52%。图:图:GPU利用率随着模型变大利用率随着模型变大(更大的矩阵乘法更大的矩阵乘法)而提高而提高请仔细阅读尾部的免责声明这篇论文给出了使用并行策略后训练时间的经验公式:端到端训练时间端到端训练时间 其中,T 表示训练集的Token数量,P 表示模型参数数量,n 表示A100卡数量,X 表示训练时每张GPU的吞吐量。X 值由GPU峰值吞吐量与GPU
13、利用率相乘得出。论文中进行训练时采用混合精度即混合精度即FP16。在此精度下,每张A100的峰值吞吐量(非稀疏)为 312 TFLOPS。论文以GPT-3为例做了估计:当 T=3000亿,P=1750亿,A100卡数量 n=1024张,批处理大小为 1536时,假设GPU利用率为45%,即每张A100训练时吞吐量为 312 45%=140 TFLOPS。估计估计GPT-3端到端训练时间端到端训练时间=.=.(s)(天)(天)据推测,GPT-4的参数量达到万亿级别。SemiAnalysis报道称GPT-4参数量为1.8万亿,且采用更大的训练集,GPT-4训练过程中A100卡数量达到万张量级达到万
14、张量级。GPT-4具体参数量目前暂无官方数据,半导体咨询研究公司SemiAnalysis称:OpenAI训练GPT-4的FLOPS约为2.15 1025,在大约25000个A100上训练了90-100天,由于延迟和故障重启问题,GPU利用率约为32%-36%。资料来源:SemiAnalysis、Efficient Large-Scale Language Model Training on GPU Clusters Using Megatron-LM、西部证券研发中心大模型大模型训练侧训练侧 GPU 需求测算需求测算9请仔细阅读尾部的免责声明资料来源:Similarweb、英伟达官网、西部证券
15、研发中心测算大模型大模型推理侧推理侧 GPU 需求测算需求测算推理侧具备更大的成长空间推理侧具备更大的成长空间10图:图:2023年年8月月OpenAI月度访问量月度访问量 根据Similarweb数据,2023年8月ChatGPT的月度访问量为14亿(包括直接访问、外链等),平均访问时长为7分钟。假设假设1:ChatGPT访客平均每次访问提问数为10个,每个问题加上其回答的Token数量平均为1000;假设假设2:ChatGPT访客来自全球各地,假设在每日24小时内平均分配访问量和计算量;假设假设3:在推理侧,大模型运算更为简单,我们仍保守假设GPU利用率为45%。推理过程中,每个参数只需执
16、行1次乘法运算和1次加法运算,以GPT-3的参数量1750亿带入以下测算。推理前一般采用量化等技术将模型优化到Int8精度,在此精度下,每张A100的峰值吞吐量(非稀疏)为 624 TOPS。图:英伟达图:英伟达A100卡规格卡规格请仔细阅读尾部的免责声明首先计算每月推理的算力需求:每月推理侧Token数=月度访问量 平均提问数 问题加回答数=1.4 109 10 1000=.每月推理侧算力需求=参数量 每月推理侧数量 单个计算量=1.75 1011 1.4 1013 2=.再计算每秒推理侧的算力需求:每秒推理侧算力需求=每月推理侧算力需求30 24 60 60.(TOPS)最后计算A100
17、需求:A100需求=每秒推理侧算力需求A100单张推理算力 GPU利用率=1.9 10186.24 1014 45%(张)实际应用中,推理前可能会采用剪枝、蒸馏等技术来进行模型压缩。压缩一定程度上会降低模型性能,此处暂不考虑这些因素。资料来源:Similarweb、西部证券研发中心测算大模型大模型推理侧推理侧 GPU 需求测算需求测算 ChatGPT11请仔细阅读尾部的免责声明2023年9月25日,ChatGPT进行重大更新GPT-4和GPT-3.5都具有了基于图像进行分析和对话的能力。我们认为,当模型参数增长至万亿级万亿级且具有多模态多模态能力,能承担更多生成、分析等任务时,将吸引更多用户,
18、ChatGPT月度访问量将高增(2023年8月,谷歌月度访问量为860亿,约为ChatGPT的70倍)。在以下三点假设下,长期来看,我们推测未来ChatGPT推理侧A100需求将超过70万张万张。假设1:我们采用外媒SemiAnalysis给出的数据,即使用GPT-4时每次推理只需使用2800亿个参数;假设2:多模态能力与更强大的分析能力将使得用户更加依赖大模型,推理侧每日问答的Token平均数量达到30000甚至更多;假设3:随着大模型技术发展,假设未来ChatGPT的月度访问量翻20倍,达到300亿。资料来源:emiAnalysis、机器之心、Similarweb、西部证券研发中心测算未来
19、每家龙头大模型厂商推理侧未来每家龙头大模型厂商推理侧A100需求有望达到十万张量级需求有望达到十万张量级12图:图:ChatGPTChatGPT重大更新重大更新请仔细阅读尾部的免责声明 2023年年9月月21日日,微软宣布基于微软宣布基于GPT-4的的Copilot将全面开放:将全面开放:微软全球版Copilot于2023年9月26日随更新的Windows 11以初期版本形式推出,融入到画图、照片、Clipchamp 等应用程序中;全球版Microsoft 365 Copilot将于2023年11月1日起面向企业用户提供服务,融入Teams、Outlook、Word、Excel、Loop、On
20、eNote 和OneDrive等应用程序中,同时微软将推出AI助手 Microsoft 365 Chat。资料来源:微软科技公众号、西部证券研发中心大模型大模型推理侧推理侧 GPU 需求测算需求测算 微软微软Copilot13图:图:Word+CopilotWord+Copilot示意图示意图图:图:Outlook+Copilot Outlook+Copilot 以及以及 Teams+Copilot Teams+Copilot 示意图示意图请仔细阅读尾部的免责声明 2023年年5月月,微软宣布微软宣布Windows用户突破用户突破 10 亿亿。假设Windows中Copilot使用率为15%-
21、80%,用户每天使用Copilot时输入和输出的平均Token数量为500-5000。A100需求=每秒推理侧算力需求A100单张推理算力 GPU利用率=日活 Copilot使用率每日Token人均输入输出数量推理参数量224 60 60 6.24 1014 45%如下表所示如下表所示,当使用率为当使用率为30%,每日人均输入输出每日人均输入输出Token数量为数量为2000时时,Windows Copilot的的A100需求量超过需求量超过1万张万张.乐观估计乐观估计,当使用率为当使用率为80%,每日人均输入输出每日人均输入输出Token数量为数量为5000时时,A100需求量超过需求量超过
22、9万张万张。资料来源:微软官网、西部证券研发中心测算大模型大模型推理侧推理侧 GPU 需求测算需求测算 Copilot+Windows14A100需求量(块)需求量(块)Copilot使用率使用率15%30%50%80%Token数量数量5001731 3462 5771 9233 10003462 6925 11541 18466 20006925 13849 23082 36932 500017312 34623 57705 92329 图:微软图:微软Windows CopilotWindows Copilot的的A100A100需求量测算需求量测算请仔细阅读尾部的免责声明 微软曾在微软
23、曾在FY20Q1电话会议上披露电话会议上披露,Office 365(现已更名为现已更名为 Microsoft 365)商业版的月度活跃用户突破商业版的月度活跃用户突破 2 亿亿,而根据微软的季而根据微软的季报及年报数据报及年报数据,商业版用户数量年增速保持在商业版用户数量年增速保持在15%左右左右,我们推测我们推测Microsoft 365 企业用户数目前已突破企业用户数目前已突破 3 亿亿。假设Microsoft 365中Copilot使用率为15%-80%,企业用户使用Copilot时,输入和输出的平均Token数量为2000-30000。如下表所示如下表所示,当使用率为当使用率为30%,
24、每日人均输入输出每日人均输入输出Token数量为数量为10000时时,Microsoft 365 Copilot的的A100需求量超过需求量超过2万张万张;乐观估计乐观估计,当使用率为当使用率为80%,每日人均输入输出每日人均输入输出Token数量为数量为30000时时,A100需求量超过需求量超过15万张万张。资料来源:微软官网、西部证券研发中心测算大模型大模型推理侧推理侧 GPU 需求测算需求测算 Copilot+Microsoft 36515图:图:Microsoft 365 CopilotMicrosoft 365 Copilot的的A100A100需求量测算需求量测算A100需求量(
25、块)需求量(块)Copilot使用率使用率15%30%50%80%Token数量数量20002077 4155 6925 11079 50005193 10387 17312 27699 1000010387 20774 34623 55397 3000031161 62322 103870 166192 请仔细阅读尾部的免责声明资料来源:智东西、西部证券研发中心测算16驱动驱动AI发展的关键引擎发展的关键引擎,英伟达英伟达A100&H100 供不应求供不应求自年初以来自年初以来,英伟达英伟达A100一直处于供不应求的状态一直处于供不应求的状态,而其他加速卡由于性能而其他加速卡由于性能、生态等
26、方面与英伟达存在较大差距生态等方面与英伟达存在较大差距,大部分场景无法实现替代大部分场景无法实现替代,尤其在训练侧尤其在训练侧,A100与与H100具有极大的优势与较高的技术壁垒具有极大的优势与较高的技术壁垒。现阶段,大模型技术突破遭遇瓶颈,算力资源短缺为重要原因之一。OpenAI表示GPU供应不足阻碍了其研发计划的推进,例如模型微调和划拨专用容量等受到影响。OpenAI联合创始人Andrej Karpathy曾转发了一篇博客文章。这篇文章认为训练大语言模型的初创企业、云服务供应商及其他大公司需要拥有超过1000张H100或A100。A100方面方面:GPT-4可能在可能在10000-2500
27、0张张A100上进行了训练上进行了训练,Meta拥有约21000张A100,特斯拉拥有约7000张A100,Stability AI拥有约5000张A100,Falcon-40B在384张A100上进行了训练。H100方面:方面:a)OpenAI可能需要可能需要50000张张,Inflection可能需要可能需要22000张张,Meta可能需要可能需要25000张张。大型云厂商可能每家都需要30000张(Azure、谷歌、AWS、Oracle)。Lambda和CoreWeave以及其他私有云厂商可能总共需要10万张,CoreWeave预订的H100数量约为35000-40000张,而Anthr
28、opic、Helsing、Mistral、Character等每家可能需要10000张。b)Inflection在其GPT-3.5等效模型中使用了3500张H100。GCP拥有大约25000张H100。微软Azure和Oracle可能有10000-40000张H100。预训练预训练企业数企业数50大模型类型大模型类型所需所需A800张数张数总计(张)总计(张)GPT31,000 50,000 GPT43,000 150,000 推理推理企业数企业数10(2C)日活1亿大模型类型大模型类型所需所需A800张数张数总计(张)总计(张)2C100,000 1,000,000 图:国内图:国内A800
29、需求量简单测算需求量简单测算精调精调500所需所需A800张数张数总计(张)总计(张)400 200,000 CONTENTS目录CONTENTS目目录录发展趋势发展趋势竞争格局和要素重点公司算力布局情况02030401AI算力需求空间测算请仔细阅读尾部的免责声明资料来源:新智元、西部证券研发中心18大模型训练中的故障与中断问题对大模型训练中的故障与中断问题对GPU集群的质与量提出了更高要求集群的质与量提出了更高要求大模型训练过程:理想情况任务一键提交,半个月持续高效训练,模型正常收敛大模型训练过程:现实情境在各种硬件问题和配置问题中频繁重启任务,持续训练时间基本都不超过持续训练时间基本都不超
30、过1 1天天大模型开发大模型开发全景概览全景概览大模型架构复杂,训练周期较长。硬件、系统、软件、驱动等等需要稳定运转才能最大化加速卡并行运算的能力,保障模型训练的效率,缩短训练的时间和成本。虽然加速卡具有优异的计算性能,但软、硬件等故障时常发生,各类任务频繁重启,训练经常中断、持续时间较短。如果训练中断后不能及时恢复,不仅会影响训练成功率,还会使得训练成本居高不下。请仔细阅读尾部的免责声明资料来源:新智元、CSDN、西部证券研发中心19大模型训练中的故障与中断问题对大模型训练中的故障与中断问题对GPU集群集群的质与量提出了更高要求的质与量提出了更高要求Meta员工曾在训练OPT-175B模型的
31、日志中提到,几乎整个训练过程都要面对不停地重启和中断。在某两周内,由于硬件、算法或实验稳定性问题,训练重启了40多次。其中,绝大多数重启都是由于硬件故障以及缺乏提供足够数量的“缓冲”节点来替换坏节点的能力。通过云接口更换一台机器可能需要几个小时。最后两周,解决基础设施问题占据了团队大部分时间,因为这些硬件问题可能会在一天中的任何时间导致训练中断几个小时。后续团队虽然提出了各种加速重启的方案并安排了更多的人24小时轮值维护,但依然要面对硬件层面的各种问题。内部训练进度的图表显示,接下来的两周之内,最长的3次连续训练时间长度只有2.8天、2天、1.5天。2021年9月开始,历时3个月;5位工程师;
32、1750亿参数,1024张英伟达80GA100;除了云服务器客服,没有专门的设备运维团队;使用实验室当时能找到的所有数据,很明显很多时候模型是训练不足的;由于超参数与业内其他几家FAIR NLPgroups(Microsoft/NVIDIA/OpenAI)所 公 开的超参数有所不同,所以不太清楚最优设置是什么。以Meta团队的资源和效率,使用992张张A100卡,需要大约33天天的连续训练(假设0次失败或重新启动)才能完成3000亿Token的模型训练。团队发现BF16是最适合的格式也是里程碑。请仔细阅读尾部的免责声明资料来源:云布道师公众号,西部证券研发中心20案例:阿里云面向案例:阿里云面
33、向AIAI大模型的解决方案大模型的解决方案训训练练推推理理GPU服务器,云网络,负载均衡训练数据训练数据LLMLLM语言类大模型语言类大模型训练训练-选型推荐选型推荐推理推理-选型推荐选型推荐AIGCAIGC非语言模型非语言模型训练训练-选型推荐选型推荐推理推理-选型推荐选型推荐应用场景:应用场景:聊天机器人 文案生成 剧本生成 摘要生成 情绪分析全训全训练:练:1024/512片A100(SCCGN7ex)模型微模型微调:调:4片A10(GN7i)参数规模参数规模3030-65B65B:8*A10(GN7i)8*V100(GN6e,32GB)8*A100(GN7e,80GB)参数规模参数规模
34、30B30B以下:以下:4*A10(GN7i)8*V100(GN6V,16GB)参数规模参数规模3 3-10B10B:多片A10(GN7i)参数规模参数规模3B3B以下:以下:单片A10(GN7i)应用场应用场景:景:文生图,图生图 文生视频,图生视频 图生3D 文生音乐全训练:全训练:4片A100(GN7e)模型微调:模型微调:256/128片A100(SCCGN7ex)除了提供多样化的除了提供多样化的GPUGPU产品选型产品选型,阿里云面向阿里云面向AIAI大模型的解决方案还包括:大模型的解决方案还包括:1 1)SCCSCC高性能弹性计算机群以保证算力规模;高性能弹性计算机群以保证算力规模
35、;2 2)灵活的算力切割及调度灵活的算力切割及调度能力以满足更细粒度的计算需求;能力以满足更细粒度的计算需求;3 3)加速套件以提高效率加速套件以提高效率。请仔细阅读尾部的免责声明资料来源:云布道师公众号,西部证券研发中心21案例:阿里云面向案例:阿里云面向AIAI大模型的解决方案大模型的解决方案SCC高性能弹性计算集群高性能弹性计算集群灵活的算力切割和调度能力:虚拟化灵活的算力切割和调度能力:虚拟化池化池化云原生云原生SCCSCC高性能弹性计算集群高性能弹性计算集群:为提升并行运算的效率,集群中GPU之间使用了最高效的NVSwitch互联。节点之间使用了非阻塞式的RDMA网络,同时节点间还有
36、VPC网络互联。此外,集群还用了高性能的集群存储CPFS和块存储。算力切割算力切割&调度:调度:提供更小的 GPU 计算粒度,通过池化的方式提升资源使用效率。例如,通过 cGPU 技术实现GPU的资源切割和跨主机资源池,以解决 GPU 资源的使用不充分、或者更加夸张的计算资源配比需求等等,帮助用户获得更有效率和更有性价比的 GPU 计算资源。请仔细阅读尾部的免责声明资料来源:云布道师公众号、西部证券研发中心22案例:阿里云面向案例:阿里云面向AIAI大模型的解决方案大模型的解决方案阿里云基于自身IaaS资源推出AI加速套件AIACC,用于优化基于AI主流计算框架搭建的模型,显著提升训练和推理性
37、能。当前AIACC推理引擎包含AIACC-Torch(Pytorch推理加速引擎)、AIACC-MLIR(MLIR推理加速引擎)、AIACC-HRT(AIACC算子深度加速引擎)几个组件。AIACC-Torch(Pytorch推理加速引擎)主要用于业界主流的PyTorch 模型的推理加速引擎;AIACC-MLIR(MLIR推理加速引擎)是基于MLIR用于优化Tensorflow的加速引擎;AIACC-HRT(AIACC算子深度加速引擎)是阿里云底层高性能的限制加速库。50%50%LLMLLM大模型分布式训练大模型分布式训练40%40%AIGC FinetuneAIGC Finetune训练训练
38、40%40%图像识别分布式训练图像识别分布式训练50%50%LLMLLM大模型推理性能大模型推理性能80%80%AIGCAIGC推理性能推理性能AI加速套件(加速套件(AIACC)分布式通信优化AIACC-ACSpeed训练编译优化AIACC-AGSpeed算子深度优化AIACC-HRT推理编译优化AIACC-MLIRAI 训练加速引擎AIACC-TrainingAI 推理加速引擎AIACC-Inference图:图:SCC高性能弹性计算集群高性能弹性计算集群CONTENTS目录CONTENTS目目录录发展趋势竞争格局和要素竞争格局和要素重点公司算力布局情况02030401AI算力需求空间测算
39、请仔细阅读尾部的免责声明资料来源:阿里云官网、青云科技官网、英博数科官网、财联社、西部证券研发中心整理绘制24AIAI算力租赁的四大类商业模式算力租赁的四大类商业模式1互联网大厂的云计算业务、公有云厂商互联网大厂的云计算业务、公有云厂商过往公有云业务的延申,从CPU到GPU;提供软件、硬件、运维等一站式服务。GPU算力池调度算力池调度不投资硬件,调度第三方算力并提供运维服务32GPU算力池租赁算力池租赁相对单一地提供GPU集群讯飞讯飞-昇腾训推一体机模式昇腾训推一体机模式待定4算力调用服务算力硬件IDC等基础设施大模型开发算力调用服务算力硬件IDC等基础设施算力调用服务原公有云、互联网大厂GP
40、U算力池租赁GPU算力池调度互联网大厂在资源、技术等方面实力最为雄厚,但在大模型业务上互联网大厂在资源、技术等方面实力最为雄厚,但在大模型业务上易与客户形成竞争关系。易与客户形成竞争关系。算力硬件IDC等基础设施请仔细阅读尾部的免责声明资料来源:海外独角兽公众号、西部证券研发中心云厂商的核心竞争力体现在资金云厂商的核心竞争力体现在资金、软硬件软硬件、下游客户等多个层面下游客户等多个层面25算力需求贯穿大模型训练算力需求贯穿大模型训练、微调微调、推理整个周期推理整个周期,无论是无论是国内还是国外国内还是国外,目前目前AIAI算力需求都具有较强的确定性算力需求都具有较强的确定性,我我们认为们认为A
41、IAI算力需求未来还将维持高增算力需求未来还将维持高增。各个云厂商在硬件、软件和商业化上的布局不同,所匹配到的客户特征、用户决策偏好以及在 LLM 发展的客户需求等方面也存在差异。硬件:GPU、通信、裸机实例;从NVIDIA拿货的实力尤为重要:提货优先级目前所拥有的绝对数量。NVIDIA 不仅会考虑云厂商服务的大模型客户的实力,还会考虑LLM生态均衡性、自研芯片的竞争态势和客户体量等因素;裸机实例在训练环节更占优势,因为客户需要最大化利用算力资源;而在微调与推理环节,由于业务复杂度、成本等考量,传统进行虚拟化后的云服务大概才能满足各类客户的多样化需求。软件:Kubernetes、ML/AI O
42、ps;商业化:硬件和运维成本、定价策略、目标客群、用户体验等。图:国外云厂商评分表图:国外云厂商评分表打分标准:如果在某一方面,AWS Azure GCP Oracle Coreweave Lambda,那么评分会分别是 6、4.5、4.5、3、2、1,并未考虑各个模块之间的重要性权重。请仔细阅读尾部的免责声明资料来源:中贝通信公告、西部证券研发中心测算26AIAI算力租赁的收入和成本结构算力租赁的收入和成本结构算力租赁成本拆分算力租赁成本拆分A800整机单机含配套采购价格(万元)150.0按照按照5-7年折旧(万元)年折旧(万元)21.4单机含配套功耗(kWh)6平均负载率75%一年功耗(万
43、kwh)3.9上海平均工业电价(元/kWh)0.5一年电费(万元)一年电费(万元)2.0机柜租金价格(元/月)单服务器租金(2个机架)5800一年租金(万元)一年租金(万元)10.440302900500300350价格(万元)采购端,目前A800服务器整机含配套采购价格约为120-150万元/台,我们按照5-7年折旧;收入端,按照中贝通信与青海联通签订的算力服务框架协议,租金按照含税¥12万元万元/P/年年计算,单台8卡A800服务器租金约为60万元万元/年年。采取FP16(稀疏)精度下的算力。单张A800卡算力为624 TFLOPS,则一台8卡A
44、800服务器算力约为5P;单张H800卡算力为1979 TFLOPS,则一台8卡H800服务器算力约为16P。CONTENTS目录CONTENTS目目录录发展趋势竞争格局和要素重点公司算力布局情况重点公司算力布局情况02030401AI算力需求空间测算请仔细阅读尾部的免责声明资料来源:英博数科官网,西部证券研发中心28鸿博股份:深度绑定英伟达鸿博股份:深度绑定英伟达,AIAI算力稳步落地算力稳步落地 鸿博股份2022年8月切入AI算力领域,与中关村中恒文化、英伟达、英博数科签订四方合作协议,合作成立北京北京AI 创新赋能中心创新赋能中心。主要业务为:算力出租、云资源采购一站式服务、人工智能教育
45、培训、产业实验室。2023年7月,完成共计共计1000P由英伟达A&H系列智算服务器组成的AI算力集群部署调优并交付。9月,已向客户交付1300P算力。计划于2023年在京落成3000P以上智算中心。搏博云平台:跨平台GPU算力管理、统筹、调度及整合。截至2023年6月,已完成5120P订单签约。客户:多模态大模型训练、云渲染、无人驾驶、量化交易模型训练等。和百川智能签署1280P算力订单算力订单(256台服务器台服务器);签约深言科技,提供1280P/年;年;与360集团达成框架合作:640P;宣亚国际Orange-GPT:640P;图:图:全资子公司英博数科全资子公司英博数科发展历程发展历
46、程请仔细阅读尾部的免责声明资料来源:wind、青云科技官网,西部证券研发中心29青云科技:云服务技术背景青云科技:云服务技术背景+大集群运维经验大集群运维经验,轻资产模式优势尽显轻资产模式优势尽显图:图:青云科技青云科技AI算力合作生态算力合作生态图:图:青云科技青云科技算力租赁优势算力租赁优势公司提供公司提供NVIDIANVIDIA A A800800和和H H800800云服务器的算力租赁业务云服务器的算力租赁业务,打造第二成长曲线:打造第二成长曲线:20232023H H1 1,公司实现公司实现AIAI算力服务收入算力服务收入26512651万万元元。公司超级智算平台适用于生命科学、CA
47、E 仿真、海洋气象、影视渲染、石油勘探、深度学习、测绘地理、模型训练、场景推理等计算场景。“代建代建+轻资产轻资产”模式优势尽显:模式优势尽显:在三大国家千亿万次超算中心之一的国家超算济南中心项目上国家超算济南中心项目上,公司交付了一整套完整的多元算力服务管理平台,包括了HPC算力、GPU算力、云计算算力、高性能存储以及海量非结构化数据存储。AI算力调度平台优势:提供多元算力统一调度、实现智能化算力调度与管理、芯片国产替代、智简运营运维、建设智能生态打造丰富应用请仔细阅读尾部的免责声明资料来源:中贝通信公告、中贝通信官网、西部证券研发中心30中贝通信:智算中心建设加速推进中贝通信:智算中心建设
48、加速推进,计划年内落地计划年内落地AIAI算力算力50005000P P图:图:合肥智算中心项目规划效果图合肥智算中心项目规划效果图中贝通信确定发展AI大模型业将智算算力服务作为新基建业务发展重点,目前已部署合肥与长三角两个算力中心,计划 2023 年实现50005000P P算力服务能力,未来三年达成万P算力+万卡集群的“双万”战略目标:收购容博达云计算70%股权,合肥算力中心首期投资约10亿元,已完成土建与园区配套,机房配套已启动,一期项目将实现算力3000P,计划在2023Q4具备服务能力,总体建成后最大可提供算力10000P的能力;长三角算力中心计划投资2亿元,提供800-1000P算
49、力能力,机房选址已初步确定,正在与当地政府洽谈投资协议;前期采购的A800卡与服务器已陆续到位,H800服务器采购订单已经陆续下达,在9-10月份陆续到货,已提供样机给部分客户进行测试。供应端,与浪潮与浪潮、新华三等签订战略合作协议新华三等签订战略合作协议,在服务器采购供应、资源共享、用户开发与维护、商业推广等领域开展合作达成行动方案。需求端需求端,2023年年9月月,中贝通信与青海联通签订算力服务框架中贝通信与青海联通签订算力服务框架协议:协议:合作内容:合作内容:以H800设备为基础搭建算力服务平台,提供960P算力服务,服务费按照含税12万元万元/P/年年计算;合作模式合作模式:青海联通
50、负责提供算力服务平台所需的存储设备与基础网络设备、外网通道、机房环境、机柜、日常维护及客户引入。中贝通信负责提供算力服务器、以及相应的IB网络交换机和配套光模张、线缆与管理平台、设备在租赁期内的维保;合同金额合同金额:约3.456亿元人民币(含税);服务期服务期:自2023年11月1日起运行,服务期为3年。请仔细阅读尾部的免责声明资料来源:wind、芜湖日报、中安在线,同花顺、西部证券研发中心31恒润股份:在手算力恒润股份:在手算力25002500P P,携手运营商建设芜湖智算中心携手运营商建设芜湖智算中心 2023年7月,恒润股份与上海六尺科技集团有限公司共同出资设立上海润六尺科技有限公司,
51、计划于上海、福州经开区、安徽芜湖、山东济宁等地合作建立算力中心,并打造长三角GPU算力中心集群。上海六尺核心团队深耕上海六尺核心团队深耕GPUGPU算力多年算力多年,具有丰富的具有丰富的AIAI智算中心智算中心(GPU(GPU算力算力)建设建设、运营经验和算力市场资源运营经验和算力市场资源。与上游与上游GPUGPU供应厂商英伟达供应厂商英伟达、新华三等有深度合作新华三等有深度合作关系关系。公司与运营商合作提供高端算力租赁高端算力租赁,基于丰富的经验,公司能提供针对性的算力租赁服务,帮助运营商优化现有的算网服务,为客户提供AIDC一站式服务:8月3日,上海六尺、中国移动芜湖分公司、新华三在芜湖签
52、署战略合作协议,三方将携手建设东数西算芜湖集群首个大规模智算中心,项目总投资规模超2020亿元亿元。8月29日,上海润六尺与安徽联通在合肥签订战略合作协议,携手推动芜湖集群大规模智算中心项目建设,共享智算中心建设能力、运营经验和算力市场资源。此次中国联通长三角(芜湖)智算中心和六尺科技长三角智算中心项目总投资规模超8080亿元亿元。9月14日,恒润股份称:截止目前公司已到货算力25002500P P,正在组网调试中,其余算力将陆续到货。9月26日,子公司上海润六尺承建的“东数西算”芜湖集群(润六尺)智算中心完成首期10001000P P算力交付。请仔细阅读尾部的免责声明资料来源:云赛智联公告、
53、云赛智联官网、西部证券研发中心32云赛智联:国资背景加持云赛智联:国资背景加持,打造一线打造一线AIAI算力正规军算力正规军图:图:上海智能算力科技有限公司股权结构(增资后)上海智能算力科技有限公司股权结构(增资后)云赛智联是上海市大数据中心资源平台总集成商和运维商、数据运营平台总运营商。迄今为止,云赛智联已在闵行、崇明等十个区分别实施了大数据建设和运营及“两网建设”项目,为国资委等多个委办提供派驻式服务。云赛智联下属上海科技网络通信有限公司定位于中立第三方高端数据中心运营商,现有徐汇数据中心、宝山云计算中心、宝山大数据中心、松江大数据中心共计超过7000个机柜资源。2023年6月,云赛智联与
54、仪电集团、数据集团、信投股份其他非关联股东方以向上海智能算力科技有限公司上海智能算力科技有限公司非同比例增资的方式,共同出资20亿建立算力设施公司。合资公司将逐步搭建城市级算力调度平台,为人工智能模型训练及应用推演提供算力支撑,满足大模型集群训练的需求,有望为公司带来优质客户,扩大市场影响力,并加速机柜上架进程。图:图:松江大数据计算中心(二期)建成后,将标志着上海科技松江大数据计算中心(二期)建成后,将标志着上海科技网迈入网迈入1万组标准机架规模万组标准机架规模请仔细阅读尾部的免责声明资料来源:润建股份公告、西部证券研发中心33润建股份:拟投入润建股份:拟投入2 2亿元布局算力租赁业务亿元布
55、局算力租赁业务图:图:润建股份智算中心润建股份智算中心服务器选型服务器选型 润建股份算力相关服务有算力租赁和算力中心管维两类。公司已公开发行A股可转债券,募集资金10.8亿,计划投入10.9亿元打造五象云谷云计算中心。在云计算中心基础上,公司进一步升级算力服务能力,拟投入资金2 2亿亿元打造智能算力中心,为客户提供P级的算力节点服务。智算中心计划由“五象云谷云计算中心”进行基础承载:第一阶段投入资金2亿元采购行业内顶级算力服务器,打造智算中心,提供25332533PopsPops(IntInt8 8)或或4343 PflopsPflops(FP(FP3232)算力;后续根据市场需求持续投入。建
56、成后主要提供AI大模型训练、推理算力、图形渲染算力服务,服务于人工智能大模型、行业模型等。智算中心总投资预算为2亿元:算力设备投资1.92亿元,配套通信设施投资0.03亿元,工程建设投资0.03亿元,预备费0.02亿元。根据润建股份智算中心可行性分析报告,公司第一阶段拟采购80台八卡H800服务器,或其它可替代AI服务器,该部分服务器落地后算力有望达到12801280P P。类别类别选型选型单台算力单台算力峰值算力总和峰值算力总和AI训练/推理服务英伟达H800或其他可替代的AI服务器31664Tops(Int8)2533120Tops(Int8)图形渲染服务器英伟达H800或其他可替代的AI服务器536TFlops(FP32)42880TFlops(FP32)云存储服务器324 TB42772 TB项目名称项目名称参考型号参考型号成本(万成本(万元元/台)台)备注备注AI服务器(8卡)英伟达H800230相关服务器存在无法购买的可能性,公司将根据实际情况购买可替代服务器英伟达Tesla T410云存储服务器(324TB)75图:图:润建股份服务器采购成本预测润建股份服务器采购成本预测