《科技行业:AI芯片风继续吹群贤毕至花落谁家?-230922(181页).pdf》由会员分享,可在线阅读,更多相关《科技行业:AI芯片风继续吹群贤毕至花落谁家?-230922(181页).pdf(181页珍藏版)》请在三个皮匠报告上搜索。
1、 免责声明和披露以及分析师声明是报告的一部分,请务必一起阅读。1 证券研究报告 科技科技 AI芯片风继续吹:群贤毕至,花落谁家?芯片风继续吹:群贤毕至,花落谁家?华泰研究华泰研究海外科技海外科技 电子电子 增持增持 (首评首评)半导体半导体 增持增持 (首评首评)研究员 何翩翩何翩翩 SAC No.S0570523020002 SFC No.ASI353 +(852)3658 6000 华泰证券研究所分析师名录华泰证券研究所分析师名录 重点推荐重点推荐 股票名称股票名称 股票代码股票代码 目标价目标价 (当地币种当地币种)投资评级投资评级 英伟达 NVDA US 650.00 买入 超威半导体
2、 AMD US 150.00 买入 资料来源:华泰研究预测 2023 年 9 月 22 日美国 首次覆盖首次覆盖 人工智能风继续吹,人工智能风继续吹,AI 芯片乘风而起,但芯片乘风而起,但 B 端应用落地才是制胜关键端应用落地才是制胜关键 本轮 AI 浪潮由 ChatGPT 掀起,并引发各中外科技企业展开对大语言模型及生成式 AI 的追逐和对算力的军备竞赛。GPT 背后的核心算法是谷歌在 2017年提出的 Transformer,相对于深度学习,其创新在于采用了接近无监督的自我监督预训练,因此需要大量训练数据,加上少量有监督的微调和强化学习相结合。随着更复杂和多元模型不断涌现,高算力的 AI
3、芯片将充分受惠。然而,若以上技术只停留在 C 端应用意义却并不大,因此我们更认为,本轮AI 热潮能否持续将取决于 B 端的大规模应用落地。AI 浪潮方兴未艾,我们首次覆盖给予 AI 芯片行业增持评级,重点推荐龙头英伟达及突围者 AMD。首选软硬件一体双护城河的首选软硬件一体双护城河的英伟达英伟达,同时看好突围二战有望凯旋,同时看好突围二战有望凯旋的的 AMD 作为全球 AI 芯片的龙头厂商,英伟达在高算力硬件和高粘性 CUDA 生态的双护城河下优势明显,将充分受益于 AI 需求高涨。我们认为,短期内英伟达将主要由数据中心业务带动,长期成长则取决于 AI 商业应用落地及芯片竞争格局的演变。随着
4、CoWoS 产能瓶颈的改善,我们认为英伟达 GPU 放量节奏将迎来加速。AMD 曾凭台积电的领先制程颠覆了一家独大的英特尔,如今在AI领域面对英伟达的突围战似曾相识。AI已是AMD战略首位,MI300也蓄势待发,我们认为 AI 新赛道乃 AMD 重估之钥。对比英伟达完善的软件生态 CUDA,AMD 的 ROCm 会否成为其阿克琉斯之踵?AI 芯片芯片竞争竞争趋白热化趋白热化:训练端“一超多强”,推理端百花齐放:训练端“一超多强”,推理端百花齐放 英伟达 GPU 一直为 AI 训练端首选。我们认为只有少数芯片能与其匹敌,如谷歌 TPU 和 AMD MI300 系列。当算法开始稳定和成熟,ASIC
5、 定制芯片凭着专用性和低功耗,能承接部分算力。因此,头部云计算及互联网大厂出于削减 TCO、提升研发可控性及集成生态等考量,均陆续发力自研芯片,我们认为或将成为英伟达最大的竞争对手。初创企业如 Cerebras、Graphcore等,以晶圆级芯片拼内存和传输速度,也有望异军突起。AI 推理市场规模大,但对算力要求比训练较低,因此百花齐放,在大模型和多模态趋势下 GPU或能夺份额。但目前推理端还是以 CPU 主导,多方涌入下竞争愈发激烈。台积电台积电 CoWoS 封装产能乃封装产能乃 AI 芯片厂商“必争之地”芯片厂商“必争之地”英伟达 H100 采用台积电 CoWoS 先进封装技术,而 AMD
6、 MI300 采用台积电 CoWoS 和 SolC 技术,二者都需依赖台积电先进封装产能。目前,AI 芯片需求旺盛,台积电 CoWoS 封装乃限制出货量的瓶颈之一。但据 Digitimes在 7 月 14/21 日报道,公司正积极扩产,到本年底至少达 12 万片,24 年将达 24 万片,而英伟达将取得约 15 万片;当前三大客户为英伟达、博通和赛灵思,而 MI300 在四季度推出后,AMD 或将一举跻身前五大客户。英伟达的订单或也将外溢到联电和 Amkor。另外,CoWoS 的瓶颈也许是来自日本的 Tazmo、Shibaura 等的封装设备厂商,交货周期往往需要 6-8 个月。配置建议:英伟
7、达配置建议:英伟达“买入”,“买入”,TP 650 美元美元;AMD“买入”,“买入”,TP 150 美元美元 英伟达作为全球数据中心 GPU 龙头,该业务已占总营收逾 75%,为主要盈利和营收贡献,将充分受惠于台积电先进封装产能明年翻倍,以及美国加息步入尾声。游戏显卡逐渐从挖矿和疫情间 PC 高基数影响中恢复,叠加高期待新游戏带动。首次覆盖英伟达(NVDA US)给予“买入”,FY24-25 年动态 20 倍 PS,目标价 650 美元。AMD 数据中心业务 CPU 制程仍领先英特尔,MI300 系列有力冲击英伟达,看好 CPU 和 GPU 均能抢夺份额;游戏业务将受益主机“半代升级”;客户
8、端业务 PC 市场下滑收窄渐入佳境,首次覆盖 AMD(AMD US)给予“买入”,目标价 150 美元,对应 24 PS 8.5x。风险提示:AI 技术落地和推进不及预期、行业竞争激烈、中美竞争加剧。免责声明和披露以及分析师声明是报告的一部分,请务必一起阅读。2 科技科技 正文目录正文目录 人工智能风继续吹,人工智能风继续吹,AI 芯片乘风而起芯片乘风而起.4 人工智能风再起,产业发展空间广阔.4 看好整体 AI 芯片需求将伴随着大模型和生成式 AI 的 B 端应用落地而增加.4 人脑神经网络的运作模式始终是人工智能追求的终极形态.7 我们处于 AI 的“iPhone”时刻吗?.8 生成式 A
9、I 将带动云大厂加码硬件基础设施.9“一超多强”的“一超多强”的 AI 芯芯片市场竞争格局片市场竞争格局.11 传统芯片巨头:英伟达在多方入局下能否继续笑傲江湖?.12 英伟达在推理端能否复制其在训练端的成功?.12 英伟达的两大护城河:高算力芯片和高粘性 CUDA 软件生态.12 先进的网络技术 NVLink+NVSwitch,为吞吐量和可扩展性带来突破.13 CUDA 软件生态的先发优势构筑英伟达第二护城河.16 生成式 AI 下较复杂的推理需求或为英伟达 GPU 赋新机.17 英伟达 SWOT 分析.19 传统芯片巨头:备受期待的突围者 AMD.20 以 AI 为战略首位,AMD 突围二
10、战能否凯旋?.20 MI300A 和 GH200:CPU+GPU AI 芯片架构仿生人脑结构.20 ROCm 生态圈会否成为 AMD 的“阿克琉斯之踵”?分而治之或可解困.24 传统芯片巨头:多元布局的追赶者英特尔.27 云计算和互联网大厂:或许是传统芯片厂商的最大竞争对手云计算和互联网大厂:或许是传统芯片厂商的最大竞争对手.32 谷歌 TPU:少数能与英伟达高算力 GPU 匹敌的 AI 芯片.32 亚马逊 AWS:Trainium&Inferentia,训练推理双管齐下.38 微软:“闭门造芯”Athena.40 Meta:首个自研推理端芯片 MTIA 将于 2025 年问世.41 异军突起
11、者:晶圆级芯片持续突破性能极限,内存和异军突起者:晶圆级芯片持续突破性能极限,内存和传输传输成破局关键成破局关键.43 Cerebras:向晶圆级大尺寸芯片迈出第一步,但良率和有效运行占比暂成疑:向晶圆级大尺寸芯片迈出第一步,但良率和有效运行占比暂成疑.43 Graphcore:Bow IPU 实现精细数据多指令并行实现精细数据多指令并行.48 特斯拉:特斯拉:Dojo 超算为自动驾驶而生,为公司四大全栈自研科技支柱之一超算为自动驾驶而生,为公司四大全栈自研科技支柱之一.52 晶圆级芯片跟传统芯片的各项对比晶圆级芯片跟传统芯片的各项对比.55 AI 芯片产业链:聚焦兵家芯片产业链:聚焦兵家必争
12、之地必争之地 CoWoS 封装封装.58 台积电大扩 CoWoS 产能,供给紧张有望得解.58 硅晶圆供应商:台积电的 6 家硅晶圆供应商占全球总产能 90%以上.59 衬底/基板(Substrate):揖斐电、景硕、欣兴电子等.60 HBM 内存:SK 海力士、三星、美光,三足鼎立.61 服务器相关供应商:惠与、戴尔、联想、美超微、广达、纬创等.61 AI 不只是大模型,自动驾驶芯片群雄逐鹿,谁能突围?不只是大模型,自动驾驶芯片群雄逐鹿,谁能突围?.63 Mobileye:ADAS 技术奠基者,“黑箱子模式”优势不再,转型将面临挑战.65 免责声明和披露以及分析师声明是报告的一部分,请务必一
13、起阅读。3 科技科技 地平线:基于 BPU 架构布局自动驾驶生态追击.67 黑芝麻:第一家递交港股 18C 上市文件的车载芯片股,华山对标英伟达 Orin,武当实现跨域融合.70 高通:可扩展体系开展差异化竞争,对标英伟达 Thor 打造跨域融合.71 华为:边缘端 AI 芯片赋能 MDC 计算平台.72 特斯拉:车企破局者,FSD 和 DOJO 软硬件全栈自研.73 重点推荐:英伟达为重点推荐:英伟达为 AI 芯片行业龙头,芯片行业龙头,AMD 突围有望迎来重估突围有望迎来重估.75 英伟达:AI 龙头软硬一体双护城河(NVDA US,买入,目标价:650.00 美元).75 超威半导体:A
14、I 新赛道为重估之钥(AMD US,买入,目标价:150.00 美元).76 风险提示.78 首次推荐公司首次推荐公司.79 英伟达(NVDA US,买入,目标价:650.00 美元).79 超威半导体(AMD US,买入,目标价:150.00 美元).125 免责声明和披露以及分析师声明是报告的一部分,请务必一起阅读。4 科技科技 人工智能风继续吹,人工智能风继续吹,AI 芯片乘风而起芯片乘风而起 人工智能风再起,产业发展空间广阔人工智能风再起,产业发展空间广阔 本轮人工智能浪潮由本轮人工智能浪潮由 ChatGPT 掀起,并以语言大模型(掀起,并以语言大模型(Large Language M
15、odel,LLM)和生成式和生成式 AI(Generative AI)应用作为切入点。)应用作为切入点。自谷歌在自谷歌在 2017 年发表至今,年发表至今,Transformer除了带来像除了带来像 ChatGPT 这样的这样的 C 端爆款产品外,其早已在自然语言处理、计算机视觉、自端爆款产品外,其早已在自然语言处理、计算机视觉、自动驾驶等领域里广泛应用。动驾驶等领域里广泛应用。各中外各中外科技企业持续加大对相关的投入,科技企业持续加大对相关的投入,包括谷歌(GOOGL US)、Meta(META US)、微软(MSFT US)、字节跳动(未上市)、百度(BIDU US)等海内外一众科技巨头和
16、初创企业均希望分一杯羹,其他非技术公司也不断在人才、技术和资源方面进行布局。根据 Bloomberg Intelligence 的预测数据,到 2032 年,生成式 AI 在总体信息技术硬件、软件、服务、广告和游戏等支出中的占比或将从目前不到 1%的水平扩大至 12%。ChatGPT(Chat Generative Pre-trained Transformer)自 22 年 11 月发布后就引起了全球关注,5 天内注册用户超 100 万,仅两个月后,月活跃用户已达 1 亿。ChatGPT 将生成式AI 在文本、图像、视频等领域的多模态应用正式带入 C 端大众用户的视野。然而,我们认为,语言大
17、模型若只是停留在 C 端应用,提供给一些网民娱乐,其实意义并不大。我们更加认为,生成式 AI 的发展必须要配合 B 端应用的落地,才能成为真正可以改变世界的高端科技。目前,微软已发布 Microsoft 365 Copilot 等生成式 AI 产品,作为率先发布的重磅商业化应用。Copilot 依托微软庞大的用户群体、产品生态及使用场景,有望开启 AI 的 B 端应用发展新里程,并带动微软打开新的 AI 商业化空间。Bloomberg Intelligence 预测,全球生成式 AI 下游软件市场规模将在 2032 年扩大至 2799 亿美元,2022-2023 年十年复合增速达到 69%。图
18、表图表1:生成式生成式 AI 占科技投入支出不断增加(单位:十亿美元)占科技投入支出不断增加(单位:十亿美元)图表图表2:全球生成式全球生成式 AI 的市场机遇(单位:百万美元)的市场机遇(单位:百万美元)生成式生成式 AI 项目项目 2022 2032E CAGR 专业智能助手$447$89,035 70%代码编写、DevOps 等$213$50,430 73%工作负载基础设施软件$439$71,645 66%药物发现软件$14$28,343 113%网络安全支出$9$13,946 109%教育支出$370$26,500 53%软件软件$1,493$279,899 69%资料来源:Bloom
19、berg Intelligence、IDC、华泰研究 资料来源:Bloomberg Intelligence、IDC、华泰研究 看好整体看好整体 AI 芯片需求将伴随着大模型和生成式芯片需求将伴随着大模型和生成式 AI 的的 B 端应用落地而增加端应用落地而增加 2022 年开始,大模型的数量及参数量均呈指数级增长。年开始,大模型的数量及参数量均呈指数级增长。总体来说,我们认为模型的数量和总体来说,我们认为模型的数量和所需的训练数据才是对于算力要求的关键,因此,我们看好整体所需的训练数据才是对于算力要求的关键,因此,我们看好整体 AI 芯片的需求,将伴随着芯片的需求,将伴随着大模型和生成式大模
20、型和生成式 AI 所支持的所支持的 B 端商业应用落地而端商业应用落地而增加增加。自 2018 年 OpenAI(未上市)发布了包含 1.17 亿参数的第一代 GPT(Generative Pre-trained Transformer)模型以来,每一代 GPT 模型的迭代都伴随着参数量的飞跃。一众中外的科技巨头们也不甘示弱,包括Google、Meta、百度等纷纷发布了 PaLM、LaMDA、Llama、文心一言等为代表的大语言模型。2020 年 1 月,OpenAI 团队论文Scaling Laws for Neural Language Models提出“缩放定律”(Scaling Law
21、s),即大模型表现伴随模型参数量、数据集大小和计算量增长而增长,他们于 2023 年 5 月也再次强调,目前缩放定律仍未出现瓶颈。但我们也看到,谷歌在今年 5 月的 I/O 大会里发布的新一代 PaLM 大模型,PaLM2,就是通过算法上的改进达到训练数据增加为上一代 PaLM(7800 亿 tokens)的约 5 倍,达到 3.6 万亿个 tokens,但参数量为 3400 亿,小于 PaLM 的 5400 亿。14 23 40 67 137 217 304 399 548 728 897 1,079 1,304 3%4%5%6%7%9%10%11%12%0%5%10%15%20%25%30
22、%02004006008001,0001,2001,400202122 23E 24E 25E 26E 27E 28E 29E 30E 31E 32E生成式AI收入生成式AI在总科技支出占比 免责声明和披露以及分析师声明是报告的一部分,请务必一起阅读。5 科技科技 图表图表3:AI 训练对算力的需求成倍上涨,尤其是训练对算力的需求成倍上涨,尤其是 Transformer 相关模型相关模型 注:不同颜色代表不同模型种类 资料来源:英伟达官网、华泰研究 “大模型”通常指的是有大量参数的自我监督和预训练模型,“大模型”通常指的是有大量参数的自我监督和预训练模型,其背后的核心技术是其背后的核心技术是T
23、ransformer 架构,架构,目前比较广泛应用于文本生成等自然语言处理领域。Transformer 在2017 年由谷歌大脑团队在论文Attention Is All You Need中提出。该架构主要用于处理序列数据,主要采用自注意力机制(self-attention mechanism),为序列中的每个元素赋予不同的权重,从而捕获序列内部的长距离依赖关系。在 Transformer 之前,深度学习模型更多是采用监督学习的方法进行训练,因此需要大量标注的数据。相对来说,GPT 模型的创新之处在于采用了接近无监督学习(具体叫“自我监督学习”,self-supervised learning
24、)的预训练,加上少量有监督的微调相结合。图表图表4:GPT 各代模型迭代情况各代模型迭代情况 注:GPT-4 参数及训练基础设施数据来自 semianalysis 资料来源:OpenAI 官网、福布斯官网、InfoQ 官网、semianalysis 官网、微软官网、华泰研究 免责声明和披露以及分析师声明是报告的一部分,请务必一起阅读。6 科技科技 图表图表5:大模型训练过程示意图大模型训练过程示意图 资料来源:CSDN 官网、华泰研究 在文本生成、上下文语义理解、文章修订及摘要总结等需要泛化能力的大语言模型中,Transformer 架构相对以往的 CNN 和 RNN 网络结构取得了较大的进展
25、。Transformer 架构突破了 RNN(Recurrent Neural Network)模型固定顺序属性所带来的计算限制,其通过自注意力机制,可以同时处理整个序列的所有元素,从而实现了高效的并行化,提高了计算速度。同时,相比 CNN(Convolutional Neural Network)模型中伴随距离增大,计算位置关联所需操作将不断增多,Transformer 通过自注意力机制,可直接计算序列中任何两个元素之间的关联,且通过权重显示序列元素间的关系,从而为模型提供更为丰富的全局上下文信息,有效提高对复杂结构及语义的理解。故 Transformer 被认为与大部分白领工作相契合,在当
26、前人力成本较高及生产力急需提升的背景下,或将开始下沉至办公、会计、法律、编程和医疗等各领域进行结合。我们可将 Transformer 模型比作人类的右脑,在浅层关联性上表现优异,适用于需要创造性的生成式领域,但其仍然需要加强左脑的逻辑判断能力。图表图表6:Transformer 架构与架构与 CNN 和和 RNN 对比情况对比情况 资料来源:Devlin,Jacob,et al.Bert:Pre-training of deep bidirectional transformers for language understanding.arXiv preprint arXiv:1810.048
27、05(2018).、OpenAl、KDnuggets、斯担福大学官网、华泰研究 免责声明和披露以及分析师声明是报告的一部分,请务必一起阅读。7 科技科技 图表图表7:2018 年开始,年开始,Transformer 在谷歌学术的引用数量(次)在谷歌学术的引用数量(次)图表图表8:Transformer 相关的论文领域占比相关的论文领域占比 注:2023 年的数据截止至 7 月 资料来源:谷歌学术、华泰研究 资料来源:State of AI report、华泰研究 人脑神经网络的运作模式始终是人工智能追求的终极形态人脑神经网络的运作模式始终是人工智能追求的终极形态 类比人类大脑,左脑主要负责对信
28、息逻辑的处理,如串行运算、数字和算术、分析思维、理解、分类、整理等,而右脑负责并行计算、多模态、创造性思维和想象等。因此,左右脑从功能上分别代表 CPU 和 GPU,对比人类可实现左右脑协同工作,整体调动神经网络,将为 AI 的最终愿景。早在 2011 年,AMD 产品构想中就以 CPU 和 GPU 分别类比人类左右脑,并基于此提出了CPU+GPU 的异构产品策略。(详见 AMD 部分)目前 AMD 的 MI300A 和英伟达的 Grace Hopper(GH200)均为 CPU+GPU 的异构集成。GPU 的算力高并针对并行计算,但须由 CPU 进行控制调用,发布指令。在 AI 训练端,CP
29、U可负责控制及发出指令,指示 GPU 处理数据和完成复杂的浮点运算(如矩阵运算)。在面对不同模态数据的推理时,我们认为,CPU 与 GPU 的分工也各有不同,因此,同时部署CPU 和 GPU 能提供更大的运算支撑。例如,在处理语音、语言和文本数据的推理时,AI模型需逐个识别目标文字,计算有序,因此或更适合使用擅长串行运算的 CPU 进行运算支持;但在处理图像、视频等数据的推理时(对比人类的操作,每一个像素是同时进入眼睛),需要大规模并行运算,或更适宜由 GPU 负责,例如英伟达 L4 GPU 可将 AI 视频性能提高120 倍,据英伟达测试,L4 与基于 CPU 的传统基础设施相比能源效率提高
30、 99%。图表图表9:人类大脑不同部分功能及对应芯片种类人类大脑不同部分功能及对应芯片种类 资料来源:Hari R.From brainenvironment connections to temporal dynamics and social interaction:principles of human brain functionJ.Neuron,2017,94(5):1033-1039.、BrainFacts、华泰研究 1,220 5,110 11,700 20,489 24,600 21,400 05,00010,00015,00020,00025,00030,0002018201
31、92020202120222023 免责声明和披露以及分析师声明是报告的一部分,请务必一起阅读。8 科技科技 AI 推理市场规模大,但对算力要求比训练较低,因此我们认为各类芯片的使用将百花齐放,在大模型和多模态趋势下 GPU 或能夺份额。但目前推理端还是以 CPU 主导,多方涌入下竞争愈发激烈。值得一提的是,数据中心里拥有各类不同的芯片,而不同的 AI 工作负载应该在哪一片芯片上运行,将取决于以上提到的适配度以及性价比。因此,各类芯片也有其不同的优势。图表图表10:人脑处理信息与人工智能训练和推理的流程对比人脑处理信息与人工智能训练和推理的流程对比 资料来源:CSDN、谷歌官网、Vaswani
32、 A,Shazeer N,Parmar N,et al.Attention is all you needJ.Advances in neural information processing systems,2017,30.、华泰研究 我们处于我们处于 AI 的“的“iPhone”时刻吗?”时刻吗?人工智能的概念可以追溯到上世纪五六十年代。很多我们现在熟悉的算法,如神经网络,在 20-30 年前已经存在,但由于缺乏算力和数据,因此无法有效地运行。随着 GPU 被应用到 AI、云计算的普及和海量数据的产生和存储,AI 技术才得以快速发展和应用。对于“现在是对于“现在是 AI 的的 iPhone
33、 时刻”的观点,我们更倾向于认为,这是描述跟时刻”的观点,我们更倾向于认为,这是描述跟 GPT 相关的相关的生成式生成式 AI 开始应用于开始应用于 To B 端及解放生产力的重要突破。端及解放生产力的重要突破。至于在 To C 端,AI 技术其实早已有众多应用融入了我们的生活,如智能手机中的语音助手 Siri 和人脸识别等功能。免责声明和披露以及分析师声明是报告的一部分,请务必一起阅读。9 科技科技 图表图表11:AI 的“的“iPhone”时刻”时刻 资料来源:太平洋电脑网、苹果官网、英伟达官网、苹果派、OpenAI 官网、各公司公告、华泰研究 生成式生成式 AI 将带动云大厂加码将带动云
34、大厂加码硬件基础设施硬件基础设施 我们认为,我们认为,硬件设备的规模和性能是硬件设备的规模和性能是 AI 大模型时代的必然要求。大模型时代的必然要求。鉴于目前生成式 AI 主要以大参数模型路径实行,随着模型数量和所需要处理的数据量增长,其训练与推理均需要大量的计算能力与存储资源,故生成式故生成式 AI 应用的蓬勃发展将带动高算力应用的蓬勃发展将带动高算力 AI 芯片以及云计芯片以及云计算的需求增长。算的需求增长。Bloomberg Intelligence 及 IDC 数据显示,到 2024 年,AI 训练和推理硬件市场规模将达 930 亿美元,而到 2032 年将逾 6000 亿美元。图表图
35、表12:AI 训练和推理硬件市场占比训练和推理硬件市场占比 图表图表13:AI 训练和推理硬件市场规模(单位:十亿美元)训练和推理硬件市场规模(单位:十亿美元)资料来源:Bloomberg Intelligence、IDC、华泰研究 资料来源:Bloomberg Intelligence、IDC、华泰研究 89%89%83%70%64%63%62%62%66%70%74%11%11%17%30%36%37%38%38%34%30%26%0%10%20%30%40%50%60%70%80%90%100%2022 2023 2024 2025 2026 2027 2028 2029 2030 20
36、31 2032训练推理344977964283360474468005002022 2023 2024 2025 2026 2027 2028 2029 2030 2031 2032训练推理 免责声明和披露以及分析师声明是报告的一部分,请务必一起阅读。10 科技科技 云大厂和互联网巨头预计将继续加大资本开支,云大厂和互联网巨头预计将继续加大资本开支,AI 硬件为重点领域。硬件为重点领域。谷歌、微软、亚马逊以及 Meta 在二季度业绩说明会中提到:微软微软 FY23Q4:资本开支(不含融资租赁)89.43 亿
37、美元,同比增加 30.16%,计划持续加大数据中心、CPU 和 GPU 等投入;谷歌谷歌 232Q:资本开支环比增长 10至 69 亿美元,主要投放在服务器以及 AI 大模型计算领域,增幅低于彭博一致预期主因数据中心建设项目延迟,但公司预计对技术基础设施的投资将在 2023 下半年增加;亚马逊亚马逊 23Q2:资本开支(含融资租赁)为 114.55 亿美元,同比下跌 27%,虽受逐渐下滑的运输投入影响,公司预计 2023 全年资本开支同比下滑至略高于 500 亿美元的水平,但仍将继续增加对 AI 和大语言模型的投入以满足客户需求;Meta 23Q2:资本开支(不含融资租赁)为 61.34 亿美
38、元,同比下跌 19%,主要鉴于非 AI 服务器费用的减少,以及部分项目和设备交付的延误将转入 2024 年,公司预计2024 年资本开支将伴随数据中心、服务器及人工智能方面投资的推进而增加。总体来看,2023 上半年,以谷歌、微软及亚马逊及 Meta 为代表的互联网巨头在资本开支方面,虽受到项目延期或宏观与其他业务规划等因素扰动,但在 AI 相关的资本开支方面正逐渐加大。展望 2024 年,AI 基础设施将是重点投入领域。故我们认为头部云厂商和互联故我们认为头部云厂商和互联网巨头加大网巨头加大 AI 领域资本开支将进一步支撑领域资本开支将进一步支撑 AI 的产业趋势的产业趋势。我们认为,202
39、2 年以来,美联储稳步提高利率导致企业削减数据中心支出,后续美联储或将停止加息,叠加 AI 需求增长,有望提振科技巨头的资本开支,将持续带动 AI 芯片等基础硬件设施放量。图表图表14:17Q1-23Q2 四大互联网巨头季度资本开支情况(单位:亿美元)四大互联网巨头季度资本开支情况(单位:亿美元)资料来源:各公司官网、华泰研究 17.0 22.8 21.3 25.9 29.3 39.8 36.0 37.1 25.7 40.5 33.9 35.5 37.7 47.4 49.1 41.7 50.9 64.5 58.1 58.7 53.4 68.7 62.8 62.7 66.1 89.4 12.7
40、14.4 17.6 22.6 28.1 34.6 33.4 43.7 38.4 36.3 35.3 41.0 35.6 32.6 36.9 46.1 42.7 46.1 43.1 53.7 53.2 75.3 93.6 89.9 68.2 61.3 21.5 25.0 30.7 36.2 31.0 32.4 33.5 37.3 32.9 35.6 47.0 53.1 68.0 74.6 110.6 148.2 120.8 142.9 157.5 189.4 149.5 157.2 163.8 165.9 142.1 114.6 25.1 28.3 35.4 43.1 73.0 54.8 52.
41、8 70.8 46.4 61.3 67.3 60.5 60.1 53.9 54.1 54.8 59.4 55.0 68.2 63.8 97.9 68.3 72.8 76.0 62.9 68.9 7%11%37%53%112%78%48%48%-11%8%18%1%40%20%37%53%36%48%30%26%29%20%20%8%-4%-10%-20%0%20%40%60%80%100%120%140%050030035040045017Q1 17Q2 17Q3 17Q4 18Q1 18Q2 18Q3 18Q4 19Q1 19Q2 19Q3 19Q4 20Q1 20Q2
42、 20Q3 20Q4 21Q1 21Q2 21Q3 21Q4 22Q1 22Q2 22Q3 22Q4 23Q1 23Q2MicrosoftMetaAmazon(含租赁)Google同比合计 免责声明和披露以及分析师声明是报告的一部分,请务必一起阅读。11 科技科技 “一超多强”的“一超多强”的 AI 芯片市场竞争格局芯片市场竞争格局 在人工智能的训练端(在人工智能的训练端(training),我们认为英伟达的),我们认为英伟达的 GPU 凭着高算力为门槛,一直以来凭着高算力为门槛,一直以来都是训练端的首选。但随着人工智能应用市场的不断扩大,都是训练端的首选。但随着人工智能应用市场的不断扩大,A
43、MD MI300 系列的系列的 GPU、云、云计算厂商自研专用芯片、以及大尺寸晶圆级芯片也开始异军突起。计算厂商自研专用芯片、以及大尺寸晶圆级芯片也开始异军突起。推理端对算力要求较训推理端对算力要求较训练端低,目前推理芯片市场百花齐放,各类芯片练端低,目前推理芯片市场百花齐放,各类芯片均均据有一席之地。我们认为,推理端和训据有一席之地。我们认为,推理端和训练端一样,传统芯片厂商也将面临练端一样,传统芯片厂商也将面临云计算厂商云计算厂商和和 AI 芯片初创企业的挑战芯片初创企业的挑战。AMD 在 23Q1 财报会议上表示,AMD 已将人工智能列为战略重点的首位,同时推出新产品MI300 系列,在
44、制程、架构及算力等多方面向英伟达同类产品看齐。另外,作为英伟达客户的云计算大厂也陆续发力自研专用芯片。谷歌的 TPU(Tensor Processing Unit)专为神经网络和 TensorFlow 框架量身打造,性能不断提升,目前已发展到第五代 TPU v5e,而于2020 年推出的 TPU v4,在多种机器学习框架模型上已与英伟达的 A100 可比。亚马逊 AWS自己造芯早已有迹可循,2018 年开发了基于 ARM 的服务器 CPU Graviton,也为 AI 推理端自研专用芯片 Inferentia(2018 年末推出第一代,目前已发展到第二代)和 AI 训练端定制芯片 Traini
45、um(2020 年末推出)。对比基于 GPU 的实例,Trainium 速度能提升 140%,成本能降低 70%。据 2023 年 4 月 18 日美国科技媒体 The Information 报道,微软也正在闭门造芯,研发支撑 AIGC 训练和运行的专用芯片 Athena(雅典娜),希望进一步降低开发AI 的成本。除了传统芯片龙头和云计算大厂之外,我们也发现一些新兴初创除了传统芯片龙头和云计算大厂之外,我们也发现一些新兴初创 AI芯片企业(如芯片企业(如Cerebras、Graphcore 等),以及芯片行业以外的企业,包括特斯拉等,正在异军突起,试图在芯片等),以及芯片行业以外的企业,包括
46、特斯拉等,正在异军突起,试图在芯片设计上另辟蹊径设计上另辟蹊径,通过大尺寸晶圆级芯片的技术路线,在持续上升的算力、传输和内存需求市场中抢占份额。短期来看,我们认为,使用先进封装技术的 GPU 相较晶圆级芯片或是更优选择,但长期来看,晶圆级芯片的瓶颈若能突破,也将成为传统技术路径的有力挑战者。图表图表15:主流主流 AI 芯片对比芯片对比 训练端训练端 通用性强,但较难适应于人工智能时代大数据并行计算工作。通用性强,多维计算及大规模并行计算架构,适合深度学习需要;在训练端是第一选择-针对特定框架进行深度优化定制,能耗较低,但开发周期较长,固定成本也较高 推理端推理端 需要大量空间去放置存储单元(
47、Cache)和控制单元(Control),用于逻辑控制。英伟达从 18 年开始通过 T4 芯片等布局推理端到边缘计算;对算力要求较训练端要低 多以加速器形式跟 CPU 一起搭载;依靠可编程性,适用于开发周期较短的产品,以及开发试错阶段等;较成熟的量产设备多采用 ASIC 若特定领域产生大规模需求,在大批量生产下固定成本可有效给摊分;能耗也较低 代表厂商代表厂商 Intel/AMD NVIDIA/AMD Altera(Intel)/Xilinx(AMD)Google 的 TPU AWS Tranium/Inferentia 资料来源:nextplatform 官网、HUAWEI、华泰研究 免责声
48、明和披露以及分析师声明是报告的一部分,请务必一起阅读。12 科技科技 传统芯片巨头:英伟达在多方入局下能否继续笑傲江湖?传统芯片巨头:英伟达在多方入局下能否继续笑傲江湖?英伟达在推理端能否复制其在训练端的成功?英伟达在推理端能否复制其在训练端的成功?英伟达的 GPU 虽在 AI 训练端属不二之选,对比市场同类训练产品也具有显著优势。然而,推理端的门槛相对较低,且应用场景和需求更为多元,目前各类芯片都在此领域获得一席之地,因此 AI 推理方面英伟达仍面临着激烈竞争。从发展历程来看,传统推理端主要依赖CPU 去处理相对简单和对算力要求较低的推理任务。不过,目前 AI 模型的规模和复杂度跟过去相比已
49、提升了不少,随着更多工作负载将逐渐纳入到推理领域,因此对于推理算力的要求也会越来越高,或将在一定程度上带动更多 GPU 在推理领域的应用。但我们需强调,推理所需要的算力本身比训练所需要的算力低,因此英伟达的高算力在推理端不一定像其在训练端般拥有明显优势。另外,数据中心里拥有各类不同的芯片,而不同的 AI 工作负载应该在哪一片芯片上运行,将取决于适配度以及性价比。因此,各类芯片也有其不同的优势。在这领域里英伟达的高性能推理芯片正面对着各种竞争对手,除了 CPU 之外,也包括AMD 的 GPU、英伟达的 GPU(包括老款)、FPGA 和 ASIC 等。英伟达的两大护城河:高算力芯片和英伟达的两大护
50、城河:高算力芯片和高粘性高粘性 CUDA 软件生态软件生态 我们认为,英伟达凭着高算力硬件和我们认为,英伟达凭着高算力硬件和高粘性高粘性软件生态两大护城河,是人工智能训练端的不软件生态两大护城河,是人工智能训练端的不二之选。二之选。根据不同芯片在 AI 论文中的引用数量可知,英伟达的芯片在 AI 研究论文中最受欢迎,其产品的使用率是 ASIC 的 131 倍,是 Graphcore(未上市)、Habana(给 Intel 收购了)、Cerebras(未上市)、SambaNova(未上市)和寒武纪(688256 CH)五家总和的90 倍,是谷歌 TPU 的 78 倍,是 FPGA 的 23 倍。
51、一般来说,在人工智能领域,新模型的推出都会发表相关论文便于信息交流与学术合作,英伟达在人工智能相关的论文中遥遥领先的引用数量,也反映了新算法需采用英伟达 GPU 的必要性,以及其在学术界长期以来的重要地位和影响力。图表图表16:英伟达芯片在英伟达芯片在 AI 论文中的引用数量遥遥领先论文中的引用数量遥遥领先 图表图表17:2022 年服务器年服务器 GPU 单元份额情况单元份额情况 注:Big 5 startups 是指 Graphcore,Habana,Cerebras,SambaNova 和寒武纪五家初创芯片企业,其中寒武纪为中国企业;Habana 在 2019 年被 Intel 收购。资
52、料来源:Zeta Alpha analysis、华泰研究 资料来源:IDC、华泰研究 英伟达持续迭代高性能计算芯片,在产品工艺、计算能力和存储带宽等不断创新。英伟达持续迭代高性能计算芯片,在产品工艺、计算能力和存储带宽等不断创新。面向高性能计算和深度学习场景,英伟达基于其芯片架构,打造了一系列支持提升张量核心和稀疏矩阵计算等能力的 GPU 产品。2023 年,英伟达已不满足于单 GPU 的更新换代,重磅推出结合 Grace CPU 与 Hopper GPU 的 GH200 超级芯片,实现了高达 900GB/s 的总带宽,加速大规模 AI 和 HPC 应用计算。在一年后的 SIGGRAPH 上,
53、英伟达的 AI 芯片再迎升级,推出了全球首次采用 HBM3e 内存的 GH200 超级芯片。该芯片的带宽高达每秒 5TB 并能提供 141GB 的内存容量,适用于复杂的生成式人工智能工作负载,如大型语言模型、推荐系统和矢量数据库等。95.1%4.7%NvidiaAMDIntelOthers 免责声明和披露以及分析师声明是报告的一部分,请务必一起阅读。13 科技科技 图表图表18:主要人工智能主要人工智能芯片的芯片的参数对比参数对比 英伟达英伟达 产品名称产品名称 A100 PCIeSXM H100 PCIeSXMNVL L40S GH200(HBM3)GH200(HBM3e)发布时间发布时间
54、2020.6 2022.3 2023.8 2023.5 2023.8 峰值算力(峰值算力(TFLOPS)FP16:312624 FP8:302639587916 FP8:1466-FP32:19.5 FP16:8 FP16:733 FP64:19.5 FP32:5167134 FP32:91.6 FP64:5164134 工艺制程工艺制程 TSMC 7nm TSMC 4nm TSMC TSMC 4nm TSMC 4nm 芯片面积芯片面积 826mm2 814 mm2-晶体管数晶体管数(B)54 80 76.3 200-内存容量内存容量(GB)80 GB(HBM2e)808
55、0188(HBM3)48GB(GDDR6)96(HBM3)141(HBM3e)内存带宽内存带宽 19352039 GB/s 23.35 TB/s7.8TB/s 864GB/s=500GB/s 800GB/s 896GB/s 100GB/s TDP(W)500 600-192 600 资料来源:英伟达官网、AMD 官网、谷歌官网、habana 官网、ANANDTECH、semianalysis、toms Hardware、TechPowerUp、THENEXTPLATFORM、华泰研究 图表图表19:英伟达英伟达 H100 与部分同业产品在运行不同与部分同业产品在运行不同 AI 负载时表现负载时
56、表现 资料来源:福布斯官网、华泰研究 先进的网络技术先进的网络技术 NVLink+NVSwitch,为吞吐量和可扩展性带来突破为吞吐量和可扩展性带来突破 NVLink+NVSwitch,英伟达,英伟达先进的网络技术为吞吐量和可扩展性带来突破。先进的网络技术为吞吐量和可扩展性带来突破。大规模的计算负载需要实现多节点连接。在 2023 年 5 月 29 日举办的 COMPUTEX 大会上,英伟达正式发布NVIDIA DGX GH200超级计算系统。该系统通过NVLink互连技术及NVLink Switch 串联 32 台由 8 块 GH200 超级芯片(总计 256 块),组成了一个 144 TB
57、 内存及 1 exaFLOPS=1000 petaFLOPS 算力的超级计算系统。大规模的共享内存解决了 AI 大模型训练的关键瓶颈,Google Cloud、Meta 与微软将是其首批用户。NVLink 与 NVSwitch 相结合实现了服务器节点间通信拓展和高速互联,使大规模并行处理成为可能,是支撑英伟达 GPU 系统实现高速通信的基石。免责声明和披露以及分析师声明是报告的一部分,请务必一起阅读。14 科技科技 图表图表20:NVIDIA DGX GH200 通过通过 NVLink+NVSwitch 整合了整合了 256 个个 GPU,实现高达,实现高达 144 TB 内存的容量内存的容量
58、 资料来源:英伟达官网、华泰研究 图表图表21:英伟达英伟达 DGX H100 VS DGX GH200 DGX H100 DGX GH200 GPU and CPU 8x NVIDIA H100 Tensor Core GPUs+Dual Intel Xeon Platinum 8480C Processors 256x NVIDIA Grace Hopper Superchips(each Grace Hopper Superchip includes Grace Arm CPU+H100 Tensor Core GPU)MI250X CPU Cores 112 Cores total,2
59、.00 GHz(Base),3.80 GHz(Max Boost)18,432 Arm Neoverse V2 Cores with SVE2 4X 128b GPU memory 640GB 144TB Performance(FP8)32 petaFLOPS 1 exaFLOPS NVIDIA NVSwitch 4x 96x L1 NVIDIA NVLink Switches 36x L2 NVIDIA NVLink Switches Networking 4x OSFP ports serving 8x single-port NVIDIA ConnectX-7 VPI Up to 40
60、0Gb/s InfiniBand/Ethernet 2x dual-port QSFP112 NVIDIA ConnectX-7 VPI Up to 400Gb/s InfiniBand/Ethernet 256x OSFP single-port NVIDIA ConnectX-7 VPI with 400Gb/s InfiniBand 256x dual-port NVIDIA BlueField-3 VPI with 200Gb/s InfiniBand and Ethernet 24x NVIDIA Quantum-2 QM9700 InfiniBand Switches 20 x N
61、VIDIA Spectrum SN2201 Ethernet Switches 22x NVIDIA Spectrum SN3700 Ethernet Switches Management network 10Gb/s onboard NIC with RJ45 100Gb/s Ethernet NIC Host baseboard management controller(BMC)with RJ45 Host baseboard management controller(BMC)with RJ45 Software NVIDIA AI Enterprise(optimized AI s
62、oftware)NVIDIA Base Command(orchestration,scheduling,and cluster management)DGX OS/Ubuntu/Red Hat Enterprise Linux/Rocky(operating system)Support Comes with 3-year business-standard hardware and software support 资料来源:英伟达官网、华泰研究 英伟达独家的英伟达独家的 NVLink 网络连接技术,解决了数据传输带宽瓶颈。网络连接技术,解决了数据传输带宽瓶颈。NVLink 是英伟达针对G
63、PU 加速计算而开发的高速互连技术,自 2016 年推出后已发展至第四代。NVLink 能提供比 PCIe 更大的带宽,满足 AI 工作负载大规模的传输需求。传统的 PCIe 技术下,每个设备拥有专用的点对点连接,对于运行大规模并行功能和移动大量数据的 CPU 和 GPU 往往存在性能瓶颈。为了构建满足人工智能等发展需求的端到端计算平台,英伟达推出的 NVLink技术,为 CPU、GPU 与系统其他部分之间提供高带宽的连接路径,也允许多个 GPU 通过高速互连直接通信,从而实现 GPU 之间可用内存的组合和访问。图表图表22:历代历代 NVLink 参数参数 NVLink 2 NVLink 3
64、 NVLink 4 DSR 数据信号速率(Gbps)25 50 100 单链路的通道数 8 4 2 单链路的单向带宽(GB/s)25 25 25 单链路总带宽(GB/s)50 50 50 总链路数 6 12 18 总带宽(GB/s)300 600 900 推出年份 2016 2017 2020 资料来源:英伟达官网、ICspec 官网、华泰研究 免责声明和披露以及分析师声明是报告的一部分,请务必一起阅读。15 科技科技 NVLink 4 的总带宽可达每秒 900 GB/s,为 PCIe 5.0 总线带宽的 7 倍,也远高于下一代 PCIe 6.0 的 256 GB/s 速率,能满足 AI 和
65、HPC 持续增长的对多节点、多 GPU 系统的计算需求,为深度学习训练提供了更大的延展空间。此外,使用 NVLink 技术的设备有多个路径可供选择,和共享中央集线器的 PCIe 相比,加快了系统的运行速度,提升了数据流和总系统吞吐量。图表图表23:历代历代 PCIe 总线标准总线标准 PCIe 标准标准 单通道数据传输单通道数据传输 速率(速率(GT/s)编码编码 x16 带宽带宽(GB/s)标准批准年份标准批准年份 1.x 2.5 8b/10b 8 2003 2.x 5 8b/10b 16 2007 3.x 8 128b/130b 32 2010 4.0 16 128b/130b 63 20
66、17 5.0 32 128b/130b 128 2019 6.0 64 PAM4/FLIT 256 2022 资料来源:WCCFtech 官网、Rambus 官网、华泰研究 NVSwitch 是是英伟达英伟达的节点交换架构,的节点交换架构,通过通过连接多个连接多个 NVLink,在单节点内和节点间实现,在单节点内和节点间实现多多GPU 的拓展的拓展。NVSwitch 在 2018 年随第二代 NVLink 一起推出,将多个 NVLink 加以整合,实现多对多的 GPU 通信,进一步提高系统的可拓展性。最新的第三代 NVSwitch 采用台积电 4N 工艺打造,能在单个服务器节点中支持 8 到
67、16 个完全链接的 GPU,支持以 900GB/s 的速度互连每个 GPU,保障它们之间的完整点对点通信。图表图表24:NVLink 和和 NVSwitch 协同工作协同工作 资料来源:英伟达官网、ICspec 官网、华泰研究 图表图表25:各代各代 NVSwitch 性能演变性能演变 第一代第一代 第二代第二代 第三代第三代 直接连接的 GPU 数量/节点数量 最多 8 个 最多 8 个 最多 8 个 NVSwitch GPU-to-GPU 带宽 300GB/s 600GB/s 900GB/s 总聚合带宽 2.4TB/s 4.8TB/s 7.2TB/s 支持的 NVIDIA 架构 NVIDI
68、A Volta architecture NVIDIA Ampere architecture NVIDIA Hopper architecture 资料来源:英伟达官网、华泰研究 PCI ExpressNVLinkNVLink+NVSwitch 的演变历程体现了英伟达对通信效率和扩展的演变历程体现了英伟达对通信效率和扩展性的不断追求。性的不断追求。随着深度学习算法的复杂化和规模的扩大,权重、梯度和偏差的同步与交换对通信延迟和高带宽提出了更高的要求。PCIe 在原始带宽、延迟以及缓存一致性等方面限制了 GPU 之间大规模的组合和连接,于高性能计算和数据中心里适用性较低。NVLink和 NVSw
69、itch的推出解决了多个GPU大规模集群的传输,实现更快和更可扩展的计算系统。免责声明和披露以及分析师声明是报告的一部分,请务必一起阅读。16 科技科技 CUDA 软件生态的先发优势构筑英伟达第二护城河软件生态的先发优势构筑英伟达第二护城河 CUDA 工具包包括一系列的编程工具、加速库和框架,可用于协助开发人员更为便捷地进行 GPU 编程和并行计算,其核心竞争力主要在于其硬件集成、完善的社区资源和广泛的应用支持形成的正循环。2023 COMPUTEX 大会上,英伟达 CEO 黄仁勋表示,CUDA 拥有超过 400 万开发人员和超过 3000 个应用程序。受益于英伟达 CUDA 的先发优势与长期
70、耕耘,搭配其新手友好的安装与编程体验,CUDA 庞大的用户群体致使其搭建起由大量专业开发者与领域专家组成的开发者社区。CUDA 也涵盖各类计算应用的代码库资源,这无疑为 CUDA 的学习和应用提供进一步支持。截止 2023 年 5 月,CUDA 下载量已累计超过 4000万次,且仅去年一年便达到 2500 万次。图表图表28:CUDA 软件软件生态圈效应生态圈效应 图表图表29:英伟达不断扩展加速计算生态圈英伟达不断扩展加速计算生态圈 资料来源:英伟达官网、华泰研究 备注:*表示 Cumulative 资料来源:CES 2023、华泰研究 图表图表30:英伟达英伟达 CUDA-X AI 生态圈
71、及相关客户矩阵生态圈及相关客户矩阵 资料来源:英伟达官网、华泰研究 图表图表26:NVLink 与与 NVSwitch 可以纵向扩展,训练大参数模型可以纵向扩展,训练大参数模型 图表图表27:NVIDIA NVLink 4 NVSwitch 示意图示意图 资料来源:英伟达官网、华泰研究 资料来源:英伟达官网、华泰研究 NVLink NVSwitch 免责声明和披露以及分析师声明是报告的一部分,请务必一起阅读。17 科技科技 同类对比下,同类对比下,CUDA 软件生态丰富成熟,在应用广泛性、市场份额和开发者支持方面均较软件生态丰富成熟,在应用广泛性、市场份额和开发者支持方面均较为突出。为突出。由
72、英伟达在 2007 年推出的编程平台 CUDA 先发优势较明显,历年来大量机器学习算法工程师均使用。与 CUDA 生态系统对标的平台方面,OpenCL 虽在通用性上更胜一筹,但其缺少针对并行计算的相关优化及深度学习相关功能库较少;而 AMD ROCm 发布时间较晚,加上此前长期只支持 Linux 导致跨平台能力不足,且对比 CUDA 其在科学计算与深度学习领域的功能库、开发工具和应用支持的完善方面仍有改进空间。目前,虽有众多 算 力 芯 片 厂 商 选 择 兼 容 CUDA 的 路 径 打 开 市 场,如 ROCm 可 以 通 过 HIP(Heterogeneous-Computing Int
73、erface for Portability)兼容,但 CUDA 并未开源,因此100%兼容 CUDA 较为被动。我们认为,CUDA 生态凭借稳定的先发优势与用户粘性,将持续为英伟达的软件生态圈壁垒。图表图表31:CUDA、ROCm 以及以及 OpenCL 三者对比三者对比 CUDA ROCm OpenCL 发布时间发布时间 2007 年 2016 年 2008 年 硬件支持硬件支持 支持 2006 年以来所有的英伟达 GPU 较多支持 AMD 高端 GPU 系列,自 2023 年 6 月 29 日更新的 ROCm 5.6.0 版本开始 逐步向消费级 GPU 拓展 可移植到 NVIDIA、AM
74、D、Intel 等等各种其它硬件设备,包括 FPGA 和 ASIC 除了供应商特定的扩展 操作系统操作系统 Linux 和 Windows 支持 Linux,自 2023 年 6 月 29 日更新的 ROCm 5.6.0版本开始在 Windows 支持部分 AMD 消费级 GPU 支持包括Linux、Windows以及macOS在内的几乎所有的操作系统 功能库功能库 拥有广泛的高性能库,覆盖广泛的终端应用场景,包括资源受限的物联网设备、自动驾驶及超级计算机等领域:九大部分组成的合作伙伴库、八大部分组成的数学库、五大部分组成的深度学习库、四大部分组成的图像和视频库、两大部分组成的通讯库、并行算法
75、库以及计算光刻库 仅包括 CUDA 库中的一部分:由 Linear Algebra Libraries 线性代数库、Fast Fourier Transforms 快速傅里叶变换和 Random Numbers 随机数三部分组成的数学库;rocPRIM、rocThrust 以及 hipCUB 三部分组成的 C+原始库;MIOpen、Composable Kernel 和MIGraphX 三大部分组成的 AI 库和以 RCCL 构成的通讯库 OpenCL 作为通用平台,并行计算能力远不如 CUDA(并行编程模型),并行计算能力只达到后者的 1/10 到 1/200不等,目前很少用于机器学习和深度
76、学习,因此可用的相关库很少 技术细节技术细节 一种使用 CUDA 关键字实现并行化的平台和编程模型;CUDA 提供 C/C+语言扩展和 API,用于编程和管理 GPU。类似于 NVIDIA 的 CUDA,ROCm 支持多种编程语言、编译器、库和工具,目前主要通过异构计算可移植接口(HIP)这种 C+方言来简化 CUDA 应用程序到可移植 C+代码的转换。HIP 提供了 C 风格的 API 和 C+的内核语言。不支持使用 C+编写代码,而是提供了类 C 语言编程工作环境 资料来源:CUDA 官网、run:ai 官网、phoronix、incredibuild、华泰研究 生成式生成式 AI 下下较
77、较复杂复杂的的推理需求或为英伟达推理需求或为英伟达 GPU 赋新机赋新机 长期以来,AI 推理市场一直由 CPU 主导。根据 The nextplatform 在 2023 年 4 月 5 日的报道,数据中心 70%的推理在 Intel Xeon CPU 上运行。主要鉴于过去的 AI 推理任务较为简单,以通用 AI 计算为主,如个性化广告、搜索推荐、中小型模型等应用,这些基础的推理任务 CPU 便可胜任。此外,CPU 在 AI 领域的应用较早,云厂商已建立了大量的基础设施和工具来支持,更换及重新配置的成本或也是考虑因素之一。面对不同的面对不同的 AI 负载负载任务,任务,GPU、CPU 和和
78、ASIC 或分别或分别具有性能和成本优势。具有性能和成本优势。GPU 擅长并行计算,特别适用于深度学习模型中的大规模矩阵计算。相比之下,CPU 更擅长串行计算。因此,面对不同的 AI 负载,不同种类的芯片或能发挥不同的性能和成本优势。虽然 GPU单个成本高于 CPU,但在处理深度学习推理任务时,特别面向较复杂和多模态的 AI 负载,GPU 或能提供更高的性能和效率,从而实现更快的推理速度和更高的吞吐量,节省了部署和运行成本。在 2018 年 9 月,微软发表了一篇 GPU 与 CPU 在深度学习模型推理部署对比的博客:测试中所采用的 3 节点 GPU 集群与 5 节点 CPU 集群的成本大致相
79、同,在该测试所用的模型和框架中,3 节点 GPU 集群的吞吐量优于 5 节点 CPU 集群。免责声明和披露以及分析师声明是报告的一部分,请务必一起阅读。18 科技科技 图表图表32:微软的深度学习推理测试:微软的深度学习推理测试:GPU 与与 CPU 吞吐量对比(张图吞吐量对比(张图片片/秒)秒)资料来源:微软官网,华泰研究 我们认为随着我们认为随着生成式生成式 AI 和和大模型大模型的兴起,的兴起,高高复杂度的推理任务变得更加普遍复杂度的推理任务变得更加普遍,或将推动,或将推动GPU 在推理端的需求。在推理端的需求。对于较大的模型和较复杂的计算任务,CPU 单独来说或不足以满足,未来这部分的
80、推理应用或将从 CPU 转移至 CPU+加速器(ASIC 或 FPGA)或者 CPU 转移至 GPU。英伟达 CEO 黄仁勋也在 8 月 8 日的 SIGGRAPH 2023 表示,在 1 亿美元的预算下,数据中心可以采购 2500 块 GH200 进行推理,功耗为 3MW,能实现同等预算下 x86 CPU方案 12 倍的 AI 推理性能和 20 倍的能效。图表图表33:在在 AI 的通用计算中,推理以的通用计算中,推理以 CPU 为主为主 资料来源:Intel 官网,华泰研究 针对推理市场,英伟达推出了一系列的新品。针对推理市场,英伟达推出了一系列的新品。英伟达的推理平台 GPU 产品组合包
81、括用于AI 视频的 NVIDIA L4、用于图像生成的 NVIDIA L40、用于大型语言模型推理部署的 NVIDIA H100 NVL 和用于推荐模型的 NVIDIA Grace Hopper。这些平台的软件层采用 NVIDIA AI Enterprise 软件套件,包括用于高性能深度学习推理的软件开发套件 NVIDIA TensorRT,以及帮助实现模型部署的开源推理服务软件 NVIDIA Triton Inference Server。020406080100120140KerasTFKerasTFKerasTFKerasTFKerasTFNasNetLargeResnet152NasN
82、etMobileResnet50MobileNetV25CPU1GPU2GPU3GPU 免责声明和披露以及分析师声明是报告的一部分,请务必一起阅读。19 科技科技 图表图表34:NVIDIA 在在 2023 GTC 推出的四款推理产品推出的四款推理产品 资料来源:NVIDIA,华泰研究 图表图表35:NVIDIA AI 推理流程推理流程 资料来源:NVIDIA 官网、华泰研究 图表图表36:英伟达新推理产品与旧版英伟达新推理产品与旧版 GPU、其他厂商、其他厂商 GPU 对比对比 NVIDIA L4 NVIDIA L40 NVIDIA T4 NVIDIA A2 NVIDIA A10 Intel
83、 Data Center GPU Flex 170 Intel Data Center GPU Flex 140 Release Year 2023 2022 2018 2021 2021 2022 2022 Memory Size(GB)24 48 16 16 24 16 12 Memory Type GDDR6 GDDR6 GDDR6 GDDR6 GDDR6 GDDR6 GDDR6 Memory Bus(bit)192 384 256 128 384 256 192 Bandwidth(GB/s)300.1 864.0 320.0 200.0 600.0 512.0 372.0 Pixel
84、 Rate(Gpixel/s)163.20 478.10 101.80 56.64 162.70 262.40 124.80 Texture Rate(Gtexel/s)489.60 1,414.00 254.40 70.80 488.20 524.80 249.60 FP16 half(TFLOPS)31.33 90.52 65.13 9.00 62.50 33.59 15.97 FP32 float(TFLOPS)31.33 90.52 8.14 9.00 31.20 16.79 7.99 FP64 double(GFLOPS)489.60 1,414.00 254.40 70.80 97
85、6.30-Price Unknown Around$9000 Around$1500 Around$1400 Around$9000 Probably around$6000 Probably around$4000 资料来源:英伟达、英特尔、SHI 官网,华泰研究 英伟达英伟达 SWOT 分析分析 我们我们认为认为英伟达的英伟达的 AI 芯片芯片,凭借高算力凭借高算力,以及,以及 NVLink 等独家技术等独家技术,叠加高粘性的,叠加高粘性的 CUDA软件软件生态圈加持生态圈加持,优势显著。优势显著。NVIDIA L40图像生成NVIDIA L4AI视频NVIDIA H100 NVL大型语言
86、模型NVIDIA Grace Hopper推荐系统模型 免责声明和披露以及分析师声明是报告的一部分,请务必一起阅读。20 科技科技 图表图表37:英伟达英伟达 SWOT 分析分析 资料来源:华泰研究 传统芯片巨头:备受期待的突围者传统芯片巨头:备受期待的突围者 AMD 以以 AI 为战略首位,为战略首位,AMD 突围二战能否凯旋?突围二战能否凯旋?AMD 的的 Al 战略主要包括三个方向:战略主要包括三个方向:1)广泛的)广泛的 CPU 和和 GPU 产品组合;产品组合;2)开放稳定且已)开放稳定且已证明(证明(open,steady and proven)的软件平台;)的软件平台;3)ROC
87、m 生态系统。生态系统。CEO Lisa Su 于于 5月月 31 日的福布斯采访时强调“放眼日的福布斯采访时强调“放眼 5 年,将在年,将在 AMD 每一个产品中看到每一个产品中看到 AI”,”,AI 是公是公司目前的战略首位。司目前的战略首位。目前英伟达领军 AI 训练端,但随着 AMD 在 AI 芯片上逐步发力,或能开始撼动英伟达在行业里独占鳌头的地位。我们也认为云厂商应不希望 AI 芯片呈现一家独大的局面,MI300 恰逢其时地出现,为市场提供了英伟达以外的选择。MI300 虽备受瞩目,但截至 2023 年 8 月在客户方面几乎未有正式披露,因此,我们认为,一旦有大型云客户正式宣布部署
88、,或将有效提振市场信心。目前云厂商应还在对 MI300 进行测试和下单阶段,我们将对后续公布的订单情况保持关注。公司在 23Q2 业绩电话会中提到 AI 业务进展势头强劲,截至 23Q2客户对 AI 产品的“参与度”环比增长超过七倍,主要来自 MI300 的新订单和 MI250 的增量订购,MI300 将在本年四季度开始出货。MI300A 和和 GH200:CPU+GPU AI 芯片芯片架构仿生人脑结构架构仿生人脑结构 MI300 系列目前包括两款产品:系列目前包括两款产品:1)MI300X:纯 GPU,由 12 个 chiplets(8 个 GPU+4 个IO+Cache)构成;2)MI30
89、0A:CPU+GPU,由 13 个 chiplets(6 个 GPU+3 个 CPU+4个 IO+Cache)构成。MI300X 作为纯 GPU 产品或对标英伟达 GPU H100,而 MI300A 为APU 架构(Zen 4 CPU+CNDA 3 GPU),与英伟达的异构 CPU+GPU 芯片 GH200 正面交锋。我们认为,我们认为,MI300A 和和 X 是客户在英伟达是客户在英伟达 GPU 之外的有力选择,或也可对之外的有力选择,或也可对 AI 芯片定价造芯片定价造成一定影响。成一定影响。MI300 系列在参数上值得关注的亮点包括:1)MI300X 的 192GB HBM3 内存,领先
90、英伟达H100双卡NVL的188GB HBM3,更远超H100 PCIe和SMX的80GB HBM3,而 MI300A 的 128GB HBM3 内存也不遑多让;2)MI300X 晶体管数量 1530 亿,MI300A晶体管数量1460亿,对比H100的800亿;3)内存带宽5.2TB/s与英伟达H100的2-7.2TB/s相近;4)Infinity Fabric 互联带宽的 896GB/s 与 NVLink 的 900GB/s 也相差无几;5)比H100 高 2.4X 的 HBM 密度,以及 1.6X HBM 带宽。免责声明和披露以及分析师声明是报告的一部分,请务必一起阅读。21 科技科技
91、AMD 在 2023 年 CES 大会和 2023 年数据中心和人工智能首映式上,分别展示了 MI300 的AI 训练和推理能力:1)MI300A 可将 GPT 级别的模型训练时间从“几个月”降低至“几周”;2)单片 MI300X 可推理 400 亿参数的 Falcon 模型。AMD 称这是这种参数规模的大语言模型第一次在单 GPU 上运行(需要注意的是,400 亿参数在如今千亿参数大模型时代并不大,公司主要强调的是单 GPU),公司进而称单片 MI300X 还可推理规模更大的模型,比如 Meta 的 OPT 模型(660 亿参数版本)和 LLaMA(650 亿参数)。若使用 FP16 精度,
92、单片 MI300X 最高可推理 800 亿参数的模型。在在 AMD 的的 MI 系列系列 GPU 中,除中,除 MI300A 以外的所有产品都是纯以外的所有产品都是纯 GPU。AMD MI 系列 GPU始自发布于 2018 年 11 月的 MI50 和 MI60,二者制程都是台积电 7nm(早于英伟达 2020年发布 7nm 的 A100),晶体管数量均为 132 亿,分别有 16GB 和 32GB HBM2。2020 年11 月,AMD 发布 MI100,晶体管数量 256 亿,依然是 7nm 制程和 32GB HBM2。2021 年11 月,MI200 系列(MI250 和 MI250X)
93、发布,对标英伟达 A100,据 AMD 称其可达到 A100 AI 大模型训练性能的 80%;6nm 工艺,582 亿晶体管,128GB HBM2e,其中 MI250 比MI250X 的算力略低。2022 年 5 月 Build 大会上,微软宣布成为部署 MI200 系列的首个云厂商。2023年3月Morgan Stanley TMT大会上微软再次宣布已在云上部署了大量MI250。2022 年 3 月,AMD 正式发布了 MI200 系列的第三个产品 MI210,仅 64GB HBM2e,且算力也比另外两款 MI200 产品约低 50%,是 MI200 系列的基础版。图表图表38:AMD In
94、stinct MI 系列系列 GPU 发展历程发展历程 产品名称产品名称 MI50 MI60 MI100 MI250 MI250X MI210 MI300A MI300X 发布时间发布时间 2018.11 2018.11 2020.11 2021.11 2021.11 2022.3 2023.1 2023.6 峰值峰值算力算力(TFLOPS)FP16:26.82 FP32:13.41 FP16:29.49 FP32:14.75 FP16:184 FP32:23.1 FP16:362.1 FP32:45.3 FP16:383 FP32:47.87 FP16:181 FP32:22.6 相比 MI
95、250 约有 8 倍提升 暂无 工艺制程及芯工艺制程及芯片面积片面积 7nm,331mm2 7nm,331 mm2 7nm,750 mm2 6nm,724 mm2 6nm,724 mm2 6nm,724 mm2 5nm,1017 mm2 5nm,1017 mm2 晶 体 管 数 量晶 体 管 数 量(亿)(亿)132 132 256 582 582 582 1460 1530 内存容量内存容量 16 GB HBM2 32 GB HBM2 32 GB HBM2 128 GB HBM2e 128 GB HBM2e 64 GB HBM2e 128 GB HBM3 192 GB HBM3 内存带宽内存
96、带宽 1024 GB/s 1024GB/s 1.2TB/s 3.2TB/s 3.2TB/s 1.6TB/s 3.2TB/s 5.2TB/s 热 设 计 功 耗热 设 计 功 耗TDP(W)300 300 300 500 500 300 600 700/350(air-cooled)资料来源:AMD 官网、华泰研究 2023年1月,AMD在2023 CES大会上首次推出了CPU+GPU的MI300,后改称MI300A。MI300A 是 MI 系列的第一款 CPU+GPU 异构产品,我们认为 CPU+GPU 架构已成为 AI 芯片的趋势,鉴于 AI 的最终目标是模仿人类大脑的操作,因此 AI 芯片
97、也应仿生人脑结构,并顺应多模态模型的发展需求。如前文所述,英伟达的 Grace Hopper 也是 CPU+GPU 架构。在 AI 应用里,GPU 算力高,针对并行计算,在视频处理、图像渲染等方面的优势毋庸置疑,但并非所有工作负载都是单纯的 GPU-bound,也须由 CPU 进行控制调用,发布指令。因此,在 CPU+GPU 架构里的 CPU 可负责控制及发出指令,指示 GPU 处理数据和完成运算(如矩阵运算)。值得一提的是,MI300A 里的 CPU,AMD 选用了 x86 架构,而 GH200 里的 CPU,英伟达则采用了 ARM 架构。我们认为,两者的选择各有优势。一般来说,ARM架构主
98、要应用于移动端,因此相比 x86 能耗较低,这点不管在 AI 或是数据中心的应用也会受到青睐。我们认为英伟达也是看准这点(公司也曾对 ARM 提出收购),加上在这类CPU+GPU 架构中,CPU 或仅需发挥其部分性能,如向 GPU 发出指令等,其他性能如 AI训练和推理可交由 GPU 负责,因此 ARM 架构已能胜任。反过来,x86 架构则追求高性能和拥有较丰富的指令集,在 AI 里也可分担推理负载,与 GPU 在功能上互补。另外,AMD的 x86 CPU 也主打较高能效(Performance per Watt),因此也符合 AI 和数据中心的条件。免责声明和披露以及分析师声明是报告的一部分
99、,请务必一起阅读。22 科技科技 在面对不同模态数据的推理时,我们认为 CPU 与 GPU 的分工各有不同,因此同时部署 CPU和 GPU 能提供更大的运算支撑。例如,在处理语音、语言和文本时,AI 模型需计算有序,因此或更适合使用擅长串行运算的 CPU;但在处理图像、视频等推理时(对比人类在看到一幅图片时,每一个像素同时进入眼睛),需要大规模并行运算,更适宜由 GPU 负责。图表图表39:2011 年年 AMD 提出提出 APU 概念,将结合概念,将结合 CPU 与与 GPU 在左右脑层面的分工区别和组合构想在左右脑层面的分工区别和组合构想 资料来源:AMD 推特官方、华泰研究 我们认为我们
100、认为 AMD 在在 CPU+GPU 架构具备深厚的架构具备深厚的 know-how。MI300A 虽是 AMD 的首个CPU+GPU 架构的数据中心产品,但其实 AMD 早在 2011 年发布的 APU(Accelerated Processing Unit)已是 CPU+GPU 架构,当时只用于 PC 端。再向前追溯,我们发现 AMD的 CPU+GPU 架构理念较早有迹可循。在 2006 年,当时 AMD 通过收购 ATI 获得 GPU 以及芯片组技术,并在同年开展 AMD Fusion 项目(即后来的 APU),提出将 CPU 和 GPU集成到一颗芯片上的理念,但当时 AMD 的 CPU
101、和 GPU 采用 45nm 制程,将两者放在同一芯片上的难度较大,直到 2011 年,AMD 发布首款 APU 产品 LIano,真正把异构的理念落地。2017 年,AMD 发布的论文 Design and Analysis of an APU for Exascale Computing中讨论了包含 CPU、GPU 和 HBM 内存堆栈的 APU 芯片设计。图表图表40:2011 年年 AMD 的首款的首款 APU 产品产品 Llano:CPU+GPU 结合的设结合的设计第一次落地计第一次落地 图表图表41:2017 年年 AMD 发布的论文中讨论了包含发布的论文中讨论了包含 CPU、GPU
102、 和和 HBM内存堆栈的内存堆栈的 APU 芯片设计芯片设计 资料来源:AnandTech、华泰研究 资料来源:T.Vijayaraghavan et al.,Design and Analysis of an APU for Exascale Computing,2017 IEEE International Symposium on High Performance Computer Architecture(HPCA),Austin,TX,USA,2017,pp.85-96,doi:10.1109/HPCA.2017.42.、华泰研究 免责声明和披露以及分析师声明是报告的一部分,请务必一
103、起阅读。23 科技科技 图表图表42:英伟达及英伟达及 AMD 主要主要 GPU 相关相关产品参数对比产品参数对比 英伟达英伟达 AMD 产品名称产品名称 A100 PCIeSXM H100 PCIeSXMNVL MI250X MI300A MI300X 发布时间发布时间 2020.6 2022.3 2021.11 2023.1 2023.6 峰值峰值算力(算力(TFLOPS)FP16:312624 FP32:19.5 FP64:19.5 FP8:3,0263,9587,916 FP16:1,5131,9793,958 FP32:5167134 FP64:5164134 FP16:383 FP
104、32/64:47.9 FP32/64 Matrix:95.7 暂无 暂无 工艺制程及芯片面积工艺制程及芯片面积 7nm,826mm2 4nm,814 mm2 6nm,724 mm2 5nm,1017 mm2 5nm,1017 mm2 晶体管数量晶体管数量(亿)(亿)540 800 582 1460 1530 内存容量内存容量 80 GB HBM2e 8080188 GB HBM3 128 GB HBM2e 128 GB HBM3 192 GB HBM3 内存带宽内存带宽 1.92TB/s 23.35 TB/s7.8TB/s 3.2 TB/s 3.2TB/s 5.2TB/s Interconne
105、ct 600 GB/s NVLink for 2 GPUs 64 GB/s PCIe Gen4 600900600 GB/s NVLink 125 GB/s PCIe Gen5 100GB/s 约 800GB/s 896GB/s 热设计功耗热设计功耗 TDP(W)300400 x350-400 500 600 暂无 资料来源:AMD 官网、英伟达官网、华泰研究 图表图表43:AMD MI300X 产品实物图(共产品实物图(共 8 个个 GPU chiplets)图表图表44:搭载搭载 8 个个 MI300X 的的 Instinct Platform 资料来源:AMD 数据
106、中心&AI 首映式、华泰研究 资料来源:AMD 数据中心&AI 首映式、华泰研究 图表图表45:单片单片 MI300X 运行运行 400 亿参数的亿参数的 Falcon 模型模型 资料来源:AMD 官网、华泰研究 图表图表46:AMD MI300A 产品实物图产品实物图 图表图表47:AMD MI300A 产品示意图产品示意图 资料来源:AMD 数据中心&AI 首映式、华泰研究 资料来源:CES 2023、华泰研究 免责声明和披露以及分析师声明是报告的一部分,请务必一起阅读。24 科技科技 ROCm 生态圈生态圈会否成为会否成为 AMD 的“阿克琉斯之踵”的“阿克琉斯之踵”?分而治之或可解困分
107、而治之或可解困 AMD 的软件生态圈的软件生态圈 ROCm(Radeon Open Compute Ecosystem)于)于 2016 年年 4 月发布,月发布,相比相比 2007 年发布的英伟达年发布的英伟达 CUDA 起步较晚。目前,起步较晚。目前,ROCm 具备完全兼容具备完全兼容 CUDA 的能力,的能力,为为 AMD 提供了说服客户迁移的条件和理由,然而一味兼容只会导致提供了说服客户迁移的条件和理由,然而一味兼容只会导致 ROCm 受受 CUDA 的掣的掣肘,加上需应对肘,加上需应对 CUDA 的每一次更新迭代,或会导致的每一次更新迭代,或会导致 ROCm 陷入长期被动的局面,陷入
108、长期被动的局面,我们我们认为,认为,这这或或已成为已成为 AMD 的“阿克琉斯之踵”。为了更有效地破解此困境,的“阿克琉斯之踵”。为了更有效地破解此困境,AMD 进行了三进行了三类努力:类努力:1)如上所述持续兼容)如上所述持续兼容 CUDA;2)继续完善)继续完善 ROCm 生态圈;生态圈;3)与)与大型大型云云和互联和互联网网厂商分别进行直接合作,分而治之(厂商分别进行直接合作,分而治之(divide and conquer)与)与 CUDA 脱钩。脱钩。目前,目前,ROCm 有以下三点不足有以下三点不足:1)操作系统)操作系统:长期只支持 Linux,在 2023 年 4 月才宣布登录
109、Windows;反观,CUDA 从 1.0 版就同时支持 Linux 和 Windows;2)产品支持:)产品支持:ROCm长期只支持 AMD 的较高端 GPU,例如 Radeon Pro 系列等,直到 2023 年 4 月才宣布扩展至一些消费级 GPU 如 Radeon RX 6900 XT、Radeon RX 6600、以及 Radeon R9 Fury;反观 CUDA,2006 年发布的 G80 系列及以后所有的英伟达 GPU 都能支持;3)开发者数)开发者数量和生态扩展:量和生态扩展:CUDA 在 2023 年达 400 万以上的开发者,这是 ROCm 暂时无法相比,我们发现,截至 2
110、023 年 8 月 9 日,全球最大的开发者社区之一 StackOverflow 中“CUDA”的标签下已有超过 14000(14259)个问题讨论,而 ROCm 在“amd-rocm”的标签下只有120 个问题讨论;在 Github 上,CUDA 已有超过 33400 个开发者贡献的软件包仓库,而ROCm 只有不到 600(559)个。更多的开发者意味着不断迭代的工具和更广泛的多行业应用,因此 ROCm 需要更多的开发者以形成生态的良性循环。为了破解“阿克琉斯之踵”,为了破解“阿克琉斯之踵”,AMD 进行了三类努力:进行了三类努力:1)AMD 正积极拓展正积极拓展 ROCm 的生态圈:的生态
111、圈:ROCm 从 2023 年 4 月 14 日开始支持 Windows操作系统,终于迈出了来迟的一步。另外,ROCm 在 AI 领域进行了更广泛的框架和软件兼容,已支持 TensorFlow 和 PyTorch 等主流机器学习框架,而且与英伟达和英特尔同属PyTorch 的 Founding Member(PyTorch 在 2022 年 12 月成立的联盟,包括四大云厂商、三大芯片巨头等)一员。软件库方面,优化深度学习库 MIOpen 和计算机视觉和机器智能库 MIVisionX,PyTorch 2.0 也在 2023 年一季度开始提供对 ROCm 的支持。图表图表48:ROCm 支持主流
112、机器学习框架支持主流机器学习框架 图表图表49:PyTorch 中可以选择中可以选择 ROCm 资料来源:AMD ROCm 手册 2022 版、华泰研究 资料来源:AMD ROCm 手册 2022 版、华泰研究 免责声明和披露以及分析师声明是报告的一部分,请务必一起阅读。25 科技科技 丰富丰富 ROCm 软件栈并非软件栈并非 AMD 的一厢情愿,的一厢情愿,AI 初创企业和初创企业和 AI 开发者社区都愿为了更低的开发者社区都愿为了更低的算力成本和更多的芯片选择而助算力成本和更多的芯片选择而助 AMD 一臂之力。一臂之力。我们认为,AI 初创企业对于获取英伟达之外的其他可选算力意愿也不低。2
113、023 年 6 月 30 日 Mosaic ML(初创生成式 AI 公司,MIT 背景)发布了基于 ROCm 使用 AMD 的 MI250 GPU 进行大语言模型的训练日志,称其希望在“这个全由英伟达供应的世界里”提高选择性。日志中,MosaicML“无需转码(no code changes were needed)”基于 AMD 的 MI250 和 ROCm 实现了模型训练。更多类似的尝试将推动 ROCm 的边界向外拓展。2023 年 6 月 14 日 AMD 数据中心与人工智能发布会上,HuggingFace(人工智能开发者社区,开源共享模型和数据集,可认为是 AI 的 Github)宣布
114、与 AMD 建立合作,这项合作的重点正是把 Hugging Face 的 Transformer 库集成进ROCm 中,目的是让用户在 AMD 的芯片上训练和推理在库中的模型时无需其他操作,正如 Hugging Face CEO Clement Delangue 在会上直言“我们希望所有人都能在 AMD 的芯片上运行模型(we want everyone to be able to run their models on AMD hardware)”。在9 月 3 日 OpenAI 也宣布,其 Python 类的开源编程语言 Triton 也开始将 ROCm 并入。图表图表50:AMD 与与
115、Hugging Face 的合作伙伴关系的合作伙伴关系 图表图表51:AMD 与与 Mosaic ML 的合作伙伴关系的合作伙伴关系 资料来源:AMD 数据中心与人工智能首映式、华泰研究 资料来源:MosaicML 官网、华泰研究 图表图表52:MosaicML 希望能同时使用英伟达和希望能同时使用英伟达和 AMD 两套硬件两套硬件+软件软件 资料来源:MosaicML 官网、华泰研究 2)进一步兼容)进一步兼容 CUDA:ROCm 可通过 HIP(Heterogeneous-Computing Interface for Portability)完全兼容 CUDA。HIP 是 AMD 的 G
116、PU 软件开发框架,它提供的 HIPify-perl和 HIPify-clang 工具,可用于 CUDA 到 HIP 的代码转换,转码后可在 AMD GPU 上编译运行,而基于 HIP 开发的应用也可同时用于 AMD 和英伟达的 GPU 上。虽然这种兼容方式依然需要开发者进行一定的转码工作,不过已可大量节省开发者针对 AMD 产品进行代码重新开发的时间。这为这为 AMD 提供了说服客户进行迁移的条件和理由。提供了说服客户进行迁移的条件和理由。但但兼容兼容 CUDA 属权宜之属权宜之计,能让计,能让 AMD 在短期内争取客户和抢占市场。在短期内争取客户和抢占市场。免责声明和披露以及分析师声明是报
117、告的一部分,请务必一起阅读。26 科技科技 3)与云)与云和互联网和互联网厂商等重要客户分别合作,重构自己的库,分而治之,以此与厂商等重要客户分别合作,重构自己的库,分而治之,以此与 CUDA 脱脱钩:钩:长期一味兼容 CUDA 只会导致 ROCm 受 CUDA 的掣肘,加上需应对 CUDA 的每一次更新迭代,会导致 ROCm 陷入长期被动的局面。对云厂商来说,培育 AMD 与英伟达分庭抗礼,能有效影响芯片的定价权力,对重成本的云和互联网厂商来说也符合利益。因此,AMD 和这些厂商有一拍即合的基础,可通过分别与厂商客户合作构建兼容度更高的生态,分而治之与 CUDA 脱钩。例如 2022 年 3
118、 月,微软在其开发的深度学习最优化函数库DeepSpeed 中支持 ROCm,使开发者无需修改代码,就可以直接在 AMD 的 GPU 上运行。图表图表53:AMD HIP 使使 ROCm 可以部署英伟达和可以部署英伟达和 AMD 的的 GPU 图表图表54:微软微软 DeepSpeed 函数库支持函数库支持 ROCm 和和 AMD GPU 资料来源:AMD 官网、华泰研究 资料来源:微软官网、华泰研究 图表图表55:英伟英伟达达 CUDA 软件库及应用场景软件库及应用场景 种类种类 软件包组成软件包组成 功能功能/应用应用 数学库数学库 cuBLAS、cuFFT、cuRAND、cuSOLVER
119、、cuSPARSE、cuTENSOR、AmgX 为分子动力学、计算流体学、计算化学、医学成像和地震勘探等领域的计算密集型应用奠定基础 并行算法库并行算法库 Thrust 用于 C+中的多项运算,并在研究自然科学、物流、旅行规划等领域的关系时与图形一起使用 图像和视频库图像和视频库 nvJPEG、NVIDIA 性能基元、NVIDIA 视频编解码器 SDK、NVIDIA 光流 SDK 用于通过 CUDA 和 GPU 的专用硬件组件来进行图像和视频的解码、编码和处理 通信库通信库 NVSHMEM、NCCL 性能经过优化的多 GPU 和多节点通信基元 深度学习库深度学习库 NVIDIA cuDNN、N
120、VIDIA TensorRT、NVIDIA Riva、NVIDIA DeepStream SDK、NVIDIA DALI 用于利用 CUDA 和专用硬件组件的深度学习应用 合作伙伴库合作伙伴库 OpenCV、FFmpeg、ArrayFire、MAGMA、IMSL Fortran 数值库、Gunrock、CHOLMOD、Triton Ocean SDK、CUVIIib 包含 GPU 加速的开放源代码库等,覆盖矩阵、信号、图像、音频、视频等多种数据类型处理 资料来源:英伟达官网、华泰研究 图表图表56:ROCm 系统对应英伟达系统对应英伟达 CUDA 部分名称部分名称 CUDA ROCm CUDA
121、 API HIP NVCC HCC CUDA 函数库 ROC 库、HC 库 Thrust Parallel STL Profiler ROCm Profiler CUDA-GDB ROCm-GDB NVIDIA-smi ROCm-SMI Direct GPU RDMA ROCm RDMA TensorRT Tensile CUDA-Docker ROCm-Docker cuDNN MIOpen 资料来源:CSDN、华泰研究 免责声明和披露以及分析师声明是报告的一部分,请务必一起阅读。27 科技科技 AMD SWOT 分析分析 我们认为,我们认为,AMD目前最大的短板就在于目前最大的短板就在于R
122、OCm软件软件生态圈的成熟度难敌英伟达生态圈的成熟度难敌英伟达的的CUDA,但但 AMD 拥有突围行业龙头的经验,且产品稳步布局拥有突围行业龙头的经验,且产品稳步布局 AI,MI300 系列竞争力凸显系列竞争力凸显。因此,。因此,我们认为我们认为 AMD 能在群贤毕至的能在群贤毕至的 AI 芯片领域抓住客户拓展二供的需求,再次突围。芯片领域抓住客户拓展二供的需求,再次突围。图表图表57:AMD SWOT 分析分析 资料来源:华泰研究 传统芯片巨头:多元布局的追赶者英特尔传统芯片巨头:多元布局的追赶者英特尔 英特尔在英特尔在 AI 芯片追赶上以芯片追赶上以 ASIC 挂帅挂帅另辟蹊径另辟蹊径 英
123、特尔的英特尔的 AI芯片布局包括芯片布局包括GPU产品产品 Ponte Vecchio(今年(今年一季度一季度已已推出)推出)和下一代和下一代 Falcon(准备在(准备在 2025 年推出)年推出)。在。在 2024 年年的真空期内,公司准备以的真空期内,公司准备以 ASIC 芯片芯片 Gaudi 3 来来填补。填补。2023 年 3 月,英特尔称 Falcon Shores 为其下一个 GPU 产品,取消原定的 Rialto Bridge GPU,直接接棒 Ponte Vecchio GPU,且将 Falcon Shores 从原定的 2024 年推出延后至2025 年推出。这意味着英特尔
124、在 Ponte Vecchio 之后和 Falcon 之前将出现 GPU 真空期。当时,英特尔还发布了加速计算系统和图像组暂代总经理 Jeff McVeigh 的一封信,信中提到公司 GPU 产品的未来发展路径,包括取消一些原定在未来 1 至 1.5 年准备推出的服务器GPU 产品,如 Rialto Bridge,但会将更多资源投放到 Falcon 上。2023 年 5 月,英特尔在 ISC 2023 会议上再次确认 Falcon Shores 将推出仅 GPU 版,而不是之前说的 XPU(CPU+GPU 异构版本)。英特尔解释称,此前确实曾认为 AI 工作负载已经进入成熟阶段(Mature
125、Workload),但目前发现 AI 工作负载依然处在动态阶段(Dynamic Workload),因此 CPU 与 GPU 的比例(CPU-GPU Ratio)难以确定下来故放弃异构设计。2023 年 3 月,负责 Falcon Shores 异构设计的架构师 Raja Koduri 宣布从英特尔辞职,创办自己的生成式 AI 公司。Raja Koduri 在 2017 年 11 月离开 AMD 后加入英特尔,曾是英特尔在 2021 年成立的 AXG 事业群(Accelerated Computing Systems and Graphics,加速计算与图像处理)中加速计算部门的主负责人。20
126、22 年 12 月,AXG 重组分别并入 CCG和 DCAI 后,Koduri 成为英特尔的首席架构师,公司当时称 Koduri 会聚焦高性能计算技术,肩负 AI 架构责任,例如“集成不同类型的芯片”。Koduri 离开后,Jeff McVeigh 担任拆分重组后的 AXG 临时总负责人,同月,McVeigh 在日志中宣布了 Falcon 为下一代 GPU(而非XPU)的消息。免责声明和披露以及分析师声明是报告的一部分,请务必一起阅读。28 科技科技 仅 GPU 的 Falcon Shores 将结合 Gaudi 系列 ASIC 产品的部分 IP(例如网络接口的设计)。因此,在最新的路线图上,
127、Falcon Shores 的位置从 CPU 与 GPU 之间转移到 GPU 与 Gaudi之间。其实,英特尔对 AI 芯片的多元布局由来已久,可以通过梳理其收购历史观察发展脉络:2015 年,英特尔以 167 亿美元收购 FPGA 制造商 Altera,试图以 FPGA 作为加速器,跟 CPU 搭配做 AI 推理;2016 年,公司又以 4.08 亿美元收购 AI 芯片初创公司 Nervana。英特尔当时想通过 Nervana 的 ASIC 芯片 Spring Crest NNP-T 实现 AI 产品,但在 2020 年1 月,英特尔宣布结束四年来的 Nervana ASIC 项目,转而对其
128、在 2019 年 12 月以 20 亿美元收购的 Habana Labs 全力押注 AI。2019 年 4 月,英特尔又收购了又一家 FPGA 初创公司 Omnitek。目前来看,在这些以 AI 芯片为目标的收购中,Habana Labs 应该更能为英特尔提供有效的AI 收益。英特尔目前在 GPU 产品方面暂时掉队,但 ASIC 产品方面的 Gaudi 2 和 Gaudi 3或能有效填补了 2025 年 Falcon Shores 推出前的空白时间。ASIC 芯片 Habana Gaudi 系列:Gaudi 2 目前正在出货,而公司计划将在 2024 年推出 Gaudi 3,英特尔希望以CPU
129、+Gaudi 作为加速器的配合主攻 AI 训练和推理。值得一提的是,英特尔也拥有自己的软件生态 oneAPI,但其同样也难敌 CUDA 的根深蒂固。图表图表58:ISC2022 英特尔将英特尔将 Falcon Shores 规划在规划在 CPU 与与 GPU 之间,之间,ISC2023 移动至移动至 Gaudi 系列和系列和 GPU 之间之间 资料来源:英特尔官网,华泰研究 英特尔的英特尔的 AI 相关相关 GPU 和和 ASIC 芯片芯片 1)Ponte Vecchio GPU:在 2021 年发布,但 2023 年一季度才推出。Ponte Vecchio GPU结构复杂,一共有 47 个功
130、能片,分 5 个制程。英特尔在 2021 年 8 月 19 日的 Architecture Day 宣布 Ponte Vecchio GPU(Xe HPC)的计算层采用了台积电 N5 工艺,基底采用了 Intel 7(对标台积电 7nm),Xe Link I/O 是台积电 N7,另外 Rambo Cache 采用的是 Intel 7,对比 H100 和 MI300 的台积电 N5 制程。晶体管数量超 1000 亿个,高于 H100 的 800 亿,但低于 MI300X 的 1530 亿。内存属 HBM2e,落后于 H100 和 MI300X 的 HBM3。2)Falcon Shores GPU
131、:Falcon Shores 原定为 XPU(即 CPU+GPU 架构)产品,并准备于 2024 年推出,但目前改为纯 GPU 架构,推迟到 2025 年推出。反观,英伟达的 GH200和 AMD 的 MI300A 也属 CPU+GPU 架构的 AI 芯片。目前 Falcon Shores 的产品参数细节还未完全公布,已知道有 288GB 的 HBM3 和 9.8TB/s 的内存带宽,并能支持较低的数据精度,如 BF16 和 FP8。ISC 2022 Falcon Shores CPU+GPU 规划在规划在CPU和和GPU之间之间 ISC 2023 Falcon Shores 仅仅GPU 将结
132、合将结合Gaudi的部分的部分IP 免责声明和披露以及分析师声明是报告的一部分,请务必一起阅读。29 科技科技 3)Habana Gaudi ASIC:Habana Gaudi 是由英特尔在 2019 年 12 月,以 20 亿美元收购的 Habana Labs 设计的 ASIC 芯片。第一款 Gaudi(16nm)于 2019 年 6 月推出,目前已迭代至 Habana Gaudi 2(7nm),在 2022 年末已推出。Gaudi 2 的架构特点是异构的架构特点是异构,包含2 个 MME(Matrix Multiplication Engine,矩阵乘法引擎)和 24 个 TPC(Tens
133、or Processor Core,张量处理核),前者负责处理所有可以转换成矩阵运算的任务,例如卷积、GEMM(General Matrix Multiplication)等,后者处理其他类型的运算。这两种计算引擎可以并行使用,因此两种类型的运算可以重叠进行,这也是 Gaudi2 可有效提高运行 AI 模型速度的原因。Gaudi 主要用于 AI 训练端,并适用于配合公司的 CPU 一同使用,提升 CPU 在 AI的处理效果。下一代的 5nm Gaudi 3,计划在 2024 年推出。图表图表59:英特尔英特尔 Ponte Vecchio GPU 图表图表60:英特尔英特尔 Habana Gau
134、di 2 资料来源:英特尔官网、华泰研究 资料来源:英特尔官网,华泰研究 图表图表61:MME 与与 TPC 异构可以使运算重叠,显著加速工作异构可以使运算重叠,显著加速工作 资料来源:Habana Labs,华泰研究 图表图表62:Habana Gaudi2 产品架构图产品架构图 图表图表63:Habana Gaudi2 与与 A100 的推理延迟基准测试(单位:秒)的推理延迟基准测试(单位:秒)资料来源:Habana Labs,华泰研究 资料来源:Hugging Face,华泰研究 免责声明和披露以及分析师声明是报告的一部分,请务必一起阅读。30 科技科技 ASIC 在特定领域性能具备优势
135、已有先例在特定领域性能具备优势已有先例 受益于架构特点,受益于架构特点,Gaudi 2 在一些基准测试里表现较在一些基准测试里表现较 A100 优秀:优秀:1)推理端)推理端:HuggingFace在 2023 年 3 月对 Habana Gaudi 2 与 A100 进行了大模型(BLOOMZ)推理的基准测试。BLOOMZ 是一个 1760 亿参数的文本生成模型,推理延迟测试的结果显示,Gaudi 2 比 A100快 1.2 倍;还针对小参数版本的 BLOOMZ-7 进行了测试,在 70 亿参数的 BLOOMZ-7 模型推理中,Gaudi 2 比 A100 快 3 倍;2)训练端)训练端:H
136、abana Labs 对 Habana Gaudi 2 与 A100进行了基准测试,运行了两款芯片在 RestNet50 和 BERT 模型训练的测试,称其训练吞吐量可达到英伟达 A100 GPU 的两倍。图表图表64:Habana Gaudi 2 比英伟达比英伟达 A100 快快 2 倍倍 图表图表65:谷歌谷歌 TPU 同样能与英伟达同样能与英伟达 A100 一战一战 资料来源:Habana Labs,华泰研究 资料来源:谷歌,华泰研究 另外,同为 ASIC 的谷歌的 TPU(已发展到第五代),在架构和性能上也不断迭代。根据谷歌对 TPUv4 和 A100 的对比,其在 BERT 和 Re
137、sNet 模型上较 A100 的性能表现分别高 1.15倍和 1.67 倍。然而,想要与英伟达在训练端匹敌,然而,想要与英伟达在训练端匹敌,Gaudi 还要面对还要面对 H100。英伟达在 2022年 11 月对 H100 和 Gaudi 2 进行了对比,在 ResNet 模型上,H100 比 Gaudi 2 快 1.1 倍左右,而在 BERT 模型上,H100 比 Gaudi 2 快 2.4 倍。我们需强调,目前我们需强调,目前 ASIC 仍然面临通用性和灵活性仍然面临通用性和灵活性问题问题,以及开发成本较高等局限,以及开发成本较高等局限,目前目前还未能还未能大规模抢占大规模抢占 GPU 在
138、在 AI 训练市场训练市场的份额。的份额。ASIC 芯片的固定成本较高,因此使用它的公司或机构必需拥有大规模计算需求部署量才能分摊成本。同时,ASIC 开发周期较长,在目前变化多端的人工智能应用里,或会出现硬件开发跟不上算法迭代的情况。但我们也重申,但我们也重申,ASIC 的优点在于当算法开始稳定和成熟,其在一定程度上能承接部分算力。的优点在于当算法开始稳定和成熟,其在一定程度上能承接部分算力。ASIC 也具备专用性、低能耗等优势,在计算量足够的情况下是一个能有效降本增效的合理也具备专用性、低能耗等优势,在计算量足够的情况下是一个能有效降本增效的合理选择。选择。在具体应用中,可考虑 CPU 与
139、 ASIC 同时部署的方案。如今年 5 月英特尔宣布和BCG(波士顿咨询)的一项合作,就使用了 CPU+ASIC 的组合解决方案。BCG(未上市)将结合使用 Xeon 以及 Habana Gaudi 系列产品,为 BCG 以自己在咨询行业多年来的海量文件数据训练出的人工智能模型提供算力支持。类似的行业应用场景广阔,尤其是在行业内积累了大量数据,希望使用 AI 来赋能这些数据的企业。免责声明和披露以及分析师声明是报告的一部分,请务必一起阅读。31 科技科技 图表图表66:英伟达英伟达 H100 比比 Gaudi2 在在 BERT 模型上快模型上快 2.4 倍倍 资料来源:英伟达,华泰研究 英特尔
140、英特尔 AI 芯片芯片 SWOT 分析分析 英特尔目前在制程上仍落后于竞争对手英特尔目前在制程上仍落后于竞争对手。在。在 AI 芯片方面,芯片方面,GPU 产品产品将将出现出现真空期真空期,但收,但收购购 Habana Labs 后会后会为英特尔带来为英特尔带来 Gaudi 系列的系列的 ASIC 芯片芯片,从而从而在在 AI 芯片领域中再获芯片领域中再获生机生机。叠加自身作为老牌叠加自身作为老牌 CPU 龙头龙头厂商,可通过服务器厂商,可通过服务器 CPU+ASIC 加速器加速器来来满足大量的满足大量的AI 训练和推理端算力需求。训练和推理端算力需求。图表图表67:英特尔英特尔 AI 芯片业
141、务芯片业务 SWOT 分析分析 资料来源:华泰研究 免责声明和披露以及分析师声明是报告的一部分,请务必一起阅读。32 科技科技 云计算云计算和互联网和互联网大厂:或大厂:或许许是传统芯片厂商的最大竞争对手是传统芯片厂商的最大竞争对手 我们认为,大型云计算供应商我们认为,大型云计算供应商及互联网巨头及互联网巨头拥有财力物力,面对较高的外购成本和拥有财力物力,面对较高的外购成本和内部研内部研发发 IP 保密保密等因素等因素,选择自己设计,选择自己设计 AI 专用专用芯片芯片并非意外,也许并非意外,也许是是 AMD 和英伟达的高算力和英伟达的高算力GPU 共同的竞争对手。共同的竞争对手。云厂商的目标
142、是降低 TCO(total cost of ownership,总拥有成本),因此我们认为他们具备较高意愿去自研芯片。不过,云厂商自研芯片除了需具备较强的自身研发能力外,也需符合其他条件,包括拥有较多自有的软件生态和应用,鉴于自研和设计定制芯片的固定成本也不低,需要足够的计算需求去摊分成本,而大型云厂商和互联网巨头内部就能产生足够规模的芯片需求。另外,算法也需较为成熟和稳定。一个典型的例子就是挖掘虚拟货币的芯片,鉴于挖掘虚拟货币需要大量芯片和算力,且能耗高,算法稳定并不断重复做同样的计算,因此设计专用的 ASIC 芯片是非常合适。各大云厂商和互联网巨头的 AI 工作负载不仅来自训练大模型和后续
143、推理,还包括信息流推荐、广告排名等 AI深度学习和 Transformer 算法。目前,云厂商和互联网巨头们的自研 AI 芯片进度不同:1)谷歌谷歌在人工智能领域有多年布局,其 TPU 是市场上少数能与英伟达 GPU 匹敌的 AI 芯片;2)亚马逊亚马逊已在训练端和推理端双管齐下,Trainium 和 Inferentia 已上 AWS 云供客户使用;3)微软和微软和 Meta 则依然在较大程度上依赖英伟达、AMD 和英特尔的芯片,但二者同样不甘落后,微软“闭门造芯”Athena已是公开的秘密,而 Meta 的 MTIAv1 则时间较迟,公司预计将于 2025 年问世。图表图表68:海外云大厂
144、和互联网巨头的自研芯片海外云大厂和互联网巨头的自研芯片 注:指 Manufactured by TSMC 资料来源:The Information 官网、各公司官网、华泰研究 谷歌谷歌 TPU:少数能与英伟达高算力:少数能与英伟达高算力 GPU 匹敌的匹敌的 AI 芯片芯片 云厂商自研 AI 芯片的典型例子是谷歌的 TPU(Tensor Processing Unit,从 2017 年开始已具备训练和推理能力)。谷歌谷歌 TPU 是少数能与英伟达高算力是少数能与英伟达高算力 GPU 匹敌的匹敌的 AI 芯片。芯片。谷歌 TPU 在架构与性能参数上不断迭代。第一代 TPU 从 2015 年开始被
145、使用于谷歌云计算数据中心的机器学习应用中,彼时仅面向推理端,但从 2017 年推出第二代开始,TPU 已同时拥有训练和推理能力。第三代 TPU 于 2018 年发布,旨在提高性能和能效以满足不断增长的机器学习任务需求。第四代 TPU 于 2021 年发布,而专为中大规模训练和推理而构建的 TPUv5e 于 2023 年发布。与 TPU v4 相比,TPU v5e 可为大语言模型提供高达 2 倍的训练性能和 2.5 倍的推理性能,并能节约一半以上的成本。谷歌目前仅通过谷歌云服务平台向外部客户提供 TPU 的算力租赁服务,而未有将其作为硬件产品出售。免责声明和披露以及分析师声明是报告的一部分,请务
146、必一起阅读。33 科技科技 图表图表69:2016 年至今谷歌云计算、年至今谷歌云计算、AI 芯片、机器学习及芯片、机器学习及 AI 应用赋能进程梳理应用赋能进程梳理 资料来源:谷歌官网、华泰研究 值得强调的是值得强调的是 TPU 属于定制化属于定制化 ASIC 芯片,是专门针对谷歌自身的开源深度学习框架,芯片,是专门针对谷歌自身的开源深度学习框架,TensorFlow 和和 Jax 量身打造并全面优化的集成芯片,在此二框架下能发挥出较高运行效量身打造并全面优化的集成芯片,在此二框架下能发挥出较高运行效率,率,因此其他学习框架在 TPU 上运行的效率或不及 TensorFlow。图表图表70:
147、GPU 与与 TPU 优缺点对比优缺点对比 GPU TPU 优点优点 1.灵活性和通用性:灵活性和通用性:GPU 可处理多种任务,包括图形渲染、模拟和科学计算等,以及机器学习工作负载。2.生态圈成熟:生态圈成熟:GPU 已被广泛应用于深度学习,围绕它构建了丰富的软件和工具生态系统,如 CUDA。3.精度:精度:GPU 提供从低精度 FP16 到高精度 FP64 等各种选项,使它适用于具有不同精度要求的工作负载。1.性能:性能:TPU 专为张量运算而设计,因此在特定情况下,神经网络的训练和推理效率更高。2.能效:能效:从单元上看,TPU 或比 GPU 更节能。3.集成性:集成性:TPU 与一些的
148、机器学习框架(如 TensorFlow)集成在一起,因此在一同使用下效率或更高。缺点缺点 1.能耗:能耗:从 per unit 角度看,GPU 或会比 TPU 高。2.成本:成本:从 per unit 角度看,高性能 GPU 价格或较高,但从 TCO 来看或更节省。1.生态系统:生态系统:英伟达 GPU CUDA 优势较为明显,其他芯片较难与之相比 2.必须要在谷歌云上使用:必须要在谷歌云上使用:TPU 主要通过 Google Cloud Platform 提供,芯片没有对外售卖。资料来源:谷歌、CSDN、Openmetal、华泰研究 ControlCacheALUDRAM 免责声明和披露以及
149、分析师声明是报告的一部分,请务必一起阅读。34 科技科技 谷歌谷歌 TPU 的应用可以分为两类,分别是对内承担的应用可以分为两类,分别是对内承担 AI 工作负载和其他应用,以及对外在云工作负载和其他应用,以及对外在云服务上提供给客户。对内:服务上提供给客户。对内:根据路透社 4 月 5 日的报道,目前谷歌内部 90%的 AI 工作负载都使用 TPU,例如在拥有 5400 亿参数的 PaLM 模型训练中,就使用了 6144 个 TPU v4;今年的 PaLM2 也是采用 TPU v4 来训练。除 AI 工作负载之外,TPU 也已广泛应用于翻译、相册、搜索、Google 助理和 Gmail 等众多
150、 Google 产品。对外:对外:谷歌云服务同时提供 GPU和 TPU 给客户选择。谷歌云上 TPU 相比 GPU 的价格:A100 80GB 价格为 3.93 美元/芯片/小时,TPU v4 价格为 3.22 美元/芯片/小时;但 TPU 的应用也在一定程度上受到英伟达CUDA 生态圈一家独大的影响。谷歌云上的 TPU 相比 GPU 的价格虽较有优势,但在一定程度上受到英伟达 CUDA 生态圈一家独大的影响。谷歌云作为 AI 云服务商,需积极满足有 AI 训练和推理需求的客户,而英伟达 GPU 拥有生态圈成熟和开发者众多的 CUDA,是目前大部分 AI 训练所必需的工具。总的来说总的来说:1
151、)谷歌的)谷歌的 TPU或其他或其他云厂商云厂商的的自研芯片不会在一夜之间取代所有英伟达的自研芯片不会在一夜之间取代所有英伟达的 GPU;2)若算法已相对成熟,可使用)若算法已相对成熟,可使用 TensorFlow 框架编程并在框架编程并在 TPU 上上运行运行,可有效利用其优可有效利用其优化和加速,节省成本,是性价比较高的选择;化和加速,节省成本,是性价比较高的选择;3)面对英伟达)面对英伟达 CUDA 的成熟生态圈,云厂的成熟生态圈,云厂商自研芯片无需以完全取代作为目标,而仅需为客户提供更多算力选择即可有效打开市场。商自研芯片无需以完全取代作为目标,而仅需为客户提供更多算力选择即可有效打开
152、市场。TensorFlow 在深度学习里的生态虽成熟,使用者众,但其他机器学习库如 PyTorch 的开发者或也有自己的偏好:深度学习框架的主流为 Meta 开发的 PyTorch 和谷歌开发的TensorFlow。2015 年,谷歌宣布开源 TensorFlow。2016 年 11 月发布了 TensorFlow 的第一个正式版本,主要基于 Python 和 C+,推出后很快超过 Torch、Theano 和 Caffe 等一众框架。2016 年,Meta 发布 PyTorch,也是基于 Python 和 C+等机器学习热门编程语言,由于上手简单,很快受到开发者青睐。另外,谷歌大脑另外,谷歌
153、大脑(Google Brain)团队于团队于 2017 年年开发了开发了 JAX,提供,提供 TPU 和和 GPU 都都能能使用的深度学习软件库。使用的深度学习软件库。基于 Jax 构建的软件库包括谷歌大脑的 Trax、Flax、Jax-md 及 DeepMind 的神经网络库 Haiku 和强化学习库 RLax 等。TPU 针对矩阵乘法进行专门的优化针对矩阵乘法进行专门的优化 矩阵乘法是机器学习中非常关键的计算步骤矩阵乘法是机器学习中非常关键的计算步骤,目前各类大模型基于的 Transformer 是注意力机制,涉及大量的矩阵运算,特别是矩阵乘法,而 GPU 非常擅长于矩阵运算。与通用计与通
154、用计算算 GPU 相比,相比,TPU 也是也是针对矩阵乘法进行了专门的优化针对矩阵乘法进行了专门的优化,采用脉动阵列(Systolic Array),对大规模矩阵乘法可以最大化数据复用,减少访存次数,大幅提升机器学习的训练速度,同时节约训练成本。在 TPUv4 中有 2 个 TensorCore,每个 TensorCore 中有 4 个 MXU(矩阵乘法单元),MXU 采用的是脉动阵列。典型的脉动阵列将数据转为向量形式输入 MXU,并进行矩阵乘法得到结果。TPU v5e,相对于 TPU v5(未发布),是以 e 为后缀的高效版本,因此从架构复杂度看跟 TPUv4 相差不大。TPU v5e 的算
155、力为 393 TOPS(int8),包含1 个 TensorCore,而每个 TensorCore 中有 4 个 MXU(矩阵乘法单元),这点跟 TPUv4 一样。每个 TPU 可通过芯片间互连(ICI)以 400Gbps 的速度连接到另外四个 TPU(最多支持 256 个芯片互连),因此,单片 TPU v5e 的累积带宽为 1.6T。TPU v5e Pod 是由 256 个TPU v5e 芯片组成,总带宽超过 400 Tb/s,每秒可提供高达 100 PetaOps(int8)。免责声明和披露以及分析师声明是报告的一部分,请务必一起阅读。35 科技科技 图表图表71:脉动阵列卷积加速示意图脉
156、动阵列卷积加速示意图 资料来源:谷歌官网、CSDN(脉动阵列:因 Google TPU 获得新生)、华泰研究 图表图表72:五代五代 TPU 性能对比性能对比 TPUv1 TPUv2 TPUv3 TPUv4 TPUv5e 发布年份发布年份 2016 2017 2018 2021 2023 每颗芯片的峰值计算能力每颗芯片的峰值计算能力 (TFLOPS)92(int8)46(bf16)123(bf16)275(bf16 or int8)197 TFLOP(bf16)HBM2 容量与带宽容量与带宽 28 GiB,34 GB/s 32 GiB,700 GB/s 32 GiB,900 GB/s 32 G
157、iB,1200 GB/s 16 GB,819 GBps 最小最小/平均平均/最大测量功耗最大测量功耗(W)-123/220/262 90/170/192-TPU Pod 规模(芯片数量)规模(芯片数量)-256 1024 4096 256 互连拓扑结构互连拓扑结构 -2D torus 2D torus 3D torus 2D torus 每个每个 Pod 的峰值计算能力的峰值计算能力(PFLOPS)-12(bf16)126(bf16)1100(bf16 or int8)-每个每个 Pod 的的 All-reduce 带宽带宽(TB/s)-120 340 1126.4-每个每个 Pod 的切分带
158、宽的切分带宽(TB/s)-2 6.4 24-目标应用场景目标应用场景 仅推理端 训练&推理端 训练&推理端 训练&推理端 训练&推理端 资料来源:谷歌官网、nextplatform 官网、华泰研究 脉动阵列卷积加速示意图脉动阵列卷积加速示意图MXU:典型的典型的脉动阵列脉动阵列TPU结构示意图结构示意图 免责声明和披露以及分析师声明是报告的一部分,请务必一起阅读。36 科技科技 图表图表73:TPU v2/v3/v4/v5e 对比图对比图 资料来源:谷歌官网、华泰研究 谷歌在内部使用 GPU 的主要场景之一是为 TPU 进行基准测试。2023 年 4 月 4 日谷歌发布关于 TPU v4 的论
159、文TPU v4:An Optically Reconfigurable Supercomputer for Machine Learning with Hardware Support for Embeddings 中就提到,以A100为基准做了对TPUv4的测试。根据论文,在相似芯片规模的系统中,TPU v4 在 BERT 模型上比 A100 快 1.15倍,而在 ResNet 模型上比 A100 快 1.67 倍;在 MLPerf 3.0 基准测试上的功耗使用情况,A100 能耗为 TPUv4 的 1.3-1.9 倍。与微软 Azure 中布置的 A100 相比,谷歌云的 TPU v4在
160、BERT 上最多可节省 35%的训练成本,在 ResNet 上最多可节省 50%。图表图表74:谷歌使用谷歌使用 TPUv4 训练训练 5400 亿参数的亿参数的 PaLM 模型模型 资料来源:Chowdhery A,Narang S,Devlin J,et al.Palm:Scaling language modeling with pathwaysJ.arXiv preprint arXiv:2204.02311,2022、华泰研究 免责声明和披露以及分析师声明是报告的一部分,请务必一起阅读。37 科技科技 图表图表75:BERT 模型中使用模型中使用 TPU v4 相比相比 A100 能
161、节省能节省成本成本 注:具体计算方法及假设见谷歌云 Blog https:/ 资料来源:谷歌官网、华泰研究 图表图表76:论文展示论文展示-TPU v4 在不同机器学习任务上性能优于在不同机器学习任务上性能优于 A100 图表图表77:论文展示论文展示-TPU 对对 FLOPS 利用率高达利用率高达 46.2%资料来源:谷歌官网、华泰研究 资料来源:谷歌官网、华泰研究 谷歌云上提供英伟达的 GPU 包括 A100、V100、P100、L4、P4、T4 等,多种训练和推理芯片供客户选择,进行机器学习、科学计算和 3D 可视化等应用。最近的使用案例包括在2023 年 I/O 大会上发布的 AI 超
162、级计算机 A3,每台配备 8 个英伟达 H100,面向需要训练大语言模型的谷歌云客户,最高可提供 26000 片 H100 的算力。A3 虚拟机的训练速度是上一代 A2 的3倍,网络带宽达A2的10 倍,并支持大规模拓展。在2023年8月的Google Cloud Next23 大会上,谷歌正式宣布 A3 将于 2023 年 9 月全面上市。推理端方面,谷歌发布了G2 VM,是业界首款由英伟达推理芯片 L4 Tensor Core GPU 提供支持的云 VM。谷歌 TPU 的云上客户包括许多人工智能初创企业,如:1)著名的 AI 文本到图像生成软件Midjourney(未上市),2023年 3
163、月宣布正在使用TPUv4训练 Midjourney的第四代大模型;2)AI 生命科技公司 InstaDeep(未上市),2022 年 11 月宣布使用 512 片 TPUv4 成功训练了基因组学大模型;3)微软创始人 Paul Allen 的 AI 研究所 Allen Institute for AI(AI2,未上市);4)为企业提供 NLP(自然语言处理)模型的 Cohere(创始人来自谷歌大脑)。谷歌谷歌 TPU SWOT 分析分析 谷歌作为云大厂中自研芯片的先行者和谷歌作为云大厂中自研芯片的先行者和 AI 领域的奠基者之一,其自研领域的奠基者之一,其自研 TPU 针对矩阵乘法针对矩阵乘法
164、优化,适合训练大模型,且具备价格优势,但优化,适合训练大模型,且具备价格优势,但 ASIC 存在存在通用性较弱通用性较弱等等问题。问题。因此,因此,我们我们认为认为 TPU 或其他或其他云大厂云大厂自研芯片不会取代所有英伟达的自研芯片不会取代所有英伟达的 GPU,但若算法已相对成熟,设,但若算法已相对成熟,设计计 ASIC 去去取代部分算力则挺合适。取代部分算力则挺合适。免责声明和披露以及分析师声明是报告的一部分,请务必一起阅读。38 科技科技 图表图表78:谷歌谷歌 TPU SWOT 分析分析 资料来源:华泰研究 亚马逊亚马逊 AWS:Trainium&Inferentia,训练推理双管齐下
165、,训练推理双管齐下 AWS 分别在分别在 2018 和和 2020 年发布年发布 AI 推理芯片推理芯片 Inferentia 以及训练芯片以及训练芯片 Trainium,随后随后在在 2023 年推出年推出 Inferentia 2,并并在在 AWS 云上提供给客户使用。云上提供给客户使用。2015 年,亚马逊收购了以色列芯片设计公司 Annapuma Labs,开启了其自研 AI 芯片的脚步,2018 年的第一代Inferentia 就出自它手。AWS 的 AI 芯片搭配有 AWS Neuron 开发软件包,其中包含里可用于兼容 TensorFlow 和 PyTorch 的编译器。2023
166、 年 5 月,亚马逊表示计划将其自研大语言模型“Alexa Teacher Model”(AlexaTM)接入智能语音助手 Alexa。Alexa 此前已接入亚马逊 Echo 智能音箱等智能硬件设备,且使用 Inferentia 进行推理。图表图表79:AWS Inferentia2 芯片架构芯片架构 图表图表80:AWS Trainium 芯片架构芯片架构 资料来源:AWS 官网、华泰研究 资料来源:AWS 官网、华泰研究 免责声明和披露以及分析师声明是报告的一部分,请务必一起阅读。39 科技科技 Trainium 在云端训练表现或较在云端训练表现或较 A100 好,性价比好,性价比也也较高
167、。较高。Trainium 是 AWS 为超过 1000亿参数规模的大模型打造的 AI 芯片,2020 年发布,目前仍处于第一代。每一个 Trainium配备容量 32GB 带宽 820GB/s 的 HBM2e,FP16 算力 190 TFLOPS(英伟达 A100 为 624 TFLOPS),FP32 算力 47.5 TFLOPS,支持包括可配置的 FP8 在内的多种数据精度。其使用的互联技术为 AWS 的 NeuronLink(超高速非阻塞互连技术,v2 代),互联速度达到 768 GB/s,对比 NVLink 4.0 互联速度为 900GB/s。据 AWS 官网,Trainium 实例内存
168、比英伟达A100 实例内存容量高 60%,互联带宽高 2 倍,在 130 个 Trainium 实例上训练 GPT-3 只需要 2 周,而据英伟达与微软论文Efficient Large-Scale Language Model Training on GPU Clusters Using Megatron-LM使用 1024 颗 A100 进行训练需要 34 天。2022 年,AWS 推出的 Trn1 AI 平台可以部署最多 16 个 Trainium,在 AWS 云上进行 AI 模型训练。相较于同类型的 Amazon EC2 实例,以 Trainium 为支撑的 Trn1 实例节约 50%
169、训练成本,在亚马逊广告模型训练中更是将节约成本高至 70%。图表图表81:130 片片 Trainium 需要两周就可以完成需要两周就可以完成 GPT-3 训练训练 图表图表82:AWS 的的 in-house 大语言模型大语言模型 Alexa Teacher Model 资料来源:AWS 官网、华泰研究 资料来源:AWS 官网、华泰研究 推理卡推理卡 Inferentia 已迭代两代,用于亚马逊硬件终端已迭代两代,用于亚马逊硬件终端 AI 服务。服务。2018 年推出的第一代Inferentia 配备 8 GB 带宽为 50GB/s 的 DDR4 内存,于 2023 年 4 月正式推出的第二
170、代Inferentia 2 配备 32 GB 带宽为 820GB/s 的 HBM2e 内存,FP16 算力达到 190 TFLOPS,相比一代 Inferentia(64 TFLOPS)提高 2 倍,主要为高性能深度学习推理应用程序而设计。据亚马逊官网,相比第一代延迟降低至前者的 1/10,吞吐量提高了 4 倍。由于大规模终端设备 AI 模型对云端推理能力要求较高,而自研 AI 芯片等信息基础设施和自身应用可针对性地进行相互适配与优化,Amazon 人工智能助手 Alexa 使用以 Inferentia 为支撑的 Inf 实例进行推理负载。与与 AWS 生态捆绑,借助云服务进行推理卡客群逐步渗
171、透。生态捆绑,借助云服务进行推理卡客群逐步渗透。除此之外,客户可通过开发工具包 AWS Neuron,通过 Amazon Sagemaker(AWS 机器学习平台)、Amazon Elastic Container Service(ECS,AWS 容器托管方案)、Amazon Elastic Kubernetes Service(EKS)等服务快速开始使用 Inf 和 Trn 实例,分别使用底层 Inferentia 和 Trainium 芯片能力。目前 AWS 上使用 Inferentia 承担推理工作负载的客户包括 Airbnb(爱彼迎,房屋租赁平台,ABNB US)、Snap(图片类社交
172、媒体平台,SNAP US)、Sprinklr(SCRM 社交媒体营销公司,客户包括麦当劳、耐克、微软等,CXM US)、Money Forward(金融科技公司,3994 JT)、Finch Computing(AI 初创公司,主要为政府机构等设计 AI 应用程序,未上市)等;使用 Inferentia2 的客户包括 Hugging Face(机器学习公司,主要项目为 BLOOM 模型库)、Qualtrics(自动化管理软件公司,客户包括法拉利、阿迪达斯等,未上市)、Finch Computing(亦为 Inf1 客户)等。免责声明和披露以及分析师声明是报告的一部分,请务必一起阅读。40 科技
173、科技 图表图表83:使用使用 inf1 实例将推理服务部署到实例将推理服务部署到 AWS ECS 容器托管集群容器托管集群 资料来源:AWS 官网、华泰研究 微软:“闭门造芯”微软:“闭门造芯”Athena 微软早在微软早在2010年年开始开始已已希望自研希望自研AI硬件,当时以外采硬件,当时以外采FPGA然后自己搭建运算平台然后自己搭建运算平台为为主。主。FPGA 的方案最早由微软的计算机架构研究员、FPGA 专家 Doug Burger 提出。据半导体行业观察梳理,微软自研 FPGA 的第一阶段采用了单板多 FPGA 的方案,即每块加速卡上集成 6 片 Xilinx Virtix-6 FP
174、GA,各 FPGA 之间通过自身的通用 I/O 端口相连和通信,但整体稳定性存在隐患,若一块FPGA出问题,整个板卡都会出问题。第二阶段从单板多FPGA,变成了单板单 FPGA。但是,这种方案为实现 FPGA 之间的低延时通信,FPGA 之间的互联需要通过两类特殊定制的线缆,成本高昂且实现难度较高。第三阶段为解决互联问题,取消了 FPGA 互连的网络,直接将 FPGA 与数据中心网络互连,提出了 HaaS(硬件即服务)的概念。2017 年起,微软宣布其已在 Azure 和 Office 365 中扩展了 FPGA 的使用,且采取外部采购 Intel 和 Xilinx 等厂商的 FPGA 进行每
175、一台新 Azure 服务器的搭建。图表图表84:第一阶段:第一阶段:单板多单板多 FPGA 方案方案 图表图表85:第二阶段第二阶段:单板单单板单 FPGA 方案方案 资料来源:微软官网、半导体行业观察(Shilicon)、华泰研究 资料来源:微软官网、半导体行业观察(Shilicon)、华泰研究 图表图表86:第三第三阶段:阶段:Catapult FPGA 与数据中心网络紧密连接与数据中心网络紧密连接 资料来源:A Cloud-Scale Acceleration ArchitectureMicrosoft Corporation、华泰研究 免责声明和披露以及分析师声明是报告的一部分,请务必
176、一起阅读。41 科技科技 目前,微软云目前,微软云 Azure 已开始自研已开始自研 AI 芯片,芯片代号为芯片,芯片代号为 Athena。The Information 2023 年4 月 18 日的报道称,微软至少从 2019 年开始研发代号为“Athena”的新芯片组。据 Toms Hardware 2023 年 4 月 18 日消息,Athena 使用台积电 5nm 制程,专门为大语言模型训练设计。据彭博社 5 月 4 日报道,微软将注资 AMD 并开展合作,目前合作研发的微软 AI 芯片即为 Athena,希望为 ChatGPT 等大语言模型的训练及推理提供英伟达芯片以外的替代方案。
177、随后 5 月 5 日,微软发言人 Frank Shaw 表示 AMD 参与“Athena”项目的报道不实,但却并未明确微软与 AMD 的合作关系。事实上,微软和 AMD MI 系列早有合作。2022 年5月,微软宣布Azure将成为首个部署AMD MI200系列GPU进行大规模AI加速的公有云。AMD Instinct MI200 加速器将协同其他 AMD 产品共同被用于微软 Azure 上,包括全新的使用 AMD 3D V-Cache 技术第三代 AMD EPYC 处理器的 Azure HBv3 虚拟机。此外,微软还宣布正在与 AMD 数据中心软件团队以及 PyTorch Core 团队密切
178、合作,以确保 PyTorch项目开发者可充分利用 AMD Instinct 加速器的性能与功能。目前,官方仍未透露关于 Athena的具体架构及参数信息。我们认为,大型云计算供应商拥有财力物力,面对在我们认为,大型云计算供应商拥有财力物力,面对在 AI 应用需求激增下较高的外购成本和应用需求激增下较高的外购成本和较有限的较有限的供应供应,选择自己,选择自己研发研发 AI 芯片也是无可厚非,且微软与芯片也是无可厚非,且微软与 OpenAI 的合作中用到大量的合作中用到大量的英伟达芯片。我们认为云计算大厂的英伟达芯片。我们认为云计算大厂也也希望出现一个二供选择。希望出现一个二供选择。图表图表87:
179、The Information 报道微软报道微软 Athena 芯片芯片 图表图表88:The Verge 报道微软报道微软 Athena 芯片芯片 资料来源:The Information、华泰研究 资料来源:The Verge、华泰研究 Meta:首个自研推理端芯片:首个自研推理端芯片 MTIA 将于将于 2025 年问世年问世 Meta 在在 2023 年年 5 月发布了主要针对推理工作的自研月发布了主要针对推理工作的自研 AI 芯片芯片 MTIA(Meta Training and Inference Accelerator)。)。此芯片自 2020 年开始设计,公司预计于 2025
180、年正式推出,采用台积电 7nm 制程。MTIAv1 是针对推理端的产品,使用最高 128GB 的 LPDDR5 内存,RISC-V 架构,配合基于 PyTorch 的软件包。如其他云厂商自研 AI 芯片一样,MTIA 也是针对公司内部应用和模型量身定做的 ASIC,尤其是针对 Meta 旗下产品所需要的 feed(信息流页面,如 Instagram 的用户浏览界面)贴文推荐算法进行了优化,相比通用芯片能实现降本增效。免责声明和披露以及分析师声明是报告的一部分,请务必一起阅读。42 科技科技 图表图表89:MTIA 产品实物图产品实物图 图表图表90:Meta MTIA v1(主要针对推理端)芯
181、片产品图(主要针对推理端)芯片产品图 资料来源:Meta 官网、华泰研究 资料来源:Meta 官网、华泰研究 Meta 的超级计算机由约的超级计算机由约 16,000 片英伟达片英伟达 A100 构成,已用于构成,已用于 LLaMA 模型训练。模型训练。目前,Meta 还没有推出专用于训练阶段的芯片。Meta 的 AI 超级计算机 RSC(Research Super Cluster,研究超级集群)由约 16,000 片英伟达 A100 构成(2000 台英伟达 DGX A100),通过 NVIDIA Quantum InfiniBand 16 Tb/s 结构网络连接。Meta 表示其使用 R
182、SC(除此外还包括由 A100 组成的内部生产集群)来训练其在 2023 年 2 月发布的 70-650 亿参数的开源大模型 LLaMA,其中 650 亿参数的 LLaMA 模型在 2048 片英伟达 A100 上花费 21 天预训练完成。2023 年 7 月,Meta 发布免费可商用版本 LLaMA2,与一代相比,LLaMA2 作为其升级版本包括 70 亿、130 亿和 700 亿三个参数版本,使用 1.4 倍容量的数据集,并采用了分组查询注意力机制,同样使用 RSC 工作负载进行预训练。据 Meta 评估,多项测评结果显示 LLaMA 2 在推理、精通性、编码和知识测试等诸多外部基准测试中
183、均优于其他开源语言模型。和谷歌和谷歌 TPU 相比,相比,Meta MITA 不具先发优势,不具先发优势,RSC 超算性能或被超算性能或被谷歌压制。谷歌压制。对比来说,谷歌 TPU 和 Meta MTIA 同为互联网厂商自研的 ASIC 芯片。目前 TPU 已用于训练 PaLM-2和 Imagen 等大型生成式 AI 模型,而 MTIA 落地情况仍然未披露。谷歌 2022 年发表的论文PaLM:Scaling Language Modeling with Pathways显示,初代 PALM 模型(5400 亿参数)在 6144 颗 TPU v4 芯片上进行了 1200 小时(50 天)的训练
184、,并分散到 3072 颗 TPU v4 芯片上进行了 336 小时的训练。另外,谷歌 AI 超级计算机 A3 目前拥有 26,000 个 Nvidia H100 GPU,在算力(Meta RSC 可高至 5 exaFLOPS,谷歌 A3 可高至 26 exaFLOPS)及规模上均领先于 Meta RSC。Meta AI 团队:重振旗鼓角逐生成式团队:重振旗鼓角逐生成式 AI 赛场。赛场。Meta AI 团队前身为 2013 年成立的 Facebook AI 研究院,由 Yann LeCun 带领(2018 年图灵奖得主),多年来持续投入资金支撑包括社交媒体人脸识别与自动标注功能在内的 AI 工
185、作研发。继 2022 年 8 月 Meta 对话机器人BlenderBot 3 受迫于主流媒体“政治不正确”舆论压力而关停,11 月 Meta 大语言模型Galactica 上线 48 小时后因散布错误信息被迫下线。屡屡受挫之后,根据路透社 5 月 9 日消息,Meta 于 2023 年初收购了一支位于挪威奥斯陆的团队,该团队在英国芯片独角兽 Graphcore 开发 AI 网络技术(AI networking technology),自此 Meta 开始其在生成式 AI领域奋起直追的步伐。2023 年 2 月,Meta 开源其大模型 LLaMA,首席执行官马克扎克伯格宣布将成立一个由 Ahm
186、ad Al-Dahle(Meta 生成式 AI 事业群副总裁,曾于苹果工作 16年)引领的新生成式人工智能团队,将专注于开发能够以包括文本(WhatsApp和Messenger中聊天数据)、图像(创意 Instagram 滤镜和广告格式)、视频和多模式等在内的多种方式协助用户的 AI 角色。此后,Meta 4 月发布 SAM 图像分割模型,5 月发布其自研芯片 MTIA,并于 7 月开放 LLaMA 商业版本。Meta 发布的 MTIA 及其开源贡献的历史或表明该公司致力于推进 AI 软件及硬件研究的决心。免责声明和披露以及分析师声明是报告的一部分,请务必一起阅读。43 科技科技 图表图表91
187、:SAM 模型总览示意图模型总览示意图 资料来源:Segment AnythingMeta AI Research、华泰研究 异军突起者:晶圆级芯片持续突破性能极限,内存和异军突起者:晶圆级芯片持续突破性能极限,内存和传输传输成破局关键成破局关键 AI 大模型对训练端的算力提出了更高要求,新兴初创 AI 芯片企业(如 Cerebras、Graphcore等),以及芯片行业以外的企业,包括特斯拉(TSLA US)等,正在异军突起,试图在芯片设计上另辟蹊径,通过大尺寸晶圆级芯片通过大尺寸晶圆级芯片内存共享和低延时内存共享和低延时的技术路线的技术路线突破突破 AI 芯片瓶颈芯片瓶颈,试图在持续上升的
188、算力需求中抢占份额。我们认为我们认为晶圆级芯片的优势在于晶圆级芯片的优势在于其提出了其提出了有效有效应对应对AI应用中内存和传输速度的瓶颈应用中内存和传输速度的瓶颈的措施的措施。具体来说具体来说:1)大尺寸晶圆内核比传统芯片上的互连更加紧密,提升内核之间以及跟内存之间的通信速度,降低延迟并提供更快传输速度;2)晶圆级芯片所有内存都保留在芯片上,而不必考虑片外内存速度缓慢,内核可直接访问整个晶圆级芯片的全局共享内存,突破内存带宽瓶颈。但晶圆级芯片但晶圆级芯片由于尺寸大由于尺寸大,因此或,因此或存在良率低存在良率低、功耗高功耗高、框架定制化需求高框架定制化需求高等问题。等问题。低良率问题直接增加制
189、造成本,同时影响芯片后续量产和质量。虽然目前基本是通过增加冗余面积及内核数量的方式以绕过制造缺陷,但仍较难完全解决良率与性能之间的平衡。大尺寸芯片的设计也会导致功率增加,出现高耗能和散热问题,影响稳定性,目前解决方案主要通过增加液冷、风冷和水冷散热模块。我们认为,晶圆级芯片在内核、SRAM、内存带宽、晶体管几方面的表现,或能吸引到 B 端的高性能计算行业成为其主要客户。但但短期来看短期来看,晶圆级芯片的有效运行面积与晶圆面积之比例仍未可知。,晶圆级芯片的有效运行面积与晶圆面积之比例仍未可知。长期来看,我们认为长期来看,我们认为晶圆晶圆级芯片的瓶颈若能给突破,将能对传统技术路径发起重大挑战。级芯
190、片的瓶颈若能给突破,将能对传统技术路径发起重大挑战。Cerebras:向晶圆级大尺寸芯片迈出第一步,但良率和有效运行占比暂成疑:向晶圆级大尺寸芯片迈出第一步,但良率和有效运行占比暂成疑 Cerebras Systems(未上市)成立于 2015 年,是一家美国人工智能芯片初创企业,由 Andrew Feldman 等五位前 SeaMicro 员工创立,目前在硅谷、圣地亚哥、多伦多、东京、和班加罗尔设有办公室。SeaMicro(未上市)成立于 2007 年,是一家小型低功率计算机服务器厂商,2012 年被 AMD 以 3.34 亿美元收购,2015 年开始停止运营。2019 年年 8 月,月,C
191、erebras Systems 发布发布第一代第一代 WSE(Wafer-Scale Engine,晶圆级引擎),晶圆级引擎)芯片。芯片。到了到了 2021 年年 4 月,月,Cerebras Systems 推出为超级计算机而打造的推出为超级计算机而打造的 WSE-2,在第,在第一代的基础上进行了优化。一代的基础上进行了优化。WSE 与传统芯片最大的不同在于整片晶圆不进行切割。而在芯与传统芯片最大的不同在于整片晶圆不进行切割。而在芯片结构上,片结构上,WSE 对内存和横向扩展也采用了独特的设计。对内存和横向扩展也采用了独特的设计。单块 WSE-1 拥有 1.2 万亿个晶体管,采用台积电 16
192、nm 制程工艺,面积 46,225 平方毫米,包含 40 万个内核,片上存储18G,功耗 1.5 万瓦,内存带宽 9PB/秒,通信结构带宽 100PB/秒。WSE-1 的内核为专为AI 训练设计的可编程计算内核,即稀疏线性代数(Sparse Linear Algebra,SLA)内核。对比当时英伟达的旗舰 GPU Titan V,其采用 12nm 制程,晶体管数为 211 亿,12GB HBM2内存,内存带宽 652.8GB/秒,最大功耗 250W,包含 5120 个 CUDA 内核以及 640 个 Tensor内核,而 WSE-1 晶体管数量是其 57 倍,内核数是其 70 倍,功耗是其 6
193、0 倍。换言之,WSE-1 单个晶圆芯片或能达到约 60 个 GPU 的性能水平。免责声明和披露以及分析师声明是报告的一部分,请务必一起阅读。44 科技科技 图表图表92:WSE-1 对比当时英伟达的旗舰对比当时英伟达的旗舰 GPU Titan V 图表图表93:WSE-2 对比当时英伟达的旗舰对比当时英伟达的旗舰 A100 资料来源:Cerebras 官网、华泰研究 资料来源:Cerebras 官网、华泰研究 单块 WSE-2 在面积上没有明显变化,但内核、晶体管、内存带宽、通信结构带宽,对比第一代都有 2 倍以上的提升,主要鉴于 WSE-2 为台积电 7nm 制程工艺,并在一定程度上缩小了
194、 SRAM,可以容纳更多内核。WSE-2 拥有 2.6 万亿个晶体管,内核数达 85 万个。WSE-2采用 40GB SRAM 内存,可平均分配到整个晶圆芯片的表面。对比当时英伟达旗舰 GPU A100 也为台积电 7nm 制程,面积 826mm,晶体管数量为 542 亿,内存带宽 2.039 TB/s,片上内存 80GB HBM,功耗 400W,包括 6,912 个 CUDA 内核以及 432 个 Tensor 内核。WSE-2 具备 27.5PB/s Fabric 带宽,对比 A100 采用 GPU 到 GPU 的互连所达到的 600GB/s Fabric 带宽。WSE-2 以约 200
195、倍的价格,达到 A100 晶体管数的 48 倍,内核数的 123 倍,内存带宽的 12733 倍,功耗的 50 倍。图表图表94:WSE-1 和和 WSE-2 性能指标对比性能指标对比 性能指标性能指标 Wafer Scale Engine 1 Wafer Scale Engine 2 英伟达英伟达 A100 发布时间 2019 2021 2020 内核 400,000 850,000 6,912 CUDA+432 Tensor 制程 台积电 16nm 台积电 7nm 台积电 7nm 面积 46,225mm 46,225mm 826mm 晶体管 1.2 万亿 2.6 万亿 542 亿 SRAM
196、 18 GB 40 GB 40 MB 内存带宽 9 PB/s 20 PB/s 2.039 TB/s 通信带宽 100 Pb/s 220Pb/s 600 GB/s 能耗(系统/芯片)20 kW/15 kW 20 kW/15 kW 400W 售价 约 200 万美元 约 300 万美元 约 1.5 万美元 资料来源:Cerebras 官网、英伟达官网、华泰研究 Cerebras WSE-1 定价为定价为 200-300 万美元,相当于约万美元,相当于约 200 片英伟达片英伟达 A100,WSE-2 则更高。则更高。高昂的成本可能对大规模商业化造成一定阻碍,客户群的扩充势必对成本的降低提出更高高昂
197、的成本可能对大规模商业化造成一定阻碍,客户群的扩充势必对成本的降低提出更高的要求,而目前我们仍未看到的要求,而目前我们仍未看到 Cerebras 在成本方面有降低的提示。在成本方面有降低的提示。当然就目前来看,WSE主要面向高校、研究机构以及政府等预算充足的客户,包括美国国家能源技术实验室(NETL),葛兰素史克(GlaxoSmithKline),日本东京电子器件株式会社(Tokyo Electron Devices),匹兹堡超级计算中心(the Pittsburgh Supercomputing Center),以及爱丁堡大学(the University of Edinburgh)等。免责
198、声明和披露以及分析师声明是报告的一部分,请务必一起阅读。45 科技科技 图表图表95:WSE-2 介绍介绍 图表图表96:WSE-2 SwarmX 示意图示意图 资料来源:Cerebras 官网、华泰研究 资料来源:Cerebras 官网、华泰研究 从流程上来说,WSE-2 首先在整片直径约 300 毫米(12 英寸)的晶圆上做出一个个传统晶粒(Die),每个晶粒含有约 10,000 个核心。与传统芯片不同的是,WSE-2 不将单个晶粒切割出来,而是在整片晶圆内切割出一个边长 215 毫米的方块,方块包含 84 个晶粒,共有 85 万个计算核心。我们认为,内存离计算内核越近,计算速度就越快,延
199、迟越短,功率也越少。对比对比传统传统芯片芯片架构使用共享中央架构使用共享中央 DRAM,其其存取速度存取速度较较慢慢且距离较且距离较远远。目前主流技术。目前主流技术使用使用中介层(中介层(interposer)和)和 HBM 等技术等技术来解决这问题来解决这问题,但人工智能但人工智能深度学习要求每个内核都深度学习要求每个内核都在最高在最高水平水平运行,运行,使得使得内核和内存之间内核和内存之间距离须尽量缩短距离须尽量缩短。Cerebras 的方案试图通过在每个核心配置 48 KB 的本地 SRAM,并以 8 个 32 位宽的单端口 bank,以及 256B 的软件管理缓存(供频繁访问的数据结构
200、使用)使其具备高密度,解决内存瓶颈问题,实现全速访问。另外,大模型的高算力对横向扩展也提出了更高的要求。WSE 架构能够以数据并行扩展的方式在单个晶圆芯片运行所有模型,内核通过为数据并行专门设计的 SwarmX 通信方式(允许模型以线性方式扩展)以网格结构连接,从而实现模块化和低成本扩展。图表图表97:Cerebras WSE-2 结构示意图结构示意图 图表图表98:Cerebras WSE-2 内存设计示意图内存设计示意图 资料来源:Cerebras 官网、华泰研究 资料来源:Cerebras 官网、华泰研究 此外,公司针对性地设计了此外,公司针对性地设计了 Cerebras CS-2 系统
201、,用单块系统,用单块晶圆晶圆芯片实现集群级计算。芯片实现集群级计算。CS-2是一个系统级解决方案,由以下三个部分组成:1)一个 WSE-2 晶圆级芯片、2)Cerebras系统、以及 3)Cerebras 软件平台。CS-2 高 26 英寸(15 个机架单位),可容纳标准数据中心机架的三分之一。Cerebras 指出,GPU 数据中心可能需要几周或几个月的时间来设置,并需要大量超参数调优以及数十个数据中心机架,而 CS-2 仅需要几分钟即可设置完成,只需将基于标准 100 千兆以太网连接插入交换机,就可以训练模型。免责声明和披露以及分析师声明是报告的一部分,请务必一起阅读。46 科技科技 大芯
202、片设计也无法避免高功耗带来的散热挑战。大芯片设计也无法避免高功耗带来的散热挑战。Cerebras WSE 采用液冷和风冷两套散热系统,其功耗高达 15KW,需在仅有 46,225 平方毫米的芯片上散发出来。CS-2 内置定制电源传输和冷却技术,使芯片能够在低于传统芯片工作温度下保持全速运行。CS-2 内部的一套水冷散热系统,用水冷来对 WSE-2 散热,再由风冷来降低水温。图表图表99:CS-2 散热系统散热系统 图表图表100:CS-2 内部构成示意图内部构成示意图 资料来源:Cerebras 官网、华泰研究 资料来源:Cerebras 官网、华泰研究 在良率提升上,在良率提升上,晶圆级芯片
203、尝试通过设计额外面积晶圆级芯片尝试通过设计额外面积以及冗余内核来以及冗余内核来绕过缺陷绕过缺陷。一般来说,在相同工艺制程下,芯片面积越小良率越能有保证。芯片制造的缺陷会随着芯片面积的增长而同时大幅增加。当蚀刻电路时,晶圆会产生一些无法修复的缺陷区域,在同样的缺陷分布下,晶圆分割的数量越少,裸片越大,缺陷的影响就越大。据 AnandTech 于 2021 年4 月的报道,Cerebras 必须建立额外面积,并设计 1.5%的内核冗余,以提升良率。公司表示,通过台积电的高级金属层(high-level metal layers)工艺,加上 Cerebras 的训练和自动校正能力,实现高效、源同步、
204、数据并行的晶粒对晶粒(die-to-die interface)接口,即便在制造过程中存在瑕疵,整个晶圆的结构也能做到完全均质(uniform fabric)。然而,即便 Cerebras 可能使用了 1.5%的额外内核,绕过制造缺陷来实现更高良率,但由于芯片的整体面积过大,导致晶圆级芯片最终能够运行的部分,占总面积比例或不会特别理想,但公司则未公布这一比例数字。Cerebras 认为,使大模型普及既需要解决基础算力,也需要向开发者社区提供更多的开源认为,使大模型普及既需要解决基础算力,也需要向开发者社区提供更多的开源。为此,他们设计了为此,他们设计了 Cerebras-GPT 开源大语言模型
205、,并开源大语言模型,并与云计算服务提供商与云计算服务提供商 Cirrascale(未(未上市)合作上市)合作建立建立 Cerebras AI Model Studio,在其专为深度学习,在其专为深度学习所所设计的设计的 CS-2 上上提供提供大大模型模型训练服务。训练服务。Cerebras AI Model Studio 云服务分为固定参数价格和微调模型价格,按固定参数的定价最低为在 10 小时内训练一个 13 亿参数的 GPT-3 模型,需要 2500 美元,最高为在 85 天内训练 700 亿参数的 GPT 模型,需要 250 万美元。根据 Cerebras,平均来说,用户为完成同等工作而
206、支付的租用成本是其他竞争者的一半,基于 CS-2 的云实例训练速度是英伟达 A100 云实例的 8 倍。免责声明和披露以及分析师声明是报告的一部分,请务必一起阅读。47 科技科技 图表图表101:Cerebras AI Model Studio 固定价格表固定价格表 资料来源:Cirrascale、华泰研究 Cerebras 的技术背景多来自于过去的技术背景多来自于过去 SeaMicro 的成员,在的成员,在 Fabric 服务器领域积累深厚。服务器领域积累深厚。SeaMicro 为一家从事 Fabric 服务器的公司,其早期产品 SM15000 在 2 个机架中高达 512核的 10RU 和
207、 5PB 的存储,也是唯一一家拥有超过 1.28 Tbps 带宽的第二代 Fabric 服务器的公司,于 2015 年被 AMD 收购。图表图表102:Cerebras 技术团队背景技术团队背景 职位职位 姓名姓名 履历履历 首席技术官 Gary Lauterbach AMD 服务器 CPU 部门首席技术官;SeaMicro 联合创始人和 CTO 首席硬件架构师 Sean Lie AMD 数据中心首席架构师;SeaMicro 首席硬件架构师(IO virtualization fabric ASIC)首席系统架构师 Jean-Philippe Fricker DSSD 高级硬件架构师;SeaM
208、icro 首席系统架构师 首席先进技术架构师 Michael James SeaMicro 首席软件架构师(分布式系统软件)硬件工程高级副总裁 Dhirai Mallick 英特尔数据中心业务首席技术官和架构副总裁;SeaMicro 工程副总裁 软件工程高级副总裁 Vinay Srinivas Synopsys 仿真工程副总裁;Archpro Design Automation 研发副总裁;Sequence Design 研发副总裁 资料来源:Cerebras 官网、华泰研究 Cerebras 目前已进行六轮融资,总额达到约目前已进行六轮融资,总额达到约 7.2 亿美元。亿美元。最近一轮为 2
209、021 年 11 月进行的F 轮融资,金额为 2.5 亿美元,由 Alpha Wave Ventures 和 Abu Dhabi Growth Fund 领投,估值超过 40 亿美元。图表图表103:Cerebras 融资历程融资历程 融资时间融资时间 轮次轮次 金额金额 投资者投资者 估值估值 2021 年 11 月 F 轮 2.50 亿美元 Alpha Wave Ventures,Abu Dhabi Growth Fund,&G42 40+亿美元 2019 年 11 月 E 轮 2.72 亿美元-24 亿美元 2018 年 11 月 D 轮 8,800 万美元 Altimeter,VY C
210、apital,Coatue,Foundation Capital,Benchmark,&Eclipse-2017 年 1 月 C 轮 6,000 万美元 VY Capital-2016 年 12 月 B 轮 2,500 万美元 Coatue Management-2016 年 5 月 A 轮 2,700 万美元 Benchmark,Foundation Capital&Eclipse Ventures-资料来源:Wikipedia、Crunchbase、华泰研究 免责声明和披露以及分析师声明是报告的一部分,请务必一起阅读。48 科技科技 图表图表104:Cerebras SWOT 分析分析 资
211、料来源:华泰研究 Graphcore:Bow IPU 实现精细数据多指令并行实现精细数据多指令并行 Graphcore(未上市)(未上市)是是一家专注于研发人工智能芯片一家专注于研发人工智能芯片及及打造计算机系统的打造计算机系统的初创初创公司公司,2016年在英国布里斯托成立年在英国布里斯托成立。Graphcore通过通过智能处理器智能处理器IPU(Intelligence Processing Unit)提供满足人工智能计算的存储要求,包括低时延访问、使用非结构化数据以及管理随机与提供满足人工智能计算的存储要求,包括低时延访问、使用非结构化数据以及管理随机与非时序数据模式。非时序数据模式。图
212、表图表105:IPU 性能介绍性能介绍 图表图表106:基于台积电基于台积电 SoIC-WoW 多晶圆堆叠多晶圆堆叠 3D 封装技术封装技术 资料来源:Graphcore 官网、华泰研究 资料来源:Graphcore 官网、华泰研究 Graphcore 的的计算系统应用在中外众多行业的人工智能中,包括科学研究、气象预测等领计算系统应用在中外众多行业的人工智能中,包括科学研究、气象预测等领域。域。Graphcore 与阿里云(BABA US)、百度(BIDU US)、金山云(KS US)、腾讯云(00700 HK)、戴尔(DELL US)、神州数码(000034 CH)、鑫联大(大联大控股旗下,
213、3702TT)等展开了合作。目前,Graphcore 正在努力切入中国市场,为中国大型互联网公司提供硬件服务,如百度深度学习平台飞桨正式发布在 Graphcore IPU 上实现训练和推理全流程支持的开源代码库,飞桨模型库如 ERNIE 等也逐步在 IPU 上实现支持;与腾讯共同推出腾讯云公有云上的 IPU 产品;以及支持阿里云深度学习开放接口标准。Graphcore 也发布了中国首款 IPU 开发者云,部署在金山云的数据中心。此外,微软曾与 Graphcore 达成合作,并发布 Azure 上 Graphcore IPU 的预览版。免责声明和披露以及分析师声明是报告的一部分,请务必一起阅读。
214、49 科技科技 图表图表107:IPU 产品示意图产品示意图 资料来源:Graphcore 官网、华泰研究 2022 年年 3 月月,Graphcore 推出推出 Bow IPU,是一种全新的大规模并行处理器,是一种全新的大规模并行处理器,主要用于加主要用于加速速 AI 计算计算。Bow IPU 采用台积电采用台积电 7nm 制程工艺,并基于台积电制程工艺,并基于台积电 SoIC-WoW(System on IC Wafer on Wafer)多晶圆堆叠)多晶圆堆叠 3D 封装技术。封装技术。通过采用背面硅通孔 TVS(Through-silicon via)技术,在现有底部的计算晶圆上堆叠一
215、个拥有供电裸片的晶圆,产生一个新的 3D 裸片,分别用于人工智能处理和实现降低电压的功效,使得设备的性能和能效均得到提升。Bow IPU具备高运算能力以处理高性能计算和负载。单个封装中包含超过600亿个晶体管、1,472个独立处理器内核和8,832个可并行执行的独立线程。FP16算力达350 TeraFLOPS,0.9GB 处理器内存储,带宽达 65TB/s,10 x IPU-Links 达 320GB/s 芯片到芯片的传输带宽。图表图表108:Graphcore IPU 产品与产品与 CPU 和和 GPU 的区别的区别 资料来源:Graphcore 官网、华泰研究 免责声明和披露以及分析师声
216、明是报告的一部分,请务必一起阅读。50 科技科技 图表图表109:IPU 内部架构内部架构 资料来源:Graphcore 官网、华泰研究 IPU 采用采用 MIMD(Multiple Instruction&Multiple Data)架构,具有多指令和多数据并行架构,具有多指令和多数据并行的特点,适用于精细化和高性能计算,的特点,适用于精细化和高性能计算,与英伟达 GPU 采用的常规 SIMT(Single Instruction Multiple Thread)架构不同。IPU 强调细粒度并行性,可以在较小的数据块上运行单独的处理线程,而每个线程有不同代码和执行流程,因此不会损失性能。为了
217、减少内存延迟时间,为了减少内存延迟时间,IPU 摒弃了共享内存并在架构上采用大规模分布式的片上摒弃了共享内存并在架构上采用大规模分布式的片上 SRAM,存储器与每个内核紧密,存储器与每个内核紧密耦合。耦合。SRAM 提供了比 DRAM 更高带宽(45 TB/s)和更低延迟(6 个时钟周期),主要适用于自然语言处理、计算机视觉、图神经网络等领域的人工智能及图计算。图表图表110:Graphcore IPU 内存架构内存架构 资料来源:Graphcore 官网、华泰研究 免责声明和披露以及分析师声明是报告的一部分,请务必一起阅读。51 科技科技 IPU 采用多核通信技术采用多核通信技术 BSP(B
218、ulk-Synchronous Parallel),芯片内,芯片内包含包含 1,000 多个内核多个内核,同时同时多芯片多芯片实现实现跨跨 IPU 连接。连接。通过硬件支持 BSP 协议,将 IPU 计算逻辑分成了计算、同步、交换三个阶段。每个阶段处理器仅需本地内存、交换数据和等待同步,从而使并行算法在BSP 模型中清晰呈现。由于无需处理 Java 平台的线程同步机制锁(Locks),IPU 能降低了编程的复杂性。图表图表111:Graphcore IPU BSP 技术技术 资料来源:Graphcore 官网、华泰研究 在良率提升方面,在良率提升方面,Graphcore 也是通过增加冗余核心来
219、实现。也是通过增加冗余核心来实现。Graphcore 表示,IPU 使用分布式的存储技术,每块芯片上集成了 300MB 的内存和海量异步核,通过增加冗余内核和芯片面积,减少易受缺陷影响的“有效面积”,从而提升大芯片良率以及控制成本。在散热改善方面,Graphcore 通过在表面区域使用各种形状的散热孔来改善散热问题。图表图表112:Graphcore 管理团队简介管理团队简介 管理层管理层 职位职位 简介 Nigel Toon 联合创始人兼 CEO 曾担任两家由风投支持的芯片公司 CEO,领导并建立了多项半导体业务 Simon Knowles 联合创始人、CTO 兼工程执行副总裁 IPU 的创
220、始设计师,拥有近 30 年的经验,一直从事针对新兴工作负载的新型处理器设计工作 卢涛 总裁、大中华区总经理和执行委员会成员 拥有近 20 年芯片领域经验,全面负责公司在大中华区的业务 资料来源:Graphcore 官网、华泰研究 Graphcore 目前已进行了六轮融资,总额达到约目前已进行了六轮融资,总额达到约 6.82 亿美元。亿美元。最近一轮为 2020 年 12 月进行的 E 轮融资,金额为 2.22 亿美元,由 Ontario Teachers Pension Plan 领投,估值达25 亿美元。图表图表113:Graphcore 融资融资 日期日期 轮次轮次 金额金额 主要投资者主
221、要投资者 估值估值 2020 年 12 月 E 轮 2.22 亿美元 Ontario Teachers Pension Plan 25 亿美元 2020 年 2 月 D 轮 1.50 亿美元 Mayfair Equity Partners 15 亿美元 2018 年 12 月 D 轮 2 亿美元 BMW i Ventures,微软 15 亿美元 2017 年 11 月 C 轮 5,000 万美元 红杉资本-2017 年 7 月 B 轮 3,000 万美元 Atomico-2016 年 10 月 A 轮 3,000 万美元 Amadeus Capital Partners,Bosch Ventu
222、res,三星战略与创新中心-资料来源:Crunchbase、华泰研究 免责声明和披露以及分析师声明是报告的一部分,请务必一起阅读。52 科技科技 图表图表114:Graphcore SWOT 分析分析 资料来源:Graphcore 官网、华泰研究 特斯拉特斯拉:Dojo 超算为自动驾驶而生超算为自动驾驶而生,为公司四大全栈自研科技支柱之一为公司四大全栈自研科技支柱之一 2021 年年 8 月月,特斯拉特斯拉(TSLA US)在在 AI Day 里首次介绍里首次介绍 Dojo 超级计算机超级计算机,一个一个基于基于 D1 Dojo 芯片芯片的的晶圆上晶圆上(System on Wafer)系统级
223、方案。)系统级方案。特斯拉计划利用 Dojo 对海量的视频数据进行无监督学习,加速特斯拉的 Autopilot 和完全自动驾驶(FSD)系统的迭代,同时为特斯拉的人形机器人 Optimus 提供算力支持。根据特斯拉 23Q2 财报发布会和科技媒体 The Verge 于 7 月 20 日报道,特斯拉列出四大全栈自研自动驾驶的科技支柱:超大现实数据、神经网络训练、车载硬件和车载软件。当中,Dojo 超级计算机将提供更快和性价比更高的神经网络训练方案,已在 7 月开始量产。图表图表115:Dojo 分布式架构示意图分布式架构示意图 资料来源:Hot Chips 34、华泰研究 免责声明和披露以及分
224、析师声明是报告的一部分,请务必一起阅读。53 科技科技 Dojo 架构架构能提供能提供高宽带和低延迟高宽带和低延迟的性能,的性能,其采用台积电 InFO_SoW(晶圆上集成扇出,Integrated Fan-Out System on Wafer)技术。InFO_SoW 技术整合了 InFO 技术、动力和散热模块。通过通过将晶圆将晶圆作为载体本身,作为载体本身,不使用不使用衬底和衬底和 PCB,从而获得从而获得低延迟的芯片间通信、低延迟的芯片间通信、高带宽密度和低配电网络阻抗,高带宽密度和低配电网络阻抗,以提升以提升计算性能和功耗效率。计算性能和功耗效率。Dojo 的数据传输方向与芯片平面平行
225、,供电及水冷却方向与芯片平面垂直。从从 D1 Dojo 芯片芯片到到 Dojo ExaPOD:D1 Dojo 芯片芯片采用台积电 7nm 制程工艺,芯片面积为645 平方毫米,晶体管数量达 500 亿。每个每个 Dojo D1 芯片芯片虽由 360(18 x 20)个 Dojo 核心拼接构成,但为了提升良率和处理器核心稳定,其中只有只有 354 个个 Dojo 内内核核可用。25 颗颗D1 Dojo 芯片芯片(5x5 排列)集成到一枚一枚 Dojo Training Tile 上,以二维 Mesh 结构无缝互连。6 枚枚 Dojo Training Tiles(整块 12 英寸重构晶圆)安装在
226、铜质散热盘上盘上(tray),可为芯片提供刚度并将散热能力从 7 KW 提升至 15 KW。2 个盘子个盘子安装在一起成为 1 个柜子个柜子(cabinets),包含 4,248 个内核(354 x 6 x 2)。最后,10 个柜子个柜子一起成为机柜集群 Dojo ExaPOD,而每个 Dojo ExaPOD 算力达到算力达到 1.1 ExaFLOPs(1018浮点运算),等于 1,100 PFLOPS 或内置 3,000 个 D1 芯片(25 x 6 x 2 x 10)。Dojo ExaPOD 集成 120 个训练模块(6 x 2 x 10),拥有 1.3TB 的高速 SRAM 和 13TB
227、 的高宽带 DRAM。图表图表116:D1 Dojo 芯片芯片 资料来源:Hot Chips 34、华泰研究 图表图表117:Dojo 结构示意图结构示意图 图表图表118:Dojo Training Tile 性能性能 资料来源:Tesla AI Day(2021)、华泰研究 资料来源:Tesla AI Day(2021)、华泰研究 Dojo D1 芯片芯片 免责声明和披露以及分析师声明是报告的一部分,请务必一起阅读。54 科技科技 D1 Dojo 芯片芯片的算力为:BF16/CFP8 达 362 TFLOPS,FP32 达 22.6 TFLOPS,热设计功耗达 400W。每个接口处理器(D
228、IP)包括 32GB 的 HBM(800GB/s 存储带宽)、900GB/s对外传输带宽(特斯拉自定义的 TTP 协议)、32GB/s PCIe Gen4 接口,以及 50GB/s 以太网带宽(特斯拉自定义的 TTPoE 协议)。每个 Dojo 节点都有一个内核,具有 CPU 专用内存和 I/O 接口,而每个内核则拥有一个 1.25MB SRAM 作为主存储器。Dojo 架构通过矩阵计算单元增强算力,SRAM 能以 400GB/s 速度加载,并以 270GB/s 速度存储。Dojo Training Tile 包含了一整层液冷模块和铜质结构两种散热设计。每个边缘带宽为4.5TB/s,每个模组功
229、率 15kW,通过低延迟和高带宽实现大量的计算集成。Dojo Training Tile采用直流电直接输入模式,单枚模组的总电流高达 18000A。Dojo ExaPOD 集群体积约为 1.5 立方英尺,在 15 kW 液冷封装中能实现每秒 556 万亿次FP32 浮点运算。特斯拉在 2021 年 AI Day 表示,准备于 Palo Alto 数据中心里放置 7 台 Dojo ExaPOD;公司也预计,2024 年 10 月算力的总规模将达 100 Exa-Flops。内存方面,特斯拉主要利用计算网格中的分布式 SRAM,通过大量更快更近的片上存储和片上存储之间的流转减少对内存的访问频度,来
230、提升整个系统的性能。图表图表119:特斯拉特斯拉 Dojo 系列产品系列产品 名称名称 层级层级 片上片上 SRAM 算力算力 说明说明 Dojo Core 内核 1.25MB 1.024 TFLOPS 单个计算核心,64 位处理器,运行频率为 2GHz Dojo D1 芯片 442.5MB 362 TFLOPS 单芯片,由 354 个内核组成一颗芯片,面积为 645mm2 Dojo Training Tile 模组 11GB 9050 TFLOPS 单枚训练模组,由 25 颗芯片组成一个训练模组 ExaPOD 集群 1320GB 1.1 EFLOPS 单个训练集群,由 10 个机柜组成,包含
231、 3000 个 D1 芯片(120 个训练模块)资料来源:Tesla AI Day(2021&2022)、华泰研究 在良率问题上在良率问题上,特斯拉特斯拉 2022 年年 8 月在月在 Hot Chips 大会上表示,也可通过增加冗余核心数大会上表示,也可通过增加冗余核心数量,保证芯片即使存在个别杂质量,保证芯片即使存在个别杂质,也能正常运行也能正常运行,从而提升芯片良率。从而提升芯片良率。每个 Dojo D1 芯片虽由 360(18 x 20)个 Dojo 核心拼接构成,但为了提升良率和处理器核心稳定,其中仅只有 354 个核心可用。在散热问题上在散热问题上,特斯拉表示通过全自研的特斯拉表示
232、通过全自研的 VRM(Voltage Regulator Module,电压调节模组)解决电压调节模组)解决 Dojo 超算平台的散热控制超算平台的散热控制。通过 MEMS 振荡器(Oscillator)技术来感知电源调节模组的热形变,从而主动调节电源功率,满足芯片运行对热膨胀系数(CTE,Coefficient of Thermal Expansion)指标的要求。特斯拉的自研 VRM 在过去 2 年内迭代了 14 个版本,目前单个 VRM 可以在不足 25 美分硬币面积的电路上,提供 52V 电压和超过 1000A 的电流。在在 2022 年年 9 月月 30 日的日的 AI Day 上,
233、上,特斯拉公布了 Dojo 的未来路线图,同时也表示,AI团队正在研发新版本的Dojo超级计算机组件,其中包括Dojo D2芯片、Dojo Training Tile V2、Dip V2 以及 DNIC V2。特斯拉计划通过持续改进 Dojo 的硬件以突破现有算力瓶颈,同时预计相较于原有版本,新版本 Dojo 超级计算机性能将提升近 10 倍。在软件层面,FSD 或已实现落地层面的重要突破。6 月 26 日,马斯克在 X(推特)宣布,特斯拉将在 2023 年推出 L4-L5 级全自动驾驶汽车,从 V12 版本开始,FSD 将去掉 Beta 后缀,或将意味着 FSD 将成为正式版。当地时间 8
234、月 26 日,马斯克在硅谷帕洛阿尔托(Palo Alto)的街道上直播测试特斯拉全自动驾驶系统 FSD 12,直播一周后,特斯拉在加拿大和美国推出“城市自动驾驶”功能。免责声明和披露以及分析师声明是报告的一部分,请务必一起阅读。55 科技科技 图表图表120:Dojo ExaPOD 示意图示意图 图表图表121:Dojo 未来路线图未来路线图 资料来源:Tesla AI Day(2022)、华泰研究 资料来源:Tesla AI Day(2022)、华泰研究 图表图表122:特斯拉特斯拉 DOJO SWOT 分析分析 资料来源:Tesla AI Day(2021&2022)、华泰研究 晶圆级芯片
235、跟传统芯片的各项对比晶圆级芯片跟传统芯片的各项对比 我们将我们将 Cerebras WSE、Dojo D1、Dojo Training Tile(由(由 25 块块 D1 组成)、组成)、Graphcore IPU、英伟达英伟达 H100 和和 AMD MI300X 的性能指标进行对比(但我们需强调,理论上他们也并非的性能指标进行对比(但我们需强调,理论上他们也并非同同一基准一基准的的比较比较,因此以下的图表仅作参考),因此以下的图表仅作参考)。综合考虑下,A100 和 H100 仍然是大部分企业开展 AI 训练的芯片首选。Cerebras WSE 在内核、SRAM、内存带宽、通信带宽和晶体管
236、都有突出的表现,但值得注意的是,Cerebras 没有公布浮点运算算力;而 Dojo 只提供FP32 和 BF16/CFP8 算力;IPU 只公布 FP32 和 FP16;而英伟达 A100 和 H100 作为训练芯片,提供最全的精度模式。另外,几款晶圆级芯片如 Cerebras WSE、Dojo D1、Graphcore都没有使用 DRAM 而是采 SRAM,但 SRAM 在具备更高存储速度的同时,成本也较高。免责声明和披露以及分析师声明是报告的一部分,请务必一起阅读。56 科技科技 图表图表123:AI 芯片性能对比芯片性能对比(但(但并非同一基准的比较并非同一基准的比较)资料来源:各公司
237、官网、华泰研究 DRAM vs SRAM;片上;片上 VS 片外内存片外内存 对比内存容量路线,对比内存容量路线,Cerebras、Graphcore 和特斯拉和特斯拉的的 Dojo 技术路线是大尺寸芯片上技术路线是大尺寸芯片上SRAM+大容量大容量 DDR,而,而英伟达和英伟达和 AMD 的技术路线则是片上小容量的技术路线则是片上小容量 SRAM+堆叠式堆叠式 HBM。大尺寸芯片上大尺寸芯片上 SRAM 读取速度读取速度快且功耗低,但快且功耗低,但由于由于 SRAM 占用面积大占用面积大以及以及内部结构复杂,内部结构复杂,因此因此成本也成本也较较高,高,为为 DRAM 成本的约成本的约 10
238、0 倍倍。SRAM 主要用于 CPU 高速缓存。1 个 SRAM单元通常由 4-6 只晶体管组成,存储器只要保持通电,里面储存的数据就可以恒常保持。通过将存储器分散地集成在运算单元旁,尽可能减少数据搬移,可减少负载突破内存瓶颈,也能降低功耗。因此大尺寸芯片使用 SRAM 可避免多芯片之间通信带宽的限制,同时获得带宽提升。DRAM 和和 SRAM 两种内存容量路径主要的差异在于两种内存容量路径主要的差异在于:1)SRAM 传输传输速度比较快。速度比较快。SRAM可以一次接收所有的地址位,使用行列独立技术,而 DRAM 则使用行列地址复用技术,因此相较 SRAM 的接口更加复杂。此外,SRAM 主
239、要用于二级高速缓存(Level 2 Cache),利用晶体管来存储数据,因此与 DRAM主要用于内存相比,SRAM的访问和读取速度更快;2)SRAM 的功耗较小的功耗较小。SRAM 不需要刷新电路即能保存内部存储的数据,而 DRAM 每隔一段时间,需要刷新充电一次,否则内部的数据即会消失,因此 SRAM 功耗较小;3)SRAM的缺点在于的缺点在于集成集成容量容量较低,较低,体积较大体积较大。由于存储单元结构不同导致 SRAM 和 DRAM 的体积和集成容量的不同,一个 DRAM 存储单元大约需要一个晶体管和一个电容(不包括行读出放大器等),而一个 SRAM 存储单元大约需要六个晶体管。此外,S
240、RAM 可能需要增加冗余面积保证芯片安全性和提升良率,因此相同容量的 DRAM 内存体积或较小。片上内存片上内存 VS 片外内存:片外内存:晶圆级芯片上共享内存相较传统晶圆级芯片上共享内存相较传统 GPU 访存速度更快访存速度更快,对比,对比英伟达英伟达利用利用 NVLink 和和 NVSwitch 技术突破片外内存访存效率瓶颈技术突破片外内存访存效率瓶颈。片上内存片上内存的访存调度属于共共享内存享内存,按着线程块分配,因此块中的所有线程都可访问同一共享内存,进行读写操作,提升片上共享内存的访存速度。相较而言,一般的 GPU 是利用片外内存片外内存,需要通过频繁读取片外的 DRAM 进行内存调
241、度,因此访存速度较低和功耗较高。为了解决片外 DRAM 传输问题,英伟达通过 NVLink 和 NVSwitch 技术实现了服务器中所有 GPU 之间的高带宽连接,并提高可扩展性。免责声明和披露以及分析师声明是报告的一部分,请务必一起阅读。57 科技科技 HBM 是一种基于是一种基于 3D 堆栈工艺的高性能堆栈工艺的高性能 DRAM,适用于高储存器带宽需求的应用场合,如,适用于高储存器带宽需求的应用场合,如图图像像处理器、网络交换及转发设备(交换机、路由器)等。处理器、网络交换及转发设备(交换机、路由器)等。堆叠式堆叠式 HBM 技术技术具有高密度、具有高密度、低延迟低延迟、高性能高性能、耐用
242、和低功耗耐用和低功耗等等特性。特性。HBM 利用 TSV(硅通孔)技术打造立体堆栈式的显存颗粒,通过硅中介层,让显存连接至 GPU 核心,并封装在一起,完成显存位宽和传输速度的提升。因此,DRAM 颗粒可相互堆叠,使得芯片在垂直面上能实现小面积和高容量。英伟达的 A100 搭载 80GB 的 HBM2e,而 H100 搭载 80GB 的 HBM3,其中 HBM3 的最大容量高达 24GB,是 HBM2e 最大容量 16GB 的 1.5 倍。GH200 超级芯片的 HBM3 搭载容量较H100再提升20%,达96GB;新一代GH200则搭载了最新的HBM3e,容量达141GB,对比之前的 GH2
243、00 大幅提升。AMD 的 MI300 系列也搭载了 HBM3,其中,MI300A 容量与上一代 MI250X 相同为 128GB,而 MI300X 则达 192GB,容量提升了 50%。软件生态:英伟达凭借软件生态:英伟达凭借 CUDA 形成稳固的护城河。形成稳固的护城河。对任何一种计算平台和编程模型来说,开发人员与其学习、磨合和建立生态圈都需要时间,更多的开发者意味着不断迭代的工具和更广泛的多行业应用。CUDA 是英伟达于 2006 年推出的一种基于 C 语言的编程框架,包含 CUDA 指令集架构(ISA,Instruction Set Architecture)和 GPU 内部的并行计算
244、引擎。通过先发优势和长期耕耘,CUDA 生态圈已较为成熟,为英伟达 GPU 开发、优化和部署多种行业应用提供了独特的护城河。根据英伟达 2022 年报,全球有 380 万开发人员使用CUDA。这进一步为选择英伟达 GPU 提供了更为充分的理由,正向循环、不断完善的生态也将进一步提高其用户粘性。Cerebras 软件栈软件栈名为 CSoft,由 Cerebras ML 软件与机器学习框架 TensorFlow 和 PyTorch集成。Cerebras 图形编译器(Graph Compiler)能够自动将神经网络转换成 WSE 计算资源可用的可执行程序。特斯拉推出 Dojo 专属的全栈软件系统专属
245、的全栈软件系统,通过自研软件和开源软件的结合,其中包括底层驱动软件、编译器引擎、PyTorch 插件和上层的神经网络模型等。通过 Dojo 编译器实时生成代码。用户通过软件栈可为硬件创建和优化代码,无需重新手写的内核代码,提升研发效率。据科技分析机构 Moor Insights&Strategy 报告,Graphcore 将约一半研发人员投入开发 Poplar 开源软件栈开源软件栈,其由计算图、元素编译器、优化库以及用于运行时调度的计算图引擎组成,能够基于 TensorFlow 和 PyTorch 进行编译。Graphcore 在中国积极组建创新社区,已在微信、知乎、微博和 GitHub 开通
246、了官方频道,旨在与开发者更有效交流和互动。总体来看,Cerebras、特斯拉和 Graphcore 均通过已广泛使用的机器学习框架来开发插件,以减少软件开发人员的学习成本,并通过自研的编译器来实现软件的执行。但与英伟达 CUDA 相比,开发者生态未形成规模,目前暂未实现生态的正向循环和客户粘性增长。图表图表124:Graphcore Poplar 软件栈示意图软件栈示意图 资料来源:Moor Insights&Strategy、华泰研究 免责声明和披露以及分析师声明是报告的一部分,请务必一起阅读。58 科技科技 AI 芯片产业链:聚焦兵家必争之地芯片产业链:聚焦兵家必争之地 CoWoS 封装封
247、装 台积电大扩台积电大扩 CoWoS 产能,供给紧张有望得解产能,供给紧张有望得解 在市场对在市场对 AI 芯片的旺盛需求下,芯片的旺盛需求下,导致导致先进封装产能供不应求先进封装产能供不应求。我们认为,我们认为,CoWoS 是限制是限制AI 芯片出货量的主要瓶颈。英伟达芯片出货量的主要瓶颈。英伟达 A100 和和 H100 采用台积电(采用台积电(TSM US)CoWoS(2.5D)封装技术,封装技术,MI300 系列需系列需采用台积电采用台积电 CoWoS(2.5D)和)和 SolC(3D)技术。)技术。据 Digitimes 在7 月 14 和 21 日的报道中提到,台积电正积极扩大 C
248、oWoS 产能,包括竹南、龙潭和台中三地;2023 年产能至少 12 万片,2024 年将达 24 万片,而英伟达将取得约 15 万片。报道中还提到,为了实现扩产,台积电或将把部分 oS(on Substrate)释放给其他封装厂商,订单或会外溢到包括中国台湾封测龙头日月光、矽品精密(2018 年被日月光控投收购)、台湾的联华电子、美国的 Amkor Technology、中国大陆的通富微电(6 月 27 日披露)等。此外,英伟达也在积极寻找台积电以外的选择。此外,英伟达也在积极寻找台积电以外的选择。在台积电产能供应日益紧张之下,英伟达也正在考虑将其部分 GPU 外包给三星电子(009150
249、KS)进行制造。据 Digitimes 7 月 5日报道,如果三星的 3nm 试验产品通过性能验证,且其 2.5D 先进封装技术符合美国芯片制造商的要求,英伟达可能会外包一些订单至三星电子。目前,台积电 CoWoS 的三大客户包括:英伟达、博通和赛灵思;AMD 的 MI300 系列在 4 季度推出后,或将跻身前五大客户;亚马逊在 2024 年也或将成为第三大客户;而我们认为鉴于博通与谷歌共同设计 TPU,据路透社 5 月 31 日新闻,Meta 也已成为博通的 ASIC 客户,因此我们认为这里博通的量或是代表谷歌和 Meta。上文提到台积电已在改装一些厂房来应对供不应求的上文提到台积电已在改装
250、一些厂房来应对供不应求的 CoWoS 产能。我们认为,改装厂房产能。我们认为,改装厂房其实还是相对简单,因此其实还是相对简单,因此 CoWoS 的真正瓶颈之一,也许是封装用的机械设备所需的交货的真正瓶颈之一,也许是封装用的机械设备所需的交货周期较长。周期较长。据 DigiTimes 在 7 月 25 日报道,CoWoS 产能扩充缓慢的原因在于其使用的设备交货周期,关键设备如研磨液供给设备、半导体清洁装置(湿制程设备)等,主要供应厂商包括日本的 Tazmo(6266 JT)和 Shibaura(6590 JT),设备的完整交货周期往往在6-8 个月(6 个月交货+2 个月调试参数)。然而,同样可
251、以提供这类设备的还有如台湾本地供应商亚泰半导体(未上市),台积电或能通过其他供应商缓解一定压力。图表图表125:Tazmo 半导体制造设备产品半导体制造设备产品 图表图表126:Tazmo 研磨液供给系统设备研磨液供给系统设备 资料来源:Tazmo 官网、华泰研究 资料来源:Tazmo 官网、华泰研究 免责声明和披露以及分析师声明是报告的一部分,请务必一起阅读。59 科技科技 硅晶圆供应商:台积电的硅晶圆供应商:台积电的 6 家硅晶圆供应商占全球总产能家硅晶圆供应商占全球总产能 90%以上以上 台积电制作硅中介层和台积电制作硅中介层和 SoC 的原材料是硅晶圆。根据台积电的原材料是硅晶圆。根据
252、台积电 2022 年报中披露的原材料供年报中披露的原材料供应商信息,总共列有六家,两台、两日、一德、一韩,分别是:应商信息,总共列有六家,两台、两日、一德、一韩,分别是:FST(Formosa Sumco Technology Corporation,台塑胜高,中国台湾和日本合资,股票代码:,台塑胜高,中国台湾和日本合资,股票代码:3532 TT)、)、Global Wafers(环球晶圆,中国台湾,股票代码:(环球晶圆,中国台湾,股票代码:6488 TT)、)、SEH(Shin-Etsu Handotai,日本信越半导体,日本,股票代码:日本信越半导体,日本,股票代码:4063 JT)、)、
253、Siltronic(世创电子,德国,股票代码:(世创电子,德国,股票代码:WAF DE)、)、SK Siltron(SK 矽得荣,韩国,未上市)矽得荣,韩国,未上市)和和 SUMCO(胜高,日本,股票代(胜高,日本,股票代码:码:3436 JT)。)。台积电通过向这六家供应商分别采购硅晶圆材料,以分摊供应风险。这六家供应商的总硅晶圆产能约占全球供应量的 90%以上。图表图表129:台积电年报中列举的硅晶圆供应商台积电年报中列举的硅晶圆供应商 主要原物料名称主要原物料名称 供应商供应商 市场状况市场状况 台积电的采购策略台积电的采购策略 硅晶圆 FST、Global Wafers、SEH、Sil
254、tronic、SK siltron、SUMCO 6 家供应商硅晶圆产能合计约占全球供应量的90%以上。硅晶圆供应商必须通过台积电最严格的制程认证程序。台积电向多个不同供应商购买矽晶圆,以确保量产无虞,并分散采购风险。推动矽晶圆的品质改善以维持台积电的技术领先地位。台积电定期检讨供应商的产品品质、交货状况、成本、永续管理及服务绩效各方面表现,并将结果列为未来采购决策参考。定期稽核供应商的品管系统,以确保台积电能持续提供高品质的产品。为了优化成本面与供给面的管理,台积电采取多种方式与供应商合作。资料来源:台积电 2022 年报,华泰研究 除作为主要原材料的硅晶圆之外,晶圆制造流程中还需要其他原材料
255、如制程用化学原料、黄光制程材料、特殊气体、研磨液、研磨垫、钻石碟等。可以看到台积电年报中披露的供应商分布在中国台湾、日本、德国、韩国、法国等,显示了台积电原材料全球采购的布局和分摊供应链风险的能力。图表图表127:英伟达在英伟达在 CoWoS 季度季度 Output 的占比的占比 图表图表128:亚泰半导体的研磨液供应系统亚泰半导体的研磨液供应系统 资料来源:semianalysis 官网、华泰研究 资料来源:Tazmo 官网、华泰研究 0%25%50%75%100%2Q233Q234Q231Q242Q243Q244Q24NvidiaOthers 免责声明和披露以及分析师声明是报告的一部分,请
256、务必一起阅读。60 科技科技 图表图表130:台积电晶圆制造的其他供应商台积电晶圆制造的其他供应商(包括原材料)(包括原材料)主要原物料名称主要原物料名称 供应商供应商 中文名称中文名称 所在地区所在地区 制程用化学原料制程用化学原料 BASF 巴斯夫 德国 Merck 默克集团 德国 Air Liquide 液化空气集团 法国 DuPont 杜邦公司 美国 Entegris 英特格公司 美国 Fujifilm Electronic Materials 富士电子材料集团 日本 Kanto PPC 关东鑫林科技股份有限公司 日本 RASA RASA 工业 日本 Tokuyama 德山株式會社 日
257、本 Kuang Ming 广明实业股份有限公司 中国台湾 Shiny 胜一化工股份有限公司 中国台湾 Wah Lee 华立企业股份有限公司 中国台湾 黄光制程材料黄光制程材料 3M 明尼苏达矿业及机器制造公司 美国 Fujifilm Electronic Materials 富士电子材料集团 日本 JSR JSR 株式会社 日本 Nissan 日产化学株式会社 日本 Shin-Etsu Chemical 信越化学工业株式会社 日本 Sumitomo Chemical 住友化学株式会社 日本 T.O.K 东京应化工业株式会社 日本 特殊气体特殊气体 Air Liquide 液化空气集团 法国 S
258、K Materials SK 材料公司 韩国 Air Products 空气化工公司 美国 Entegris 英特格公司 美国 Praxair 普莱克斯工业气体公司 美国 Central Glass 中央玻璃株式会社 日本 Nippon Sanso Taiwan 大阳日酸株式会社 日本 Linde LienHwa 联华林德气体公司 中国台湾 Taiwan Material Technology 茂泰利科技股份有限公司 中国台湾 研磨液、研磨垫、研磨液、研磨垫、钻石碟钻石碟 3M 明尼苏达矿业及机器制造公司 美国 Cabot Microelectronics 嘉柏微电子材料公司 美国 DuPon
259、t 杜邦公司 美国 AGC AGC 株式会社 日本 Fujibo 爱媛株式会社 日本 Fujifilm Electronic Materials 富士电子材料 日本 Fujimi Fujimi 株式会社 日本 先进封装设备先进封装设备 Shibaura Mechatronics 芝浦机电 日本 研磨液供给设备研磨液供给设备 Tazmo TAZMO 株式会社 日本 资料来源:台积电 2022 年报,asiatimes 官网,华泰研究 衬底衬底/基板(基板(Substrate):):揖斐电揖斐电、景硕、欣兴电子等、景硕、欣兴电子等 根据英伟达根据英伟达 2022 年报,衬底供应商包括年报,衬底供应
260、商包括揖斐电揖斐电(Ibiden,日本)、景硕(,日本)、景硕(Kinsus,中国台,中国台湾)、欣兴电子(湾)、欣兴电子(Unimicron,中国台湾)等;而,中国台湾)等;而 AMD 曾公开披露过的衬底供应商有新光曾公开披露过的衬底供应商有新光电气(电气(Shinko Electric,日本)和三星电机(,日本)和三星电机(Samsung Electro-Mechanics,韩国)。,韩国)。除了这些被公开披露信息明确与英伟达和 AMD 有供应关系的衬底供应商之外,奥特斯(AT&S,奥地利)和南亚科技(Nanya,中国台湾,股票代码:2408 TT)等,也常出现在其他芯片巨头如英特尔的衬底
261、供应商名录中。中国大陆企业,例如景旺电子(603228 CH)、沪电股份(002463 CH)、生益科技(600183 CH)等,更多专攻服务器用大型 PCB 板,虽然不直接供应台积电或芯片巨头,但产品最终或会应用到英伟达或 AMD 芯片组成的服务器中。图表图表131:衬底衬底/基板基板供应商供应商 硬件结构与制造流程硬件结构与制造流程 供应商供应商 地区地区 目前与英伟达的明确合作关系目前与英伟达的明确合作关系 目前与目前与 AMD 的的明确合作关系明确合作关系 衬底衬底/基板(基板(Substrate)Ibiden Co.Ltd.(揖斐电株式会社)(揖斐电株式会社)日本 Kinsus In
262、terconnect Technology Corporation(景硕科技)(景硕科技)中国台湾 Unimicron Technology Corporation(欣兴(欣兴电子电子)中国台湾 Shinko Electric Industries Co.LTD.(新光电气)(新光电气)日本 Samsung Electro-Mechanics Co.,Ltd.(三星电机)(三星电机)韩国 资料来源:英伟达年报,AMD 官网,三星财报,华泰研究 免责声明和披露以及分析师声明是报告的一部分,请务必一起阅读。61 科技科技 HBM 内存:内存:SK 海力士、三星、美光,三足鼎立海力士、三星、美光,三
263、足鼎立 HBM 内存供应商目前的市场格局为内存供应商目前的市场格局为 SK 海力士(海力士(000660 KS)、三星、美光()、三星、美光(MU US)三)三分天下。分天下。据中国台湾 科技新报 2023 年 4 月 18 日报道,H100 和 MI300 系列使用的 HBM3内存,唯一生产商是 SK 海力士,但三星和美光预计也将在今年底至明年初开始量产。虽然目前 H100 的 HBM3 来自 SK 海力士,但为了满足英伟达拓展二供的需求,我们认为三星或也将提速进入 HBM3 的供应商列表。另外,英伟达在 2023 年 8 月 8 日发布了使用 HBM3e的 GH200 新版本,这是海力士于
264、 2023 年 6 月发布的增强版 HBM3。2023 年 4 月 20 日,SK 海力士发布了大内存(24GB)的 HBM3 产品,同时宣布已给客户送样,因此考虑到 AMD MI300X 的 192GB HBM3(24*8=192),我们认为,MI300X 搭载的 HBM3 或即是 24GB 的海力士 HBM3 产品。而 MI300A 的 128GB HBM3(16*8=128)则或对应的是海力士于 2022 年 6 月发布的 16GB 的 HBM3 产品。Hopper GPU 的 96GB HBM3 也同样对应 16GB 的 HBM3(16*6=96)。据中国台湾科技新报2023 年 4
265、月 18日报道,SK 海力士在 2022 年 6 月发布 16GB HBM3 的同时就立即供给英伟达。同样据上文报道,除海力士外,另外两家内存巨头三星和美光预计在今年底到明年年初开始量产HBM3,或可满足英伟达和 AMD 拓展其他供应商的需求。图表图表132:MI300X 使用使用 HBM3 内存内存 图表图表133:MI300A 使用使用 HBM3 内存内存 资料来源:AMD 官网、华泰研究 资料来源:ADM 官网、华泰研究 服务器相关供应商:惠与、戴尔、联想、美超微服务器相关供应商:惠与、戴尔、联想、美超微、广达、纬创、广达、纬创等等 英伟达英伟达 GPU 和和 AMD MI300 系列系
266、列使用的散热方案供应商使用的散热方案供应商也也值得关注。值得关注。由于英伟达 Grace Hopper 单颗芯片最高功耗可达 1000W,对散热系统要求更高,英伟达在 2023 年 Computex上发布了液冷版本 H100 HPC 服务器。风冷系统方面,全球最大散热模组厂商 AVC(3017 TT)是前代 DGX H100 的风冷散热系统供应商。AMD 的散热供应商为中国台湾散热解决方案厂商双鸿科技(3324 TT)。此外,中国台湾散热材料厂商健策精密(3653 TT)为 AMD提供均热片、LED 导线架、电子周边零组件、通讯周边零组件等元器件。服务器服务器 PCB 板板供应商包括胜宏科技供
267、应商包括胜宏科技(300476 CH)、景旺电子、沪电股份、景旺电子、沪电股份、生益科技、生益科技等,等,他们不一定直接与英伟达或 AMD 进行合作,但他们的产品可能会用在搭载英伟达和 AMD芯片的服务器上。另外,奥士康(002913 CH)作为国内高密度印制电路板的领先企业,较早布局 AI 服务器和数据中心业务,据公司 2023 年 5 月 4 日投资者关系活动记录,其在服务器 PCB 市场占比超 20%,已进入英特尔和 AMD 新一代服务器供应商目录。最后,使用最后,使用 AI 芯片组装服务器的芯片组装服务器的厂商可分为白牌(厂商可分为白牌(指不贴服务器品牌名指不贴服务器品牌名)厂商和品牌
268、商()厂商和品牌商(指指贴品牌名贴品牌名)两种,近年白牌厂商份额逐渐增长。)两种,近年白牌厂商份额逐渐增长。品牌商包括浪潮(600756 CH)、戴尔、联想(00992 HK)、IBM(IBM US)等;白牌厂商包括广达(2382 TT)、纬创(3231 TT)、英业达(2356 TT)、美超微(SMCI US)等。互联网云厂商或服务器品牌商将硬件组装委托给白牌厂商,合作开发定制化“白牌”服务器。近年来,部分服务器上游硬件厂商通过直接委托白牌 ODM 厂商进行组装,以自身品牌进行服务器销售,绕过服务器品牌商,推动白牌厂商份额上涨。据 AMD 2022 年报,服务器合作厂商包括戴尔、HPE(惠与
269、)(HPE US)、联想、美超微、思科(CSCO US)等;据数位时代 2023 年 3 月 30 日报道,英伟达的服务器供应商包括纬创和美超微。免责声明和披露以及分析师声明是报告的一部分,请务必一起阅读。62 科技科技 图表图表134:AMD 与英伟达与英伟达 AI 芯片产品各硬件结构、原材料等供应商一览芯片产品各硬件结构、原材料等供应商一览 硬件结构与制造流程硬件结构与制造流程 供应商供应商 地区地区 目前有无与英伟达的明确合作关系目前有无与英伟达的明确合作关系 目前有无与目前有无与 AMD 的明确合作关系的明确合作关系 衬底/基板(Substrate)Ibiden Co.Ltd.(揖斐电
270、株式会社)日本 Kinsus Interconnect Technology Corporation(景硕科技)中国台湾 Unimicron Technology Corporation(欣兴电子)中国台湾 Shinko Electric Industries Co.LTD.(新光电气)日本 Samsung Electro-Mechanics Co.,Ltd.(三星电机)韩国 PCB 景旺电子*中国大陆 沪电股份*中国大陆 生益电子*中国大陆 内存(Memory)Micron Technology(美光科技)美国 SK Hynix(SK 海力士)韩国 Samsung Semiconductor
271、,Inc(三星电子)韩国 晶圆制造 Taiwan Semiconductor Manufacturing Company Limited(台湾积体电路制造)中国台湾 (7nm)封 测(Testing and Packaging)ASE Technology Holding Co.,Ltd(日月光控投)中国台湾 Amkor Technology(安靠科技)美国 SILICONWARE PRECISION INDUSTRIES CO.,LTD.(矽品精密工业)中国台湾 通富微电 中国大陆 联华电子 中国台湾 服务器相关 Dell(戴尔)美国 HPE(惠与科技)美国 Lenovo(联想)中国大陆 S
272、upermicro(美超微)美国 Wistron(纬创)中国台湾 散热 AVC(奇鋐科技)中国台湾 双鸿科技 中国台湾 健策精密 中国台湾 注:*不一定直接供应英伟达或 AMD,产品或应用在搭载英伟达和 AMD 芯片的服务器上 资料来源:英伟达年报,AMD 年报,AMD 官网,三星财报,招股说明书,华泰研究 免责声明和披露以及分析师声明是报告的一部分,请务必一起阅读。63 科技科技 AI 不只是大模型,自动驾驶芯片群雄逐鹿,谁能突围?不只是大模型,自动驾驶芯片群雄逐鹿,谁能突围?自动驾驶自动驾驶是目前是目前 AI 应用落地应用落地较较全面的领域。全面的领域。在在自动驾驶自动驾驶解决方案中,解决
273、方案中,特征提取、场景模拟特征提取、场景模拟与生成,感知和决策以及路径规划等与生成,感知和决策以及路径规划等任务任务,均需应用深度学习算法,包括机器学习、计算均需应用深度学习算法,包括机器学习、计算机视觉等机视觉等,而近年也加入了不少而近年也加入了不少 Transformer 算法算法,因此对于自动驾驶芯片的算力与性能,因此对于自动驾驶芯片的算力与性能也提出了更高的要求。也提出了更高的要求。Transformer 的基本原理是在预训练的前提下,根据一系列信息的全局关联性去预测下一步,从而输出结果。在处理自动驾驶长尾问题时,谷歌 Waymo 将 AIGC应用于仿真场景生成去模拟罕见的驾驶场景,以
274、优化模型训练;特斯拉基于 Transformer进行 BEV(Birds Eye View,即俯视角度)特征提取。2021 年,特斯拉通过将感知任务内置于 Transformer 中,使神经网络能够自动完成从 2D图像到 BEV 特征信息的转换,具体步骤为:1)通过 RegNet(Regularization Network,用于图像分类的神经网络结构)对摄像头获取的 2D 图像信息依据分辨率进行分层;2)利用 BiFPNs(Bi-directional Feature Pyramid Networks,用于图像语义分割的神经网络结构)使分类信息发生交互,形成可被神经网络理解的输入信息;3)基
275、于预训练获取的信息,根据相关性提取观测对象的特征(如类别和位置等),并整合至 3D 空间。这一架构已成为目前在自动驾驶领域中广泛应用的范式,地平线、百度 Apollo 和毫末智行等均已完成Transformer 的自研,并将其纳入智能驾驶解决方案中。图表图表135:特斯拉特斯拉 Transformer 架构架构 资料来源:特斯拉 2022 AI Day、华泰研究 免责声明和披露以及分析师声明是报告的一部分,请务必一起阅读。64 科技科技 Transformer 在自动驾驶中的应用正不断衍生,并开始覆盖全栈任务的发展。2023 CVPR(Conference on Computer Vision
276、 and Pattern Recognition,计算机视觉与模式识别会议,是以计算机视觉和机器学习等为导向的人工智能顶级会议)的最佳论文以路径规划为导向的自动驾驶(Planning-oriented Autonomous Driving)(发表机构包括上海人工智能研究所、武汉大学、商汤科技等)提出感知决策一体化的端到端自动驾驶解决方案 Unified Autonomous Driving(UniAD)。UniAD 通过 Transformer 多层架构覆盖感知、预测和规划任务,不同层并行处理图像信息并进行交互,最终根据车辆对周围环境的感知及预测信息以实现路径规划。图表图表136:UniAD
277、运作流程图运作流程图 资料来源:Planning-oriented Autonomous Driving(2022,Shanghai AI Laboratory,Wuhan University,SenseTime Research 等)、华泰研究 UniAD 的运作流程共包括四个基于的运作流程共包括四个基于 Transformer 的感知和预测模块,以及最后的规划模块的感知和预测模块,以及最后的规划模块(Planner)。)。流程的第一步是特征提取,由多个摄像头获取图像,经过 BEVFormer 转换为BEV 特征信息,这一步骤和特斯拉的过程类似。这些信息分别输入感知、预测及规划层:感知层包
278、括 TrackFormer 和 MapFormer,分别提取代理的轨迹信息和整体道路信息,将其输入至预测层的 MotionFormer 与 OccFormer,MotionFormer 捕捉代理与地图、代理与代理和代理与行动目标之间的相互作用,基于此预测每个代理最可能采用的 k 种轨迹,并对轨迹进行平滑以减少预测不确定性,OccFormer 再进一步将 BEV 特征信息与轨迹信息结合,预测是否存在可能被占用的区域以避免出现碰撞;最后,规划层 Planner 根据以上信息决定路线。论文发表机构之一上海人工智能实验室表示,论文发表机构之一上海人工智能实验室表示,UniAD 这种端到端多模块融合流程
279、的亮点在这种端到端多模块融合流程的亮点在于:于:1)模型通过 Transformer 的多层架构覆盖关键任务,不同 Transformer 层间信息的输入输出融合了每个环节,并行处理多个不同的任务;2)感知与预测环节均包含本车信息(Ego-vehicle),最后 Planner 结合本车信息与 BEV 特征信息进行决策,从而使整个网络均以规划为目标,有效提升解决方案的整体性能。端到端方案相比模块化方案更利于提高路径规划的效率。端到端方案相比模块化方案更利于提高路径规划的效率。行业内自动驾驶解决方案包括模块化系统、多任务模块架构系统和端到端自动驾驶系统三类。据论文所述,模块化系统将一个方案分解成
280、不同模块处理,是目前最常见的解决方案,有助于通过跨团队合作提升研发效率,但存在跨模块信息丢失和误差累积等风险。而多任务模块架构系统虽然将大量任务合并到共享特征提取器中,能够节省芯片的计算成本,但可能会导致负迁移(negative transfer,指一个任务中获得的知识会对下一个任务的表现产生干扰)。端到端系统则是将各模块融合,使前置任务也以规划为目标,能够避免模块化的累计误差及多任务的负迁移问题。免责声明和披露以及分析师声明是报告的一部分,请务必一起阅读。65 科技科技 论文中称论文中称 UniAD 为首个实现感知、预测为首个实现感知、预测和和规划三个模块融合的端到端方案。规划三个模块融合的
281、端到端方案。据论文对比,现有的端到端解决方案包括两类:1)基础的端到端方案基于预设的环境条件直接规划路线,在闭环仿真中效果较好,但由于未将代理与环境的交互作用考虑入内,方案难以应对复杂真实场景中可能存在的突发情况;2)按照任务划分网络的显式设计将感知及预测作为关键前置任务纳入模型,以放宽基础方案对环境固定的假设,但目前对模块下子任务(目标检测、目标跟踪、场景建图、轨迹预测、栅格预测和路径规划)的覆盖并不全面。而据论文,UniAD 使输入的传感器数据经过感知、预测和规划模块下六小类子任务后进行输出,相比另两种方案更注重交互和融合,可有效优化以决策为目标的各项任务的表现。图表图表137:自动驾驶框
282、架的对比自动驾驶框架的对比 资料来源:Planning-oriented Autonomous Driving(2022,Shanghai AI Laboratory,Wuhan University,SenseTime Research 等)、华泰研究 目前全球自动驾驶芯片目前全球自动驾驶芯片供应商可依据其主营业务分为三类:供应商可依据其主营业务分为三类:1)专注于自动驾驶领域的芯片供应商:专注于自动驾驶领域的芯片供应商:提供软硬件自动驾驶解决方案,如 Mobileye、地平线和黑芝麻等;2)通用芯片供应商:通用芯片供应商:除自动驾驶芯片外,其主营业务往往包括传统芯片或其他消费电子芯片,如英
283、伟达、高通和华为等;3)自研芯片车企:自研芯片车企:为其自有品牌车辆研发专用芯片,目前主要包括特斯拉。我们将分别选择自动驾驶专用芯片供应商代表(Mobileye、地平线和黑芝麻)、通用芯片供应商代表(高通和华为)和自研芯片车企代表厂商(特斯拉)进行对英伟达自动驾驶芯片的竞争格局分析,并讨论各厂商的核心竞争力。Mobileye:ADAS 技术奠基者,“黑箱子模式”技术奠基者,“黑箱子模式”优势不再,转型将面临挑战优势不再,转型将面临挑战 ADAS 市场领头羊,市场领头羊,REM 高精地图打造数据优势。高精地图打造数据优势。Mobileye 成立于 1999 年,自进入 ADAS领域起,以视觉感知
284、技术为基础持续迭代其核心产品 EyeQ 系列芯片。凭借以摄像头为主的图像识别技术壁垒,在 ADAS 技术发展早期,大量主流汽车厂商均选择 Mobileye 作为辅助驾驶方案,帮助其迅速拿下了初期的自动驾驶芯片市场份额。Mobileye 在 ADAS 市场占有率在 2015 年一度高达 90%(截至 2023 年 6 月,其占有率约为 70%左右)。截止 2023年 7 月 1 日,Mobileye SoC 及其解决方案已累计搭载 1.5 亿辆汽车,2023 年上半年出货量为 0.16 亿套。以出货量累计超过 1.5 亿颗,超过 800 种车型搭载,Mobileye 占据 ADAS市场当之无愧的
285、龙头位置。免责声明和披露以及分析师声明是报告的一部分,请务必一起阅读。66 科技科技 2016 年,Mobileye 推出 REM 高精地图服务。REM 以众包方式与车企进行数据采集合作,通过车辆摄像头进行道路网络信息采集,再加密上传到云端进行调整与整合后,生成高精度的地图数据。这标志着 Mobileye 从硬件供应商的角色基础上拥有了数据合作商和服务供应商的双重身份,帮助其在一定程度上占据了无人驾驶的数据入口进行数据储备。2017 年,英特尔以 153 亿美元价格收购 Mobileye,随后于 2022 年分拆再上市,IPO 当日市值达 230亿美元。图表图表138:历代历代 EyeQ 芯片
286、参数表芯片参数表 型号型号 上市时间上市时间 AI 算力算力 功率功率 制程制程 适用于自动驾驶级别适用于自动驾驶级别 EyeQ1 2008 年 0.0044 TOPS 2.5W 180nm CMOS L1 EyeQ2 2010 年 0.026 TOPS 2.5W 90nm CMOS L1 EyeQ3 2014 年 0.256 TOPS 2.5W 40nm CMOS L2 EyeQ4 2018 年 2 TOPS 3W 28nm FD-SOI L2+EyeQ5 2021 年 15 TOPS 10W 7nm FinFET L4 EyeQ6 Light 2021 年 5 TOPS 3W 7nm Fi
287、nFET L1/L2 EyeQ6 High 2024 年 34 TOPS-7nm FinFET L4 EyeQ ULTRA 2025 年 176 TOPS 106 TOPS 资料来源:各公司官网、华泰研究 地平线:基于地平线:基于 BPU 架构布局自动驾驶生态追击架构布局自动驾驶生态追击 基于软硬协同构建基于软硬协同构建 BPU(Brain Processing Unit)架构芯片,打造“芯片)架构芯片,打造“芯片+工具链工具链+参考参考算法”的开放技术方案。算法”的开放技术方案。地平线自动驾驶主要产品线为征程系列芯片,自 2017 年底征程 1发布以来,地平线始终针对最新的神经网络架构与自动
288、驾驶应用场景,从 AI 模型与开发工具全体系的角度出发,遵循软硬结合的技术路径,对 BPU 计算架构与征程系列芯片进行迭代。同时,地平线基于汽车芯片与工具链,为客户提供用于加速模型训练、模型编译、优化转换和应用部署的天工开物工具链,和用于自动化数据标注与回传、软件自动集成和自动化回归测试与 OTA 升级的艾迪开发工具平台,逐渐形成“芯片+工具链+参考算法”的开放链条方案,助力合作伙伴进行高效开发,实现基于底层硬件能力模型快速迭代。地平线聚焦地平线聚焦 BPU 架构,专用芯片与通用芯片各有所长。架构,专用芯片与通用芯片各有所长。云端 AI 芯片更侧重数据支持多种AI 工作负载和大规模数据吞吐的高
289、拓展能力,自动驾驶芯片则更为注重端侧推理,在低功耗、低延迟性和高计算能效等方面有更多要求。以贝叶斯 BPU 架构为例,其采用脉动张量计算核、大规模异构近存计算和高灵活大并发数据桥等方式进行端侧矩阵运算优化,配合其向量加速单元助力 MAC 阵列利用效率提升,且支持各种自动驾驶场景下 AI 算法,可有效契合自动驾驶场景的高能效比需求。图表图表141:地平线艾迪开发平台地平线艾迪开发平台 图表图表142:地平线天工开物工具链地平线天工开物工具链 资料来源:地平线官微、华泰研究 资料来源:地平线官网、华泰研究 免责声明和披露以及分析师声明是报告的一部分,请务必一起阅读。68 科技科技 图表图表143:
290、部分搭载地平线征程系列芯片车型部分搭载地平线征程系列芯片车型 产品代际产品代际 第一代 第二代 第二代 第三代 第四代 芯片芯片 征程 1 征程 2 征程 3 征程 5 征程 6 发布时间发布时间 2018 年 4 月 2019 年 8 月 2020 年 9 月 2021 年 7 月 尚未发布 应用架构应用架构 BPU 1.0 高斯架构 BPU 2.0 伯努利架构 BPU 2.0 伯努利架构 BPU 3.0 贝叶斯架构 BPU4.0 AI 算力算力-4 TOPS 5 TOPS 128 TOPS 纳什架构 典型功耗典型功耗 1.5W 2W 2.5W 30W 400 TOPS 每帧延时每帧延时 小
291、于 30ms 小于 100ms-60ms-功能安全功能安全-ASIL-B(D)ASIL C/D 可靠性可靠性-AEC-Q100 Grade2 AEC-Q100 Grade2 AEC-Q100 Grade2-应用场景应用场景-座舱交互 L2+辅助驾驶 行泊一体 智能驾驶 资料来源:佐思汽研、华泰研究 软件方面,软件方面,虽地平线天工开物平台和艾迪开发工具平台可在一定程度上对标英伟达的CUDA 和 NVIDIA Drive,但生态培养需要大量的技术积累与实际场景数据驱动迭代,因此英伟达的 CUDA 先发优势较明显。英伟达的 GPU 计算核心模块直接对标云端数据场景,且 Orin 集成 CUDA T
292、ensor GPU 开发,与 GPU 底层开发包 CUDA 以及针对深度学习网络优化的软件开发包 TensorRT 绑定,客户可直接在其之上开发相关的自动驾驶软硬件系统。图表图表144:NVIDIA Drive OS 提供提供 CUDA与与 TensorRT 开发包开发包 图表图表145:地平线产品服务生态体系地平线产品服务生态体系 资料来源:英伟达官网、华泰研究 资料来源:亿欧汽车、华泰研究 图表图表146:地平线地平线 BPU 架构架构 图表图表147:脉动张量计算核可有效降低计算功耗、延迟和所需数据带宽脉动张量计算核可有效降低计算功耗、延迟和所需数据带宽 资料来源:地平线官网、华泰研究
293、资料来源:地平线官网、华泰研究 地平线征程系列定点数量可观。地平线征程系列定点数量可观。2020 年是搭载地平线征程系列芯片车型的量产元年,截止2023 年 4 月已与 20 家车企共计 120 款车型达成量产定点合作,其中,征程其中,征程 5 从首次量产从首次量产上车至今的近半年时间里,合作车型增长至上车至今的近半年时间里,合作车型增长至 20 款。款。免责声明和披露以及分析师声明是报告的一部分,请务必一起阅读。69 科技科技 图表图表148:部分搭载地平线征程系列芯片乘用车车型部分搭载地平线征程系列芯片乘用车车型 品牌品牌 代表车型代表车型 搭载产品搭载产品 量产年份量产年份 比亚迪-地平
294、线 J5 2023 理想 Li 2021 款 ONE/L7 Pro/L8 Pro/L7 Air/L8 Air 地平线 J3/J5 2021/2023 长安 UNI-T/UNI-V/UNI-K/深蓝 S7/深蓝 SL03 地平线 J2/J3 2020/2021/2021/2023/2023 埃安 埃安 Y 地平线 J2 2021 广汽传祺 GS4 PLUS/GS8/M6/影豹 地平线 J2 2021/2023/2023/2023 江淮 思皓 QX/X8 PLUS 地平线 J2 2021/2023 一汽 红旗 地平线 J5 2023 哪吒汽车 U-/GT 地平线 J3 2023 上汽荣威 第三代
295、RX5 地平线 J3 2022 自游家 NV 征程 J2/J5 2023 比亚迪 腾势 N7 地平线 J3 2023 上汽大通 MAXUS MIFA 9 地平线 J3 2021 上汽通用五菱 凯捷 HEV 地平线 J2 2023 岚图 FREE 地平线 J2 2021 长城 哈弗 H9 地平线 J2 2021 奇瑞 瑞虎 8PRO、欧萌达 OMODA5 地平线 J3 2022 吉利 博越 L 地平线 J3 2022 资料来源:各公司官网、IT 之家、汽车之家、中国日报、新浪汽车、凤凰新闻、车东西、华泰研究 在高算力市场方面,在高算力市场方面,地平线地平线目前目前还未进一步印证其在高端车型市场的
296、实际应用能力。还未进一步印证其在高端车型市场的实际应用能力。2022年地平线发布的征程 5 芯片算力达到 128 TOPS,单芯片功耗 30W,带领地平线跻身全覆盖 L1-L5 的高算力芯片厂商行列。值得注意的是,搭载征程 5 的首发量产车型为 2023 年 2月正式发售的理想 L7 Pro/L8 Pro,但在同系列发布的理想高端车型 L7 Max/L8 Max 中,理想则选择搭载两颗英伟达 Orin 作为高级智能辅助驾驶系统 AD Max 的标配。在 2023 年 8月正式发售的 L9 Pro 与 L9 Max 中,理想同样分别为其搭配了标配智能驾驶 AD Pro(地平线征程 5)和高级智能
297、辅助驾驶系统 AD Max(英伟达 Orin)。图表图表149:地平线征程地平线征程 5 芯片架构芯片架构 图表图表150:理想理想 L7 车型自动驾驶配置情况车型自动驾驶配置情况 车型车型 L7 Pro L7 Max L7 Air 全国统一零售价 31.98 万元 33.98 万元 37.98 万元 智能驾驶系统 AD Pro AD Pro ADMax 智能驾驶处理器智能驾驶处理器 地平线征程地平线征程 5 地平线征程地平线征程 5 Orin-X 2 激光雷达装备 否 否 是 800 万像素摄像头 1 个 1 个 6 个 200 万像素摄像头 9 个 9 个 5 个 前向毫米波雷达装备 是
298、是 是 资料来源:地平线官网、华泰研究 资料来源:理想汽车官网、华泰研究 而在低算力市场中,地平线凭借中国市场而在低算力市场中,地平线凭借中国市场的的体量体量规模建立生态,规模建立生态,与与 Mobileye 抗衡抗衡。在产品在产品性能方面,性能方面,地平线 J2 和 J3 定位为低等级自动驾驶车辆芯片,与全球 ADAS 市场龙头Mobileye 的 EyeQ4 芯片相比,J2 和 J3 提供的能效比(2 TOPS/W)高于 EyeQ4(0.8TOPS/W),在同等算力所需要配备的散热设备较少,有利于集成上车的应用。但值得注意的是,对比已经实现量产的 7nm 制程 Mobileye EyeQ5
299、,地平线目前所量产芯片没有使用 5nm 和 7nm 工艺,最新征程 5 采用 16nm 工艺。免责声明和披露以及分析师声明是报告的一部分,请务必一起阅读。70 科技科技 图表图表151:地平线、地平线、Mobileye、黑芝麻地算力、黑芝麻地算力 SoC 参数对比参数对比 Mobileye 地平线地平线 黑芝麻黑芝麻 EyeQ4 EyeQ6 Light J2 J3 A500 A1000L A1000 AI 算力(算力(TOPS)2 5 4 5 5.8 16 58 功耗(功耗(W)3 3 2 2.5 2 5 2.0 2.0 2.4 3.0 7.3 量产时间量产时间 2018 2023 2019
300、2020 2020 2021 2021 资料来源:各公司官网、华泰研究 生态建设方面,生态建设方面,麦肯锡预测,中国未来或成为全球最大的自动驾驶市场,伴随中国市场自动驾驶渗透率逐步提升,相较 Mobileye“黑箱子”模式,地平线秉持其开放的开发生态,利用本土厂商开展服务的优势,已在中国市场获得相当数量的定点客户。另外,在地图数另外,在地图数据方面,据方面,数据作为自动驾驶渐进式发展路径中的决胜点,帮助厂商进行算法迭代,实现产品适用等级的突破。地平线从成立之初便已渐进式发展路径为主,其作为本土企业在国内具有数据采集的天然优势,而 Mobileye 作为外企在国内收集数据较为受限,需与国内车企(
301、如极氪等)进行合作采集高精地图数据。黑芝麻:黑芝麻:第一第一家家递交港股递交港股 18C 上市文件的上市文件的车载芯片股,车载芯片股,华山对标英伟达华山对标英伟达 Orin,武当实现跨,武当实现跨域融合域融合 打造打造“华山华山”+“武当武当”两大两大产品线产品线,为第一家按照为第一家按照港交所港交所 18C 规则递交上市文件的企业规则递交上市文件的企业。黑芝麻自行研发的 IP、算法和支持软件,打造自动驾驶全栈式解决方案,以满足客户的感知系统需求。目前,黑芝麻产品线已覆盖自动驾驶芯片(华山系列)与跨域计算(武当系列)两大领域。其中,已流片的华山系列芯片目前包括华山一号 A500、华山二号 A1
302、000、A1000L和 A1000 Pro,所适用的自动驾驶等级分别 L1-L2、L3 和 ADAS/L2+和 L3/L4。2023 年 6月 30 日,黑芝麻智能向港交所递交的 IPO 申请获受理,计划在港交所挂牌上市,这使得黑芝麻成为 2023 年 3 月 31 日港交所 18C 规则(18C 章的最大特点是容许满足相关市值要求的未商业化特专科技公司上市)生效以来,第一家按此规则正式递交 A-1 上市文件的企业。目前,黑芝麻 C+轮融资的交易后隐含估值折合约 173 亿元。图表图表152:华山华山 A1000 SoC 内部架构内部架构 图表图表153:华山华山 A1000 SoC 外部系统
303、架构外部系统架构 资料来源:黑芝麻招股书、华泰研究 资料来源:黑芝麻招股书、华泰研究 华山系列持续探索高算力,武当华山系列持续探索高算力,武当 C1200 对标英伟达定位跨域融合。对标英伟达定位跨域融合。黑芝下一代华山 A2000正在开发中,公司预计将于 2024 年发布。据黑芝麻官方介绍,A2000 采用 7nm 制程,250+TOPS(INT8)算力,将直接对标英伟达 Orin(7nm 制程,254 TOPS)。另外 2023 年 4月,黑芝麻推出基于 7nm 制程的武当 C1200,面向自动驾驶、智能座舱和车身控制等计算功能,计划于下半年提供样片,2024 年实现量产,而此前只有英伟达
304、Thor(2000 TOPS、2025 年量产)定位为自动驾驶和智能座舱的跨域能力。免责声明和披露以及分析师声明是报告的一部分,请务必一起阅读。71 科技科技 图表图表154:黑芝麻华山系列迭代进程黑芝麻华山系列迭代进程 图表图表155:黑芝麻智能武当黑芝麻智能武当 C1200 资料来源:21 世纪经济网、华泰研究 资料来源:黑芝麻官网、华泰研究 定点方面,定点方面,截至 2023 年 6 月 28 日,黑芝麻已获得 10 家车企及一级供应商的 15 款车型的定点订单,并与超过 30 家车企及一级供应商达成合作关系,如一汽集团(红旗 E001/E202)、东风集团(首款纯电轿车和首款纯电 SU
305、V)和合创汽车(V09)等。图表图表156:已公开搭载黑芝麻智能芯片车型情况已公开搭载黑芝麻智能芯片车型情况 品牌品牌 代表车型代表车型 搭载产品搭载产品 量产年份量产年份 江汽 思皓系列多款车型 A1000 2022 东风 首款纯电轿车和 SUV 车型 A1000 2022 吉利 领克 08 A1000 2022 合创 V09 A1000 2023 一汽红旗 E001 和 E202 A1000 L 2024 三一专汽-A1000 2023 资料来源:各公司官网、汽车之家、华泰研究 高通:可扩展体系开展差异化竞争,对标高通:可扩展体系开展差异化竞争,对标英伟达英伟达 Thor 打造跨域融合打造
306、跨域融合 移动通信芯片龙头,移动通信芯片龙头,降维打击智能座舱市场,逐步扩展至舱驾一体降维打击智能座舱市场,逐步扩展至舱驾一体的的 SoC。高通汽车产品及解决方案包括数字底盘、座舱平台、自动联网平台、车道云服务平台等。作为移动通信芯片市场的领头羊,高通自 2014 年推出第一代基于 Snapdragon(骁龙)28nm 芯片 620A的智能座舱平台开始,高通智能座舱产品已迭代至基于 5nm 芯片 SA8295P 的第四代智能座舱平台。凭借其在安卓生态的优势,高通 2019 年发布的 Snapdragon SA8155P 智能座舱芯片基于手机芯片Snapdragon 855改进推出,作为全球首个
307、7nm制程以下的座舱芯片,SA8155P 至今为应用最广泛的座舱芯片产品之一。2020 年,高通推出算力可达 700 TOPS的自动驾驶平台 Snapdragon Ride 进行其汽车产品组合扩展。2023 年,高通带来二代 Ride平台芯片 Snapdragon Ride Flex,其作为舱驾一体智能芯片综合算力可达 2000 TOPS,公司预计将于 2024 年量产上车。图表图表157:高通高通 Snapdragon Ride Flex 芯片芯片 图表图表158:高通高通 Snapdragon Ride 平台平台 资料来源:高通官网、华泰研究 资料来源:高通官网、华泰研究 免责声明和披露以
308、及分析师声明是报告的一部分,请务必一起阅读。72 科技科技 打造可扩展体系开展差异化竞争,对标打造可扩展体系开展差异化竞争,对标英伟达英伟达 Thor 打造跨域融合。打造跨域融合。2021 年 10 月,高通联合投资机构 SSW Partner 以 45 亿美元价格收购瑞典汽车零部件制造商 Weininger,收购完成后,高通将 Weininger 旗下软件部门 Arriver 的辅助驾驶和计算机视觉等业务能力与Snapdragon 进行逐步整合。高通 2023 年 1 月宣布的新一代 Snapdragon Ride 平台为一个可扩展的自动驾驶加速计算平台,包括 SoC、加速器、视觉系统和自动
309、驾驶软件栈等部分。其中最为主要的产品 Snapdragon Ride Flex SoC 包括 Mid、High 和 Premium 三个级别,采用 4nm 制程,Ride Flex Premium SoC 单芯片 AI 算力可达 600 TOPS 以上,通过双 Flex SoC+双 AI 加速芯片,可达到 2000 TOPS 算力水平,主要定位为舱驾一体芯片,直接对标2022 年 9 月英伟达宣布的 Thor Soc(2000+TOPS,未公布制程)。Ride Flex SoC 可用于车内数字座舱的同时,也可实现智能驾驶端的可扩展功能,兼容高通数字底盘平台所包含的 SoC 组合,公司预计 20
310、24 年开始大规模生产。截至截至 2023 年年 8 月,高通智能驾驶芯片月,高通智能驾驶芯片已与长城、通用和奇瑞等已与长城、通用和奇瑞等国内车企国内车企达成合作。达成合作。图表图表159:基于基于 Snapdragon Flex 芯片打造算力高至芯片打造算力高至 2000TOPS 的可扩展自动驾驶体系的可扩展自动驾驶体系 资料来源:高通官网、华泰研究 华为:边缘端华为:边缘端 AI 芯片赋能芯片赋能 MDC 计算平台计算平台 华为海思半导体的华为海思半导体的边缘端边缘端 AI 芯片赋能芯片赋能 MDC 计算平台。计算平台。华为旗下半导体设计公司海思半导体专注于为华为及其他客户提供高性能、低功
311、耗的芯片解决方案,其产品涵盖通信、消费电子、自动驾驶和物联网等多个领域。2018 年,华为发布首款自动驾驶芯片升腾 310(Ascend 310),其采用 12nm 制程与自研的华为达芬奇芯片结构,主要面向自动驾驶、安防和智制造等边缘计算场景,单芯片算力达 16 TOPS,功耗 8W。2019 年发布的华为升腾910(7nm)则定位于人工智能全场景,半精度(FP16)算力达到 256 TFLOPS,整数精度(INT8)算力达到 512 TOPS,可支持包括智能驾驶在内的全栈云边端应用负载。另外,基于 8 颗升腾 310,华为 2018 年发布的 MDC 600 自动驾驶计算平台算力达到 352
312、 TOPS,可处理 16 个摄像头、6 个毫米波雷达、16 个超声波雷达和 8 个 LiDAR 的数据,支持 L3-L4级别自动驾驶,在当时国内市场中性能力压其他国产厂商产品。图表图表160:华为华为 Ascend 910 与普通与普通 AI 协处理器对比图协处理器对比图 图表图表161:华为华为 MDC 计算平台整体架构图计算平台整体架构图 资料来源:digitimes 官网、华泰研究 资料来源:华为官网、华泰研究 免责声明和披露以及分析师声明是报告的一部分,请务必一起阅读。73 科技科技 垂直一体垂直一体 Tier1 模式,构建自动驾驶生态圈。模式,构建自动驾驶生态圈。背靠华为在 ICT
313、领域 30 余年的研发与生产制造经验,华为 MDC 已作为中央计算平台逐渐被定位为汽车“大脑”,帮助华为构建其 Tier1厂商角色。2020 年,华为发布智能汽车解决方案 Huawei Inside,重新将企业定位为 Tier1厂商与车企合作,共同打造智能汽车,MDC 平台则开始致力于构建涵盖产业链上下游的传感器、执行器和应用算法的三大类合作伙伴生态圈,推动产业快速成熟与商用落地。2022年搭载华为 HI 版的极狐阿尔法 S 的发售标志着华为自动驾驶能力的首番落地,整车搭载华为 MDC 810 计算方案,采用华为鸿蒙 OS 驾驶系统,算力达到 400 TOPS。除北汽极狐外,阿维塔(2022
314、年发售的阿维塔 11 采用 MDC 810 平台)和广汽埃安(AION LX 采用 MDC 610 平台)等亦为华为 HI 合作伙伴。图表图表162:华为以华为以 MDC 智能驾驶计算平台为核心搭建的“平台智能驾驶计算平台为核心搭建的“平台+生态”全景图生态”全景图 资料来源:华为官网、华泰研究 特斯拉:车企特斯拉:车企破局者,破局者,FSD 和和 DOJO 软硬件全栈自研软硬件全栈自研 软硬件全栈自研,历经多轮升级。软硬件全栈自研,历经多轮升级。特斯拉自 2014 年起已与 Mobileye 合作,发布第一代自动驾驶硬件,从早期使用 Mobileye EyeQ3,到英伟达 Drive PX2
315、,再到自研的 FSD 芯片。FSD 芯片的上车标志着特斯拉实现车企从软件到硬件的自主研发。图表图表163:各代各代 Autopilot 硬件配置硬件配置 Autopilot Hardware 版本版本 HW 1.0 HW 2.0 HW 2.5 HW 3.0 日期日期 2014 2016 2017 2019 摄像头摄像头 1 个前视摄像头 8 个摄像头,360环视 8 个摄像头,360环视 8 个摄像头,360环视 毫米波雷达毫米波雷达 前向毫米波雷达(博世)前向毫米波雷达(博世)前向毫米波雷达(大陆)前向毫米波雷达(大陆)超声波雷达超声波雷达 12 个 12 个 12 个 12 个 GPS G
316、PS&地图 GPS&地图 GPS&地图 GPS&地图 处理器处理器 Mobileye EyeQ3 1-英伟达 Parker SoC 2-英伟达 Parker SoC 2-特斯拉自研芯片 1-英伟达 Pascal GPU 1-英伟达 Pascal GPU 2-神经网络处理器 1-英飞凌三核 CPU 1-英飞凌三核 CPU 1-CPU 容错设计 FPS 36 110 110 2300 TOPS 0.256 12 12 144 资料来源:汽车之心、华泰研究 免责声明和披露以及分析师声明是报告的一部分,请务必一起阅读。74 科技科技 在硬件芯片端,自研芯片有助于特斯拉在硬件芯片端,自研芯片有助于特斯拉
317、FSD系统面向其算法与场景进行针对性优化。系统面向其算法与场景进行针对性优化。目前,HW3.0 架构已伴随 FSD 芯片迭代,据 IT 之家 7 月 11 日报道,特斯拉已开始交付其加州弗里蒙特工厂生产的部分 Model Y 车型,这些车型安装有最新版本的自动驾驶计算机系统 HW4.0,实现图像处理和其他 AI 计算。在数据方面,车企身份还有利于特斯拉向车主借力收集数据。截止 2023 年 5 月,特斯拉 FSD beta 累计积累里程已接近 2 亿英里,将帮助其充分训练其神经网络进行软件迭代。不过,我们认为数据多既是好事,但数据的多样化却更为重要。对比谷歌的 Waymo,虽然在数据收集量方面
318、不及特斯拉,但上文提到其对罕见场景的模拟并以其为训练数据,能有效提升处理长尾问题的能力。特斯拉在 2021 年 AI Day中也曾介绍,特斯拉 Autopilot 也通过大量仿真测试模拟来训练车辆极限交通场景及路况下自动驾驶能力。另外,在前面章节提到,特斯拉基于 D1 芯片打造的自研超级计算机 DOJO,目标也是为了提高基于车端海量视频与数据的神经网络训练速度与效率。公司预计将在 2024 年投入使用,并预计将进一步搭配 HW 4.0,形成以车主数据为驱动的算法+芯片+软件的三端开发协同,实现针对其算法的芯片架构高效与快速迭代。特斯拉在 2023 年上海人工智慧大会开幕式称在年底前能实现全自动
319、驾驶,不过,CEO Elon Musk 其实早在 2016 年也做出该承诺(根据 The Verge 2016 年 1 月 11 日的报道),因此,我们对于 DOJO 以及全自动驾驶将拭目以待。图表图表164:特斯拉自动驾驶自动改进概念图特斯拉自动驾驶自动改进概念图 资料来源:特斯拉官网、华泰研究 免责声明和披露以及分析师声明是报告的一部分,请务必一起阅读。75 科技科技 重点推荐:英伟达重点推荐:英伟达为为 AI 芯片芯片行业龙头,行业龙头,AMD 突围突围有望有望迎来迎来重估重估 我们对英伟达和我们对英伟达和 AMD 采用采用 PS 的的估值逻辑。估值逻辑。PS 估值适用于处于高速发展阶段
320、且和技术进估值适用于处于高速发展阶段且和技术进步高度相关的企业,这也是我们选择步高度相关的企业,这也是我们选择 PS 对两家公司进行估值的原因。我们列出对两家公司进行估值的原因。我们列出 AI 芯片产芯片产业链业链的的相关相关公司公司,包括包括上游和芯片相关的上游和芯片相关的英特尔、博通、高通(英特尔、博通、高通(QCOM US)、)、Mobileye(MBLY US)、台积电和)、台积电和阿斯麦阿斯麦(ASML US);以及下游云计算客户,);以及下游云计算客户,微软、谷歌、亚马逊和微软、谷歌、亚马逊和甲骨甲骨文文(ORCL US)。我们综合考虑)。我们综合考虑英伟达和英伟达和 AMD 二者
321、业务前景、技术壁垒和市场地位等,对二者业务前景、技术壁垒和市场地位等,对英伟达和英伟达和 AMD 重点推荐,判断逻辑如下所述:重点推荐,判断逻辑如下所述:图表图表165:AI 芯片行业芯片行业产业链的相关产业链的相关公司估值公司估值(数据数据截至截至 2023 年年 9 月月 20 日)日)PS PE 2023E 2024E 2025E 2023E 2024E 2025E 芯片设计芯片设计/晶圆代工晶圆代工/半导体设备半导体设备 NVIDIA CORPORATION NVDA US 19.9 13.1 10.8 39.9 25.1 21.0 ADVANCED MICRO DEVICES AMD
322、 7.2 6.1 5.4 37.1 24.8 19.7 INTEL CORPORATION INTC 2.9 2.6 2.4 56.7 20.6 15.6 BROADCOM AVGO 10.1 9.4 8.8 25.3 22.5 19.4 QUALCOMM QCOM 3.5 3.3 3.0 13.0 11.8 10.6 MOBILEYE MBLY 14.8 11.6 8.4 54.4 44.5 29.8 TSMC 2330 TT 6.6 5.5 4.6 18.5 14.6 12.1 ASML Holding N.V.ASML 8.0 7.4 6.2 28.8 25.5 19.7 均值均值 9.
323、1 7.4 6.2 34.2 23.7 18.5 大型云厂商大型云厂商 MICROSOFT MSFT 11.0 9.7 8.5 31.7 28.0 24.1 ALPHABET GOOGL 5.8 5.1 4.5 24.3 20.5 17.7 AMAZON AMZN 2.5 2.3 2.0 61.6 41.8 29.8 ORACLE ORCL 6.1 5.7 5.3 21.2 19.2 17.0 均值均值 6.3 5.7 5.1 34.7 27.4 22.2 注:预测值参考 Visible Alpha 一致预期 资料来源:Visible Alpha 官网、华泰研究 图表图表166:重点推荐公司一
324、览表重点推荐公司一览表(数据截至(数据截至 2023 年年 9 月月 20 日)日)资料来源:Bloomberg、华泰研究 英伟达英伟达:AI 龙头软硬一体双护城河龙头软硬一体双护城河(NVDA US,买入,目标价:,买入,目标价:650.00 美元美元)英伟达作为全球数据中心英伟达作为全球数据中心 GPU 的龙头厂商,凭借高算力的硬件及高粘性的软件生态的龙头厂商,凭借高算力的硬件及高粘性的软件生态 CUDA,软硬一体平台布局充分受益于软硬一体平台布局充分受益于 AI 的喷发需求。的喷发需求。我们认为,公司中短期内将主要由数据中心业务带动,长期成长性则取决于 AI 商业化应用落地及 AI 芯片
325、竞争格局的发展。我们认为英伟达在 AI 芯片的龙头优势将持续,并带动毛利率和净利率上升,高估值得以支撑。我们预计 FY24/25/26 年营收为 517.3/828.2/1142.1 亿美元,同比 91.8%/60.1%/37.9%。我们给予公司 FY24-25 年动态营收 801 亿美元和 20 倍 PS,目标价 650 美元,首次覆盖给予买入评级。免责声明和披露以及分析师声明是报告的一部分,请务必一起阅读。76 科技科技 英伟达的主营业务已从游戏显卡转移到数据中心。英伟达的主营业务已从游戏显卡转移到数据中心。英伟达两大业务:1)数据中心营收占比已逾 75%,为公司主要营收和盈利贡献。台积电
326、对未来五年 AI 服务器销售额 CAGR 50%的预测,加上 2024 年先进封装 CoWoS 产能将迎来翻倍,以及美国加息步入尾声,均表明需求旺盛。我们预计 23/24/25 年营收 378/654/916 亿美元,同比 152%/73%/40%。2)游戏显卡逐渐从挖矿影响中恢复,叠加 PC 市场下滑收窄、疫情间高基数开始消化和高期待新游戏带动,我们预计 23/24/25 年营收 109/136/177 亿美元,同比 20%/25%/30%。公司 23-25年毛利率和净利率受益于业务转移,将分别从 70%提升到 73%及 47%提升到 50%。图表图表167:2016 年至今英伟达历史股价、
327、年至今英伟达历史股价、Forward PE 和和 Forward PS(数据截至(数据截至 2023 年年 9 月月 20 日)日)资料来源:Bloomberg、华泰研究 超威半导体超威半导体:AI 新赛道为重估之钥新赛道为重估之钥(AMD US,买入,目标价:,买入,目标价:150.00 美元美元)2016 年开始年开始 AMD 突围英特尔,在抢占份额中估值不断攀升,从突围英特尔,在抢占份额中估值不断攀升,从 3x PS 到到 21 年年 5-6x。如。如今突围二战一触即发,面对今突围二战一触即发,面对 AI 新机遇新机遇 AMD 有望再次来到重估分水岭。有望再次来到重估分水岭。我们预测 A
328、MD 23/24/25 年营收为 241.9/285.1/318.9 亿美元,同比 2.5%/17.9%/11.8%。对比竞争对手英特尔和英伟达 2024 年的 PS 分别为 2.6 倍和 14.6 倍,AMD 在 CPU 制程上仍领先英特尔,但在 GPU 却奋力追赶英伟达,因此我们认为估值应在两家之间且略低于两家平均值,对比自身历史估值(自 2020 年开始 PS 一直处于 5-6 倍)则上修可期。我们给予 AMD 24 年 8.5x PS,对应目标价 150 美元,首次覆盖给予买入评级。AMD 以数据中心为茅,游戏和嵌入式为盾,客户端逐渐恢复,毛利率提升。以数据中心为茅,游戏和嵌入式为盾,
329、客户端逐渐恢复,毛利率提升。AMD 四大业务:1)数据中心:AI 之风继续吹,CPU 制程仍领先英特尔,MI300 系列有力冲击英伟达,看好 CPU 和 GPU 均能提升份额,预计 23/24/25 年营收 76.0/104.1/120.9 亿美元,同比26%/37%/16%;2)游戏:疫情间高基数开始消化、主机“半代升级”和高期待新游戏带动维持增长,预计 23/24/25 年营收 66.0/68.3/70.7 亿美元,同比-3%/3.5%/3.5%;3)客户端:随 PC 市场下滑收窄而回暖,预计 23/24/25 年营收 43.0/47.3/52.0 亿美元,同比-31%/10%/10%;4
330、)嵌入式:赛灵思并表效应消退后进入平稳阶段,预计 23/24/25 年营收56.9/65.4/75.3 亿美元,同比 25%/15%/15%。免责声明和披露以及分析师声明是报告的一部分,请务必一起阅读。77 科技科技 图表图表168:2016 年至今年至今 AMD 历史股价、历史股价、Forward PE 和和 Forward PS(数据截至(数据截至 2023 年年 9 月月 20 日)日)资料来源:Bloomberg、华泰研究 图表图表169:报告中提及上市公司一览(除英伟达和报告中提及上市公司一览(除英伟达和 AMD)公司名称公司名称 股票代码股票代码 公司名称公司名称 股票代码股票代码
331、 公司名称公司名称 股票代码股票代码 谷歌(Google)GOOS US 奥特斯(AT&S)ATS AV 3M MMM US 亚马逊(Amazon)AMZN US 南亚科技(Nanya)2408 TT JSR 4185 JT 微软(Microsoft)MSFT US 景旺电子 603228 CH Nissan 7201 JT 台积电(TSMC)TSM US/2330 TT 沪电股份 002463 CH Sumitomo Chemical 4005 JT Tazmo 6266 JT 生益科技 600183 CH 东京应化工业(T.O.K)8035 JT Shibaura 6590 JT SK 海
332、力士(SK hynix)000660 KS SK Materials 036490 KS 博通(Broadcom)AVGO US 美光(Micron Technology)MU US Air Products APD US Meta META US Central Glass 4044 JT 百度 BIDU US AVC 3017 TT Nippon Sanso Taiwan 4091 JT 苹果(Apple)AAPL US 双鸿科技 3324 TT Cabot Microelectronics CBT US 阿里巴巴 BABA US 健策精密 3653 TT AGC 5201 JT 寒武纪
333、688256 CH 胜宏科技 300476 CH Fujibo 3104 JT 英特尔(Intel)INTC US 奥士康 002913 CH Fujimi 5384 JT 爱彼迎(Airbnb)ABNB US 浪潮 600756 CH 英特格公司(Entegris)ENTG US Snap SNAP US 联想 0992 HK 富士电子材料集团(Fujifilm)4901 JT Sprinklr CXM US IBM IBM US RASA 工业 3023 JT Money Forward 3994 JT 广达 2382 TT 德山株式会社(Tokuyama)4043 JT 特斯拉(Tesla)TSLA US 纬创 3231 TT 胜一化工(Shiny)1773 TT 金山云 KC US 英业达 2356 TT 信越半导体(Shin-Etsu Handotai)4063 JT 腾讯 00