《电子行业AMD数据中心和AI技术首映跟踪报告:全球AI加速器市场规模高速增长MI300系列产品亮相-230614(22页).pdf》由会员分享,可在线阅读,更多相关《电子行业AMD数据中心和AI技术首映跟踪报告:全球AI加速器市场规模高速增长MI300系列产品亮相-230614(22页).pdf(22页珍藏版)》请在三个皮匠报告上搜索。
1、 敬请阅读末页的重要说明 证券研究报告|行业简评报告 2023 年 06 月 14 日 AMD 数据中心和数据中心和 AI 技术首映跟踪技术首映跟踪报告报告 TMT 及中小盘/电子 事件:事件:超威半导体 AMD(NASDAQ:AMD)于美国太平洋时间 6 月 13 日举行“AMD数据中心和 AI 技术首映”活动,综合会议信息,总结要点如下:评论:评论:1、MI300A 已应用于一些超级计算机,已应用于一些超级计算机,MI300X 是专为生成式是专为生成式 AI 设计的设计的 GPU。MI300A 使用 CDNA3 GPU 架构,配备了 24 个高性能 Zen4 CPU 核心,包含128G H
2、BM 内存,性能比 MI250 提升 8 倍,已应用于一些超级计算机中。MI300X为纯 GPU,包含 192GB HBM3 内存,内存带宽 5.2TB/s,单个 GPU 可运行大语言模型。AMD 为 Instinct 数据中心 GPU 提供软件堆栈 ROCm 已达第五代,包括了非常全面的AI和高性能计算优化套件,ROCm堆栈大部分及库是开放的。MI300A 已在送样,MI300X 预期 Q3 送样,两款产品预计 Q4 量产。2、为云工作负载设计的首款为云工作负载设计的首款 EPYC处理器处理器 Bergamo 多达多达 128个个 Zen 4c核心。核心。Bergame 包含 8 个计算芯片
3、(CCD),每个计算芯片包含 16 个 Zen4c 核心。Zen4c 是 Zen4 核心的增强版本,在性能和功耗的最佳平衡点上进行了优化,带来更好的密度和能效,面积减小了 35%的同时每瓦性能提高很多,与 Zen4 核心有100%的软件兼容性。在云原生应用程序中提供的性能是竞争对手的2.6倍。3、基于基于 AMD 3D V-Cache 的的 EPYC 处理器处理器 Genoa X 提高了技术计算新水平提高了技术计算新水平。Genoa X 最多包含 96 个 Zen4 核心,支持超过 1GB 的 L3 Cache,更大的缓存可以更快地为 CPU 提供复杂的数据集。CFD 和 FEA 工作负载上最
4、高核心数量的 Genoa-X 比竞争对手性能提高了一倍以上。即使比较具有相同内核数量的处理器,Genoa-X 性能优势仍然非常明显。Genoa-X 平台将在下个季度推出。4、P4 DPU 将将 CPU 从开销中释放从开销中释放,SmartNICs 提供安全性和管理一致性服务提供安全性和管理一致性服务。通过服务器中的DPU将虚拟化开销浮动,并将基础架构和安全服务带到使用端,可以消除或大幅减少对外部设备的需求,使得 CPU 从开销中释放出来,改善云DCO。DPU 可以部署在 SmartNICs 中,也可以部署在基础设施中。SmartNICs还可以提供安全性和管理一致性服务。投资建议:关注投资建议:
5、关注 CPU+GPU 整体方案技术路径变革整体方案技术路径变革/Chiplet 产业链公司。产业链公司。AMD 的 MI300A 和英伟达 Grace Hopper 均属于创新性 CPU+GPU 整体方案,MI300X 对标英伟达 H100,AMD MI300 系列产品在 HBM 等指标参数上显著优于英伟达可比产品,未来或将有机会对英伟达近乎垄断的高端计算市场发起冲击。建议关注 CPU+GPU 整体方案相较于传统 CPU 和 GPU 分立放置的技术路径变革,关注以 AMD 为代表的 Chiplet 技术相关产业链公司(如通富微电和芯原股份等),同时关注 AI 加速器市场高速增长背景下有望受益的
6、相关算力产业链公司。风险提示:风险提示:竞争加剧风险;贸易摩擦风险;行业景气度变化风险;宏观经济及竞争加剧风险;贸易摩擦风险;行业景气度变化风险;宏观经济及政策风险。政策风险。行业规模行业规模 占比%股票家数(只)468 9.4 总市值(亿元)78512 9.5 流通市值(亿元)58449 8.2 行业指数行业指数%1m 6m 12m 绝对表现 8.0 6.3 10.2 相对表现 9.9 8.3 18.0 资料来源:公司数据、招商证券 相关报告相关报告 1、AI 算力供应链系列报告大模型时代 AI 服务器需求提升,算力市场打开长线空间2023-04-20 鄢凡鄢凡 S02
7、 曹辉曹辉 S01 (后附(后附AMD数据中心和数据中心和AI技术首映技术首映会议纪要会议纪要)-30-20-100102030Jun/22Sep/22Jan/23May/23(%)电子沪深300全球全球 AI 加速器市场规模高速增长加速器市场规模高速增长,MI300 系列产品亮相系列产品亮相 敬请阅读末页的重要说明 2 行业简评报告 附录:附录:AMD 数据中心和数据中心和 AI 技术首映活动技术首映活动纪要纪要 时间:时间:2023 年 6 月 13 日 出席:出席:AMD CEO,Dr.Lisa Su,SVP and GM of AMDs server busine
8、ss unit,Dan McNamara,EVP and GM of AMDs data center solutions business group,Forrest Norrad,AMS、Meta、Microsoft、Citadel Securities、PyTorch、Hugging Face 等公司嘉宾。会议纪要根据公开信息整理如下:会议纪要根据公开信息整理如下:我们专注于推动高性能和自适应计算的发展,为世界上最重要的挑战创造解决方案。从云和企业数据中心到 5G 网络,再到人工智能、汽车、医疗保健、PC 等等,AMD 技术无处不在。我们每天都在影响着数十亿人的生活。图图 1:公司简介:
9、公司简介 资料来源:AMD 数据中心和 AI 技术首映,招商证券 今天,我们在这里讨论我们最新的今天,我们在这里讨论我们最新的 EPYC 数据中心处理器、我们即将推出的数据中心处理器、我们即将推出的 Instinct 加速器以及我们不断发展的人加速器以及我们不断发展的人工智能软件生态系统。工智能软件生态系统。现代数据中心大家真正需要的是全面的最高性能计算引擎。今天,我们的 EPYC 处理器引领业界,这是目前性能最高的处理器。我们还提供业界最广泛的产品组合,使我们能够真正针对数据中心的不同工作负载进行优化。无论是 Instinct、为 HPC 和人工智能构建的 GPU 加速器,还是在谈论我们从
10、Xilinx 和 Pensando 收购FPGA、Adaptive Soc 或 SmartNICs 以及 DPUs。今天,我们将向您展示我们如何将所有这些结合在一起,并通过我们的下一代数据中心和人工智能产品真正扩展我们的产品组合。TUvXiW9UjZVUpX8ViY9P9RbRnPqQnPmPfQnNqOeRoPmRaQrRvMNZqMmNNZoNtQ 敬请阅读末页的重要说明 3 行业简评报告 图图 2:云计算领域简介:云计算领域简介 资料来源:AMD 数据中心和 AI 技术首映,招商证券 自 2017 年推出 EPYC 以来,我们一直专注于打造业界最好的数据中心 CPUs。EPYC 现在是云
11、计算的行业标准。鉴于我们在各种工作负载中的领先性能,每个主要的云提供商都为其内部工作负载以及面向客户的实例部署了 EPYC。今天,全球有超过 640 个 EPYC 实例,另有 200 个将在今年年底推出。图图 3:第四代第四代 EPYC Genoa 处理器处理器 资料来源:AMD 数据中心和 AI 技术首映,招商证券 企业的 EPYC 的使用率也在增长,尤其是对于要求最苛刻的技术性工作负载,无论是金融服务、电信、技术、制造业还是汽车客户等等,他们都会根据性能、能效、TCO 来选择 EPYC。随着我们推出第四代 EPYC Genoa 处理器,这一势头正在不断增强。第四代 EPYC Genoa 处
12、理器采用 5 纳米工艺和四个核心。它拥有最新的 I/O,包括 PCIe5、12个 DDR5 内存通道,支持 CXL。图图 4:Genoa 性能对比性能对比 资料来源:AMD 数据中心和 AI 技术首映,招商证券 自那以后,市场上出现了其他产品。但是如果您看一下今天,Genoa 仍然是业界性能最高、最高效的处理器。让我们来看一下 Genoa 的一些性能指标。首先是云整数性能,这是关键指标。与竞争对手的顶级 EPYC 产品进行比较,Genoa 提供了 1.8 倍的性能。在企业领域,无论是在 Java 工作负载、虚拟化还是企业资源计划(ERP)工作负载上,第四代 EPYC 的速度提高了最多 1.9
13、倍。敬请阅读末页的重要说明 4 行业简评报告 图图 5:Genoa 能耗对比能耗对比 资料来源:AMD 数据中心和 AI 技术首映,招商证券 对于现代数据中心来说,能耗已成为与整体性能同等重要的因素。当我们设计通用时,我们实际上考虑到了这一点,我们想要在性能上领先,但我们也必须有一流的能源效率,性能功耗比是业界的我们想要在性能上领先,但我们也必须有一流的能源效率,性能功耗比是业界的 1.8 倍倍,因此到目前为止,通用型是任何关心可持续发展的人的最佳选择。因此,当我们与客户交谈时,他们中的许多人都告诉我们,实际上,他们需要更新他们的数据中心,并且他们确实需要整合并获得更好的占用空间和更低的运营成
14、本,Genoa 完美满足这些需求。图图 6:Genoa AI 性能性能 资料来源:AMD 数据中心和 AI 技术首映,招商证券 今天绝大多数的人工智能工作负载都是在 CPU 上运行。Genoa 也是人工智能最好的 CPU。查看人工智能性能的最好方法实际上是查看一组广泛的端到端工作负载。我们使用行业标准 TPCx-AI 基准测试,该测试实际上着眼于十个不同用例的端到端人工智能性能。和许多不同的算法。在这种情况下,我们看到的是 EPYC 性能是竞争对手的 1.9 倍。亚马逊嘉宾:亚马逊嘉宾:AWS构建了最可靠、最安全的全球云基础架构,拥有最广泛、最深入的产品组合,以支持几乎所有类型的客户工作负载。
15、自2018年以来,AMD和AWS一直在深入合作,当时AWS率先在云中引入了AMD EPYC,与同类的x86 EC2产品相比,节省了10%的成本。图图 7:AWS 引入引入 AMD EPYC 资料来源:AMD 数据中心和 AI 技术首映,招商证券 随着客户使用这些产品并从中受益,他们需要其他基于AMD的产品类型来运行更广泛的应用程序。总之,我们已经推出了100多个基于AMD EPYC的Amazon EC的产品,用于通用、计算密集型以及内存和工作负载的感知。就在去年,我们推出了第一个专门针对基于高性能计算的AMDIT进程HPC 6a而优化的实例,其性能比同类基于EC2 X86的计算优化实例高出65
16、%,适用于计算流体动力学等工作负载。我们拥有广泛的客户,他们从基于AMD的EC的成本节约中获得了巨大的利益。这是企业客户如何投资的两个例子。这些成本节约转化为创新,以改善他们的业务,包括Truecar,一个数字汽车公司,他们寻求更高效的运营方式并提高开发速度,这样他们就可以将节省下来的钱投入到汽车购买体验中。通过为其 敬请阅读末页的重要说明 5 行业简评报告 核心基础架构选择AMD产品系列,以及使用AWS推荐工具在实例中选择合适的大小,Truecar将其AWS云基础架构优化了25%。另一个客户是一个专为企业提供管理现代渠道上客户体验的网络平台。由于运营规模庞大,他们需要优化强大的架构以实现成本
17、和性能的最佳化。他们是我们首代基于AMD的EC2实例(用于一般工作负载)的早期采用者,当他们迁移到亚马逊的EC2 M6a实例后,发现性能提升了22%,成本节省了24%。在HPC领域,DTN(DynamicTransferNetwork)使用天气和数据模型进行运算,生成需要对全球范围内大量输入数据进行连续处理的复杂、高分辨率的输出结果。DTN利用亚马逊的EC2 HPC 6a实例,由AMD的EPYC处理器提供动力,运行计算密集型的HPC工作负载。通过在AWS上运行HPC工作负载的灵活性、弹性和效率,DTN成功将其高分辨率全球天气模拟能力从每天2次提升至每天4次。图图 8:Genoa 对对 E5 I
18、nstances 的支持的支持 资料来源:AMD 数据中心和 AI 技术首映,招商证券 我们持续看到的一个趋势是,客户对于在AWS上更快地运行工作负载并获得更好的性价比的需求不断增加。为了满足客户需求,我们正在构建新的EC2实例,利用第四代AMD EPYC处理器和AWS Nitro系统的独特组合。现在,AWS Nitro系统是每个EC2实例的基础,它使我们能够提供性能卓越、安全高效的基础设施。通过结合第四代AMD EPYC处理器和AWSNitro系统,我们释放了下一代AMD处理器的全部能力,并为客户带来了显著的性能提升。今天,我们非常激动地宣布预览亚马逊的EC2M7a通用实例,由第四代AMD
19、EPYC处理器提供动力。我们对这项技术非常兴奋。根据我们的基准测试,M7a实例旨在在亚马逊EC2 x86通用实例系列中提供最佳的x86性能和每个虚拟CPU的性价比。相比上一代的M6a实例,M7a实例的计算性能提升了多达50%。我们认为包括金融应用、应用服务器、视频转码、仿真建模在内的各种工作负载都将受益于M7a实例。M7a实例还提供了新的处理器功能,如AVX-512、VNNI和bfloat16,以帮助客户获得额外的性能,并将更广泛的工作负载引入AWS。正如我之前提到的,M7a实例现已开始预览。客户可以注册参与预览,而正式推出将在第三季度进行。AWS将逐步将Genoa技术引入更多的EC2实例中,
20、使我们的客户能够随着时间的推移利用这种新的性能水平做更多的事情。AWS将把Genoa带到更多的EC两个实例中。因此,随着时间的推移,我们的客户可以利用这一新的性能水平做更多事情。我们对新的M7a通用实例进入公开预览非常兴奋。我们真的相信这是公共云中性能的跃进式改进。我们期待着为客户提供更多的功能。当我们看整个行业时,我们对基于Genoa的响应非常满意,它在领导地位和在广泛的通用服务器工作负载上的交付方面表现出色。我还要在这里宣布,Oracle今天也发布了新的通用标准HPC和密集I/O实例,预计将于七月开始正式投入使用。敬请阅读末页的重要说明 6 行业简评报告 图图 9:云:云原生原生 资料来源
21、:AMD 数据中心和 AI 技术首映,招商证券 总的来说,我们的通用实例正在很好地推进,未来几周和几个月,您将看到更多公共实例和客户上线。但我之前所说的是,数据中心工作负载变得越来越专业化,需要在中央处理器、数据处理单元和人工智能加速器方面进行优化的计算解决方案。这就是 AMD 的特点所在。我们数据中心 AI 计算产品组合的广度实际上提供了重要的优势,因为您可以根据工作负载选择适合的计算资源。现在,让我们谈谈云原生计算。云原生工作负载实际上是一组快速增长的应用程序,我们可以称之为“诞生于云”。它们旨在充分利用新的云计算框云原生工作负载实际上是一组快速增长的应用程序,我们可以称之为“诞生于云”。
22、它们旨在充分利用新的云计算框架,并以微服务的形式运行。架,并以微服务的形式运行。您将大量的代码拆分为较小的进程,可以独立扩展这些进程,从而实现全天候的运行时间。这些处理器的最佳设计与通用计算实际上有所不同。它们实际上是面向吞吐量的,并且受益于最高密度和最佳能效。所有这些因素实际上推动了Bergamo的开发。Bergamo实际上是我们专为云工作负载设计的首款EPYC处理器。让我简要介绍一下 Bergamo。它利用我们已经为 Genoa 开发的平台基础设施,支持相同的下一代内存和相同的 I/O功能。但它允许我们根据这一设计理念在云中实现每个插槽 128 个核心的领先性能和能效。图图 10:新一代云
23、原生处理器新一代云原生处理器 资料来源:AMD 数据中心和 AI 技术首映,招商证券 这是我们的新一代云原生处理器。在这里我们实际上有一个全新的计算芯片。该计算芯片与 Genoa 使用了我们的Chiplet 技术有所不同。每个计算芯片包含 16 个 Zen4c 核心。在中央部分,我们使用了与 Genoa 相同的 6 纳米工艺。敬请阅读末页的重要说明 7 行业简评报告 图图 11:Bergamo 云原生表现及云原生表现及 Zen 4c 介绍介绍 资料来源:AMD 数据中心和 AI 技术首映,招商证券 Zen 4c 实际上是实际上是 Zen4 核心的增强版本。核心的增强版本。这实际上是我们模块化设
24、计方法的一个很好的例子。当我们最初设计 Zen4核心时,它实际上是为每个核心的最高性能进行优化的。Zen4c 实际上是在性能和功耗的最佳平衡点上进行了优化实际上是在性能和功耗的最佳平衡点上进行了优化,给我们带来了更好的密度和能效。给我们带来了更好的密度和能效。我们实现这一目标的方式是从与 Zen4 完全相同的 RTL 设计开始。这使我们能够实现 100%的软件兼容性。然后,我们优化了 Zen4c 的物理实现,以提高功耗和面积。我们还重新设计了 L3 缓存层次结构,以提高吞吐量。将所有这些结合起来,结果是一个面积减小了 35%且性能每瓦提高了很多的设计。图图 12:Zen 4c 和和 Zen 4
25、 对比对比 资料来源:AMD 数据中心和 AI 技术首映,招商证券 从产品角度来看,这意味着什么?这意味着 Genoa 和 Bergamo 之间唯一的真正区别是 CCD 三元组。我们使用相同的插槽,将 Genoa 的 CPU 三元组替换为 Bergamo 的 CPU 三元组。在 Bergamo 中,每个计算三元组包含的核心数量是 Genoa 上的两倍。这就是我们如何实现每个插槽 128 个核心的配置。但是重要的是,正如我之前所说,它完全兼容软件,也与 Genoa 完全兼容平台。对于客户来说,这意味着他们可以根据自己的计算需求和工作负载轻松部署Bergamo 或 Genoa。因此,我们真的在尽力
26、利用 AMD 在整体平台投资。图图 13:Bergamo 性能性能 资料来源:AMD 数据中心和 AI 技术首映,招商证券 敬请阅读末页的重要说明 8 行业简评报告 这是 Bergamo 的性能指标。如果将 Bergamo 与竞争对手的顶级产品进行比较,您会看到令人难以置信的性能。在各种云原生应用程序中,我们提供的性能提高了高达 2.6 倍,无论是在谈论 Web 前端、内存分析还是非常繁重的事务工作负载方面。此外,从整体密度和功能的角度来看,Bergamo 在计算密度和能效方面明显优于竞争对手。每台服务器上容量增加了两倍以上,在 Java 工作负载中的能效提高了两倍。图图 14:Bergamo
27、 的性能的性能 资料来源:AMD 数据中心和 AI 技术首映,招商证券 Meta嘉宾:嘉宾:自2019年以来,Meta和AMD一直在EPYC服务器设计上展开合作。这些合作逐渐扩大,涵盖了Milan、Genoa和现在的Bergamo。我们密切合作,根据美光的功耗、效率和计算密度要求,定制了AMD的EPYC架构。这些优化包括硬件和软件堆栈的所有层面,包括Zen核心、SoC组成、固件内核性能、遥测和软件,以实现最佳的性能与总拥有成本比。我们还分享了在可靠性和维护方面的经验,并帮助改进了EPYC服务器设计,以满足所有超大规模部署的需求。对于我们的所有平台,我们都进行开源,并且以往我们已通过开放计算项目
28、(Open Compute Project)开源了基于AMD Milan的服务器设计。我们打算以同样的方式开源我们最新的Bergamo一代大规模服务器。我们在全球数据中心和服务器群中已经部署了数十万台AMD服务器,运行着成千上万个工作负载,为WhatsApp、Instagram、Facebook以及我们的产品团队提供服务。我们还在视频转码和存储系统中部署了AMD服务器,并在AI计算平台上使用AMD处理器。我们与AMD共享了我们的工作负载经验,并在处理问题和扩展方面进行合作。你说得对,我们的规模非常庞大,我们的规模和世代增长速度自然而然地对供应商构成了压力。但在我们合作的早期,我们对AMD能否与
29、我们同步扩展并满足我们积极建设数据中心的需求表示担忧。然而,多年来,AMD始终如一地兑现了这些承诺,无论是在供应方面还是技术产品路线图创新方面,他们给我们留下了深刻的印象。我们已经得出结论,我们可以依靠AMD一次又一次地按时交付。我们非常兴奋地准备将Bergamo作为我们下一代大规模通用计算平台部署到Meta。与Milan相比,我们看到了Bergamo显著的性能提升,大约是2.5倍。它还提供了相当大的TCO改进,超过了Milan。基于AMD所实现的粗颗粒硅创新,我们与AMD合作进行了其他一些优化,帮助我们的工作负载,包括密集计算三元组、缓存比例、功耗管理和制造优化,这些优化帮助我们将大量的这些
30、服务器集成到机架中,并提供了更高的机架级性能和改进的TCO。一年前的六月,我们发布了针对 EPYC 的产品组合,针对不同的工作负载进行了优化,今天我们非常激动地推出了两款新产品。刚才你已经看到我们如何通过 Bergamo 来优化 EPYC 以进行认知计算。现在我将花些时间向您展示我们现在我将花些时间向您展示我们如何将如何将 EPYC 优化用于不同的数据中心工作负载,即企业和设计制造实体产品的技术计算。优化用于不同的数据中心工作负载,即企业和设计制造实体产品的技术计算。工程仿真对这些公司来说至关重要。这些公司需要行业顶级工程师,并配备最佳的计算基础设施。能够更快、更高效地工作的公司通过更快地推向
31、市场、提供更具创新性和更高质量的产品,并在减少成本的同时实现这一目标。考虑到这些目标,我们开发了第二代考虑到这些目标,我们开发了第二代 AMD 3D V-Cache 技术,在核心芯片上使用相同的技术,在核心芯片上使用相同的 Cache 集成。集成。现在 96 核CPU 支持超过 1GB 的 L3 Cache,更大的缓存可以更快地为 CPU 提供复杂的数据集。它提供了一个新的维度,即处理器和工作负载优化。我们去年在 Milan X 上首次引入了这项技术,现在我们将它带到了 Zen4 EPYC,与高性能 Zen4 Core 相结合。敬请阅读末页的重要说明 9 行业简评报告 今天,我非常兴奋地宣布推
32、出带有今天,我非常兴奋地宣布推出带有 AMD 3D V-Cache 的的 EPYC 处理器,名称为处理器,名称为 Genoa X。我们将提供四个新的选择,从 16 个核心到 96 个核心,与 Genoa 兼容。General X 有帮助释放技术计算领域中世界上最重要且要求最苛刻的工作负载的潜力。从飞机发动机到最先进的半导体,新产品的快速设计和仿真是当今市场的当务之急。图图 15:AMD Gen4 EPYC 与与 3D V-Cache 技术技术 资料来源:AMD 数据中心和 AI 技术首映,招商证券 Genoa 是市场上最快的是市场上最快的 CPU 处理器,处理器,Genoa X 将这一性能提升
33、到了技术计算的新水平。将这一性能提升到了技术计算的新水平。我们正在与合作伙伴一起提供所有这些高性能,合作对象包括的 Ansys 数字制造软件,Cadence、Siemens 和 Synopsis 等公司的 EDA 软件。我们将继续与这些解决方案商密切合作,为共同的客户创造优化的环境。图图 16:与:与 AMD 合作的解决方案商合作的解决方案商 资料来源:AMD 数据中心和 AI 技术首映,招商证券 现在,让我们来看看这些解决方案的性能,从一些广泛部署的 CFD 和 FEA 工作负载开始。蓝色部分是最高核心数量的 Genoa-X 处理器,灰色部分是 Intel 60 核心 Gen4 Xeon 处
34、理器。在这些应用中,96 核 Genoa-X 处理器的性能提高了一倍以上。即使比较具有相同内核数量的处理器,Genoa-X 性能优势仍然非常明显。所有这些性能表现和软件都将体现在行业顶级 OEM 提供的服务上。图图 17:AMD Gen4 EPYC 在在 CFD 和和 FEA 的性能表现对比的性能表现对比 资料来源:AMD 数据中心和 AI 技术首映,招商证券 Genoa-X 平台将在下个季度推出。受益于我们的软件知识和合作伙伴,我们增加了解决方案的数量,以行业领先的性能和效率进一步服务于技术计算市场,公司可以利用公有云以最高性能运行这些仿真。图图 18:服务器合作伙伴:服务器合作伙伴 资料来
35、源:AMD 数据中心和 AI 技术首映,招商证券 Microsoft嘉宾:嘉宾:敬请阅读末页的重要说明 10 行业简评报告 我们想确保为HPC提供前所未有的性能表现。我们的企业客户希望加快数字化转型,希望HPC这样的任务关键型工作负载能够出现并真正受益于云的规模、可靠性和效率提升。微软与AMD早在2019年就开始了合作,推出了首款采用第一代EPYC处理器的HB系列。2020年,我们推出了我们的第二代处理器,采用第二代EPYC,进入十大超算之列,开始真正抓住市场的发展势头。2021年,我们向全球客户推出了第三代HBv系列,使用Milan进一步增强性能。我们宣布将使用AMD 3D V-Cache来
36、升级我们第四代HBv系列,从而在不增加成本的情况下为客户提供高80%的性能 图图 19:微软:微软 Azure 发展历程发展历程 资料来源:AMD 数据中心和 AI 技术首映,招商证券 今天我们宣布第四代HBv系列全面上市,此外我们还有一个新的内存优化HPC虚拟机,Azure HX系列。HBv 4和HX都采用了AMD 3D V-Cache,它还将与我们的InfiniBand产品配合使用,使我们的HPC工作负载能够很好地扩展。第四代HBv系列提供1.2TB/s的内存带宽,可以将其与计算密度方面的两个提升相结合,现在我们可以提供速度快4.5倍的HPC工作负载,比如CFD分子动力学、金融建模、天气模
37、拟、各种虚拟渲染。这是我们从云规模和来自AMD的高效率相结合的成果。在HX系列上,我们采用了超低内存延迟、3D V-Cache和一个巨大的1.4TB系统Cache。对于一些数据密集型工作负载,如芯片设计、结构分析,这将提供六倍的性能,这是惊人的。对于许多客户来说,这意味着他们现在可以在相同或更少的内核上适应现有工作流,总体上具有更低的TCO,因为他们节省了大量的软件授权费。将其与你们同类最佳的FileUp系统相结合,比如工作负载和端到端编排产品,客户将在云上看到优异的性能。图图 20:HBv4/HX 与与 HBv3 系列性能表现对比系列性能表现对比 资料来源:AMD 数据中心和 AI 技术首映
38、,招商证券 客户的采纳是最终的检验。今天我想谈两个客户,一个是Petronas,一家全球能源公司,在全世界数百个国家布局。他们是第一个使用Azure第四代HBv系列的公司。他们正在试图解决上游工作,需要进行高度复杂的定量解释和处理。这些工作负载需要大量的内存带宽,需要HPC能力,这是AMD与Azure合作之处。我们与AMD密切合作,以确保我们能够推出这些新的虚拟机,结合我们的许多AI工具,真正加速他们在地球物理学中所做的工作,帮助他们更快地做出决定。Petronas还承诺利用Azure实现AAA级企业可持续发展目标和Azure,因为到2025年,我们将100%使用可再生能源,让他们能够在205
39、0年前实现净零碳排放。关于HX系列。我想谈谈意法半导体,一家领先的半导体公司,他们是第一家使用我们Azure HX虚拟系列的公司。ST Micro将用我们的全新产品来设计下一代芯片。随着工艺技术越来越深入,他们的很多RTL仿真需要更低的存储 敬请阅读末页的重要说明 11 行业简评报告 器延迟和更大的存储器占用,HX系列能够满足要求,每个虚拟机能够打包更多的仿真工作,这意味着他们只需要更少的VM。通过近期实验,他们已经能够将模拟时间缩短30%。这意味着芯片工程师可以看到更多的设计可能性、提高产品质量,因为他们现在做了更多的验证,并且可以更快地将产品推向市场。他们可以在云中完成所有这些工作。这是另
40、一个很好的例子,说明我们如何与客户合作,为最终客户提供更好的解决方案。Genoa-X 现在可用于 Microsoft HBv 4 和 HV 系列,使公司能够将最具创新性的产品推向市场。Genome X 只是我们如何针对不同工作负载进行优化的一个例子。我们 Zen4 产品系列的最后一款是 Siena,它针对边缘工作负载进行了优化,将在成本优化的封装中提供最高的性能和能效。我们将在今年下半年将其推向市场。Citadel Securities嘉宾:嘉宾:Citadel实际上是两家公司。首先我们是世界上最赚钱的对冲基金,管理着大约600亿美元。第二Citadel Securities是世界上最大的做市
41、公司,作为一家做市公司,我们为买家和卖家、金融投资者提供以有竞争力的价格购买或出售任何资产的机会。在任何一天,美国股票市场25%的股票换手通过我们的系统。我们在世界各地的交易所为股票期权、交易所交易基金、国债和其他各种资产提供交易服务。从技术角度,我们进行实时预测分析,开发复杂的定价模型来预测市场走向,有时达到毫秒或微秒的级别,然后尽快将这些价格提供给市场。现在,实际上有两个技术平台支撑着这项业务,它们的工作负载非常不同。首先有一个计算研究平台,我们用它来开发和测试策略。第二有一个超低延迟平台,我们用它来快速响应市场上的买家和卖家。在这两个平台的基础上,有一个复杂的监控层,以确保这些模型在市场
42、上始终安全有效地运行。研究意味着我们要提出关于市场价格走向的假设,用代码表达这些假设,然后测试它们。对我们来说,测试意味着在整个市场的模拟中发布这些策略,并观察它们在各种不同环境和场景下的表现,需要计算平台有巨大的可扩展性和对工作负载优化的能力。例如,所有这些研究都在公有云中运行,达到了约100万个并发核心的峰值需求,并依赖近100PB的市场数据归档。2020年末,我们将所有工作负载转移到AMD,研究性能提高了35%。这是史诗级的创新,特别是内存和带宽得到释放,为我们的业务提供不同级别的性能。交易平台不需要密集化和虚拟化,我们在内部投入了大量资源,并与AMD合作以减少微秒、纳秒甚至微微秒的延迟
43、。这个平台的每一个核心都在世界上最昂贵的数据中心和房地产中运行,因为它尽可能靠近金融市场中心。这也是我们与AMD合作的关键所在。如果有一个市场数据包通过该平台,对于我们运行的最具延迟敏感性的策略,赛灵思FPGA是绝对必要的,他们为市场带来了原本见不到的策略和模式。在研究中,我们看起来非常类似于超大规模。但在低延迟交易中,我们看起来正好相反。AMD在了解Citadel Securities这样复杂、多方面的客户,做得非常出色。我期待着创新产品为我们的业务带来改变,并改善金融市场的运作方式。Jeff 刚刚告诉我们云上的 100 万个 EPYC CPU 内核如何为研究和模拟交易策略提供优化性能,以及
44、 Alveo FPGA 如何为其交易和做市系统提供终极性能。他也向大家介绍了 AMD 在数据中心的另一个重要方面,即我们的网络产品组合。对于 Citadel 来说,这意味着高性能的 SolarFlare NICs 为他们提供了终极的低延迟和高性能,以便在竞争激烈的市场中每天进行数百万次股票交易。计算和网络引擎变得越来越重要,一起提供优化数据中心所需的性能、效率和敏捷性。我们认识到网络代表了数据中心基础设施中日益增长的关键元素,需要针对数据中心工作负载进行优化。这就是我们这就是我们收购收购 Pensando 的动机,因为数据中心的复杂性在不断发展。混合云的最新进展以及云计算向边缘的扩展是一个非的
45、动机,因为数据中心的复杂性在不断发展。混合云的最新进展以及云计算向边缘的扩展是一个非常重要的模式,但这种模式带来的挑战是巨大的。常重要的模式,但这种模式带来的挑战是巨大的。敬请阅读末页的重要说明 12 行业简评报告 图图 21:为数据中心优化的计算基础设施:为数据中心优化的计算基础设施 资料来源:AMD 数据中心和 AI 技术首映,招商证券 第一个挑战是云所固有的。虚拟化为我们带来了更高的利用率和敏捷性,但也带来了确保工作负载分离和安全的开销。随着计算和存储系统跨数据中心分布,以及应用程序不再在单个系统上运行,网络复杂性进一步激增。管理这些分布式资源非常复杂,而随着繁重的系统不断扩展,以及出现
46、更多需要监控的内容,保护数据中心的安全变得更加困难,必须在不增加系统负担的情况下实现监控。今天我们有非常复杂的云环境。云的敏捷性带来每台服务器的开销,通常云的敏捷性带来每台服务器的开销,通常由提供基础架构服务的独立设备支持。为了虚拟机管理程序和基础架构、软件和负载平衡安全性,许多云部署中的由提供基础架构服务的独立设备支持。为了虚拟机管理程序和基础架构、软件和负载平衡安全性,许多云部署中的CPU 负担可能高达负担可能高达 30%甚至更多。甚至更多。图图 22:数据中心发展历程:数据中心发展历程 资料来源:AMD 数据中心和 AI 技术首映,招商证券 今天有人认识到架构带来的复杂性和开销,并创建了
47、 AMD DPU 的概念,我们的 Pensando 团队将 DPU 的概念发展到了世界上最智能的数据流处理器上。我相信这是业内最好的网络团队,我们与 Pensando 收购的团队一起从根本上审视问题,并创建了一个专门构建的架构,以便能够提供复杂的服务,包括以线速查找网络和遥测的安全软件,同时可编程以满足客户的不同需求和未来架构需求。图图 23:混合云边端挑战及:混合云边端挑战及 CPU 开销挑战开销挑战 资料来源:AMD 数据中心和 AI 技术首映,招商证券 敬请阅读末页的重要说明 13 行业简评报告 现在如果我们将现在如果我们将 P4 DPU 放到每个服务器中,可以将放到每个服务器中,可以将
48、 CPU 从其开销中释放出来。从其开销中释放出来。通过每台服务器中的 DPU,我们将虚拟化开销浮动,并将基础架构和安全服务带到使用端,从而消除或大幅减少对外部设备的需求,并通过简化管理进一步提高灵活性,所有服务器的网络和资源管理都是统一的。图图 24:AMD P4 DPU 架构架构 资料来源:AMD 数据中心和 AI 技术首映,招商证券 最重要的是通过释放最重要的是通过释放 CPU 资源来做真正需要的事情,运行工作负载卸载云和虚拟化开销,显著改善云的资源来做真正需要的事情,运行工作负载卸载云和虚拟化开销,显著改善云的 TCO。这正是我们首先将我们的 AMD Pensando 部署到 Smart
49、NICs 中的四个 DPU 上的原因,可以轻松地将 DPU 添加到每台服务器,并允许我们处理开销并释放服务器以供生产性使用。通过允许新的范例,例如对分布在这些分布式应用程序中的所有东西向流量的防火墙保护,极大地提高了安全性,加密所有的流量。图图 25:P4 DPU 的卸载作用的卸载作用 资料来源:AMD 数据中心和 AI 技术首映,招商证券 图图 26:AMD Pensando SmartNICs 资料来源:AMD 数据中心和 AI 技术首映,招商证券 最后,在不增加 CPU 负担的情况下提供遥测技术,使安全系统能够对网络中的威胁和异常情况发出预警。我很自豪地说,AMD Pensando Sm
50、artNICs 现在已经部署在主要的云中,企业现在就可以获得这种解决方案。当我们与整个行业的数据中心创新者合作时,我们认识到 DPU 的价值超越了 SmartNICs。相同的相同的 DPU 和软件平台现在部署在基和软件平台现在部署在基础设施本身中,其中许多相同的性能、效率和灵活性优势可以在一组服务器之间共享。础设施本身中,其中许多相同的性能、效率和灵活性优势可以在一组服务器之间共享。敬请阅读末页的重要说明 14 行业简评报告 这种方法还有另一个好处,可以轻松地部署到现有的基础架构中,也可以设计到新的基础架构中。一个很好的例子是Microsoft 的 Azure 加速连接服务,该服务今天进行了公
51、开预览,由我们的 Poinsettia P4 DPU 提供支持,为使用该功能的客户提供了更高的每秒连接速度和网络性能。我们把同样的概念带到企业中,与我们合作伙伴 HPE Oruba 共同开发的智能交换机。这是一款基于行业标准开关芯片的创新交换机,流量流经 DPU 以提供卸载基础架构和安全服务,这些服务不仅为数据中心提供更高的效率,而且还增强了安全性和可观察性。图图 27:P4 DPU 在交换机中起卸载作用在交换机中起卸载作用 资料来源:AMD 数据中心和 AI 技术首映,招商证券 图图 28:Smart Switch 资料来源:AMD 数据中心和 AI 技术首映,招商证券 这些优势可以在数据中
52、心之外的无数边缘计算应用程序中实现。这些应用程序依赖于安全性、性能和灵活性,在边缘部署相同的架构和软件平台意味着端点与数据中心中的对应服务器具有相同的安全性和可管理性级别,使得数据中心和边缘之间的连接尽可能安全。总之,您可以使用 SmartNICs 在零售点部署几台服务器,为每个人提供安全性和管理一致性服务。Siena EPYC CPU提供变革性的能效、效率和性能表现,以及 Alveo 推理加速卡、敏感的 AI 应用程序可以增强零售体验和安全性。完整的 AMD 产品组合可以为电信部署、智能城市应用等提供类似的优势。图图 29:数据中心及边缘端工作负载优化产品线:数据中心及边缘端工作负载优化产品
53、线 资料来源:AMD 数据中心和 AI 技术首映,招商证券 在整个行业中,对人工智能的兴趣非常高。从我们的角度来看,人工智能实际上是定义下一代计算的关键技术。坦率地说,对于 AMD 来说,人工智能是最重要且长期增长的战略机遇。在人工智能领域,我们专注于三个关键领域。首在人工智能领域,我们专注于三个关键领域。首先,我们提供广泛的先,我们提供广泛的 GPU、CPU 和自适应计算解决方案和自适应计算解决方案,用于人工智能的训练和推理,涵盖数据中心、边缘计算和智能终端。其次,我们正在开发一个开放且经过验证的软件平台其次,我们正在开发一个开放且经过验证的软件平台,以便广泛且轻松地部署我们的人工智能硬件。
54、第三,第三,敬请阅读末页的重要说明 15 行业简评报告 我们正在与行业合作,并扩大深度合作伙伴关系我们正在与行业合作,并扩大深度合作伙伴关系,以推动生态系统加速规模化的人工智能解决方案。因为在这个领域,生态系统非常重要。图图 30:AI 领域布局领域布局 资料来源:AMD 数据中心和 AI 技术首映,招商证券 我们实际上处于一个非常独特的位置,拥有覆盖数据中心、边缘计算和终端的广泛人工智能平台组合。这些平台由多个引擎驱动,包括我们的 RyzenAI 引擎、Versal、Alveo、EPYC 和 Instinct 加速器。图图 31:AI 领域主要产品领域主要产品 资料来源:AMD 数据中心和
55、AI 技术首映,招商证券 我们目前涵盖了很多不同的领域。举例来说,在边缘计算方面,NASA 在火星车上使用我们的领先 FPGA 加速器来加速基于人工智能的图像检测。在汽车行业,客户使用我们的人工智能芯片和软件来支持驾驶辅助和先进安全功能。在医疗领域,领军企业正在使用 AMD 的自适应计算解决方案,以加速基于人工智能的成像和诊断,帮助医生更快速、更准确地进行诊断。而工业客户如 ABB 则在使用我们的技术进行人工智能辅助机器人技术研发。而像 kakaoiCloud这样的公司则在其视觉应用中使用了我们的许多产品,例如基于人工智能的隐私和道路系统。今年初,我们推出了Ryzen7000 系列处理器,这是
56、业界首款搭载专用人工智能引擎的 x86 处理器。这些产品正在迅速增长,我们预计今年将有 70 多款由顶级原始设备制造商推出的 PC 设计,搭载先进的人工智能技术。因此,可以毫无疑问地说,从目前来看,人工智能将是未来可预见的硅消耗的主要驱动力。敬请阅读末页的重要说明 16 行业简评报告 图图 32:数据中心增长趋势:数据中心增长趋势 资料来源:AMD 数据中心和 AI 技术首映,招商证券 最大的机会在于数据中心。在过去的六个月左右,广泛采用基于大型语言模型的生成式人工智能真正将这种增长推向了一个不同的水平。我们在人工智能的生命周期中仍然处于非常非常早期阶段,机会还有很多。当我们试图估计它时,我们
57、在人工智能的生命周期中仍然处于非常非常早期阶段,机会还有很多。当我们试图估计它时,我们认为数据中我们认为数据中心人工智能加速器的总可寻址市场(心人工智能加速器的总可寻址市场(TAM)从今年的大约)从今年的大约 300 亿美元,以超过亿美元,以超过 50的年复合增长率的年复合增长率增长到增长到 2027 年的超过年的超过 1500 亿美元。亿美元。这个数字可能会更高,也可能会更低。但我可以确定地说,它会非常庞大,因为需求非常巨大。图图 33:数据中心加速市场代表客户:数据中心加速市场代表客户 资料来源:AMD 数据中心和 AI 技术首映,招商证券 AMD 多年来一直在为数据中心加速市场进行投资。
58、如今,如果你看看我们所处的位置,我们为世界上许多最快的超级计算机提供动力,这些计算机正在使用人工智能解决一些世界上最大的挑战。例如,在奥克里奇国家实验室,这是世界上排名第一的超级计算机。它是行业首台超大规模超级计算机Frontier。他们正在使用 AMDInstinctGPU 加速器来运行大规模的人工智能模型,以加速他们的癌症研究。在芬兰,LUMI 超级计算机使用 AMDInstinctGPU 加速器来为拥有 130 亿参数的最大芬兰语言模型提供动力。我们还与 Allen 研究所的研究人员合作,他们也正在使用 LUMI 创建具有 700 亿参数的最先进、完全开放的语言模型,将被全球科学界使用。
59、微软使用的是 EPYC 和 Instinct 处理器,并且他们已经建造了最近 Top500 榜单上排名第 11 的超级计算机,用于运行人工智能和高性能计算工作负载。我们还与韩国电信等其他公司合作,开发了一个拥有 110 亿参数的大型语言模型。让我们更深入地了解LUMI如何使用EPYC处理器和Instinct加速器进行人工智能。癌症是人类健康的主要负担之一。将样本经过战斗流程需要很长时间。战斗人工智能的目标是为病理学家构建一个决策支持工具,帮助他们进行诊断。我们将数百万个来自患者的组织样本输入到这个神经网络中。数据越多,模型变得越好。处理这些数据并开发出洞察力需要大量的计算资源,这些洞察力可以用
60、来推动人类进步。分析这些组织图像的主要挑战之一是来自样本处理(如固定、切割和染色)的技术变异。同时,训练这些神经网络也是具有挑战性的。通过这些基于人工智能的决策支持工具,我们能够为病理学家提供基于数据的诊断工具。我们建造的超级计算机将帮助人们构建更准确、更好的模型,取得更好的结果,影响数十亿人的生活。这只是使用人工智能加速下一代系统的众多案例之一。敬请阅读末页的重要说明 17 行业简评报告 图图 34:AMDAI 平台平台 资料来源:AMD 数据中心和 AI 技术首映,招商证券 我可以用三个词来总结我们的方向和目前的状态,以及我们如何实现人工智能和软件开发:开放、经过验证和准备就我可以用三个词
61、来总结我们的方向和目前的状态,以及我们如何实现人工智能和软件开发:开放、经过验证和准备就绪。绪。我们在构建强大的软件堆栈方面取得了非常大的进展,该堆栈与开放的模型、库、框架和工具生态系统相互配合。我们的平台在当前的部署中已经得到验证,在介绍软件和生态系统之前,我想分享一些我们在平台方面取得的进展。在 CES 上,我们宣布了 Ryzen74000 系列。Ryzen74000 系列现在已经投入生产,具有诸如 WindowsStudioEffects的视频协作功能,并且它的运行时支持已在最近的 MicrosoftBuild 大会上宣布。在嵌入式领域,我们正在向包括汽车和工业市场在内的多个市场的领先客
62、户提供 VersalAI 产品的样品。对于我们的 EPYC 平台,我们最新的 Zen3.0 版本已与 TensorFlow 集成,并在 AI 工作负载上实现了非常显著的性能提升。在嵌入式领域,我们正在向包括汽车和工业市场在内的多个市场的领先客户提供 VersalAI 产品的样品。对于我们的EPYC 平台,我们最新的 Zen3.0 版本已与 TensorFlow 集成,并在 AI 工作负载上实现了非常显著的性能提升。现在转向数据中心的 GPU 领域,我们正在与微软和其他领先的云服务提供商以及许多灵活、非常创新的小公司合作。图图 35:ROCm 技术技术 资料来源:AMD 数据中心和 AI 技术首
63、映,招商证券 我们看到对我们 GPU 的需求在广泛增长,并且增长非常迅猛。我们继续谈谈软件。实现应用性能确实需要一个针对生态系统优化的领先软件堆栈。首先让我介绍一下我们为 Instinct 数据中心 GPU 提供的软件堆栈ROCm。ROCm是一套完整的库、运行时、编译器和工具,用于开发和运行 AI 模型和算法。ROCm堆栈的一大部分实际上是开放的,包括我们的驱动程序、语言、运行时以及调试器和性能分析工具。我们的库也都是开放的。ROCm还支持包括开放框架、模型和工具在内的 AI 软件生态系统。现在现在ROCm已经进入第五代,它包括了非常全面的已经进入第五代,它包括了非常全面的 AI 和高性能计算
64、优化套件。和高性能计算优化套件。例如,在 AI 方面,我们为大型语言模型进行了优化的内核。我们支持 fp8 等新的数据类型,并支持像 OpenAI Triton 这样的技术。ROCm堆栈还包括了一些工具,可以方便地将现有软件移植到 AMD Instinct 平台上。敬请阅读末页的重要说明 18 行业简评报告 为了确保 ROCm 的质量和稳定性,我们每晚运行数十万个框架测试,并验证了成千上万个 AI 运算符和 n 到 n 模型的广泛范围。这为持续的 Pyorch 和 TensorFlow 兼容性提供了非常可靠的基础,从而实现了丰富的开箱即用的 AI 体验。PyTorch嘉宾:嘉宾:图图 36:P
65、yTorch 简介简介 资料来源:AMD 数据中心和 AI 技术首映,招商证券 我们最近发布了PyTorch2.0,其中包括一个编译器,使得PyTorch的速度提高了50%到100%,比之前的开箱即用版本要快。它使用了Victor之前提到的OpenAI Triton技术。我们对此非常兴奋,我们看到很多客户对此非常满意。这就是PyTorch为您带来的好处。AMD和Meta之间的合作已经延续了多年。我们向AMD提供了关于运行AI工作负载所需的理想硬件和软件的许多方面的反馈意见。AMD和Meta一起合作构建了他们的结果堆栈,并开发了一系列PyTorch运算符和集成,以对整个堆栈进行强大的测试。我对目
66、前的支持感到非常兴奋,尤其是对于Instinct加速器在ROCm中的支持。我对MI300也非常兴奋。我认为这只是个开始,我期待着看客户如何评估这个堆栈的成熟度。我们花了很多时间努力确保它的质量和效果。在AI工作负载中,通常存在一个主导框架。当你编写工作负载时,如果需要切换到不同的硬件平台,这就需要进行大量的工作,开发人员必须在不同平台之间移动神经网络工作负载时进行很多软件方面的工作。所以我们与AMD在ROCm堆栈和Hydrogen集成方面的合作解决了这个问题,实际上你在很多情况下几乎不需要做太多工作就可以从一个平台切换到另一个平台。因此,你可能只需要在将其部署到AMD GPU后进行一些微调工作
67、,整个过程非常无缝。所以我认为开发人员在切换到AMD的PyTorch后端时将会有巨大的生产力提升,相比于使用TPU或者Nvidia的后端。我对开发人员在切换到AMD后端时的整体生产力提升感到非常兴奋,尤其是从Instinct GPU开始,我希望您们也能将这种能力扩展到其他类别的GPU上。当然,我们的目标是为所有平台上的开发人员提供这种能力。PyTorch2.0为开发人员提供了一个开放的高性能和高效的选项,以开发他们的最新AI项目。这种选择对创造力和民主化至关重要。我们是仅有的两个与PyTorch在这个级别进行集成的GPU平台之一。因此,我们已经介绍了ROCm和集成,开放框架,接下来我们将深入探
68、讨AI模型和算法的顶层。Hugging Face是开源社区中领先的AI模型创新推动者。他们提供广泛的模型,包括在GPT等模型中核心的transformers,还有用于视觉模型以及其他各种应用和用例的模型。这些模型的参数范围从数十亿到接近万亿,包括百万级和低位数十亿参数的模型。Hugging Face嘉宾:嘉宾:重要的是要记住,在过去的5到10年中,AI的大部分进展都要归功于开放科学和开源。也许如果没有它,我们离今天的位置可能还要远50年。现在,当我们展望未来时,开放科学和开源AI不仅是加速技术发展的一种方式,还可以将巨大的AI能力、巨大的价值创造以及巨大的生产力提升分配给所有公司、初创企业、非
69、营利组织和监管机构。在未来,我们希望每家公司都能够在AMD硬件上训练和运行他们自己的ChatGPT。通过这样做,大部分时间使用定制的、专门的、较小的模型使AI运行更快、更便宜、更好。这也使得公司更安全,同时也为整个领域创造了更多透明度和问责制的机会,从而促进了更加道德的AI。这是一种巨大的机遇。敬请阅读末页的重要说明 19 行业简评报告 HuggingFace非常幸运地成为当今最常用的开放式AI平台,我们有15,000家公司使用我们的软件。他们共享了超过50万个开放模型、数据集和演示。你可能听说过其中一些,比如Stable Diffusion、Falcon、Balloon、Stock Orde
70、r、Music Gen,后者是几天前由Meda发布的。仅上周就新增了超过5,000个模型,这展示了开源AI社区的疯狂速度。我们将为AMD平台进行所有这些优化,从InstinctGPU开始,然后是Ryzen和EPYC,以及Versal等嵌入式产品。我们还将在一些最受欢迎的库(如Transformers)的回归测试中包括AMD硬件,以确保像上周新增的5,000个模型对AMD平台进行了优化。这真是令人兴奋的消息。目标是在硬件和软件之间实现最佳组合。非常重要的一点是,在人工智能发展过程中,硬件不应成为瓶颈或阻碍者。我们的目标是扩展人工智能构建者在训练和推理方面的选择范围。我对AMD在数据中心中支持大型
71、语言模型的能力感到非常兴奋,这要归功于其内存容量和带宽优势。人工智能正在成为构建各行业技术的默认选择,对吧?我们谈论的不仅是语言模型,还有图像、音频、视频等。我们看到越来越多的应用领域,如时间序列、生物学、化学等。希望这种合作能够成为推动人工智能进一步民主化、改善每个人生活的重要一步。这是一个激动人心的愿景,我们在AMD深信并与之共享。有这么多模型在AMD平台上进行优化,很快这些模型将在我们的Instinct平台上可以直接使用。我们将将开源社区的创新速度和模型的广度带到AMD平台上。我想我们都知道,人工智能的创新速度是前所未有的。开源社区显然是推动这种速度和创新广度的主要推动者,而我们与之整合
72、并优化开放生态系统的软件,以提供高效、高性能和开放式的开发框架对此至关重要。图图 37:GPU 推动生成型人工智能推动生成型人工智能 资料来源:AMD 数据中心和 AI 技术首映,招商证券 大语言模型的生成型人工智能已经改变了格局。对更多计算资源的需求呈指数级增长。无论是在训练方面还是推理方面,更大的模型可以提供更好的准确性。行业中正在进行大量的实验和开发工作,其中,GPU 正在推动生成型人工智能。CDNA 是 Instinct 加速器的基础架构,专为人工智能和高性能计算工作负载而设计。CDNA3 是我们全新的架构,采是我们全新的架构,采用了全新的计算引擎、最新的数据格式、用了全新的计算引擎、
73、最新的数据格式、5 纳米和纳米和 6 纳米工艺技术,以及最先进的三联封装技术。纳米工艺技术,以及最先进的三联封装技术。图图 38:MI300A 介绍介绍 资料来源:AMD 数据中心和 AI 技术首映,招商证券 今年早些时候的 CES 上,我们提前展示了 MI300A,它是世界上第一个数据中心 APU。我们使用了 CDNA3GPU 架构,配备了 24 个高性能 Zen4 CPU 核心。这些核心与我在节目开头谈到的领导性 Geona 处理器完全相同。我们还添加了 128GB 的 HBM3 内存,全部集成在一个单一封装中。我们实现了 CPU 和 GPU 之间的统一内存,这对于某些 敬请阅读末页的重要
74、说明 20 行业简评报告 高性能计算工作负载非常有效。这使得性能相比于 MI250X 加速器提升了 8 倍,效率提高了 5 倍,目前已经应用于一些最大的超级计算机中。MI300A 已经被设计用于超级计算机,并计划应用于劳伦斯利弗莫尔国家实验室的 2+萨弗洛普级 ElCapitan 系统。这是我们建造过的最复杂的三联封装,共有 13 个三联封装,跨越了 1460 亿个晶体管。图图 39:MI300X 介绍介绍 资料来源:AMD 数据中心和 AI 技术首映,招商证券 我们在使用三联封装方面引领了整个行业,而我们在这款产品中使用三联封装实际上是非常策略性的。我们创建了一个产品系列。除了具有三联封装结
75、构的除了具有三联封装结构的 MI300A 产品之外,我们实际上可以用另外两个产品之外,我们实际上可以用另外两个 CDNA3 芯片组替代三个芯片组替代三个 Zen4 CPU 三联封装,从而创建一个专为大型语言模型和人工智能进行优化的仅三联封装,从而创建一个专为大型语言模型和人工智能进行优化的仅 GPU 版本,我们称之为版本,我们称之为 MI300X。为了满足大型语言模型对更大内存的需求,我们为 MI300X 还额外增加了 64GB 的 HBM3 内存。图图 40:MI300X 展示展示 资料来源:AMD 数据中心和 AI 技术首映,招商证券 我非常激动地向大家首次展示MI300X。对于那些仔细观
76、察的人来说,你可能会发现它看起来非常非常类似于MI300A,因为基本上我们拿掉了三个三联封装,然后加上了两个三联封装,并增加了更多的 HBM3 内存。但是你可以看到MI300X 是专为生成式是专为生成式 AI 设计的产品,它结合了设计的产品,它结合了 CDNA3 架构和行业领先的架构和行业领先的 192GB HBM3 内存,这提供了每秒内存,这提供了每秒 5.2TB的内存带宽,并且跨越了的内存带宽,并且跨越了 12 个个 5 纳米和纳米和 6 纳米三联封装的纳米三联封装的 1530 亿个晶体管。亿个晶体管。当将 MI300X 与竞争对手进行比较时,MI300X 提供了 2.4 倍的内存容量和
77、1.6 倍的内存带宽。有了所有这些额外的内存容量,我们实际上在大语言模型方面具有优势,因为我们可以直接在内存中运行更大的模型。这样做对于最大的模型来说,实际上减少了所需的 GPU数量,极大地提高了性能,特别是推理方面,同时降低了总体拥有成本。这是第一次,这样大小的大型语言模型可以完全在内存中在单个这是第一次,这样大小的大型语言模型可以完全在内存中在单个 GPU 上运行。上运行。我们已经运行了许多更大的模型,包括 660 亿参数的 Meta 模型以及 650 亿参数的 Llama 模型。如果只使用 FP16 推理,单个 MI300X 可以运行高达约800 亿参数的模型。这实际上意味着什么呢?如果
78、你看一下当前的行业,你会发现首先,模型的规模正在变得越来越大,通常需要多个 GPU 才能运行最新的大型语言模型。而有了 MI300X,可以减少所需的 GPU 数量。随着模型规模的不断增长,这一点将变得更加重要,因为需要更多的内存带宽和较少的 GPU。对于云服务提供商和企业用户来说,敬请阅读末页的重要说明 21 行业简评报告 这意味着什么呢?我们可以在每个 GPU 上运行更多的推理作业,这使我们能够以更低的总体拥有成本大规模部署MI300X,从而使这项技术更容易接入更广泛的生态系统。而且,这也意味着我们不仅相信我们拥有更好的总体拥有成本,而且我们还能够显著减少部署 MI300X 所需的开发时间。
79、我们的目标是使 MI300X 的部署尽可能简单。这意味着基础架构也非常重要,这也是我非常激动地宣布 AMD Instinct 平台的原因。我们在这个平台上所做的是,再次强调我们关注的是开放的基础架构。因此,我们将 800 个 MI300X 放入行业标准的 OCP 基础架构中。对于客户来说,这意味着他们可以在现有的基础架构中直接使用 MI300X 的全部 AI 计算能力和内存,并且几乎不需要进行任何改变。通过利用 OCP 平台规范,我们实际上加快了客户的上市时间,降低了总体开发成本,同时使 MI300X 能够轻松部署到他们现有的 AI 机架和服务器基础架构中。总而言之,让我给出一些关键要点。首先
80、,我们对 AI 技术非常兴奋,我们在我们的产品组合中随处可见 AI 的身影。通过 MI300X,我们提供了领先的 AI 工作负载总体拥有成本。我们非常注重使我们的客户和合作伙伴能够轻松部署。因此,Instinct 平台真正降低了采用的门槛。此外,我们知道企业级软件栈非常重要。通过与合作伙伴在框架和模型方面的合作,我们取得了巨大的进展。在未来的许多年里,这个领域还将有许多新的发展。图图 41:MI300 系列产品进展系列产品进展 资料来源:现在谈谈可用性。MI300A 已在本季度初向我们的领先 HPC 和 AI 客户进行了送样。我们计划在第三季度开始送样MI300X 和 8 个 GPU 的 In
81、stinct 平台。此外,我们预计这两款产品将在今年第四季度进入量产阶段。我非常期待在今年晚些时候的发布会上分享 MI300 系列的更多细节。敬请阅读末页的重要说明 22 行业简评报告 分析师承诺分析师承诺 负责本研究报告的每一位证券分析师,在此申明,本报告清晰、准确地反映了分析师本人的研究观点。本人薪酬的任何部分过去不曾与、现在不与,未来也将不会与本报告中的具体推荐或观点直接或间接相关。鄢凡:鄢凡:北京大学信息管理、经济学双学士,光华管理学院硕士,14 年证券从业经验,08-11 年中信证券,11 年加入招商证券,现任研发中心董事总经理、电子行业首席分析师、TMT 及中小盘大组主管。11/1
82、2/14/15/16/17/19/20/21/22年新财富电子行业最佳分析师第 2/5/2/2/4/3/3/4/3/5 名,11/12/14/15/16/17/18/19/20 年水晶球电子2/4/1/2/3/3/2/3/3 名,10/14/15/16/17/18/19/20 年金牛奖TMT/电子第 1/2/3/3/3/3/2/2/1 名,2018/2019 年最具价值金牛分析师。曹辉:曹辉:上海交通大学工学硕士,2019/2020 年就职于西南证券/浙商证券,2021 年加入招商电子团队,任电子行业分析师,主要覆盖半导体领域。王恬:王恬:电子科技大学金融学、工学双学士,北京大学金融学硕士,2
83、020 年在浙商证券,2021 年加入招商电子团队,任电子行业分析师。程鑫:程鑫:武汉大学工学、金融学双学士,中国科学技术大学硕士,2021 年加入招商电子团队,任电子行业研究助理。评级说明评级说明 报告中所涉及的投资评级采用相对评级体系,基于报告发布日后 6-12 个月内公司股价(或行业指数)相对同期当地市场基准指数的市场表现预期。其中,A 股市场以沪深 300 指数为基准;香港市场以恒生指数为基准;美国市场以标普 500 指数为基准。具体标准如下:股票评级股票评级 强烈推荐:预期公司股价涨幅超越基准指数 20%以上 增持:预期公司股价涨幅超越基准指数 5-20%之间 中性:预期公司股价变动
84、幅度相对基准指数介于 5%之间 减持:预期公司股价表现弱于基准指数 5%以上 行业评级行业评级 推荐:行业基本面向好,预期行业指数超越基准指数 中性:行业基本面稳定,预期行业指数跟随基准指数 回避:行业基本面转弱,预期行业指数弱于基准指数 重要声明重要声明 本报告由招商证券股份有限公司(以下简称“本公司”)编制。本公司具有中国证监会许可的证券投资咨询业务资格。本报告基于合法取得的信息,但本公司对这些信息的准确性和完整性不作任何保证。本报告所包含的分析基于各种假设,不同假设可能导致分析结果出现重大不同。报告中的内容和意见仅供参考,并不构成对所述证券买卖的出价,在任何情况下,本报告中的信息或所表述的意见并不构成对任何人的投资建议。除法律或规则规定必须承担的责任外,本公司及其雇员不对使用本报告及其内容所引发的任何直接或间接损失负任何责任。本公司或关联机构可能会持有报告中所提到的公司所发行的证券头寸并进行交易,还可能为这些公司提供或争取提供投资银行业务服务。客户应当考虑到本公司可能存在可能影响本报告客观性的利益冲突。本报告版权归本公司所有。本公司保留所有权利。未经本公司事先书面许可,任何机构和个人均不得以任何形式翻版、复制、引用或转载,否则,本公司将保留随时追究其法律责任的权利。