报告预览

电子行业走进“芯”时代系列深度之四十九“AI芯片”：AI领强算力时代GPU启新场景落地-20211128（78页）.pdf

编号：56327

PDF 78页 4.06MB 下载积分：VIP专享

下载报告请您先登录！

电子行业走进“芯”时代系列深度之四十九“AI芯片”：AI领强算力时代GPU启新场景落地-20211128（78页）.pdf

1、请仔细阅读在本报告尾部的重要法律声明请仔细阅读在本报告尾部的重要法律声明仅供机构投资者使用仅供机构投资者使用证券研究报告证券研究报告 AIAI领强算力时代，GPU启新场景落地领强算力时代，GPU启新场景落地 20212021年年1111月月2828日日华西电子团队华西电子团队走进“芯”时代系列深度之走进“芯”时代系列深度之四十九“四十九“AIAI芯片”芯片” 核心观点 1、在人工智能时代，终端AI芯片针对特定场景实现优化方案 AI芯片主要承担推断任务，通过将终端设备上的传感器（麦克风阵列、摄像头等）收集的数据代入训练好的模型推理得出推断结果。由于终端场景多种多样各不相同，对于算力

2、和能耗等性能需求也有大有小，应用于终端芯片需要针对特殊场景进行针对性设计以实现最优解方案，最终实现有时间关联度的三维处理能力，这将实现更深层次的产业链升级，是设计、制造、封测和设备材料，以及软件环境的全产业链协同升级过程。 2、GPU服务器渗透率提升，自动驾驶等级提升推动GPU算力需求相比于传统CPU服务器，在提供相同算力情况下，GPU服务器在成本、空间占用和能耗分别为传统方案的1/8、1/15和1/8。人工智能服务器是AI算力基础设施的主要角色，在服务器中渗透率不断提升。 L3自动驾驶算力需求为30-60TOPS，L4需求100TOPS以上，L5需求甚至达 1,000TOPS，GPU

3、算力需求提升明显，芯片主要向着大算力、低功耗和高制程三个方向发展。 3、软硬件生态构筑Nvidia核心优势，国内AI企业加速发展 2006年Nvidia推出CUDA计算平台，让GPU支持CUDA，在优化硬件性能的同时，赋予良好的兼容性，构筑通用计算平台系统和核心优势。国内 AI企业产品如景嘉微J9系列，寒武纪思元370、燧原邃思2.0、地平线征途5、黑芝麻华山二号A1000 由低算力逐渐向高算力发展，由终端侧往云端和车载方向发展，加快软硬件和开发者生态系统建设。核心标的：【重点推荐】：终端侧AI芯片：瑞芯微、全志科技、晶晨股份、富瀚微；【受益标的】：景嘉微（国产图显GPU）、寒武纪

4、（云边端车GPU）、云天励飞（神经网络处理器芯片），芯原股份（GPU IP供应商）；【产业链重点标的】：沐曦、壁仞科技、燧原科技、地平线、黑芝麻；【海外标的】: NVIDIA、AMD、CAN.O；风险提示：产能不及预期风险; 国产替代不及预期; 国产GPU生态不及预期 SVkUhU8ViY9UyXzW8O9RaQoMrRoMqRkPpOpOlOnPvM6MnMnMxNmOmRuOnNsQ 目录 2 1 算力时代，GPU开拓新场景 2 GPU 下游三大应用市场 3 海外GPU巨头Nvidia 4国产GPU赛道掀起投资热潮 5重点投资机会 6风险提示 1.1 人工智能经历过三阶段，迎来爆

5、发式增长广义上讲只要能够运行人工智能算法的芯片都叫作 AI 芯片。但是通常意义上的 AI 芯片指的是针对人工智能算法做了特殊加速设计的芯片。 AI芯片也被称为AI加速器或计算卡，即专门用于处理人工智能应用中的大量计算任务的模块（其他非计算任务仍由CPU负责）。第一阶段：因为芯片算力不足，所以神经网络没有受到重视第二阶段：通用芯片CPU的算力大幅提升，但仍然无法满足神经网络的需求第三阶段： GPU和和新架构的AI芯片推进人工智能落地事件1：2014年李天石博士“DianNao”系列论文让科学界看到，在冯诺依曼架构下也可以实现AI 专用芯片事件2：Google 推出的TPU运

6、算架构的 AlphaGo，接连打败李世石和柯洁，看到了专用芯片的商业价值。图：图：AIAI芯片算力发展阶段芯片算力发展阶段起步发展期反思发展期发展应用期低迷发展期稳步发展期蓬勃发展期第一阶段第二阶段第三阶段 1.2 推荐式系统模型参数复杂度大幅增加资料来源：CSDN, Nvidia官网，华西证券研究所 GPT-3模型目前已入选了麻省理工科技评论2021年“十大突破性技术。 GPT-3的模型使用的最大数据集在处理前容量达到了45TB。根据 OpenAI的算力统计单位petaflops/s-days，训练AlphaGoZero需要1800-2000pfs-d

7、ay，而GPT-3用了 3640pfs-day。递归卷积神经网络-视觉模式/图像识别 LeNet-56 万个参数（1998） AlexNet6000 万个参数(2012） VGG-161.38亿参数(2014) ResNet-5025000 万个参数（2015) 自然语言模型/会话式AI平台 Open Al GPT-11.5亿个参数（2018） Google BERT-Large 3.4亿个参数（2018） Microsof MT-DNN3.3亿个参数 (2019) Open AI GPT-215.42亿个参数（2019) Alibaba PERSEUS-BERT 1.1亿个参数(201

8、9) NVIDIA Pmojert Megatron 83亿个参数(2019) Facebook RoBERTa3.35亿个参数(2019) Facbook XILM6.65亿个参数(2019) NVlDIA Megaltron-Scaled Version of OpenAI GPT-2 83亿个参数(2019) Microsoft-NLG172亿个参数（2020） Open A GPT-3多达1750亿个参数(2020) 表表递归卷积神经网络递归卷积神经网络- -视觉模式视觉模式/ /囹像识别囹像识别表表自然语言模型自然语言模型/ /会话式会话式AIAI平台平台 1.3 深度学习模型

9、复杂度对芯片算力需求激增 AI运算指以“深度学习” 为代表的神经网络算法，需要系统能够高效处理大量非结构化数据（文本、视频、图像、语音等）。需要硬件具有高效的线性代数运算能力，计算任务具有：单位计算任务简单，逻辑控制难度要求低，但并行运算量大、参数多的特点。对于芯片的多核并行运算、片上存储、带宽、低延时的访存等提出了较高的需求。自2012年以来，人工智能训练任务所需求的算力每 3.43 个月就会翻倍，大大超越了芯片产业长期存在的摩尔定律（每 18 个月芯片的性能翻一倍）。针对不同应用场景，AI芯片还应满足：对主流AI算法框架兼容、可编程、可拓展、低功耗、体积及价格等需求。从

10、从AlexNetAlexNet到到GPTGPT- -3 3，算力增长迅速，算力增长迅速 1.4 部署位置对AI芯片性能要求差异根据机器学习算法步骤，可分为训练（training）芯片和推断（inference）芯片。训练芯片主要是指通过大量的数据输入，构建复杂的深度神经网络模型的一种AI芯片，运算能力较强。推断芯片主要是指利用训练出来的模型加载数据，计算“推理”出各种结论的一种AI 芯片，侧重考虑单位能耗算力、时延、成本等性能。从部署的位置来看，AI芯片可分为云端（服务器端）、终端（移动端）两大类。云端芯片，是指部署在公有云、私有云或混合云上的AI 芯片，不仅可用于训练，还可用于推断，算

11、力强劲。终端芯片，是指应用于手机等嵌入式、移动终端等领域的AI芯片，此类芯片一般体积小、耗电低、性能无需特别强大。表表不同部署位置的不同部署位置的AIAI芯片算力要求芯片算力要求不同部署位置的不同部署位置的AIAI芯片比较芯片比较应用场景芯片需求典型计算能力典型功耗典型应用领城终端低功耗、高能效、推理任务为主、成本敏感、硬件产品形态众多 8TOPS30TOPS50瓦云计算数据中心、企业私有云等边缘端对功耗、性能、尺寸的要求常介于终端与云端之间、推理任务为主、多用于插电设备、硬件产品形态相对较少 5TOPS至30TOPS4瓦至15瓦智能制造、智能家居、智能零

12、售、智慧交通、智慧金融、智慧医疗、智能驾驶等众多应用领域 1.5 GPU 是较为成熟的通用型人工智能芯片 7 整理表表三种技术三种技术架构架构AIAI芯片类型比较芯片类型比较 GPUFPGA（半定制化）ASIC（全定制化）定制化程度通用性半定制化定制化灵活度好好不好成本高较高低编程语言/架构CUDA、OpenCL等Verilog/VHDL等硬件描述语言，OpenCL、HLS/ 功耗大较大小主要优点峰值计算能力强、产品成熟平均性能较高、功耗较低、灵活性强平均性能很强、功耗很低、体积小主要缺点效率不高、不可编辑、功耗高量产单价高、峰值计算能力较低、编程语言难度大前期投入

13、成本高、不可编辑、研发成本长、技术风险大主要应用场景云端训练、云端推断云端推断、终端推断云端训练、云端推断、终端推断代表企业芯片英伟达Tesla、高通Adreno等赛灵思Versal、英特尔Arria、百度XPU等谷歌TPU、寒武纪 Cambricon 从技术架构来看，AI芯片主要分为图形处理器（GPU）、现场可编程门阵列（FPGA）、专用集成电路（ASIC）、类脑芯片四大类。其中，GPU是较为成熟的通用型人工智能芯片，FPGA和ASIC则是针对人工智能需求特征的半定制和全定制芯片，类脑芯片颠覆传统冯诺依曼架构，是一种模拟人脑神经元结构的芯片，类脑芯片的发展尚处于起步阶段。 1

14、.6 GPU设计之初用于显示图像使用 GPU 图形渲染流水线的具体实现可分为六个阶段，如右图所示。顶点着色器（Vertex Shader）形状装配（Shape Assembly），又称图元装配几何着色器（Geometry Shader）光栅化（Rasterization）片段着色器（Fragment Shader）测试与混合（Tests and Blending） 9 英伟达英伟达GeForceGeForce RTX30RTX30系列系列AMD AMD RadeonRadeon RX6900 XTRX6900 XT 整理 GPU（图形处理器）又称显示核心、显卡、视觉处理器、显示芯

15、片或绘图芯片，是一种专门在个人电脑、工作站、游戏机和一些移动设备（如平板电脑、智能手机等）上运行绘图运算工作的微处理器。 GPU使显卡减少对CPU的依赖，并分担部分原本是由CPU所担当的工作，尤其是在进行三维绘图运算时，功效更加明显。图形处理器所采用的核心技术有硬件坐标转换与光源、立体环境材质贴图和顶点混合、纹理压缩和凹凸映射贴图、双重纹理四像素 256位渲染引擎等。 GPU是一种特殊类型的处理器，具有数百或数千个内核，经过优化，可并行运行大量计算。虽然GPU在游戏中以3D渲染而闻名，但它们对运行分析、深度学习和机器学习算法尤其有用。 1.7 GPU适合并行运行大量计算 10 资料来源：

16、华西证券研究所整理 CPUCPU与与GPUGPU构架对比构架对比 CPUGPU 定义与组成 CPU 由数百万个晶体管组成，可以有多个处理内核，通常被称为计算机的大脑。它是所有现代计算系统必不可少的组成部分，因为它执行计算机和操作系统所需的命令和流程。 GPU 是由许多更小、更专业的内核组成的处理器。在多个内核之间划分并执行一项处理任务时，通过协同工作，这些内核可以提供强大的性能。微构架 CPU的功能模块多，擅长分支预测等复杂的运算环境，大部分晶体管用在控制电路和Cache上，少部分晶体管用来完成运算工作。 GPU的控制相对简单，且不需要很大的Cache，大部分晶体管可被用于各

17、类专用电路和流水线，GPU的计算速度因此大增，拥有强大的浮点运算能力。适用领域 CPU 适用于一系列广泛的工作负载，特别是那些对于延迟和单位内核性能要求较高的工作负载。作为强大的执行引擎，CPU 将它数量相对较少的内核集中用于处理单个任务，并快速将其完成。这使它尤其适合用于处理从串行计算到数据库运行等类型的工作。 GPU 最初是作为专门用于加速特定 3D 渲染任务的 ASIC 开发而成的。随着时间的推移，这些功能固定的引擎变得更加可编程化、更加灵活。尽管图形处理和当下视觉效果越来越真实的顶级游戏仍是 GPU 的主要功能，但同时，其他开发人员也开始利用GPU的功能来显着加速高

18、性能计算（HPC），深度学习等领域中的其他工作负载。表表 CPUCPU与与GPUGPU构架对比构架对比 1.8 GPU vs CPU CPU和GPU 相比，是由于其设计目标的不同，它们分别针对了两种不同的应用场景。CPU需要很强的通用性来处理各种不同的数据类型，同时又要逻辑判断又会引入大量的分支跳转和中断的处理。这些都使得CPU的内部结构异常复杂。而GPU面对的则是类型高度统一的、相互无依赖的大规模数据和不需要被打断的纯净的计算环境。 1.9 AI开源平台众多广义上AI 开源平台定义为一个深度学习的工具箱，用户可以通过开放平台，基于底层计算芯片运行算法系统。因此AI芯片厂商只

19、有具备支持主流开源平台，才能形成稳定客户群。两大开源平台Tensorflow与Caffe，Caffe2 和mxet 也逐步兴起，AI开源平台众多。公司/高校时间名称简介 Stanford2013.10Caffe自2013年底以来第一款主流的工业级深度学习工具包，计算机视觉界最流行的工具包之一 DMLC2015.09mxnetMxNet是一个提供多种API的机器学习框架，主要面向 RPython和Julia等语言，目前已被亚马逊云服务采用。 Google 2015.11Tensorflow谷歌第二代联机版人工智能深度学习系统，能同时支持多台服务器。 Facebook 2015.12Tor

20、ch深度学习函式库 Torch 的框架，旨在鼓励程序代码再利用及模块化编程。 Microsoft2016.01CNTKCNTK支持RNN和CNN类型的各类网络模型。 Facebook2017.04Caffe2Caffe2 延续了 Caffe 对视觉类问题的支持，且增加了对 RNN 和LSTM支持，功能更加完善表表主流主流AIAI开源平台简介开源平台简介 1.10 未来平台生态之争是AI芯片占领市场关键广义AI硬件开发环境是专门针对AI硬件推出的适应于硬件计算的开发环境，用户能利用C、C+等软件语言更方便的基于AI芯片进行顶层应用开发，同时可以起到硬件加速的效果。目前比较流行的AI开发

21、环境是Nvidia的CUDA 。 Xilinx 推出了SDAccel 开发环境，Altera 推出了 OpenCL SDK 开发环境。公司平台名称类别支持的开源生态平台 NVIDIATesla V100GPUCaffe, Caffe2, TensorFlow. Torch, CNTK等 XilinxreVISIONFPGACaffe Google TPU2ASICTensorFlow QualcommNPESDKASICTensorFlow、 Caffe、Caffe2 华为麒麟970ASICTensorFlow、 Caffe、Caffe2 表表部分部分A AI I硬件硬件平台平台开源生态支

22、持情况开源生态支持情况 1.6 中国AI芯片市场规模有望持续增长资料来源：艾瑞咨询,华西证券研究 20192019- -20252025年全球人工智能芯片市场规模及预测（亿美元）年全球人工智能芯片市场规模及预测（亿美元）20182018- -20232023年年中国中国人工智能芯片市场规模及预测（亿元）人工智能芯片市场规模及预测（亿元） 110 175 260 395 510 630 726 59.09% 48.57% 51.92% 29.11% 23.53% 15.24% 0.00% 10.00% 20.00% 30.00% 40.00% 50.00% 60.00% 70.00% 0 10

23、0 200 300 400 500 600 700 800 20192020E2021E2022E2023E2024E2025E 市场规模增速 63.6 115.5 183.8 436.8 850.2 1338.8 81.60% 59.13% 137.65% 94.64% 57.47% 0.00% 20.00% 40.00% 60.00% 80.00% 100.00% 120.00% 140.00% 160.00% 0 200 400 600 800 1000 1200 1400 1600 201820192020E2021E2022E2023E 市场规模增速 2019年全球人工智能芯片市场规

24、模为110亿美元。随着人工智能技术日趋成熟，数字化基础设施不断完善，人工智能商业化应用将加速落地，推动AI芯片市场高速增长，预计2025年全球人工智能芯片市场规模将达到726亿美元。 2019年中国AI芯片市场规模约为115.5亿元。5G商用的普及将催生AI芯片在军用、民用等多个领域的应用需求。在政策、市场、技术等合力作用下，中国AI芯片行业将快速发展，在2023年市场规模将突破千亿元。 1.11 中国AI芯片市场规模有望持续快速增长目录 14 1 算力时代，GPU开拓新场景 2 GPU 下游三大应用市场 3 海外GPU巨头Nvidia 4国产GPU赛道掀起投资热潮 5重点投资机会 6风

25、险提示 15 整理 VoltaVolta构架构架灵构架构灵构架构 GPU其实是由硬件实现的一组图形函数的集合，这些函数主要用于绘制各种图形所需要的运算。这些和像素，光影处理，3D 坐标变换等相关的运算由GPU硬件加速来实现。图形运算的特点是大量同类型数据的密集运算如图形数据的矩阵运算， GPU的微架构就是面向适合于矩阵类型的数值计算而设计的，大量重复设计的计算单元，这类计算可以分成众多独立的数值计算大量数值运算的线程，而且数据之间没有像程序执行的那种逻辑关联性。 GPU微架构的设计研发是非常重要的，先进优秀的微架构对GPU实际性能的提升是至关重要的。目前市面上有非常丰富GPU 微架构，比如P

26、ascal、Volta、Turing（图灵）、Ampere（安培），分别发布于 2016 年、2017 年、2018 年和2020年，代表着英伟达 GPU 的最高工艺水平。 2.1 GPU微架构 2.2 GPU架构 GPU微架构的运算部份由流处理器(Stream Processor， SP)、纹理单元（Texture mapping unit, TMU)、张量单元（Tensor Core）、光线追踪单元（RT Cores）、光栅化处理单元（ROPs）组成。这些运算单元中，张量单元，光线追踪单元由NVIDIA在伏特/图灵微架构引入。 GPU的微架构还包含L0/L1操作缓存、 Warp调度器

27、、分配单元（Dispatch Unit）、寄存器堆（register file）、特殊功能单元（Special function unit， SFU）、存取单元、显卡互联单元（NV Link)、PCIe总线接口、 L2缓存、二代高位宽显存（HBM2）等接口。总体布局比较中正，八个 GPC 与 L2 Cache 坐落于核心地段，左右为外部存储接口，12 道显存控制器负责与 6 块 HBM2 存储器数据交互，顶部为 PCIe 4.0 控制器负责与主机通信，底部又有 12 条高速 NVLink 通道与其他 GPU 连为一体。 2.3 GPU架构每个 SM 包括 4 个区块，每个区块有独立的 L

28、0 指令缓存、Warp 调度器、分发单元，以及 16384 个 32 位寄存器，这使得每个 SM 可以并行执行 4 组不同指令序列。4 个区块共享 L1 指令缓存和数据缓存、 shared memory、纹理单元。每个 SM 除了 INT32、FP32、FP64 计算单元之外，还有额外 4 个身宽体胖的 Tensor Core，这是加速 Deep Learning 计算的重磅武器，已发展到第三代，每个时钟周期可做 1024 次 FP16 乘加运算，与 Volta 和 Turing 相比，每个 SM 的吞吐翻倍，支持的数据类型也更为丰富，包括 FP64、TF32、FP16、BF16、

29、INT8、INT4、INT1(另外还有 BF16)。 GA100(完整版)A100 GPU（阉割版） GPC87 TPC6456 SM128108 CUDA Core81926912 Tensor Core512432 HBM265 Mem Controller1210 Mem Bits61445120 CUDA CoresTensor Cores NVIDIA ArchitectureFP64FP32FP16INT8FP64TF32FP16INT8INT4INT1 Volta3264128256512 Turing2642420488192 Ampere（A100）

30、32642562566450961638 4 Ampere，sparse68192 表表 GA100(GA100(完整版完整版) )与与A100A100（阉割版）性能对比（阉割版）性能对比表表 GPUGPU架构介绍架构介绍 2.4 GPU API 接口两大阵营 GPU的API（Application Programming Interface）应用程序接口发挥着连接应用程序和显卡驱动的桥梁作用。目前GPU API可以分为2大阵营和若干其他类。 2大阵营分别是微软的DirectX标准和KhronosGroup标准，其他类包括苹果的Metal AP

31、I、 AMD 的Mantle（地幔） API、英特尔的One API等。 DirectX可以让以Windows为平台的游戏或多媒体程序获得更高的执行效率，加强3D图形和声音效果，并提供设计人员一个共同的硬件驱动标准，让游戏开发者不必为每一品牌的硬件来写不同的驱动程序，也降低用户安装及设置硬件的复杂度。 DirectX已被广泛使用于Windows 操作系统和Xbox主机的电子游戏开发 OpenGL是Open Graphics Library的简称，是用于渲染2D、 3D矢量图形的跨语言、跨平台的应用程序编程接口（API），相比DirectX更加开放。这个接口由近350个不同的函数

32、调用组成，用来绘制从简单的二维图形到复杂的三维景象。 OpenGL常用于CAD、虚拟现实、科学可视化程序和电子游戏开发厂家标准应用领域微软DirectX Direct3D3D图形 Direct2D2D图形 DirectCompute通用计算 XAudio音频 XInputXbox手柄 Khronos GroupOpenGL图形 Vulkan图形 OpenGL ES移动图形 WebGL网页图形 OpenCL通用计算表表 GPU APIGPU API接口及应用领域接口及应用领域 2.5 智能驾驶及云计算发展对高性能GPU带来增量需求 19 主要应用端主要功用性能要求主要厂商(产品) 个

33、人终端（PC/主机/ 手机）独显图形设计/3A游戏高 NVIDIA（Geforce系列）， AMD（Radeon系列）集显轻度办公低 Intel（HD系列）,AMD（ APU系列），Imagination （PowerVR系列）,高通骁龙（Adreno系列），苹果服务器 AI训练/AI推断/科学计算/图形图像处理/视频编解码高 NVIDIA （TESLA),AMD(Instinct) 智能驾驶AI推断高NVIDIA（Orin）场景芯片需求典型计算能力典型功耗终端低功耗、低成本8TOPS30TOPS50W 边缘/终端中高性能5-30TOPS4-15W 按GPU下游的不同应用，

34、可分为终端GPU，服务器GPU，智能驾驶GPU以及军用显控等其他应用领域GPU。在终端GPU中分为集成GPU（集显）与独立GPU（独显），前者注重轻薄，后者注重性能输出。服务器等高性能需求场景下GPU以独立为主。从下游应用来看，GPU于手机及PC端渗透率基本见顶，根据中国社科院数据，2011-2018年全球主要国家PC每百人渗透率呈下降趋势，智能手机对PC具有一定替代性。而云计算与智能驾驶及AI 的兴起对高算力产生新需求，将带来高性能GPU市场快速增长。表表目前主要目前主要 AI AI 场景性能需求场景性能需求表表 GPU GPU 分类与主要厂商分类与主要厂商图图 2021

35、2021年二季度年二季度GPUGPU市场份额市场份额 2.6 算力新时代，GPU生态领先，AI芯片三剑客将互补共享市场 20 7.2 11.7 20.2 14.1 22.1 34.1 11.3 17.9 27.9 0 50 100 20192020E2021E ASICGPUFPGA 72.8% 78.6% 83.5% 39.6% 40.4% 42.4% 63.3%54.8% 57.0% 0.0% 50.0% 100.0% 20192020E2021E ASICGPUFPGA 8.3 14.8 27.2 39.3 55.1 78.5 13.9 21.5 33.7 0 50 100 150 20

36、192020E2021E ASICGPUFPGA 73.3% 60.6% 73.1% 58.4% 56.6% 54.5% 48.2% 59.4% 55.3% 0.0% 50.0% 100.0% 20192020E2021E ASICGPUFPGA 12.4 20.6 34.99.4 15.8 25.9 8.3 14.2 23.3 0 50 100 20192020E2021E ASICGPUFPGA 69.5% 66.3% 69.6% 59.3% 67.8% 64.2% 50.2% 72.0% 63.9% 0.0% 50.0% 100.0% 20192020E2021E ASICGPUFPGA

37、芯片种类特征主要企业竞争 GPU 图像处理、密集型并行运算英伟达、AMD集中 FPGA 可定制编程反复烧写 Xilinx、英特尔集中 ASIC 可根据算法进行定制谷歌、寒武纪、地平线分散中国云端推断芯片市场结构（亿元）及增长率中国云端推断芯片市场结构（亿元）及增长率中国云端训练芯片市场结构（亿元）及增长率中国云端训练芯片市场结构（亿元）及增长率中国终端推断芯片市场结构（亿元）及增长率中国终端推断芯片市场结构（亿元）及增长率 AI芯片（GPU/FPGA/ASIC）在云端同时承担人工智能 “训练”和“推断”过程，在终端主要承担“推断”过程，从性能与成本来看ASIC最优。AS

38、IC作为专用芯片，算力与功耗在通用芯片GPU具有绝对优势，但开发周期较长，落地较慢，需一定规模后才能体现成本优势。FPGA可以看做从GPU到ASIC重点过渡方案。相对于GPU可深入到硬件级优化，相比ASIC在算法不断迭代演进情况下更具灵活性，且开发时间更短。从生态与落地来看，GPU占据绝对优势，英伟达处垄断地位。开发者能通过英伟达CUDA平台使用软件语言很方便地开发英伟达GPU实现运算加速，已被广泛认可和普及，积累了良好的编程环境。以TPU为代表的ASIC目前主要运用在巨头的闭环生态，FPGA在数据中心业务中发展较快。表表不同芯片的主要企业及竞争不同芯片的主要企业及竞争

39、 2.7 GPU 市场规模与细分市场概述 21 2020年GPU市场规模为254.1亿美元，预计到2027年将达到1853.1亿美元，从2021年到2027年的复合年增长率为32.82。 GPU市场分为独立，集成和混合市场。2019年集成占据了GPU市场份额的主导地位，但由于混合处理器同时具有集成和独立GPU的能力，因此未来混合细分市场预计将实现最高复合年增长率。市场分为计算机，平板电脑，智能手机，游戏机，电视等。在2019年，智能手机市场占据了全球GPU市场份额的主导地位，预计在预测期内将继续保持这一趋势。但是，由于对医疗设备等其他设备中对小型GPU的需求不断增长，预计其他领域在未来的

40、复合年增长率最高。由于在设计和工程应用中图形处理器的广泛使用，预计汽车应用细分市场将在预测期内以最高的复合年增长率增长。 0 200 400 600 800 1000 1200 1400 1600 1800 2000 20202021E2022E2023E2024E2025E2026E2027E 年份 GPUGPU全球市场规模预测（单位：亿美元）全球市场规模预测（单位：亿美元）资料来源：Verified Market Research,华西证券研究所整理 254.1 1853.1 GPU GPU 应用场景应用场景 2.8 GPU三大应用场景游戏 DPU：收购Mellanox，积极布局数据中

41、心存储、传输 DPU; 3）专业显示： Quadro 专业绘图工作站、RTX图形处理器、vGPU软件 4）汽车： DRIVE AGX 为自动驾驶工作平台 Q3 FY2022 英伟达第三季度营收达71.03亿美元，同比增长50%。净利润为24.64亿美元，同比增长84%。其中游戏业务收入达32.2亿美元，较去年同期增长42%；数据中心业务收入为29.4亿美元，同比增长55%。专业可视化业务收入达5.77亿美元，同比增长144%；自动驾驶业务收入达1.35亿美元，同比增长8%。资料来源：nvidia 年报，华西证券研究所 3.2 Nvidia：GPU 架构每两年升级一次 35 TeslaF

42、ermiMaxwellKepler Pascal TuringAmpere 2008年 CUDACUDA架构问世架构问世这是一种用于通用GPU 计算的革命性架构。借助CUDA，能够利用GPU 的并行处理能力来应对最为复杂的计算挑战。 2010年首个完整首个完整GPUGPU架构架构 Fermi是第一个可支持与共享存储结合纯cache层次的GPU架构，包含512 个accelerator cores， 16个SM 2014年 MaxwellMaxwell架构架构可解决视觉计算领域中最复杂的光照和图形难题，优化功耗，支持微软 DX12图形加速接口 2016年适用于大数据工作适用于

43、大数据工作 Pascal采用了HBM2的 CoWoS技术，在深度学习方面，与当代GPU架构相比训练性能提高来 12倍。首次引入了3D内存及NVLinkNVLink 高速互联总线 2017年 VoltaVolta架构：架构：首次引入Tensor（张量）运算单元。 2020年人工智能高效运算人工智能高效运算 Ampere架构包含540亿个晶体管，是有史以来最大的 7nm芯片，通过人工智能和高效能运算解决了全球最重要的科学、产业与巨量资料。 2012年首次在GPU中引入了动态并行技术 Volta 2017年 Turing Turing 架构：架构：架构最大的变革，引入了

44、RTX追光技术总线 3.3 Nvidia：推出CUDA 软件堆栈，建立软硬件一体化生态 36 CUDA Nvidia AI 数据中心GPU GPU通用计算方面的标准目前有OpenCL、CUDA、AMD APP、DirectCompute。其中OpenCL、DirectCompute、AMD APP(基于开放型标准 OpenCL开发)是开放标准，CUDA是私有标准。 2006年，公司推出CUDA 软件推展，推动GPU 向通用计算转变，之后不断强化通用系统生态构建。为开发者提供了丰富的开发软件站SDK、支持现有的大部分机器学习、深度学习开发框架。推出的cuDNN、TensorRT、DeepSt

45、ream 等优化的软件也为 GPU 通用计算提供加速。 3.4 Nvidia：强劲的游戏业务提供稳定现金流表表英伟达英伟达RXTRXT系列显卡性能对比系列显卡性能对比 NVIDIA Geforce系列主要面向家庭和企业的娱乐应用，分为面向性能的GTX系列,面向主流市场的GTS和GT系列，已经具有高性价比的GS系列。衡量显卡性能的参数可包括：1、核心数目；2、显存带宽；3、峰值单精度浮点计算能力；4、峰值双精度浮点计算能力；5、时钟频率；6、架构版本发布时间架构名版本号制造工艺代表作品 2006Tesla（G80）1.0TSMC 90nmGeForce 8800 2008Tesla

46、 2.0（GT200）1.3TSMC 65nmGeForce GTX 280 2010Fermi2.0TSMC 40nmGeForce GTX 480 2012Kepler3.0、3.5、3.7TSMC 28nmGeForce GTX 680，Tesla K20/K40/K80 2014Maxwell5.0、5.2TSMC 28nmGeForce GTX 750/980，Tesla M40 2016Pascal6.0、6.1、6.2TSMC 16nmGeForce GTX 1080/1070/1060,Tesla P100/P40/P4 2017Volta7.0TSMC 12nmTesla v

47、100，Titan V 2018Turning7.5TSMC 12nmRTX 2080Ti，Quadro RTX 6000/8000， Tesla T4 2020Ampere8.0TSMC 7nmTesla A100 Samsung 8nmRTX 3080/3070/3090 3.5 Nvidia：数据中心提供硬件、软件和整体方案产品分类产品名称发布时间主要参数及性能售价(万美元) GPU Tesla 系列（计算显卡） P1002016Pascal架构，3584个CUDA cores，单精度10.6T，显存16GB0.75 P42016Pascal架构，3584个CUDA cores，单精

48、度8T，显存8GB0.25 V1002017Volta架构，5120个CUDA ，单精度15.7T，显存32GB或16GB1.15 T42018Turing架构，2560个CUDA cores，单精度8.1T，显存6GB0.25 A1002020Ampepre架构，6912个CUDA cores，单精度19.5T，显存40GB DGX（主要用于AI） DGX-120178个Tesla V100 GPU，512Gb DDR4，2个Inter E5-2698 CPU14.9 DGX-2201816个Tesla V100 GPU，1.5TB内存，2个Inter 8168 CPU39.9 DGX-

49、A100 20208个Tesla A100 GPU，1TB内存，2个AMD 7742 CPU19.9 HGX（用于AI和超大型数据中心加速器） HGX-120178个Tesla V100 GPU，256GB显存，AI算力达1petaFLOPS14.9 HGX-2201816个Tesla V100 GPU，512GB显存，AI算力达2petaFLOPS39.9 HGX-32020共三个版本，分别搭载4/8/16个Tesla A100 ，显存为160/320/640 GB，AI算力为达2.5/5/10 petaFLOPS 数据中心主要产品为Tesla 系列。通过将不同类型的GPU加速器与CP

50、U、DDR等硬件产品组合以及软件开发，推出面向高性能计算HPC、人工智能DGX、边缘计算EGX等硬件产品。软件产品NGC用于GPU加速的云平台服务，加速使用深度学习框架；虚拟GPU主要用于在虚拟机上运营AI、深度学习和高性能计算。表表不同产品具体介绍不同产品具体介绍 3.6 Nvidia：数据中心业务持续快速增长 39 2020年4月，Nvidia 70亿美元完成对Mellanox的收购。形成Nvidia GPU+Mellanox RDMA+Nvidia CUDA 整体解决方案，提供从人工智能计算到网络的端到端技术全堆栈产品。受益于市场对公司新一代安培架构产品的需求，同时对话式A

友情提示

1、下载报告失败解决办法
2、PDF文件下载后，可能会被浏览器默认打开，此种情况可以点击浏览器菜单，保存网页到桌面，就可以正常下载了。
3、本站不支持迅雷下载，请使用电脑自带的IE浏览器，或者360浏览器、谷歌浏览器下载即可。
4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩，下载后原文更清晰。

本文（电子行业走进“芯”时代系列深度之四十九“AI芯片”：AI领强算力时代GPU启新场景落地-20211128（78页）.pdf）为本站（X-iao）主动上传，三个皮匠报告文库仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对上载内容本身不做任何修改或编辑。若此文所含内容侵犯了您的版权或隐私，请立即通知三个皮匠报告文库（点击联系客服），我们立即给予删除！

温馨提示：如果因为网速或其他原因下载失败请重新下载，重复下载不扣分。

上海品茶

电子行业走进“芯”时代系列深度之四十九“AI芯片”：AI领强算力时代GPU启新场景落地-20211128（78页）.pdf

电子行业走进“芯”时代系列深度之四十九“AI芯片”：AI领强算力时代GPU启新场景落地-20211128（78页）.pdf