《半导体行业专题:ChatGPT对GPU算力的需求测算与相关分析-230216(71页).pdf》由会员分享,可在线阅读,更多相关《半导体行业专题:ChatGPT对GPU算力的需求测算与相关分析-230216(71页).pdf(71页珍藏版)》请在三个皮匠报告上搜索。
1、2023年年2月月16日日半导体行业专题半导体行业专题ChatGPT对对GPU算力的需求测算与相关分析算力的需求测算与相关分析中信证券研究部中信证券研究部 雷俊成雷俊成/王子源王子源/徐涛徐涛/杨泽原杨泽原1 1核心观点:单个大模型可带来核心观点:单个大模型可带来2万万GPU销售量,搜索引擎带来成倍空间销售量,搜索引擎带来成倍空间核心观点:核心观点:1.1.短期内短期内GPUGPU增量与市场规模:增量与市场规模:参考OpenAI算法,假设每日1亿用户,每人进行10条交互,每个问题的回答长度为50词,算力利用率30%,则单个大语言模型(LLM)的日常需求有望带来2.13万片A100的增量,对应市
2、场规模2.13亿美元。假设有假设有5 5家大企业推出此类家大企业推出此类LLMLLM,则总,则总增量为增量为10.710.7片片A100A100,对应市场规模,对应市场规模10.710.7亿美元。亿美元。2.2.短期服务器增量与市场规模:短期服务器增量与市场规模:单个服务器包含8个GPU,因此单个LLM带来2669台服务器需求,对应市场规模3.39亿美元,5 5家大企业共需要家大企业共需要1334513345台,对应市场规模台,对应市场规模2020亿美元。亿美元。3.3.长期市场空间:长期市场空间:参考谷歌,若每日搜访问30亿次,需要需要106.74106.74万张万张A100A100,对应,
3、对应13.313.3万台服万台服务器务器DGX A100DGX A100,带来市场空间,带来市场空间200200亿美元。亿美元。资料来源:Raconteur,OpenAI:Language Models are Few-Shot Learners,NVIDIA官网,Amazon,中信证券研究部市场规模相关参数市场规模相关参数/假设假设A100单卡算力:19.5TFLOPS/s日常算力利用率:30%(依据经验)GPU单价:1万美元(A100)服务器单价:15万美元(DGX Station A100)做LLM模型的企业数量:5(BAT、华为、字节)每台服务器搭载GPU数量:81亿用户所需GPU数量
4、:21348(A100)近期单日交互+训练总算力1.08E+10TFLOPSA100单卡算力19.5T/s算力利用率30%关键中间变量:关键中间变量:GPU与服务器增量与服务器增量一个LLM模型所需GPU数量:21348(A100)1亿用户所需服务器数量:2669(DGX A100)每台服务器搭载GPU数量:85家企业对应10.7万片A100、1.33万台服务器短期国内短期国内GPU/服务器增量市场规模服务器增量市场规模一个LLM模型所需GPU数量:21348(A100)GPU单价:1万美元(A100)1亿用户带来国内GPU总市场规模:2.13亿美元一个LLM所需服务器数量:2669服务器单价
5、:15万美元(A100)1亿用户带来国内服务器市场规模:3.39亿美元远期远期GPU增量空间增量空间谷歌+LLM所需GPU数量:1067415(A100)远期总算力需求:5.4 E+11 TFLOPSA100单卡算力:19.5TFLOPS/s算力利用率:30%5家企业对应10.7亿美元GPU、20亿美元服务器谷歌+LLM所需服务器数量:133427(GPU/8)注:远期由于更高算力的注:远期由于更高算力的GPUGPU出现或更高效的计算出现或更高效的计算方式,对应市场空间可能变化。方式,对应市场空间可能变化。2 2核心观点核心观点技术差距:技术差距:GPGPU的核心壁垒是高精度浮点计算及的核心壁
6、垒是高精度浮点计算及CUDA生态生态。从高精度浮点计算能力来看从高精度浮点计算能力来看,国内国内GPU产品与国外产品的计算性能仍或有一代以上差距;在软件和生产品与国外产品的计算性能仍或有一代以上差距;在软件和生态层面与英伟达态层面与英伟达CUDA生态的差距则更为明显生态的差距则更为明显。AI计算GPU领域,国内壁仞科技发布的BR100产品在FP32单精度计算性能上实现超越NVIDIA A100芯片,但是不支持FP64双精度计算;天数智芯推出的天垓100的FP32单精度计算性能实现超越A100芯片,但是在INT8整数计算性能方面却低于A100;海光推出的DCU实现了FP64双精度浮点计算,但是其
7、性能为A100的60%左右,大概相当于其4年前水平。因此,从高精度浮点计算能力来看,国内GPU产品与国外产品的计算性能仍或有一代以上差距。但是,GPU不仅在硬件上需要提升算力,软件层面对于GPU的应用和生态布局尤其重要,英伟达凭借CUDA构建生态壁垒占领全球GPU市场90%的份额。目前国内企业多采用开源的OpenCL进行自主生态建设,但这需要大量的时间进行布局;我们对比AMD从2013年开始建设GPU生态,近10年时间后用于通用计算的ROCm开放式软件平台才逐步有影响力,且还是在兼容CUDA的基础上。因此我们认为国内厂商在软件和生态层面与英伟达CUDA生态的差距较计算性能更为明显。虽然目前国内
8、产品的计算性能和软件生态实力与国际厂商还有差距,但是,国内厂商依然在奋起直追,努力实现GPGPU的国产化突破。我们认为长久来看我们认为长久来看,美国对中国高端美国对中国高端GPU的禁售令反而给国产的禁售令反而给国产GPGPU和和AI芯片厂商带来快速发展的机会芯片厂商带来快速发展的机会。短期来看,我们认为对高端通用计算GPU的禁令可能会影响英伟达和AMD的GPU产品在中国的销售,中国AI计算、超级计算和云计算产业进步受到一定的阻碍。可使用英伟达和AMD还没有被禁止的及国产厂商的中高计算性能CPU、GPU、ASIC芯片等替代。长期来看,国产CPU、GPU、AI芯片厂商受益于庞大的国内市场,叠加国内
9、信创市场带来国产化需求增量,我们预期国内AI芯片的国产化比例将显著提升,借此机会进行产品升级,逐渐达到国际先进水平,突破封锁。对于国内厂商对于国内厂商,建议重点关注实现自主创新建议重点关注实现自主创新,打造自主生态体系打造自主生态体系,打磨产品实现稳定供货的公司打磨产品实现稳定供货的公司。重点关注能够实现GPU领域的自主创新,实现架构、计算核、指令集及基础软件栈的全自研的设计公司。同时,不止成功点亮,要能满足测试、客户适配、稳定供货等一系列要求,成功量产并实现规模应用,实现GPGPU的国产替代。建议关注:建议关注:国内企业:1)芯片:龙芯中科(国内PC CPU龙头,自主研发GPGPU产品)、海
10、光信息(国内服务器CPU龙头,推出深度计算处理器DCU)、景嘉微(国内图形渲染GPU龙头)、寒武纪(国内ASIC芯片龙头)、澜起科技(国内服务器内存接口芯片龙头);2)PCB:胜宏科技、兴森科技、沪电股份;3)先进封装:通富微电、甬矽电子、长电科技、长川科技等。海外企业:英伟达(全球GPU龙头)、AMD(全球CPU/GPU领先厂商)、英特尔(全球CPU龙头)、美光(全球存储芯片龙头)。风险因素:用户拓展不及预期风险风险因素:用户拓展不及预期风险,AI技术及新产品开发发展不及预期风险技术及新产品开发发展不及预期风险,外部制裁加剧风险外部制裁加剧风险,宏观经济需求下行风险宏观经济需求下行风险。3
11、3ChatGPT相关上市公司及近期涨跌幅(截至相关上市公司及近期涨跌幅(截至20232023年年2 2月月1414日)日)相关上市公司相关上市公司分类公司名代码市值(亿元人民币)ChatGPT 2022年11月30日上线至今涨跌幅2023年初至今涨跌幅CPU龙芯中科688047.SH488.7849%43%海光信息688041.SH1,235.8528%33%中科曙光603019.SH425.8824%31%英特尔INTC.O8,049.41-4%9%AMDAMD.O9,134.637%28%GPU景嘉微300474.SZ381.5145%54%英伟达NVDA.O36,527.9029%49%
12、AI芯片寒武纪-U688256.SH342.6235%57%澜起科技688008.SH713.46-7%0%MobileyeMBLY.O2,343.4450%22%FPGA紫光国微002049.SZ1,032.70-8%-8%复旦微电688385.SH443.24-9%-1%安路科技-U688107.SH283.4313%10%DPU左江科技300799.SZ136.254%2%IP芯原股份-U688521.SH308.6630%41%AI SoC瑞芯微603893.SH368.6214%28%晶晨股份688099.SH348.4112%20%富瀚微300613.SZ152.0618%32%P
13、CB兴森科技002436.SZ205.111%25%胜宏科技300476.SZ155.6328%39%生益电子688183.SH94.0011%21%沪电股份002463.SZ294.9323%31%先进封装长电科技600584.SH513.5815%25%通富微电002156.SZ334.5828%34%甬矽电子688362.SH112.76-1%27%华峰测控688200.SH276.3223%10%长川科技300604.SZ289.65-17%8%存储美光MU.O4,470.815%20%资料来源:Wind,中信证券研究部目录目录CONTENTS41.ChatGPT是什么是什么OpenA
14、I开发的聊天机器人,拥有创造能力开发的聊天机器人,拥有创造能力2.GPGPU是什么是什么3.GPGPU的壁垒是什么的壁垒是什么4.GPGPU主要应用场景主要应用场景5.国内国内GPGPU发展水平发展水平5 5不同于分析式不同于分析式AI只能做些分析型或机械式的认知计算只能做些分析型或机械式的认知计算,生成式生成式AI可以创造有意义并具备美感的东西可以创造有意义并具备美感的东西,而且在某些情况下而且在某些情况下,其生成的结果可能其生成的结果可能比人类手工创造的还要好比人类手工创造的还要好。机器可以分析数据,并针对不同用例需求找到相应的规律,且在不断迭代,变得越来越聪明,这种机器被称为“分析式人工
15、智能”(Analytical AI),或者传统AI。机器并非如之前那样仅分析已有的数据,而是创造了全新的东西,这一新型的AI被称为“生成式人工智能”(Generative AI)。2017年谷歌推出一种用于自然语言理解的新型神经网络架构年谷歌推出一种用于自然语言理解的新型神经网络架构Transformers模型模型,不但能生成质量上乘的语言模型不但能生成质量上乘的语言模型,同时具有更高的可同时具有更高的可并行性并行性,大大降低了所需的训练时间大大降低了所需的训练时间。这些小样本学习模型这些小样本学习模型,可以更容易地针对特定领域做定制修改可以更容易地针对特定领域做定制修改。2015-2020年
16、,用于训练这些模型的计算量增加了6个数量级,其表现在手写、语音和图像识别、阅读理解和语言理解方面超过了人类的基准水平。资料来源:机器学习三个时代的计算趋势Sevilla等人,arXiv,2022,生成式AI:充满创造力的新世界红杉汇内参微信公众号资料来源:生成式AI:充满创造力的新世界红杉汇内参微信公众号随着随着AI模型逐渐发展壮大,已经开始超越人类的基准水平模型逐渐发展壮大,已经开始超越人类的基准水平生成式生成式AI的应用格局的应用格局1.1 生成式生成式AI:实现创造,部分领域的能力超越人类的基准水平:实现创造,部分领域的能力超越人类的基准水平6 6预训练模型使得模型的训练可以被复用预训练
17、模型使得模型的训练可以被复用,大幅降低训练成本大幅降低训练成本,但是前期需要大量的数据进行预训练但是前期需要大量的数据进行预训练。预训练模型是一种迁移学习的应用,对句子每一个成员的上下文进行相关的表示,通过隐式的方式完成了语法语义知识的学习。预训练模型通过微调的方式具备很强的扩展性,每次扩展到新场景时,只需要针对这个场景的特定标注数据进行定向的学习,便可以快速应用。2018年以来年以来,国内外超大规模预训练模型参数指标不断创出新高国内外超大规模预训练模型参数指标不断创出新高,“大模型大模型”已成为行业巨头发力的一个方向已成为行业巨头发力的一个方向。谷歌谷歌、百度百度、微软等国内外科技巨头纷纷投
18、入大量人微软等国内外科技巨头纷纷投入大量人力力、财力财力,相继推出各自的巨量模型相继推出各自的巨量模型。国外厂商自国外厂商自2021年开始进入年开始进入“军备竞赛军备竞赛”阶段阶段。2018年,谷歌提出3亿参数BERT模型,大规模预训练模型开始逐渐走进人们的视野,成为人工智能领域的一大焦点。2019年,OpenAI推出15亿参数的GPT-2,能够生成连贯的文本段落,做到初步的阅读理解、机器翻译等。紧接着,英伟达推出83亿参数的Megatron-LM,谷歌推出110亿参数的T5,微软推出170亿参数的图灵Turing-NLG。2020年,OpenAI以1750亿参数的GPT-3,直接将参数规模提
19、高到千亿级别。2021 年 1 月,谷歌推出的Switch Transformer模型以高达1.6 万亿的参数量打破了GPT-3作为最大AI模型的统治地位,成为史上首个万亿级语言模型。2020年10月,微软和英伟达联手发布了5300亿参数的Megatron-Turing自然语言生成模型(MT-NLG)。2021年12月,谷歌还提出了1.2万亿参数的通用稀疏语言模型GLaM,在7项小样本学习领域的性能超过GPT-3。资料来源:Xavier Amatriain,陈巍谈芯知乎资料来源:Large Language Models:A New Moores Law?Julien SimonHugging
20、 Face2018年以来年以来LLM算法(大规模语言算法)成长的时间线算法(大规模语言算法)成长的时间线近年来超大规模预训练模型参数增长趋势近年来超大规模预训练模型参数增长趋势1.2 预训练模型:大模型提高准确率,预训练模型:大模型提高准确率,2018年开始步入快车道年开始步入快车道7 7ChatGPT(Chat Generative Pre-trained Transformer,聊天生成式预训练器聊天生成式预训练器)是是OpenAI开发的聊天机器人开发的聊天机器人,于于2022年年11月推出月推出。它建立在它建立在OpenAI开发的开发的GPT-3大型语言模型之上大型语言模型之上,并使用监
21、督学习和强化学习并使用监督学习和强化学习(人类监督人类监督)技术进行了微调技术进行了微调。虽然聊天机器人的核心功能是模仿人类谈话者,但ChatGPT是多功能的。例如,它可以编写和调试计算机程序,创作音乐、电视剧、童话故事和学生论文;回答测试问题(有时根据测试的不同,答题水平要高于平均水平);写诗和歌词;模拟Linux系统;模拟整个聊天室等。ChatGPT背后的公司为背后的公司为OpenAI,成立于成立于2015年年,由特斯拉由特斯拉CEO埃隆埃隆 马斯克马斯克、PayPal联合创始人彼得联合创始人彼得 蒂尔蒂尔、Linkedin创始人里德创始人里德 霍夫曼霍夫曼、创创业孵化器业孵化器Y Com
22、binator总裁阿尔特曼总裁阿尔特曼(Sam Altman)等人出资等人出资10亿美元创立亿美元创立。OpenAI的诞生旨在开发通用人工智能的诞生旨在开发通用人工智能(AGI)并造福人类并造福人类。ChatGPT中的中的GPT(Generative Pre-trained Transformer),是是OpenAI推出的深度学习模型推出的深度学习模型。ChatGPT就是基于就是基于GPT-3.5版本的聊天机器人版本的聊天机器人。截至2022年12月4日,OpenAI估计ChatGPT用户已经超过100万;2023年1月,ChatGPT用户超过1亿,成为迄今增长最快的消费应用程序。2023年2
23、月,OpenAI开始接受美国客户注册一项名为ChatGPT Plus的高级服务,每月收费20美元;此外,OpenAI正计划推出一个每月42美元的ChatGPT专业计划,当需求较低时可以免费使用。资料来源:The GPT-3 language model,revolution or evolution?Hello Future资料来源:6个问题,用专业视角带你全方位了解ChatGPT甲子光年微信公众号GPT系列模型的数据集训练规模系列模型的数据集训练规模ChatGPT与与GPT 1-3的技术对比的技术对比1.3 ChatGPT:基于:基于OpenAI推出的深度学习模型推出的深度学习模型GPT打造
24、,成为迄今打造,成为迄今增长最快的消费应用程序增长最快的消费应用程序8 8OpenAI预计人工智能科学研究要想取得突破预计人工智能科学研究要想取得突破,所需要消耗的计算资源每所需要消耗的计算资源每34个月就要翻一倍个月就要翻一倍,资金也需要通过指数级增长获得匹配资金也需要通过指数级增长获得匹配。在算力方面,GPT-3.5在微软Azure AI超算基础设施(由V100GPU组成的高带宽集群)上进行训练,总算力消耗约 3640PF-days(即每秒一千万亿次计算,运行3640天)。在大数据方面,GPT-2用于训练的数据取自于Reddit上高赞的文章,数据集共有约800万篇文章,累计体积约40G;G
25、PT-3模型的神经网络是在超过45TB的文本上进行训练的,数据相当于整个维基百科英文版的160倍。按照量子位给出的数据按照量子位给出的数据,将一个大型语言模型将一个大型语言模型(LLM)训练到训练到GPT-3级的成本高达级的成本高达460万美元万美元。最新的GPT3.5在训练中使用了微软专门建设的AI计算系统,由1万个英伟达V100 GPU组成的高性能网络集群,总算力消耗约3640PF-days(PD),即假如每秒计算一千万亿(1020)次,需要计算3640天。采购一片英伟达顶级GPU成本为8万元,GPU服务器成本通常超过40万元。对于ChatGPT而言,支撑其算力基础设施至少需要上万颗英伟达
26、GPUA100,一次模型训练成本超过1200万美元。资料来源:做AI做的事儿微信公众号,6个问题,用专业视角带你全方位了解ChatGPT甲子光年微信公众号资料来源:AI算力的阿喀琉斯之踵:内存墙Amir GholamiOneFlow社区 注:蓝线上的是 CV,NLP和语音模型,模型运算量平均每两年翻 15 倍,红线上的是 Transformer 的模型,模型运算量平均每两年翻 750 倍。而灰线则标志摩尔定律下内存硬件大小的增长,平均每两年翻 2 倍。预训练模型参数及所需要的算力情况预训练模型参数及所需要的算力情况目前目前 SOTA 模型训练的浮点数运算量(以模型训练的浮点数运算量(以 FLO
27、Ps为衡量单位)为衡量单位)1.4 算力需求:计算资源每算力需求:计算资源每34个月翻一倍,投入资金指数级增长个月翻一倍,投入资金指数级增长9 9根据根据财富财富杂志报道的数据杂志报道的数据,2022年年OpenAI的收入为的收入为3000万美元万美元,但净亏损预计为但净亏损预计为5.445亿美元亿美元。公司预测其公司预测其2023年收入年收入2亿美元亿美元,2024年收入预计超过年收入预计超过10亿美元亿美元。投入上:公司CEO阿尔特曼在推特上回答马斯克的问题时表示,在用户与ChatGPT的每次交互中,OpenAI花费的计算成本为“个位数美分”,随着ChatGPT变得流行,每月的计算成本可能
28、达到数百万美元。创造价值上:ARK认为,AI工具的发展将不断提高生产力,到2030年,人工智能或将知识工作者的生产力提高4倍以上,将软件工程师的效率提高10倍以上,创造约200万亿美元的价值。大模型高昂的训练成本让普通创业公司难以为继大模型高昂的训练成本让普通创业公司难以为继,因此参与者基本都是科技巨头因此参与者基本都是科技巨头。在国内科技公司中,阿里巴巴达摩院在2020年推出了M6大模型,百度在2021年推出了文心大模型,腾讯在2022年推出了混元AI大模型。这些模型不仅在参数量上达到了千亿级别,而且数据集规模也高达TB级别,想要完成这些大模型的训练,就至少需要投入超过1000PetaFlo
29、p/s-day的计算资源。资料来源:Xavier Amatriain,陈巍谈芯知乎资料来源:6个问题,用专业视角带你全方位了解ChatGPT甲子光年微信公众号 注:1、清华大学和阿里达摩院等合作提出;2、上海人工智能实验室联合商汤科技、香港中文大学、上海交通大学发布;3、Pflops-day 为算力单位,意为一天可以进行约 1020运算。大模型计算布局呈爆发增长态势大模型计算布局呈爆发增长态势目前全球大模型计算布局情况目前全球大模型计算布局情况1.5 产业竞争:训练成本逐渐降低,国内外科技巨头加速布局产业竞争:训练成本逐渐降低,国内外科技巨头加速布局10101.6 ChatGPT带来的算力带来
30、的算力/GPU需求需求测算原理、预训练需求分析测算原理、预训练需求分析模型模型训练总计算训练总计算量(量(PFPF日)日)训练总计算训练总计算量量(flops)(flops)模型参数量模型参数量(百万百万)训练词数训练词数(十亿十亿)单个词语消耗单个词语消耗的总计算次数的总计算次数计算反向传播后计算反向传播后的算力消耗倍数的算力消耗倍数正向计算时每个词正向计算时每个词消耗浮点计算次数消耗浮点计算次数BERTBERT-BaseBase1.89 1.64E+20109250632BERTBERT-LargeLarge6.16 5.33E+20355250632RoBERTaRoBERTa-Base
31、Base17.36 1.50E+211252,000632RoBERTaRoBERTa-LargeLarge49.31 4.26E+213552,000632GPTGPT-3 Small3 Small2.60 2.25E+20125300632GPTGPT-3 Medium3 Medium7.42 6.41E+20356300632GPTGPT-3 Large3 Large15.83 1.37E+21760300632GPTGPT-3 XL3 XL27.50 2.38E+211,320300632GPTGPT-3 2.7B3 2.7B55.21 4.77E+212,650300632GPTGP
32、T-3 6.7B3 6.7B138.75 1.20E+226,660300632GPTGPT-3 13B3 13B267.71 2.31E+2212,850300632GPTGPT-3 175B3 175B3637.50 3.14E+23174,600300632算力消耗测算原理算力消耗测算原理资料来源:OpenAI:Language Models are Few-Shot Learners:附录D,中信证券研究部,注:为简单起见,本测算方法忽略了Attention计算的算力消耗,该部分占总算力消耗的10%以下核心原理:核心原理:每个训练词都会导致模型所有参数的更新,且每个训练词都需要消耗固定
33、的浮点算力。因此:总算力需求=模型参数量*训练词数*每个词的运算量测算过程:测算过程:表格从右向左计算1.最基础的“原子”运算:1个词更新1个参数,需要计算1次乘法和1次加法,共2次浮点运算。2.如果是训练,则需要反向传播算法,反向传播需要的运算次数是正向传播2倍,故训练时每个词的运算量是推理情况的3倍,需要消耗6次浮点运算。(2次运算*算力消耗倍数3)3.按照核心公式求解,GPT-3的总算力消耗为1.746E+11*3E+11*6=3.14E+23 FLOPS4.进行单位换算,3.14E+23 FLOPS=3640 PF日预训练算力消耗及预训练算力消耗及GPU需求测算需求测算 假设1:Cha
34、tGPT使用的数据集与GPT-3 175B模型相同 假设2:ChatGPT使用FP32数据格式完成训练GPU数量总计算量GPU算力计算用时总计算量GPU数量GPU算力计算用时3.14E+23 FLOPS19.5 TFLOPS/s(A100 FP32)1天/1个月/2个月/3个月186538/7723/3861/2574测算数据来源:测算数据来源:1.总计算量来自上表OpenAI论文2.GPU算力来自NVIDIA官网3.计算用时取决于语言模型开发者试图在多长时间内完成训练左侧求得左侧求得GPUGPU数量与右侧数量与右侧计算用时一一对应,例计算用时一一对应,例如一个月完成训练需要如一个月完成训练需
35、要77237723张张A100 GPUA100 GPU资料来源:OpenAI:Language Models are Few-Shot Learners,NVIDIA官网,中信证券研究部3000亿训练词如何构成亿训练词如何构成数据集数据集词数(十亿)词数(十亿)训练轮数训练轮数权重占比权重占比网页爬虫网页爬虫4100.4460%WebText2WebText2192.922%Books1Books1121.98%Books2Books2550.438%维基百科维基百科33.43%不同数据集的数据质量和重要度不一致,因此重要度和质量更高的数据集会进行更多轮次的训练,从而提升其权重占比。将每个数据
36、集的词数乘以训练轮数,加在一起即得到3000亿词的训练数据。11111.7 ChatGPT带来的算力需求带来的算力需求日常交互、日常训练需求分析日常交互、日常训练需求分析阶段阶段1:ChatGPT+bing日常算力需求日常算力需求参数量总计算量词数单个词语计算次数1.75B300亿2(推理)1.05E+10T参数量交互计算量词数单个词计算量参数量总计算量词数单个词语计算次数1.75B9.06亿6(训练)3.14E+8T参数量训练计算量词数单个词计算量参数量总计算量词数单个词语计算次数1.75B15000亿2(推理)5.24E+11T参数量交互计算量词数单个词计算量参数量总计算量词数单个词语计算
37、次数1.75B150亿6(训练)1.57E+10T参数量训练计算量词数单个词计算量阶段阶段2:LLM+Google日常算力需求日常算力需求 核心假设核心假设2 2-算力需求分配:算力需求分配:训练采用的数据占当日新训练采用的数据占当日新生成数据的生成数据的1%1%。假设依据:根据OpenAI论文Language Models are Few-Shot Learners,GPT-3采用的数据集清洗前大小45TB,清洗后大小570GB,清洗前后存在2个数量级的差距,因此可以认为每天新生成的数据有1%用于训练。阶段阶段1 1假设:假设:每日用户访问量每日用户访问量1 1亿亿(根据SimilarWeb
38、统计,2023年1月ChatGPT注册用户1亿,单月访问量6.16亿,月底日访问2800万次;bing日访问约4000万次,二者结合后短期有望迅速增长)核心假设核心假设1 1-算力需求影响算力需求影响因素:因素:模型参数量(175B)和单个词计算量(训练6次,推理2次)不变,算算力需求变化主要取决于词力需求变化主要取决于词数变化。数变化。词数=用户访问词数*每次访问的提问数量(默认10)*每个回答包含的词数(默认50),词数词数与用户访问数成正比与用户访问数成正比。阶段阶段2 2假设:假设:Bing有望逐渐占据更多市场份额,市场空间参考谷歌,根据SimilarWeb,谷歌月访问量约900亿次,
39、每日用户访问每日用户访问3030亿次亿次。测算核心假设测算核心假设资料来源:SimilarWeb,OpenAI:Language Models are Few-Shot Learners,中信证券研究部0.0500600700Nov-22Dec-22Jan-23ChatGPT月度访问量(百万次)月度访问量(百万次)Google/Bing/百度月度访问量(亿次)百度月度访问量(亿次)资料来源:SimilarWeb,中信证券研究部资料来源:SimilarWeb,中信证券研究部850200300400500600
40、7008009001000Nov-22Dec-22Jan-23GoogleBing百度目录目录CONTENTS121.ChatGPT是什么是什么2.GPGPU是什么是什么通用计算通用计算GPU,算力强大,应用于加速计算场景,算力强大,应用于加速计算场景3.GPGPU的壁垒是什么的壁垒是什么4.GPGPU主要应用场景主要应用场景5.国内国内GPGPU水平水平1313GPU(Graphics Processing Unit,图形处理器图形处理器):是一种专门在个人电脑:是一种专门在个人电脑、工作站工作站、游戏机和一些移动设备游戏机和一些移动设备(如平板电脑如平板电脑、智能手机等智能手机等)上做图上
41、做图像加速和通用计算工作的微处理器像加速和通用计算工作的微处理器。GPU是英伟达公司在1999年8月发表NVIDIA GeForce 256(GeForce 256)绘图处理芯片时首先提出的概念。GPU应用场景应用场景图形加速图形加速:此时GPU 内部的顶点渲染、像素渲染以及几何渲染操作都可以通过流处理器完成。通用计算通用计算:计算通常采用CPU+GPU异构模式,由CPU负责执行复杂逻辑处理和事务处理等不适合数据并行的计算,由GPU负责计算密集型的大规模数据并行计算。GPU 与与 CPU 对比对比CPU 的逻辑运算单元较少,控制器(Control)和缓存(Cache)占比较大;GPU 的逻辑运
42、算单元小而多,控制器功能简单,缓存也较少。GPU 单个运算单元(ALU)处理能力弱于 CPU,但是数量众多的ALU可以同时工作,当面对高强度并行计算时,其性能要优于 CPU。GPU可以利用多个ALU来做并行计算,而CPU只能按照顺序进行串行计算,同样运行3000次的简单运算,CPU需要3000个时钟周期,而配有3000个ALU的GPU运行只需要1个时钟周期。资料来源:中信证券研究部资料来源:CUDA 编程手册系列第一章:CUDA 简介英伟达技术博客GPU的主要分类的主要分类CPU 与与 GPU 的芯片资源分布示例的芯片资源分布示例2.1 GPU是什么?是什么?类型类型应用场景应用场景特点特点代
43、表产品代表产品独立GPU封装在独立的电路板,专用的显存(显示储存器)性能高,功耗大NVIDIA Geforce系列AMD Radeon系列集成GPU内嵌到主板上,共享系统内存性能中等,功耗中等Intel HD系列AMD APU系列苹果M芯片GPU移动端GPU嵌在 SoC(System On Chip)中,共享系统内存性能低,功耗低Imagination PowerVR系列高通 Adreon系列AMD Mali系列苹果A芯片GPU1414GPGPU(general-purpose GPU,通用计算图形处理器通用计算图形处理器),利用图形处理器进行非图形渲染的高性能计算利用图形处理器进行非图形渲染
44、的高性能计算。为了进一步专注通用计算为了进一步专注通用计算,GPGPU去掉或减弱去掉或减弱GPU的图形显示部分能力的图形显示部分能力,将其余部分全部投入通用计算将其余部分全部投入通用计算,实现处理人工智能实现处理人工智能、专业计算等加速应用专业计算等加速应用。2007年年6月月,NVIDIA推出了推出了CUDA(Computer Unified Device Architecture计算统一设备结构计算统一设备结构)。CUDA是一种将是一种将GPU作为数据并行计算设备的软硬件体系作为数据并行计算设备的软硬件体系。在CUDA 的架构中,不再像过去GPU架构那样将通用计算映射到图形API中,对于开
45、发者来说,CUDA 的开发门槛大大降低了。CUDA 的编程语言基于标准C,因此任何有C 语言基础的用户都很容易地开发CUDA 的应用程序。由于这些特性,CUDA在推出后迅速发展,被广泛应用于石油勘测、天文计算、流体力学模拟、分子动力学仿真、生物计算、图像处理、音视频编解码等领域。GPU并不是一个独立运行的计算平台并不是一个独立运行的计算平台,而是需要与而是需要与CPU协同工作协同工作,可以看成是可以看成是CPU的协处理器的协处理器。GPU与与CPU通过通过PCIe总线连接在一起来总线连接在一起来协同工作协同工作,因此因此GPU并行计算实际上指的是基于并行计算实际上指的是基于CPU+GPU的异构
46、计算架构的异构计算架构。资料来源:GPU与GPGPU泛淡 夕阳叹CSDN资料来源:Preofessional CUDA C ProgrammingGPGPU的架构与生态的架构与生态基于基于CPU+GPU的异构计算应用执行逻辑的异构计算应用执行逻辑2.2 从从GPU到到GPGPU的跨越,英伟达的跨越,英伟达CUDA降低开发门槛降低开发门槛1515根据根据Verified Market Research数据数据,2020年年,全球全球GPU市场规模为市场规模为254.1亿美元亿美元(约约1717.2亿人民币亿人民币)。随着需求的不随着需求的不断增长断增长,预计到预计到2028年年,这一数据将达到这
47、一数据将达到2465.1亿美元亿美元(约约1.67万亿人民币万亿人民币),年复合增长率为年复合增长率为32.82%。市场研究机构市场研究机构Jon Peddie Research的最新数据显示的最新数据显示,2022年二季度年二季度,全球独立全球独立GPU市场出货量同比增长市场出货量同比增长 2.4%至至 1040万台万台,但是较一季度环比则下滑了但是较一季度环比则下滑了22.6%。从市场份额来看,英伟达的独立的独立GPU的市场份额从的市场份额从22Q1的的75%增加到增加到22Q2的的79.6%,保持了与去年同期相当的份额。AMD和Intel则分别占比20%/1%。据据Verified Ma
48、rket Research数据数据,2020年中国大陆的独立年中国大陆的独立GPU市场规模为市场规模为47.39亿美元亿美元,预计预计2027年将超过年将超过345.57亿亿美元美元。资料来源:Verified Market Research(含预测),中信证券研究部资料来源:Jon Peddie Research,中信证券研究部GPU全球市场规模(亿美元)全球市场规模(亿美元)全球独显全球独显GPU市场各厂商份额占比市场各厂商份额占比2.3 2020年年GPU全球市场全球市场254亿美元,独显市场英伟达份额约亿美元,独显市场英伟达份额约80%02004006008000
49、020202021E2022E2023E2024E2025E2026E2027E81%80%83%81%75%79%1%1%19%20%17%19%24%20%0%10%20%30%40%50%60%70%80%90%100%21Q121Q221Q321Q422Q122Q2NVIDIAINTELAMD1616伴随着人工智能应用场景的多元化伴随着人工智能应用场景的多元化,新算法新算法、新模型不断涌现新模型不断涌现,模型中的参数数量呈指数级增长模型中的参数数量呈指数级增长,对算力的需求越来越大对算力的需求越来越大。OpenAI预估预估算力需求每算力需求每3.5个月翻一倍个月翻
50、一倍,每年近每年近10倍倍。根据WSTS数据,2020年全球人工智能芯片市场规模约为年全球人工智能芯片市场规模约为175亿美元亿美元。随着人工智能技术日趋成熟,数字化基础设施不断完善,人工智能商业化应用将加落地,推动AI芯片市场高速增长,预计2025年全球人工智能芯片市场规模将达到726亿美元。未来,随着自动驾驶级别的不断提高,对于AI芯片的需求正不断增长。L2和L3+级汽车都会用AI芯片来取代分立的MCU芯片进行自动驾驶相关的计算工作。WSTS预计AI芯片的数量将从2020年的899万套增长至2025年的2380万套。据IDC数据,2021年,中国加速卡出货量超过80万片,其中英伟达占据超过
51、英伟达占据超过80%市场份额市场份额,此外其他市场参与者还包括AMD、百度、寒武纪、燧原科技、新华三、华为、Intel和赛灵思等。2020年的采购主要集中在搭载V100、V100S、A100和和T4的加速服务器上,此外英伟达的A10、A30、A40和和Atlas系列系列加速卡在部分领域已经开始使用。资料来源:WSTS(含预测),中信证券研究部资料来源:WSTS(含预测),中信证券研究部全球全球AI芯片(芯片(GPU、FPGA、ASIC等)的市场规模等)的市场规模全球全球AI芯片销售数量及预测(万套)芯片销售数量及预测(万套)2.3 2020年全球年全球AI芯片市场规模约为芯片市场规模约为175
52、亿美元,英伟达份额超亿美元,英伟达份额超80%551063072659.1%48.6%51.9%29.1%23.5%15.2%0%10%20%30%40%50%60%70%0050060070080020022E2023E2024E2025E全球AI芯片市场规模(亿美元)YoY89901888238034.8%18.2%14.4%15.1%26.1%0%5%10%15%20%25%30%35%40%050002500202020212022E2023E2024E2025E全球AI芯片销
53、售数量(万套)YoY1717据据IDC数据数据,2021年年,全球全球AI服务器市场规模达服务器市场规模达156亿美元亿美元,同比增长同比增长39.1%;IDC预测预测,2025年全球年全球AI服务器市场规模将服务器市场规模将达达317.9亿美元亿美元,年复合增长率为年复合增长率为19%。IDC报告显示报告显示,2021年中国加速服务器市场规模达到年中国加速服务器市场规模达到53.9亿美元亿美元(约约350.3亿人民币亿人民币),同比同比+68.6%;预计到;预计到2026年将达年将达到到103.4亿美元亿美元。年复合增长率为年复合增长率为19%,占全球整体服务器市场近三成占全球整体服务器市场
54、近三成。根据IDC数据,2021年,GPU服务器以服务器以91.9%的份额占国内加速服务器市场的主导地位的份额占国内加速服务器市场的主导地位;NPU、ASIC和FPGA等非GPU加速服务器占比8.1%。IDC预计2024年中国GPU服务器市场规模将达到64亿美元。从行业的角度看,互联网依然是最大的采购行业,占整体加速服务器市场近60%的份额;2021年年,用于推理工作负载的用于推理工作负载的加速服务器占比已经达到加速服务器占比已经达到57.6%,预计到预计到2026年将超过年将超过60%。资料来源:IDC(含预测),中信证券研究部 注:这里统计的AI服务器包括高性能计算资料来源:IDC,中信证
55、券研究部全球及中国全球及中国AI服务器市场规模服务器市场规模2021年中国年中国AI服务器芯片占比情况服务器芯片占比情况2.3 中国市场,中国市场,GPU服务器在服务器在AI服务器中占比服务器中占比92%,占主导地位,占主导地位050030035020212025E中国市场规模(亿美元)全球市场规模(亿美元)CAGR=19%CAGR=19%91.9%6.3%1.5%0.3%GPUNPUASICFPGA1818市场研究机构市场研究机构Verified Market Research预测预测,到到2025年年,中国中国GPGPU芯片板卡的市场规模将达到芯片板卡的市场规模将达到
56、458亿元亿元,是是2019年年86亿元的亿元的5倍多倍多,2019-2025年的年复合增长率为年的年复合增长率为32%。其中其中,按行业来分,到2025年,预计互联网及云数据中心需求为228亿元,安防与政府数据中心为142亿元,行业AI应用为37亿元,高性能计算为高性能计算为28亿元亿元。按应用场景来分,到2025年,预计人工智能推理/人工智能训练/高性能计算高性能计算需求分别为286/144/28亿元亿元,占比分别为占比分别为62.4%/31.4%/6.1%。我们预计我们预计2021年中国年中国GPGPU市场规模为市场规模为149.8亿元亿元,其中人工智能推理其中人工智能推理/人工智能训练
57、人工智能训练/高性能计算分别为高性能计算分别为93.5/47.1/9.1亿亿元元。资料来源:IDC预测(2022-2026年均为预测)资料来源:Verified Market Research,中信证券研究部20222026年中国加速计算服务器市场预测(单位:百万美元)年中国加速计算服务器市场预测(单位:百万美元)GPGPU市场按应用场景拆分市场按应用场景拆分2.3 预计预计2021年中国年中国GPGPU市场规模为市场规模为149.8亿元,其中亿元,其中AI推理推理/AI训练训练/高性能计算高性能计算分别为分别为93.5/47.1/9.1亿元。亿元。人工智能推理63%人工智能训练31%高性能计
58、算6%1919GPGPU是一个门槛极高的领域是一个门槛极高的领域,全球市场基本上被英伟达和全球市场基本上被英伟达和AMD两家国际龙头掌控两家国际龙头掌控。根据 Ark Invest 的数据,2021 年,英伟达占据了全球数据加速器市场英伟达占据了全球数据加速器市场 90%的份额的份额。根据IDC数据,2020年的GPGPU采购主要集中在搭载V100、V100S、A100和和T4的加速服务器上,此外Nvidia的的 A10、A30、A40和和Atlas系列系列加速卡在部分领域已经开始使用。2021年,中国加速卡出货量超过80万片,其中英伟达占据超其中英伟达占据超过过80%市场份额市场份额。根据天
59、数智芯数据,英伟达在英伟达在2021年的年的中国的云端云端AI训练芯片市场份额达到训练芯片市场份额达到90%。其中,某一款产品占整个市场的50%,另一款产品占25%。资料来源:智东西资料来源:英伟达官网,中信证券研究部英伟达历代英伟达历代GPGPU产品的详细信息产品的详细信息英伟达历代英伟达历代GPGPU产品的产品的FP32算力水平算力水平2.4 GPGPU市场英伟达一家独大,全球市场份额约市场英伟达一家独大,全球市场份额约90%000004000050000600007000020000192020202
60、120222023FP32算力(GFLOPS)目录目录CONTENTS201.ChatGPT是什么是什么2.GPGPU是什么是什么3.GPGPU的壁垒是什么的壁垒是什么高精度浮点计算高精度浮点计算+CUDA生态生态4.GPGPU主要应用场景主要应用场景5.国内国内GPGPU水平水平2121CPU是串行处理器是串行处理器,而而GPU是并行处理器是并行处理器。在机器学习中,绝大多数任务会涉及到耗费时间的大量运算,而且随着数据集的增加随着数据集的增加,运算量会越来越大运算量会越来越大。解决这个问题的一个方法就是使用多线程并行计算。CUDA 核能够以相对稍慢的速度运行,但是能够通过使用大量运算逻辑单元
61、(ALU)来提供很大的并行度。每个每个 GPU 核都能运行一个独立的线程核都能运行一个独立的线程,对于矩阵相乘运算来说大大缩短了计算时间对于矩阵相乘运算来说大大缩短了计算时间。对于每个小片的结果可以由一组线程负责,其中每个线程对应小片中的一个元素。这个线程组将这个线程组将 A 的行小片和的行小片和 B 的列小片一一载入共享内的列小片一一载入共享内存存,在共享内存上对其做矩阵相乘在共享内存上对其做矩阵相乘,然后叠加在原有结果上然后叠加在原有结果上。所以对于 20002000 的矩阵乘法,只需要 2000 次并行运行。但是对于CPU来说,因为是串行计算的,所以需要4000000次运行。资料来源:M
62、atthes,Alexander&Widera,Rene&Zenker,Erik&Worpitz,Benjamin&Huebl,Axel&Bussmann,Michael.(2017).Tuning and optimization for a variety of many-core architectures without changing a single line of implementation code using the Alpaka library.资料来源:CUDA 轻松入门编程(一):CUDA C 编程及 GPU 基本知识科技猛兽极市网站矩阵相乘分片算法示意图矩阵相乘分
63、片算法示意图CUDA线程模型线程模型3.1 壁垒一壁垒一高精度浮点计算高精度浮点计算2222训练需要密集的计算得到模型训练需要密集的计算得到模型,没有训练没有训练,就不可能会有推理就不可能会有推理。训练是指通过大数据训练出一个复杂的神经网络模型,通过大量标记过的数据来训练相应的系统得到模型通过大量标记过的数据来训练相应的系统得到模型,使其能够适应特定的功能。训练需要较高的计算性能、能够处理海量的数据、具有一定的通用性,以便完成各种各样的学习任务(大数据分析淘宝推荐“你可能感兴趣的产品”模型)。推理是指利用训练好的模型,使用新数据推理出各种结论。借助神经网络模型进行运算,利用输入的新数据来一次性
64、获得正确结论的过利用输入的新数据来一次性获得正确结论的过程程。这也有叫做预测或推断(用户打开手机被推送“可能感兴趣的产品”)。训练需要较高的精度训练需要较高的精度,推理的精度要求较低推理的精度要求较低训练的时候因为要保证前后向传播,每次梯度的更新是很微小的,这个时候需要相对较高的精度,一般来说需要float型,如FP32,32位的浮点型来处理数据。推理对精度的要求没有那么高,可以用低精度,如FP16,也可以用8位的整型(INT8)来做推理,研究结果表明没有特别大的精度损失,但是需要综合考虑功耗、速度等其它问题。资料来源:NVIDIA DEEP LEARNING INSTITUTE英伟达AI C
65、onference资料来源:Lower Numerical Precision Deep Learning Inference and TrainingIntel 注:FP32和BF16提供了相同的动态范围,FP32由于更大的尾数提供了更高的精度。推理是将深度学习训练成果投入使用的过程推理是将深度学习训练成果投入使用的过程常见的常见的32/16/8位数字格式对比位数字格式对比3.1 人工智能的实现包括两个环节:推理人工智能的实现包括两个环节:推理(Inference)和训练和训练(Training)训练推理2323浮点计数是利用浮动小数点的方式使用不同长度的二进制来表示一个数字浮点计数是利用浮
66、动小数点的方式使用不同长度的二进制来表示一个数字,同样的长度下浮点较整形能表达的数字范围相比定点数更大同样的长度下浮点较整形能表达的数字范围相比定点数更大,结果也更精确结果也更精确FP64双精度计算:双精度浮点数采用8个字节也就是个字节也就是64位二进制位二进制来表达一个数字,1位符号,11位指数,52位小数,有效位数为16位。FP32单精度计算:单精度的浮点数中采用4个字节也就是个字节也就是32位二进制位二进制来表达一个数字,1位符号,8位指数,23位小数,有效位数为7位。FP16半精度计算:半精度浮点数采用2个字节也就是个字节也就是16位二进制位二进制来表达一个数字,1位符号、5位指数、1
67、0位小数,有效位数为3位。因为采用不同位数的浮点数的表达精度不一样因为采用不同位数的浮点数的表达精度不一样,所以造成的计算误差也不一样所以造成的计算误差也不一样。对于需要处理的数字范围大而且需要精确计算的科学计算来说对于需要处理的数字范围大而且需要精确计算的科学计算来说,可能需要采用双精度浮点数可能需要采用双精度浮点数,例如:计算化学,分子建模,流体动力学。对于常见的多媒体和图形处理计算、深度学习、人工智能等领域,32位的单精度浮点计算已经足够了。对于要求精度更低的机器学习等一些应用来说机器学习等一些应用来说,半精度半精度16位浮点数位浮点数就可以,甚至8位浮点数就已经够用了。AI计算模型规模
68、的持续扩大,导致模型训练和部署所需求的算力和功耗持续的扩张。面对算力的挑战面对算力的挑战,降低精度是一把利器降低精度是一把利器。资料来源:一起实践神经网络INT8量化系列教程老潘的博客CSDN资料来源:AI算力的阿喀琉斯之踵:内存墙Amir GholamiOneFlow社区 注:蓝线上的是CV,NLP和语音模型,模型运算量平均每两年翻 15 倍,红线上的是 Transformer 的模型,模型运算量平均每两年翻 750 倍。而灰线则标志摩尔定律下内存硬件大小的增长,平均每两年翻 2 倍。TensorRT支持的计算精度支持的计算精度AI模型训练算力消耗量与摩尔定律浮点数运算量(单位:模型训练算力
69、消耗量与摩尔定律浮点数运算量(单位:FLOPs)3.1.1 AI训练端:发展目标是精度降低的同时保证模型的准确性训练端:发展目标是精度降低的同时保证模型的准确性2424量化是通过一组离散符号或整数值去逼近一个连续信号的过程量化是通过一组离散符号或整数值去逼近一个连续信号的过程,利用低比特量化利用低比特量化(权重或激活权重或激活)可以在不影响精度的前提下加快推理阶段可以在不影响精度的前提下加快推理阶段。随随着模型越来越大着模型越来越大,需求越来越高需求越来越高,模型的量化自然是少不了的一项技术模型的量化自然是少不了的一项技术。在低比特表达中(如FP16、INT16、FP8、INT8、INT4等)
70、,INT8因兼顾效率和精度因兼顾效率和精度,而被广泛采用而被广泛采用。一方面,INT8的运行速度是FP16/INT16的两倍,并且相比FP8,能被更多的硬件设备支持。另一方面,INT8的量化范围(-128127)比INT4(-87)或其它更低的比特(小于4比特)大,表达能力更强。经过经过INT8量化后的模型:模型容量变小了量化后的模型:模型容量变小了,FP32的权重变成的权重变成INT8,大小直接缩了大小直接缩了4倍模型倍模型,运行速度可以提升运行速度可以提升,使用使用INT8的模型耗电量更的模型耗电量更少少,对于嵌入式侧端设备来说提升巨大对于嵌入式侧端设备来说提升巨大。资料来源:英伟达 NV
71、IDIA TensorRT 量化感知训练实现 INT8 推理的 FP32 精度英伟达技术博客INT8有更高的吞吐率、更低的内存要求有更高的吞吐率、更低的内存要求利用利用NVIDIA TensorRT 量化感知训练实现量化感知训练实现INT8 推理的推理的FP32 精度精度3.1.2 AI推理端:浮点型量化为整形数据,降低算力、加速推理、降低功耗推理端:浮点型量化为整形数据,降低算力、加速推理、降低功耗2525对于浮点计算来说对于浮点计算来说,CPU可以同时支持不同精度的浮点运算可以同时支持不同精度的浮点运算,但在但在GPU里针对单精度和双精度需要各自独立的计算单元里针对单精度和双精度需要各自独
72、立的计算单元。一般在GPU里支持单精度运算的单精度ALU(算术逻辑单元)称之为FP32 core,而把用作双精度运算的双精度ALU称之为DP unit或者FP64 core在英伟达不同架构不同型号的GPU之间,因为产品定位不同,单精度ALU和双精度ALU的数量的比例差异很大,也决定了产品的定位。资料来源:英伟达,GPGPU 芯片设计:原理与实践陈巍谈芯知乎Nvidia Hopper架构中的架构中的SMP(流处理块流处理块)英伟达不同英伟达不同GPU产品的产品的CUDA计算核数对比计算核数对比3.1.3 GPU中设置各自独立的计算单元,可以针对不同运算优化中设置各自独立的计算单元,可以针对不同运
73、算优化资料来源:智东西微信公众号2626CUDA(Compute Unified Device Architecture,统一计算设备架构统一计算设备架构)是由是由 NVIDIA 于于2007年推出的通用并行计算架构年推出的通用并行计算架构,专为图形处理单元专为图形处理单元(GPU)上的上的通用计算开发的并行计算平台和编程模型通用计算开发的并行计算平台和编程模型。借助借助 CUDA,开发者能够利用开发者能够利用 GPU 的强大性能显著加速计算应用的强大性能显著加速计算应用。它包含了 CUDA 指令集架构(ISA)以及 GPU 内部的并行计算引擎。CUDA 是一个全新的软硬件架构,可以将 GPU
74、 视为一个并行数据计算的设备,对所进行的计算进行分配和管理对所进行的计算进行分配和管理,无需将其映射到图形无需将其映射到图形 API(OpenGL和和Direct 3D)中运行中运行。使用 CUDA 时,开发者使用主流语言(如 C、C+、Fortran、Python 和 MATLAB)进行编程,并通过扩展程序以几个基本关键字的形式来表示并行性。NVIDIA 的 CUDA 工具包提供了开发 GPU 加速应用所需的一切。CUDA 工具包中包含多个 GPU 加速库、一个编译器、多种开发工具以及 CUDA 运行环境。通过通过 CUDA 开发的数千个应用已部署到嵌入式系统开发的数千个应用已部署到嵌入式系
75、统、工作站工作站、数据中心和云中的数据中心和云中的 GPU。资料来源:Nvidia 并行计算架构 CUDA 分析(一)CUDA 简介club111阿里云资料来源:英伟达开发者社区CUDA 架构的组件组成架构的组件组成通过通过 CUDA 开发的部分应用开发的部分应用3.2 壁垒二壁垒二CUDA生态:使生态:使 GPU 解决复杂计算问题,基于此开发数千个应用解决复杂计算问题,基于此开发数千个应用2727易于编程和性能飞跃易于编程和性能飞跃,加上拥有广泛而丰富的生态系统加上拥有广泛而丰富的生态系统,CUDA让让NVIDIA的的GPU生态圈迅速成型生态圈迅速成型。在2006年问世之初,英伟达就开始对C
76、UDA系统在AI领域进行大力投入和推广。一方面在年营业额只有30亿美元的情况下,每年投入5亿美元的研发经费更新维护;另一方面,为当时美国大学及科研机构免费提供CUDA系统,使其迅速在AI及通用计算领域开花结果。与任何新平台一样,CUDA的成功依赖于CUDA生态系统可用的工具、库、应用程序和合作伙伴。CUDA 支持 Windows、Linux、MacOS 三种主流操作系统,支持 CUDA C 语言和 OpenCL 及 CUDA Fortran 语言。无论使用何种语言或接口,指令最终都会被驱动程指令最终都会被驱动程序转换成序转换成 PTX(Parallel Thread Execution,并行线
77、程执行并行线程执行,CUDA架构中的指令集架构中的指令集,类似于汇编语言类似于汇编语言)代码代码,交由交由GPU计算计算。但是但是,只有只有NVIDIA的的GPUs才支持才支持CUDA技术技术,NVIDIA凭借凭借CUDA在科学计算在科学计算、生物生物、金融等领域的推广牢牢把握着主流市场金融等领域的推广牢牢把握着主流市场。资料来源:CUDA new features and beyond英伟达资料来源:CUDA 11 功能揭晓Pramod Ramarao英伟达社区CUDA生态支持的主要应用场景生态支持的主要应用场景CUDA 11 中的平台支撑中的平台支撑3.2.1 CUDA:一家独大,助力英伟
78、达:一家独大,助力英伟达GPU生态建设,软硬件深度绑定生态建设,软硬件深度绑定2828由于各个硬件厂家在由于各个硬件厂家在 GPU 硬件设计上存在着较大差别硬件设计上存在着较大差别,为了降低跨平台的开发难度为了降低跨平台的开发难度,需要一套能够兼容各类硬件设备的计算框架需要一套能够兼容各类硬件设备的计算框架。OpenCL 最初由苹果公司开发,拥有其商标权。2008 年,苹果公司向 Khronos Group 提交了一份关于跨平台计算框架(OpenCL)的草案,随后与AMD、IBM、Intel、和 NVIDIA 公司合作逐步完善,其接口大量借鉴了 CUDA。后续,OpenCL 的管理权移交给了非
79、盈利组织 Khronos Group,且于2008年12月发布了 OpenCL 1.0。最新的OpenCL 3.0 于 2020 年 9 月发布。OpenCL是一个为异构平台是一个为异构平台(CPU/GPU/DSP/FPGA等等)编程设计的框架编程设计的框架,是一个面向异构系统通用目的并行编程的开放式是一个面向异构系统通用目的并行编程的开放式、免费标准免费标准,也是一个统也是一个统一的编程环境一的编程环境,便于软件开发人员为高性能计算服务器便于软件开发人员为高性能计算服务器、桌面计算系统桌面计算系统、手持设备编写高效轻便的代码手持设备编写高效轻便的代码,只要按照标准实现了驱动的硬件只要按照标准
80、实现了驱动的硬件,使用使用OPENCL加速的应用原则上就都能使用加速的应用原则上就都能使用,主要用于并行运算主要用于并行运算。在在 OpenCL 中中,首先需要一个主机处理器首先需要一个主机处理器(Host),一般是一般是 CPU。而其他的硬件处理器而其他的硬件处理器(多核多核CPU/GPU/DSP 等等)被抽象成被抽象成 OpenCL 设备设备(Device)。每个设备包含多个计算单元每个设备包含多个计算单元(Compute Unit),每个计算单元又包含多个处理单元每个计算单元又包含多个处理单元(Processing Element)。在执行中在执行中,主要的流主要的流程为程为 Host
81、端发送数据和任务给端发送数据和任务给 Device 端端,Device 端进行计算端进行计算,最后在最后在 Host 端进行同步端进行同步。资料来源:移动端算法优化高性能计算学院知乎专栏资料来源:移动端算法优化高性能计算学院知乎专栏OpenCL-异构计算框架异构计算框架OpenCL 平台模型图示平台模型图示3.2.2 OpenCL:开源计算框架,兼容各类硬件设备用于并行计算:开源计算框架,兼容各类硬件设备用于并行计算2929OpenCL在应用层次在应用层次、简便性简便性、市场占有率方面都要弱于市场占有率方面都要弱于CUDA,但是在跨平台和通用性上优于但是在跨平台和通用性上优于CUDA。开发者友
82、好程度开发者友好程度:CUDA在这方面显然受更多开发者青睐。原因在于其统一的开发套件(CUDA Toolkit,NVIDIA GPU Computing SDK以及NSight等等)、丰富的库(cuFFT,cuBLAS,cuSPARSE,cuRAND,NPP,Thrust)以及NVCC(NVIDIA的CUDA编译器)所具备的PTX代码生成、离线编译等更成熟的编译器特性。相比之下相比之下,使用使用OpenCL进行开发进行开发,只有只有AMD对对OpenCL的驱动相对成熟的驱动相对成熟。跨平台性和通用性:跨平台性和通用性:OpenCL支持包括支持包括ATI,NVIDIA,Intel,ARM在内的多
83、类处理器在内的多类处理器,CPU、显卡、FPGA、DSP等等都可能可以用OpenCL开发;并能支持运行在CPU的并行代码,同时还独有Task-Parallel Execution Mode,能够更好的支持异构计算。这一点是仅仅支持数据级并行并仅能在NVIDIA众核处理器上运行的CUDA无法做到的。市场占有率:市场占有率:作为一个开放标准,缺少背后公司的推动缺少背后公司的推动,OpenCL没有占据通用并行计算的主流市场没有占据通用并行计算的主流市场。NVIDIA则凭借CUDA在科学计算、生物、金融等领域的推广牢牢把握着主流市场。资料来源:OpenCL与Cuda技术吴建明博客园资料来源:CUDA与
84、OpenCL之间的差异AI领域简书网站OpenCL和和CUDA的应用框架的应用框架OpenCL和和CUDA产品对比产品对比3.2.2 OpenCL对比对比CUDA:简便性差、市占率低,通用性强:简便性差、市占率低,通用性强应用应用产品产品3030AMD推出了推出了ROCm开发环境开发环境,目的是建立可替代目的是建立可替代CUDA的生态的生态,并在源码级别上对并在源码级别上对CUDA程序支持程序支持A卡上编程模型(硬件生态)使用的是HIP,而运行环境(软件生态)是ROCm,此外AMD发布GPUFORT将CUDA应用转换;N卡上,编程模型是CUDA,运行环境也是CUDA。AMD收购赛灵思后,公司拥
85、有AMD CPU+AMD GPU+FPGA+Xilinx SmartNIC。除了硬件外,AMD的Radeon Open Compute(ROCm)混合CPU-GPU开发环境,再加上赛灵思Vitis,足以对抗英伟达颇受欢迎的CUDA开发平台,以及英特尔力推的oneAPI。英特尔也推出了英特尔也推出了one API,意在打造跨行业的开放软件生态意在打造跨行业的开放软件生态。Intel one API是一个跨行业、开放、标准统一、简化的编程模型,旨在促进社区和行业合作、简化跨多架构的开发过程、解决跨体系及供应商代码重用,为跨 CPU、GPU、FPGA、专用加速器的开发者提供统一的开发体验。包括了on
86、eAPI标准组件如直接编程工具、含有一系列性能库的基于API的编程工具,以及先进的分析、调试工具等组件。目前对于目前对于AMD和和Intel,解决应用问题都是通过工具帮助将解决应用问题都是通过工具帮助将 CUDA 代码转换成自己的编程模型代码转换成自己的编程模型,从而能够针对从而能够针对 CUDA 环境的代码编译环境的代码编译。资料来源:ROCm平台及HIP介绍Charles RenCSDNAMD推出的推出的ROCm与英伟达与英伟达CUDA的对比的对比Intel one API 3.2.3 其他生态:其他生态:AMD和和Intel都推出自主生态,但都无法摆脱都推出自主生态,但都无法摆脱CUDA
87、资料来源:Intel官网3131国内厂商:多采用指令翻译兼容国内厂商:多采用指令翻译兼容CUDA及及ROCm生态生态,同时也在构建自主生态同时也在构建自主生态。壁仞目前兼容主流的GPU生态(CUDA),与客户现有的基础设施做到高度的兼容,方便客户的迁移。也推出了自主的BIRENSUPA软件平台和编程模型,该平台构建在BR100系列产品的底层硬件之上,由驱动层、编程平台、框架层、应用解决方案构成,支持各类应用场景。沐曦专注研发全兼容CUDA及ROCm生态的国产高性能GPU芯片,满足HPC、数据中心及AI等方面的计算需求。海光DCU协处理器全面兼容ROCm GPU计算生态,由于ROCm和CUDA在
88、生态、编程环境等方面具有高度的相似性,CUDA用户可以以较低代价快速迁移至ROCm平台。天数智芯GPGPU计算芯片主要针对云端AI训练+推理和云端通用计算,是国内量产的唯一兼容CUDA等异构计算生态的数据中心高端计算芯片。由于由于CUDA的闭源特性的闭源特性,以及快速的更新以及快速的更新,后来者很难通过指令翻译等方式完美兼容后来者很难通过指令翻译等方式完美兼容,即使部分兼容也会有较大的性能损失即使部分兼容也会有较大的性能损失,导致在性价比上持续落导致在性价比上持续落后后NVIDIA。另一方面另一方面,CUDA毕竟是毕竟是NVIDIA的专属软件栈的专属软件栈,包含了许多包含了许多NVIDIA G
89、PU硬件的专有特性硬件的专有特性,这部分在其他厂商的芯片上并不能得到体现这部分在其他厂商的芯片上并不能得到体现。因此对于国内厂商来说因此对于国内厂商来说,还是需要构建自主的软硬件生态还是需要构建自主的软硬件生态。资料来源:AMD官网资料来源:壁仞科技发布会AMD ROCm兼容兼容CUDA的方案的方案壁仞壁仞BIRENSUPA可实现现有可实现现有GPU代码平滑迁移代码平滑迁移3.2.4 国内厂商目前多采用指令翻译兼容国内厂商目前多采用指令翻译兼容CUDA,同时也在构建自主生态,同时也在构建自主生态目录目录CONTENTS321.ChatGPT是什么是什么2.GPGPU是什么是什么3.GPGPU的
90、壁垒是什么的壁垒是什么4.GPGPU主要应用场景主要应用场景AI计算和高性能计算计算和高性能计算5.国内国内GPGPU水平水平3333GPU在通用计算领域分为两种应用场景在通用计算领域分为两种应用场景,人工智能人工智能(AI)计算和高性能计算计算和高性能计算(HPC)AI所需的计算力不需要太高精度所需的计算力不需要太高精度。一些AI应用需要处理的对象是语音、图片或视频,运行低精度计算甚至整型计算即可完成推理或训练。智能计算机是一种专用算力,它们在推理或训练等智能计算方面的确表现出色,但由于但由于AI推理或训练一般仅用到单精度甚至半精度计算推理或训练一般仅用到单精度甚至半精度计算、整型计算整型计
91、算,多数智能计算机并不具备高精度数值计算能力,这也限制其在AI计算之外的应用场景使用。英伟达新推出的H100芯片搭载Transformer 引擎,使用每层统计分析来确定模型每一层的最佳精度(FP16 或 FP8),在保持模型精度的同时实现最佳性能,相较于上一代产品提供 9 倍的训练吞吐量,性能提升6倍。高性能计算是一种通用算力高性能计算是一种通用算力,设计目标是提供完备设计目标是提供完备、复杂的计算能力复杂的计算能力,在高精度计算上能力更强在高精度计算上能力更强。应用场景包括行星模拟、分子药物设计等。超级计算机主要测试的是双精度浮点运算能力超级计算机主要测试的是双精度浮点运算能力(FP64)。
92、对比单精度(32位,FP32)、半精度(16位,FP16)以及整数类型(如INT8、INT4)等,数字位数越高数字位数越高,意味着人们可以在更大范围内的数值内体现意味着人们可以在更大范围内的数值内体现0/1两个数值的变化两个数值的变化,从而实现更精确计算从而实现更精确计算。资料来源:英伟达官网资料来源:英伟达官网NVIDIA的的AI计算应用场景计算应用场景NVIDIA的高性能计算应用场景的高性能计算应用场景4.1 GPGPU在计算领域应用:在计算领域应用:AI计算和高性能计算计算和高性能计算3434根据部署的位置不同根据部署的位置不同,AI芯片可以分为:云端芯片可以分为:云端AI芯片芯片、终端
93、终端AI芯片芯片。云端,即数据中心,在深度学习的训练阶段需要极大的数据量和大运算量,单一处理器无法独立完成单一处理器无法独立完成,因此训练环节只能在云端实现因此训练环节只能在云端实现。终端,即手机、安防摄像头、汽车、智能家居设备、各种IoT设备等执行边缘计算的智能设备。终端的数量庞大终端的数量庞大,而且需求差异较大而且需求差异较大。根据承担任务的不同根据承担任务的不同,AI芯片可以分为:用于构建神经网络模型的芯片可以分为:用于构建神经网络模型的训练芯片训练芯片,利用神经网络模型进行推理预测的利用神经网络模型进行推理预测的推理芯片推理芯片。训练,是指通过大数据训练出一个复杂的神经网络模型,即用大
94、量标记过的数据来“训练”相应的系统,使之可以适应特定的功能。训训练需要极高的计算性能练需要极高的计算性能,需要较高的精度需要较高的精度,训练芯片受算力约束训练芯片受算力约束,一般只在云端部署一般只在云端部署。推理,是指利用训练好的模型,使用新数据推理出各种结论。即借助现有神经网络模型进行运算借助现有神经网络模型进行运算,利用新的输入数据来一次性获得正确利用新的输入数据来一次性获得正确结论的过程结论的过程,在云端和终端均有部署在云端和终端均有部署。资料来源:英伟达、谷歌官网等,中信证券研究部AI芯片的分类和芯片的分类和AI应用场景应用场景4.1 应用场景一应用场景一AI计算计算训练端推理端GPU
95、:以英伟达为主,AMD为辅,标榜通用性,多维计算及大规模并行计算架构契合深度学习的需要。在深度学习上游训练端(主要用在云计算数据中心里),GPU是当仁不让的第一选择。GPU:英伟达从18年开始通过T4芯片等布局推理端到边缘计算。深度学习下游推理端则更重视低功耗和低延迟,对算力的要求较低,在市场蛋糕变大的同时,逐步形成GPU向推理端渗透,与ASIC和FPGA共同繁荣发展的格局。ASIC:以谷歌的TPU为代表,包括英特尔、寒武纪、亚马逊、华为等公司均在自行研发。针对特定框架进行深度优化定制。但开发周期较长,通用性较低。比特币挖矿目前使用ASIC专门定制化矿机。ASIC:下游推理端更接近边缘设备,需
96、求也更加细分,英伟达的DLA,寒武纪的NPU、地平线的旭日和征程系列、华为昇腾系列等逐步面市,将依靠特定优化和效能优势,未来在深度学习领域分一杯羹。CPU:通用性强,但难以适应于人工智能时代大数据并行计算工作。FPGA:依靠可编程性及电路级别的通用性,适用于开发周期较短的IoT产品、传感器数据预处理工作以及小型开发试错升级迭代阶段等。但较成熟的量产设备多采用ASIC。3535AI芯片被称为芯片被称为AI加速器或计算卡加速器或计算卡,即专门用于加速即专门用于加速AI应用中的大量计算任务的模块应用中的大量计算任务的模块(其他非计算任务仍由其他非计算任务仍由CPU负责负责),面向面向AI计算应用的计
97、算应用的芯片都可以称为芯片都可以称为AI芯片芯片,包括包括GPU、FPGA、ASIC等等。因为因为CPU是图灵完备的是图灵完备的,可以自主运行可以自主运行,因此因此,存在基于多核存在基于多核CPU组成的组成的CPU芯片是同构并行的芯片是同构并行的。但是但是,GPU、FPGA、DSA、ASIC等等处理引擎处理引擎/芯片是非图灵完备的芯片是非图灵完备的,都是作为都是作为CPU的加速器而存在的加速器而存在。因此因此,其他处理引擎的并行计算系统即为其他处理引擎的并行计算系统即为CPU+xPU的异构并行的异构并行,大体分大体分为三类:为三类:CPU+GPU。CPU+GPU是目前最流行的异构计算系统是目前
98、最流行的异构计算系统,在在HPC、图形图像处理以及图形图像处理以及AI训练训练/推理等场景得到广泛应用推理等场景得到广泛应用。CPU+FPGA。目前数据中心流行的FaaS服务,目前目前FPGA通常以加速卡的形式配合现有的通常以加速卡的形式配合现有的CPU进行大规模部署进行大规模部署。FPGA的功耗通常为几十瓦,对额外的供电和散热等环节没有特殊要求,因此可以兼容数据中心的现有硬件基础设施。CPU+DSA。谷歌TPU是第一个DSA架构处理器,TPUv1采取独立加速器的方式,实现CPU+DSA(TPU)的方式实现异构并行。由于ASIC功能固定,缺乏一定的灵活适应能力,因此不存在不存在CPU+单个单个
99、ASIC的异构计算的异构计算。CPU+ASIC形态通常是形态通常是CPU+多个多个ASIC组组,或在SOC中,作为一个逻辑上独立的异构子系统存在的,需要与其他子系统协同工作。资料来源:老石谈芯微信公众号,中信证券研究部CPU、GPU、FPGA和和ASIC的特性对比的特性对比4.1.1 AI芯片的三种较为主流的技术路线芯片的三种较为主流的技术路线GPU、FPGA和和ASIC低功耗低成本同构性性能灵活性CPUGPUASICFPGA典型的用于机器学习场景的典型的用于机器学习场景的GPU服务器主板服务器主板DGX-1拓扑结构拓扑结构资料来源:英伟达,DGX系列服务器Arcing博客园3636FPGA没
100、有极致的性能特点与量产单价高是其未来发展的瓶颈没有极致的性能特点与量产单价高是其未来发展的瓶颈,更适合用于细分更适合用于细分、快速变化的垂直行业快速变化的垂直行业,应用面上较为狭窄应用面上较为狭窄。优点:优点:1.突破冯诺依曼结构,可直接实现算法,没有指令译码和解读的过程,功效能耗比是功效能耗比是CPU的的10倍以上倍以上、GPU的的3倍倍,处理速度和效率要高于GPU。2.可编译,灵活性很高,开发周期短。FPGA具有可编辑性,用户可以根据自身需求实现芯片功能的转换。基于FPGA灵活编译的特点,其开发周期较短其开发周期较短,上市速度快上市速度快。FPGA更适合处理多指令流单数据流更适合处理多指令
101、流单数据流,从而适应于推理阶段从而适应于推理阶段。缺点缺点:1.价格较高,规模量产后的单价更是远高于ASIC。目前FPGA的造价相比GPU更为高昂,如果规模量产后,其不像ASIC可以分摊固定成本,存在单个芯片的编译成本,所以单价远高于ASIC。2.计算能力和峰值性能不如计算能力和峰值性能不如GPU。3.灵活性占优的同时牺牲了速度与能耗。效率和功耗上劣于专用芯片ASIC。4.FPGA的语言技术门槛较高。目前FPGA的设置要求用户用硬件描述语言对其进行编程,需要专业的硬件知识,具有较高的技术门槛。FPGA应用于硬件平台加速应用于硬件平台加速、数据中心和云端深度学习预测数据中心和云端深度学习预测。F
102、PGA兼具较高的性能和灵活性,加上低能耗的特点,适用于硬件平台的加速。比如微软开发了带有FPGA芯片的主板来提升Bing数据中心的整体性能,相比于传统相比于传统CPU在处理在处理Bing的自定义算法时快出的自定义算法时快出40倍倍。资料来源:BittWare Nallatech 520N Network Acceleration CardNallatech公司资料来源:What is FPGAHow Does it Work and its UsesLattice官网4.1.2 FPGA更适合处理多指令流单数据流,从而适应于推理阶段更适合处理多指令流单数据流,从而适应于推理阶段Nallatec
103、h的的 FPGA 加速器方案,采用了英特尔加速器方案,采用了英特尔Stratix 10芯片芯片FPGA内部结构图内部结构图3737ASIC效率高效率高、功耗比佳功耗比佳,但量产前成本高但量产前成本高,适用智能终端和适用智能终端和AI训练和推理平台训练和推理平台。优点优点:1.性能上的优势非常明显性能上的优势非常明显,具有最高的功效能耗比具有最高的功效能耗比。ASIC是专业AI芯片,相比GPU和FPGA没有多余的面积或架构设计,可以实现最快的通信效率与计算速度,实现最低的能耗。2.下游需求促进人工智能芯片专用化下游需求促进人工智能芯片专用化。随着人工智能的发展和下游智能终端的普及,AI芯片需求大
104、幅上升,而出于对信息隐私保护和云端计算需要联网的考虑,完全依赖云端是不现实的,需要有要有本地的软硬件基础平台支撑,所以专有化的AI芯片有很大的优势。缺点缺点:1.造价昂贵,需要保证量产才能降低成本。2.一种算法只能应对一种应用;一颗一种算法只能应对一种应用;一颗AI芯片只能单一地解决一种问题;芯片只能单一地解决一种问题;而算法在不断演变,每36个月就可能变一次;ASIC芯片或许尚未上市,算法就已经发生进化了。ASIC芯片应用于人工智能平台和智能终端人工智能平台和智能终端。ASIC芯片由于其定制化的特点,具有功能的多样性,应用非常广泛。高性能和低功效使其不再局限于深度学习的训练或推理阶段的其中之
105、一,而是可以作为支撑人工智能平台全阶段加速的芯片可以作为支撑人工智能平台全阶段加速的芯片。资料来源:Jouppi et al.,Ten Lessons From Three Generations Shaped Googles TPUv4i,ISCA,2021资料来源:谷歌官网谷歌谷歌TPU的发展历史及算力情况的发展历史及算力情况谷歌谷歌TPU芯片布局图芯片布局图4.1.2 ASIC芯片可以用作人工智能平台训练、推理的芯片芯片可以用作人工智能平台训练、推理的芯片3838DSA通用化:目前的趋势是通用化:目前的趋势是,GPU融合融合DSA(Domain Specific Architecture
106、,领域专用架构领域专用架构)于通用架构于通用架构。但他们是在核心融合但他们是在核心融合,而不是在芯片上而不是在芯片上层异构化层异构化。一个DSA设计的硬件资源平均分布到每个运算单元,以特殊指令或是程序呼叫的方式引用,成为各单元通用计算核心的一部分,不在芯片最上层成为一个独立处理器,而是原可编程生态的自然延伸,不影响原先的编程方式。在提升效能的同时,持续强化通用优势,这使得GPU的通用计算效率处于AI芯片中的领先地位。英伟达英伟达H100以以“非同步执行非同步执行”(Asynchronous Execution)提升通用计算效率提升通用计算效率。因因AI算法的多样性及快速演进算法的多样性及快速演
107、进,非同步执行技术方向的终极目标非同步执行技术方向的终极目标是要填补通用与专用之间的能效差距是要填补通用与专用之间的能效差距,让让GPU的通用计算效率接近的通用计算效率接近ASIC的专用效率的专用效率。计算图形化:图形管线是专用管线的代表。虽然中间数个节点已被跑在通用算力池的着色器(Shader)程序取代,它的管线结构依然存在。非同步执行以不浪费时间等待数据传输来接近专用管线的效率。面对后摩尔定律时代的到来,通用计算借取通用计算借取ASIC风格的专用管线是条必须走下去的路线风格的专用管线是条必须走下去的路线。资料来源:我看英伟达H100 GPU吕坚平天数智芯官网资料来源:软硬件融合微信公众号谷
108、歌的谷歌的TPU DSA架构对比架构对比GPU融合融合DSA架构架构计算架构从串行到并行,从同构到异构再到超异构计算架构从串行到并行,从同构到异构再到超异构4.1.3 未来趋势:未来趋势:GPU融合融合DSA,让,让GPU的通用计算效率接近的通用计算效率接近ASIC的专用效率的专用效率3939高性能计算高性能计算(HPC)是指通过聚合计算能力来提供比传统计算机和服务器更强大的计算性能是指通过聚合计算能力来提供比传统计算机和服务器更强大的计算性能。它能够通过聚合结构它能够通过聚合结构,使用多台计算机和存储使用多台计算机和存储设备设备,以极高速度处理大量数据以极高速度处理大量数据,帮助人们探索科学
109、帮助人们探索科学、工程及商业领域中的一些世界级的重大难题工程及商业领域中的一些世界级的重大难题。GPGPU在图形在图形GPU的基础上进行了优化设计的基础上进行了优化设计,使之更适合高性能并行计算使之更适合高性能并行计算,加上加上CUDA多年来建立的完整生态系统多年来建立的完整生态系统,其在性能其在性能、易用性和易用性和通用性上比图形通用性上比图形GPU更加强大更加强大。基于这种特性,GPGPU将应用领域扩展到图形之外,在自动驾驶、智慧医疗、生命科学、深度学习、云计算、数据处理、金融等方面均得到广泛应用,关于它的科研成果和新应用模式也层出不穷。GPU给计算机提供了强大的数值计算的能力。资料来源:
110、高性能计算与AI大融合,如何颠覆科学计算Jack Dongarra51CTO资料来源:高性能计算与AI大融合,如何颠覆科学计算Jack Dongarra51CTO高性能计算广泛应用于科研仿真高性能计算广泛应用于科研仿真高性能计算的载体高性能计算的载体超算中心超算中心4.2 应用场景二应用场景二高性能计算(高性能计算(HPC)4040HPC主要有主要有CPU和和GPU两种类型的处理器两种类型的处理器,未来或将采用更多不同的单元未来或将采用更多不同的单元,比如比如FPGA、ML加速器和加速器和ASIC芯片等等芯片等等。串行处理,由中央处理器(CPU)完成。每个 CPU 核心通常每次只能处理一个任务
111、。并行处理,可利用多个 CPU 或GPU 完成,GPU 可在数据矩阵(如屏幕像素)中同时执行多种算术运算。超级计算机是计算机中功能最强超级计算机是计算机中功能最强、运算速度最快运算速度最快、存储容量最大的一类计算机存储容量最大的一类计算机,多用于国家高科技领域和尖端技术研究多用于国家高科技领域和尖端技术研究,是一个国家科研实力的体现是一个国家科研实力的体现。从近三十年间全球超级计算机从近三十年间全球超级计算机TOP500的性能变化情况可以发现的性能变化情况可以发现,超算性能近乎保持着指数级的增长速度超算性能近乎保持着指数级的增长速度。如今日常所用的MacBook的性能,比1993年当时世界上最
112、先进的超级计算机的性能还要强大。现在,为了实现 1 百亿亿次级 FLOPS(EFLOPS)的超级计算机处理性能,大概需要 5,000,000 个台式机。2022年6月的数据显示,全球排名前10的超级计算机当中,有5个来自美国,有2个来自中国(分别位于无锡和广州),其余3个来自芬兰、日本和法国。2021年年,全球最快超级计算机全球最快超级计算机TOP500榜单中榜单中,近近70的机器的机器(包括排在前包括排在前10名中的名中的8台台)均采用了均采用了NVIDIA技术技术。资料来源:高性能计算与AI大融合,如何颠覆科学计算Jack Dongarra51CTO资料来源:AMD官网近三十年间全球超级计
113、算机近三十年间全球超级计算机TOP500的性能变化的性能变化超级计算机算力增长趋势超级计算机算力增长趋势4.2.1 全球超算算力指数及增长,全球超算算力指数及增长,GPU多采用多采用NVIDIA产品产品4141HPC和和AI计算有着即相似又不同的特性计算有着即相似又不同的特性。HPC属于数字计算密集型,通常输入有限的数据输入有限的数据,经过非常大量的数字计算,输出大量的数据输出大量的数据。AI计算进行高性能数据处理(HPDA)通常需要输入大量的数据输入大量的数据,输出的却是相对比较少的数据输出的却是相对比较少的数据。两者使用的数据精度也不同,在科学仿真等高性能计算场景下通常使用64比特浮点数据
114、(FP64),而在AI计算场景下会使用16比特浮点数据(FP16)。高性能计算和高性能计算和AI计算可以非常有效地进行联合计算可以非常有效地进行联合,加速计算正在助力研究人员更快取得重大科学突破加速计算正在助力研究人员更快取得重大科学突破。分析方法得到的模型和其他的模型一起可以被用到计算中去;计算产生的数据和其他来源的数据一起可以被用于AI分析。这样就形成了一个相互促进的良性循环。在 AI 的助力下,可在更短时间内获得高精度结果,且可与科学模拟结果相媲美。这一结果已推动 AI 在高性能计算中的应用,包括帮助研究人员在实验室开展研究工作,协助工程师解决复杂的技术问题,以及助力金融分析师利用数学算
115、法作出市场预测。资料来源:高性能计算与AI大融合,如何颠覆科学计算Jack Dongarra51CTO资料来源:阿里云官网高性能计算和高性能计算和AI计算之间的关系计算之间的关系阿里云采用阿里云采用HPC+AI助力新冠药物开发助力新冠药物开发4.2.2 HPC和和AI计算的关系:数据量不同,未来逐渐融合计算的关系:数据量不同,未来逐渐融合4242现阶段算力规模重点包括基础算力现阶段算力规模重点包括基础算力、智能算力和超算算力三部分智能算力和超算算力三部分,分别提供基础通用计算分别提供基础通用计算、人工智能计算和科学工程计人工智能计算和科学工程计算算基础通用算力主要是基于 CPU 芯片的服务器所
116、提供的计算能力;智能算力主要是基于 GPU、FPGA、ASIC 等芯片的加速计算平台提供人工智能训练和推理的计算能力;超算算力主要是基于超级计算机等高性能计算集群所提供的计算能力。2021年年,我国我国算力核心产业规模达算力核心产业规模达1.5万亿万亿,关联产业规模超过关联产业规模超过8万亿万亿。截至2022年6月底,我国在用数据中心机架总规模超过590万标准机架,服务器规模近2000万台,算力总规模超过150 EFLOPS,位于全球第2。数据来源:中国信息通信研究院数据来源:中国信息通信研究院,IDC算力指数计算的构成算力指数计算的构成全球算力规模分布情况全球算力规模分布情况4.2.3 中国
117、超算事业快速发展,算力核心产业规模达中国超算事业快速发展,算力核心产业规模达1.5万亿万亿31%36%11%6%16%中国美国欧洲日本其他4343根据根据Hyperion Research报告报告,IT行业的扩张与虚拟化的进步行业的扩张与虚拟化的进步,以及对混合高性能计算解决方案的需求增长推动着全球超以及对混合高性能计算解决方案的需求增长推动着全球超算市场快速发展算市场快速发展。2019年,全球超算市场规模为276.78亿美元,同比增长0.5%;2020年,受新冠疫情的影响,部分HPC厂商的关闭与延迟产品出货的原因,市场规模下降至239.81亿美元,同比下降13.4%。CPU及GPU为代表的芯
118、片占据主要的成本。在高性能计算服务器中,芯片成本占比高达 51%,按照超算中GPU价值量占比80%计算,全球超算全球超算GPU市场约为市场约为96亿美元亿美元。根据信通院发布的根据信通院发布的中国算力发展白皮书中国算力发展白皮书,2020年中国超算算力总规模约为年中国超算算力总规模约为2EFlops(换算成换算成FP32),全球占比约为全球占比约为20%,因此我们估算得到因此我们估算得到,2021年中国超算年中国超算GPU市场规模约为市场规模约为19.2亿美元亿美元。数据来源:Hyperion Research,中信证券研究部资料来源:芯八哥芯语,中信证券研究部2015-2020年全球超算市场
119、规模及增速年全球超算市场规模及增速各种服务器成本构成各种服务器成本构成4.2.4 中国超算中国超算GPU市场规模超过市场规模超过19亿美元亿美元231.21224.39242.73275.46276.78239.81-2.95%8.17%13.48%0.48%-13.36%-15%-10%-5%0%5%10%15%20022502602702802902001820192020市场规模(亿规模)YoY0%20%40%60%80%100%机器学习服务器推理服务器高性能服务器基础服务器CPU、GPU内存、硬盘其他4444过往来看过往来看,美国已经对中国超
120、算多次限制美国已经对中国超算多次限制。2015年中国“天河二号”项目相关的4家中国机构被美国列入“实体清单”;2019年,海光、中科曙光、无锡江南计算技术研究所等5家进入实体清单;2021年,飞腾、申威等7家超算机构进入实体清单。根据根据澎湃在澎湃在2011年年,国内就完成了国内就完成了“神威蓝光神威蓝光”超算的研制超算的研制,这款超算的性能在同时期不突出这款超算的性能在同时期不突出,新闻新闻,目前国内顶级超算多采用自主设计目前国内顶级超算多采用自主设计研发的加速器芯片研发的加速器芯片,实现芯片的国产化实现芯片的国产化。但胜在超算芯片完全自主设计。在2016年,采用SW26010的“神威太湖之
121、光神威太湖之光”正式亮相,成为全球首个100P级超算,并连续4次蝉联TOP500第一名。另外,天河超算在超算芯片上也使用了自主设计的加速器取代了英特尔的加速器,天河2号使用国产加速器升级之后,性能提升了70%以上。“天河三号天河三号”原型机采用自主的飞腾处理器原型机采用自主的飞腾处理器、天河高速互联通信和麒麟操作系统天河高速互联通信和麒麟操作系统,实现了芯片的全国产化实现了芯片的全国产化。资料来源:澎湃网资料来源:神威太湖之光简介WerderyCSDN天河三号超算原型机天河三号超算原型机申威申威26010处理器组成的超算系统处理器组成的超算系统4.2.5 美国对中国超算多次限制,目前国内顶级超
122、算多采用自主设计美国对中国超算多次限制,目前国内顶级超算多采用自主设计研发的加速器研发的加速器4545根据招标采购信息根据招标采购信息,高校和研究机构高校和研究机构,对英伟达标志性的对英伟达标志性的A100芯片依赖度较高芯片依赖度较高。清华大学2021年10月斥资超过40万美元购买了两台英伟达AI超级计算机,每台由四颗A100芯片驱动。同月,中国科学院计算技术研究所在A100芯片上花费了约25万美元。今年7月,中科院人工智能学院也在高科技设备上花费了约20万美元,其中包括部分由A100芯片驱动的服务器。2021年11月,广东暨南大学网络安全学院在英伟达AI超级计算机上花费了超过93000美元,
123、而其智能系统科学与工程学院仅在今年8月就花费了近10万美元购买了8个A100 GPU板卡,单价为8.7万元/片。招标显示,山东、河南和重庆等省市政府支持的研究所和大学也购买了A100芯片。A100价格昂贵价格昂贵,大部分高校科研机构还是比较追求性价比的大部分高校科研机构还是比较追求性价比的,但是但是通过使用多个中低端芯片来复制高端通过使用多个中低端芯片来复制高端A100芯片的处理能力芯片的处理能力,也基本可也基本可以满足高性能计算的要求以满足高性能计算的要求。资料来源:中国政府采购网资料来源:中国政府采购网清华大学招标采购清华大学招标采购A100服务器服务器暨南大学招标采购暨南大学招标采购A1
124、00GPU板卡板卡4.2.6 超级计算超级计算科学研究科学研究4646因为云服务需要尽可能提升算力因为云服务需要尽可能提升算力,所以中国云服务提供商采用所以中国云服务提供商采用A100来满足各行各业的多样化计算需求来满足各行各业的多样化计算需求。如果禁售如果禁售,对云计算厂商的影响较对云计算厂商的影响较大大,但是如果采用前代或中端产品但是如果采用前代或中端产品V100、A10、T4等等,多个芯片也可以实现相同的计算性能多个芯片也可以实现相同的计算性能。阿里云:基于NVIDIA A100 打造的gn7 GPU系列云服务器,该产品主要面向AI训练和高性能计算高性能计算应用,可提供新一代GPU计算实
125、例。相比上一代平台实现最高20倍的AI性能,以及2.5倍的高性能计算速度。百度智能云:基于NVIDIA A100打造的云服务器以及裸金属服务器产品,最高将搭载8块 NVIDIA A100 GPU,主要面向AI训练/推理、高高性能计算性能计算应用、科学计算科学计算等场景。基于A100 TF32新技术,百度新一代GPU云服务器提供20倍于 V100 FP32云服务器的计算能力。滴滴云:A100裸金属服务器配置了8块NVIDIAA100 GPU、适用于AI、数据分析、高性能计算高性能计算等多种应用场景。腾讯云:搭载NVIDIA A100的GPU云服务器GT4,适用于深度学习训练、推理、高性能计算高性
126、能计算、数据分析、视频分析等领域,可提供更高性能的计算资源,从而进一步降低使用成本,帮助企业、高校及研究人员聚焦模型的优化与创新。资料来源:百度智能云官网资料来源:腾讯云官网百度智能云搭载的百度智能云搭载的A100产品产品腾讯云搭载的腾讯云搭载的A100产品产品4.2.7 超级计算超级计算云计算云计算4747美国政府对高端美国政府对高端GPGPU芯片封锁芯片封锁根据路透社报道根据路透社报道,2022年年8月月31日日,美国政府要求英伟达的美国政府要求英伟达的A100、H100系列和系列和AMD的的MI 250系列及未来的高端系列及未来的高端GPU产品产品,是否可是否可以售卖给中国客户以售卖给中
127、国客户,需要获得美国政府的许可需要获得美国政府的许可。这几款芯片均为用于通用计算的高端GPGPU,通常应用在人工智能计算的云端训练和推理场景和超级计算机中,在中国的客户多为云计算厂商及高校和科研院所。据我们测算,2021年中国GPGPU市场规模为149.8亿元,其中人工智能推理/人工智能训练/高性能计算分别为93.5/47.1/9.1亿元,本次主要受到影响的是人工智能训练本次主要受到影响的是人工智能训练/高性能计算应用高性能计算应用,合计约合计约56.2亿元的市场亿元的市场。如何应对封锁如何应对封锁?在需要大量算力的人工智能的训练端和高性能计算中:在需要大量算力的人工智能的训练端和高性能计算中
128、:短期来看,选择英伟达和AMD的还没有被禁止的中低性能GPU芯片。对于云端计算,算力既可以通过产品升级得以提升,也可以通过增加计算卡的数量进行提升,因此短期内可以通过使用多个算力较低的短期内可以通过使用多个算力较低的CPU、GPU和和ASIC芯片来复制高端芯片来复制高端GPU芯片的处理芯片的处理能力能力,基本可以满足云端训练和高性能计算的要求基本可以满足云端训练和高性能计算的要求。长期来看,选择国产GPU进行替代。虽然芯片是算力的主要来源和最根本的物质基础,但是算力的生产、聚合、调度和释放是一个完整过程,需要复杂系统的软硬件生态共同配合,才能实现“有效算力”。因此短期内可能会因为无法兼容在人工
129、智能领域广泛使用的CUDA架构而遭遇替换困难,但是长期来看长期来看,国产国产CPU、通用通用GPU、AI芯片将获得前所未有的发展机会芯片将获得前所未有的发展机会,通过软硬件技通过软硬件技术提升术提升,逐步实现高端逐步实现高端GPU领域的国产化替代领域的国产化替代。对于不需要太强算力的推理端对于不需要太强算力的推理端GPU芯片:芯片:以往通常采用中低端计算芯片,例如NVIDIA Tesla T4、P4、T40等产品,暂时没有被禁售的风险。但是,长久来看,FPGA和ASIC的优势逐渐凸显,国产国产FPGA和和ASIC芯片产品目前已经运用到云计算厂商中芯片产品目前已经运用到云计算厂商中,未来有望实现
130、推理端替代未来有望实现推理端替代。4.3 美国对华禁令如何应对?美国对华禁令如何应对?4848AI训练端和超级计算需要强大的算力支持训练端和超级计算需要强大的算力支持,因此计算能力强的因此计算能力强的GPU仍是第一选择仍是第一选择。目前目前GPU的市场格局以英伟达为主的市场格局以英伟达为主,AMD为辅为辅,预计未来几年预计未来几年GPU仍然是深度学仍然是深度学习市场的第一选择习市场的第一选择。但是但是,因为因为AI训练并不是必须要高精度浮点运算训练并不是必须要高精度浮点运算,目前目前NVIDIA的的H100的的FP8运算的计算在速度和精度上取得平衡运算的计算在速度和精度上取得平衡,基本上和基本
131、上和FP16/BF16达到一致的精度达到一致的精度。随着随着ASIC芯片的算力逐渐增强芯片的算力逐渐增强,在训练端的应用场景也逐渐增多在训练端的应用场景也逐渐增多。对于禁令对于禁令,我们预计有两种应对方案:我们预计有两种应对方案:短期来看短期来看,可用英伟达和可用英伟达和AMD的还没有被禁止的的还没有被禁止的、以及国产厂商的中高计算性能以及国产厂商的中高计算性能CPU、GPU、ASIC芯片芯片。对于云端计算,算力既可以通过产品升级得以提升,也可以通过增加计算卡的数量进行提升,因此短期内可以通过使用多个中低端芯片来复制高端GPU芯片的处理能力,基本可以满足云端训练要求。长期来看长期来看,改用国产
132、品牌改用国产品牌(天数智芯天数智芯、壁仞科技壁仞科技、寒武纪寒武纪、燧原科技燧原科技、沐曦沐曦、摩尔线程等摩尔线程等)的的ASIC、GPU芯片进行国产化替代芯片进行国产化替代。虽然芯片是算力的主要来源和最根本的物质基础,但是算力的生产、聚合、调度和释放是一个完整过程,需要复杂系统的软硬件生态共同配合,才能实现“有效算力”。短期内可能会因为无法兼容在人工智能领域广泛使用的短期内可能会因为无法兼容在人工智能领域广泛使用的CUDA架构而遭遇替换困难架构而遭遇替换困难,但是长期来看但是长期来看,随着生态的逐渐补课随着生态的逐渐补课,国产通用国产通用GPU、ASIC芯片将获得前所未芯片将获得前所未有的发
133、展机会有的发展机会,通过软硬件技术提升通过软硬件技术提升,逐步实现逐步实现AI训练芯片的国产化替代训练芯片的国产化替代。资料来源:阿里云,中信证券研究部资料来源:英伟达论坛阿里云推出的搭载阿里云推出的搭载NVIDIA A100的的GPU云服务器云服务器FP8 基本上和基本上和FP16/BF16 达到达到 一致的精度一致的精度4.3.1 云训练云训练/超算:短期超算:短期CPU、ASIC、中低端、中低端GPU替代,长期国产化替代替代,长期国产化替代4949下游推理端更接近终端应用下游推理端更接近终端应用,更关注响应时间而不是吞吐率更关注响应时间而不是吞吐率,考虑的因素更加综合:单位功耗算力考虑的
134、因素更加综合:单位功耗算力、时延时延、成本等成本等。除了主流的除了主流的GPU芯片芯片之外之外,下游推理端可容纳下游推理端可容纳FPGA、ASIC等芯片等芯片。除了Nvidia、Google、Xilinx(AMD)、Altera(Intel)等传统芯片大厂涉足云端推理芯片以外,Wave computing、Groq 等初创公司也加入竞争;中国公司里,寒武纪、比特大陆、燧原科技等同样积极布局云端芯片业务。竞争态势中GPU依然占大头,但随着AI的发展,FPGA的低延迟的低延迟、低功耗低功耗、可编程性可编程性(适用于传感器数据预处理工作以及小型开发试错适用于传感器数据预处理工作以及小型开发试错升级迭
135、代阶段升级迭代阶段)和和ASIC的特定优化和效能优势的特定优化和效能优势(适用于在确定性执行模型适用于在确定性执行模型)将凸显出来将凸显出来。对于推理端对于推理端GPU芯片来说芯片来说,因为不需要太强的算力因为不需要太强的算力,所以通常采用中低端计算芯片所以通常采用中低端计算芯片,例如例如NVIDIA Tesla T4、P4、T40等产品等产品,暂时没有被暂时没有被禁售的风险禁售的风险。但是但是,长久来看长久来看,FPGA和和ASIC的优势逐渐凸显的优势逐渐凸显,国产国产FPGA和和ASIC芯片产品目前已经运用到云计算厂商中芯片产品目前已经运用到云计算厂商中,未来有望实现未来有望实现推理端替代
136、推理端替代。资料来源:英伟达官网资料来源:寒武纪官网NVIDIAAI计算芯片的主要云服务客户计算芯片的主要云服务客户寒武纪的主要云服务客户及合作伙伴寒武纪的主要云服务客户及合作伙伴4.3.2 云推理:云推理:ASIC和和FPGA加速替代加速替代GPU目录目录CONTENTS501.ChatGPT是什么是什么2.GPGPU是什么是什么3.GPGPU的壁垒是什么的壁垒是什么4.GPGPU主要应用场景主要应用场景5.国内国内GPGPU发展水平发展水平落后海外落后海外510年,多点开花寻求突破年,多点开花寻求突破5151大陆的先进工艺设计大陆的先进工艺设计(16nm及以下及以下)集中于集中于AI芯片芯
137、片(包含云端及智能驾驶芯片包含云端及智能驾驶芯片)、交换机芯片交换机芯片、CPU/GPU/DPU、矿机矿机ASIC领域领域,这些领域各有一些这些领域各有一些头部企业走在前列头部企业走在前列,但鲜有企业能够进入个位数先进制程但鲜有企业能够进入个位数先进制程。GPGPU和和AI芯片因为去掉了图形渲染功能芯片因为去掉了图形渲染功能,功能相对单一功能相对单一,设计起来复杂度及难度较低设计起来复杂度及难度较低。先进制程芯片的设计成本大幅增加。设计一颗28nm芯片成本约5000万美元,而7nm芯片需要3亿美元,5nm则需要5.42亿美元。若以麒麟的5nm工艺来对标,除了矿机ASIC中的比特大陆推出了基于最
138、先进的5nm的矿机芯片,平头哥发布了自研5nm服务器芯片倚天710,中兴通讯的7nm芯片已实现商用正在研发5nm芯片之外,其他领域快的如有些国内自动驾驶芯片公司要量产7nm智能座舱芯片,互联网巨头的一些AI芯片在向5nm迈进,CPU/GPU/DPU领域大多企业还只是领域大多企业还只是规划向规划向5nm迈进迈进,大多数节点还在大多数节点还在16nm或或10nm之上之上,真正实现真正实现5nm芯片量产的较少芯片量产的较少。目前国内目前国内GPGPU芯片的先进制程多集中在芯片的先进制程多集中在7nm,例如已经量产的天数智芯例如已经量产的天数智芯“天垓天垓100”,已经推出的壁仞已经推出的壁仞BR10
139、0、沐曦沐曦MXN;此外;此外,芯动科技的芯动科技的“风风华一号华一号”以及摩尔线程的以及摩尔线程的MTT S2000采用采用12nm制程制程。对比已经进入对比已经进入4nm时代的英伟达时代的英伟达 H100还有较大差距还有较大差距。资料来源:International Business Strategies(IBS)产品型号产品型号产品类型产品类型推出时间推出时间制造工艺制造工艺封装工艺封装工艺华为昇腾910ASIC20187nm寒武纪思元370ASIC20217nmChiplet天数智芯天垓100GPU20217nm2.5D CoWoS海光深算一号DCU20217nm壁仞BR100-OAM
140、GPU20227nm2.5D CoWoS壁仞BR104-300W PCleGPU20227nm2.5D CoWoS随着制程节点的提升,开发芯片所需要的资金显著提高随着制程节点的提升,开发芯片所需要的资金显著提高目前采用目前采用7nm工艺的国产工艺的国产AI芯片产品芯片产品5.1 制造:目前国内制造:目前国内AI芯片先进工艺多集中在芯片先进工艺多集中在7nm,国际大厂已经来到,国际大厂已经来到4nm资料来源:各公司官网,中信证券研究部5252按功能划分按功能划分,GPU主要分为侧重图形图像的渲染主要分为侧重图形图像的渲染GPU和侧重通用计算的和侧重通用计算的GPGPU。目前国内GPGPU公司包括
141、壁仞壁仞、沐曦沐曦、天数智芯天数智芯、红山微电子红山微电子等;图形渲染GPU企业包括景嘉微景嘉微、芯动科技芯动科技、摩尔线程摩尔线程、格兰菲格兰菲等。渲染GPU约80%仍是GPGPU部分,20%则是固定渲染部分(fixed function)。图形GPU因为经过了十几年的演化进程,流水线长,实现起来复杂,设计上的挑战更大,同时存在很多专利陷阱,涉及较多的数学公式,因此比较依靠编译器和驱动等软件能力因此比较依靠编译器和驱动等软件能力;GPGPU在硬件和应用层面较为复杂在硬件和应用层面较为复杂。GPU生态是除产品外初创企业能否活下来的重要因素生态是除产品外初创企业能否活下来的重要因素。渲染GPU在
142、技术层面来相对复杂,但是好处在于有很多业界成熟的标准的API,如OpenGL、OpenGL ES、DirectX、Vulkan等,核心是打通驱动程打通驱动程序层和编译器生态序层和编译器生态。而GPGPU领域几乎是被英伟达一手打造的领域几乎是被英伟达一手打造的CUDA生态所垄断生态所垄断。易于编程和性能的巨大飞跃是 CUDA 平台被广泛采用的关键原因之一。CUDA 平台成功的第二大原因是拥有广泛而丰富的生态系统。资料来源:兴旺投资图形渲染图形渲染GPU和和AI芯片的软硬件开发难度对比芯片的软硬件开发难度对比GPGPU领域,英伟达的领域,英伟达的CUDA具有巨大的护城河具有巨大的护城河5.2 生态
143、:生态:GPGPU难点在生态布局,目前市场几乎被难点在生态布局,目前市场几乎被CUDA垄断垄断资料来源:英伟达,奔跑的小蘑菇 CSDN5353自研自研IP越多越多,芯片设计上越有把握芯片设计上越有把握,产品的差异化更明显产品的差异化更明显。但相对而言但相对而言,资金资金、人员人员、时间上的成本投入也更高时间上的成本投入也更高。GPU IP自研需要自研需要36-48个月以及个月以及200个工程师个工程师,而采用外购IP的方式,可以减少12-18个月开发周期。据集微网报道,GPU 的IP主要涉及三大类,一是模拟IP,包括PCIe、Displayport和HDMI等等,这方面国内厂商占有率较低;二是
144、Memory;三是数字IP,包括基于Arm或RISC-V的微控制器IP、编解码芯片IP以及最核心的GPU IP等。核心核心IP国内有国内有Imagination、芯原芯原、格兰菲等厂商格兰菲等厂商。根据集微网报道,相对而言,Imagination认可度较高,芯原是后起之秀,格兰菲则主要面向特定领域用户,目前整体和国际厂商还有较大差距,在此过程需要技术沉淀形成自主IP积累才能具有一定替代性。我们看来,国内信创和工业市场需求庞大,在当前阶段对于国内IP厂商和GPU厂商来说是一个构建自主生态的机会。资料来源:中信证券研究部绘制资料来源:Imagination官网芯片设计和制造流程芯片设计和制造流程中
145、资控股的中资控股的Imagination的典型的典型GPGPU IP5.3 IP:国内核心:国内核心IP厂商,追赶国际厂商厂商,追赶国际厂商芯片设计芯片设计制造代工制造代工封测封测整机厂商整机厂商EDAIP材料、化学品掩膜制造设备IDM5454产品型号产品型号推出时间推出时间 制造工艺制造工艺支持支持API时钟频率时钟频率(MHz)显存带宽显存带宽(GB/s)显存容量显存容量(GB)像素填充率像素填充率(GPixels/s)浮点性能浮点性能(FP32)AI运算性能运算性能(INT8)功耗功耗景嘉微JM7200201828nmOpenGL 2.013001745.2500GFlops20W(桌面
146、)10W(嵌入式)英伟达GT640201228nm图形:OpenGL 4.3,DirectX 11;计算:OpenCL 1.190028.5214.4692GFlpos50W景嘉微JH920202114nm图形:OpenGL 4.0,Vulkan 1.1,DirectX 11;计算:OpenCL 3.0.5TFlops30W格兰菲Arise-GT-10C0202228nm图形:OpenGL 4.5,DirectX 11;计算:OpenCL 1.212004481.5TFlops45W芯动科技风华2号2022-图形:OpenGL 4.3,Vulkan 1.2,DirectX
147、 11,OpenGLES 3.2;计算:OpenCL 3.0102.48481.5TFlops12.5TOPS415W英伟达GTX1050201614nm图形:OpenGL 4.6,Vulkan 1.2,DirectX 12;计算:OpenCL 3.0,CUDA 6..431.862TFlops75W资料来源:各公司官网,中信证券研究部 注:产品数据均按照最大值进行统计5.4 国内国内GPGPU、AI加速芯片和国外产品对比加速芯片和国外产品对比国内国内GPU产品梳理以及和国外产品的对比产品梳理以及和国外产品的对比加速计算GPU领域,国内壁仞科技发布的BR100产品,在FP
148、32单精度计算性能实现超越NVIDIA A100芯片,但是不支持FP64双精度计算;天数智芯推出的天垓100的FP32单精度计算性能实现超越A100芯片,但是在INT8整数计算性能方面却低于A100;海光推出的DCU Z100实现了FP64双精度浮点计算,但是其性能为A100的60%左右。因此,从高精度浮点计算能力来看从高精度浮点计算能力来看,国内国内GPU产品与国外产品的计算性能仍或有一代以上差距产品与国外产品的计算性能仍或有一代以上差距。但是,GPU的表现不仅体现在硬件上,软件层面对于生态的布局尤其重要,目前国内企业多采用OpenCL进行自主生态建设,但这是需要大量的时间进行。对比AMD从
149、2013年开始建设GPU生态近10年时间后才推出用于通用计算的ROCm开放式软件平台,我们认为国内厂商在软件和生态层面与英伟达CUDA生态的差距相较于硬件更为明显。虽然目前国内产品的计算性能和软件生态与国际厂商还有较大差距虽然目前国内产品的计算性能和软件生态与国际厂商还有较大差距,但是但是,国内厂商依然在奋起直追国内厂商依然在奋起直追,努力实现努力实现GPU国产化突破国产化突破。其中包括龙芯中科、海光信息、壁仞科技、寒武纪、天数智芯等厂商均在研发或推出用于AI计算的GPGPU、ASIC等AI芯片,有望实现高端AI芯片的国产替代。图形渲染图形渲染GPU产品梳理产品梳理55555.4 国内国内GP
150、GPU、AI加速芯片和国外产品对比加速芯片和国外产品对比产品型号产品型号产品类型产品类型推出时间推出时间制造工艺制造工艺封装工艺封装工艺浮点算力浮点算力(TFlops)INT8定点算定点算力力(TOPS)生态生态互联带宽互联带宽显存显存(GB)接口接口功耗功耗FP64FP32BF16华为昇腾910ASIC20187nm320640MindSporePCIe 4.0350W寒武纪思元370ASIC20217nmChiplet24256CambriconNeuware200GB/s16PCIE 4.0250W天数智芯天垓100GPU20217nm2.5D CoWoS37147295SIMT64 G
151、B/s32PCIE 4.0250W海光深算一号DCU20217nm5.4兼容 ROCm32PCIE 4.0350W壁仞BR100-OAMGPU20227nm2.5D CoWoS25610242048BIRENSUPA512GB/s64PCle 5.0550W壁仞BR104-300W PCleGPU20227nm2.5D CoWoS1285121024BIRENSUPA192GB/s32PCle 5.0300W英伟达 Tesla V100GPU201712nmVolta7.815.712562CUDA150GB/s32PCle 4.0300W英伟达A100 PCleGPU20207nmAmper
152、e9.719.5312624CUDA600GB/s80PCle 4.0400W英伟达H100 SXM5GPU20224nmHopper2.5D CoWoS3050010002000CUDA900GB/s80SXM5700W英伟达H100 PCleGPU20224nmHopper2.5D CoWoS24488001600CUDA900GB/s80PCle 5.0350WAMD Instinct MI100GPU20207nm CNDA 111.523.192.3184.6AMD ROCm276GB/s32PCle 4.0300WAMD Instinct MI250GPU20216nm CNDA
153、247.945.3362362AMD ROCm128PCle 4.0560WAMD Instinct MI250XGPU20216nm CNDA 247.947.9383383AMD ROCm128PCle 4.0560W国内国内GPGPU、AI加速芯片产品梳理及与国外加速芯片产品梳理及与国外GPGPU产品对比产品对比数据来源:各公司官网,中信证券研究部5656公司公司2022年上半年完成了第一代龙芯图形处理器架构年上半年完成了第一代龙芯图形处理器架构LG100系列图形处理器核的研制系列图形处理器核的研制,并随并随7A2000芯片产品发布芯片产品发布。基于龙芯最新一代的LG100三维GPU核,
154、完成了GPU驱动、显示需求和系统配套组件的研发,可满足日常桌面办公使用需求,提高产品性价比和商业竞争力。目前已启动第二代龙芯图形处理器架构LG200系列图形处理器核的研制。公司正在研发新一代完全自主可控的具有高通用性公司正在研发新一代完全自主可控的具有高通用性、高可扩展性的高可扩展性的 GPGPU 芯片产品及软硬件体系芯片产品及软硬件体系,将加速对象从单纯的图形渲染扩展到科学计算领域,提升算力密度同时降低单位算力功耗,并在此基础上有效支持视觉、语音、自然语言及传统机器学习等不同类型的人工智能算法。资料来源:龙芯中科微信公众号资料来源:龙芯中科招股说明书搭载龙芯图形处理器架构搭载龙芯图形处理器架
155、构LG100的龙芯的龙芯7A2000桥片桥片龙芯中科高性能通用图形处理器芯片及系统研发项目进度安排龙芯中科高性能通用图形处理器芯片及系统研发项目进度安排龙芯中科:国内龙芯中科:国内PC CPU龙头,自主研发龙头,自主研发GPGPU产品产品2022年年2023年年2024年年5757资料来源:海光信息招股说明书公司基于通用的公司基于通用的GPGPU架构架构,设计设计、发布的适合计算密集型和运算加速领域的一类协处理器发布的适合计算密集型和运算加速领域的一类协处理器,定义为深度计算处理器定义为深度计算处理器DCU(Deep-learning Computing Unit,深度计算处理器深度计算处理器
156、)目前公司的系列产品“深算一号”已经实现商业化应用,主要应用于大数据处理、人工智能、商业计算等应用领域。海光DCU系列产品已于2021年实现商业化应用。海光DCU兼容“类CUDA”环境,软硬件生态丰富。募投项目:在已有海光募投项目:在已有海光DCU产品的基础上产品的基础上,根据大数据处理根据大数据处理、人工智能人工智能、商业计算等领域具体应用的最新需求商业计算等领域具体应用的最新需求,设计新型设计新型DCU芯片架构芯片架构增加并行计算单元的数量,优化计算单元的微结构,针对不同领域的特定应用增加专用指令;扩大高速缓存容量,优化存储子系统的微结构;改进片上网络拓扑结构和路由算法,支持更大的芯片互连
157、规模;设计周期精确的模拟器,支持芯片架构研发和应用性能评估。项目海光NVIDIAAMD品牌深算一号Ampere 100MI100生产工艺7nm FinFET7nm FinFET7nm FinFET核心数量4096(64 CUs)2560 CUDA processors 640 Tensor processors120CUs内核频率Up to 1.5GHz(FP64)Up to 1.7Ghz(FP32)Up to 1.53GhzUp to 1.5GHz(FP64)Up to 1.7Ghz(FP32)显存容量32GB HBM280GB HBM2e32GB HBM2显存位宽4096 bit5120
158、bit4096bit显存频率2.0 GHz3.2 GHz2.4 GHz显存带宽1024 GB/s2039 GB/s1228 GB/sTDP350 W400 W300WCPU to GPU互联 PCIe Gen4 x 16PCIe Gen4 x 16PCIe GEN4 x 16GPU to GPU互联 xGMI x 2,Up to 184 GB/s NVLink up to 600 GB/sInfinity Fabric x 3,up to 276 GB/s海光海光DCU的基本组成架构的基本组成架构深算一号和国际领先深算一号和国际领先GPU生产商产品对比生产商产品对比海光信息:基于通用海光信息:
159、基于通用GPGPU架构,推出深度计算处理器架构,推出深度计算处理器DCU资料来源:海光信息招股说明书5858AMD 寄希望于寄希望于 HPC 和和 AI 蓬勃发展的未来蓬勃发展的未来,它们正被大量部署以支持科学家在气候变化它们正被大量部署以支持科学家在气候变化、疫苗等方面的研究工作疫苗等方面的研究工作。AMD 发起了一场与数发起了一场与数据中心巨头英特尔和英伟达激烈竞争的运动据中心巨头英特尔和英伟达激烈竞争的运动。AMD还以还以 490 亿美元收购了赛灵思亿美元收购了赛灵思,完成了历史上最大的芯片收购完成了历史上最大的芯片收购,扩大了数据中心的机会扩大了数据中心的机会。由由 AMD EPYC
160、处理器和处理器和 AMD Instinct MI200 加速器提供支持的超级计算机将为大规模模拟和建模以及人工智能和深度学习工作负载提供加速器提供支持的超级计算机将为大规模模拟和建模以及人工智能和深度学习工作负载提供性能上的代际飞跃性能上的代际飞跃。2022年年6月月,国际超级计算机大会国际超级计算机大会(ISC),发布了最快的超级计算机发布了最快的超级计算机 TOPP500 榜单榜单,其中一台名为其中一台名为 Frontier 的计算机位居榜首的计算机位居榜首。它部署在美国能源部橡树岭国家实验室,是第一台 exascale 机器(每秒 10 18次浮点运算)由由 AMD Epyc CPU 和
161、和 Instinct MI250GPU 驱动的驱动的 HPE-Cray EX 系统系统。但是英伟达协处理器可以在 154 台 TOP500 超级计算机中找到;只有七台超级计算机使用 AMDInstinct 卡。资料来源:AMD官网资料来源:HPCWire网站AMD历代历代GPGPU产品架构的发展产品架构的发展由由 AMD Epyc CPU 和和 Instinct MI250 GPU 驱动的驱动的 HPE-Cray EX AMD:发力数据中心,产品性能实现代际飞跃:发力数据中心,产品性能实现代际飞跃5959NVIDIA A100,作为作为Ampere架构首发的架构首发的NVIDIA A100,相
162、较相较Tesla V100 可提高可提高2.5 倍倍HPC 运算量运算量,单片单片A100单价约为单价约为8万元万元。DGX A100系统单节点的峰值性能为:INT8 10 PetaOPS(每秒1亿亿次整数运算)、FP16 5 PFlops(每秒5千万亿次半精度浮点运算)、TF32 2.5PFlops(每秒2.5千万亿次运算)、FP64 156 TFlops(每秒156万亿次双精度浮点运算)。相比于高端相比于高端CPU服务器服务器,它的它的AI计算性能要高出计算性能要高出150倍倍,内存内存带宽高出带宽高出40倍倍,IO带宽也高出带宽也高出40倍倍。H100 所结合的技术创新所结合的技术创新,
163、可加速大型语言模型速度可加速大型语言模型速度,比比A100快快30 倍倍,提供领先业界的对话式人工智能加速提供领先业界的对话式人工智能加速(类似类似ChatGPT)。H100于2022年3月22日推出,配备了 80 GB 显存,搭载 NVIDIA Hopper HPC GPU,采用台积电4nm制程,单价超过20万元。H100 配备第四代Tensor核心和具有FP8精确度的Transformer Engine,能够依据动态管理与选择FP8与FP16,并自处理模型每一层FP8与FP16的自动转换,相对现行的A100架构,能使AI训练提升9倍、并使推理能提升30倍,同时不影响精确性。目前华硕目前华硕
164、、源讯源讯、戴尔戴尔、INGRASYS、技嘉技嘉、联想与美超微联想与美超微(Supermicro)等等NVIDIA的众多合作伙伴推出搭载的众多合作伙伴推出搭载A100/H100产品产品,已在已在 AWS、Google Cloud、Microsoft Azure 及及 Oracle Cloud Infrastructure 等各大云端平台上使用等各大云端平台上使用。NVIDIA H100相较于相较于A100的的6倍性能提升倍性能提升英伟达:英伟达:H100拥有最强算力,使拥有最强算力,使AI训练速度提升训练速度提升9倍、推理提升倍、推理提升30倍倍资料来源:智东西微信公众号英伟达基于英伟达基于C
165、UDA 架构开发的历代架构开发的历代GPU微架构微架构资料来源:英伟达官网6060壁仞科技创立于壁仞科技创立于2019年年,团队由国内外芯片和云计算领域核心专业人员团队由国内外芯片和云计算领域核心专业人员、研发人员组成研发人员组成,在在GPU、DSA(专用加速器专用加速器)和计算机体系结构等领域具和计算机体系结构等领域具有深厚的技术积累和独到的行业洞见有深厚的技术积累和独到的行业洞见。从发展路径上,壁仞科技将首先聚焦云端通用智能计算,逐步在人工智能训练和推理、图形渲染等多个领域赶超现有解决方案,实现国产高端通用智能计算芯片的突破。公司共计公司共计13位核心高管位核心高管,其中技术研发线的其中技
166、术研发线的9位核心技术高管中位核心技术高管中,其中四位来自其中四位来自AMD公司公司,四位来自英伟达四位来自英伟达,其他高管也都来自高通其他高管也都来自高通、英特尔等国际英特尔等国际芯片大厂芯片大厂。包括前AMD全球副总裁李新荣;原华为海思GPU 首席架构师、英伟达GPU资深架构师洪洲;曾创建高通公司骁龙GPU团队、领导了5代AdrenoGPU架构开发的首席架构师焦国方;原英特尔软件研发负责人、AMD软件工程负责人梁刚;原AMD GPU芯片研发负责人陈文中;原英伟达中国研发中心总经理、台积电设计与技术平台负责人杨超源;原AMD GPU SoC负责人张凌岚;原阿里云AI&GPU负责人、英伟达GP
167、U架构师等。壁仞科技的发展历程壁仞科技的发展历程壁仞科技(未上市)壁仞科技(未上市)资料来源:壁仞科技官网,中信证券研究部壁仞科技的和核心高管及研发负责人壁仞科技的和核心高管及研发负责人姓名姓名职务职务个人经历个人经历张文创始人、董事长、CEO哈佛大学法学博士、哥伦比亚工商管理硕士。美国纽约执照律师,曾担任高级律师和私募基金总经理等要职,曾任职于商汤科技并担任总裁,还是L4自动驾驶方案公司云骥智行的董事长。洪洲联 合 创 始 人&CTO北京大学数学学士,清华大学管理硕士与纽约州立大学布法罗分校数学及计算机科学硕士。原华原华为海思为海思GPU 首席架构师首席架构师、英伟达英伟达GPU资深架构师资
168、深架构师。曾担任海思自研GPU的负责人与主架构师,组建了完整的GPU团队并成功流片了全球领先且拥有自主IP的GPU芯片。张 凌岚联 合 创 始 人、COO原原AMD GPU SoC负责人负责人,原海光海外原海光海外GPU部门副总裁部门副总裁徐 凌杰联合创始人、总裁原阿里云原阿里云AI&GPU负责人负责人、英伟达英伟达GPU架构师架构师焦 国方联合创始人,图形GPU产品线总经理具有超过25年精深的GPU产品架构和研发经验,曾在高通任职11年,曾创建高通公司骁龙曾创建高通公司骁龙GPU团队团队、领导了5代Adreno GPU架构开发的首席架构师。原华为鸿蒙原华为鸿蒙OS图形图像处理和图形图像处理和
169、UI系统框系统框架首席科学家架首席科学家。李 新荣联席CEO前前AMD全球副总裁全球副总裁。在GPU领域拥有超过30年的丰富经验,加入壁仞科技之前在AMD就职15年,担任全球副总裁、中国研发中心总经理,负责AMD大中华区的研发建设和管理工作。杨 超源副总裁兼董事长特别助理毕业于加州大学伯克利分校电子工程专业,在GPU芯片行业拥有超过35年的产品研发与管理经验。原英伟达中国研发中心总经理原英伟达中国研发中心总经理、台积电设计与技术平台负责人台积电设计与技术平台负责人、英伟达上海总经理英伟达上海总经理陈 文中高级副总裁在GPU行业拥有超过25年的研发与团队管理经验,此前曾在此前曾在AMD、S3和和
170、Trident等知名等知名GPU企企业领导核心产品开发团队业领导核心产品开发团队。就职AMD期间,他领导一支规模近500人的技术团队,在8年内实现了9款芯片的流片与量产,其中包括首款采用HBM技术的GPU芯片。唐杉研究院执行院长EDA软件巨头Synopsys(新思科技)前AI Lab负责人资料来源:公司官网,集微网,凤凰网,中信证券研究部整理6161主要产品:主要产品:BR100系列通用系列通用GPU芯片芯片,目前目前BR100系列拥有系列拥有BR100、BR104两款芯片两款芯片这款芯片采用台积电7nm制程工艺,集成了PCIE Gen5及HBM2e等最新周边IP,采用了3D立体堆叠技术等多种
171、技术组合。BR100对比英伟达在售的旗舰GPU峰值算力在Int8、BF16、TF32/TF32+、FP32数据格式下最少有3.3倍的峰值性能优势,在FP32数据格式下性能优势更是达到了13.1倍。针对人工智能(AI)训练、推理,及科学计算等更广泛的通用计算场景开发,主要部署在大型数据中心。生态方面:目前生态方面:目前BR100兼容当前主流软件生态包括兼容当前主流软件生态包括CUDA,目的是保证用目的是保证用CUDA写的程序无缝运行在壁仞科技的异构计算开发平台上;终极目标是提写的程序无缝运行在壁仞科技的异构计算开发平台上;终极目标是提供比供比CUDA更好的自研编程模型更好的自研编程模型。公司目前
172、推出自主原创架构“壁立仞”,以及自主研发的BIRENSUPA软件平台,使得BR100在给定的工艺下实现了性能和能效的跨越式进步。资料来源:壁仞科技官网BIRENSUPA软件开发平台软件开发平台壁仞科技(未上市)壁仞科技(未上市)BR100-OAMBR104-300W PcleNVIDIA H100 SXM5NVIDIA H100 PCle NVIDIA A100 PCle产品形态产品形态OAM双FHFL PClePCIePclePcle峰峰值值性性能能FP32256 TFLOPS(Tensor Core)128 TFLOPS(Tensor Core)60 TFLOPS48 TFLOPS19.5
173、 TFLOPSTF32+(TF32)512 TFLOPS256 TFLOPS500 TFLOPS(TF32)400 TFLOPS(TF32)156 TFLOPS(TF32)BF161024 TFLOPS512 TFLOPS1000 TFLOPS800 TFLOPS312 TFLOPS(FP16)INT82048 TOPS1024 TOPS2000 TOPS1600 TOPS624 TOPS显存显存64GB HBM2E32GB HBM2E80GB HBM380GB HBM2E80GB HBM2E接口接口PCle 5.0 支持CXL2.0PCle 5.0 支持CXL2.0SXM5PCle 5.0P
174、Cle 4.0互连带宽互连带宽512 GB/s192 GB/s900 GB/s600 GB/s600 GB/s最大热设计功耗最大热设计功耗(TDP)550W300W700w350W400W资料来源:壁仞科技官网,芯东西,中信证券研究部 注:NVIDIA H100仅支持未采用稀疏技术的规格壁仞科技壁仞科技BR100系列通用系列通用GPU算力产品规格与算力产品规格与NVIDIA 产品对比产品对比6262沐曦成立于沐曦成立于2020年年9月月,其研发的高性能其研发的高性能GPU芯片可应用于芯片可应用于AI推理推理、AI训练训练、高性能数据分析高性能数据分析、科学计算科学计算、数据中心数据中心、云游戏
175、云游戏、自动驾驶自动驾驶、元宇宙等众多需要高算力的前沿领域元宇宙等众多需要高算力的前沿领域。沐曦的核心技术团队拥有平均沐曦的核心技术团队拥有平均20年的高性能年的高性能GPU产品的设计经验和技术实力产品的设计经验和技术实力,三位创始人均来自三位创始人均来自AMD公司公司,曾完整负责曾完整负责10多款世界顶尖高多款世界顶尖高性能性能GPU产品开发及应用落地产品开发及应用落地,拥有丰富的拥有丰富的5nm流片和流片和7nm芯片量产经验芯片量产经验。其中,公司CEO陈维良曾在AMD任全球GPU SoC设计总负责人,拥有团队管理能力和量产经验;硬件首席架构师彭莉是AMD全球首位华人女科学家(Fellow
176、),曾任AMD首席架构师;软件首席架构师杨建是AMD大中华地区第一位科学家(Fellow),历任AMD、海思等首席架构师,拥有20年大规模芯片及GPU软硬件设计经验。产品方面产品方面,沐曦第一颗高性能通用沐曦第一颗高性能通用GPU芯片芯片MXN于于2022年年1月顺利流片月顺利流片,采用采用7nm工艺工艺,以以AI推理为主推理为主,公司预计公司预计2023年量产年量产。第二款主第二款主要用于科学计算要用于科学计算、AI训练训练、数据中心弹性计算的旗舰数据中心弹性计算的旗舰GPU芯片芯片MXC的研发也进入收尾阶段的研发也进入收尾阶段,公司计划公司计划2023年会进入量产年会进入量产。产品产品MX
177、N(曦思)(曦思)MXC(曦云)(曦云)MXG(曦彩)(曦彩)定位高性能人工智能推理加速处理器高性能通用计算加速处理器(GPGPU)高性能图形加速处理器应用场景MXN系列是面向云端数据中心应用的人工智能推理产品,采用先进工艺结合高带宽内存,提供强大的AI算力和领先的视频编解码能力,可广泛应用于智慧城市、公有云计算、智能视频处理、云游戏等场景。MXC系列通用GPU(GPGPU)芯片是针对AI训练和推理及科学计算的完美解决方案,沐曦自主知识产权架构提供强大高精度及多精度混合算力,可广泛应用于人工智能、数据中心以及科学计算、教育和科研等场景。MXG系列高性能GPU是面向云端图形渲染的GPU产品应用场
178、景 AI推理、数据中心AI推理、AI训练、高性能数据分析、科学计算、数据中心图形渲染制程7nm5nm量产时间 2023年2023年资料来源:沐曦官网,中信证券研究部公司主要产品线及介绍公司主要产品线及介绍沐曦发展历程沐曦发展历程沐曦(未上市)沐曦(未上市)资料来源:沐曦官网,中信证券研究部6363芯动科技芯动科技2021年发布了国产显卡年发布了国产显卡GPU“风华风华1号号”,面向桌面面向桌面、服务器市场服务器市场,采用采用12nm制造制造芯动科技采用Imagination最新推出的IMG B系列BXT高性能多核图形处理器(GPU)IP。风华1号芯片的FP32 浮点算力为浮点算力为5T FLO
179、PS;渲染能力为160G Pixel/s;编解码能力:同时4路4K60帧,16路1080P60帧,32路720P30帧;AI 计算的算力为计算的算力为25TOPS(INT8)。适配方面,风华1号支持Windows、Android、Linux(含国产)等操作系统,支持ARM、MIPS、x86 CPU架构,支持OpenGL、OpenGLES、OpenCL、Vulkan、DirectX等主流架构等主流架构,支持嵌入式VR/AR/AU、智能座舱、工控机等应用。技术团队:技术团队:公司的技术研发团队包括前前AMD图形框架开发领军人物图形框架开发领军人物,现任芯动DX团队负责人张涛;杨喜乐博士在英国英国I
180、magination公司做公司做了了25年的架构师年的架构师,现担任芯动首席算法科学家,是全球GPU芯片领域从几何物理渲染到计算引擎领域的知名专家,持有GPU 3D计算机图形学核心领域顶级图形专利共计125项,与Imagination、苹果等公司最新的核心GPU产品的设计、优化、迭代相关。资料来源:芯动科官网数据来源:芯动科官网风华风华1号数据中心号数据中心GPU介绍介绍风华风华1号数据中心号数据中心GPU计算性能计算性能芯动科技芯动科技(未上市)(未上市)6464摩尔线程创始人是前英伟达公司全球副总裁摩尔线程创始人是前英伟达公司全球副总裁、中国区总经理中国区总经理James Zhang,20
181、05年加入英伟达前在惠普年加入英伟达前在惠普、戴尔工作过戴尔工作过。公司团队集聚了很多公司团队集聚了很多顶尖公司的顶尖公司的GPU人才人才,核心成员主要来自核心成员主要来自NVIDIA,吸引了吸引了Microsoft、Intel、AMD、ARM、华为华为、平头哥等各大科技公司的研发人员平头哥等各大科技公司的研发人员。2022年年3月月,摩尔线程推出摩尔线程推出MUSA架构架构MUSA是摩尔线程产品系列采用的统一系统架构,包括统一的编程模型统一的编程模型、软件运行库软件运行库、驱动程序框架驱动程序框架、指令集架构和芯片架构指令集架构和芯片架构。并基于MUSA统一系统架构打造的第一代摩尔线程多功能
182、GPU芯片核心苏堤。摩尔线程基于摩尔线程基于MUSA统一系统架构苏堤核心晶片打造的数据中心级多功能统一系统架构苏堤核心晶片打造的数据中心级多功能GPU产品产品MTT S2000MTT S2000采用12nm制程,使用4096个个MUSA核心核心,最大配置32GB显存,FP32单精度算力最高可达到12TFlops,支持H.264、H.265、AV1多路高清视频编解码,以及广泛的AI模型算法加速,支持PyTorch、Tensorflow、PaddlePaddle等主流深度学习框架。资料来源:摩尔线程官网资料来源:摩尔线程官网MUSA统一系统架构组成统一系统架构组成MTT S2000结构组成结构组成
183、摩尔线程(未上市)摩尔线程(未上市)6565天数智芯于天数智芯于2020年年12月成功点亮国内第一款月成功点亮国内第一款7nm云端训练通用云端训练通用GPU产品产品“天垓天垓100”,并于并于2021年年3月正式对外发布月正式对外发布。目前已经实现大规模量产和销目前已经实现大规模量产和销售售,截止至截止至2022年年3月底月底,已实现销售订单近已实现销售订单近2亿元亿元,并且帮助客户落地了两百多个应用场景并且帮助客户落地了两百多个应用场景。天垓100芯片采用全自研的架构全自研的架构、计算核计算核、指令集及基础软件栈指令集及基础软件栈,不受国外不受国外IP制约制约。内建FP32/FP16/BF1
184、6/INT多种数据类型指令,支持混合精度AI训练。支持主流的深度学习开发框架,兼容主流兼容主流GPU的编程模式的编程模式,有效对接现有软件生态,易于扩展支持新的算法与应用领域。天数智芯的第二款产品天数智芯的第二款产品7nm云边推理芯片云边推理芯片“智铠智铠100”在在2022年年5月成功点亮月成功点亮,目前在开发第二三代目前在开发第二三代AI训练芯片天垓训练芯片天垓200及及300。天数智芯天数智芯CTO吕坚平毕业于耶鲁大学并获计算机科学博士学位吕坚平毕业于耶鲁大学并获计算机科学博士学位,曾任三星全球副总裁曾任三星全球副总裁、联发科资深总监联发科资深总监、英伟达全球资深英伟达全球资深GPU架构
185、师架构师、高级架构经理高级架构经理等职务等职务,拥有近拥有近30年芯片研发技术经验;负责芯片设计的副总裁年芯片研发技术经验;负责芯片设计的副总裁,是一位高端计算芯片设计专家是一位高端计算芯片设计专家,拥有近拥有近30年的处理器年的处理器、微处理器微处理器、GPU研发和管研发和管理经验理经验,在近在近15年内年内,他主导参与了他主导参与了AMD所有服务器所有服务器、GPU,APU产品的产品的IP设计设计,包括最新包括最新7nm EPYC和和7nm GPU产品产品。架构架构GPGPU制程及封装TSMC 7nm FinFET2.5D COWOS 封装内存规格32 GB DRAM(4*8GB)HBM2
186、散热规格板级功耗250W全高全长双槽位主被动式散热接口规格PCIe Gen4.0 x 16 lane共享 64 GB/s 主控双向带宽共享 64 GB/s 片间互联带宽性能37 TFLOPSFP32147 TFLOPSFP16/BF16295 TOPSINT8支持 INT32,INT16 计算多精度数据类型支持标准/混合训练资料来源:芯东西微信公众号天数智芯“天垓天数智芯“天垓100”性能汇总”性能汇总天数智芯自主天数智芯自主IP特征特征天数智芯(未上市)天数智芯(未上市)资料来源:天数智芯官网,中信证券研究部6666登临成立于登临成立于2017年底年底,专注于高性能通用计算平台的芯片研发与技
187、术创新专注于高性能通用计算平台的芯片研发与技术创新,致力于打造云边端一体致力于打造云边端一体、软硬件协同软硬件协同、训练推理融合的前沿芯训练推理融合的前沿芯片产品和平台化基础系统软件片产品和平台化基础系统软件。公司自主创新的GPU+(基于GPGPU的软件定义的片内异构计算架构),在兼容CUDA/OpenCL在内的编程模型和软件生态的基础上,通过架构创新,完美解决了通用性和高效率的双重难题。大量客户产品实测证明,针对AI计算,GPU+相比传统GPU在性能尤其是能效上有显著提升。登临科技致力于推动国产化AI解决方案在各行各业的发展和落地,通过建立完善的软硬件合作生态体系,全面助力产业数字化转型和智
188、能化升级和改造。作为国内首个实现规模化商业落地的作为国内首个实现规模化商业落地的GPU企业企业,登临首款基于登临首款基于GPU+的创新的创新AI计算加速器计算加速器-Goldwasser已规模化运用在边缘至云计算的各已规模化运用在边缘至云计算的各个应用场景个应用场景,成功填补了国内高性能成功填补了国内高性能GPGPU领域技术领域技术、产品及商业方面的空白产品及商业方面的空白。登临第二代产品将于登临第二代产品将于2023年上半年进入市场年上半年进入市场,其能效比将是第一代产品的其能效比将是第一代产品的2倍倍,在同等功耗下在同等功耗下,峰值算力达到国际主流产品的峰值算力达到国际主流产品的2倍倍。资
189、料来源:登临科技官网资料来源:登临科技2021年世界人工智能大会(WAIC)公司核心技术亮点公司核心技术亮点公司核心产品性能对比公司核心产品性能对比登临科技(未上市)登临科技(未上市)6767风险因素风险因素用户拓展不及预期风险;用户拓展不及预期风险;AI技术及新产品开发发展不及预期风险;技术及新产品开发发展不及预期风险;外部制裁加剧风险;外部制裁加剧风险;宏观经济需求下行风险宏观经济需求下行风险。感谢您的信任与支持!感谢您的信任与支持!THANK YOU徐涛(科技产业联席首席分析师徐涛(科技产业联席首席分析师/电子行业首席分析师)电子行业首席分析师)执业证书编号:S03
190、王子源(半导体分析师)王子源(半导体分析师)执业证书编号:S02雷俊成(半导体分析师)雷俊成(半导体分析师)执业证书编号:S03杨泽原(计算机行业首席分析师)杨泽原(计算机行业首席分析师)执业证书编号:S02免责声明免责声明69分析师声明分析师声明主要负责撰写本研究报告全部或部分内容的分析师在此声明:(i)本研究报告所表述的任何观点均精准地反映了上述每位分析师个人对标的证券和发行人的看法;(ii)该分析师所得报酬的任何组成部分无论是在过去、现在及将来均不会直接或间接地与研究报告所表述的具体建议或观点相联系。一般性声明一般性声明本
191、研究报告由中信证券股份有限公司或其附属机构制作。中信证券股份有限公司及其全球的附属机构、分支机构及联营机构(仅就本研究报告免责条款而言,不含CLSAgroup of companies),统称为“中信证券”。本研究报告对于收件人而言属高度机密,只有收件人才能使用。本研究报告并非意图发送、发布给在当地法律或监管规则下不允许向其发送、发布该研究报告的人员。本研究报告仅为参考之用,在任何地区均不应被视为买卖任何证券、金融工具的要约或要约邀请。中信证券并不因收件人收到本报告而视其为中信证券的客户。本报告所包含的观点及建议并未考虑个别客户的特殊状况、目标或需要,不应被视为对特定客户关于特定证券或金融工具
192、的建议或策略。对于本报告中提及的任何证券或金融工具,本报告的收件人须保持自身的独立判断并自行承担投资风险。本报告所载资料的来源被认为是可靠的,但中信证券不保证其准确性或完整性。中信证券并不对使用本报告或其所包含的内容产生的任何直接或间接损失或与此有关的其他损失承担任何责任。本报告提及的任何证券或金融工具均可能含有重大的风险,可能不易变卖以及不适合所有投资者。本报告所提及的证券或金融工具的价格、价值及收益可跌可升。过往的业绩并不能代表未来的表现。本报告所载的资料、观点及预测均反映了中信证券在最初发布该报告日期当日分析师的判断,可以在不发出通知的情况下做出更改,亦可因使用不同假设和标准、采用不同观
193、点和分析方法而与中信证券其它业务部门、单位或附属机构在制作类似的其他材料时所给出的意见不同或者相反。中信证券并不承担提示本报告的收件人注意该等材料的责任。中信证券通过信息隔离墙控制中信证券内部一个或多个领域的信息向中信证券其他领域、单位、集团及其他附属机构的流动。负责撰写本报告的分析师的薪酬由研究部门管理层和中信证券高级管理层全权决定。分析师的薪酬不是基于中信证券投资银行收入而定,但是,分析师的薪酬可能与投行整体收入有关,其中包括投资银行、销售与交易业务。若中信证券以外的金融机构发送本报告,则由该金融机构为此发送行为承担全部责任。该机构的客户应联系该机构以交易本报告中提及的证券或要求获悉更详细
194、信息。本报告不构成中信证券向发送本报告金融机构之客户提供的投资建议,中信证券以及中信证券的各个高级职员、董事和员工亦不为(前述金融机构之客户)因使用本报告或报告载明的内容产生的直接或间接损失承担任何责任。评级说明评级说明投资建议的评级标准投资建议的评级标准评级评级说明说明报告中投资建议所涉及的评级分为股票评级和行业评级(另有说明的除外)。评级标准为报告发布日后6到12个月内的相对市场表现,也即:以报告发布日后的6到12个月内的公司股价(或行业指数)相对同期相关证券市场代表性指数的涨跌幅作为基准。其中:A股市场以沪深300指数为基准,新三板市场以三板成指(针对协议转让标的)或三板做市指数(针对做
195、市转让标的)为基准;香港市场以摩根士丹利中国指数为基准;美国市场以纳斯达克综合指数或标普500指数为基准;韩国市场以科斯达克指数或韩国综合股价指数为基准。股票评级买入相对同期相关证券市场代表性指数涨幅20%以上增持相对同期相关证券市场代表性指数涨幅介于5%20%之间持有相对同期相关证券市场代表性指数涨幅介于-10%5%之间卖出相对同期相关证券市场代表性指数跌幅10%以上行业评级强于大市相对同期相关证券市场代表性指数涨幅10%以上中性相对同期相关证券市场代表性指数涨幅介于-10%10%之间弱于大市相对同期相关证券市场代表性指数跌幅10%以上证券研究报告证券研究报告2023年年2月月16日日免责声
196、明免责声明70特别声明特别声明在法律许可的情况下,中信证券可能(1)与本研究报告所提到的公司建立或保持顾问、投资银行或证券服务关系,(2)参与或投资本报告所提到的公司的金融交易,及/或持有其证券或其衍生品或进行证券或其衍生品交易,因此,投资者应考虑到中信证券可能存在与本研究报告有潜在利益冲突的风险。本研究报告涉及具体公司的披露信息,请访问https:/ Limited(于中国香港注册成立的有限公司)分发;在中国台湾由CL Securities Taiwan Co.,Ltd.分发;在澳大利亚由CLSA Australia Pty Ltd.(商业编号:53 139 992 331/金融服务牌照编号
197、:350159)分发;在美国由CLSA(CLSA Americas,LLC除外)分发;在新加坡由CLSA Singapore Pte Ltd.(公司注册编号:198703750W)分发;在欧洲经济区由CLSA Europe BV分发;在英国由CLSA(UK)分发;在印度由CLSA India Private Limited分发(地址:8/F,Dalamal House,Nariman Point,Mumbai 400021;电话:+91-22-66505050;传真:+91-22-22840271;公司识别号:U67120MH1994PLC083118);在印度尼西亚由PT CLSA Seku
198、ritas Indonesia分发;在日本由CLSA Securities Japan Co.,Ltd.分发;在韩国由CLSA Securities Korea Ltd.分发;在马来西亚由CLSASecurities Malaysia Sdn Bhd分发;在菲律宾由CLSAPhilippines Inc.(菲律宾证券交易所及证券投资者保护基金会员)分发;在泰国由CLSASecurities(Thailand)Limited分发。针对不同司法管辖区的声明针对不同司法管辖区的声明中国大陆:中国大陆:根据中国证券监督管理委员会核发的经营证券业务许可,中信证券股份有限公司的经营范围包括证券投资咨询业务
199、。中国香港:中国香港:本研究报告由CLSA Limited分发。本研究报告在香港仅分发给专业投资者(证券及期货条例(香港法例第571 章)及其下颁布的任何规则界定的),不得分发给零售投资者。就分析或报告引起的或与分析或报告有关的任何事宜,CLSA客户应联系CLSA Limited的罗鼎,电话:+852 2600 7233。美国:美国:本研究报告由中信证券制作。本研究报告在美国由CLSA(CLSA Americas,LLC除外)仅向符合美国1934年证券交易法下15a-6规则界定且CLSA Americas,LLC提供服务的“主要美国机构投资者”分发。对身在美国的任何人士发送本研究报告将不被视为
200、对本报告中所评论的证券进行交易的建议或对本报告中所述任何观点的背书。任何从中信证券与CLSA获得本研究报告的接收者如果希望在美国交易本报告中提及的任何证券应当联系CLSA Americas,LLC(在美国证券交易委员会注册的经纪交易商),以及CLSA 的附属公司。新加坡:新加坡:本研究报告在新加坡由CLSA Singapore Pte Ltd.,仅向(新加坡财务顾问规例界定的)“机构投资者、认可投资者及专业投资者”分发。就分析或报告引起的或与分析或报告有关的任何事宜,新加坡的报告收件人应联系CLSA Singapore Pte Ltd,地址:80 Raffles Place,#18-01,UO
201、B Plaza 1,Singapore 048624,电话:+65 6416 7888。因您作为机构投资者、认可投资者或专业投资者的身份,就CLSA Singapore Pte Ltd.可能向您提供的任何财务顾问服务,CLSA Singapore Pte Ltd豁免遵守财务顾问法(第110章)、财务顾问规例以及其下的相关通知和指引(CLSA业务条款的新加坡附件中证券交易服务C部分所披露)的某些要求。MCI(P)085/11/2021。加拿大:加拿大:本研究报告由中信证券制作。对身在加拿大的任何人士发送本研究报告将不被视为对本报告中所评论的证券进行交易的建议或对本报告中所载任何观点的背书。英国:
202、英国:本研究报告归属于营销文件,其不是按照旨在提升研究报告独立性的法律要件而撰写,亦不受任何禁止在投资研究报告发布前进行交易的限制。本研究报告在英国由CLSA(UK)分发,且针对由相应本地监管规定所界定的在投资方面具有专业经验的人士。涉及到的任何投资活动仅针对此类人士。若您不具备投资的专业经验,请勿依赖本研究报告。欧洲经济区:欧洲经济区:本研究报告由荷兰金融市场管理局授权并管理的CLSAEurope BV 分发。澳大利亚:澳大利亚:CLSA Australia Pty Ltd(“CAPL”)(商业编号:53 139 992 331/金融服务牌照编号:350159)受澳大利亚证券与投资委员会监管
203、,且为澳大利亚证券交易所及CHI-X的市场参与主体。本研究报告在澳大利亚由CAPL仅向“批发客户”发布及分发。本研究报告未考虑收件人的具体投资目标、财务状况或特定需求。未经CAPL事先书面同意,本研究报告的收件人不得将其分发给任何第三方。本段所称的“批发客户”适用于公司法(2001)第761G条的规定。CAPL研究覆盖范围包括研究部门管理层不时认为与投资者相关的ASXAll Ordinaries 指数成分股、离岸市场上市证券、未上市发行人及投资产品。CAPL寻求覆盖各个行业中与其国内及国际投资者相关的公司。印度:印度:CLSA India Private Limited,成立于 1994 年
204、11 月,为全球机构投资者、养老基金和企业提供股票经纪服务(印度证券交易委员会注册编号:INZ000001735)、研究服务(印度证券交易委员会注册编号:INH000001113)和商人银行服务(印度证券交易委员会注册编号:INM000010619)。CLSA 及其关联方可能持有标的公司的债务。此外,CLSA及其关联方在过去 12 个月内可能已从标的公司收取了非投资银行服务和/或非证券相关服务的报酬。如需了解CLSA India“关联方”的更多详情,请联系Compliance-I。未经中信证券事先书面授权未经中信证券事先书面授权,任何人不得以任何目的复制任何人不得以任何目的复制、发送或销售本报告发送或销售本报告。中信证券中信证券2023版权所有版权所有,保留一切权利保留一切权利。