《人工智能行业动态报告:ChatGPT技术演进及研究框架-230303(43页).pdf》由会员分享,可在线阅读,更多相关《人工智能行业动态报告:ChatGPT技术演进及研究框架-230303(43页).pdf(43页珍藏版)》请在三个皮匠报告上搜索。
1、ChatGPTChatGPT技术演进及研究框架技术演进及研究框架证券研究报告证券研究报告 行业动态报告行业动态报告发布日期:2023年3月3日本报告由中信建投证券股份有限公司在中华人民共和国(仅为本报告目的,不包括香港、澳门、台湾)提供。在遵守适用的法律法规情况下,本报告亦可能由中信建投(国际)证券有限公司在香港提供。同时请参阅最后一页的重要声明。分析师:于芳博分析师:于芳博SAC编号:S01分析师:分析师:阎贵成阎贵成SAC编号:S02SFC 中央编号:BNS315 核心观点:核心观点:Transformer 模型融合了词向量、注意力机制和预训练模
2、式的诸多优势,其出现标志着深度学习进入大模型时代。OpenAI 推出基于Transformer和人类反馈强化学习的ChatGPT以其强大的语义理解和生成能力引爆了市场。技术侧重点理解大模型训练中的核心四要素:模型参数、训练数据、训练方法以及训练效率。随着预训练自然语言模型进入巨量化参数时代,模型算力需求迈上新台阶。相关投资机遇中,建议重点关注国产AI芯片供应链、海内外大模型相关垂直应用落地情况。核心技术发展推动自然语言处理逐步成熟。核心技术发展推动自然语言处理逐步成熟。对词向量的关注明确了训练目标,构建起语义信息和数据之间的桥梁;注意力机制增强上下文理解能力,提高语义信息学习能力;Transf
3、ormer等模型推动计算结构从串行走向并行,大幅提升算法和语言模型的训练速度;预训练明确了训练思路,解决了数据量不足的问题,降低了模型应用的门槛。以上四点核心进展带来了语言模型语言理解和生成能力的大幅提升,人工智能语言模型逐步走向预训练大模型。对应行业发展,谷歌和OpenAI先后于2018年提出基于Transformer-Encoder的BERT和基于Transformer-Decoder的GPT。与此同时,国内外的其他技术巨头也纷纷加快自然语言处理模型研发进程。训练好大模型的四要素:模型参数、训练数据、训练方法以及训练效率。训练好大模型的四要素:模型参数、训练数据、训练方法以及训练效率。在模
4、型参数上,参数量越大,大模型性能往往越好,当参数量提升到一定程度后性能可能会产生跨越式提升;训练数据方面,大模型对数据量和数据质量均提出了更高要求,高质量的数据集在模型训练过程中带来了更高的边际收益;在训练方法上,一方面需要更充分的预训练以及增大预训练难度,另一方面使用Prompt或Fine-tune可以显著提高模型在下游应用场景的表现;在训练效率上,并行计算、显存优化与模型稀疏性能显著提升大模型训练效率。随着预训练自然语言模型进入巨量化参数时代,模型算力需求迈上新台阶。随着预训练自然语言模型进入巨量化参数时代,模型算力需求迈上新台阶。当前大规模的自然语言模型进入了千亿参数时代,模型的训练算力
5、显著提升,例如GPT-3模型参数量为1750亿,训练算力需求为3.14E+23 flops,如采用1000块英伟达A100芯片提供算力,需要不间断训练55天,可以估算单次训练租用云服务器的成本是328万美金。大模型在商业化落地之后,大量的客户访问还会带来不菲的运行成本,近期ChatGPT官网每日访客数量接近5000万,估算云上月租金576万美元/每月,头部企业开发大模型竞争力更强。后续关注:国产后续关注:国产AI芯片及大模型相关应用落地。芯片及大模型相关应用落地。算力端重点关注国产AI芯片、英伟达供应链、华为AI芯片昇腾供应链。算法应用端重点关注国内相关企业如华为、百度及阿里等的大模型落地情况
6、和相关垂直应用供应商,以及国内公司利用OpenAI技术在海外应用的产品进展。核心观点 eZbUcWeUaVeZcWfV7NcM6MnPoOoMnOeRpPtQlOmMrN8OnNoPMYmMmQNZoMpN目录一、一、NLPNLP算法发展历程介绍算法发展历程介绍二、训练好大模型的要素二、训练好大模型的要素三、算力需求的展望三、算力需求的展望四、投资逻辑梳理四、投资逻辑梳理 1.1 早期自然语言处理(NLP):基于规则方法/统计方法图图表:基于规则的方法表:基于规则的方法资料来源:easyAI,中信建投图表:基于统计的方法图表:基于统计的方法第一阶段(第一阶段(1950s1950s-1980s1
7、980s)基于规则的方法:)基于规则的方法:基于语言学家制定的规则完成相关任务。优点:自由设计,灵活性强;不存在对于训练数据的依赖缺点:研究强度大,泛化能力差;实践性差,无法从训练数据中学习和迭代第二阶段(第二阶段(1980s1980s-2000s2000s)基于统计的方法:)基于统计的方法:将语言问题转化为概率问题进行模型构建。优点:数据驱动;相较于规则模型泛化能力强缺点:受训练数据集的影响大;缺乏对于语言知识的考虑;模型可解释性差语言规则(例):“from”总是指某些东西最初来自哪里,所以我们用ORIGIN标记它。“to”总是指某些东西的去向是哪里,所以用DESTINATION标记它。资料
8、来源:CSDN,中信建投 1.2 四大核心进展推动神经网络方法在NLP领域发展第三阶段(第三阶段(2000s2000s至今):基于神经网络的方法至今):基于神经网络的方法逐步发展并得到大幅提升优点:数据驱动力更强,泛化能力更强,逐步挖掘语言知识缺点:数据需求大(质量/数量),训练成本高;可解释性有限核心进展:核心进展:1 1)词向量词向量的应用明确了训练目标,构建起语义信息和数据之间的桥梁的应用明确了训练目标,构建起语义信息和数据之间的桥梁2 2)LSTM/LSTM/注意力机制注意力机制增强上下文理解能力,提高语义信息学习能力增强上下文理解能力,提高语义信息学习能力3 3)Transforme
9、rTransformer推动串行走向并行优化计算结构,大幅提升算法和语言模型的训练速度推动串行走向并行优化计算结构,大幅提升算法和语言模型的训练速度4 4)预训练预训练明确了训练思路,解决了数据量不足的问题,降低了模型应用的门槛明确了训练思路,解决了数据量不足的问题,降低了模型应用的门槛我们认为以上核心进展,推动了自然语言理解走向大模型,推动了语义理解和生成的大幅提高,并在更多场景落地应用我们认为以上核心进展,推动了自然语言理解走向大模型,推动了语义理解和生成的大幅提高,并在更多场景落地应用。20132013word2vec20142014glove20152015LSTM20172017Tr
10、ansformer20182018GPT/BERT20182018ELMO20192019GPT-220202020GPT-320222022InstructGPT/ChatGPT20032003NNLM图图表:基于神经网络的自然语言处理重要算法时间轴表:基于神经网络的自然语言处理重要算法时间轴早期神经网络语言模型早期神经网络语言模型词向量开始被重视词向量开始被重视部分解决长程依赖部分解决长程依赖不断发掘模型容量和数据量不断发掘模型容量和数据量增加带来的性能提升增加带来的性能提升引入引入RLHFRLHF资料来源:Google Scholar,机器之心,OpenAI,CSDN,中信建投LSTM模
11、型示意图Transformer模型示意图GPT模型示意图word2vec模型示意图注意力机制挖掘语义关联注意力机制挖掘语义关联开启预训练大模型时代开启预训练大模型时代 1.3 Word2Vec:词向量构建起语义信息和数据之间的桥梁词向量(word embedding)在早期的神经网络语言模型中便已经出现,但一直没有受到重视和关注,直到word2vec模型开始真正重视起来。词向量的重要意义:1 1)通过数学方法表征了语义信息(例如:通过余弦相似度计算单词相关性)通过数学方法表征了语义信息(例如:通过余弦相似度计算单词相关性)2 2)相较于过去的方法(独热编码)其表征词汇的矩阵大小被有效控制。)相
12、较于过去的方法(独热编码)其表征词汇的矩阵大小被有效控制。Word2Vec中词向量的缺陷:缺少对于上下文文本的分析,一词多义问题成为当时限制模型语言分析能力的一大障碍。缺少对于上下文文本的分析,一词多义问题成为当时限制模型语言分析能力的一大障碍。我们认为,词向量的应用,让我们认为,词向量的应用,让NLPNLP领域的神经网络训练的训练目标变得明确,为后续模型的发展奠定了基础。领域的神经网络训练的训练目标变得明确,为后续模型的发展奠定了基础。资料来源:飞桨AI studio,中信建投图图表:利用表:利用Word2VecWord2Vec产生单词对应的词向量产生单词对应的词向量图表:图表:Word2V
13、ecWord2Vec产生的词向量能够反映单词之间的语义关系(二维)产生的词向量能够反映单词之间的语义关系(二维)相似语义关系的词组具有相似的向量关系相似语义关系的词组具有相似的向量关系例:国家和首都的关系(红框)例:国家和首都的关系(红框)形容词比较级之间的关系(蓝框)形容词比较级之间的关系(蓝框)资料来源:飞桨AI studio,中信建投维度维度2 2维度维度1 1 1.4 RNN/LSTM/ELMO:逐步强化模型分析上下文能力RNN(循环神经网络)解决了短程时序依赖问题循环神经网络)解决了短程时序依赖问题:对于较短的序列,RNN可以结合少量的前文来分析后文,但当序列较长时,由于梯度消失/爆
14、炸,模型难以学到远距离的信息。LSTM(长短期记忆)部分解决了长程时序依赖问题长短期记忆)部分解决了长程时序依赖问题:LSTM引入了“遗忘”的结构,在信息传递过程中改善了“信息过长,信息丢失”的问题,进而使得模型可以学到相对远距离的信息。但其效果依然有限,串行计算也显著影响了训练效率。ELMO完善了上下文时序依赖问题完善了上下文时序依赖问题:采用双向LSTM结构,同时学习上下文信息。我们认为,我们认为,LSTM/ELMO强化了模型分析上下文的能力,进而增强了模型的语义理解能力,较好解决了一词多义问题。强化了模型分析上下文的能力,进而增强了模型的语义理解能力,较好解决了一词多义问题。举例 短程依
15、赖:对于问题“我的母语是_”,可以通过“母语”确定后面填空应当为一种语言,这个过程便是短程依赖;长程依赖:但如果需要通过文章开头的句子来进一步确定问题的答案,例如“我的故乡是中国,我的母语是_”,基于文章开头的“故乡是中国”,来判定此处填空应当为“中文”,此时对于更远距离的文本内容的学习便是长程依赖。图图表:表:RNNRNN结构结构图图表:表:LSTMLSTM结构结构资料来源:CSDN,BERT:Pre-training of Deep Bidirectional Transformers for Language Understanding,中信建投图图表:表:ELMOELMO结构结构Xt为
16、当前时刻的输入ht为当前时刻的输出右向的红色箭头表示当前时刻的输出参与下一时刻的计算绿色部分相当于RNN结构的A遗忘门:决定向下传递中需要保留的内容 1.5 注意力机制增强语义关联,赋予模型并行运算能力核心思路核心思路:从文本中有选择地筛选出少量重要信息并聚焦到这些重要信息上,忽略不重要的信息。实现方法实现方法:单独计算目标单词和全文所有单词的“重要性”,进而理解单词和句子在语境中的含义。重要意义重要意义:1 1)解决了“信息过长,信息丢失”问题:任意位置词向量可关联计算,一次性获得局部和全局信息的关联。)解决了“信息过长,信息丢失”问题:任意位置词向量可关联计算,一次性获得局部和全局信息的关
17、联。2 2)拥有并行能力:每个单词词向量的计算不依赖于前个单词词向量,可实现并行计算。)拥有并行能力:每个单词词向量的计算不依赖于前个单词词向量,可实现并行计算。3 3)赋予了词向量新的内涵:提供了一些可解释性(句法层面的特征),如句子结构中主语和谓语之间的关系)赋予了词向量新的内涵:提供了一些可解释性(句法层面的特征),如句子结构中主语和谓语之间的关系缺陷:缺陷:对序列中的位置信息缺少考虑(后续通过在词向量中加入位置信息解决)变种变种:Self-Attention、Masked Self-Attention、Multi-Head Self-Attention等资料来源:知乎,中信建投图图表:
18、注意力机制获得的单词间重要性关系(表:注意力机制获得的单词间重要性关系(SelfSelf MaskedMasked AttentionAttention)1.红色为目标单词,颜色越深表示重要性越强;例如对于第四句的chasing来说,“FBI”和“is”相对“The”是更重要的单词图图表:不同注意力机制的含义表:不同注意力机制的含义Attention考虑对于查询语句中的词语而言重要的信息Self Attention考虑对于文章自身的每个单词而言重要的信息Masked Attention只考虑当前及过去的文本信息的重要性,不考虑未来的文本信息的重要性Multi-Head Attention考虑对
19、于同一词语的不同含义重要的信息,再将结果“组合”起来资料来源:中信建投2.因为其采用的是Self MaskedAttention,因此计算的是和前文单词之间的重要性。1.6 预训练的应用:弥补训练数据量不足,降低模型应用门槛预训练模型原理:预训练模型原理:对于语言/图像处理而言,其浅层特征是通用的:底层网络参数在面对不同任务时均可以复用。但随着网络层数增加,越深层的特征与具体任务的相关性便越强。例如人、车、大象图像的浅层特征都是线条和轮廓。因此在模型浅层部分通过海量数据的预训练(Pre-training),再根据具体下游场景训练深层特征做微调(Fine-tuning)。我们认为,预训练的应用是
20、具有跨时代意义的我们认为,预训练的应用是具有跨时代意义的。一方面其解决了因神经网络日益复杂而带来的数据需求日益增加的问题。另一方面,。一方面其解决了因神经网络日益复杂而带来的数据需求日益增加的问题。另一方面,基于海量数据预训练后的模型,下游具体任务的训练速度被大大加快,准确度也进一步提高。基于海量数据预训练后的模型,下游具体任务的训练速度被大大加快,准确度也进一步提高。图图表:图像识别任务中浅层特征与深层特征的示意图表:图像识别任务中浅层特征与深层特征的示意图资料来源:CSDN,中信建投不同的下游任务中深层特征具有较大差异不同的下游任务中浅层特征具有通用性图图表:预训练模型:基础知识学习表:预
21、训练模型:基础知识学习+具体任务学习具体任务学习英文法律文书知识英文知识法律文书知识小说知识加速了下游任务的训练速度加速了下游任务的训练速度减少了下游任务的数据需求减少了下游任务的数据需求海量英文法律文书相关数据海量数据少量法律文书相关数据少量小说相关数据资料来源:Improving Language Understanding by Generative Pre-Training,中信建投英文法律文书撰写英文法律文书撰写英文小说创作英文小说创作预训练预训练下游具体任务的微调下游具体任务的微调直接训练模型直接训练模型英文法律文书撰写英文法律文书撰写 1.7 集大成者:Transformer正式
22、开启预训练大模型时代TransformerTransformer模型的核心结构是:编码器(模型的核心结构是:编码器(encoderencoder)-解码器(解码器(decoderdecoder)工作原理工作原理:对于Transformer最初应用的翻译任务而言,其过程为输入文本通过encoder编码,经过多层注意力增强机制提取特征后,学习并理解语句含义转为词向量,再由decoder解码,基于前文词向量生成文本,完成翻译任务。共同点共同点:encoder和decoder都采取了多层多头注意力进行特征提取和学习,能够深入挖掘文本的语义关联信息差异点:差异点:encoder:同时对上下文进行理解,有
23、更强的语言理解能力。decoder:使用多头掩码注意力机制,将输入文本当前词以后的单词掩盖(masked)进行训练,这与语言生成过程逻辑一致(由前往后逐词生成,下一个单词只与前文信息相关),因此decoder拥有更强的文本生成能力。综上,综上,encoderencoder对上下文的理解类似于“完形填空”,有更强的理解能力。而对上下文的理解类似于“完形填空”,有更强的理解能力。而decoderdecoder类似根据题目写作文,有更强的生成能力。类似根据题目写作文,有更强的生成能力。图表:图表:TransformerTransformer模型结构简图模型结构简图图表图表:TransformerTr
24、ansformer模型结构模型结构多头自注意力机制多头掩码自注意力机制资料来源:Attention is all you need,中信建投资料来源:CSDN,中信建投 1.8 基于Transformer,BERT&GPT分别采取了不同的策略GPT:建立在 Transformer Decoder 的基础上、具有良好的自然语言生成能力,然而当前词的语义只能由其前序词决定,因此在语义理解上不足。一定程度上牺牲语义理解能力,换取更强的生成能力。BERT:建立在Transformer Encoder 的基础上,并使用了与其配套的掩码训练方法。虽然使用双向编码让 BERT 文本生成能力被削弱,但是 BE
25、RT 的语义信息提取能力更强。二者均采用预训练方法:第一阶段使用大规模无标签语料训练基础语言模型。第二阶段根据指定任务的少量带标签数据进行微调训练。我们认为我们认为:1.Transformer创新性架构设计为后续的语言模型奠定基础,开启了预训练大语言模型的时代。2.谷歌和OpenAI引领大模型发展:谷歌和OpenAI先后于2018年提出基于Encoder的BERT和基于Decoder的GPT。谷歌在3年后加入OpenAI的Decoder路线,但在时间上处于落后。OpenAI在模型中引入人工反馈,并推出了生成能力极强的ChatGPT,引领全行业。图图表:表:BERT&GPTBERT&GPT示意图
26、示意图图表:图表:GoogleGoogle和和OpenAIOpenAI在语言模型中的发展时间线在语言模型中的发展时间线资料来源:BERT:Pre-training of Deep Bidirectional Transformers for Language Understanding,公司官网,中信建投 1.9 GPT 1-3:不断发掘模型容量和数据量增加带来的性能提升GPT-1使用了BooksCorpus数据集,这个数据集包含 7,000 本没有发布的书籍。1.数据集拥有更长的上下文依赖关系,使得模型能学得更长期的依赖关系;2.这些书籍因为没有发布,所以很难在下游数据集上见到,更能验证模型
27、的泛化能力。GPT-2的文章取自于Reddit上高赞的文章,命名为WebText。数据集共有约800万篇文章,累计体积约40G。为了避免和测试集的冲突,WebText移除了涉及Wikipedia的文章。GPT-2训练了4组不同的层数和词向量的长度的模型:12/768,24/1024,36/1280,48/1600,滑动窗口大小为1024(一次性对于上下文的1024个单词进行关联语义挖掘)。GPT-3共训练了5个不同的语料,分别是低质量的Common Crawl,高质量的WebText2,Books1,Books2和Wikipedia。GPT-3采用了 96 层的96头transformer;词
28、向量的长度是 12,888;滑动窗口大小提升至 2,048我们认为,在我们认为,在TransformerTransformer模型的广泛应用中,参数量和预训练数据量的提升,快速提升了模型的表现能力。千亿级参数量的模模型的广泛应用中,参数量和预训练数据量的提升,快速提升了模型的表现能力。千亿级参数量的模型开始不断出现。型开始不断出现。图图表:表:GPTGPT系列模型的参数量与数据量不断提升系列模型的参数量与数据量不断提升资料来源:机器之心,中信建投模型发布时间参数量预训练数据量GPT2018.61.17亿约5GBGPT-22019.215亿40GBGPT-32020.51750亿45TB 1.1
29、0 GPT 1-3:针对下游任务输入的不断革新GPT1-3的下游任务训练方法:GPT-1:针对不同下游任务,通过特殊格式的少量标注数据集进行训练(提供特殊格式的例子)。GPT-2:zero-shot,完全不提供例子,直接使用自然语言描述问题(task description),但实际效果有限。GPT-3:zero-shot/one-shot/few-shot,不提供/提供1个/提供少量几个例子,让模型完成相应的下游任务。我们认为,随着模型参数量和预训练数据量的增大,模型对通用任务的处理能力显著提升,对下游微调的依赖性减弱我们认为,随着模型参数量和预训练数据量的增大,模型对通用任务的处理能力显著
30、提升,对下游微调的依赖性减弱。一方面,模型已经在庞大的预训练数据量中学习了相关知识;另一方面,少量的微调数据难以调整巨大的神经网络模型。资料来源:Improving Language Understanding by Generative Pre-Training,Language Models are Few-Shot Learners,中信建投图图表:表:GPTGPT-1 1对于不同下游任务的训练数据格式对于不同下游任务的训练数据格式图图表:表:GPT3GPT3采用的采用的zerozero-shot/oneshot/one-shot/fewshot/few-shotshot方法(左)与对应
31、性能(右)方法(左)与对应性能(右)1.11 GPT3ChatGPT:引入基于人类反馈的强化学习图图表:表:InstructInstruct GPTGPT引入人类反馈的强化学习示意图引入人类反馈的强化学习示意图图图表:表:ChatGPTChatGPT能力的来源能力的来源基于人类反馈的强化学习基于人类反馈的强化学习(RLHFRLHF)就是通过人类的反馈去规范学习的过程就是通过人类的反馈去规范学习的过程:1.使用人工标注形成标准答案:在ChatGPT的兄弟版本InstructGPT中,40位人工标注员针对一个详细说明了下游任务的数据集,完成了13000个问答,基于这些这些问答组成的训练数据来调整模
32、型。2.训练一个奖励模型:针对模型给出的相同问题的多个回答,然后人工给这些问答对按一些标准(可读性、无害、正确性等)进行排序,训练一个奖励模型/偏好模型来打分(reward model)。3.持续更新网络参数,在奖励模型的激励下使模型生成的答案不断趋近于定义的标准答案。资料来源:Training language models to follow instructions with human feedback,How does GPT Obtain its Ability?Tracing Emergent Abilities of Language Models to their Sourc
33、es,中信建投语言生成能力基础世界知识上下文学习能力存储知识的能力遵循不同指令的能力生成符合人类预期的答案的能力大语言模型的预训练过程海量的训练数据大语言模型中的海量参数广泛的指令学习基于人类反馈的强化学习 1.12 ChatGPT与Bard对比2022年11月30日,OpenAI发布聊天机器人ChatGPT,基于GPT-3模型,为微软主导,能够模拟人类语言行为,与用户进行自然交互;2023年2月6日,谷歌发布Bard聊天机器人,基于大语言模型LaMDA。LaMDA包含1370亿个参数量,预训练数据为1.56T;GPT-3包含1750亿个参数量,预训练数据量为45TB。在训练方式上,在训练方式
34、上,ChatGPT在GPT-3基础上加入了人类反馈强化学习(RLHF),采用人工标注的方式将自然语言和强化学习结合起来,极大提升了模型的效率和学习能力。在数据集上,在数据集上,虽然原始LaMDA预训练数据量不如GPT-3,但Bard数据更新且与谷歌搜索引擎集成后能访问大量数据,在获取信息的深度和广度方面要比ChatGPT大,与ChatGPT相比,Bard模型具有明显的数据量优势。除以上区别外,还存在ChatGPT内嵌了抄袭检测工具、Bard目前只应用在搜索中、Bard是免费的而ChatGPT有付费选项等区别。图表:图表:ChatGPTChatGPT与与BardBard区别区别资料来源:谷歌,微
35、软,中信建投ChatGPTBard可以在ChatGPT网站进行访问,但只有文本响应集成在谷歌搜索中,只需要更改谷歌设置即可获得BardAI搜索结果数据集来自2021年及以前的数据库数据来自互联网,有比ChatGPT更新的数据基于GPT基于LaMDA服务有免费的也有付费计划选项服务是免费的内置了名为GPT-2 Output Detector的抄袭工具没有内置抄袭检测工具目前已经发布仍然处于测试阶段 1.13 KOSMOS-1从大语言模型到多模态大语言模型图图表:表:KOSMOSKOSMOS-1 1在视觉问答方面的测试样例在视觉问答方面的测试样例图图表:表:KOSMOSKOSMOS-1 1在图像对
36、话在图像对话/逻辑问答方面的测试样例逻辑问答方面的测试样例微软发布多模态大型语言模型(MLLM)KOSMOS-1。其基于Transformer模型,不但可以完成文本学习、指令遵循、上下文学习、文本生成等任务,还能够将文本以外的模态(如视觉图像、语音)嵌入到模型中,进而完成多模态的下游任务。研究证明,在多个下游任务中,该模型具有非常优异的性能。其训练数据集包括文本语料库、图像-字幕对、图像和文本交叉数据集;模型的参数总量为16亿。重要意义:多模态感知是实现通用人工智能的重要条件,多模态技术的发展将进一步增强人工智能的知识获取能力和高价值场景应重要意义:多模态感知是实现通用人工智能的重要条件,多模
37、态技术的发展将进一步增强人工智能的知识获取能力和高价值场景应用能力用能力我们认为,多模态大语言模型蕴含着更广泛的应用场景和更高的商业价值,将成为未来人工智能行业发展重要的竞争赛道,多模态我们认为,多模态大语言模型蕴含着更广泛的应用场景和更高的商业价值,将成为未来人工智能行业发展重要的竞争赛道,多模态技术的成熟也将进一步加速人工智能技术在不同场景的落地应用。技术的成熟也将进一步加速人工智能技术在不同场景的落地应用。资料来源:Language Is Not All You Need:Aligning Perception with Language Models,机器之心,中信建投 1411573
38、2750334005006002002120222023预训练自然语言的大模型相关研究得到爆发式发展预训练自然语言的大模型相关研究得到爆发式发展。2017年Transformer模型诞生之后,随即被应用到自然语言、视觉识别等诸多领域,2018年自然语言预训练大模型的概念逐渐兴起,通过在web of science上检索 pre-trained language model(PLM),我们发现自2018年之后,预训练大模型得到了学术圈的广泛研究,相关学术论文数量也呈现爆发式增长。2022年大部分企业都加大了自然语言大模型的研发力度年大部分企业都加大了自
39、然语言大模型的研发力度。通过对相关企业的文献数量研究,我们能够窥测到:微软、谷歌在自然语言大模型领域进入较早且持续投入较大。整体来看,大部分企业在2022年都加快了自然语言模型的研发进程,在ChatGPT爆火之后,自然语言大模型领域将迎来新一轮的研究浪潮。1.14 预训练自然语言大模型学术研究情况图:大模型的相关学术研究论文数量图:大模型的相关学术研究论文数量图:不同企业的大模型学术论文的发表频次图:不同企业的大模型学术论文的发表频次02468101214微软华为阿里巴巴谷歌百度脸书IBM200212022资料来源:Web Of Science,中信建投 目录一、一、NL
40、PNLP算法发展历程介绍算法发展历程介绍二、训练好大模型的要素二、训练好大模型的要素三、算力需求的展望三、算力需求的展望四、投资逻辑梳理四、投资逻辑梳理 2.训练好大模型的要素模型参数训练数据预训练微调训练效率1、大模型的性能往往随着模型参数量增加而增加,这是可以从小模型推断出来的;2、某些情况下,大模型的参数增加到一定程度,模型性能会有一些突破性,这不能从小模型进行推断,被称为大模型的突现能力。突现能力。1、模型的数据量与模型参数数量同等重要模型的数据量与模型参数数量同等重要,模型数据量要和参数量保持相同速度增长;2、高质量、干净的数据集会高质量、干净的数据集会对模型预训练产生较好的性能提升
41、。1、模型需要更充分的预训练,模型需要更充分的预训练,包括增大batchsize和步长;2、增大预训练难度增大预训练难度可以提升模型性能。Prompt、Fine-tune提高模型在下游场景的表现并行计算、显存优化与模型稀疏性是提升训练效率的三种方式训练准备模型训练训练环境 2.1 大模型与小模型界定大模型,又称为基础模型或者大规模预训练模型,是大模型,又称为基础模型或者大规模预训练模型,是“大算力大算力+强算法强算法”结合的产物结合的产物,大模型是人工智能发展的趋势和未来。,大模型是人工智能发展的趋势和未来。大模型的一般训练过程:大模型的一般训练过程:数据获取-数据清洗-大模型训练-下游适配-
42、终端应用大模型与小模型没有非常清晰的界定,站在当前时点来看,大模型一般具备如下特征:大模型与小模型没有非常清晰的界定,站在当前时点来看,大模型一般具备如下特征:参数量(十亿量级)和训练数据量(GB以上)巨大,一般采用transformer架构;采用预训练模式,在通用数据集上进行预训练,而不是直接在特定数据集进行特定任务的训练;具备迁移学习能力,迁移学习的思想是将从一项任务(例如,图像中的对象识别)中学到的“知识”应用到另一项任务(例如,视频中的行为识别)中,在Zero/One-shot中具有较好的表现,即训练样本很少或者没有的情况下,仍有较好性能。模型的训练过程依赖云端设备,无法在离线个人终端
43、上实现;数据获取数据清洗大模型训练下游适配终端应用图图表:大模型的训练及应用过程表:大模型的训练及应用过程资料来源:On the Opportunities and Risks of Foundation Models,中信建投 2.2 大模型与小模型建模过程的差异性在训练步骤方面。大模型的训练过程主要包含如下步骤:数据获取在训练步骤方面。大模型的训练过程主要包含如下步骤:数据获取数据清洗数据清洗 大模型训练大模型训练下游适配下游适配终端应用,小模型的训终端应用,小模型的训练过程主要包含如下几个步骤:任务制定练过程主要包含如下几个步骤:任务制定数据获取数据获取数据清洗数据清洗 模型训练模型训练
44、模型调试模型调试终端应用。训练过程的差异性主要存在终端应用。训练过程的差异性主要存在于以下两个步骤中:于以下两个步骤中:在数据获取环节方面,大模型的训练文本一般是通用数据集,其训练文本并未针对特定领域进行筛选。小模型的训练过程中首先制定任务目标,针对特定目标搜选训练数据集,适用于监督学习的数据集同时需要标注员进行人工标注。在训练模式方面,大模型一般采用预训练模式,训练过程中并未针对下游特定任务,训练之后需要fine-tune(微调)去在下游应用领域适用。小模型在训练时包含特定任务,训练结束后经过一定的参数微调,便可应用到下游领域。图图表:“源”模型数据预处理流程图表:“源”模型数据预处理流程图
45、资料来源:浪潮信息,BERT:Pre-training of Deep Bidirectional Transformers for Language Understanding,中信建投图图表:表:BERTBERT模型的预训练过程和下游任务微调模型的预训练过程和下游任务微调 2.3 如何训练好一个大模型:增加模型参数及复杂度模型参数量对大模型的性能有重要影响,大模型的性能往往随着模型参数量的增加而上升模型参数量对大模型的性能有重要影响,大模型的性能往往随着模型参数量的增加而上升,多数是可以预见的,模型性能通常是依靠知识和简单的文本操作来提高。大模型还存在一种不可预见现象,被称为大模型的突现能
46、力(大模型还存在一种不可预见现象,被称为大模型的突现能力(emergent abilities or breakthroughness),),指在特定任务中,伴随着模型参数量的增加,会发生一些不存在于小模型的现象,这种现象不能简单通过推断小模型的性能改进进行预测,约有5%的大模型任务会出现大模型的突现能力。在一定程度上堆叠更多的网络层数,提升模型复杂度,有利于提升模型效果。在一定程度上堆叠更多的网络层数,提升模型复杂度,有利于提升模型效果。例如,GPT-1为12层网络,GPT-2将Transformer堆叠的层数增加到48层,GPT-3则为96层。此外,增加模型中词向量长度,放大每层网络中的构
47、件大小等均能提升模型效果。图表:模型性能随参数量上升图表:模型性能随参数量上升图表:随着参数量上升大模型性能具有突破性图表:随着参数量上升大模型性能具有突破性资料来源:Emergent Abilities of Large Language Models,Quantifying and extrapolating the capabilities of language models,中信建投 2.4 语言模型对训练数据量提出更高需求在大模型中,模型在大模型中,模型参数量大小参数量大小和训练数据量应该以大致相同的速度增长。和训练数据量应该以大致相同的速度增长。大模型普遍训练不足的问题:训练不足
48、的问题:DeepMind的最新论文中审视了当前的模型发展,发现普遍存模型的大小与训练数据量不匹配。因为在过去,业界普遍认为大模型表现和参数量高度相关。但在实际训练中,算力是对模型最大的制约因素,模型参数不可能无限增长。参数量与数据量应匹配参数量与数据量应匹配:在算力资源有限情况下,如何匹配模型参数量和数据量使得模型表现达到最优,是非常重要的问题。DeepMind最新的研究成果表明:对于固定的算力资源,模型参数大小和训练数据的大小是对应的。1)OpenAI过去的工作发现,模型的尺寸应该会比训练数据大小的增加更快。2)DeepMind新研究发现,模型的尺寸和训练数据的数量应该以大致相同的速度增长。
49、在最优性能曲线(右下图三条直线)中:DeepMind的Chinchilla(700亿)模型,利用原先4倍的训练数据量,获得了参数量和性能的最优匹配。可以看到Gopher(2800亿)、GPT-3(1750亿)、MT-NLG(5300亿)等模型的训练量明显不足,造成了对算力的浪费。图表:图表:DeepMindDeepMind训练大模型的参数训练大模型的参数图表:图表:DeepMindDeepMind发现很多大模型参数量应该有所降低发现很多大模型参数量应该有所降低资料来源:Training Compute-Optimal Large Language Model,State of AI 2022,
50、中信建投ModelSize(#Parameters)Training TokensLaMDA137 Billion168 BillionGPT-3 175 Billion300 BillionJurassic178 Billion300 BillionGopher280 Billion300 BillionMT-NLG 530B530 Billion270 BillionChinchilla70 Billion1.4 Trillion 2.5 高质量的数据集可能更为重要对于大型语言模型而言,数据质量可能更为重要。对于大型语言模型而言,数据质量可能更为重要。数据质量包括数据准确度、信息含量以及数
51、据类型的多样性等。多年前谷歌提出的T5预训练模型,使用其专门构造的C4数据集(Colossal Clean Crawled Corpus),该数据集是从Common Crawl 网站上抓取数百个千兆字节干净的英文文本,从而使得模型训练后,性能有较好的表现。除了构造高质量、干净的数据集外,除了构造高质量、干净的数据集外,对不同质量的数据在训练中赋以不同的训练占比也是提升训练效果的方法。以不同的训练占比也是提升训练效果的方法。例如,GPT-3中数据集包括Common Crawl在内的五类数据,但该模型并非根据数据量大小赋予同比例权重,而是将质量较高的维基百科数据在训练集中给予更大的单数据量占比。阿
52、伯丁大学等相关学者(阿伯丁大学等相关学者(资料来源资料来源2)对训练数据集进行了估算,结论到)对训练数据集进行了估算,结论到2026年左右,高质量的年左右,高质量的 NLP 数据将会用光,低质量数据将会用光,低质量 NLP 数数据会在据会在2030到到2050年用光,而低质量图像数据会在年用光,而低质量图像数据会在2030到到2060年用光。年用光。资料来源:1.Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer,2.Will we run out of data?An analys
53、is of the limits of scaling datasets in Machine Learning,3.Language Models are Few-Shot Learners,中信建投图表:图表:T5T5模型模型C4C4数据集表现(前四类数据集是数据集表现(前四类数据集是C4C4或者基于或者基于C4C4的变体)的变体)图表:图表:GPTGPT-3 3数据集数据集Data setSizeGLUE CNNDM SQnAD SGLUE EnDe EnF EnRoC4745GB83.2819.2480.8871.3626.98 39.82 27.65C4,unfiltered6.1T
54、B81.4619.1478.7868.0426.55 39.34 27.21RealNews-like35GB83.8319.2380.3972.3826.75 39.90 27.48WebText-like17GB84.0319.3181.4271.4026.80 39.74 27.59Wikipedia16GB81.8519.3181.2968.0126.94 39.69 27.67Wikipedia+TBC 20GB83.6519.2882.0873.2426.77 39.63 27.57DatasetQuantity(tokens)Weight in training mixEpoch
55、s elapsed when training for 300B tokensCommon Crawl(filtered)410 billion60%0.44WebText219 billion22%2.9Books112 billion8%1.9Books255 billion8%0.43Wikipedia3 billion3%3.4 2.6 大模型需要更充分的预训练大模型预训练阶段主要通过在一定程度上增大大模型预训练阶段主要通过在一定程度上增大batchSize(每一组数据的大小)和步长(在数据上移动的长度)实现。(每一组数据的大小)和步长(在数据上移动的长度)实现。典型的增大batchs
56、ize与步长的模型是BERT的改进版本RoBERTa。RoBERTa是稳健优化的BERT方法,使用动态掩码、更大的batchsize以及字节对编码等进行优化。RoBERTa在在BERT的基础上,通过增大的基础上,通过增大batchsize(8K)和步长()和步长(100K-300K-500K),使得),使得BERT得到充分训练,极大提升了原得到充分训练,极大提升了原始始BERT模型的效果。模型的效果。图表:图表:RoBERTaRoBERTa模型使用大的模型使用大的batchSizebatchSize和增加训练步数和增加训练步数资料来源:RoBERTa:A Robustly Optimized
57、BERT Pretraining Approach,中信建投ModeldatabszstepsSQuAD(v1.1/2.0)MNLl-mSST-2RoBERTawith BooKs+WIKI16GB8K100K93.6/87.389.095.3+additional data(3.2)160GB8K100K94.0/87.789.395.6+pretrain longer160GB8K300K94.4/88.790.096.1+pretrain even longer160GB8K500K94.6/89.490.296.4BERT largewith BooKs+WIKI13GB2561M90
58、.9/81.886.693.7XLNet largewith BooKs+WIKI13GB2561M94.0/87.888.494.4+additional data126GB2K500K94.5/88.889.895.6不同数据集的准确率不同数据集的准确率 2.7 增加预训练任务的难度图表:各种语言模型预训练任务图表:各种语言模型预训练任务资料来源:Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer,中信建投大模型在进行预测之前需要进行预训练大模型在进行预测之前需要进行预训练,如果
59、预训练任务越有难度如果预训练任务越有难度,则预训练模型则越能高效率学习知识则预训练模型则越能高效率学习知识,则最终模型能有更好则最终模型能有更好的性能表现的性能表现。以BERT为例,BERT有两个预训练任务,分别是单词级的MASK语言模型和句子级的下一句预测NSP模型。MASK模型随机选取一部分单词进行屏蔽,要求模型对屏蔽词作出预测。MASK任务中,相较于简单屏蔽一个独立的单词,通过屏蔽连续的单词片段,对模型要求更高,训练效果也最好。NSP的主要目的是判断两个句子之间的连贯性,正例由两个连续句子构成,负例的两个句子顺序则是随机的,不具备上下文关系,NSP将连贯性预测和主题预测进行了合并,只需要
60、模型预测句子是否主题相似即可,任务比较简单。在BERT模型的改进版ALBERT中,用SOP代替了NSP,将两个连续出现的句子构造成正例,负例则将连续的句子调换语序,需要模型预测两个句子出现顺序是否正确,模型复杂度增加,但同时模型学到了更多知识,取得了比较好的训练效果。ObjectiveInputsTargetsPrefix language modelingThank you for invitingme to your party last week.BERT-styleThank you me to your party apple week.(original text)Deshufll
61、ingparty me for your to.last fun you inviting week Thank(original text)MASS-styleThank you me to your party week.(original text)l.i.d.noisE,replace spansThank you me to your party week.for inviting last l.i.d.noise,drop tokensThank you me to your party week.for inviting lastRandom spansThank you to
62、week.for inviting me your party last 2.8 Fine-tune、Prompt提高模型下游任务表现大型语言模型预训练之后,需要进行微调。Fine-tune方法将预训练模型在具体的下游任务上进行微调,以获得更好的应用效果。但是这种策略一方面需要保存大量的主干参数的数据且需要大量训练数据,成本较高;另一方面,在上下游任务目标差异大时,微调难以解决问题;同时,不改变大部分参数,只针对输出部分进行调整,会导致过拟合问题。Prompt方法主要通过改造下游任务的模板来缩小预训练和微调时的差异,降低微调成本,提高模型在下游的应用效果。最大的优方法主要通过改造下游任务的模板
63、来缩小预训练和微调时的差异,降低微调成本,提高模型在下游的应用效果。最大的优点是零点是零/小样本,解决了小样本,解决了Fine-tune最大的痛点最大的痛点。Prompt的设计分为模板设计、答案搜索和答案映射三步。的设计分为模板设计、答案搜索和答案映射三步。Prompt模板的设计方法主要分为人工构建模板的设计方法主要分为人工构建模板、离散模板和连续模板三模板、离散模板和连续模板三种。种。其中,人工构建的模板具有直观、高效的特点,但是费时费力难度较大;离散模板对专业知识的要求较低,但是在部分任务上性能不佳;连续模板在部分场景下性能超过Fine-tune,但是训练时间长、收敛速度慢,与预训练数据可
64、能出现过耦合。图表:连续图表:连续PropmtPropmt和和FineFine-tunetune调优效果对比调优效果对比图表:离散图表:离散PropmtPropmt和和FineFine-tunetune调优效果对比调优效果对比资料来源:Prefix-Tuning:Optimizing Continuous Prompts for Generation,Autoprompt:Eliciting knowledge from language models with automatically generated prompts,中信建投 2.9 并行计算、显存优化与模型稀疏性提升训练效率图表:并
65、行策略图表:并行策略图表:零冗余优化器优化过程图表:零冗余优化器优化过程图表:专家混合模型(图表:专家混合模型(MoEMoE)是典型的模型稀疏性方法)是典型的模型稀疏性方法并行计算、显存优化与模型稀疏性设计是提升大模型训练效率的三种技术。并行计算、显存优化与模型稀疏性设计是提升大模型训练效率的三种技术。并行计算通过使用多张显卡训练模型,将任务进行拆解,分配给不同的处理器进行处理,可以提高模型的训练效率。根据不同的维根据不同的维度,分为数据并行、流水线并行、张量并行三种。度,分为数据并行、流水线并行、张量并行三种。数据并行是将相同模型权重复制到多个设备,并将一部分数据分配给每个设备同时处理;流水
66、线并行是一种通过将模型并行与数据流水线相结合来加速神经网络训练的方法,核心思想在于模型按层分割成若干块,每块都交给一个设备;张量并行是将一个张量沿特定维度分成若干部分在不同的设备上分别计算。显存优化技术显存优化技术能够降低显存占用,提高GPU利用率,与并行计算相结合,节约模型训练的成本,实现在单GPU上训练大模型,包括激活检查点(Activation Checkpointing)、混合精度训练(Mix Precision Training)以及零冗余优化器(Zero Redundancy Optimizer)模型稀疏性模型稀疏性指的是模型具有非常大的容量,但只有模型的用于给定的任务、样本或标记
67、的某些部分被激活。模型稀疏设计的优点在于输入不会激活整个模型,通过子模型处理不同类的任务,同时共享一部分模型。子模型扩大了模型的容量,但是实际计算成本不会发生明显变化。资料来源:Dive into Big Model Training,中信建投 目录一、一、NLPNLP算法发展历程介绍算法发展历程介绍二、训练好大模型的要素二、训练好大模型的要素三、算力需求的展望三、算力需求的展望四、投资逻辑梳理四、投资逻辑梳理 3.1 人工智能模型不同时段的算力需求人工智能模型的算力需求大致可以分为三个阶段:人工智能模型的算力需求大致可以分为三个阶段:2010年以前,深度学习尚未得到广泛应用,主要还是基于统计
68、的方法进行模型搭建,算力需求的增长相对缓慢,大致每20个月翻一倍。2010-2015年,深度学习模型在传统的自然语言、计算机视觉等领域开始战胜支持向量机等算法,深度学习模型开始成为主流算法,随着神经网络的层数和参数量的提升,算力需求的增长速度也显著加快,大致每6个月翻一倍。2016年之后,人工智能模型开始进入巨量参数时代,算力需求显著提升。年之后,人工智能模型开始进入巨量参数时代,算力需求显著提升。根据英伟达的算力统计显示,自2017年之后,以Transformer模型为基础架构的大模型算力需求提升大致是每2年提升275倍。图表:图表:AIAI模型的算力需求逐步提升模型的算力需求逐步提升图表:
69、图表:TransformerTransformer模型的算力需求显著高于其他模型模型的算力需求显著高于其他模型资料来源:State of AI Report,英伟达,中信建投 3.2 预训练自然语言模型对算力提出更高需求随着大规模预训练自然语言模型的提出随着大规模预训练自然语言模型的提出,模型的训练过程中提出了更高的算力要求模型的训练过程中提出了更高的算力要求。预训练模型通过无需人工标注的大规模文本库进行高算力的预先训练,得到通用的语言模型和表现形式,再经过特定应用环境对预训练模型进行微调,从而在各种下游应用领域得到目标任务的快速收敛和准确率提升。预训练模型在训练过程中不针对下游任务进行训练,
70、模型的泛化学习能力使其具备广泛的下游适应能力,泛化学习能力与模型的参数量密切相关,因而参数巨量化成为预训练模型的典型特征。同时随着训练数据量的显著提升,预训练模型的训练过程中对算力提出了更高的要求。chatGPT模型模型算力需求算力需求(PF-days)算力需求算力需求(flops)参数量(百万)参数量(百万)训练数据量(百训练数据量(百万万tokens)算力需求(每参算力需求(每参数数 每文本)每文本)T5-Small2.08E+001.80E+20601,0003T5-Base7.64E+006.60E+202201,0003T5-Large2.67E+012.31E+217701,000
71、3T5-3B1.04E+029.00E+213,0001,0003T5-11B3.82E+023.30E+2211,0001,0003BERT-Base1.89E+001.64E+201092506BERT-Large6.16E+005.33E+203552506RoBERTa-Base1.74E+011.50E+211252,0006RoBERTa-Large4.93E+014.26E+213552,0006GPT-3 Small2.60E+002.25E+201253006GPT-3 Medium7.42E+006.41E+203563006GPT-3 Large1.58E+011.37E
72、+217603006GPT-3 XL2.75E+012.38E+211,3203006GPT-3 2.7B5.52E+014.77E+212,6503006GPT-3 6.7B1.39E+021.20E+226,6603006GPT3 13B2.68E+022.31E+2212,8503006GPT-3 175B3.64E+033.14E+23174,6003006资料来源:Language Models are Few-Shot Learners,中信建投图表:大规模自然语言模型的参数量和算力需求图表:大规模自然语言模型的参数量和算力需求图表:训练大规模自然语言模型的算力需求图表:训练大规模
73、自然语言模型的算力需求 3.3 超大规模自然语言模型的算力需求迈上新台阶预训练自然语言模型进入千亿参数时代预训练自然语言模型进入千亿参数时代,模型训练算力迈上新台阶模型训练算力迈上新台阶。自GPT-3模型之后,大规模的自然语言模型进入了千亿参数时代,2021年之后涌现出诸多千亿规模的自然语言模型,模型的训练算力显著增加。GPT-3模型参数量为1750亿,训练算力需求为3.14E+23 flops,当前各种预训练语言模型还在快速的更新迭代,不断刷新自然语言处理任务的表现记录,单一模型的训练算力需求也不断突破新高。GPGPT T-3 3(1(17 75 5B B)PaPan n-GuGu (2 2
74、0 00 0B B)HyHyp pe erCrCL LO OV VA A (2 20 04 4B B)JuJur ra as ss si i c c-1 1 J Ju um m b bo o (204B204B)FLFLA AN N (1 13 37 7B B)J une 2020M ay 2021M eM eg ga at tr ro on n TuTur ri i n ng g-NLNLG G (1 13 37 7B B)YuYua an n 1.1.0 0(246B246B)Sep 2021GoGop ph he er r (2 28 80 0B B)ErErn ni i e e 3 3
75、.0 0 T Ti i t ta an n (2 26 60 0B B)L La aM DM DA A (2 28 80 0B B)J an 2022GPGPT T-j j (6 6B B)GPGPT T-NeNeo oX X (2 20 0B B)Aug 2021P Pa aL LM M (5 54 40 0B B)OPOPT T (1 17 75 5B B)B BL LO OO OM M (1 17 76 6B B)G GL LM M (1 13 30 0B B)M ay 2022Aug 2022ChChi i n nc ch hi i l l l la a (7(70 0B B)chch
76、a at tG GP PT TNov 2022图表:超大规模自然语言模型的发展进程图表:超大规模自然语言模型的发展进程资料来源:State of AI Report,中信建投 书籍网络文章对话数据获取数据清洗模型训练chatGPT、LaMDA等预训练模型预训练模型训练算力训练算力适应下游领域时适应下游领域时FineFine-tunetune算力算力商业应用大模型的算力需求主要来自于三个环节:大模型的算力需求主要来自于三个环节:预训练得到大模型的训练环节预训练得到大模型的训练环节。该环节中,算力呈现海量需求且集中训练的特点,大模型通常在数天到数周内在云端完成训练。适应下游领域时进一步适应下游领域
77、时进一步fine-tune环节环节。算力需求取决于模型的泛化能力以及下游任务的难度情况。大模型日常运行时的推理环节大模型日常运行时的推理环节。该环节中,算力取决于模型的参数量和用户调用量,需求在模型商业化后持续存在且波动较大。日常运行时的算力需求日常运行时的算力需求3.4 大模型的算力需求主要来自三个环节图表:大模型算力需求图表:大模型算力需求资料来源:中信建投 3.5 英伟达显卡是AI模型算力的主流选择英伟达显卡是英伟达显卡是AI模型中最常用的算力芯片模型中最常用的算力芯片。英伟达显卡凭借较高的灵活性和成熟的软件生态,成为当前AI模型的主流选择,根据学术论文的统计结果,英伟达显卡使用的频次是
78、FPGA的23倍,TPU的78倍。英伟达显卡实现人工智能算力的显著提升英伟达显卡实现人工智能算力的显著提升。从V100-A100-H100的发展路径来看,英伟达显卡实现了FP64、FP32算力能力的持续提升,AI模型的训练速度稳步加快,通过引入FP16、INT8 Tensor core,实现推理能力的显著提升,单位能耗下的训练和推理能力也实现稳步提升。型号型号H100A100A800V100FP64(TFlops)349.79.77.8FP32(TFlops)6719.519.515.7FP16 Tensor core(TFlops)1979624624-INT8 Tensor core(TF
79、lops)395812481248-GPU显存(GB)80808032GPU带宽(GB/s)335020392039900互连(GB/s)900600400300功耗(W)700400400300发布时间2022.032020.032022.112017.5图表:不同图表:不同AIAI芯片在人工智能论文中的出现频次芯片在人工智能论文中的出现频次图表:英伟达不同图表:英伟达不同GPGPUGPGPU的性能参数比对的性能参数比对资料来源:State of AI Report,英伟达,中信建投 3.6 AI服务器专注实现人工智能加速随着随着AI算力的需求提升算力的需求提升,衍生出专注人工智能加速的衍生
80、出专注人工智能加速的AI服务器服务器。在小模型时代,AI模型的训练和推理算力需求相对较小,依赖个人终端就可以实现。随着模型参数的逐渐提升,AI模型开始依赖云端算力,云服务器承载了主要的算力需求。当前,AI算力在数据中心的占比进一步提升,衍生出了更加专业化的AI服务器。以以GPU为主的为主的AI服务器实现人工智能的算力加速服务器实现人工智能的算力加速。AI服务器多采用异构架构,其中以2CPU+8GPU最为常见,AI服务器具有性能优越、擅长并行计算、高带宽、散热能力强等优点。传统云服务器2 CPUAI服务器2 CPU8 GPU图表:传统云服务器与图表:传统云服务器与AIAI服务器服务器图表:云服务
81、器与图表:云服务器与AIAI服务器的差异服务器的差异资料来源:浪潮信息,英伟达,中信建投云服务器云服务器AIAI服务器服务器典型配置2 CPU2 CPU+8 GPU计算性能侧重串行计算侧重并行计算适用领域传统金融、安防、通信等领域深度学习诸多领域 3.7 ChatGPT类大模型的训练成本估算AI模型的训练算力与模型参数量模型的训练算力与模型参数量、训练数据量有关:训练数据量有关:ChatGPT模型训练的算力需求为3.14e+23 FLOPs。模型的有效算力利用率为21.3%(GPT-3训练效率)。英伟达DGX A100 服务器单精度2496 TFLOP/s=2.50e+15 FLOPs,训练时
82、需要在DGX A100 服务器上总训练时长164060小时(单个A100训练150年)。按照云服务器平均运行成本估算,DGX A100服务器的小时租金是20美元,估算单次训练租用云服务器的成本是估算单次训练租用云服务器的成本是328万美金万美金。其中只考虑了单模型的单次训练服务器租金,大模型训练次数可能不止一次且存在其他研发费用没有计入其中。chatGPT训练算力:3.14E+23FLOPs实际算力需求:1.474E+24FLOPs服务器租用时长:164060小时训练成本:328万美元算力利用率:21.3%DGX A100服务器算力:2496 TFlops租金:20美金/小时图表:不同服务器上
83、图表:不同服务器上A100A100显卡的小时租金比对显卡的小时租金比对资料来源:Lambda,中信建投图表:大模型的训练成本估算图表:大模型的训练成本估算 3.8 ChatGPT类大模型的运行成本估算模型的运行成本与模型参数量模型的运行成本与模型参数量、用户调用次数有关用户调用次数有关:750字(1k token=750字)文字生成的算力需求(以FLOPs为指标)约为2N,其中N为模型参数数量,生成750字消耗算力350 TFLOPs。根据Similarweb数据,近期近期chatGPT官网官网吸引的每日访客数量吸引的每日访客数量接近接近5000万万。每小时平均访问人数约210万人,假定高峰时
84、期同时在线人数450万人,一小时内每人问6个问题,每个问题回答60字。用户高峰时期的每小时算力需求:4500000*350*6*60/750=7.56E+8 TFlops,考虑模型的有效算力利用率为21.3%,需要400台A100 服务器(3200块英伟达A100芯片)支撑,400台服务器在云上月租金台服务器在云上月租金576万美元万美元/每月每月。生成750字的算力需求:350TFlops单位小时内算力需求:3.55E+9TFLOPs需要租用400台服务器维持正常运行运行成本:576万美元/月算力利用率:21.3%DGX A100服务器算力:2496TFlops租金:20美金/小时图表:大模
85、型的运行成本估算图表:大模型的运行成本估算图表:图表:ChatGPTChatGPT官网的日均访问量(百万人次)官网的日均访问量(百万人次)资料来源:similarweb,中信建投00桌面端移动端 目录一、一、NLPNLP算法发展历程介绍算法发展历程介绍二、训练好大模型的要素二、训练好大模型的要素三、算力需求的展望三、算力需求的展望四、投资逻辑梳理四、投资逻辑梳理 投资逻辑梳理算法算力场景算法发展对算力提出更高要求算力发展助力算法不断革新算法/算力共同促进下游场景应用拓展统计方法和早期神经网络方法预训练大语言模型CPU多模态融合大模型GPU流行,ASIC逐步兴起边缘侧和服务
86、器DPU中的FPGA过往方案现状发展趋势市场特点1)预训练模型迭代对于算力提出更高要求,只有少数科技巨头能够负担起高昂的训练成本2)高质量的海量数据成为大语言模型充分训练的重要条件,数据和数据处理相关公司将在产业中变得更加重要。3)大模型训练的训练对企业协作提出更高要求,人工智能技术提供商和算力提供商协同合作,来完成大规模模型的开发。4)在新技术产生突破后,行业内的其他企业迅速跟进,意味着行业变革速度的加快,同时为更广泛的商业化落地提供可能。1)随着AI算力的需求提升,衍生出专注人工智能加速的AI服务器。GPU+CPU是当前的主流方案2)随云计算、边缘计算等新型计算方式的兴起,相关的算力单元如
87、FPGA有望得到更好的发展。3)灵活性和产业生态对于AI芯片来说十分重要,英伟达显卡因具备这两点而成为AI模型算力中的主要选择。互联网司法教育医疗人机交互金融工业 投资逻辑梳理算力算法及应用英伟达国产AI芯片服务器及供应链海光、寒武纪华为昇腾供应链OpenAI有海外业务,有可结合ChatGPT的产品华为、百度、阿里在泛化大模型基础上,做国内垂直场景落地连接算力和应用 风险提示ChatGPT技术发展不及预期:技术发展不及预期:ChatGPT属于先进AI算法,若后续GPT算法更新迭代效果不及预期,则会影响ChatGPT演进及拓展,进而会影响其商业化落地等;算法歧视与人权道德风险:算法歧视与人权道德
88、风险:ChatGPT引入基于人工反馈的强化学习,在人工反馈中,不可避免的会参杂歧视问题,从而会将歧视带入后续的人机交互中;大型语言模型在进行预训练过程中,使用了大量数据,其中会涉及相关隐私问题;算力基础设施支持不及预期:算力基础设施支持不及预期:美国制裁中国高科技企业,对中国形成芯片、算力的封锁,大语言模型训练过程中需要大量算力资源,需要关注中美关系带来的中国算力的压力;政策监管力度不及预期:政策监管力度不及预期:大语言模型带来新的网络生态商业,尚属于前期成长阶段,政策监管难度加大,相关法律法规尚不完善,政策监管力度可能不及预期。数据数量与数据质量不及预期:数据数量与数据质量不及预期:大型语言
89、模型需要大量的高质量数据进行训练,若数据数量和质量存在短板,则会影响大语言模型效果。感谢陈思玥、辛侠平、樊文辉对本报告的贡献。分析师介绍分析师介绍阎贵成:阎贵成:中信建投证券通信&计算机行业首席分析师,北京大学学士、硕士,专注于云计算、物联网、信息安全、信创与5G等领域研究。近8年中国移动工作经验,6年多证券研究经验。系2019-2021年新财富、水晶球通信行业最佳分析师第一名,2017-2018年新财富、水晶球通信行业最佳分析师第一名团队核心成员。于芳博于芳博:中信建投计算机行业分析师,北京大学空间物理学学士、硕士,2019年7月加入中信建投,主要覆盖方向智能汽车、CPU/GPU/FPGA/
90、ASIC、EDA和工业软件等方向。评级说明评级说明投资评级标准评级说明报告中投资建议涉及的评级标准为报告发布日后6个月内的相对市场表现,也即报告发布日后的6个月内公司股价(或行业指数)相对同期相关证券市场代表性指数的涨跌幅作为基准。A股市场以沪深300指数作为基准;新三板市场以三板成指为基准;香港市场以恒生指数作为基准;美国市场以标普 500 指数为基准。股票评级买入相对涨幅15以上增持相对涨幅5%15中性相对涨幅-5%5之间减持相对跌幅5%15卖出相对跌幅15以上行业评级强于大市相对涨幅10%以上中性相对涨幅-10-10%之间弱于大市相对跌幅10%以上 分析师声明分析师声明本报告署名分析师在
91、此声明:(i)以勤勉的职业态度、专业审慎的研究方法,使用合法合规的信息,独立、客观地出具本报告,结论不受任何第三方的授意或影响。(ii)本人不曾因,不因,也将不会因本报告中的具体推荐意见或观点而直接或间接收到任何形式的补偿。法律主体说明法律主体说明本报告由中信建投证券股份有限公司及/或其附属机构(以下合称“中信建投”)制作,由中信建投证券股份有限公司在中华人民共和国(仅为本报告目的,不包括香港、澳门、台湾)提供。中信建投证券股份有限公司具有中国证监会许可的投资咨询业务资格,本报告署名分析师所持中国证券业协会授予的证券投资咨询执业资格证书编号已披露在报告上海品茶。本报告由中信建投(国际)证券有限公司
92、在香港提供。本报告作者所持香港证监会牌照的中央编号已披露在报告上海品茶。一般性声明一般性声明本报告由中信建投制作。发送本报告不构成任何合同或承诺的基础,不因接收者收到本报告而视其为中信建投客户。本报告的信息均来源于中信建投认为可靠的公开资料,但中信建投对这些信息的准确性及完整性不作任何保证。本报告所载观点、评估和预测仅反映本报告出具日该分析师的判断,该等观点、评估和预测可能在不发出通知的情况下有所变更,亦有可能因使用不同假设和标准或者采用不同分析方法而与中信建投其他部门、人员口头或书面表达的意见不同或相反。本报告所引证券或其他金融工具的过往业绩不代表其未来表现。报告中所含任何具有预测性质的内容皆基
93、于相应的假设条件,而任何假设条件都可能随时发生变化并影响实际投资收益。中信建投不承诺、不保证本报告所含具有预测性质的内容必然得以实现。本报告内容的全部或部分均不构成投资建议。本报告所包含的观点、建议并未考虑报告接收人在财务状况、投资目的、风险偏好等方面的具体情况,报告接收者应当独立评估本报告所含信息,基于自身投资目标、需求、市场机会、风险及其他因素自主做出决策并自行承担投资风险。中信建投建议所有投资者应就任何潜在投资向其税务、会计或法律顾问咨询。不论报告接收者是否根据本报告做出投资决策,中信建投都不对该等投资决策提供任何形式的担保,亦不以任何形式分享投资收益或者分担投资损失。中信建投不对使用本
94、报告所产生的任何直接或间接损失承担责任。在法律法规及监管规定允许的范围内,中信建投可能持有并交易本报告中所提公司的股份或其他财产权益,也可能在过去12个月、目前或者将来为本报告中所提公司提供或者争取为其提供投资银行、做市交易、财务顾问或其他金融服务。本报告内容真实、准确、完整地反映了署名分析师的观点,分析师的薪酬无论过去、现在或未来都不会直接或间接与其所撰写报告中的具体观点相联系,分析师亦不会因撰写本报告而获取不当利益。本报告为中信建投所有。未经中信建投事先书面许可,任何机构和/或个人不得以任何形式转发、翻版、复制、发布或引用本报告全部或部分内容,亦不得从未经中信建投书面授权的任何机构、个人或其运营的媒体平台接收、翻版、复制或引用本报告全部或部分内容。版权所有,违者必究。中信建投证券研究发展部中信建投证券研究发展部中信建投(国际)中信建投(国际)北京东城区朝内大街2号凯恒中心B座12层电话:(8610)8513-0588联系人:李祉瑶邮箱:上海浦东新区浦东南路528号南塔2106室电话:(8621)6882-1612联系人:翁起帆邮箱:深圳福田区益田路6003号荣超商务中心B座22层电话:(86755)8252-1369联系人:曹莹邮箱:香港中环交易广场2期18楼电话:(852)3465-5600联系人:刘泓麟邮箱:charleneliucsci.hk43