上海品茶

您的当前位置:上海品茶 > 报告分类 > PDF报告下载

计算机行业:解析ChatGPT背后的技术演进-230322(39页).pdf

编号:119616 PDF   DOCX  39页 3.03MB 下载积分:VIP专享
下载报告请您先登录!

计算机行业:解析ChatGPT背后的技术演进-230322(39页).pdf

1、1 敬请关注文后特别声明与免责条款 解析解析 ChatGPTChatGPT 背后的技术演进背后的技术演进 方正证券研究所证券研究报告方正证券研究所证券研究报告 行业专题报告 行业研究 计算机行业计算机行业 2023.03.22/推荐 分析师:分析师:方闻千 登记编号:S05 Table_Author 重要数据:重要数据:上市公司总家数上市公司总家数 287 总股本总股本(亿亿股股)1974.76 销售收入销售收入(亿元亿元)14902.06 利润总额利润总额(亿元亿元)1543.42 行业平均行业平均 PEPE 69.82 平均股价平均股价(元元)27.66 行业相对指数

2、表现:行业相对指数表现:数据来源:wind 方正证券研究所 相关研究相关研究 方正证券计算机行业事件点评报告:办公正式进入 AI 时代2023.03.19 启明星辰:运营商国资云核心标的,未来有望迎来估值重塑2023.03.02 中科创达:业务快速增长,持续看好汽车+IOT 成长空间2023.03.01 数字中国规划发布,开启数字经济新浪潮2023.02.28 自然语言处理(自然语言处理(Natural Language Processing,NLPNatural Language Processing,NLP)的发展)的发展历程可分为三个阶段;历程可分为三个阶段;1)上世纪 80 年代之前,

3、人工智能开始萌芽,基于规则的语言系统占据主导,出现了机器翻译以及语言对话的初级产品;2)1980 年之后,机器学习在全球范围内兴起,自然语言处理走向纯粹的统计学,90 年代后神经网络引入,NLP 进入了快速发展期,并在 2000 年后逐渐开启了商业化进程;3)2017 年,Google 发布著名论文Attention is All You Need,提出了基于 Attention 注意力机制构建的 Transformer模型,2018 年 OpenAI 的 GPT 模型以及 Google 的 BERT 模型均是在 Transformer 的基础上构建,大语言模型时代正式开启。Attention

4、Attention 注意力机制与注意力机制与 TransformerTransformer 是大语言模型的基石。是大语言模型的基石。1)Attention 机制在并行计算(效率更高)以及解决长距离信息依赖的能力(效果更好)上优于过去的神经网络模型。2)Transformer 模型没有使用传统的 CNN 和 RNN 结构,其完全是由 Attention 机制组成,其中 Self-Attention(自注意力)是 Transformer 的核心。3)OpenAI 的 GPT 模型和 Google 的 BERT 模型虽然都是基于Transformer 所构建,但 GPT 模型仅使用了解码器的部分,而

5、BERT 仅使用了编码器的部分,二者在技术路线上也走向了两条不同的道路。GPTGPT 模型的持续进化与能力突变:从模型的持续进化与能力突变:从 CPTCPT-1 1 到到 CPTCPT-4 4。1)GPT-1:有监督学习和无监督学习的结合,模型的语言泛化能力不够,更接近于处理特定语言任务的专家模型,而非通用的语言模型;2)GPT-2:舍弃了模型微调,让多个不同的任务在同一个模型上学习,构建了换一个泛化能力更强的语言模型,开始让语言模型的通用性得到了更加充分的展现;3)GPT-3:在训练方法上则采取了 In-context 学习,参数量相较于 GPT-2 提升了两个数量级,达到了 1750 亿,

6、数据集在处理前容量达到了 45TB,是真正意义上的超大语言模型。4)ChatGPT:引入人类反馈的强化学习(RLHF)及近端策略优化算法(PPO)等新的训练方式后,语言生成能力大幅提升,并且涌现出了思维链及逻辑推理等多种能力。5)GPT-4:在推理能力、文本生成能力、对话能力等方面有了进一步提升的同时,实现了从大语言模型向多模态模型进化的第一步。2 计算机-行业深度报告 敬请关注文后特别声明与免责条款 未来展望:多模态和未来展望:多模态和 AIGCAIGC。近年来 Google,微软等海外大厂均已经在大模型上展开布局,行业竞争门槛正在迅速提升,头部厂商在算力资源、数据积累等方面的竞争优势将进一

7、步凸显。目前大模型的应用已经不局限于 NLP 领域,计算机视觉、多模态等领域的大模型开始涌现,而生成算法、大模型与多模态为三大底层技术的突破成为了 AIGC 的质变的关键。AIGC 作为人工智能最重要的演进方向,能够自主生成创造出文字、图片、语音、视频、代码等各种形式的内容,将深度改变办公、电商、娱乐、教育、媒体等各行各业,并引领人工智能实现从感知理解到生成创造的跃迁。相关标的:相关标的:ChatGPTChatGPT 及大语言模型受益标的涉及平台、算法、及大语言模型受益标的涉及平台、算法、场景、算力四大类厂商:场景、算力四大类厂商:1)平台:百度、阿里、腾讯、360;2)应用:金山办公、科大讯

8、飞、光云科技、同花顺、万兴科技、致远互联、福昕软件、漫步者、虹软科技、当虹科技、凌志软件;3)算法:科大讯飞、拓尔思、海天瑞声、云从科技、商汤科技;4)算力:寒武纪,海光信息、浪潮信息、紫光股份、中科曙光、优刻得、青云科技。风险提示:风险提示:产业变革和新技术落地节奏不及预期;AI 技术的发展易引起法律和监管问题;中美贸易摩擦加剧风险。rRnM3Z9YdXdXrVfWwV6McM9PoMqQpNtQlOoOsRkPpNtP9PoOvMxNpOzRNZsRtN 3 敬请关注文后特别声明与免责条款 计算机-行业深度报告 目录目录 1 自然语言处理的发展历史回顾.5 2 Attention 注意力机

9、制的基本原理.6 3 Transformer 构建大模型的基石.15 4 持续进化:从 GPT-1 到 GPT-3.20 5 能力突变:从 ChatGPT 到 GPT-4.24 6 未来展望:多模态和 AIGC.31 7 投资策略.37 8 风险提示.38 4 敬请关注文后特别声明与免责条款 计算机-行业深度报告 图表目录图表目录 图表 1:NLP 技术发展的主要阶段.6 图表 2:人类视觉的注意力机制.7 图表 3:RNN 主要用于序列数据处理.8 图表 4:RNN 的基本结构.9 图表 5:LTSM 的基本结构.10 图表 6:CNN 的基本结构.11 图表 7:Attention 的基本

10、结构.12 图表 8:计算机视觉中的感受野.12 图表 9:Attention 用于表示词与词的相关程度.13 图表 10:Self-Attention 的计算过程.15 图表 11:语言理解与生成的基本原理.16 图表 12:Transformer 由编码器和解码器两部分构成.16 图表 13:Transformer 的基本结构.17 图表 14:Masked Self-attention 机制.18 图表 15:不带 Masked 的 Self-attention 机制.18 图表 16:GPT 模型的语言生成模式.19 图表 17:Transformer 是大语言模型的基石.20 图表

11、18:针对不同下游任务进行训练.21 图表 19:GPT-2 舍弃了模型微调部分.22 图表 20:GPT-3 的 In-context 方式与传统微调方式的对比.23 图表 21:训练不同模型所需要的算力对比.24 图表 22:GPT-3 在 Few-shot 上有很好的表现.24 图表 23:从 GPT-3 到 ChatGPT 的迭代路径.25 图表 24:ChatGPT 在文本生成方面展现出了强大的能力.26 图表 25:强化学习的基本原理.27 图表 26:ChatGPT 的训练过程.28 图表 27:ChatGPT 人工标注团队.29 图表 28:GPT-4 模型性能要显著优于 GP

12、T-3.5.30 图表 29:GPT 模型演进的 5 个阶段.30 图表 30:海外大语言模型整体情况.32 图表 31:国内大模型现状.33 图表 32:生成算法、大模型、多模态是 AIGC 的底层技术.34 图表 33:AIGC 的应用场景.35 图表 34:GPT-4 嵌入 Offcie.36 图表 35:百度文心大模型全景图.37 5 敬请关注文后特别声明与免责条款 计算机-行业深度报告 1 自然语言处理的发展历史回顾自然语言处理的发展历史回顾 自然语言处理(自然语言处理(Natural Language Processing,NLP)作为人工智能的)作为人工智能的重要研究方向,旨在帮

13、助计算机重要研究方向,旨在帮助计算机理解、解释和运用人类语言。回顾理解、解释和运用人类语言。回顾NLP 的主要发展历程,可大致分为三个阶段:的主要发展历程,可大致分为三个阶段:1)上世纪 80 年代之前,人工智能开始萌芽,基于规则的语言系统占据主导;2)80 年代之后,从机器学习的兴起到神经网络的引入,带动了 NLP 的快速发展和商业化;3)2017 年至今,基于 Attention 注意力机制构建的 Transformer模型开启了大语言模型时代。第一阶段:基于规则的语言系统。第一阶段:基于规则的语言系统。早在上世纪 50 年代前后,人工智能就已经诞生,1956 召开了达特茅斯会议,首次正式

14、提出了“人工智能”。1980 年,自然语言处理的分为了两大阵营,分别为基于语言规则的符号派和基于概率统计的随机派,而当时基于规则方法的势头明显强于基于概率统计的势头,因此当时大多数 NLP 系统都使用复杂的逻辑规则,能够处理包括字符匹配、词频统计等一些简单的任务。同时在这一时期,也产生了一些机器翻译以及语言对话的初级产品,比较著名的是 1966 年 MIT 发布的世界上第一台聊天机器人 Eliza,Eliza 能够遵循简单的语法规则来实现交流。但总体来看,这一时期NLP 领域形成的成果还无法商业化,包括机器翻译的成本还是远高于人工翻译,而且还无法与人真正实现基本的对话。第二阶段:从机第二阶段:

15、从机器学习到神经网络。器学习到神经网络。1980 年美国的卡内基梅隆大学召开了第一届机器学习国际研讨会,标志着机器学习在全世界兴起,而自然语言处理也逐渐走向纯粹的统计学。90 年代以后,神经网络模型被引入到 NLP 领域,其中最著名的两个神经网络模型为循环神经网络(Recurrent Neural Network,RNN)和卷积神经网络(Convolutional Neural Networks,CNN),特别是 RNN 因其处理序列数据的特性,成为了大部分 NLP 模型的主流选择。2000 年后,一方面 Multi-task learning,Word Embedding,Seq2seq 等

16、层出不穷的新技术推动了 NLP技术的快速进步,另一方面 NLP 逐步实现了商业化,包括机器翻译、文本处理等商业化产品开始大量出现。第三阶段:基于第三阶段:基于 Attention 注意力机制构建的注意力机制构建的 Transformer 模型奠定模型奠定了大语言模型的基础。了大语言模型的基础。2017 年 Google 机器翻译团队发布了著名论文Attention is All You Need,提出了基于 Attention 注意力机制构建的 Transformer 模型,这也成为了 NLP 历史上的一个标志性的事件。相较于传统的神经网络,基于 Attention 注意力机制构建的 Tran

17、sformer模型在提升了语言模型运行的效率(效率更高),同时能够更好的捕捉语言长距离依赖的信息(效果更好)。2018 年 OpenAI 公司的 GPT以及 Google 公司的 BERT 均是基于 Attention 注意力机制与Transformer 而构建,而 NLP 也正式进入到了大语言模型的全新阶段。6 敬请关注文后特别声明与免责条款 计算机-行业深度报告 图表 1:NLP 技术发展的主要阶段 资料来源:真格、CSDN、方正证券研究所绘制 2 Attention 注意力机制的基本注意力机制的基本原理原理 注意力(注意力(Attention)机制)机制与与 Transformer 模型

18、构建了大语言模型的基模型构建了大语言模型的基石。石。注意力(Attention)机制最早由 Bengio 团队在 2014 年提出,随后开始广泛应用在深度学习中的各个领域。Attention 的思想很简单,它的最初灵感来源于人类的视觉,即当人用眼睛观察东西的时候,会首先快速扫描全局图像,然后再捕捉需要重点关注的目标区域,将视觉重点聚焦在这个目标区域,对重点区域投入更多注意力资源,同时忽略其他信息。因此 Attention 机制最早应用在计算机视觉领域,用于捕捉图像上的感受野,随后在 NLP 领域也开始得到应用,并且在NLP 领域真正的发扬光大。2017 年,Google 机器翻译团队发布Tra

19、nsformer 模型,在 Transformer 中抛弃了传统的 CNN 和 RNN 结构,整个网络完全是由 Attention 机制组成,2018 年 Google 的 BERT 模型以及 OpenAI 公司的 GPT 模型都是在 Transformer 的基础上构建。7 敬请关注文后特别声明与免责条款 计算机-行业深度报告 图表 2:人类视觉的注意力机制 资料来源:Usable World、方正证券研究所 在在 Attention 注意力机制应用于注意力机制应用于 NLP 领域以前,大部分语言模型都是领域以前,大部分语言模型都是基于基于 RNN 及及 CNN 所构建,特别是所构建,特别是

20、 RNN 处理序列信息的特性,使得处理序列信息的特性,使得其在其在 NLP 领域得以广泛应用。领域得以广泛应用。RNN 对处理具有序列特性的数据非常有效,比如在自然语言处理领域,将每一个字或每一个词的组合作为一个序列;在语音处理领域,将每一帧的声音信号的组合作为一个序列;在时间序列方面,比如股价数据,将每一天或者每一时刻的股票价格的组合作为一个序列。因此通过利用了 RNN 处理序列数据的能力,在语音识别、机器翻译等领域中取得了很多成果,很多早期的NLP 商业化产品都是基于 RNN 所构建。与此同时,为什么说后来的Attention 机制优于之前的 RNN 以及 CNN,可以从运算机制和算法思想

21、等方面对三者的角度做一个直观对比。8 敬请关注文后特别声明与免责条款 计算机-行业深度报告 图表 3:RNN 主要用于序列数据处理 语言序列语音序列时间序列将每一帧的声音信号的组合作为一个序列RNN将每一个字或每一个词的组合作为一个序列将每一时点的数据组合作为一个序列.将每一帧的声音信号的组合作为一个序列 资料来源:方正证券研究所绘制 首先,首先,RNN 在在 NLP 领域得到广泛应领域得到广泛应用的用的同时,其算法机制一直存在同时,其算法机制一直存在着两个缺点,第一个缺点就是语言的长距离信息会被弱化。着两个缺点,第一个缺点就是语言的长距离信息会被弱化。比如在这样的长句子中:“原来是你把我的苹

22、果拿走了,下次记得提前跟我说一声,我还得用它来发邮件呢”,我们要确定“苹果”指代的是苹果电脑/手机还是水果,就需要进行通过长距离的信息学习。由于在 RNN模型中,对序列中的元素是按顺序处理的,比如在第一个 RNN 层中的第二个节点 h2,它的计算是由第一个节点 h1,即词向量 1 输入模型后得出的结算结果,以及词向量 2 的输入,二者共同决定的。在RNN 模型中,两个词之间的交互距离可以认为是他们之间的相对距离,因此第 1 个词和第 n 个词之间的交互距离是 n-1,因此如果一个序列足够长,RNN 模型中的节点经过许多阶段的计算后,之前比较长的时间片的特征已经被覆盖,很难将将信息从较早的时间步

23、传送到后面的时间步,距离越远的信息越容易被忽略掉。虽然在实际情况下,大多数词的词义在一个较小范围的上下文语义环境中就可以确定,对于一个更好的语言模型而言,我们的期望是模型能够更好的获取长距离的信息。RNN的第二个缺点就是的第二个缺点就是RNN是串行处理机制所带来的计算效率低的是串行处理机制所带来的计算效率低的问题问题。从 RNN 实现的原理来讲,是因为每个时间步(time step)的计算,都依赖于对前一时间步的计算和输出结果,难以进行并行化运算进行加速。并且在长句中的每个时间步都包括一个 memory I/O 操作,这导致了模型的性能严重受限于 GPU 的最大线程和最大内存带宽的约束。特别是

24、在处理长句的训练样本时,RNN 存在的模型运行速度慢的问题会体现的更加明显,因此导致了语言模型中能够堆叠 RNN的数量受到了明显的限制。9 敬请关注文后特别声明与免责条款 计算机-行业深度报告 图表 4:RNN 的基本结构 词向量1词向量1词向量2词向量2词向量3词向量3 词向量n-1词向量n-1词向量n词向量n输入RNN层RNN层输出 h1h2h3 hn-1hnh2 资料来源:CSDN、方正证券研究所绘制 为了应对为了应对 RNN 模型存在的缺陷,一般会使用双向的模型存在的缺陷,一般会使用双向的 RNN 及及 LSTM长时间的短期记忆网络(长时间的短期记忆网络(Long Short-Term

25、 Memory Networks),比),比传统传统 RNN 在长距离信息识别方面在长距离信息识别方面有有更好的表现。更好的表现。双向 RNN 结构作为RNN 的变体,在使用一个 RNN 对序列中的元素从左往右进行处理的同时,另一个 RNN 对序列从右向左进行处理,因此能够在一定程度上优化对长距离信息的处理,可以考虑整个句子的信息,然而双向RNN 的缺点在于需要完整数据的序列,比如语音识别系统中,必须等待一个人说完整句话,才能做出识别,这样就有一个比较长的等待时间。而 LSTM 作为一种带有门控(Gate)机制的 RNN 模型,是一种让信息选择式通过的方法,门控可以只保留有效信息来进行预测,并

26、忘记不相关的数据。因此能够记住重要的信息,而忽略无关紧要的信息。LSTM 虽然理论上可以对历史信息进行有选择的存储和遗忘,但是门控参数量一定的情况下,这种能力是一定的。随着句子的增长,相对距离的增大,存在明显的理论上限。10 敬请关注文后特别声明与免责条款 计算机-行业深度报告 图表 5:LSTM 的基本结构 输入门输出门遗忘门 资料来源:CSDN、方正证券研究所 相较于相较于 RNN 在在 NLP 领域的广泛应用,领域的广泛应用,CNN 此前较多应用于计算机此前较多应用于计算机视觉领域,同样,视觉领域,同样,CNN 也存在长距离信息丢失的问题。也存在长距离信息丢失的问题。从 CNN 的运算机

27、制来看,每一层的 CNN 每个节点覆盖的语义环境范围是一定的,这是由 CNN 存在的感受视野(Receptive Field)所决定的,比如第一层 CNN 中第二个节点 h2 的计算只利用了词 1、词 2、词 3 的信息。而第二个 CNN 层覆盖的语义环境范围会变大,且越往上层覆盖的语义环境会变得越大。因此,在语言序列中,一个词首先会与自身距离较近的词发生交互,比如在第一层的第二个节点 h2 中,词 1、词2、词 3 发生了交互,而距离较远的词,如词 1 和词 n,则需要在高层上才能发生交互。因此词与词之间的信息的获取与相互关键,取决于它们之间的相对距离,距离越远,信息获取的难度也就越大,因此

28、同样,CNN 也存在语言序列的长距离信息依赖的问题。11 敬请关注文后特别声明与免责条款 计算机-行业深度报告 图表 6:CNN 的基本结构 词向量1词向量1输入CNN层CNN层输出词向量2词向量2词向量3词向量3 词向量n-1词向量n-1词向量n词向量n hnh1h2h3 hn-1 资料来源:CSDN、方正证券研究所绘制 相较于相较于 RNN 和和 CNN,Attention 注意力机制的原理就是在每一层的注意力机制的原理就是在每一层的计算中都考虑了词与词之间的全连接关系,在模型的并行化运算的同计算中都考虑了词与词之间的全连接关系,在模型的并行化运算的同时,能够很好的解决长距离信息依赖的问题

29、。时,能够很好的解决长距离信息依赖的问题。从 Attention 的计算过程来看,一个语言序列中的每一个词和 Attention 中每一个节点都是全连接的关系,比如第一层中第一个节点 h1 的计算会考虑全部输入词 1 到词 n 的信息,而第一个 Attention 层和第二个 Attention 层之间的全部节点也都是全连接的关系,因此任意两个词之间的交互,与词与词之间的远近距离都不存在关系。句子中每个词义的确定,都考虑了与整个句子中所有的词的关系(计算量更大),因此这样能够更好的捕捉到长距离的信息,就算文本或者语句比较长,也能够抓住重点,不丢失掉重要的信息。同时,Attention 模型是并

30、行计算的,每一步计算不依赖于上一步的计算结果,可以并行处理语言序列数据,大幅提升了语言模型运行的效率,在运算机制上更加契合现代 GPU 的硬件架构。12 敬请关注文后特别声明与免责条款 计算机-行业深度报告 图表 7:Attention的基本结构 词向量1词向量1词向量2词向量2词向量3词向量3 词向量n-1词向量n-1词向量n词向量n输入Attention层Attention层输出 hnh1h2h3 hn-1 资料来源:CSDN、方正证券研究所绘制 从从 Attention 和和 CNN 的关系来看,的关系来看,CNN 可以看可以看作作是有注意力范围的是有注意力范围的Attention,而,

31、而 Attention 则是实现了全连接的则是实现了全连接的 CNN。二者之间的区别就是 CNN 存在的感受野(Receptive Field),有局部的归纳偏置,而Attention 是全连接的,能够捕捉全局信息的。因此从训练难度的角度来说,Attention 的难度更大,因为 Attention 没有做任何的局部归纳,因而也需要更多的数据。而早期 CNN 之所以更多的应用在视觉领域,是因为图片天然具有局部特征,因此 CNN 能做到在不需要非常多数据的情况下有比较好的效果。但是在 NLP 领域,Attention 通常在数据量足够的时候,表现比 CNN 更优秀。图表 8:计算机视觉中的感受野

32、 资料来源:CSDN、方正证券研究所 13 敬请关注文后特别声明与免责条款 计算机-行业深度报告 Attention 的数学原理来看,就是的数学原理来看,就是用数字来表用数字来表达词达词与词之与词之间的相间的相关程关程度,当度,当数数字字越大越大时时,这两个词之间相关程度越高。这两个词之间相关程度越高。比如在“原来是你把我的苹果拿走了,下次记得提前跟我说一声,我还得用它来发邮件呢。”这句话中,语言模型要去理解“苹果”指的是苹果电脑/手机还是水果,就需要计算苹果与这个句子中其他所有词包括之间的相关系数,用相关系数,或者说注意力分数来表达他们之间的相互联系,得出的分数越高,那么这两个词之间的相关程

33、度就越高。比如在这个句子中,通过计算,能够发现“苹果”与“邮件”的分数较高,最终可以得出“苹果”指代的就是苹果电脑/手机,以此来实现了注意力机制。图表 9:Attention 用于表示词与词的相关程度 原来是你把我的苹果拿走了,下次记得提前跟我说一声,我还得用它来发邮件呢原来是你把我的苹果拿走了,下次记得提前跟我说一声,我还得用它来发邮件呢 资料来源:Attention is All You Need、方正证券研究所绘制 在在 Attention 注意力机制中又包含了自注意力机制注意力机制中又包含了自注意力机制 Self-Attention、交、交叉注意力机制叉注意力机制 Cross-Atte

34、ntion 等,而自注意力机制等,而自注意力机制 Self-Attention 就就是是 Transformer 等等大大语言语言模型的核心组成部分模型的核心组成部分。自注意力机制指的不是输入语句和输出语句之间的 Attention 机制(不同输入),而是在输入语句的内部元素之间发生(同一输入),即在同一个句子内部实现注意力机制。Self-Attention 的详细计算具体可分为以下三步:第一阶段,信息的预处理:词的向量化,句子的矩阵变换。第一阶段,信息的预处理:词的向量化,句子的矩阵变换。在运行Attention 机制之前,需要对输入模型的语句文本进行预处理,首先需要讲文本语句进行分词操作(

35、Tokenization),即将语言序列切分成一个个字符串。对英文来说,分词操作为输出一个一个的单词,对中文来说分词操作为输出一个一个的字。然后,我们需要将字或词向量化(Word Embeddings)(比如在我们输入的句子中每一个词都转化为一个向量,而这个句子则是一个矩阵,而 Attention 机制本质上就是对这个输入语句的矩阵进行了多次的矩阵变换)。在分词和向量化后,得到了向量序列(a1,a2,a3,a4),接下来需要对输入向量做矩阵变换,即用三个权重矩阵 Wq,Wk,Wv(这三个权重矩阵实际上就是我们所需要训练的内容,因为其他输入都是既定的)与(a1,a2,a3,a4)分别相乘,得到三

36、个向量序列 Q(q1,q2,q3,q4),K(k1,k2,k3,k4),V(v1,v2,v3,v4)。由于在 self-Attention 中,Q、14 敬请关注文后特别声明与免责条款 计算机-行业深度报告 K、V 都是由同一个矩阵变换而来,因此 Q、K、V 是同源的,而 Q、K、V 之间的相互计算 Self-Attention(Q、K、V),则称之为自注意力。第二阶段,相关程度计算:计算出词与词之间的相关程度。第二阶段,相关程度计算:计算出词与词之间的相关程度。在预处理之后,接下来需要通过 Q 和 K 来计算 Attention 相关度。比如计算第一个词与句子中的所有词(包括自己)的相关度,

37、即用向量 q1 与向量 k1,k2,k3,k4 分别两两求点积(由两个向量的点积可以得到两个向量的相似度)。因此在每次输入了两个向量后,输出一个数,比如用 q1 和 k1 可以得出1,1,而1,1,1,2,1,3,1,4 则代表了第一个词与句子中所有词(包括自己)的相关程度,如果第一个词和第三个词关联性较高,那么1,3 的数值就会比较大。在计算完成之后,再使用 Softmax 函数归一化处理就得到了1,1,1,2,1,3,1,4,使得每一个数的范围都在(0,1)之间,且所有数之和为 1。最后得到的1,1,1,2,1,3,1,4 就代表了第一个词与其他词的相关系数。第三结算:输出最终结果:用相关

38、系数来加权求和。第三结算:输出最终结果:用相关系数来加权求和。在经过 softmax 的归一化处理得到了一组注意力系数1,1,1,2,1,3,1,4 之后,最后再依次乘以预处理的第三个向量序列 V(v1,v2,v3,v4),并求和,即1,1*v1+1,2*v2+1,3*v3+1,4*v4,得到输出结果 b1,如果 a1 和 a3 关联性比较高,则1,3 的数值就会就比较大,而输出的向量 b1 就与向量 v3 更加接近,同理可以并行计算出 b2、b3、b4。因此,回顾整个 Self-Attention 的计算过程,输入的是向量(a1,a2,a3,a4),输出的向量(b1,b2、b3、b4)就是

39、attention 的最终输出结果。15 敬请关注文后特别声明与免责条款 计算机-行业深度报告 图表 10:Self-Attention的计算过程 a1q1k1v1*Softmax函数(归一化)1,11,1a2q2k2v2*1,21,2a3q3k3v3*1,31,3a4q4k4v4*1,41,4b1b2b3b4相关程度WqWkWv权值矩阵输入输出 资料来源:博客园、方正证券研究所绘制 3 Transformer 构建大模型的基石构建大模型的基石 Transformer 作为大语言模型的基础模型,分为编码器和解码器两大作为大语言模型的基础模型,分为编码器和解码器两大模块,实际模拟的是人类大脑从理

40、解语言到表达语言的过程。模块,实际模拟的是人类大脑从理解语言到表达语言的过程。从Transformer 的结构来看,Transformer 由 Encoder 编码器和 Decoder解码器两个部分组成,具体而言是由 6 个编码器和 6 个解码器堆叠而成。而编码器-解码器结构作为语言模型的经典结构,它模拟的是大脑理解自然语言的过程,其中编码就是将语言转化成一种大脑所能理解和记忆的内容,而解码就是将大脑中所想的内容表达出来。比如在计算机训练语言模型的过程中,最初是不知道“你好”和“Hello”背后的意思的,也不知道他们所表达的含义是相关的,而模型学习的过程,就是将这两种不同的表达映射到同一个意识

41、概念上。因此在以Transformer 为代表的语言模型中,编码器的功能就是把自然语言序列映射为某种数学表达,而解码器则是再把这个数学表达映射为自然语言序列的过程。16 敬请关注文后特别声明与免责条款 计算机-行业深度报告 图表 11:语言理解与生成的基本原理 语言输入语言输出语言理解编码过程语言生成解码过程意识概念资料来源:方正证券研究所绘制 图表 12:Transformer 由编码器和解码器两部分构成 Encode编码器编码器Decoder解码器解码器Encode编码器编码器Decoder解码器解码器Encode编码器编码器Decoder解码器解码器Encode编码器编码器Decoder

42、解码器解码器Encode编码器编码器Decoder解码器解码器Encode编码器编码器Decoder解码器解码器I am a student我是学生我是学生输入输入输出输出 资料来源:CSDN、方正证券研究所绘制 整个整个 Transformer 网络没有使用传统的网络没有使用传统的 CNN 和和 RNN 结构,而完全是由结构,而完全是由Attention 机制组成,其中机制组成,其中 Self-Attention 则是则是 Transformer 最核心的组最核心的组成部分。首先看编码器成部分。首先看编码器 Encoder 的结构:的结构:编码器 Encoder 由两个子层组成,第一个子层为

43、 Muti-head Attention(多头注意力机制)+Add&Norm 层,其中多 Muti-head Attention 是将多个 Self-Attention 拼接在一起,本质上仍是 Self-Attention;第二个子层为 Feed Forward Neural Network(前馈神经网络)+Add&Norm 层,这一层中通过引入了非线性函数(具体为 ReLU 激活函数,此前的自注意力层都是线性变换),能够使得神经网络中的神经元也具有了稀疏激活性,即能够 17 敬请关注文后特别声明与免责条款 计算机-行业深度报告 帮助模型更好的挖掘相关特征,拟合训练数据。同时在两个子层中,均加

44、入了 Add&Norm 层,Add&Norm 包含 Residual connection(残差连接)和 Normalization(标准化)两个部分,这也是此前语言模型中被验证过的有效的方法,即通过 Residual connection 用于防止网络特征退化,而 Normalization 的使用可以加快模型的收敛速度。总的来说,Transformer 中编码器 Encoder的多层结构即为 self-attention 层与 Feed Forward 层的堆叠使用,其中 self-attention 层是 Transformer 最核心的部分。图表 13:Transformer 的基本结

45、构 前馈神经网络多头交叉注意力带掩码的多头自注意力输入输出多头自注意力残差链接+标准化编码器Encoder解码器Decoder资料来源:CSDN、方正证券研究所 Transformer 的解码器的解码器 Decoder 与编码器与编码器 Encoder 在结构上有许多共在结构上有许多共同之处,二者的最大不同,就是解码器使用了同之处,二者的最大不同,就是解码器使用了带有带有遮盖的自注意力机遮盖的自注意力机制(制(Masked Self-attention)。)。解码器与编码器同样也是多层结构,即 self-attention 层与 Feed Forward 层的堆叠使用,而二者的侧重点有所不同的

46、是,Decoder 是用来预测信息的,因此在训练预测能力的时候,模型需要将未来的信息遮盖住(只看上文),而不能提前看到训练的答案(不看下文),因此解码器采用了 Masked Self-attention。Masked Self-attention 与 Self-attention 在算法原理上的主要不同,即 18 敬请关注文后特别声明与免责条款 计算机-行业深度报告 Masked Self-attention 每一步的计算都只能依赖当前时刻以前的输出,而看不到当前时点之后的输出。比如在 Self-attention 中,输出的结果b2 读取了所有的输入 a1,a2,a3,a4,而 Mask S

47、elf-attention 中,b2 只能读取 a1,a2,而读取不了 a3,a4的信息。总的来看,解码器 Decoder 的运算过程中需要进行多次 mask 操作。图表 14:Masked Self-attention 机制 a1a2a3a4b1b2b3b4 资料来源:CSDN、方正证券研究所绘制 图表 15:不带 Masked 的 Self-attention 机制 a1a2a3a4b1b2b3b4 资料来源:CSDN、方正证券研究所绘制 在基于在基于 Transformer 所构建的大语言模型中,最著名的两个模型是所构建的大语言模型中,最著名的两个模型是OpenAI的的GPT和和Goog

48、le的的BERT,虽然二者,虽然二者都是基于都是基于Transformer,但但 GPT 模型仅使用模型仅使用了解码器的部分,而了解码器的部分,而 BERT 仅使用了仅使用了编码器的部编码器的部分,二者在技术路线上也走向了两条不同的道路。分,二者在技术路线上也走向了两条不同的道路。具体来说,BERT仅运用了 Transformer 的 Encoder 框架,而 Encoder 中采用了Self-attention 机制,即训练时每一个词需要对整个输入序列的上下文 19 敬请关注文后特别声明与免责条款 计算机-行业深度报告 进行相关性分析,从模式上来看更接近于一个完形填空模型;而 GPT运用了

49、Transformer 的 Decoder 框架,Decoder 中的 Self-attention 机制是 Mask Self-attention,在训练时会对下文进行了遮盖(mask)处理,仅基于上文,来生成下文,因此 GPT 更接近人类的语言生成模式,更适合来构建语言生成模型。从从 GPT 的语言生成模式来看,并不是的语言生成模式来看,并不是一次一次性性将整个序列全部生成将整个序列全部生成,而是每个字每个词逐一生成,即而是每个字每个词逐一生成,即在生成每一个词的时候,必须先生成在生成每一个词的时候,必须先生成它的前一个词它的前一个词。而每一个字的生成,会用到这个字之前的全部上文,即全部输

50、入+这个字之前的全部输出,比如向 GPT 提问:“地球有多大?”,GPT 的完整回答为:“地球是太阳系内第三颗最靠近太阳的行星,其直径约为.”,而在生成“系”这个字时,所用到的信息为:输入“地球有多大?”+“系”这个字之前所已生成的输出“地球是太阳.”。在生成“系”之后,再依照同样的原理,也“系”也作为上文,再生成下一个字。因此 GPT 实际上是一种自回归生成的语言模型,而在 GPT 和 BERT 的背后则是 Transformer 的编码器与解码器在算法思想上的差异,因此 GPT 作为基于解码器所构建的语言模型,在其后的语言生成方面也展现出了更大的潜力。图表 16:GPT 模型的语言生成模式

51、 现现在在是是什什么么节节输出输出ChatGPT季季的的季季节节现现在在的的季季现现在在输入输入上文(输入上文(输入+已生成的输出)已生成的输出)下文(即将生成的下一个字)下文(即将生成的下一个字)资料来源:方正证券研究所绘制 总体来看,总体来看,2017 年发布的年发布的 Transformer 无论是在机器翻译、文本生成、无论是在机器翻译、文本生成、问答系统等任务处理问答系统等任务处理,还是在模型训练速度上,其性能均超过了之前,还是在模型训练速度上,其性能均超过了之前的模型,而这还仅仅只是的模型,而这还仅仅只是 Transformer 的初始形态。的初始形态。从多项测试的结果来看:1)机器

52、翻译任务中,Transformer 在 WMT 2014 英德翻译任 20 敬请关注文后特别声明与免责条款 计算机-行业深度报告 务上,相对于之前的 SOTA 模型,实现了近 2 个 BLEU 值的提升,达到了 28.4 BLEU 分数;2)文本生成任务中,Transformer 在 WikiText-103 数据集上的困惑度仅为 18.3,相对于之前最好的困惑度20.5,实现了很大的提升;3)问答任务中,Transformer 在 SQuAD 数据集上的 F1 分数为 87.4,优于之前最好的模型。同时,Transformer的运行速度也有了很大提升,例如,Google 使用了 64 个 T

53、PU v3 设备对 Transformer 进行训练,处理英德翻译任务的速度快于之前最好的 RNN 模型 7 倍。4 持续进化:从持续进化:从 GPT-1 到到 GPT-3 在在 2018 年,自然语言处理年,自然语言处理 NLP 领域正式步入了大领域正式步入了大语言语言模型模型时代,时代,OpenAI 公司的公司的 GPT 模型模型与与谷歌的谷歌的 BERT 模型模型在同年相继推出。在同年相继推出。2018年 6 月,OpenAI 公司发布了 GPT 模型的初代版本,GPT-1 运用了Transformer 的 Decoder 框架中 Mask Self-attention 机制,目前已经迭

54、代到了最新 ChatGPT 与 GPT-4,毫无疑问 GPT 模型已经成为了当前最为强大的语言模型。在 2018 年 10 月,Google 也发布了 BERT 模型,BERT 采用了 Transformer 的 Encoder 框架中 Self-attention 机制,作为一个拥有 3 倍 GPT 参数量的更大体量的语言模型,BERT 在当时的多项测评以及业内影响力等方面,要领先于 GPT 的初代版本。特别是在BERT 开源之后,包括 Facebook、百度等国内外大厂均推出了基于BERT 之上开发的大模型,其中包括 Facebook 的 XLM、RoBERTa 模型,以及百度的 ERIN

55、E 系列模型。图表 17:Transformer 是大语言模型的基石 TransformerTransformerGPTGPTBERTBERTT5T5Decoder Decoder 框架框架 Mask SelfMask Self-attention attention 机制机制(通过上文,生成下文)(通过上文,生成下文)GPTGPT-2 2GPTGPT-3 3Instruct GPTInstruct GPTGPTGPT-4 4M2mM2m-100100BigBIRDBigBIRDBARTBARTFacebookFacebook百度百度EncoderEncoder-DecoderDecoder框

56、架框架Encoder Encoder 框架框架 SelfSelf-attention attention 机制机制(每一个词对整个输入序列进行上下文的相关性分析)(每一个词对整个输入序列进行上下文的相关性分析)XLMXLMRoBERTaRoBERTaELECTRAELECTRAALBERTALBERTERINE1.0ERINE1.0ERINE2.0ERINE2.0ERINE3.0ERINE3.0ERINE3.0TITANERINE3.0TITANChatGPTChatGPT文心一言文心一言(ERINE BOTERINE BOT)GPTGPT-1 1 资料来源:方正证券研究所绘制 从从 GPT

57、的初代版本来看,的初代版本来看,GPT-1 在训练方式上仍依赖于数据标注和在训练方式上仍依赖于数据标注和模型微调,同时模型微调,同时 GPT-1 的语言泛化能力仍然的语言泛化能力仍然不足不足,因此可以说,因此可以说 GPT-1更接近于处理特定语言任务的专家模型,而非通用的语言模型。更接近于处理特定语言任务的专家模型,而非通用的语言模型。GPT-1 21 敬请关注文后特别声明与免责条款 计算机-行业深度报告 的模型训练采取的是二段式的训练模式,第一阶段利用无监督学习进行预训练,使用未标记的数据生成语言模型;第二阶段则根据特定的下游任务来对模型进行人工微调,比如分类任务、自然语言推理、语义相似度、

58、问答和常识推理等任务。因此相较于此前 NLP 模型,GPT-1实际上还是一个半监督式学习的语言模型。GPT-1 在多种语言任务方面都有不错的效果,在自然语言推理、分类、问答、对比相似度的多种测评中均超越了之前的模型。但与此同时,GPT-1 的语言泛化能力仍然不足,无法解决通用的语言任务,且和同时代的 BERT 模型比较的话,GPT-1 在能力上要逊色于 BERT。图表 18:针对不同下游任务进行训练 TextTextStartStartTransformerTransformerExtractExtractLinearLinearPremisePremiseStartStartDelimDel

59、imHypothesisHypothesisExtractExtractTransformerTransformerText 1Text 1StartStartDelimDelimText 2Text 2ExtractExtractTransformerTransformerText 2Text 2StartStartDelimDelimText 1Text 1ExtractExtractTransformerTransformer+ContextContextStartStartDelimDelimAnswer 1Answer 1ExtractExtractTransformerTransf

60、ormerContextContextStartStartDelimDelimAnswer 2Answer 2ExtractExtractTransformerTransformerContextContextStartStartDelimDelimAnswer NAnswer NExtractExtractTransformerTransformerLinearLinearLinearLinearLinearLinearLinearLinearLinearLinear分类分类相似度相似度多选多选包含包含 资料来源:Improving Language Understanding by Gen

61、erative Pre-Training、方正证券研究所绘制 2019 年年 2 月月,GPT-2 正式发布,相较于正式发布,相较于 GPT-1,GPT-2 舍弃了模型舍弃了模型微调,构建了一个泛化能力更强的语言微调,构建了一个泛化能力更强的语言模型模型,这也开始让模型的通用,这也开始让模型的通用性得以充分展现。性得以充分展现。尽管此前 GPT-1 在特定任务上已经取得了不错的效果,但实际上这类模型都需要针对单个语言任务使用大量的标注数据和模型微调,因此也只能在解决特定语言任务时才能发挥作用。而GPT-2 的泛化能力就体现在,能够让模型应用到不同的任务,而不需要做专门的训练。这也更符合人脑处理

62、语言信息的过程,因为人脑既可以读小说,也可以看新闻,能执行不同的语言处理任务,而且这种能力是相互关联的。而人脑在获取一个语句的信息时,这个信息是通用的,因此我们所期望的一个通用的语言模型,既可用于分类任务,也可以用于问答和常识推理等任务。具体而言,相较于 GPT-1 的无监督式预训练+有监督式学习和模型微调,GPT-2 直接舍弃了微调阶段,直接通过大规模数据进行预训练,让模型开始具备解决多种语言任务的能力。22 敬请关注文后特别声明与免责条款 计算机-行业深度报告 图表 19:GPT-2 舍弃了模型微调部分 资料来源:CSDN、方正证券研究所 2020 年年 5 月,月,GPT-3 正式发布,

63、正式发布,GPT-3 在训练方式上创新性的引入在训练方式上创新性的引入了了 In-context 学习(上下文学习),即在训练模型时,学习(上下文学习),即在训练模型时,在输入在输入的文本的文本中加入中加入一个或多个一个或多个示例示例,引导,引导模型输出相对应内容。模型输出相对应内容。比如:“请把以下中文翻译成英文:苹果=apple;自然语言处理的发展历程”就是一个典型的带有一个示例的输入文本。而 In-context 学习包含了三种模式,分别为 Zero-shot Learning(零样本学习)、One-shot Learning(单样本学习)和 Few-shot Learning(少样本学

64、习),zero-shot 就是没有示例只给提示,one-shot 是只给一个范例,few-shot 则给多个范例,实际上 zero-shot 在表达方式上已经接近于人类的语言表达方式。In-context 学习的优点在于,输入规范化的语言模板,从人类的例子和类比中去学习,无需进行模型微调和数据标注,特别是大量的标注数据需要很高的人工成本。引入 In-context 学习后,从最终实际效果来看,GPT-3 在 few-shot 上有非常强劲的表现,但同时 one-shot 和zero-shot 的效果还不够优秀。因此对于 one-shot 和 zero-shot 效果的提升也成为了下一代模型未来

65、需要突破方向。23 敬请关注文后特别声明与免责条款 计算机-行业深度报告 图表 20:GPT-3 的 In-context 方式与传统微调方式的对比 任务描述提示单个例子多个例子零样本学习单样本学习少样本学习微调 资料来源:Language Models are Few-Shot Learners、方正证券研究所 GPT-3 参数量参数量相较于相较于 GPT-2 提升了提升了两个数量级,达两个数量级,达到了到了 1750 亿,亿,数据数据集在处理前容量达到了集在处理前容量达到了 45TB,成了真正意义上的超大语言模型。,成了真正意义上的超大语言模型。GPT-3 在许多 NLP 任务上相较于 G

66、PT-2 及其他语言模型有更多出色表现,特别是机器翻译、聊天问答和文本填空。同时是在海量参数和训练数据的支撑下,GPT-3的开始能够完成一些比较困难的NLP任务,比如 GPT-3 也可以生成新闻报道和撰写文章,并且很难将机器写的文章与人类写的辨别开来,甚至 GPT-3 在编写 SQL 查询语句,React 或者 JavaScript 代码也有十分优异的表现。而在 GPT-3 强大能力的背后是对算力的巨大消耗,GPT-3 的计算量达到了 BERT-base 的上千倍,根据 OpenAI 公司披露数据,GPT-3 的训练费用超过 1200 万美元,因此到这一阶段就能看出,大语言模型逐渐成为了只有巨

67、头才能参与的游戏。24 敬请关注文后特别声明与免责条款 计算机-行业深度报告 图表 21:训练不同模型所需要的算力对比 1000X 资料来源:Language Models are Few-Shot Learners、方正证券研究所 图表 22:GPT-3 在 Few-shot 上有很好的表现 资料来源:Language Models are Few-Shot Learners、方正证券研究所 5 能力突变:从能力突变:从 ChatGPT 到到 GPT-4 在在 GPT-3 取得成功之后,取得成功之后,OpenAI 在在 GPT-3 的基础上推出了多个迭代的基础上推出了多个迭代版本,经过版本,

68、经过 2 年年左右左右的的时间时间,在,在 2022 年年 11 月月正式正式推出推出 ChatGPT,随即成为了全球范围内最强大的语言模型。随即成为了全球范围内最强大的语言模型。OpenAI 公司在 GPT-3 与ChatGPT 之间发布了多个迭代版本,其中包括:2021 年 7 月推出了Codex 系列;2022 年 1 月,引入 RLHF(基于人工反馈的强化学习)得到了 InstructGPT;2022 年 4 月至 7 月,推出了融合 Codex 和 25 敬请关注文后特别声明与免责条款 计算机-行业深度报告 InstructGPT的 code-davinci-002 版 本;5 月

69、至 6 月 发 布 了text-davinci-002 版本;11 月发布了 text-davinci-003 和 ChatGPT,两个模型都是使用了基于人类反馈的强化学习的版本指令微调模型。图表 23:从 GPT-3 到 ChatGPT 的迭代路径 instruct微调Code微调规模增大Prompt预训练2017.6GoogleChatGPT迭代路径2018.62019.22020.52021.72022.12022.11TransformerGPT-1GPT-2GPT-3Codex(code-davinci-001)InstructGPT-initial(text-davinci-001

70、)Codex&Text(code-davinci-002)InstructGPT(text-davinci-003)ChatGPT规模增大in-context learning code&text融合对话语料human alignmentSFT&RLHF阶段1:参数规模不断变大,融合的任务更多样、方式更自然阶段2:利用人工数据引导模型输出更有价值结果数据:BookCorpus(7000本书)模型:Transformer Decoder参数:0.117B特点:Pretrain+Finetune数据:+Reddit高质量WebText模型:同GPT-1,有细节优化参数:1.5B特点:+NLP任务的

71、Prompt训练&具备zero-shot能力数据:+Filtered Common Crawl模型:GPT-2基础上,Sparse Transformer参数:175B特点:+in-context learning,few-shot learning效果大幅提升数据:+人工标注数据模型:GPT-3+人工标注数据训练的评价模型参数:175B特点:需求理解能力大幅提升(zero-shot能力)&生成质量提升大 资料来源:AI 语者、方正证券研究所绘制 ChatGPT 相较于相较于 GPT-3,不仅是在文本生成等,不仅是在文本生成等方面展现出了非常强方面展现出了非常强大的能力,与人类对话的智能感大的

72、能力,与人类对话的智能感大幅提升,而且海量数据和参数的支大幅提升,而且海量数据和参数的支撑下,模型在逻辑推理与思维链等方面能力开始涌现。撑下,模型在逻辑推理与思维链等方面能力开始涌现。ChatGPT 可以 26 敬请关注文后特别声明与免责条款 计算机-行业深度报告 完成许多相对复杂的语言任务,可以完成包括自动文本生成、自动问答、多轮对话等,并且能够主动承认错误,质疑不正确的问题等。此外,ChatGPT 还能编写和调试计算机程序。目前 ChatGPT 的应用主要包括:1)聊天机器人,可以使用 ChatGPT 来自由对话,使机器人能够向用户做出自然的回应;2)编写和调试计算机程序;3)文学、媒体相

73、关领域的创作,包括创作音乐、电视剧、童话故事、诗歌和歌词等;4)教育、考试、回答测试问题;5)通过 API 结构集成到其他应用中,目前 GPT 已经集成到了 Bing 搜索和 Office 套件。ChatGPT在推出后仅两个月活跃用户就达到了一个亿,成为了史上用户增长速度最快的消费级应用程序。图表 24:ChatGPT 在文本生成方面展现出了强大的能力 输出输入现在是什么季节?现在的季节取决于您所在的地理位置。在北半球,如果您地球有多大?地球是太阳系内第三颗最靠近太阳的行星,其直径写一份奶茶店的商业计划书一、商业概述 本奶茶店是一家专门提供奶茶和其他饮品的小型商铺。我们的目标是老师说1+1=5

74、是正确的通常情况下,我们认为 1+1=2 是数学上的基本常识,而 1+1=5 是错误的。-证券从业资格考试题型有哪些?-你错了,没有填空题-证券从业资格考试题型通常包括两个部分:选择题和主观题-非常感谢您的指正,您是对的。在证券从业资格考试中WelcheJahreszeit istes jetzt?(德语,现在是什么季节)Je nach geographischer Lage und aktuellem Datum kann ichnicht bestimmen,welche语言交互广泛的知识储备自然语言生成敢于质疑多轮对话多语言能力ChatGPT 资料来源:方正证券研究所绘制 基于人工反馈的

75、强化学习(基于人工反馈的强化学习(Reinforcement Learning from Human Feedback,RLHF)的的引入引入,是,是 ChatGPT 相较于相较于 GPT-3 在训练策在训练策略略上最重要的变化。上最重要的变化。关于强化学习,其应用的经典案例就是围棋人工智能机器人 Alpha GO。Alpha Go 在应用了强化学习进行无数次自我对弈训练后,其能力在短时间内得到了迅速的提升,2017 年战胜了当时围棋世界排名第一的柯洁,而强化学习也因此为大众所认知。强化学习的原理,就是让模型不断与环境进行交互,外部环境对每一次的交互进行反馈,通过奖励或者惩罚,让模型不断调整自

76、己的行动策略,并且逐渐找到最优的行动策略,从而达到最大化奖励的目标。比如用强化学习训练 AlphaGo 下围棋时,会在 AlphaGo 的每一步行动之后,都给予 AlphaGo 一个明确的反馈,是“好”还是“不好”,让模型不断优化对弈策略(参数调整),最终让棋子占领棋面上更多的区域并取得胜利。27 敬请关注文后特别声明与免责条款 计算机-行业深度报告 图表 25:强化学习的基本原理 奖励行为环境状态特征神经网络模型策略梯度模型 资料来源:大数据文摘、方正证券研究所 而在而在 ChatGPT 训练过程分为三步,其中最重要的部分即用人工标记训练过程分为三步,其中最重要的部分即用人工标记的方式,训练

77、出一个专门评价模型,再用这个评价模型来训练的方式,训练出一个专门评价模型,再用这个评价模型来训练 GPT模型,通过对其输出的内容打分,进而实现模型的训练与迭代。具体模型,通过对其输出的内容打分,进而实现模型的训练与迭代。具体而言:而言:第一步:第一步:预训练初始模型。预训练初始模型。在 GPT3.5 的基础上,使用有监督学习方式,微调训练出一个初始模型。训练数据一部分来自使 OpenAI 公司采集了GPT-3在公测期间用户提供的对话数据,另一部分来自OpenAI雇佣的 40 名标注师(labeler),由标注师分别扮演用户和 AI,人工生成人工的多轮对话数据。预训练的数据量不大,但数据的质量和

78、多样性很高。第二步:训练奖励模型。第二步:训练奖励模型。奖励模型的训练是 ChatGPT 的训练流程中最重要的一步,具体方法就是,随机抽取一大批提示(prompt),输入到第一阶段产生的模型中,模型会随机生成 K(4K9)个输出,然后以两两配的形式对向标注师展示输出结果,而标注师则在两个结果中选择效果更好的,通过人工打分排序的方式,对于符合人类价值观的内容给予较高的分数,而对人类不喜欢的内容给予较低的分数,最终实现对奖励模型的训练。第三步:使用强化学习对语言模型进行训练。第三步:使用强化学习对语言模型进行训练。这一阶段开始应用海量的无标注的数据,所用数据来自于抓取的网页、论坛、百科上的海量数据

79、。将海量数据输入到预训练的模型中,通过第二步训练得到的奖励模型来对输出的内容进行打分,结合近端策略优化(Proximal Policy Optimization,PPO)算法,鼓励模型输出更高质量的内容,从而实现语言模型的训练。28 敬请关注文后特别声明与免责条款 计算机-行业深度报告 图表 26:ChatGPT 的训练过程 步骤2步骤3随机抽取问题由人类标注员给出高质量回答用标注好的数据对GPT-3.5进行微调步骤1使用步骤1的模型对问题进行多次回答人类标注员对这些回答进行排名用排名数据训练奖励模型训练监督模型训练奖励模型用PPO算法优化模型随机抽取问题奖励模型进行打分PPO模型初始化更新P

80、PO模型参数PPO模型生成回答 资料来源:OpenAI 官网、方正证券研究所 在展现强大能力的同时,在展现强大能力的同时,ChatGPT 仍存在一定的局限性,主要受限仍存在一定的局限性,主要受限于标注团队的国籍分布、训练数据的语种以及训练数据的时效性。于标注团队的国籍分布、训练数据的语种以及训练数据的时效性。由于 ChatGPT 的奖励模型的训练实际上 40 名 OpenAI 雇佣的 40 名标注师对模型输出结果进行训练而得到的,因此 ChatGPT 的价值观是由这40 个外包员工的价值观组合而成,40 名外包员工来自美国和东南亚,分布比较集中且人数较少,因此实际上也会存在其他地区比较在意的偏

81、见问题。同时 ChatGPT 训练数据 96%以上是英文,其它 20 个语种包括中文,法语,西班牙语等合计不到 4%,因此 ChatGPT 在其他语种上的生成能力要逊色于英文。同时由于 ChatGPT 训练数据只更新到2021 年,因此在一些问题的回答上缺乏时效性。29 敬请关注文后特别声明与免责条款 计算机-行业深度报告 图表 27:ChatGPT 人工标注团队 性别性别 种族认同种族认同 国籍国籍 年龄年龄 受教育水平受教育水平 男性 50.00%白人 31.60%菲律宾 22%18-24 26.30%高中以下 0%女性 44.40%东南亚 52.60%孟加拉 22%25-34 47.40

82、%高中学历 10.50%其他 5.60%原住民 0.00%美国 17%35-44 10.50%本科学位 52.60%东亚 5.30%阿尔巴尼亚 5%45-54 10.50%硕士学位 36.80%中东 0.00%巴西 5%55-64 5.30%博士学位 0%拉丁裔 15.80%加拿大 5%65+0%黑人/非洲裔 10.50%哥伦比亚 5%印度 5%乌拉圭 5%津巴布韦 5%资料来源:Open AI、方正证券研究所绘制 20232023 年年 3 3 月月 1515 日,日,GPTGPT-4 4 正式发布,相较于之前版本的正式发布,相较于之前版本的 GPTGPT 模型,模型,GPTGPT-4 4

83、在各项能力上有了质的的突破,除了在推理能力、文本生成能在各项能力上有了质的的突破,除了在推理能力、文本生成能力、对话能力等方面有了大幅提升之外,力、对话能力等方面有了大幅提升之外,GPTGPT-4 4 迈出了从语言模型向迈出了从语言模型向多模态模型进化的第一步。多模态模型进化的第一步。GPT-4 最大的变化即能够接受图像的输入,并且能够生成文本语言,并且在看图能力方面有让人惊喜的表现的。同时 GPT-4 的各项能力相较于此前版本也有大幅提升,包括可以处理超过 25000 字长文本,以及写作能力的大幅提升,能够编歌曲、写剧本、学习用户写作风格,同时包括 GRE、SAT 等考试能力也有大幅提升。在

84、基于机器学习模型设计的各项基准上评估 GPT-4,GPT-4 大大优于现有的大型语言模型,以及大多数 SOTA 模型。除了英语外,GPT-4 在包括拉脱维亚语、威尔士语和斯瓦希里语等 26 种语言上的性能甚至都优于现有语言模型的英语性能。30 敬请关注文后特别声明与免责条款 计算机-行业深度报告 图表 28:GPT-4 模型性能要显著优于 GPT-3.5 86.4%5-shotGPT-4few-shot评估GPT-3.5few-shot评估LM SOTA最佳外部语言模型few-shot评估SOTA最佳外部模型(包括特定于基准的调整)MMLU 4357门科目的多项选择题(专业和学术)70.0%5

85、-shot70.7%5-shotU-PaLM 4475.2%5-shot Flan-PaLM 4595.3%10-shotHellaSwag 46围绕日常事件的常识性推理85.5%10-shot84.2%LLaMA(validation set)2885.6%ALUM4796.3%25-shotAI2 Reasoning Challenge(ARC)48小学多项选择科学问题(挑战集)85.2%25-shot85.2%8-shotPaLM 4986.5%ST-MOE 1887.5%5-shotWinoGrande 50围绕代词解析的常识推理81.6%5-shot85.1%5-shot PaLM

86、385.1%5-shot PaLM 367.0%0-shotHumanEval 37Python编码任务48.1%0-shot26.2%0-shot PaLM 365.8%CodeT+GPT-3.5 5180.93-shotDROP 52(F1 score)阅读理解和算术64.13-shot70.81-shot PaLM 388.4QDGAT 5392.0%5-shotchain-of-thoughtGSM-8K 54小学数学问题57.1%5-shot58.8%8-shot Minerva 5587.3%Chinchilla+SFT+ORM-RL,ORM reranking 56 资料来源:G

87、PT-4 Technical Report、方正证券研究所绘制 回顾回顾 GPTGPT 模型演进的模型演进的 5 5 个重要阶段,从个重要阶段,从 20182018 年年 5 5 月发布到月发布到 GPTGPT 初代初代版本,到版本,到 20232023 年年 3 3 月的月的 GPTGPT-4 4,仅,仅 5 5 年时间年时间 GPTGPT 模型的性能就产生了模型的性能就产生了质的飞跃。质的飞跃。在能力快速提升的背后,可以看到一方面是对训练方法的持续迭代,从 GPT-1 的半监督式学习,到 GPT-2 舍弃了微调阶段,再到 GPT-3 的 In-context 学习和海量数据,以及引入了基于

88、人工反馈的强化学习之后,最终进化到了 ChatGpt 和 GPT-4,另一方面,是 OpenAI公司以及微软对研发和算力的高投入,通过“大力出奇迹”的方式,支撑了模型参数和训练数据的快速膨胀。图表 29:GPT 模型演进的 5 个阶段 GPT-12018.6发布参数量1.17亿GPT-2GPT-3ChatGPTGPT-41.监督学习+无监督学习2.语言泛化能力不够3.专家模型,而非通用语言模型2019.2发布参数量15亿2020.5发布参数量1750亿2022.11发布参数量未公布2023.3发布参数量未公布1.舍弃模型微调阶段2.多个不同的任务在同一个模型上学习3语言泛化能力显著增强1.采用

89、In-context学习2.参数量相较于GPT-2提升了两个数量级3.真正意义上的超大语言模型1.引入人类反馈的强化学习(RLHF)2.能力大幅提升3.涌现出了思维链及逻辑推理等多种能力1.能力得到进一步提升2.实现了从大语言模型向多模态模型进化的第一步资料来源:方正证券研究所绘制 31 敬请关注文后特别声明与免责条款 计算机-行业深度报告 6 未来展望:多模态和未来展望:多模态和 AIGC 近年来近年来包括包括 GoogleGoogle,微软等海外大厂均已经在大模型上展开布局,微软等海外大厂均已经在大模型上展开布局,未未来随着行业竞争门槛的迅速提升,头部厂商在算力资源、数据积累等来随着行业竞

90、争门槛的迅速提升,头部厂商在算力资源、数据积累等方面的竞争优势将进一步凸显。方面的竞争优势将进一步凸显。在语言大模型方面 OpenAI 公司的 GPT模型已经处于绝对领先地位,Google、Facebook 等国外大厂紧随其后。目前主流大语言模型的参数量已经达到千万级,同时背后对算力的需求也非常巨大,包括 GPT-3 的单次训练费用超过 460 万美元,总训练费用超过 1200 万美元,未来在大模型上的“军备竞赛”也将让大模型成为了只有巨头才能参与的游戏。虽然模型的基本结构都已经通过论文等方式公开,但是各厂商在工程实践方面仍存在明显的差异,包括在数据的清洗、标注以及模型的微调、训练方法等方面仍

91、需要长时间的研发投入和经验积累。未来可预见到,这一领域头部厂商的先发优势和马太效应会体现的非常明显,特别是 ChatGPT 作为第一个“出圈”的大语言模型,目前每天有数以亿计的用户在使用 GPT 模型,随着使用次数越来越多,更多的数据会被收集来不断迭代系统和算法,而 GPT 模型的护城河也会越来越宽。全球范围来看,大模型的应用全球范围来看,大模型的应用已经不局限于已经不局限于 NLPNLP 领域,计算机视觉、领域,计算机视觉、多模态等领域的大模型开始涌现多模态等领域的大模型开始涌现。目前大模型包括三类:1)自然语言处理(NLP)模型,如 Open AI 的 ChatGPT 模型,Google

92、的 LaMDA;2)计算机视觉(CV)模型,如微软的 Florence;3)多模态模型,如Open AI 的 GPT-4 模型,Google 的 Parti。32 敬请关注文后特别声明与免责条款 计算机-行业深度报告 图表 30:海外大语言模型整体情况 厂商厂商 大模型大模型 应用应用 参数参数 模型类型模型类型 Deep Mind Gato 多面手的智能体 12 亿 多模态 Gpoher 语言理解与生成 2800 亿 NLP AlphaCode 代码生成 414 亿 NLP Microsoft Florence 视觉识别 6.4 亿 CV Turing-NLG 语言理解、生成 170 亿 N

93、LP NVIDIA Megatron-Turing NLG 语言理解与生成、推理 5300 亿 NLP Google BERT 语言理解与生成 4810 亿 NLP LaMDA 对话系统-NLP Imagen 语言理解与图像生成 110 亿 多模态 PaLM 语言理解与生成、推理、代码生成 5400 亿 NLP Parti 语言理解与图像生成 200 亿 多模态 OpenAI GPT3 语言理解与生成、推理等 1750 亿 NLP CLIP&DALL-E 图像生成、跨模态搜索 120 亿 多模态 Codex 代码生成 120 亿 NLP ChatGPT 语言理解与生成、推理-NLP Faceb

94、ook OPT-175B 语言模型 1750 亿 NLP M2M-100 100 种语言互译 150 亿 NLP Stability AI Stable Diffusion 语言理解与生成-多模态 资料来源:腾讯AIGC 发展趋势报告 2023、方正证券研究所绘制 国内互联网大厂包括百度、字节、阿里等厂商均推出了自己的大模型国内互联网大厂包括百度、字节、阿里等厂商均推出了自己的大模型或披露了相关计划。或披露了相关计划。总体来看,总体来看,和海外头部厂商相比,国内大模型在和海外头部厂商相比,国内大模型在工程实践上尚存在一到两年以上的差距。工程实践上尚存在一到两年以上的差距。1)百度:3 月 16

95、 日百度文心一言多模态大模型正式发布,具备文学创作、商业文案创作、数理逻辑推算、中文理解和多模态生成五个领域能力;2)阿里:2021 年,阿里推出了最大规模的中文多模态预训练大模型通义-M6,并以该模型为底座,覆盖 NLP、多模态、计算机视觉等领域,目前该模型系列已在超过 200 个场景中提供服务;3)字节:2022 年,字节与清华联合提出的 DA-Transformer 大模型,超越了自回归 Transformer 的性能;4)腾讯:2022 年,腾讯发布了混元 AI 万亿大模型,采用腾讯太极机器学习平台自研的训练框架 AngelPTM。此外包括 360、科大讯飞等厂商也披露了相关产品计划。

96、33 敬请关注文后特别声明与免责条款 计算机-行业深度报告 图表 31:国内大模型现状 厂商厂商 大模型大模型 推出时间推出时间 参数参数 突破点突破点 腾讯 混元大模型 2022.4 千亿级 在五大权威数据集榜单中登顶,实现跨模态领域的大满贯 百度 文心 PLATO 2019.10 百亿级 百亿参数中英对话预训练模型 ERNIE 3.0 2021.7 2600 亿 知识增强千亿大模型 文心一言 2023.3-首个中国版 ChatGPT 字节跳动 DA-Trans former 2022.5-摆脱传统并行模型依赖知识蒸馏的问题,在翻译任务中实现大幅超越 京东 K-PLUG 2019 10 亿

97、加速中国人工智能技术开发与落地,推动实体经济发展 阿里巴巴 M6 2021.6 10 万亿 当时最大规模的中文多模态预训练大模型 华为云 盘古 NLP 大模型 2021.4 千亿级 千亿参数中文语言预训练模型 智源研究院 悟道 2.0 2021.6 1.75 万亿 构建了全球最大中文语料数据库 WuDaoCorpora 中科院自动化所 紫东太初三模态大模型 2021.7 千亿级 全球首个三模态大模型 360 TripleRE 2022.9-在数据集 ogbl-wikikg2 上取得第一、第三的成绩 资料来源:央广网、智东西、CSDN、百度百科、新智元、通信产业网、阿里达摩院、东方网、机器之心、

98、昇腾社区、OGB 榜单、方正证券研究所绘制 AIGC 是是人工人工智能智能的重要演进方向,而生成算法、大模型与多模态的重要演进方向,而生成算法、大模型与多模态三三大大底层技术的突破底层技术的突破成为了成为了 AIGC 的质变的关键。的质变的关键。从 2022 年以DALL-E2、Stable Diffusion 为代表的 AI 作画系统,到 2023 年以ChatGPT 为代表的对话机器人的出现,预示着 AIGC 底层技术的逐渐成熟,从底层技术来看,主要来自于三个方面的技术突破:1)生成算法生成算法:包括生成对抗网络(GAN)、变分自编码器(VAE)、Transformer 模型、扩散模型(D

99、iffusion Model)等不断涌现生成算法。2014 年出现生成对抗网络 GAN(Generative Adverserial Network)是AIGC 早期的主流框架,但同时 GAN 一直存在对输出结果控制力弱,难以生成新图像等缺点。随后扩散模型开始出现,在提升图像生成效果的同时,大幅降低了计算量和计算时间,让文本生成图像能力走向成熟,并逐渐取代 GAN 成为当前主流的图像生成器,包括 DALL-E2、Stable Diffusion 等 AI 作画系统均是基于扩散模型所构建。2)大模型:大模型:大模型发展的关键节点是 2017 年出现的基于 Attention注意力机制的 Tran

100、sformer 模型,随后 Transformer 迅速成为了 NLP领域的主流框架,并且于 2018 年发布的 GPT 以及 BERT 模型均是基于 Transformer 所构建。不仅仅局限于 NLP 领域的应用,大模型可以 34 敬请关注文后特别声明与免责条款 计算机-行业深度报告 广泛适用于各类下游任务,当前已经成为了 AIGC 的底层框架。许多跨领域的 AI 应用均是构建于大模型之上,真正意义上解决了多任务、多场景、多功能需求,让一个 AIGC 模型可以高质量地完成多种多样的内容输出任务。3)多模态技术:多模态技术:多模态相关技术使得语言文字、图像、音视频等多种类型数据可以互相转化和

101、生成,而相关研究主要包含多模态表示学习(对不同模态数据提取特征与表示)、多模态转化(将一个模态的信息转换为另一个模态的信息)、多模态对齐(寻找同一实例不同模态信息的对应关系)、多模态融合(联合多个模态的信息并进行预测)、协同学习(使用一个资源丰富的模态信息来辅助另一个资源不足的模态进行学习)等几个关键部分。图表 32:生成算法、大模型、多模态是 AIGC 的底层技术 生成算法生成算法大模型大模型多模态多模态AIGCAIGC生成对抗网络(生成对抗网络(GANGAN)变分自编码器(变分自编码器(VAEVAE)扩散模型扩散模型(Diffusion ModelDiffusion Model)多模态表示

102、学习多模态表示学习多模态转化多模态转化多模态融合多模态融合多模态对齐多模态对齐AttentionAttentionTransfomerTransfomerGPTGPTBertBert 资料来源:方正证券研究所绘制 AIGC 能够能够自主生成创造出文字、图片、语音、视频、代码等各种形自主生成创造出文字、图片、语音、视频、代码等各种形式的内容,将深度改变办公、电商、式的内容,将深度改变办公、电商、娱乐、娱乐、教育、媒体等各行各业,教育、媒体等各行各业,并引领并引领人工智能实现人工智能实现从感知理解到生成创造的跃迁从感知理解到生成创造的跃迁。从 AIGC 各行业的一些典型应用来看:1)办公:可以处理

103、和分析大量数据,并且自动生成内容,提供预测性分析、数据可视化、智能报告等功能,比如微软推出的集成了 GPT-4 的 Microsoft 365 Copilot 就将内容生成能力直接嵌入到 Office 365 全家桶中。2)媒体:AIGC 能够辅助包括智能新闻写作,智能视频剪辑等传统媒体工作,同时包括 AI 合成主播等新应用也有望得以广泛应用;3)教育:AIGC 可应用于智能教育机器人,作为教学辅助工具帮助教师自动生成教案、作业批改等,并可用于生成全新的教学工具;4)电商:AIGC 应用于智能客服,可以自动化回答用户的常见问题并提出针对性建议,并可用于生成商品 3D 模型,并可用于生成虚拟主播

104、和虚拟商城;5)娱乐:可用于趣味性的图片和音视频生成、以及虚拟偶像的生成等。35 敬请关注文后特别声明与免责条款 计算机-行业深度报告 图表 33:AIGC 的应用场景 医学图像处理智能病历录入合成肢体投影合成医护陪伴数字复活已故演员高难度动作合成演员角色年龄的跨越虚拟物理场景合成高难度动作合成人脸美妆人脸融合黑白图像上色图像风格转换人像属性转换(年龄、性别)虚拟歌姬虚拟网红用户数字化身副本生产智能商详商品3D模型生成品牌虚拟主播合成历史人物视频虚拟教师线上课堂音视频处理辅助工程设计加速数字孪生系统构成营销视频合成智能金融客服VR金融场景构建写稿机器人智能视频拆条视频锦集视频字幕生成替换“劣迹

105、艺人”多语言译制片音画同步影视作品修复影视预告片生成影视内容2D转3DAI主播智能播报采访助手虚拟商城构建工业医疗金融AIGC应用 资料来源:方正证券研究所绘制 微软正式推出集成了微软正式推出集成了 GPT-4 的的 Microsoft 365 Copilot,办公率先正式,办公率先正式进入进入 AIGC 时代。时代。在 3 月 16 日发布的产品中,微软将生成式 AI 助手Copilot 直接嵌入到 Office 365 全家桶中,对 Word、Excel、PowerPoint、Outlook 和 Teams 等工具套件进行升级,具体功能体现在:1)Word:能够基于用户所提供的要求或信息按

106、照格式生成草稿,可以根据要求对文档就行修改、缩减,并能进行语气语态的修改;2)Excel:可根据用户要求引入函数、生成模型、插入图表等,并可总结相关规律、分析趋势;3)PowerPoint:可实现 Word 与 PPT 的自动转换,同时也可直接生成动画切换,并可根据已有的图表内容根据要求插入幻灯片等;4)Teams:Copilot 作为的会议助手,可以组织关键讨论要点,根据会议内容直接生成会议摘要;5)Outlook:除了自动生成邮件外,还可管理邮件,标注重要项目。同时,Copilot 以 Business Chat 的形式融入 Windows 的日历、邮箱、文档等软件中,通过用户的会议记录、

107、邮件、聊天记录等内容自动更新工作状态。我们认为,Copilot 的发布预示着大模型及 AIGC 相关技术开始正式应用于办公领域,在大幅提升用户办公效率的同时,也将推动的办公产品的快速升级迭代。36 敬请关注文后特别声明与免责条款 计算机-行业深度报告 图表 34:GPT-4 嵌入 Offcie 资料来源:新智元、方正证券研究所 文心一言正式发布,国内预训练多模态大模型迈出第一步。文心一言正式发布,国内预训练多模态大模型迈出第一步。3 月 16日,百度文心一言正式发布,作为国内最受关注的预训练多模态大模型,文心一言具备文学创作、商业文案创作、数理逻辑推算、中文理解和多模态生成五个领域能力,并通过

108、开放 API 接口,能够为金融、汽车、互联网、汽车等多行业提供 AIGC 的能力。文心一言的底层是飞桨深度学习平台和文心知识增强大模型,目前,飞桨已广泛应用于金融、工业、农业、服务业等众多行业,开发者数量达 535 万,创造了 67 万个模型,服务了 20 万家企事业单位,培养了超 200 万AI 人才。同时,飞桨模型库中的自然语言处理开发库 PaddleNLP,聚合了业界优质预训练模型并提供开箱即用的开发体验,覆盖 NLP 多场景,能为文心一言提供技术积累和补充。截至 2023 年 3 月,已经有包括互联网、媒体、金融、保险、汽车、企业软件等行业的 650多家头部企业宣布加入百度“文心一言”

109、生态圈。37 敬请关注文后特别声明与免责条款 计算机-行业深度报告 图表 35:百度文心大模型全景图 文心大模型领域/任务基础通用NLP大模型CV大模型跨模态大模型医疗 ERNIE-Health金融 ERNIE-Finance对话 PLATO信息抽取 EGNIE-IE跨语言 ERNIE-M语言理解与生成 ERNIE 3.0图像VIMER-Image视频VIMER-VedioOCR结构化VIMER-StrucTexT视觉-语言ERNIE-ViL语音-语言ERNIE-FAT文档分析 ERNIE-Layout图文生成 ERNIE-ViLG工具与平台大模型开发工具大模型轻量化工具大模型部署工具Easy

110、DL-大模型零门槛AI开发平台BML-大模型全功能AI开发平台 资料来源:文心大模型:知识增强的 NLP 模型详解、方正证券研究所绘制 7 投资策略投资策略 大语言模型及大语言模型及 AIGCAIGC 相关相关标的涉及平台、应用、算法、算力四大类型标的涉及平台、应用、算法、算力四大类型厂商:厂商:平台:平台:平台厂商主要为国内互联网大厂,一方面国内头部互联网厂商在研发、算力投入等方面具备持续大规模投入的能力,另一方面本身也是海量数据的拥有者,未来有望推出全球顶尖的中文语言大模型。相关标的:百度、阿里、腾讯、360。应用:应用:大模型及 AIGC 技术的场景化落地将产生巨大的商业价值,未来有望办

111、公、媒体、电商、金融、娱乐、教育等场景中得到深度的应用。其中海外是否有映射、API 能否接入、场景是否有容错等将成关键考量因素。相关标的:金山办公、科大讯飞、光云科技、同花顺、万兴科技、致远互联、福昕软件、漫步者、虹软科技、当虹科技、凌志软件。算法:算法:算法提供商作为 AI 技术的开发者,将持续为下游百业赋能。相关标的:科大讯飞、拓尔思、海天瑞声、云从科技、商汤科技。算力:算力:大语言模型以及 AIGC 将带来对底层算力需求的急剧增加,算力相关厂商包括芯片厂商、服务器厂商、数据中心及云服务厂商三类厂商,且从市场需求及供应链安全等视角看,芯片厂商的受益程度居前。相关标的:寒武纪,海光信息、浪潮

112、信息、紫光股份、中科曙光、优刻得、青云科技。38 敬请关注文后特别声明与免责条款 计算机-行业深度报告 8 风险提示风险提示 技术风险:技术风险:人工智能技术发展迅速,但仍存在许多技术挑战和未知的风险,导致产业变革和新技术落地节奏不及预期。法律和监管风险:法律和监管风险:AI 技术的发展易引起法律和监管问题,如数据隐私、安全和道德问题等。若数据中包含敏感信息。一旦泄露或被未经授权的人访问,将会对相关公司造成负面影响。中美贸易摩擦加剧风险:中美贸易摩擦加剧风险:目前芯片主要由海外厂商提供,若中美贸易摩擦加剧,将面临“卡脖子”风险,导致相关产品研发推进不及预期。39 计算机-行业深度报告 分析师声

113、明分析师声明 作者具有中国证券业协会授予的证券投资咨询执业资格,保证报告所采用的数据和信息均来自公开合规渠道,分析逻辑基于作者的职业理解,本报告清晰准确地反映了作者的研究观点,力求独立、客观和公正,结论不受任何第三方的授意或影响。研究报告对所涉及的证券或发行人的评价是分析师本人通过财务分析预测、数量化方法、或行业比较分析所得出的结论,但使用以上信息和分析方法存在局限性。特此声明。免责声明免责声明 本研究报告由方正证券制作及在中国(香港和澳门特别行政区、台湾省除外)发布。根据证券期货投资者适当性管理办法,本报告内容仅供我公司适当性评级为C3及以上等级的投资者使用,本公司不会因接收人收到本报告而视

114、其为本公司的当然客户。若您并非前述等级的投资者,为保证服务质量、控制风险,请勿订阅本报告中的信息,本资料难以设置访问权限,若给您造成不便,敬请谅解。在任何情况下,本报告的内容不构成对任何人的投资建议,也没有考虑到个别客户特殊的投资目标、财务状况或需求,方正证券不对任何人因使用本报告所载任何内容所引致的任何损失负任何责任,投资者需自行承担风险。本报告版权仅为方正证券所有,本公司对本报告保留一切法律权利。未经本公司事先书面授权,任何机构或个人不得以任何形式复制、转发或公开传播本报告的全部或部分内容,不得将报告内容作为诉讼、仲裁、传媒所引用之证明或依据,不得用于营利或用于未经允许的其它用途。如需引用

115、、刊发或转载本报告,需注明出处且不得进行任何有悖原意的引用、删节和修改。公司投资评级的说明:公司投资评级的说明:强烈推荐:分析师预测未来半年公司股价有20%以上的涨幅;推荐:分析师预测未来半年公司股价有10%以上的涨幅;中性:分析师预测未来半年公司股价在-10%和10%之间波动;减持:分析师预测未来半年公司股价有10%以上的跌幅。行业投资评级的说明:行业投资评级的说明:推荐:分析师预测未来半年行业表现强于沪深300指数;中性:分析师预测未来半年行业表现与沪深300指数持平;减持:分析师预测未来半年行业表现弱于沪深300指数。地址地址 网址:https:/ E-mail: 北京北京 西城区展览馆路 48 号新联写字楼 6 层 上海上海 静安区延平路 71 号延平大厦 2 楼 深圳深圳 福田区竹子林紫竹七道光大银行大厦 31 层 广州广州 天河区兴盛路 12 号楼 隽峰苑 2 期 3 层方正证券 长沙长沙 天心区湘江中路二段 36 号华远国际中心 37 层

友情提示

1、下载报告失败解决办法
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。

本文(计算机行业:解析ChatGPT背后的技术演进-230322(39页).pdf)为本站 (Seven seconds) 主动上传,三个皮匠报告文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三个皮匠报告文库(点击联系客服),我们立即给予删除!

温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。
会员购买
客服

专属顾问

商务合作

机构入驻、侵权投诉、商务合作

服务号

三个皮匠报告官方公众号

回到顶部