《信息技术行业大模型技术进化论系列一:初代大模型技术详解-230406(16页).pdf》由会员分享,可在线阅读,更多相关《信息技术行业大模型技术进化论系列一:初代大模型技术详解-230406(16页).pdf(16页珍藏版)》请在三个皮匠报告上搜索。
1、 请阅读最后评级说明和重要声明 丨证券研究报告丨 行业研究丨专题报告丨信息技术 Table_Title 大模型技术进化论系列一:初代大模型技术详解 报告要点 Table_Summary 大模型是深度学习在自然语言处理领域的最新技术,是继 RNN、CNN 等传统深度学习模型变体之后,在深度学习方向上打开了一个新世界的大门。大模型理论一经推出,即受到了广泛的关注。OpenAI 受其启发在 2018 年 6 月发布了初代 GPT 大模型,谷歌紧接其后在 2018 年 10月发布了 BERT 大模型。分析师及联系人 Table_Author 宗建树 SAC:S0490520030004 请阅读最后评级
2、说明和重要声明 丨证券研究报告丨 更多研报请访问 长江研究小程序 信息技术 cjzqdt11111 Table_Title2 大模型技术进化论系列一:初代大模型技术详解 行业研究丨专题报告 Table_Rank 投资评级 看好丨维持 Table_Summary2 大模型理论最早在 2017 年由谷歌的Attention is All You Need论文提出 大模型是深度学习在自然语言处理领域的最新技术,是继 RNN、CNN 等传统深度学习模型变体之后,在深度学习方向上打开的一个新世界的大门。大模型理论一经推出,即受到了广泛的关注。OpenAI 受其启发在 2018 年 6 月发布了初代 GP
3、T 大模型,谷歌紧接其后在 2018 年 10月发布了 BERT 大模型。时至今日,基于通用大模型进行调参已成为自然语言处理任务的首选范式。大模型的三大特征:生成式、预训练和多模态帮助其取代了绝大部分传统的自然语言处理的深度学习模型,已广泛用于文本生成、机器翻译、文本推理、关键词总结等各类场景。OpenAI 最新发布的 GPT-4 大模型甚至可以完成复杂的图像处理,通过美国律师从业资格考试、高等教育入学考试。其他科技巨头也陆续宣布要开发自己的通用大模型和行业大模型,实现商业化落地。大模型有望在未来开辟强人工智能的新篇章。大模型的出现解决了一系列痛点 在 2017 年大模型诞生的前夕,深度学习的
4、 Encoder/Decoder 算法虽然早已提出,但在 NLP 领域还只被用于机器翻译领域;Attention 机制刚刚出现,尚未得到重视;与此同时,较为成熟的RNN、CNN 模型遇到了一系列的技术瓶颈,始终无法解决处理文本长度受限、模型无法泛化、无法用于文本生成等问题。这一时点出现的大模型将 Encoder/Decoder 与 Attention 机制相结合,通过无监督学习+调参的方式,突破了传统深度学习的技术瓶颈。初代 GPT 和 BERT 特点 初代 GPT 由于使用了 12 层 Decoder 架构,配合上 Masked Multi-Head Attention,只能根据前文单向预测
5、下一个单词,因此训练速度不如 BERT,但更擅长文本生成与逻辑推理。BERT由于使用了 24 层 Encoder 结构,配合上 Multi-Head Attention,训练时随机遮挡一段文本中15%的单词做完形填空,因此训练速度更快,训练可以双向并行。训练模式导致 BERT 更擅长文本总结,问答对话等任务。BERT 模型的架构和训练模式导致其上限不高 简单而言,BERT 只采用了 Encoder 结构,而 Encoder 适用于完形填空的训练模式,所以 BERT训练完成之后更适合关键词提取、文本总结等任务,而此类任务本身较为简单;另一方面,GPT采用了 Decoder 架构,更适合搭配下一个
6、词预测作为训练任务,所以训练出的 GPT 模型更适合推理和文本生成等任务,而这类任务的难度较高,OpenAI 直到迭代到 ChatGPT 才较好实现了这一功能。风险提示 1、人工智能技术发展不及预期;2、人工智能商业化应用落地不及预期。市场表现对比图市场表现对比图(近近 12 个月个月)资料来源:Wind 相关研究相关研究 底部渐近,复苏可期存储行业五问五答2023-04-03 AI 大模型时代,重视 OA 产业投资机遇 2023-04-02 从 AIGC 看数通链2023-04-02 -21%-9%3%15%2022/42022/82022/122023/4信息技术沪深300指数2023-0
7、4-06 4WcZkZiYeYlWsXtWuV6MaO6MmOmMoMsRiNnNsOiNoOsM7NqRzQvPrNvMvPpPpP 请阅读最后评级说明和重要声明 3/16 行业研究|专题报告 目录 什么是大模型.4 为什么需要大模型?.5 初代 GPT 大模型技术拆解.9 BERT 大模型技术拆解.11 初代 GPT 与 BERT 特点总结.12 风险提示.15 图表目录 图 1:大模型的 Encoder-Decoder 2机制.4 图 2:各厂商布局时间轴.5 图 3:大模型解决了四项痛点.6 图 4:每一个 Encoder/Decoder 中都有 Attention 层.6 图 5:A
8、ttention 可以并行处理文本.7 图 6:Attention 给不同的词赋予不同的权重.7 图 7:大模型通过无监督预训练+调参来得到最终模型.7 图 8:Anthropic、GPT-3.5 和 GPT-4 在 RLHF 调参过后准确率都大幅度提升.8 图 9:Phenaki 大模型可以根据关键词生成视频.9 图 10:初代 GPT 在 Decoder 中删除了 Multi-Head Attention 结构.9 图 11:GPT 针对不同的任务设计了不同的词嵌入 Token.10 图 12:随着训练层数的增加,模型的性能也随之提高.10 图 13:随着训练步数的增加,模型的 zero-
9、shot 性能随之提高.10 图 14:BERT 的 token 可以做双向词嵌入.11 图 15:BERT 调参过程.11 图 16:BERT 的性能全方位超越了初代 GPT.12 图 17:单向处理文本的 GPT 与双向处理文本的 BERT.13 图 18:一张图看懂 BERT、GPT 的架构和训练模式的影响.13 图 19:在 BERT 推出后,科大讯飞实验室以 BERT 为原型推出了一系列大模型.14 图 20:AI 模型网站 Huggingface 上下载量最大前 20 的大模型调参应用,BERT 占了 11 个.14 表 1:初代 GPT 与 BERT 模型参数比较.12 请阅读最
10、后评级说明和重要声明 4/16 行业研究|专题报告 什么是大模型 大模型是深度学习在自然语言处理领域的最新技术。大模型是深度学习在自然语言处理领域的最新技术。大模型是指在庞大的语料库上使用Transformer 算法进行训练的模型,具有数百万或数十亿个参数,通常采用无监督学习方法进行预训练,然后使用监督学习方法进行微调以执行特定的任务。大模型理论最早在 2017 年由谷歌的Attention is All You Need论文提出。大模型的目标是学习通用的语言表示形式,这使得它们可以应用于各种自然语言处理任务,例如文本分类、命名实体识别、语言生成等。预训练大模型通常具有比传统模型更好的性能和泛
11、化能力,因为它们可以从大量的文本数据中学习通用的语言模式和语法结构。大模型做到了大模型做到了通用性通用性、生成式、多模态三个特点、生成式、多模态三个特点:通用性:通用性:传统深度学习模型需要根据特定任务定制算法和训练数据,而大模型由于已经进行了预训练,其技术的泛化性允许其不需要调整算法和训练数据即可取得优秀的表现;生成式:生成式:传统的深度学习模型只能根据现有数据判别,帮用户做决策,但大模型可以自我生成内容;多模态:多模态:传统的深度学习只能处理图像、文本或视频等单个领域的数据,而大模型可以将图像与文本、视频与文本等数据相结合,处理多模态任务。此外,大模型处理文本时可以不依照文本的顺序,大大加
12、快了文本处理速度。大模型又采用了 Attention 机制,对文本中不同的词语赋予不同的权重值,增强了模型处理长文本的能力。大模型结构是继 RNN、CNN 1,以及其一系列变体 LSTM、GRU、ResNet、DenseNet 之后,在深度学习方向上打开了一个新世界的大门。图 1:大模型的 Encoder-Decoder 2机制 资料来源:Attention is All You NeedVaswani et al.,长江证券研究所 _ 1 RNN:循环神经网络,可以处理时间序列问题,常用于文本处理任务;CNN:卷积神经网络,常用于图像处理任务。2 Encoder 是一个神经网络编码器,可以将
13、输入序列(如自然语言句子)编码为一个向量,而 Decoder 则将该向量表示解码为输出序列(如自然语言翻译)。请阅读最后评级说明和重要声明 5/16 行业研究|专题报告 大模型理论一经推出,即大模型理论一经推出,即受受到了广泛的关注。到了广泛的关注。OpenAI 受其启发在 2018 年 6 月发布了初代 GPT 大模型,谷歌紧接其后在 2018 年 10 月发布了 BERT 大模型。两位巨头采取了两种不同的技术路线,OpenAI 的初代 GPT 只采用了大模型理论中的解码器技术,而谷歌只采用了大模型理论中的编码器技术。时至今日,基于通用大模型进行调参已成为自然语言处理任务的首选范式时至今日,
14、基于通用大模型进行调参已成为自然语言处理任务的首选范式。大模型的三大特征:生成式、预训练和多模态帮助其取代了绝大部分传统的自然语言处理的深度学习模型,已广泛用于文本生成、机器翻译、文本推理、关键词总结等各类场景。除了自然语言处理领域,大模型结构也被应用到了计算机视觉领域,由此诞生了一系列比 CNN更强大的模型,如 ViT、BEiT 和 MAE。OpenAI 最新发布的 GPT-4 大模型甚至可以完成复杂的图像处理,通过美国律师从业资格考试、高等教育入学考试。其他科技巨头也陆续宣布要开发自己的通用大模型和行业大模型,实现商业化落地。大模型有望在未来开辟强人工智能的新篇章。图 2:各厂商布局时间轴
15、 资料来源:机器之心,Sigmoid,lambdalab,谷歌官网,Meta 官网,智源社区,百度官网,华为官网,长江证券研究所 为什么需要大模型?大模型的出现解决了大模型的出现解决了四项四项痛点。痛点。在 2017 年大模型诞生的前夕,深度学习的Encoder/Decoder 算法虽然早已提出,但在 NLP 领域还只被用于机器翻译领域;Google发布Attention Is All You Need论文,提出大模型概念,采用注意力机制,解决了RNN效率问题和传递中的缺陷。OpenAI发布GPT-2模型,在GPT的基础上省略了调参过程,参数扩大到15亿,模型更通用。百度推出ERNIE1.0大
16、模型。OpenAI发布Clip模型,实现文本到图像的跨模态。OpenAI发布初代GPT模型,参数达到1.17亿,可通过预训练+调参的方式,处理无标注的NLP任务 Google发布BERT,在GPT的基础上升级成为双向训练模型,参数达到3.4亿,在分类、标注等任务下都获得了更好的效果。OpenAI发布GPT-3模型,参数扩大到1750亿,性能更强。ViT模型发布,将大模型用于图像视觉领域。200192021.012021.03 智源推出悟道1.0大模型,参数达到10亿。OpenAI发布ChatGPT模型,基于GPT-3.5模型,长文本理解能力增强,新增代码理解和生成能力。2
17、022.11 谷歌推出Bard大模型,建立在LaMDA大模型基础上,参数达到1370亿。谷歌推出LaMDA大模型,专注于对话领域,参数达到1370亿。Meta推出Opt-175B大模型,参数达到1750亿。Meta推出BlenderBot3大模型,建立在Opt-175B大模型基础上,参数达到1750亿。百度推出文心系列大模型。2021.052021.122022.052022.082023.02 百度推出文心一言大模型,对标ChatGPT。2023.03 请阅读最后评级说明和重要声明 6/16 行业研究|专题报告 Attention 机制刚刚出现,尚未得到重视;与此同时,较为成熟的 RNN、C
18、NN 模型遇到了一系列的技术瓶颈,始终无法解决处理文本长度受限、模型无法泛化、无法用于文本生成等问题。这一时点出现的大模型将 Encoder/Decoder 与 Attention 机制相结合,通过无监督学习+调参的方式,突破了传统深度学习的技术瓶颈。图 3:大模型解决了四项痛点 资料来源:长江证券研究所 早期大模型如初代 GPT、BERT、GPT-2 等都只适用于自然语言处理任务,直到 2021年初 OpenAI 推出了 Clip 多模态模型,大模型才具备了多模态能力。长文本处理能力跃升 传统深度学习无法传统深度学习无法并行或并行或处理长文本内容。处理长文本内容。2017 年之前的自然语言处
19、理场景,一般会选择传统的 RNN 模型来正确处理文本序列的问题。但 RNN 只能从左向右依次计算或者从右向左依次计算,模型在 t 处的计算需要依赖模型在 t-1 处的计算结果,这一原则限制了模型的并行能力。此外,当最新的文本 token 被合并到序列中时,很久之前的文本 token 信息就会丢失,所以 RNN 模型只能用于较短的文本内容处理。图 4:每一个 Encoder/Decoder 中都有 Attention 层 资料来源:Github,长江证券研究所 无法处理长文本内容通过Attention机制,捕捉文本关键词,降低遗忘效应遇到新任务需要重新设计模型,收集训练数据通过预训练提高泛化能力
20、,不需要重新训练只能对问题做判别,无法生成新内容可以生成全新的内容只能处理单模态任务可以将文本、图像、视频数据相结合,处理多模态任务 请阅读最后评级说明和重要声明 7/16 行业研究|专题报告 Attention 机制可以机制可以并行并行用于长文本场景。用于长文本场景。大模型使用了 Attention 机制,将序列中的任意两个位置之间的距离缩小为一个常量,而不是类似 RNN 的顺序结构,因此具有更好的并行性,符合现有的 GPU 框架;此外 Attention 机制通过在处理序列数据时对相关部分进行加权,从而将重点放在与当前任务相关的部分,从而缓解了长序列数据的问题。在预训练模型中,Attent
21、ion 机制通常被用于捕捉输入序列中的重要信息,并将其与上下文联系起来,以便更好地理解文本。图 5:Attention 可以并行处理文本 图 6:Attention 给不同的词赋予不同的权重 资料来源:GitHub,长江证券研究所 资料来源:GitHub,长江证券研究所 无监督预训练+监督调参模式提高泛化能力 传统深度学习模型只能采用监督学习模式。传统深度学习模型只能采用监督学习模式。在 2017 年之前,NLP 在深度学习上基本还处于 word2vec 以及为不同任务做定制化深度模型的情况。在此阶段,模型需要大量的在特定领域标注过的数据集,由于这些数据集都需要人工标注,所以训练模型的成本较高
22、。这一特点导致在部分领域使用深度学习模型的最大困难在于收集足够可靠的、已标注的训练集。此外,模型采用手工设计特征和规则的方式进行建模,对于不同的任务和语言,需要重新设计和调整模型,训练完成的模型无法兼容其他领域。大模型大模型实现了无监督预训练实现了无监督预训练+监督调参模式监督调参模式。大模型在训练时无需对数据进行标注,模型会通过前文来预测文本的下一个词,再与原文做对比,以此来实现无监督训练。而大模型的庞大的训练数据使得大模型具备亿级以上的参数值,让大模型获得足够的泛化能力,无需根据特定行业的标注数据再次训练,在大部分行业可以直接实现应用落地。图 7:大模型通过无监督预训练+调参来得到最终模型
23、 资料来源:清华 NLP 团队,openBMB,长江证券研究所 模型预训练(Pre-training)模型微调(Fine-tuning)最终模型大规模无标注数据任务特定训练数据数据预训练+调参=目标模型泛用性增强根据场景调整得到特定所需 请阅读最后评级说明和重要声明 8/16 行业研究|专题报告 大模型需要通过标注数据来调参,以大模型需要通过标注数据来调参,以获得更好的性能获得更好的性能。预训练大模型的复杂性和参数量较大,且训练需要花费大量的时间和计算资源,因此必须通过调参来优化模型性能。调参的数据需要人工标注,调参数据规模根据任务难度变化而变化。调参的类型一般分为调参的类型一般分为三类:三类
24、:超参数选择:预训练大模型中有很多超参数需要调整,例如学习率、批量大小、正则化参数等。这些超参数的不同选择可能会导致模型的性能差异较大,因此需要通过实验和调整来确定最佳超参数组合。模型结构调整:预训练大模型的结构非常复杂,包含多个层和大量参数。不同的结构可能会对模型的性能产生重要的影响。因此,在预训练之前需要测试模型的结构,训练之后也需要调整到最佳结构。数据集选择:预训练大模型需要使用大量数据进行训练。不同的数据集可能会对模型的性能产生重要的影响。因此,在进行预训练之前需要选择合适的数据集,并对数据集进行一些预处理和增强。图 8:Anthropic、GPT-3.5 和 GPT-4 在 RLHF
25、 调参过后准确率都大幅度提升 资料来源:GPT-4 Trchnical ReportOpenAI,长江证券研究所 大模型具备内容生成能力 传统的深度学习模型不具备内容生成能力。传统的深度学习模型不具备内容生成能力。传统的深度学习模型通常需要手工设计特征或使用词向量等表示文本数据,这种方式需要大量的后期手动修改,且无法完全表达文本数据中的语言规律和语义信息,导致模型在生成文本时缺乏连贯性和准确性。此外,RNN 或 CNN 模型得结构限制了它们只能处理固定长度的文本,而无法处理长文本数据。这使得模型在生成长文本时存在困难,同时也无法完全考虑到文本中的上下文关系。大模型第一次大模型第一次实现实现了内
26、容生成。了内容生成。前面我们介绍了大模型无监督学习的模式:大模型可以通过前文来预测下一个词语,而正是这一训练方式赋予了大模型内容生成的能力。大模型能够在生成文本时综合考虑到文本中的上下文关系,能够生成更连贯、合理的文本。除了文本生成,预训练大模型还可以用于语音生成、图像生成等其他领域的生成任务。大模型可以根据给定的文本生成对应的语音、图像。目前大模型的生成能力已成功商业化落地,被广泛用于自然语言处理、音频处理、计算机视觉等领域。请阅读最后评级说明和重要声明 9/16 行业研究|专题报告 图 9:Phenaki 大模型可以根据关键词生成视频 资料来源:Phenaki:Variable Lengt
27、h Video Generation From Open Domain Textual Description Villegas et al.,长江证券研究所 初代 GPT 大模型技术拆解 2018 年年 6 月,月,OpenAI 发布了初代发布了初代 GPT。初代 GPT 是世界上第一个大模型应用,模型基于 Transformer 结构进行建模,采用了无监督学习方式进行训练,具有 12 层 Decoder结构,总参数量达到 1.17 亿。初代 GPT 仅使用了 Transformer 的 Decoder 结构,并对 Decoder 进行了一些改动,删除了 Multi-Head attenti
28、on 结构,只保留了 Masked Multi-Head Attention 结构,这确保了 GPT 只能关注前文的信息,从而达到单向模型的目的。图 10:初代 GPT 在 Decoder 中删除了 Multi-Head Attention 结构 资料来源:cnblog,长江证券研究所 请阅读最后评级说明和重要声明 10/16 行业研究|专题报告 GPT 是最早一批提出在是最早一批提出在 NLP 任务上使用任务上使用预训练预训练+调参范式的工作。调参范式的工作。GPT 的训练集采用了 BookCorpus 7000 本书籍,数据规模达到 5GB。在调参阶段,针对 NLP 中四个常见任务:文本分
29、类、文本蕴含、文本相似度、问答任务,GPT 引入了分隔符。分隔符可以根据不同的任务设置不同的词嵌入 token,使得大模型能在调参的时候适配 4 种不同的任务。图 11:GPT 针对不同的任务设计了不同的词嵌入 Token 资料来源:Improving Language Understanding by Generative Pre-TrainingRadford et al.,长江证券研究所 GPT 证明了模型的精度和泛化能力会随着解码器层数增加而不断提升证明了模型的精度和泛化能力会随着解码器层数增加而不断提升。随着模型的层数增加,模型可以更好地捕捉输入数据中的细节和模式,这种现象在神经网络
30、领域中被称为“深度学习效应”。在 GPT 中,模型的准确性随着 Decoder 层数的增加而提高。增加解码器层数使模型更好地理解了自然语言中的语法和语义,并生成了更准确、更自然的文本。图 12:随着训练层数的增加,模型的性能也随之提高 图 13:随着训练步数的增加,模型的 zero-shot 性能随之提高 资料来源:Improving Language Understanding by Generative Pre-TrainingRadford et al.,长江证券研究所 资料来源:Improving Language Understanding by Generative Pre-Tra
31、iningRadford et al.,长江证券研究所 GPT 模型具有模型具有 zero-shot 能力,并且能随着预训练的进行不断增强能力,并且能随着预训练的进行不断增强。在 zero-shot 任务中,初代 GPT 的模型要比基于 LSTM 的模型稳定,且随着训练次数的增加,其 zero-shot 的性能也逐渐提升。这些都表明初代 GPT 已经具备相对较强的泛化能力,能够用到和其训练集无关的其它 NLP 任务中。此外,初代 GPT 也证明了大模型学习词向量的强大能力,在 GPT 得到的词向量基础上进行下游任务的学习,能够让下游任务更好地泛化。对于下游任务的训练,初代 GPT 往往只需要简
32、单的微调便能取得非常好的效果。请阅读最后评级说明和重要声明 11/16 行业研究|专题报告 BERT 大模型技术拆解 谷歌在谷歌在 2018 年年 10 月推出了月推出了 BERT 大模型。大模型。BERT 大模型采用了 24 层的 Encoder 结构,参数量达到了 3.4 亿。BERT 的训练数据集源自 Toronto BookCorpus(8 亿词)和英文维基百科(25 亿词)。BERT 只采用了 Transformer 的 Encoder 结构,由于没有像 GPT 一样的 Masked Multi-Head Attention 结构,在训练时允许每个 token 访问其前后两个方向的
33、context,因此 BERT 是双向的语言模型。图 14:BERT 的 token 可以做双向词嵌入 资料来源:exxactcorp,长江证券研究所 BERT 模型模型更更注重理解语义和上下文相关性。注重理解语义和上下文相关性。在训练时,BERT 使用了两个预训练任务:Masked Language Modeling(MLM)和 Next Sentence Prediction(NSP)。在 MLM 任务中,双向的语言模型结构允许 BERT 在训练时不必像 GPT 一样只能单向预测下一个词,而是类似于完形填空随机遮蔽 15%的 token,然后用未遮蔽的部分作为 context 预测被遮蔽的
34、部分。在 NSP 任务中,训练集会输入两个句子,然后让 BERT 预测两句话是否是相邻。这两个训练任务使得 BERT 模型的训练速度较快,而且让 BERT 更注重理解语义和上下文相关性,并且在文本总结、关键词提取等任务上比 GPT 取得更好的成绩。图 15:BERT 调参过程 资料来源:BERT:Pre-training of Deep Bidirectional Transformers for Language UnderstandingDevlin et al.,长江证券研究所 请阅读最后评级说明和重要声明 12/16 行业研究|专题报告 BERT 调参步骤相对简单。调参步骤相对简单。B
35、ERT 的调参数据集主要为对话文本、问答文本等,调参时会直接遍历数据集中的任意相邻两句话。调参的过后的 BERT 大模型会通过 GLUE Benchmark、SQuAD v1.1 和 SQuAD v2.0 三个任务体系下评估。据谷歌介绍,BERT调参所需算力较小,仅需一块云端 TPU 花费 1 小时,或一块 GPU 花费数小时即可完成。图 16:BERT 的性能全方位超越了初代 GPT 资料来源:BERT:Pre-training of Deep Bidirectional Transformers for Language UnderstandingDevlin et al.,长江证券研究所
36、 初代 GPT 与 BERT 特点总结 初代 GPT 由于使用了 12 层 Decoder 架构,配合上 Masked Multi-Head Attention,只能根据前文单向预测下一个单词,因此训练速度不如 BERT,但更擅长文本推理和文本生成。表 1:初代 GPT 与 BERT 模型参数比较 初代初代 GPT BERT 模型 12 层 Transformer Decoder 单向(去掉 Multi-Head Attention)24 层 Transformer Encoder 双向 参数量 1.17 亿 3.4 亿 训练语料 7000 本书 BooksCorpus 800M 单词 英文维
37、基 2500M 单词 预训练任务 LTR 预测下一个单词 MLM 和 NSP 擅长任务 文本推理、文本生成 对话、问答、文本总结 资料来源:Improving Language Understanding by Generative Pre-Training Radford et al.,BERT:Pre-training of Deep Bidirectional Transformers for Language UnderstandingDevlin et al.,medium,长江证券研究所 BERT 由于使用了 24 层 Encoder 结构,配合上 Multi-Head Atten
38、tion,训练时随机遮挡一段文本中 15%的单词做完形填空,因此训练速度更快,训练可以双向并行。训练模式导致 BERT 更擅长文本总结,问答对话等任务。请阅读最后评级说明和重要声明 13/16 行业研究|专题报告 图 17:单向处理文本的 GPT 与双向处理文本的 BERT 资料来源:dbvis,长江证券研究所 BERT 模型的架构和训练模式导致其上限不高,也限制了谷歌后续在模型的架构和训练模式导致其上限不高,也限制了谷歌后续在 BERT 模型基础模型基础上推出的升级模型。上推出的升级模型。简单而言,BERT 只采用了 Encoder 结构,而 Encoder 适用于完形填空的训练模式,所以
39、BERT 训练完成之后更适合文本理解、关键词提取、文本总结等任务,而此类任务本身较为简单;另一方面,GPT 采用了 Decoder 架构,更适合搭配下一个词预测作为训练任务,所以训练出的 GPT 模型更适合推理和文本生成等任务,而这类任务的难度较高,OpenAI 直到迭代到 ChatGPT 才较好实现了这一功能。图 18:一张图看懂 BERT、GPT 的架构和训练模式的影响 资料来源:长江证券研究所 在在 2018 年至年至 2019 年这一段时间,年这一段时间,BERT 大模型大模型的受欢迎程度更高。的受欢迎程度更高。上文阐述了初代GPT 系列的架构与训练模式导致其更适合推理性任务。但由于推
40、理型任务的要求较高,所以推理型模型本身需要达到较高的性能才能真正实用化。但初代 GPT 自身的参数量较小,这一局限性导致了初代GPT和一年之后推出的GPT-2实用性较低,直到ChatGPT发布才真正突破了这一瓶颈。在另一方面,BERT 模型的架构和其训练模式使得其更加适合文本总结、关键词提取等任务。而这一类任务本身较为简单,对模型的要求较低,初代GPTBERT 请阅读最后评级说明和重要声明 14/16 行业研究|专题报告 所以 BERT 能够很好的胜任这一类任务。因此 BERT 大模型推出时的受到的关注更多,当时学术界和业界也推出了一系列 BERT 的调参模型和模型变体。图 19:在 BERT
41、 推出后,科大讯飞实验室以 BERT 为原型推出了一系列大模型 图 20:AI 模型网站 Huggingface 上下载量最大前 20 的大模型调参应用,BERT 占了 11 个 资料来源:Github,长江证券研究所 资料来源:Huggingface,长江证券研究所 请阅读最后评级说明和重要声明 15/16 行业研究|专题报告 风险提示 1、AI 技术发展不及预期,本次大模型创新伴随参数量及模态的增速能力天花板尚未达到,但模型效果本身仍存瓶颈及问题,倘若 AI 技术发展不及预期,投入厂商仍然存在失败风险。2、下游应用需求不及预期,人工智能本质是通过供给创新催生需求扩容,目前大模型仍处于商业模
42、式摸索期,倘若本轮技术变革无法真实带动下游需求,投入厂商将受到影响。请阅读最后评级说明和重要声明 16/16 行业研究|专题报告 投资评级说明 行业评级 报告发布日后的 12 个月内行业股票指数的涨跌幅相对同期相关证券市场代表性指数的涨跌幅为基准,投资建议的评级标准为:看 好:相对表现优于同期相关证券市场代表性指数 中 性:相对表现与同期相关证券市场代表性指数持平 看 淡:相对表现弱于同期相关证券市场代表性指数 公司评级 报告发布日后的 12 个月内公司的涨跌幅相对同期相关证券市场代表性指数的涨跌幅为基准,投资建议的评级标准为:买 入:相对同期相关证券市场代表性指数涨幅大于 10%增 持:相对
43、同期相关证券市场代表性指数涨幅在 5%10%之间 中 性:相对同期相关证券市场代表性指数涨幅在-5%5%之间 减 持:相对同期相关证券市场代表性指数涨幅小于-5%无投资评级:由于我们无法获取必要的资料,或者公司面临无法预见结果的重大不确定性事件,或者其他原因,致使我们无法给出明确的投资评级。相关证券市场代表性指数说明:相关证券市场代表性指数说明:A 股市场以沪深 300 指数为基准;新三板市场以三板成指(针对协议转让标的)或三板做市指数(针对做市转让标的)为基准;香港市场以恒生指数为基准。办公地址 Table_Contact 上海 武汉 Add/浦东新区世纪大道 1198 号世纪汇广场一座 2
44、9 层 P.C/(200122)Add/武汉市江汉区淮海路 88 号长江证券大厦 37 楼 P.C/(430015)北京 深圳 Add/西城区金融街 33 号通泰大厦 15 层 P.C/(100032)Add/深圳市福田区中心四路 1 号嘉里建设广场 3 期 36 楼 P.C/(518048)分析师声明 作者具有中国证券业协会授予的证券投资咨询执业资格并注册为证券分析师,以勤勉的职业态度,独立、客观地出具本报告。分析逻辑基于作者的职业理解,本报告清晰准确地反映了作者的研究观点。作者所得报酬的任何部分不曾与,不与,也不将与本报告中的具体推荐意见或观点而有直接或间接联系,特此声明。重要声明 长江证
45、券股份有限公司具有证券投资咨询业务资格,经营证券业务许可证编号:10060000。本报告仅限中国大陆地区发行,仅供长江证券股份有限公司(以下简称:本公司)的客户使用。本公司不会因接收人收到本报告而视其为客户。本报告的信息均来源于公开资料,本公司对这些信息的准确性和完整性不作任何保证,也不保证所包含信息和建议不发生任何变更。本公司已力求报告内容的客观、公正,但文中的观点、结论和建议仅供参考,不包含作者对证券价格涨跌或市场走势的确定性判断。报告中的信息或意见并不构成所述证券的买卖出价或征价,投资者据此做出的任何投资决策与本公司和作者无关。本报告所载的资料、意见及推测仅反映本公司于发布本报告当日的判
46、断,本报告所指的证券或投资标的的价格、价值及投资收入可升可跌,过往表现不应作为日后的表现依据;在不同时期,本公司可以发出其他与本报告所载信息不一致及有不同结论的报告;本报告所反映研究人员的不同观点、见解及分析方法,并不代表本公司或其他附属机构的立场;本公司不保证本报告所含信息保持在最新状态。同时,本公司对本报告所含信息可在不发出通知的情形下做出修改,投资者应当自行关注相应的更新或修改。本公司及作者在自身所知情范围内,与本报告中所评价或推荐的证券不存在法律法规要求披露或采取限制、静默措施的利益冲突。本报告版权仅为本公司所有,未经书面许可,任何机构和个人不得以任何形式翻版、复制和发布。如引用须注明出处为长江证券研究所,且不得对本报告进行有悖原意的引用、删节和修改。刊载或者转发本证券研究报告或者摘要的,应当注明本报告的发布人和发布日期,提示使用证券研究报告的风险。未经授权刊载或者转发本报告的,本公司将保留向其追究法律责任的权利。Powered by TCPDF(www.tcpdf.org)