《计算机行业:大模型深度复盘科技变革加速-230522(39页).pdf》由会员分享,可在线阅读,更多相关《计算机行业:大模型深度复盘科技变革加速-230522(39页).pdf(39页珍藏版)》请在三个皮匠报告上搜索。
1、 免责声明和披露以及分析师声明是报告的一部分,请务必一起阅读。1 证券研究报告 计算机计算机 大模型大模型深度复盘,科技变革加速深度复盘,科技变革加速 华泰研究华泰研究 计算机计算机 增持增持 (维持维持)研究员 谢春生谢春生 SAC No.S0570519080006 SFC No.BQZ938 +(86)21 2987 2036 研究员 郭雅丽郭雅丽 SAC No.S0570515060003 SFC No.BQB164 +(86)10 5679 3965 研究员 范昳蕊范昳蕊 SAC No.S0570521060004 +(86)10 6321 1166 联系人 彭钢彭钢 SAC No.
2、S0570121070173 +(86)21 2897 2228 联系人 袁泽世,袁泽世,PhD SAC No.S0570122080053 +(86)21 2897 2228 联系人 林海亮林海亮 SAC No.S0570122060076 +(86)21 2897 2228 行业行业走势图走势图 资料来源:Wind,华泰研究 2023 年 5 月 22 日中国内地 专题研究专题研究 大模型时代已来,大模型时代已来,AGI 新纪元开启新纪元开启 大语言模型(LLM)是在大量数据集上预训练的巨大模型,在处理各种 NLP(自然语言处理)任务方面显示出了较大潜力。2017 年 Transforme
3、r 编解码器架构问世后,成了今年 LLM 发展的蓝图,并由此分化出编码器、编解码器和解码器三条进化路径。其中,编解码器和解码器架构目前仍在不断演进中,且解码器架构在数量上占据绝对优势。全球视角看,LLM 的典型代表是 OpenAI 开发的 GPT 系列模型,国内的百度、智源等也在大模型上进行了深厚的积累。在大模型的赋能下,各种垂类应用和工程实现纷纷落地,包括 BloombergGPT、AutoGPT 等。LLM 或将开启通用人工智能新纪元。溯源:从经典神经网络到溯源:从经典神经网络到 Transformer 架构架构 深度学习可以概括为特征的抽象和结果的预测。深度学习与神经网络密不可分,主要原
4、因是神经网络模型可以使用误差反向传播算法,较好地解决了深度学习中的贡献度分配问题。从历史发展看,神经网络诞生于 1943 年提出的 MP 模型,深度学习概念由 Hinton 于 2006 年正式提出。经过多年的发展,问世了如卷积神经网络(CNN)、循环神经网络(RNN)、长短时记忆网络(LSTM)等经典的深度学习算法。2017 年,Transformer 架构的出现成为了后来 LLM 的基础架构,再次开启了大语言模型快速发展时期。发展:从发展:从 GPT-1 到到 GPT-4,开启大模型新纪元开启大模型新纪元 2018 年,OpenAI 提出生成式预训练模型 GPT-1,引入有监督的微调训练。
5、2019 年,GPT-2 以更大的参数量和多任务训练进行 zero-shot 学习;2020年,GPT-3 用 few-shot 代替 zero-shot,并将训练参数增加到 1750 亿,再次提高模型表现性能。2022 年,InstructGPT 引入基于人类反馈的强化学习,实现了更符合人类预期的模型输出。2022 年 11 月,OpenAI 正式推出对话交互式模型 ChatGPT,5 天时间突破了 100 万用户。2023 年 3 月,GPT-4问世,支持多模态输入,并能高水准完成专业考试,支持 API。延伸:国内大模型快速成长,海外大模型多维拓展延伸:国内大模型快速成长,海外大模型多维拓
6、展 大模型时代到来,模型体系与生态快速扩充,海内外企业坚定发力。受益于大模型的理解能力、推理能力、泛化能力得到充分验证,海内外企业纷纷加速大模型相关的产业布局,全面拥抱大模型时代的技术变革。1)国内:)国内:国内大模型发展起步相对较晚,ChatGPT 问世以来国内企业加速大模型研发,2023 年以百度文心、商汤日日新、讯飞星火等为代表的国产大模型相继发布,并持续推进模型迭代升级;2)海外:)海外:海外大模型发展呈现垂直落地、工程实现、模态丰富三大发展趋势,模型体系与配套的工程生态日益丰富。产业链产业链相关公司梳相关公司梳理理 以 GPT 为代表的大模型产业链可分为算力、模型、应用三个环节。1)
7、算力:)算力:包括寒武纪、景嘉微、海光信息等芯片厂商以及浪潮信息、中科曙光、工业富联等服务器厂商;2)模型:)模型:包括百度、三六零、科大讯飞、昆仑万维、商汤科技等科技企业;3)应用:)应用:2C 简单包括金山办公、科大讯飞、同花顺、万兴科技、东方财富、汉仪股份、汉王科技、萤石网络等企业;2B 简单包括泛微网络、致远互联、上海钢联、彩讯股份等企业;2C 复杂包括中望软件、索辰科技、广联达等企业;2B 复杂包括恒生电子、石基信息、科大讯飞、汉王科技、金桥信息等企业。风险提示:宏观经济波动;大模型技术迭代不及预期;本报告内容基于客观资料整理,不构成投资建议。(14)6264666May-22Sep
8、-22Jan-23May-23(%)计算机沪深300 免责声明和披露以及分析师声明是报告的一部分,请务必一起阅读。2 计算机计算机 正文目录正文目录 大模型时代已来,大模型时代已来,AGI 新纪元开启新纪元开启.3 溯源:从经典神经网络到溯源:从经典神经网络到 Transformer 架构架构.4 深度学习是基于神经网络的机器学习.4 关系梳理:人工智能机器学习深度学习.4 深度学习与神经网络发展历史(1943-2017).4 CNN:卷积+汇聚+全连接.5 RNN:具有短期记忆的神经网络.7 LSTM:将短期记忆进一步延长.8 Transformer:基于自注意力机制的新兴架构.9 发展:发
9、展:从从 GPT-1 到到 GPT-4,开启大模型新纪元,开启大模型新纪元.11 GPT-1:确定生成式预训练模型基本路线.11 GPT-1:基于 Transformer 的预训练+微调半监督模型.11 模型特点:无监督训练+有监督微调.11 GPT-2:关注模型的零次学习 Zero-shot 能力.12 GPT-2:开启“单模型解决多任务”新纪元,大容量技术路线确定.13 模型特点:多任务学习+大模型容量+无微调建模.13 GPT-3:模型参数达 1750 亿,few-shot 进一步提高性能.15 模型特点:大参数量+大训练集+few-shot.15 Codex:基于 GPT-3 的代码生
10、成工具.18 ChatGPT/InstructGPT:增加人类反馈强化学习(RLHF).19 优化目标:从提示学习到指示学习,聚焦需求对齐(alignment).19 训练过程:“三步走”实现人工反馈强化学习.20 GPT-4:多模态确认,在专业和学术上表现亮眼.21 GPT-4:支持多模态输入,安全问题或成为 LLM 关注焦点.21 能力测试:在专业和学术基准上表现出了人类的水平.22 多模态:支持图片输入,未提供具体算法.23 延伸:国内大模型快速延伸:国内大模型快速成长,海外大模型多维拓展成长,海外大模型多维拓展.24 国内大模型快速成长,多类厂商竞逐发力.24 百度:文心大模型 2 月
11、发布,新一代知识增强大语言模型.24 商汤科技:日日新大模型 4 月发布,加速迈进 AGI 时代.25 科大讯飞:星火大模型 5 月发布,AGI 核心能力表现出色.27 智源研究院:超大规模“悟道”模型,构建完备大模型生态体系.28 海外大模型多维拓展,看好垂直落地、工程实现、模态丰富三大趋势.30 垂直落地:BloombergGPT 提供构建垂直行业大模型的有益参考.30 工程实现:AutoGPT 充分展现大模型有望重塑人机交互范式.32 模态丰富:SAM 模型实现大模型在 CV 领域的模态延展.33 产业链相关公司梳理产业链相关公司梳理.35 风险提示.35 免责声明和披露以及分析师声明是
12、报告的一部分,请务必一起阅读。3 计算机计算机 大模型时代已来,大模型时代已来,AGI 新纪元开启新纪元开启 Transformer 开启开启大语言模型发展大语言模型发展新时期,新时期,为人工通用智能铺平了道路。为人工通用智能铺平了道路。大语言模型(LLM)是在大量数据集上预训练的巨大模型,且没有针对特定任务调整数据,其在处理各种 NLP(自然语言处理)任务方面显示出了较大潜力,如自然语言理解(NLU)、自然语言生成任务等,甚至为人工通用智能(AGI)铺平了道路。而近年来的 LLM,基本都脱胎于 2017 年Google 提出的 Transformer 编解码器架构,Transformer 开
13、启了 LLM 发展的新时期。基于基于 Transformer 架构的三条演进路线中,解码器架构的三条演进路线中,解码器路线路线发展最为迅速。发展最为迅速。从 LLM 近年的发展情况来看,其路线主要分为三种:1)编码器路线;2)编解码器路线;3)解码器路线。从发展特点来看:1)解码器路线占据主导,编码器路线趋于落寞,归因于 2020 年 GPT-3 模型表现出的优异性能;2)GPT 系列模型保持领先,或归因于 OpenAI 对其解码器技术道路的坚持;3)模型闭源逐渐成为头部玩家的发展趋势,这一趋势同样起源于 GPT-3 模型,而 Google 等公司也开始跟进;4)编解码器路线仍然在持续发展,但
14、是在模型数量上少于解码器路线,或归因于其复杂的结构,导致其在工程实现上没有明显的优势。国内百度、智源等公司和组织在大模型上有较深国内百度、智源等公司和组织在大模型上有较深厚的积累。厚的积累。百度的文心一言基于 ERNIE 系列模型,该模型最早于 2019 年提出,到 2021 年迭代到 ERNIE3.0 版本,技术路线也从最初的编码器路线转移到解码器路线,性能提升明显。智源研究院则依托于清华等高等学府及其研究成果,2021 年提出的 GLM 模型成为智源悟道大模型的重要技术基础。据日经亚洲信息,微软总裁布拉德认为智源是微软、OpenAI 和 Google 重要竞争对手。图表图表1:大语言模型(
15、大语言模型(LLM)演化树)演化树 资料来源:Harnessing the Power of LLMs in Practice:A Survey on ChatGPT and Beyond,Yang Jingfeng(2023)、华泰研究 本部分将从神经网络出发,梳理深度学习方法的发展情况,引出注意力机制与本部分将从神经网络出发,梳理深度学习方法的发展情况,引出注意力机制与 Transformer架构,并对全球架构,并对全球 LLM 的典型代表的典型代表GPT 系列模型进行详细拆解。此外,还将对国内快系列模型进行详细拆解。此外,还将对国内快速发展的百度文心一言、速发展的百度文心一言、商汤科技日
16、日新、科大讯飞星火、商汤科技日日新、科大讯飞星火、智源悟道等大模型,以及大模智源悟道等大模型,以及大模型在金融垂直领域的重要应用型在金融垂直领域的重要应用 BloombergGPT 等进行详细解析。等进行详细解析。免责声明和披露以及分析师声明是报告的一部分,请务必一起阅读。4 计算机计算机 溯源:溯源:从经典神经网络到从经典神经网络到 Transformer 架构架构 深度学习是基于神经网络的机器学习深度学习是基于神经网络的机器学习 深度学习深度学习可以概括为特征的抽象和结果的预测可以概括为特征的抽象和结果的预测。深度学习是将原始的数据特征通过多步的特征转换得到一种更高层次、更抽象的特征表示,
17、并进一步输入到预测函数得到最终结果。深度学习需要解决的关键问题是贡献度分配问题(Credit Assignment Problem,CAP),即一个系统中不同的组件(component)或其参数对最终系统输出结果的贡献或影响。深度学习的目标是让模型自动学习出好的特征表示,从而最终提升预测模型的准确率。图表图表2:深度学习的数据处理流程深度学习的数据处理流程 资料来源:神经网络与深度学习(邱锡鹏),ISBN:9787111649687、华泰研究 关系梳理:人工智能关系梳理:人工智能机器学习机器学习深度学习深度学习 人工智能包括机器学习,机器学习包含深度学习。人工智能包括机器学习,机器学习包含深度
18、学习。人工智能(AI)的重要组成部分是机器学习(ML),而神经网络(NN)是 ML 的一个子领域。深度学习可以看做是神经网络的分支,使用了更复杂和更深层次的网络结构,如卷积神经网络(CNN),来处理更高维度和更抽象的数据,如图像、声音和文本。此外,逐渐兴起的强化学习也是机器学习的一个分支。深度学习与强化学习可以相互结合,称为深度强化学习(DRL)。图表图表3:人工智能人工智能、机器学习机器学习、深度学习深度学习关系梳理关系梳理 资料来源:The History Began from AlexNet:A Comprehensive Survey on Deep Learning Approach
19、es,Zahangir(2018)、Deep Reinforcement Learning,Yuxi Li(2017)、华泰研究 深度学习与神经网络发展历史(深度学习与神经网络发展历史(1943-2017)神经网络诞生于神经网络诞生于 1943 年,深度学习崛起于年,深度学习崛起于 2006 年。年。1943 年,心理学家 McCulloch 和数学家 Pitts 最早提出了一种基于简单逻辑运算的人工神经网络MP 模型,开启了人工神经网络研究的序幕。1986 年,Hinton 提出第二代神经网络,并利用误差的反向传播算法来训练模型,该算法对神经网络的训练具有重要意义。1989 年,Yann L
20、eCun 等提出卷积神经网络(CNN)用来识别手写体。1997 年,循环神经网络(RNN)的改进型长短时记忆网络(LSTM)被提出。2006 年,Hinton 首次提出了深度置信网络(Deep Belief Network,DBN)和深度学习的概念。2014 年,生成对抗网络(GAN)的提出是深度学习的又一突破性进展。2016 年,AlphaGo 击败围棋世界冠军李世石,将深度学习推向高潮。底层底层特征特征中层特征中层特征高层特征高层特征预测预测原始数据原始数据结果结果表示学习深度学习人工智能人工智能机器学习机器学习神经网络神经网络深度学习深度学习强化学习强化学习深度深度强化强化学习学习AIM
21、LDLRLDRL 免责声明和披露以及分析师声明是报告的一部分,请务必一起阅读。5 计算机计算机 图表图表4:深度学习发展历史深度学习发展历史 注:最大圆圈表示深度学习热度上升与下降的关键转折点,实心小圈圈的大小表示深度学习的突破大小,斜向上的直线表示深度学习热度正处于上升期,斜向下的直线表示下降期。资料来源:深度学习研究综述,张荣(2018)、华泰研究 CNN:卷积:卷积+汇聚汇聚+全连接全连接 典型的卷积神经网络是由卷积层、汇聚层、全连接层交叉堆叠而成。典型的卷积神经网络是由卷积层、汇聚层、全连接层交叉堆叠而成。其中,一个卷积块包括连续 M 个卷积层和 b 个汇聚层(M 通常设置为 25,b
22、 为 0 或 1)。一个卷积网络中可以堆叠 N 个连续的卷积块,然后在后面接着 K 个全连接层(N 的取值区间比较大,比如 1100或者更大;K 一般为 02)。CNN 能够有效的将大数据量的图片降维成小数据量,并有效的保留图片特征。图表图表5:常用的卷积网络整体结构常用的卷积网络整体结构 资料来源:神经网络与深度学习(邱锡鹏),ISBN:9787111649687、华泰研究 第一代神经网络第一代神经网络第二代神经网络第二代神经网络第三代神经网络第三代神经网络680200017MP神经
23、元数学模型单层感知器Minsky专著感知器出版,支出单层感知器不能解决“异或回路”问题,且当时计算能力无法满足神经网络计算需求LSTMLeNetXavierReLUClarifaiDropoutAlexNetGoogleNetVGGNetR-CNNGANBNFaster R-CNNResNetWGANAlphaGoZeroCapsNetAlphaGoInfoGANJMTDCNGNMT浅层学习浪潮反向传播算法万能逼近定理卷积神经网络深度信念网快速发展潮爆发期卷积卷积ReLU汇聚层汇聚层全连接层全连接层输入输入MbNb形象形象解释解释 免责声明和披露以及分析师声明是报告的一部分,请务必一起阅读。6
24、 计算机计算机 卷积层利用卷积核实现特征提取。卷积层利用卷积核实现特征提取。卷积层的作用是提取局部区域的特征,不同的卷积核相当于不同的特征提取器,反之,提取不同的特征需要不同的卷积核。输入原图经过卷积核提取后,即得到特征映射(Feature Map),每个特征映射可以作为一类抽取的图像特征。目前,卷积网络的整体结构趋向于使用更小的卷积核(比如 11 和 33),以及更深的结构(比如层数大于 50)。图表图表6:卷积核用于特征提取卷积核用于特征提取 资料来源:神经网络与深度学习(邱锡鹏),ISBN:9787111649687、华泰研究 每个卷积层后引入非线性激活函数,确保整个网络的非线性。每个卷
25、积层后引入非线性激活函数,确保整个网络的非线性。常用的激活函数为线性整流单元(Rectified Linear Unit,ReLU),其实质是将特征图上所有负数变成 0,而正数保持不变。其他常用的激活函数还有 Sigmoid 函数、双曲正切函数(tanh)。激活函数使得神经网络模型具有非线性,从而可以表示非线性的函数,处理更加复杂的任务。图表图表7:常用的激活函数图常用的激活函数图 资料来源:神经网络与深度学习(邱锡鹏),ISBN:9787111649687、easyAI、华泰研究 汇聚层进一步压缩数据和参数量。汇聚层进一步压缩数据和参数量。汇聚层(Pooling Layer)也叫子采样层(S
26、ubsampling Layer)或池化层,其作用是进行特征选择,降低特征数量,减少参数数量。典型的汇聚层是将每个特征映射划分为 22 大小的不重叠区域,然后使用最大汇聚的方式进行下采样,即用 22 区域的最大值代替整个区域的值。此外,还可以采用 22 区域的平均值来代替整个区域值。形形象象解解释释数数学学解解释释 免责声明和披露以及分析师声明是报告的一部分,请务必一起阅读。7 计算机计算机 图表图表8:最大汇聚与平均汇聚示意图最大汇聚与平均汇聚示意图 资料来源:神经网络与深度学习(邱锡鹏),ISBN:9787111649687、华泰研究 全连接层采用神经网络中的前馈网络结构。全连接层采用神经
27、网络中的前馈网络结构。将池化后的结果按顺序排成一列,输入全连接层。全连接层把相邻两层的神经元全部交叉相联结,两层之间所有神经元都有相应的权重,经计算后得到最终输出结果。通常全连接层在卷积神经网络尾部。图表图表9:全连接层示意图全连接层示意图 资料来源:神经网络与深度学习(邱锡鹏),ISBN:9787111649687、华泰研究 卷积神经网络参数卷积神经网络参数可利用可利用误差反向传播误差反向传播算算法法来确定来确定。卷积神经网络可以通过误差反向传播(Backpropagation)和梯度下降等算法进行参数学习,包括确定卷积核参数和全连接网络权重等。RNN:具有短期记忆的神经网络:具有短期记忆的
28、神经网络 循环神经网络(循环神经网络(RNN)是一类具有短期记忆能力的神经网络。)是一类具有短期记忆能力的神经网络。在循环神经网络中,神经元不但可以接受其他神经元的信息,也可以接受自身的历史信息,形成具有环路的网络结构。和前馈神经网络相比,循环神经网络更加符合生物神经网络的结构。循环神经网络的短期记忆能力提供了一定的存储功能,因此其计算能力更为强大。理论上,循环神经网络可以近似任意的非线性动力系统。最大汇聚最大汇聚(选取最大值)(选取最大值)平均平均汇聚汇聚(计算平均值)(计算平均值)4,3,0,1中中4最大,选取最大,选取4代表这个区域代表这个区域6,5,2,1平均值为平均值为3.5,选取,
29、选取3.5代表这个区域代表这个区域 免责声明和披露以及分析师声明是报告的一部分,请务必一起阅读。8 计算机计算机 图表图表10:循环神经网络引入了短期记忆功能循环神经网络引入了短期记忆功能 资料来源:神经网络与深度学习(邱锡鹏),ISBN:9787111649687、华泰研究 LSTM:将短期记忆进一步延长:将短期记忆进一步延长 LSTM 引入门控引入门控机制,解决机制,解决 RNN 的长程依赖问题。的长程依赖问题。循环神经网络在学习过程中的主要问题是由于梯度消失或爆炸问题(也称为长程依赖问题),可以简单理解为参数无法正常更新(梯度变得很大或变为 0),很难建模长时间间隔状态之间的依赖关系。长
30、短时记忆网络(Long Short-term Memory,LSTM)引入门控机制,很好了解决了 RNN 的上述问题。LSTM 网络特点在于新内部状态和门控机制的引入。网络特点在于新内部状态和门控机制的引入。1)新的内部状态:)新的内部状态:与 RNN 相比,LSTM网络引入一个新的内部状态(internal state)ct,专门进行线性的循环信息传递。在每个时刻 t,LSTM 网络的内部状态 ct记录了到当前时刻为止的历史信息,相当于延长了网络的记忆特性。2)门控机制:)门控机制:引入遗忘门、输入门和输出门。其中,遗忘门控制上一个时刻的内部状态需要遗忘多少信息;输入门控制当前时刻的候选状态
31、有多少信息需要保存;输出门控制当前时刻的内部状态有多少信息需要输出给外部状态。参数训练方面,虽然相比 RNN,LSTM 引入了更多参数矩阵,但依然可以使用梯度下降算法进行参数更新。图表图表11:LSTM 引入了新的内部状态和门控机制引入了新的内部状态和门控机制 资料来源:神经网络与深度学习(邱锡鹏),ISBN:9787111649687、华泰研究 原理图原理图形象展示形象展示神经网络在时间层神经网络在时间层面建立起了联系面建立起了联系St-1StSt+1原原理理图图st-1stRNNLSTM形形象象展展示示在在RNN基础上,增加了新的内部状态变量基础上,增加了新的内部状态变量c,用来实现更长的
32、短时记忆,用来实现更长的短时记忆 免责声明和披露以及分析师声明是报告的一部分,请务必一起阅读。9 计算机计算机 循环神经网络的隐状态循环神经网络的隐状态 s 为短期记忆,新内部状态为短期记忆,新内部状态 c 具有更长的记忆。具有更长的记忆。循环神经网络中的隐状态 s 存储了历史信息,可以看作一种记忆。在简单循环网络中,隐状态每个时刻都会被重写,因此是一种短期记忆。在神经网络中,长期记忆可以看作网络参数,隐含了从训练数据中学到的经验,其更新周期要远远慢于短期记忆。在 LSTM 网络中,记忆单元 c 可以在某个时刻捕捉到某个关键信息,并有能力将此关键信息保存一定的时间间隔,其保存信息的生命周期要长
33、于短期记忆 s,但又远远短于长期记忆,因此称为长(的)短期记忆。Transformer:基于自注意力机制的新兴架构:基于自注意力机制的新兴架构 Transformer 是一种基于是一种基于自自注意力机制的编码器注意力机制的编码器-解码器解码器深度学习深度学习模型模型。2017 年 6 月,Google Brain 在神经信息处理系统大会(NeurIPS)发表论文“Attention is all you need”,首次提出了基于自我注意力机制(self-attention)来提高训练速度的 Transformer 模型,将其用于自然语言处理。Transformer 架构由编码器和解码器(En
34、coder-Decoder)两个部分组成,每个部分包含多个子层,如多头自注意力、前馈神经网络、和归一化等。Transformer架构的优点是:1)可以并行处理输入序列的所有元素,大大提高训练速度;2)不需要依赖循环或卷积结构,能够捕捉长距离的依赖关系,3)可以通过预训练和微调的方式适应不同的任务。因此,Transformer 一经问世便大有取代传统 CNN、RNN 的趋势。图表图表12:Transformer 模型中模型中的的 encoer-decoder 架构架构 图表图表13:Transformer 模型架构模型架构 资料来源:Attention is all you need,Ashis
35、h Vaswani(2017)、华泰研究 资料来源:Attention is all you need,Ashish Vaswani(2017)、华泰研究 自注意力机制是自注意力机制是 Transformer 的核心理念的核心理念,注意力机制注意力机制帮助机器在学习过程中聚焦在重要帮助机器在学习过程中聚焦在重要信息上。信息上。深度学习中的注意力机制从本质上讲和人类的选择性视觉注意力机制类似,核心目标是从众多信息中选择出对当前任务目标更关键的信息,忽略大多不重要的信息。编码器编码器编码器编码器编码器编码器编码器编码器编码器编码器编码器编码器解码器解码器解码器解码器解码器解码器解码器解码器解码器解
36、码器解码器解码器输出输出输入输入位置编码位置编码多头自注意力多头自注意力向量相加向量相加&归一化归一化前馈神经网络前馈神经网络向量相加向量相加&归一化归一化带掩模的多头自注意力层带掩模的多头自注意力层向量相加向量相加&归一化归一化多头自注意力多头自注意力向量相加向量相加&归一化归一化前馈神经网络前馈神经网络向量相加向量相加&归一化归一化线性化线性化归一化指数函数归一化指数函数位置编码位置编码输入向量输入向量输出向量输出向量输出概率输出概率 免责声明和披露以及分析师声明是报告的一部分,请务必一起阅读。10 计算机计算机 图表图表14:人类的注意力机制(深色代表注意力聚焦点)人类的注意力机制(深色
37、代表注意力聚焦点)资料来源:CSDN、华泰研究 注意力模型可以用注意力模型可以用 Query、Key 和和 Value 模型模型进行描述。进行描述。本质上 Attention 机制是对 Source中元素的 Value 值进行加权求和,而 Query 和 Key 用来计算对应 Value 的权重系数。以大脑读图为例,Value 可以理解为人眼视网膜对整张图片信息的原始捕捉,不受“注意力”所影响;Key 与 Value 相关联(数据对),是图片原始信息所对应的关键性提示信息;读者大脑有意识地向图片获取信息,即发起了一次 Query,包含了读者的意图等信息。在一次读图过程中,Query 与 Key
38、 之间计算出每个 Key 对应 Value 的权重系数,得到最具有吸引力的部分,然后对 Value 进行加权求和,即得到了最终的 Attention Value 数值。图表图表15:Attention 机制的本质思想机制的本质思想 资料来源:CSDN、华泰研究 Transformer 的自注意力机制是特殊情况下的注意力机制。的自注意力机制是特殊情况下的注意力机制。在一般任务的 Encoder-Decoder 框架中,输入 Source 和输出 Target 内容是不一样的,例如对于英-中机器翻译来说,Source 是英文句子,Target 是对应的翻译出的中文句子。注意力机制发生在 Targe
39、t的元素 Query 和 Source 中的所有元素之间。而自注意指的不是 Target 和 Source 之间的注意力机制,而是 Source 内部元素之间或者 Target 内部元素之间发生的注意力机制,也可以理解为 Target=Source 这种特殊情况下的注意力计算机制。具体计算过程相同,只是计算对象发生变化。自注意力机制更容易捕获句子中长距离的相互依赖的特征,且对于增加自注意力机制更容易捕获句子中长距离的相互依赖的特征,且对于增加计算的并行性也有直接帮助作用。计算的并行性也有直接帮助作用。SourceQueryAttentionValueKey1Key2Key3Key4Value1
40、Value2Value3Value4 免责声明和披露以及分析师声明是报告的一部分,请务必一起阅读。11 计算机计算机 发展:发展:从从 GPT-1 到到 GPT-4,开启大模型新纪元开启大模型新纪元 GPT-1:确定生成式预训练模型基本路线:确定生成式预训练模型基本路线 GPT-1:基于:基于 Transformer 的预训练的预训练+微调半监督模型微调半监督模型 GPT-1 是预训练是预训练+微调相结合的语言理解任务半监督模型。微调相结合的语言理解任务半监督模型。GPT 全称生成式预训练(Generative Pre-training,GPT),于 2018 年 6 月由 OpenAI 在论
41、文 Improving Language Understanding by Generative Pre-Training 中提出。从架构上看,GPT-1 基于 Transformer架构,但是仅保留了架构中的解码器(Decoder)部分。图表图表16:GPT-1 的架构的架构 资料来源:Improving Language Understanding by Generative Pre-Training,Alec Radford(2018)、华泰研究 模型特点:无监督训练模型特点:无监督训练+有监督微调有监督微调 GPT-1 的训练过程分为无监督训练和有监督微调。的训练过程分为无监督训练和有
42、监督微调。GPT-1 的训练过程分为两个阶段:第一阶段为非监督预训练阶段,即在大型文本语料库上学习高容量语言模型。第二阶段为监督微调阶段,即在第一阶段训练的基础上,将参数调整为受监督的目标任务,进行进一步优化。1)第一阶段:)第一阶段:采用多层 Transformer 模型的解码器(Decoder)为语言模型,进行基于大文本语料库的高容量无监督学习。2)第二阶段:)第二阶段:在微调时,若输入的问题具有结构化特征,例如有序的句子对或文档、问题和答案的三元组,则需要首先将问题转化成特定的序列模块,再进行训练。例如,对于文本蕴涵任务,将前提和假设序列相连接,并在中间插入分隔符;对于相似性任务,则将两
43、个需要比较的句子按照不同顺序排列,分别进行处理后再做比较;对于更复杂的问题回答和常识推理任务,则需要将文本、问题和可能的答案分别连接成不同序列,并对所有序列做独立的模型处理,将结果归一化得到可能答案的输出分布。Transformer架构架构GPT-1架构架构12Masked MultiSelf AttentionLayer Norm归一化层Feed Forward前馈神经网络Layer Norm归一化层Text&Position Embed文本&位置 向量矩阵TaskClassifierTextPrediction+带掩模自注意力层文本预测文本分类 免责声明和披露以及分析师声明是报告的一部分,
44、请务必一起阅读。12 计算机计算机 图表图表17:GPT-1 架构以及用于微调不同任务的输入转换模块架构以及用于微调不同任务的输入转换模块 资料来源:Improving Language Understanding by Generative Pre-Training,Alec Radford(2018)、华泰研究 无监督训练采用大数据集,有监督微调采用针对任务的数据集。无监督训练采用大数据集,有监督微调采用针对任务的数据集。在无监督训练阶段,采用了 12 层解码器(Decoder)堆叠的 Transformer 模型,共包含 12 个掩蔽自注意力头(masked self-attention
45、 head)。训练数据集方面,采用 BooksCorpus 数据集,该数据集包括 7000多本来自风格不同的未出版书籍,内含长段的连续文本。也可使用备选数据集 1B Word Benchmark。在无监督训练阶段,提高解码器的层数能够有效提高训练效果。在有监督微调阶段,可根据不同任务类型选择不同的数据集。图表图表18:GPT-1 在有监督微调阶段使用的部分数据集在有监督微调阶段使用的部分数据集 任务任务 数据集数据集 自然语言推理 SNLI,MultiNLI,Question NLI,RTE,SciTail 问题解答 RACE,Story Cloze 句子相似性 MSR Paraphrase
46、Corpus,Quora Question Pairs,STS Benchmark 分类 Stanford Sentiment Treebank-2,CoLA 资料来源:Improving Language Understanding by Generative Pre-Training,Alec Radford(2018)、华泰研究 GPT-2:关注模型的零次学习关注模型的零次学习 Zero-shot 能力能力 理解理解 GPT 系列论文是我们理解系列论文是我们理解 GPT 模型技术路径演绎的重要方法。模型技术路径演绎的重要方法。GPT-2 论文的核心重点在于验证是否可以通过更多的训练数据+
47、更大的网络参数让模型具备零次学习(Zero-shot Learning)能力;即通过更广泛学习+更强的学习能力,加速 GPT 从“专才”走向“通才”。实验结果证明,当训练数据足够多、模型参数足够大时,就可以通过训练一个模型,处理多类任务;自此确立了 GPT 模型向更大容量演进的发展目标。图表图表19:GPT 模型演进路径模型演进路径 资料来源:OpenAI 官网、华泰研究 StartStartStartStartStartStartStartClassificationEntailmentSimilarityMultiple ChoiceTextPremiseText 1Text 2Conte
48、xtContextContextExtractDelimHypothesisExtractDelimExtractDelimExtractDelimAnswer 1ExtractDelimExtractDelimExtractText 1Text 2Answer 2Answer NTransformerTransformerTransformerTransformerTransformerTransformerTransformerLinearLinearLinearLinearLinearLinear分类任务推理任务相似性任务问答任务 免责声明和披露以及分析师声明是报告的一部分,请务必一起阅
49、读。13 计算机计算机 GPT-2:开启“单模型解决多任务”新纪元,大容量技术路线确定:开启“单模型解决多任务”新纪元,大容量技术路线确定 Language Models are Unsupervised Multitask Learners 论文发表,论文发表,GPT-2 开启“一开启“一个模型处理多类任务”的新时代。个模型处理多类任务”的新时代。GPT(Generative Pre-trained Transformer)系列预训练语言模型,早在 2018 年在论文Improving Language Understanding by Generative Pre-Training 中被提
50、出,初代 GPT-1 模型验证了“通过无监督预训练,针对特定任务微调,处理有监督任务”模型的有效性。2019 年 2 月,论文 Language Models are Unsupervised Multitask Learners正式发表,基于“无监督学习的全局最小也必定是监督学习的全局最小”的理论基础,GPT-2 模型去掉 fine-tune 层,不再针对不同任务分别进行微调建模,而是通过使用更多的网络参数和更大的数据集来强化模型的泛化能力。GPT-2 模型成功验证了更多训练数据模型成功验证了更多训练数据+更大的网络参数可以有效地提升模型的泛化能力,实更大的网络参数可以有效地提升模型的泛化能
51、力,实现了“训练一个模型可以解决多类任务”的效果,不再需要针对不同任务进行模型微调。现了“训练一个模型可以解决多类任务”的效果,不再需要针对不同任务进行模型微调。GPT-2 的成功自此开启了的成功自此开启了 GPT 模型向更大容量扩模型向更大容量扩展的技术发展路径。展的技术发展路径。图表图表20:Language Models are Unsupervised Multitask Learners论文开启论文开启 GPT-2 时代时代 资料来源:Language Models are Unsupervised Multitask Learners,Alee Radford(2019)、华泰研究
52、 模型特点:多任务学习模型特点:多任务学习+大模型容量大模型容量+无微调建模无微调建模 特点一:预训练阶段采用多任务学习方式特点一:预训练阶段采用多任务学习方式 GPT-2 在预训练阶段采用多任务学习方式。在预训练阶段采用多任务学习方式。不同于单任务学习,单次仅针对一个任务学习,以及模型参数独立的特点;多任务学习,单次可同时学习多个任务,同时各个任务之间的模型参数共享,可以实现已学习信息的共享、补充,有效提升了模型的学习效率。图表图表21:GPT-2 预训练采用多任务学习方式预训练采用多任务学习方式 资料来源:Modeling Task Relationships in Multi-task
53、Learning with Multi-gate Mixture-of-Experts,Alex Kendall(2017)、华泰研究 免责声明和披露以及分析师声明是报告的一部分,请务必一起阅读。14 计算机计算机 多任务学习有效防止模型过拟合,提升模型的泛化能力。多任务学习有效防止模型过拟合,提升模型的泛化能力。为理解多任务学习对模型泛化能力的提升,首先需要明晰噪音、过拟合、泛化这几个概念。1)噪音:)噪音:任务学习过程不相关的信息为噪音;2)过拟合:)过拟合:训练出来的模型在训练集上表现很好,但是在测试集上表现较差的一种现象;3)泛化:)泛化:模型对新测试集(之前没见过的数据)的适应能力。
54、三者之间的联系是,当把噪声作为有效信息或训练数据集较小时,容易导致模型过拟合,模型过拟合导致模型的泛化能力变差。多任务学习提升模型泛化能力的原因主要有三点:1)训练数据集更大;2)多任务之间有一定相关性,多任务学习相当于隐式数据增强;3)多任务学习的共享模块需要兼顾所有任务,一定程度避免了模型过拟合到单个任务的训练集。图表图表22:多任务学习可有效提升模型的泛化能力多任务学习可有效提升模型的泛化能力 资料来源:神经网络与深度学习,邱锡鹏(2020)、华泰研究 特点二:特点二:GPT-2 拥有较大的模型容量拥有较大的模型容量 GPT-2 最大模型(最大模型(GPT-2 EXTRA LARGE)的
55、层数达到)的层数达到 48 层,词向量长度到层,词向量长度到 1,600。1)层数:层数:理解层数对 GPT 模型的影响,需要理解 GPT 的模型架构。GPT 模型由层层堆叠的Transformer 模块组成,因此可以理解为模型层数越多,模型可以完成的非线性映射就越复杂,模型的学习能力更强;2)词向量长度:)词向量长度:词向量长度即隐藏层的神经元个数,每一层Transformer 都是一个隐藏层,隐藏层的神经元个数越多,即可以产生越复杂的组合,拟合越复杂的情况,解决越复杂的问题,计算量也随之越来越大。GPT-2 论文(Language Models are Unsupervised Multi
56、task Learners)提及四种规模的 GPT-2 模型,GPT-2 的模型层数最多为 48 层,词向量长度(隐藏层维度)最大为 1,600,模型的最大参数量多达 15 亿。图表图表23:GPT-2 模型层数最大达模型层数最大达 48、词向量长度最大达、词向量长度最大达 1,600 资料来源:Language Models are Unsupervised Multitask Learners,Alee Radford(2019)、华泰研究 免责声明和披露以及分析师声明是报告的一部分,请务必一起阅读。15 计算机计算机 特点三:特点三:GPT-2 取消取消 fine-tune 微调建模层微
57、调建模层 GPT-2 旨在“训练一个模型,解决多类任务”,因此取消旨在“训练一个模型,解决多类任务”,因此取消 fine-tune 微调建模层。微调建模层。GPT-2 聚焦模型的泛化能力,旨在通过多任务学习训练一个模型,训练好的这一个模型可以解决多类任务,无需再根据特定任务进行模型微调。因此,GPT-2 模型在训练任务中取消了fine-tune 任务,只保留了语言模型部分的训练,同时将诸多下游任务根据各自的特点,规划成语言模型的训练,使得最终的语言模型学到的东西更丰富,拥有更多样的应用,奠定了模型的 Zero-shot Learning(零次学习)的基础。图表图表24:GPT-1 四类任务微调
58、建模示意图四类任务微调建模示意图 资料来源:Improving Language Understandingby Generative Pre-Training,Alee Radford(2018)、华泰研究 GPT-3:模型参数达:模型参数达 1750 亿,亿,few-shot 进一步提高性能进一步提高性能 GPT-3 将训练参数量扩大到将训练参数量扩大到 1750 亿。亿。2020 年 5 月,OpenAI 发表论文Language Models are Few-Shot Learners,提出 GPT-3 模型。GPT-3 模型的参数量达 1750 亿,是 GPT 史上最大的参数规模。在
59、 GPT-2 的 zero-shot learning(零次学习)基础上,GPT-3在 zero-shot、one-shot(一次学习)和 few-shot(少量学习,通常 10-100 次)方面均进行了评估,取得了较好的训练结果:例如,GPT-3 在 zero/one/few-shot 设置下 CoQA(测试阅读理解能力)分别达到 81.5、84.0、85.0F1(F1 分数是统计学中用来衡量二分类模型精确度的一种指标,值越大意味着模型越好);在在 zero/one/few-shot 设置下 TriviaQA(测试闭卷问答能力)分别达到 64.3%、68.0%、71.2%的准确度,部分结果甚
60、至超过微调模型。OpenAI 指出,GPT-3 也可以在传统的微调设置中进行评估。GPT-3 模型延续了模型延续了 GPT-2 模型“更多训练数据模型“更多训练数据+更大的网络参数可以有效地提升模型的泛更大的网络参数可以有效地提升模型的泛化能力”的理念,将模型参数提升到新高度。同时与化能力”的理念,将模型参数提升到新高度。同时与 GPT-2 一样舍弃了针对不同任务进行一样舍弃了针对不同任务进行的微调,转而用的微调,转而用 few-shot 来实现下游任务,兼顾了训练效果与成本。来实现下游任务,兼顾了训练效果与成本。模型特点:大参数量模型特点:大参数量+大训练集大训练集+few-shot 特点一
61、:架构基本不变,参数量大大增加特点一:架构基本不变,参数量大大增加 GPT-3 延续了延续了 GPT-2 的大容量发展路线。的大容量发展路线。GPT-2 已经证明,通过更多的训练数据+更大的网络参数能够让模型具备 zero-shot 学习能力,并取得了一定的效果,由此确立了 GPT 模型向更大容量演进的发展路线。GPT-3 延续了这一路线,将模型参数由 GPT-2 的 15 亿增加到 1750 亿,提升幅度超 100 倍。免责声明和披露以及分析师声明是报告的一部分,请务必一起阅读。16 计算机计算机 图表图表25:GPT 模型演进路径模型演进路径GPT-3 资料来源:OpenAI 官网、华泰研
62、究 大训练参数能明显提高大训练参数能明显提高 GPT-3 模型准确性。模型准确性。从上下文学习能力训练结果准确率来看,对于GPT-3 模型,当模型参数量较低时,模型准确率较低,例如参数量 1.3B 的模型准确率不超过 10%。当模型参数提升 10 倍至 13B 时,最高准确率接近 30%。当模型参数达到最大 175B时,准确率最高接近 70%,进一步验证了 GPT-2 大容量路线的正确性。图表图表26:大训练参数显著提高大训练参数显著提高 GPT-3 准确率准确率 资料来源:Language Models are Few-Shot Learners,Tom Brown(2020)、华泰研究 G
63、PT-3 和和 GPT2 采用几乎同样的架构。采用几乎同样的架构。GPT-3 和 GPT-2 模型和架构基本相同,包括修改后的初始化、预归一化和可逆标记化,唯一区别在于将 transformer 中注意力模式替换成了类似 Sparse Transformer 的稀疏注意力模式。图表图表27:GPT-3 采用和采用和 GPT-2 同样的架构同样的架构 资料来源:Language Models are Few-Shot Learners,Tom Brown(2020)、华泰研究 GPT-1GPT-2GPT-3GPT-3模型基于模型基于GPT-2的大容量路线,进一步将模型的大容量路线,进一步将模型参
64、数扩大超参数扩大超100倍,达倍,达1750亿,大容量扩展的技术发亿,大容量扩展的技术发展路径达到顶峰展路径达到顶峰1.17亿参数量5GB预训练数据量15亿参数量40GB预训练数据量1750亿参数量大于570GB预训练数据量 免责声明和披露以及分析师声明是报告的一部分,请务必一起阅读。17 计算机计算机 特点二:采用特点二:采用 few-shot 学习完成下游任务学习完成下游任务 Few-shot 取代取代 zero-shot,训练效果得到进一步加强。,训练效果得到进一步加强。GPT-2 模型中,在下游训练时采用zero-shot 学习理念,在执行各类子任务时不给任何样例,属于较为极端的情况。
65、虽然在GPT-2 在某些测试中取得了不错的效果,但在一些任务上结果不达预期。因此,OpenAI引入了 few-shot,即对于特定任务仅给予少量的样例(10-100 个),没有任何梯度更新或微调,任务和 few-shot 示例均通过与模型的文本交互指定。从多种训练基准综合训练结果来看,few-shot 能够取得比 zero-shot 更好的准确度。图表图表28:Zero-shot、one-shot 和和 few-shot 随着模型参数增加准确度越来越高随着模型参数增加准确度越来越高 注:图中为多种训练基准综合的结果 资料来源:Language Models are Few-Shot Learn
66、ers,Tom Brown(2020)、华泰研究 特点三:预训练数据集达特点三:预训练数据集达 570GB 以上以上 GPT-3训练数据集为多种数据集的混合。训练数据集为多种数据集的混合。数据集以Common Crawl为基础,其大小为45TB。但 Common Crawl 数据集的质量低于更精确的数据集,为了保证数据集质量,一方面对Common Crawl 进行过滤,大小压缩到 570GB,另一方面增加了质量更高的数据集,如WebText2、Wikipedia 等。在训练期间,数据集的采样并不与其大小成比例,而是质量更高的数据集采样频率更高,因此 CommonCrawl 和 Books2 数
67、据集在训练期间采样次数少于一次,其他更高质量的数据集采样次数为 2-3 次,以换取更高质量的训练数据。比较来看,GPT-1和GPT-2的训练书籍及大小分别为5GB和40GB,GPT-3数据集大小超GPT-210倍以上。图表图表29:GPT-3 训练数据集组合训练数据集组合 资料来源:Language Models are Few-Shot Learners,Tom Brown(2020)、华泰研究 免责声明和披露以及分析师声明是报告的一部分,请务必一起阅读。18 计算机计算机 Codex:基于:基于 GPT-3 的代码生成工具的代码生成工具 Codex 是在是在 GPT-3 上基于上基于 Gi
68、tHub 公开代码进行微调的代码生成模型。公开代码进行微调的代码生成模型。Codex 的模型结构和 GPT-3 相同。OpenAI 从 Github 上搜集了 5400 万个公共软件库代码,集合而成训练数据集,包含 179GB 的 Python 文件,每个文件小于 1MB。同时过滤了部分可能是自动生成的文件,最终的数据集大小为 159GB。Codex 即是参数量 12B 的 GPT-3 基于该数据集微调得到的模型。在进行模型评估时,OpenAI 构造了 HumanEval 数据集,包含 164 原创的、手工设计的编程问题,避免问题出现在基于 GitHub 的训练数据集中。OpenAI还训练了还
69、训练了Codex-S和和Codex-D。Codex-S基于格式类似HumanEval的Supervised Fine-Tuning(有监督微调)数据集进行训练,训练出的模型效果比 Codex 更好。将Supervised Fine-Tuning 数据集中的“”格式调换成“”格式,再微调得到的模型为 Codex-D,即实现模型根据代码写注释的功能。图表图表30:Codex 模型家族图谱模型家族图谱 资料来源:Evaluating Large Language Models Trained on Code,Mark Chen(2021)、华泰研究 与类似的代码生成模型相比,与类似的代码生成模型相比
70、,120 亿参数的亿参数的 Codex 准确率最高可达准确率最高可达 72.31%。基于HumanEval 评估数据集,对比了 GPT-NEO、GPT-J、Tabnine 等类似的代码生成模型的结果 Passk(可以解释为评估k个样本中最优的结果)。Codex的最大版本拥有 120亿参数,其 Pass100 达到了 72.31%,远大于其余模型的最好结果。图表图表31:120 亿参数的亿参数的 Codex 准确率最高可达准确率最高可达 72.31%注:k 代表每个问题生成 k 个代码样本 资料来源:Evaluating Large Language Models Trained on Code
71、,Mark Chen(2021)、华泰研究 GPT-3120亿参数亿参数CodeXCodeX-D159GB的代码的代码数数据集据集进行训练进行训练基于格式基于格式类似类似HumanEval的的Supervised Fine-Tuning数据数据集进行训练集进行训练CodeX-S1 12 23 31 12 23 3将将Supervised Fine-Tuning数据集数据集中的“中的“”格式调换成“格式调换成“”格式格式 免责声明和披露以及分析师声明是报告的一部分,请务必一起阅读。19 计算机计算机 ChatGPT/InstructGPT:增加人类反馈强化学习(:增加人类反馈强化学习(RLHF)
72、优化目标:从提示学习到指示学习,聚焦需求对齐(优化目标:从提示学习到指示学习,聚焦需求对齐(alignment)从模型微调到提示学习再到指示学习,从模型微调到提示学习再到指示学习,GPT 模型零次学习能力不断提升。模型零次学习能力不断提升。2022 年论文Finetuned Language Models Are Zero-Shot Learners 提出指示学习(Instruction-tuning)思想,以提升模型的零次学习能力。对比来看:1)模型微调()模型微调(Fine-tuning):):以 GPT-1为代表,需要大量的微调数据集样本,特定模型解决特定任务;2)提示学习)提示学习(P
73、rompt-learning):):以 GPT-3 为代表,需要少量的微调数据样本,模型小样本学习(few-shot Learning)能力更强;3)指示学习()指示学习(Instruction-learning):):以FLAN、InstructGPT、ChatGPT 为代表,模型通过下游多类型任务的指示微调,零次学习(zero-shot Learning)能力更强;同时,提示学习与指示学习均为一个模型解决多类任务。图表图表32:模型微调(模型微调(Fine-tuning)、提示学习()、提示学习(Prompt-learning)、指示学习()、指示学习(Instruction-tuning
74、)对比)对比 资料来源:Finetuned Language Models are Zero-shot Learners,Jason Wei(2022)、华泰研究 聚焦模型输出与人类需求对齐,引入人类反馈强化学习。聚焦模型输出与人类需求对齐,引入人类反馈强化学习。GPT 系列模型发展至 GPT-3,已经在翻译、问答、摘要等任务上取得了良好的性能,研究者开始更加关注模型生成内容的有用性(Helpful)、真实性(Honest)、无害性(Harmless),希望实现模型输出内容与人类偏好内容的需求对齐(alignment)。为提升模型的“3H”特性,从 InstructGPT 开始,Instruc
75、tGPT、ChatGPT 均引入人类反馈强化学习(Reinforcement Learning from Human Feedback,RLHF),实现基于人类反馈的模型微调,让模型输出更符合人类期待。图表图表33:InstructGPT 的“的“3H”优化目标”优化目标 资料来源:Training language models to follow instructions with human feedback,Long Ouyang(2022)、华泰研究 免责声明和披露以及分析师声明是报告的一部分,请务必一起阅读。20 计算机计算机 人类反馈可作为强化学习的奖励,通过引入语言模型微调,可
76、使模型输出与人类需求对齐。人类反馈可作为强化学习的奖励,通过引入语言模型微调,可使模型输出与人类需求对齐。从技术原理来看,强化学习通过奖励(Reward)机制来指导模型训练,奖励机制可视为传统训练机制的损失函数;同时,奖励的计算要比损失函数更灵活、多样(例如 AlphaGO 的奖励是对局的胜负),代价是奖励计算不可导,不能直接用来做反向传播;强化学习的思路是通过对奖励的大量采样来拟合损失函数,从而实现模型的训练。类似的,人类反馈也不类似的,人类反馈也不可导,也可以作为强化学习的奖励,从而产生基于人类反馈的强化学习。可导,也可以作为强化学习的奖励,从而产生基于人类反馈的强化学习。图表图表34:人
77、类反馈强化学习(人类反馈强化学习(RLHF)基本原理)基本原理 资料来源:Deep Reinforcement Learning from Human Preferences,Paul F Christiano(2017)、华泰研究 训练过程:“三步走”实现人工反馈强化学习训练过程:“三步走”实现人工反馈强化学习 ChatGPT 与与 InstructGPT 的训练方法基本一致。的训练方法基本一致。了解 ChatGPT 与 InstructGPT 的优化目标之后,我们需要进一步梳理模型的具体训练过程。对比论文Training language models to follow instruct
78、ions with human feedback(2022)中的 InstructGPT 训练方法与 OpenAI官方发布的ChatGPT训练方法,我们看到,ChatGPT与InstructGPT的训练方法基本一致,区别在于InstructGPT、ChatGPT分别基于GPT-3、GPT-3.5进行模型微调。考虑到ChatGPT尚未有官方论文发布,我们以 InstructGPT 论文为基准,对 InstructGPT 的训练过程进行了详细梳理,具体可分为有监督微调、奖励模型训练、PPO 强化学习三个步骤。图表图表35:ChatGPT 与与 InstructGPT 的训练方法基本一致的训练方法基
79、本一致 注:图中蓝色部分为 InstructGPT 训练示意、粉色部分为 ChatGPT 训练示意 资料来源:OpenAI 官网、Training language models to follow instructions with human feedback,Long Ouyang(2022)、华泰研究 免责声明和披露以及分析师声明是报告的一部分,请务必一起阅读。21 计算机计算机 GPT-4:多模态确认,在专业和学术上表现亮眼:多模态确认,在专业和学术上表现亮眼 GPT-4:支持多模态输入,安全问题或成为:支持多模态输入,安全问题或成为 LLM 关注焦点关注焦点 GPT-4 支持多模态
80、输入,安全问题或成关注焦点。支持多模态输入,安全问题或成关注焦点。北京时间 3 月 15 日凌晨,OpenAI 召开发布会,正式宣布 GPT 模型家族中最新的大型语言模型(LLM)GPT-4。GPT-4 可以接受图像和文本输入并产生文本输出。同时,OpenAI 发布了 GPT-4 相关技术文档。从技术文档结构看,OpenAI 并未对 GPT-4 模型本身做过多介绍,而是将大量篇幅留给模型安全性相关讨论。我们认为,在 LLM 走向大规模应用的过程中,随着模型规模和能力的提升,将暴露出更多安全方面的问题,或将成为未来 LLM 的重要关注点。GPT-4 于于 2022 年年 8 月完成训练,技术细节
81、未完全公布。月完成训练,技术细节未完全公布。据 GPT-4 技术文档,GPT-4 于 2022年 8 月完成训练,此后,OpenAI 一直在评估、对抗性测试并迭代和改进模型,并提出各种系统级安全缓解措施。此外,OpenAI 在 GPT-4 文档中明确提出,考虑到竞争格局和大型模型(如 GPT-4)的安全影响,本文档没有包含有关架构(包括模型大小)、硬件、训练计算、数据集构造、训练方法或类似内容的进一步细节。文档明确提供的内容包括:1)GPT-4是一个基于 transformer 的预训练模型,用于预测文字的下一个 token;2)使用公开可用数据(如互联网数据)和第三方提供商授权的数据;3)使
82、用来自人类反馈的强化学习(RLHF)对模型进行微调。图表图表36:OpenAI 关于不透露技术细节的说明关于不透露技术细节的说明 资料来源:GPT-4 Technical Report,OpenAI(2023)、华泰研究 GPT-4 API 已开放等待列表(已开放等待列表(waitlist),),API 价格提升明显。价格提升明显。当获得访问权限后,即可以对GPT-4 模型进行纯文本请求(图像输入仍然处于有限的测试阶段),OpenAI 将自动将模型更新为推荐的稳定模型。此外,GPT-4 提供两个版本,GPT-4-8k 和 GPT-4-32k,前者支持的上下文长度为 8192 个 token,后
83、者支持 32768-context(约 50 页文本,提供有限访问)。GPT-4-8k 定价为每 1k 提示 token 0.03 美元,每 1k 完成 token 0.06 美元。默认速率限制为每分钟 40k 个 token,每分钟 200 个请求;GPT-4-32k 定价为每 1k 提示 token 0.06 美元,每 1k 完成 token 0.12 美元。(API 价格网址 https:/ API 和和 GPT-3.5-turbo API 价格对比价格对比 资料来源:GPT-4 Technical Report,OpenAI(2023)、华泰研究 GPT-4 API 价格价格GPT-3
84、.5 API 价格价格 免责声明和披露以及分析师声明是报告的一部分,请务必一起阅读。22 计算机计算机 能力测试:在专业和学术基准上表现出了人类的水平能力测试:在专业和学术基准上表现出了人类的水平 GPT-4 在各种专业和学术基准上表现出了人类的水平在各种专业和学术基准上表现出了人类的水平。OpenAI 在一系列不同的基准上测试了 GPT-4,包括最初为人类设计的模拟考试。考试题目包括多项选择题和自由问答题。OpenAI 为每种考试形式设计了单独的提示(prompt),并且在需要的场合增加了图像输入。GPT-4 并未专门针对这些考试科目进行训练,但仍取得了优秀的成绩,例如以大约前 10%的成绩
85、通过模拟律师资格考试,而 GPT-3.5 在该考试中成绩为后 10%。图表图表38:GPT-4 在各种人类考试中表现优异在各种人类考试中表现优异 资料来源:GPT-4 Technical Report,OpenAI(2023)、华泰研究 GPT-4 在大多数语言上的结果都优于在大多数语言上的结果都优于 GPT 3.5 和现有语言模型。和现有语言模型。现有的多数机器学习测试基准都是基于英语编写的。为了测试 GPT-4 在其他语言中的表现,OpenAI 使用 Azure Translate 将 MMLU 基准测试(涵盖 57 个主题的多项选择问题)翻译成各种语言。结果表明,GPT-4 在大多数语言
86、上的结果都优于 GPT 3.5 和现有语言模型的英语语言性能,包括全球使用人数较低的语言,如拉脱维亚语、威尔士语和斯瓦希里语。免责声明和披露以及分析师声明是报告的一部分,请务必一起阅读。23 计算机计算机 图表图表39:GPT-4 在大多数语言上的结果都优于在大多数语言上的结果都优于 GPT 3.5 和现有语言模型和现有语言模型 资料来源:GPT-4 Technical Report,OpenAI(2023)、华泰研究 多模态:支持图片输入,未提供具体算法多模态:支持图片输入,未提供具体算法 GPT-4 能够实现图片和文本的多模态输入。能够实现图片和文本的多模态输入。GPT-4 接受由图像和文
87、本组成的提示(prompt,与纯文本设置类似),允许用户指定任何视觉或语言任务,同时输出文本信息。此外,语言模型中的 few-shot 提示和思维链等,在 GPT-4 中同样有效。但是,OpenAI 未在技术文档中给出如何实现图片的输入,以及如何对图片进一步处理以注入到模型中。图表图表40:GPT-4 视觉输入样例视觉输入样例 资料来源:GPT-4 Technical Report,OpenAI(2023)、华泰研究 免责声明和披露以及分析师声明是报告的一部分,请务必一起阅读。24 计算机计算机 延伸:国内大模型快速成长,海外大模型延伸:国内大模型快速成长,海外大模型多维多维拓展拓展 大模型时
88、代到来,模型体系与生态快速扩充,海内外企业坚定发力。大模型时代到来,模型体系与生态快速扩充,海内外企业坚定发力。受益于 ChatGPT 的成功问世,大模型的理解能力、推理能力、泛化能力得到充分验证,海内外企业纷纷加速大模型相关的产业布局,全面拥抱大模型时代的技术变革。1)国内:)国内:国内大模型发展起步相对较晚,ChatGPT 问世以来国内企业加速模型研发,2023 年以百度文心、阿里通义、讯飞星火等为代表的国产大模型相继发布,并持续推进模型迭代升级;2)海外:)海外:海外大模型发展呈现垂直落地、工程实现、模态丰富三大发展趋势,模型体系与配套的工程生态日益丰富。国内大模型快速成长国内大模型快速
89、成长,多类厂商多类厂商竞逐发力竞逐发力 国内大模型发展起步相对较晚,国内大模型发展起步相对较晚,模型能力模型能力呈现快速优化态势。呈现快速优化态势。目前国内布局通用大模型的企业主要包括互联网科技企业、人工智能企业、初创研究团队等三类。1)互联网科技企业:)互联网科技企业:主要包括百度、三六零、阿里、腾讯、华为、昆仑万维等科技企业,作为互联网行业的成熟公司,此类参与者在人工智能领域拥有深厚的业务积累,同时在模型训练上掌握一定的基础性优势(算力资源、语料资源);2)人工智能企业:)人工智能企业:包括商汤、科大讯飞等人工智能企业,作为 AI 领域的垂直深耕者,此类参与者对于大模型的理解、训练、优化具
90、备更加垂直的行业 Know-How;3)初创研究团队:)初创研究团队:包括北京智源研究院、Minimax 等研究型机构/企业,此类参与者垂直聚焦大模型相关技术的研究,业务专注度更高。百度:百度:文心大模型文心大模型 2 月发布,月发布,新一代知识增强大语言模型新一代知识增强大语言模型 百度发布了其新一代知识增强大语言模型百度发布了其新一代知识增强大语言模型文心一言。文心一言。2023 年 3 月 16 日,百度召开了文心一言发布会,发布了其最新的知识增强型大语言模型文心一言。从演示效果看,文心一言一定程度上具备了人类对自然语言的理解、表达和推理能力,并且在涉及中文理解和中华传统文化的理解上有相
91、对优于 GPT 等国外模型的优势。针对文心一言,发布会提出了5 种应用场景、6 个关键技术、1 个技术堆栈和 3 大产业机会。目前,文心一言已开放个人测试资格排队申请和企业 API 申请。文心一言在文学和商业文案创作、数理逻辑推算、中文理解、多模态生成领域均有应用。文心一言在文学和商业文案创作、数理逻辑推算、中文理解、多模态生成领域均有应用。整体来看,文心一言已经具备了较好的自然语言的理解、表达和推理能力,是多领域“通才”。我们使用发布会上展示的各场景下的问题,对 ChatGPT(基于 GPT-3.5)和微软新Bing(基于 GPT-4)进行了同样的提问,并将结果进行了对比(说明:由国外同事代
92、为测试)。可以发现,文心一言在对中国传统文化的理解上更加深入,中文支持效果更好。文心一言基于百度文心一言基于百度 ERNIE 和和 PLATO 模型,并在训练技术上进行了创新。模型,并在训练技术上进行了创新。从文心一言架构图看,底层以 ERNIE 和 PLATO 模型为基础,在训练中引入了大模型常用技术:有监督精调(fine-tuning)、基于人类反馈的强化学习(RLHF)和模型提示(prompt),以及百度创新的技术:知识增强、检索增强和对话增强。图表图表41:文心一言架构图文心一言架构图 资料来源:文心一言发布会、华泰研究 文心一言文心一言知识增强知识增强检索检索增强增强对话对话增强增强
93、有监督精调有监督精调人类反馈强化学习人类反馈强化学习提示提示ERNIEPLATO 免责声明和披露以及分析师声明是报告的一部分,请务必一起阅读。25 计算机计算机 百度百度 ERNIE 模型有近模型有近 4 年的迭代史,获得多个年的迭代史,获得多个 SOTA 结果。结果。最早的 ERNIE 1.0 是百度在2019 年 3 月提出的,该模型基于谷歌 BERT 模型,引入了真实世界的语义知识,增强了模型的语义表示能力。2019 年 7 月 ERNIE 2.0 问世,引入了持续学习和多任务学习概念,在16 个中英文数据集上获得 SOTA(state-of-the-art,目前最好的意思)结果。202
94、1 年 7 月,ERNIE 3.0 问世,提出了多范式统一预训练框架,将自回归和自编码网络进行了融合,并在训练时加入了知识图谱类数据,在 SuperGLUE 测试基准上获得 SOTA 结果。图表图表42:ERNIE 1.03.0 技术变化情况技术变化情况 资料来源:文心大模型官网、华泰研究 商汤科技:日日新大模型商汤科技:日日新大模型 4 月发布,月发布,加速迈进加速迈进 AGI 时代时代 商汤科技作为最大商汤科技作为最大 AI 软件公司,加速实现从软件公司,加速实现从 AIaaS 到到 MaaS 跨越。跨越。商汤科技成立于 2014年,于 2015 年开始研发深度学习训练框架 SensePa
95、rrots,而后形成企业服务、城市管理、消费者、汽车四大应用领域的 AI 平台布局;公司自 2019 年起发布首个 CV 大模型,搭建了 NLP、CV、多模态在内的多模态大模型体系;2023 年 4 月,公司正式发布日日新(SenseNova)系列大模型,有望实现从 AIaaS(人工智能即服务)到 MaaS(模型即服务)的业务跨越,加速开启通用人工智能(AGI)的新时代。商汤日日新基于大模型体系发布商量、秒画、如影、格物、琼宇、明眸六大商汤日日新基于大模型体系发布商量、秒画、如影、格物、琼宇、明眸六大 AI 应用。应用。其中商量 SenseChat 底层对应商汤 NLP 模型;秒画 Sense
96、Mirage、如影 SenseAvatar、琼宇SenseSpace、格物 SenseThings 底层对应商汤 AIGC 模型;明眸数据标注平台底层对应商汤 CV、多模态模型。图表图表43:商汤科技大模型发展情况概览商汤科技大模型发展情况概览 资料来源:商汤科技官网、华泰研究 编码器编码器编码器BERT 层数:12 隐藏层神经元数:768 参数量:1.1亿自编码模型自编码模型通过建模词、实体及实体关系,学习真实世界的语真实世界的语义知识义知识直接对先验语义知识单元进行建模,增强了模型语模型语义表示能力义表示能力训练数据方面,除百科类、资讯类中文语料外,ERNIE还引入了论坛对话论坛对话类数据
97、类数据预训练任务预训练任务ERNIE1.0与与BERT一致一致ERNIE 1.02019.32018.10基于持续学习持续学习的语义理解预训练框架使用多任务学习多任务学习增量式构建预训练任务ERNIE 2.02019.7BERT:Pre-training of Deep Bidirectional Transformers for Language UnderstandingERNIE:Enhanced Representation through Knowledge IntegrationERNIE 2.0:A Continual Pre-training Framework for Lan
98、guage Understanding 多范式多范式统一预训练框架,自回归和自编码网络自回归和自编码网络被创新型地融合在一起进行预训练训练时大规模引入知识图知识图谱类数据谱类数据ERNIE 3.02021.7ERNIE 3.0:Large-scale Knowledge Enhanced Pre-training for Language Understanding and Generation 免责声明和披露以及分析师声明是报告的一部分,请务必一起阅读。26 计算机计算机 1)NLP 模型模型:商汤基于自研 1,800 亿中文大语言模型打造的商量 SenseChat 对话应用,在中文文本的理
99、解上具有突出优势,支持问答、理解与生成等中文语言能力,可实现多轮对话、逻辑推理、语言纠错、内容创作、情感分析等。相较 GPT 等海外模型,商汤 NLP模型具备三大突出特点:1)中文理解:)中文理解:根据商量的测试表现,商汤 NLP 模型的中文理解能力更强;2)超长文本:)超长文本:可实现 PDF 阅读理解的功能,支撑更长的输入文本;3)及时更)及时更新:新:商汤 NLP 模型实现了知识的自动实时更新,让生成的内容更可信、更准确、更安全。图表图表44:商汤商量商汤商量 SenseChat 功能功能 资料来源:商汤科技官网、华泰研究 2)AIGC 模型:模型:商汤“日日新 SenseNova”基于
100、超 10 亿参数规模的 AIGC 模型,打造了多类 AIGC 应用,包括文生图创作、2D/3D 数字人生成、大场景、小物体生成等,实现空间、人、物的生成、融合与交互。3)多模态模型:)多模态模型:商汤发布多模态多任务通用大模型“书生(INTERN)2.5”(30 亿参数),在多模态多任务处理能力方面实现多项全新突破,其卓越的图文跨模态开放任务处理能力可为自动驾驶、机器人等通用场景任务提供高效精准的感知和理解能力支持,向通用人工智能迈出坚实的一步。书生 2.5 性能优越,在 20+不同场景不同任务的数据集中取得最佳成绩。在视觉主流图像分类数据集ImageNet上,书生2.5仅基于公开数据便达到了
101、90.1%的Top-1准确率,是除谷歌与微软之外,唯一准确率超过 90.0%的模型,同时书生 2.5 也是世界上开源模型中 ImageNet 准确度最高、规模最大的模型。图表图表45:商汤书生商汤书生 2.5 在在 20+不同场景不同任务的数据集中取得最佳成绩不同场景不同任务的数据集中取得最佳成绩 资料来源:商汤科技官网、华泰研究 免责声明和披露以及分析师声明是报告的一部分,请务必一起阅读。27 计算机计算机 科大讯飞:科大讯飞:星火大模型星火大模型 5 月发布,月发布,AGI 核心能力核心能力表现出色表现出色 科大讯飞在科大讯飞在 AI 认知智能领域已有十几年的积累,认知智能领域已有十几年的
102、积累,具备认知大模型“智能涌现”的源头核心具备认知大模型“智能涌现”的源头核心技术储备技术储备。14 年讯飞就推出讯飞超脑计划,明确提出要让机器像人一样具备“能理解、会思考”的能力;17 年讯飞智医助理在全球首次通过了国家执业医师资格考试,超过了 96.3%参加考试的医生;19 年在斯坦福大学发起的国际著名 SQuAD 机器阅读理解比赛中,讯飞模型在英文阅读理解中首次超过了人类平均水平;22 年在艾伦研究院组织的 OpenBookQA科学常识推理比赛中,讯飞单模型首次超过了人类平均水平;22 年 1 月,讯飞正式宣布讯飞超脑 2030 计划,要让“懂知识、会学习、能进化”的通用人工智能技术,以
103、机器人的实体形态或虚拟形态能够进入到每一个家庭;22 年 12 月,讯飞启动认知智能大模型的专项攻关;23 年年 5 月月 6 日,讯飞星火认知大模型正式发布,同时发布了日,讯飞星火认知大模型正式发布,同时发布了 4 大大 AI 行业应用成果。行业应用成果。图表图表46:讯飞为认知大模型所做的源头核心技术储备讯飞为认知大模型所做的源头核心技术储备 资料来源:科大讯飞官网、华泰研究 讯飞星火大模型在讯飞星火大模型在 AGI 核心核心能力上表现出色能力上表现出色。当前通用人工智能令人关注的七大维度:包括文本生成、语言理解、知识问答、逻辑推理、数学能力、代码能力以及多模态能力。星火认知大模型发布六大
104、核心能力。在发布会上,讯飞主要围绕 6 个主要方向(不包含多模态,属于下一代能力)进行了现场的真实测试。图表图表47:讯飞星火大模型六大核心能力讯飞星火大模型六大核心能力 资料来源:科大讯飞官网、华泰研究 同时科大讯飞发布星火大模型同时科大讯飞发布星火大模型年内持续升级的关键里程碑年内持续升级的关键里程碑:6 月 9 日:突破开放式问答(接入搜索引擎)、多轮对话能力再升级、数学能力再升级;8 月 15 日:突破代码能力、多模态交互再升级;10 月 24 日:通用模型对标 ChatGPT(中文超越,英文相当)。免责声明和披露以及分析师声明是报告的一部分,请务必一起阅读。28 计算机计算机 图表图
105、表48:星火大模型年内持续升级的关键里程碑星火大模型年内持续升级的关键里程碑 资料来源:科大讯飞官网、华泰研究 智源智源研究院研究院:超大规模“悟道”模型超大规模“悟道”模型,构建完备构建完备大模型生态体系大模型生态体系 北京智源研究院北京智源研究院为为非盈利的研究机构,非盈利的研究机构,旨在旨在搭建高效活力的搭建高效活力的 AI 研发平台。研发平台。2018 年,北京智源人工智能研究院(Beijing Academy of Artificial Intelligence,BAAI)在科技部和北京市支持下,联合北京人工智能领域优势单位共建,旨在推动人工智能领域发展政策、学术思想、理论基础、顶尖
106、人才与产业生态的五大源头创新。目前,智源研究院汇聚了清华、北大等高等学府 100+顶尖 AI 科学家,下设基础模型、生命模拟、健康计算、自主医学检查系统、千方智慧医疗、人工智能伦理与可持续发展、人工智能社会实验、战略研究等 8 大研究中心。图表图表49:北京智源人工智能研究院重要发展节点北京智源人工智能研究院重要发展节点 资料来源:BAAI 官网、华泰研究 从研究体系来看,智源研究院涵盖四大业务场景。从研究体系来看,智源研究院涵盖四大业务场景。1)悟道大模型:)悟道大模型:主要开展通用大模型的技术研究,旨在打造具有国际领先水平的基础大模型,加速国产大模型的发展进程;2)飞飞智开源体系智开源体系
107、:搭建支撑大模型发展的一站式基础软件体系,涵盖算法、工具、评测、艺术创作、服务框架等六大领域;3)天演天演 AI 生命模拟工程生命模拟工程:旨在通过对生物智能进行高精度仿真,探索智能的本质,进而推动由生物启发的通用智能;4)九鼎算力平台九鼎算力平台:探索满足大规模混合计算任务的调度方法,搭建 AI 科研创新的基石与试验场。免责声明和披露以及分析师声明是报告的一部分,请务必一起阅读。29 计算机计算机 图表图表50:BAAI 四大业务场景四大业务场景 资料来源:BAAI 官网、华泰研究 悟道悟道 1.0 大模型大模型:中国首个超大规模智能模型。:中国首个超大规模智能模型。2020 年 10 月,
108、智源研究院正式启动超大规模智能模型悟道项目:1)悟道文汇()悟道文汇(113 亿参数):亿参数):首个面向认知的超大规模新型预训练模型(M6:MultiModality-to-MultiModality Multi-task Mega-Transformer);2)悟)悟道文澜(道文澜(10 亿参数)(亿参数)(BriVL 模型)模型):首个超大规模多模态预训练模型;3)悟道 文源()悟道 文源(26亿参数)(亿参数)(CPM 模型)模型):首个以中文为核心的超大规模预训练模型;4)悟道文溯()悟道文溯(2.8 亿亿参数)参数):超大规模蛋白质序列预测预训练模型。2021 年 3 月,智源研究
109、院发布了中国首个超大规模智能模型“悟道 1.0”,训练出中文、多模态、认知、蛋白质预测等系列模型。悟道悟道 2.0 大模型:大模型:1.75 万亿参数规模,万亿参数规模,当时当时全球最大的超大规模智能模型全球最大的超大规模智能模型。2021 年 6 月,智源研究院发布“悟道 2.0”,参数规模达到 1.75 万亿,是 GPT-3 的 10 倍,打破了之前由Google Switch Transformer 预训练模型创造的 1.6 万亿参数记录,是当时中国首个、全球最大的万亿级模型。同时“悟道”团队在大规模预训练模型研发上做了很多基础性工作,形成了自主的超大规模智能模型技术创新体系,拥有从预训
110、练理论技术到预训练工具,再到预训练模型构建和最终模型测评的完整链条。悟道2.0在9项Benchmark达到优异水平。搭建高质量数据集搭建高质量数据集 WudaoCorpora 2.0,促进中国通用人工智能发展。,促进中国通用人工智能发展。2021 年 3 月,全球最大中文语料库 WuDaoCorpora1.0 与悟道 1.0 同时问世;三个月后,加入多模态和对话两大全新元素后,WuDaoCorpora2.0 版本正式发布。WuDaoCorpora2.0 由全球最大的纯文本数据集 WDC-Text、全球最大的多模态数据集 WDC-ImageCaption 和全球最大的中文对话数据集 WDC-Di
111、alogue 三部分构成,分别致力于构建微缩中文世界、打破图文模态壁垒、浓缩对话核心规律,从而形成多维度世界顶级数据库,促进中国的通用人工智能发展。图表图表51:数据集数据集 WudaoCorpora 2.0 组成示意图组成示意图 资料来源:BAAI 官网、华泰研究 免责声明和披露以及分析师声明是报告的一部分,请务必一起阅读。30 计算机计算机 飞智飞智大模型开源体系日益完善,大模型开源体系日益完善,助力国产大模型助力国产大模型加速加速发展发展。FlagOpen 飞智大模型技术开源体系主要包括 6 大开源项目,涵盖大模型算法、工具、评测、艺术创作、服务框架等领域。图表图表52:FlagOpen
112、 飞智大模型技术开源体系飞智大模型技术开源体系 资料来源:BAAI 官网、华泰研究 海外大模型海外大模型多维多维拓展拓展,看好垂直,看好垂直落地落地、工程实现、模态丰富三大趋势、工程实现、模态丰富三大趋势 海外大模型持续多维拓展,重点关注大模型垂直落地、工程实现、模态丰富三大趋势。海外大模型持续多维拓展,重点关注大模型垂直落地、工程实现、模态丰富三大趋势。1)垂直落地:垂直落地:得益于通用大模型对于“大模型参数+大训练数据”的有效验证,基于垂直数据训练的行业大模型实现加速发展,BloombergGPT 作为首个金融大模型有效实现了 LLM 与金融垂直领域知识的深度融合,佐证了“开源模型+高质量
113、垂直数据”LLM 搭建思路的有效性;2)工程实现:)工程实现:大模型的训练速度、训练成本以及工程化应用受到广泛关注,以 AutoGPT为代表的工程化思路,充分验证了大模型有望成为 AI 时代的操作系统,改变人机交互范式;3)模态丰富:)模态丰富:除大语言模型(Large Language Model,LLM)外,大模型逐步向图像、音频、视频等模态拓展,建议关注多模态对齐的大模型技术进展。垂直落地:垂直落地:BloombergGPT 提供提供构建构建垂直行业大模型垂直行业大模型的有益参考的有益参考 BloombergGPT发布,大模型实现金融发布,大模型实现金融垂直垂直领域领域的加速的加速落地。
114、落地。2023年3月30日,Bloomberg官方发布专为金融领域打造的大语言模型(Large Language Model,LLM)BloombergGPT,实现了 LLM 在垂直场景的加速落地。相较 OpenAI 的 GPT 系列(GPT-1、GPT-2、GPT-3、GPT-4)通用大模型,BloombergGPT 在保证 LLM 通用性能的基础上,更加聚焦金融场景,更加适应金融术语的复杂性与独特性,有效实现了 GPT+垂直知识的深度融合。#1 模型拆解:模型拆解:500 亿参数亿参数 LLM,核心突破在于金融语料,核心突破在于金融语料 BloombergGPT 同样采用同样采用 deco
115、der-only 路径,模型参数介于路径,模型参数介于 GPT-2 与与 GPT-3 之间之间。根据论文BloombergGPT:A Large Language Model for Finance的模型介绍显示,BloombergGPT 同样基于典型的 Transformer 架构,同时与 OpenAI 的 GPT 模型相同,采用了仅有解码器(decoder-only)的技术路径。考虑到 Tranformer 解码器与编码器的构成区别,Bloomberg 沿用了 GPT 模型的 decoder-only 技术路径,训练出的 LLM 在基于前文预测后文的自然语言生成方面具备天然优势(详细分析可
116、参考华泰计算机 2023 年 2 月 14日发布的报告GPT 产业复盘(2019):大容量路线)。对比来看,BloombergGPT 的模型参数介于 GPT-2 与 GPT-3 之间,GPT-2 模型参数为 1.5 亿,GPT-3 模型参数为 1,750亿,bloombergGPT 的模型参数为 500 亿。免责声明和披露以及分析师声明是报告的一部分,请务必一起阅读。31 计算机计算机 图表图表53:Tansformer 的的 encoder 编码器结构示意编码器结构示意 图表图表54:Tansformer 的的 decoder 解码器结构示意解码器结构示意 资料来源:The Illustra
117、ted GPT-2(Visualizing Transformer Language Models),Jay Alammar(2020)、华泰研究 资料来源:The Illustrated GPT-2(Visualizing Transformer Language Models),Jay Alammar(2020)、华泰研究 大规模金融数据集大规模金融数据集 FINPILE 是是 BloombergGPT 在金融垂直领域成功落地的关键。在金融垂直领域成功落地的关键。不同于OpenAI 的 GPT 模型基于通用文本语料进行模型预训练,Bloomberg 为强化大语言模型对金融垂直领域的专业理解
118、,基于 Bloomberg 自身在金融语料方面的优势,构建了目前最大规模的金融数据集 FINPILE,实现了模型在金融领域的知识强化。总体来看,BloombergGPT预训练的数据集包括金融数据文本FINPILE数据集与通用数据文本PUBLIC数据集两部分。FINPILE+PUBLIC 让模型让模型兼具通用常识与金融知识的双重理解兼具通用常识与金融知识的双重理解。得益于 Bloomberg 构建的融合通用文本(PUBLIC)与金融知识(FINPILE)的大规模训练数据,BloombergGPT基于通用场景和金融业务场景进行混合模型训练,使模型在具备通常常识的基础上强化金融领域的知识理解,根据官
119、方 2023 年 3 月发布的论文 BloombergGPT:A Large Language Model for Finance中的测试结果显示,BloombergGPT 在执行金融任务上的表现超过现有的通用 LLM 模型,在通用场景上的表现与现有通用 LLM 模型能力基本持平。#2 BloombergGPT 启示:开拓开源模型启示:开拓开源模型+垂直数据的垂直数据的 LLM 新思路新思路 BloombergGPT 实现在实现在垂直领域垂直领域模型、训练数据、模型评估、模型、训练数据、模型评估、tokenizer、模型构建、模型构建方法方法等等方面的方面的创新。创新。1)垂直领域垂直领域语言
120、模型:语言模型:过去的大语言模型多为基于通用文本训练的通用模型,垂直领域模型多为仅基于垂直领域数据训练垂直模型,Bloomberg 开创通用+垂直的混合训练方法,让模型兼具通用性与专业性;2)训练数据:)训练数据:过去的大语言模型的预训练数据很大程度上依赖于网页抓取数据,如 C4、The Pile、Wikipedia 等,Bloomberg 自建了高质量的大规模金融数据集;3)模型评估:)模型评估:Bloomberg 在对模型进行了公共、金融 NLP 基准测试之外,还对模型进行了一系列基于 Bloomberg 内部任务的性能测试;4)Token 化化(Tokenizer):将训练文本 Toke
121、n 化是模型训练的关键步骤,Bloomberg 使用 Unigram 模型取代 greedy merge-based sub-word 模型,实现更智能的 token 化转换;5)模型构建)模型构建方法方法:以 GPT-3、GPT-4 为代表的大语言模型均由大型的专业人工智能团队开发,并且模型训练需要大量算力;受益于开源模型 BLOOM 的项目实践与 Bloomberg 在垂直领域高质量数据的深厚积累,BloombergGPT 成功证明了一个中等规模的团队可以在垂直领域的特定数据上生产同样具有竞争力的大语言模型。免责声明和披露以及分析师声明是报告的一部分,请务必一起阅读。32 计算机计算机 图
122、表图表55:BloombergGPT 实现实现垂直领域垂直领域模型、训练数据、模型评估、模型、训练数据、模型评估、tokenizer、模型构建、模型构建方法等方面的创新方法等方面的创新 资料来源:BloombergGPT:A Large Language Model for Finance,Shijie Wu(2023)、华泰研究 BloombergGPT 开拓了开源模型开拓了开源模型+垂直数据的垂直数据的 LLM 搭建新思路。搭建新思路。通过对比 GPT-3 与BloombergGPT,我们发现,高质量的预训练数据是提升大语言模型能力的关键,大量的高质量垂直领域知识有望弥补模型在规模上的不足
123、。BloombergGPT 的模型参数为 500 亿,相较于 GPT-3 的 1,750 亿属于较小的模型的规模,不同的是,BloombergGPT 的预训练数据增加了大量的高质量金融数据,同时 BloombergGPT 对于模型的预训练数据进行了一系列的数据清洗和数据标注,进一步提升了数据质量。从测试结果来看,BloombergGPT 在通用能力与 GPT-3 基本持平的情况下,实现了金融垂直能力的大幅增强。#3 BloombergGPT 展望:数据至关重要,金融展望:数据至关重要,金融 GPT 未来可期未来可期 训练数据是训练数据是 LLM 能力塑造的关键因素。能力塑造的关键因素。基于 B
124、loombergGPT 的成功案例,我们认为,训练数据是大语言模型能力塑造的关键因素,原因有三,一是一是金融垂直领域数据的输入成功塑造了 BloombergGPT 的金融知识理解能力,具备了更强的专业性;二是二是尽管BloombergGPT 的模型参数相较有所减少,但仍然表现出较强的通用能力与垂直能力,证明了在一定参数规模的前提下,高质量数据才是决定模型能力的关键;三是三是 Bloomberg 在论文中明确出于对数据泄露的担忧,BloombergGPT 将采取与 OpenAI 相同的闭源方案,侧面佐证了原始的预训练数据是各家大模型竞争的重要因素。GPT+垂直场景有望全面铺开。垂直场景有望全面铺
125、开。垂直知识+通用常识的综合训练方法的有效性已经得到有效验证,大语言模型有望实现与医疗、安全、能源、工业等更多垂直场景的深度融合。以海外的 ProGEN 的模型为例,大语言模型已经实现了在蛋白质结构预测的场景落地。未来,融合垂直领域知识的大语言模型有望加速发展。工程工程实现实现:AutoGPT 充分展现大模型有望重塑人机交互范式充分展现大模型有望重塑人机交互范式 AutoGPT 充分展现大模型有望重塑人机交互范式。充分展现大模型有望重塑人机交互范式。AutoGPT 是一个实验性开源应用程序,展示了 GPT-4 语言模型的功能,标志着自然语言有望成为未来人机交互的全新模式。该程序由 GPT-4
126、驱动,将 LLM 的“思想”链接在一起,以自主实现用户设定的任何目标。作为 GPT-4 完全自主运行的首批示例之一,AutoGPT 突破了 AI 的可能性界限。AutoGPT 具备五大典型特征:1)可以从 Internet 搜索和收集信息;2)支持长期和短期内存管理;3)提供文本生成的 GPT-4 实例;4)访问热门网站和平台;5)使用 GPT-3.5 进行文件存储和汇总。免责声明和披露以及分析师声明是报告的一部分,请务必一起阅读。33 计算机计算机 图表图表56:AutoGPT 五大特征五大特征 资料来源:Github 官网、华泰研究 AutoGPT 需要人类指导,充分展示了人机交互方式改变
127、的可能性。需要人类指导,充分展示了人机交互方式改变的可能性。AutoGPT 并非真的是全自动、全自主,而是需要人类指导。我们认为,AutoGPT 是在 GPT-4 的基础上,衍生出来的创新型大模型使用方法探索。其本质可以认为是 GPT 模型的自动化任务执行工具,能够通过预先设计好的提示来自动生成任务指令,从而快速高效地执行各种任务。基于 GPT-4模型的自然语言理解能力,AutoGPT 通过 API 接口、现有大模型的创新性结合等方式,实现问题的“自动化解决”,大语言模型 LLM 成为大模型时代的操作系统,可以作为控制器来管理现有的 API 接口、人工智能模型,以解决复杂的人工智能任务。图表图
128、表57:微软微软 HuggingGPT 与与 AutoGPT 相似,探索相似,探索 LLM 作为作为 AI 操作系统的可能性操作系统的可能性 资料来源:HuggingFace 官网、华泰研究 模态模态丰富丰富:SAM 模型模型实现大模型在实现大模型在 CV 领域的领域的模态延展模态延展 Segment Anything Model是是Meta提出的图像分割模型。提出的图像分割模型。Segment Anything Model(SAM)由三部分组成,1)任务:)任务:为可提示(promptable)的分割任务,描述通用的预训练目标,实现广泛的下游任务;2)分割模型()分割模型(SAM):):支持
129、灵活的提示(prompt)和数据注释,并能通过提示工程(prompt engineering)实时输出分割掩膜,以 zero-shot 方式迁移到一系列任务;3)数据引擎:)数据引擎:构建了数据引擎,一方面收集新的数据,另一方面使用新数据来迭代模型。Meta 建立了迄今为止最大的分割数据集 SA-1B,在 1100 万张许可和尊重隐私的图像上,有超过 10 亿个掩膜(mask)。结果表明,SAM 的 zero-shot 性能优秀,能够达到甚至优于完全监督模型的结果。SAM和SA-1B已经在https:/segment-开源。免责声明和披露以及分析师声明是报告的一部分,请务必一起阅读。34 计算
130、机计算机 图表图表58:SAM 的三个组成部分的三个组成部分 资料来源:Segment Anything,Meta(2023)、华泰研究 大规模且多样化的掩膜数据集能够实现大规模且多样化的掩膜数据集能够实现 SAM 更好的泛化特性。更好的泛化特性。由数据引擎生成的最终数据集 SA-1B,包含 1100 万张经许可且隐私保护的图像,以及超过 10 亿个掩膜(均为数据引擎最后阶段自动生成的掩膜)。SA-1B 拥有的掩膜数量比任何现有的分割数据集都多 400 倍以上,具有高质量和多样性。除了将其用于训练 SAM 之外,SA-1B 已开源,供其他研究者在此基础上建立新的基础大模型。图表图表59:SA-
131、1B 包含的图像数量比其他数据集高包含的图像数量比其他数据集高 6 倍以上倍以上 图表图表60:SA-1B 包含的掩膜数量比其他数据集高包含的掩膜数量比其他数据集高 400 倍以上倍以上 资料来源:Meta 官网、华泰研究 资料来源:Meta 官网、华泰研究 SAM 模型亮点模型亮点:探索模型组件化应用:探索模型组件化应用 以提示工程等技术为基础的可组合系统,能实现更广泛的应用。以提示工程等技术为基础的可组合系统,能实现更广泛的应用。Meta 指出,提示和组合是功能强大的工具,使单个模型能够以可扩展的方式使用,有可能完成模型设计时未知的任务。与专门为固定任务集训练的系统相比,以提示工程等技术为
132、基础的可组合系统,能实现更广泛的应用。例如 CLIP 是 DALL-E 图像生成系统的文本图像对齐组件。SAM 是为通用性和使用广度而设计的,是视觉分割的通才和多面手。是为通用性和使用广度而设计的,是视觉分割的通才和多面手。Meta 指出,虽然特定领域的工具在各自的领域中会优于 SAM,但 SAM 是为通用性和使用广度而设计的,是视觉分割的通才和多面手。此外,由于 SAM 的强大迁移和泛化能力,以及开箱即用特性,SAM 甚至可以通过可穿戴设备检测到的注视点来进行提示,从而启用新的应用程序。免责声明和披露以及分析师声明是报告的一部分,请务必一起阅读。35 计算机计算机 产业链相关公司梳产业链相关
133、公司梳理理 以以 GPT 为代表的大模型为代表的大模型产业链较长,产业链较长,具体可分为算力、模型、应用三个环节具体可分为算力、模型、应用三个环节。1)算力:)算力:包括寒武纪、景嘉微、海光信息等芯片厂商以及浪潮信息、中科曙光、工业富联等服务器厂商;2)模型:)模型:包括百度、三六零、科大讯飞、昆仑万维、商汤科技等科技企业;3)应用:)应用:2C 简单包括金山办公、科大讯飞、同花顺、万兴科技、东方财富、汉仪股份、汉王科技、萤石网络等企业;2B 简单包括泛微网络、致远互联、上海钢联、彩讯股份等企业;2C 复杂包括中望软件、索辰科技、广联达等企业;2B 复杂包括恒生电子、石基信息、科大讯飞、汉王科
134、技、金桥信息等企业。风险提示风险提示 宏观经济波动。宏观经济波动。若宏观经济波动,产业变革及新技术的落地节奏或将受到影响,宏观经济 波动还可能对 IT 投资产生负面影响,从而导致整体行业增长不及预期。大模型技术迭代不及预期。大模型技术迭代不及预期。若大模型技术迭代不及预期,会对大模型相关产业链造成不利影响,影响产业推进节奏。本报告内容基于客观资料整理,不构成投资建议本报告内容基于客观资料整理,不构成投资建议。免责声明和披露以及分析师声明是报告的一部分,请务必一起阅读。36 计算机计算机 图表图表61:提及公司列表提及公司列表 公司代码公司代码 公司简称公司简称 未上市 Bloomberg 未上
135、市 OpenAI META US Meta MSFT US 微软 GOOGL US 谷歌 688256 CH 寒武纪 300474 CH 景嘉微 688041 CH 海光信息 000977 CH 浪潮信息 603019 CH 中科曙光 601138 CH 工业富联 9888 HK 百度 601360 CH 三六零 002230 CH 科大讯飞 300418 CH 昆仑万维 0020 HK 商汤科技 688111 CH 金山办公 300033 CH 同花顺 600570 CH 恒生电子 300059 CH 东方财富 300624 CH 万兴科技 301270 CH 汉仪股份 002362 CH
136、汉王科技 688475 CH 萤石网络 603039 CH 泛微网络 688369 CH 致远互联 300226 CH 上海钢联 300634 CH 彩讯股份 688083 CH 中望软件 688507 CH 索辰科技 002410 CH 广联达 002153 CH 石基信息 603918 CH 金桥信息 资料来源:Bloomberg、华泰研究 免责声明和披露以及分析师声明是报告的一部分,请务必一起阅读。37 计算机计算机 免责免责声明声明 分析师声明分析师声明 本人,谢春生、郭雅丽、范昳蕊,兹证明本报告所表达的观点准确地反映了分析师对标的证券或发行人的个人意见;彼以往、现在或未来并无就其研究
137、报告所提供的具体建议或所表迖的意见直接或间接收取任何报酬。一般声明及披露一般声明及披露 本报告由华泰证券股份有限公司(已具备中国证监会批准的证券投资咨询业务资格,以下简称“本公司”)制作。本报告所载资料是仅供接收人的严格保密资料。本报告仅供本公司及其客户和其关联机构使用。本公司不因接收人收到本报告而视其为客户。本报告基于本公司认为可靠的、已公开的信息编制,但本公司及其关联机构(以下统称为“华泰”)对该等信息的准确性及完整性不作任何保证。本报告所载的意见、评估及预测仅反映报告发布当日的观点和判断。在不同时期,华泰可能会发出与本报告所载意见、评估及预测不一致的研究报告。同时,本报告所指的证券或投资
138、标的的价格、价值及投资收入可能会波动。以往表现并不能指引未来,未来回报并不能得到保证,并存在损失本金的可能。华泰不保证本报告所含信息保持在最新状态。华泰对本报告所含信息可在不发出通知的情形下做出修改,投资者应当自行关注相应的更新或修改。本公司不是 FINRA 的注册会员,其研究分析师亦没有注册为 FINRA 的研究分析师/不具有 FINRA 分析师的注册资格。华泰力求报告内容客观、公正,但本报告所载的观点、结论和建议仅供参考,不构成购买或出售所述证券的要约或招揽。该等观点、建议并未考虑到个别投资者的具体投资目的、财务状况以及特定需求,在任何时候均不构成对客户私人投资建议。投资者应当充分考虑自身
139、特定状况,并完整理解和使用本报告内容,不应视本报告为做出投资决策的唯一因素。对依据或者使用本报告所造成的一切后果,华泰及作者均不承担任何法律责任。任何形式的分享证券投资收益或者分担证券投资损失的书面或口头承诺均为无效。除非另行说明,本报告中所引用的关于业绩的数据代表过往表现,过往的业绩表现不应作为日后回报的预示。华泰不承诺也不保证任何预示的回报会得以实现,分析中所做的预测可能是基于相应的假设,任何假设的变化可能会显著影响所预测的回报。华泰及作者在自身所知情的范围内,与本报告所指的证券或投资标的不存在法律禁止的利害关系。在法律许可的情况下,华泰可能会持有报告中提到的公司所发行的证券头寸并进行交易
140、,为该公司提供投资银行、财务顾问或者金融产品等相关服务或向该公司招揽业务。华泰的销售人员、交易人员或其他专业人士可能会依据不同假设和标准、采用不同的分析方法而口头或书面发表与本报告意见及建议不一致的市场评论和/或交易观点。华泰没有将此意见及建议向报告所有接收者进行更新的义务。华泰的资产管理部门、自营部门以及其他投资业务部门可能独立做出与本报告中的意见或建议不一致的投资决策。投资者应当考虑到华泰及/或其相关人员可能存在影响本报告观点客观性的潜在利益冲突。投资者请勿将本报告视为投资或其他决定的唯一信赖依据。有关该方面的具体披露请参照本报告尾部。本报告并非意图发送、发布给在当地法律或监管规则下不允许
141、向其发送、发布的机构或人员,也并非意图发送、发布给因可得到、使用本报告的行为而使华泰违反或受制于当地法律或监管规则的机构或人员。本报告版权仅为本公司所有。未经本公司书面许可,任何机构或个人不得以翻版、复制、发表、引用或再次分发他人(无论整份或部分)等任何形式侵犯本公司版权。如征得本公司同意进行引用、刊发的,需在允许的范围内使用,并需在使用前获取独立的法律意见,以确定该引用、刊发符合当地适用法规的要求,同时注明出处为“华泰证券研究所”,且不得对本报告进行任何有悖原意的引用、删节和修改。本公司保留追究相关责任的权利。所有本报告中使用的商标、服务标记及标记均为本公司的商标、服务标记及标记。中国香港中
142、国香港 本报告由华泰证券股份有限公司制作,在香港由华泰金融控股(香港)有限公司向符合证券及期货条例及其附属法律规定的机构投资者和专业投资者的客户进行分发。华泰金融控股(香港)有限公司受香港证券及期货事务监察委员会监管,是华泰国际金融控股有限公司的全资子公司,后者为华泰证券股份有限公司的全资子公司。在香港获得本报告的人员若有任何有关本报告的问题,请与华泰金融控股(香港)有限公司联系。免责声明和披露以及分析师声明是报告的一部分,请务必一起阅读。38 计算机计算机 香港香港-重要监管披露重要监管披露 华泰金融控股(香港)有限公司的雇员或其关联人士没有担任本报告中提及的公司或发行人的高级人员。石基信息
143、(002153 CH):华泰金融控股(香港)有限公司、其子公司和/或其关联公司实益持有标的公司的市场资本值的 1%或以上。有关重要的披露信息,请参华泰金融控股(香港)有限公司的网页 https:/.hk/stock_disclosure 其他信息请参见下方“美国“美国-重要监管披露”重要监管披露”。美国美国 在美国本报告由华泰证券(美国)有限公司向符合美国监管规定的机构投资者进行发表与分发。华泰证券(美国)有限公司是美国注册经纪商和美国金融业监管局(FINRA)的注册会员。对于其在美国分发的研究报告,华泰证券(美国)有限公司根据1934 年证券交易法(修订版)第 15a-6 条规定以及美国证券
144、交易委员会人员解释,对本研究报告内容负责。华泰证券(美国)有限公司联营公司的分析师不具有美国金融监管(FINRA)分析师的注册资格,可能不属于华泰证券(美国)有限公司的关联人员,因此可能不受 FINRA 关于分析师与标的公司沟通、公开露面和所持交易证券的限制。华泰证券(美国)有限公司是华泰国际金融控股有限公司的全资子公司,后者为华泰证券股份有限公司的全资子公司。任何直接从华泰证券(美国)有限公司收到此报告并希望就本报告所述任何证券进行交易的人士,应通过华泰证券(美国)有限公司进行交易。美国美国-重要监管披露重要监管披露 分析师谢春生、郭雅丽、范昳蕊本人及相关人士并不担任本报告所提及的标的证券或
145、发行人的高级人员、董事或顾问。分析师及相关人士与本报告所提及的标的证券或发行人并无任何相关财务利益。本披露中所提及的“相关人士”包括 FINRA 定义下分析师的家庭成员。分析师根据华泰证券的整体收入和盈利能力获得薪酬,包括源自公司投资银行业务的收入。科大讯飞(002230 CH):华泰证券股份有限公司、其子公司和/或其联营公司在本报告发布日之前的 12 个月内担任了标的证券公开发行或 144A 条款发行的经办人或联席经办人。石基信息(002153 CH):华泰证券股份有限公司、其子公司和/或其联营公司实益持有标的公司某一类普通股证券的比例达 1%或以上。华泰证券股份有限公司、其子公司和/或其联
146、营公司,及/或不时会以自身或代理形式向客户出售及购买华泰证券研究所覆盖公司的证券/衍生工具,包括股票及债券(包括衍生品)华泰证券研究所覆盖公司的证券/衍生工具,包括股票及债券(包括衍生品)。华泰证券股份有限公司、其子公司和/或其联营公司,及/或其高级管理层、董事和雇员可能会持有本报告中所提到的任何证券(或任何相关投资)头寸,并可能不时进行增持或减持该证券(或投资)。因此,投资者应该意识到可能存在利益冲突。本报告所载的观点、结论和建议仅供参考,不构成购买或出售所述证券的要约或招揽,亦不试图促进购买或销售该等证券。如任何投资者为美国公民、取得美国永久居留权的外国人、根据美国法律所设立的实体(包括外
147、国实体在美国的分支机构)、任何位于美国的个人,该等投资者应当充分考虑自身特定状况,不以任何形式直接或间接地投资本报告涉及的投资者所在国相关适用的法律法规所限制的企业的公开交易的证券、其衍生证券及用于为该等证券提供投资机会的证券的任何交易。该等投资者对依据或者使用本报告内容所造成的一切后果,华泰证券股份有限公司、华泰金融控股(香港)有限公司、华泰证券(美国)有限公司及作者均不承担任何法律责任。评级说明评级说明 投资评级基于分析师对报告发布日后 6 至 12 个月内行业或公司回报潜力(含此期间的股息回报)相对基准表现的预期(A 股市场基准为沪深 300 指数,香港市场基准为恒生指数,美国市场基准为
148、标普 500 指数),具体如下:行业评级行业评级 增持:增持:预计行业股票指数超越基准 中性:中性:预计行业股票指数基本与基准持平 减持:减持:预计行业股票指数明显弱于基准 公司评级公司评级 买入:买入:预计股价超越基准 15%以上 增持:增持:预计股价超越基准 5%15%持有:持有:预计股价相对基准波动在-15%5%之间 卖出:卖出:预计股价弱于基准 15%以上 暂停评级:暂停评级:已暂停评级、目标价及预测,以遵守适用法规及/或公司政策 无评级:无评级:股票不在常规研究覆盖范围内。投资者不应期待华泰提供该等证券及/或公司相关的持续或补充信息 免责声明和披露以及分析师声明是报告的一部分,请务必
149、一起阅读。39 计算机计算机 法律实体法律实体披露披露 中国中国:华泰证券股份有限公司具有中国证监会核准的“证券投资咨询”业务资格,经营许可证编号为:941011J 香港香港:华泰金融控股(香港)有限公司具有香港证监会核准的“就证券提供意见”业务资格,经营许可证编号为:AOK809 美国美国:华泰证券(美国)有限公司为美国金融业监管局(FINRA)成员,具有在美国开展经纪交易商业务的资格,经营业务许可编号为:CRD#:298809/SEC#:8-70231 华泰证券股份有限公司华泰证券股份有限公司 南京南京 北京北京 南京市建邺区江东中路228号华泰证券广场1号楼/邮政编
150、码:210019 北京市西城区太平桥大街丰盛胡同28号太平洋保险大厦A座18层/邮政编码:100032 电话:86 25 83389999/传真:86 25 83387521 电话:86 10 63211166/传真:86 10 63211275 电子邮件:ht- 电子邮件:ht- 深圳深圳 上海上海 深圳市福田区益田路5999号基金大厦10楼/邮政编码:518017 上海市浦东新区东方路18号保利广场E栋23楼/邮政编码:200120 电话:86 755 82493932/传真:86 755 82492062 电话:86 21 28972098/传真:86 21 28972068 电子邮件:ht- 电子邮件:ht- 华泰金融控股(香港)有限公司华泰金融控股(香港)有限公司 香港中环皇后大道中 99 号中环中心 58 楼 5808-12 室 电话:+852-3658-6000/传真:+852-2169-0770 电子邮件: http:/.hk 华泰证券华泰证券(美国美国)有限公司有限公司 美国纽约公园大道 280 号 21 楼东(纽约 10017)电话:+212-763-8160/传真:+917-725-9702 电子邮件:Huataihtsc- http:/www.htsc- 版权所有2023年华泰证券股份有限公司