《计算机行业:GPT产业梳理GPT~1到ChatGPT-230214(17页).pdf》由会员分享,可在线阅读,更多相关《计算机行业:GPT产业梳理GPT~1到ChatGPT-230214(17页).pdf(17页珍藏版)》请在三个皮匠报告上搜索。
1、 免责声明和披露以及分析师声明是报告的一部分,请务必一起阅读。1 证券研究报告 计算机计算机 GPT 产业梳理:产业梳理:GPT-1 到到 ChatGPT 华泰研究华泰研究 计算机计算机 增持增持 (维持维持)研究员 谢春生谢春生 SAC No.S0570519080006 SFC No.BQZ938 +(86)21 2987 2036 联系人 袁泽世,袁泽世,PhD SAC No.S0570122080053 +(86)21 2897 2228 行业行业走势图走势图 资料来源:Wind,华泰研究 2023 年 2 月 14 日中国内地 专题研究专题研究 ChatGPT:三个阶段打造智能对话交
2、互式:三个阶段打造智能对话交互式 AI 模型模型 ChatGPT 从诞生到现在,经历了三个大版本阶段演进。2018 年,生成式预训练模型 GPT-1 诞生,引入有监督的微调训练。2019 年,GPT-2 以增加模型通用性为目标,移除 GPT-1 的微调,以更大的参数量和多任务训练,进行 zero-shot 学习;2020 年,GPT-3 用 few-shot 代替 zero-shot,并将训练参数增加到 1750 亿,再次提高模型表现性能。2022 年,InstructGPT 引入基于人类反馈的强化学习(RLHF),在 GPT-3 基础上进行奖励训练,以 13亿训练参数实现了更好的模型性能。2
3、022 年 11 月,基于 InstructGPT,OpenAI 正式推出对话交互式模型 ChatGPT,5 天时间突破了 100 万用户。GPT-1 阶段:开启生成式预训练模型时代阶段:开启生成式预训练模型时代 GPT-1 基于 Transformer 架构,仅保留了架构中的解码器(Decoder)部分。GPT-1 的训练过程包括预训练和微调两个阶段。1)阶段一:预训练采用内含长段连续文本的 BooksCorpus 数据集,进行高容量无监督学习。2)阶段二:在做下游任务时,首先根据任务类型将其转换为不同的输入形式,再针对不用类型任务用特定训练集进行微调训练。GPT-1 的参数量为 1.17
4、亿。GPT-1 在常识推理、问题回答、文本蕴涵等任务上分别比对比方法进步了8.9%、5.7%和 1.5%。GPT-2 阶段:阶段:无监督无监督训练替代有监督训练训练替代有监督训练 GPT-2 通过海量数据和庞大的模型参数训练出更为通用的模型,无需经过特定的数据集训练也能解决各类问题,即 zero-shot learning(零次学习),从而提高模型的泛化能力。GPT-2 在架构上与 GPT-1 基本保持相同,预训练阶段与 GPT-1 方法一致,采用了更大的数据集 WebText。处理下游任务时,以无监督的训练方式进行 zero-shot 学习,通过增加 prompt 文本提示的方式提示模型具体
5、任务类型。GPT-2 的参数量增加到 15 亿。GPT-2 在命名实体识别、阅读理解等任务上表现优异,在部分任务上不及预期。GPT-3 阶段:性能不断突破,开启商业探索阶段:性能不断突破,开启商业探索 GPT-3 在 GPT-2 架构基础上,舍弃极端的 zero-shot,采用 few-shot 理念,对于特定任务给予少量(10-100 个)样例。GPT-3 最大训练参数量为 1750亿,训练结果准确度随着 few-shot 样例的增加有明显提高。基于 GPT-3,OpenAI 发布了 Codex 和 InstructGPT。Codex 是通用代码生成模型,能够将自然语言转换为代码,支持十几种
6、编程语言。InstructGPT 在 GPT-3 基础上通过 RLHF 训练奖励模型来进一步优化训练结果,仅用 13 亿参数量即可实现更符合人类需求的输出。此外,2020 年 6 月,OpenAI 开始对外提供接入 GPT-3 服务的 API,并按照模型类型进行收费,开启商业探索第一步。ChatGPT 阶段:各大互联网厂商争相推出类似产品阶段:各大互联网厂商争相推出类似产品 2022 年 11 月,基于 InstructGPT,OpenAI 发布了以对话方式交互的ChatGPT。ChatGPT 训练方法与 InstructionGPT 基本相同,区别仅在于在微调时基于 InstructGPT
7、而非 GPT-3。随着 ChatGPT 用户的增多,OpenAI推出了按月订阅的 ChatGPT Plus 服务,开启第二次商业尝试。国内外互联网厂商纷纷跟进,微软发布基于 ChatGPT 的新版 Bing,谷歌发布 Bard 对标 ChatGPT;百度宣布推出类 ChatGPT 应用“文心一言”,京东推出智能人机对话平台 ChatJD,阿里宣布公司正在研发“阿里版”ChatGPT,网易有道和 360 也表示推出类 ChatGPT 应用。风险提示:宏观经济波动,下游需求不及预期。本报告内容均基于客观信息整理,不构成投资建议。(30)(21)(12)(3)6Feb-22Jun-22Oct-22F
8、eb-23(%)计算机沪深300 免责声明和披露以及分析师声明是报告的一部分,请务必一起阅读。2 计算机计算机 正文目录正文目录 ChatGPT:三个阶段打造智能对话交互式:三个阶段打造智能对话交互式 AI 模型模型.3 GPT-1 阶段:开启生成式预训练模型时代阶段:开启生成式预训练模型时代.4 GPT-1:在 Transformer 架构基础上,引入微调训练.4 GPT-2 阶段:阶段:无监督训练替代有监督训练无监督训练替代有监督训练.5 GPT-2:取消微调,用更大参数和数据集进行 zero-shot 学习.5 OpenAI:得到微软注资,关注技术滥用问题.6 GPT-3 阶段:性能不断
9、突破,开启商业探索阶段:性能不断突破,开启商业探索.7 GPT-3:模型参数达 1750 亿,few-shot 进一步提高性能.7 对外提供 GPT-3 API,开启商业模式探索.8 CodeX:基于 GPT-3 的代码生成工具.9 InstructGPT:人类反馈强化学习技术加持下的“最强”GPT-3.10 ChatGPT 阶段:各大互联网厂商争相推出类似产品阶段:各大互联网厂商争相推出类似产品.12 ChatGPT:以对话方式交互的进化版 InstructGPT.12 ChatGPT Plus:商业模式二次探索.13 微软继续加注 OpenAI,推出基于 ChatGPT 的新版 Bing.
10、13 各大互联网厂商均表示将推出类 ChatGPT 产品.14 风险提示.14 hZhUuWpZlV9YbUcZqV8Z7NaObRpNrRsQnOiNpPnPiNrQqNaQoOuNvPqQyQMYnRuN 免责声明和披露以及分析师声明是报告的一部分,请务必一起阅读。3 计算机计算机 ChatGPT:三个阶段打造智能对话交互式:三个阶段打造智能对话交互式 AI 模型模型 ChatGPT 从诞生到现在,经历了三个大版本阶段的演进从诞生到现在,经历了三个大版本阶段的演进。1)GPT-1 阶段:阶段:2018 年 6 月,OpenAI 发表论文Improving Language Understa
11、nding by Generative Pre-Training,标志着 GPT-1 的诞生。论文首次提出生成式预训练概念,基于Transformer 架构的解码器搭建训练模型。训练过程包括预训练和微调两个阶段,模型参数量为 1.17 亿。2)GPT-2阶段阶段:2019 年 2 月,论文 Language Models are Unsupervised Multitask Learners发布,GPT-2 诞生。GPT-2 取消了 GPT-1 中的有监督微调阶段,将其变成了无监督的模型,采用更大的参数和多任务(multitask)学习进行预训练,提高了模型面对未知任务时的推理能力(zero-
12、shot 零次学习)。GPT-2-训练参数量为 15 亿。3)GPT-3阶段阶段:2020年 5月,OpenAI发表论文 Language Models are Few-Shot Learners,提出 GPT-3 模型。GPT-2 模型中的 zero-shot 在某些任务上性能不及预期,因此 OpenAI在 GPT-3 中提出了 few-shot 少量(10-100 个)样本学习,提高了模型的表现性能。在模型参数量上,从 GPT-2 的 15 亿提升到 1750 亿。2021 年 8 月,OpenAI 推出基于 GPT-3的通用编程模型 Codex,可以将自然语言转换翻译、解释和重构为代码。
13、2022 年 3 月,OpenAI 将基于人类反馈的强化学习(RLHF)技术引入 GPT-3,通过奖励(reward)机制进一步训练模型,提高模型性能和准确度,InstructGPT 诞生。InstructGPT 训练参数量仅13 亿,与 GPT-3 的 1750 亿相比大大减少,能给出更符合人类思维的输出结果。4)ChatGPT 阶段:阶段:2022 年 11 月,OpenAI 正式推出了对话交互式的 ChatGPT。本质上,ChatGPT 和 InstructionGPT 为同代产品,只是在 InstructGPT 的基础上增加了聊天功能,同时向公众开放使用,产生更多有效标注数据。Chat
14、GPT 上线 5 天便突破 100 万用户。目前,微软已整合 ChatGPT 推出新版浏览器 EDGE 和搜索引擎 Bing。谷歌也发布了对标产品 Bard。此外,国内厂商如百度、京东、阿里等也宣布进军“ChatGPT 行业”。图表图表1:从从 GPT-1 到到 ChatGPT 演进路线演进路线 资料来源:OpenAI 官网、arxiv 论文、华泰研究 我们将对我们将对 GPT 的每个发展阶段进行详细复盘和模型拆解,对技术和理念进行溯源。的每个发展阶段进行详细复盘和模型拆解,对技术和理念进行溯源。GPT-12018.6GPT-22019.2GPT-32020.51.17亿15亿1750亿Ins
15、tructGPT2022.313亿chatGPT2022.1120亿Codex2021.8120亿 微软投资10亿美元 先后发布参数为124M、355M、774M的小中大模型 对774M参数GPT-2语言模型进行了微调 发布参数大小为1.5B的模型GPT-3GPT-1GPT-2ChatGPT 提供GPT-3 API,第一次商业探索 基于GPT-2架构,证明语言模型在图像补全和采样上同样有不错的效果 向微软提供GPT-3许可,可用于微软产品和服务 超300个应用程序接入GPT-3的API,平均每天生成45亿单词 发布GPT-3和Codex新版本,支持编辑内容或将内容插入现有文本 Codex通过A
16、PI为70个不同应用程序提供各种用例支持 训练“评论写作”模型,探讨AI协助人类监督AI的应用前景 对GPT-3进行微调,以改善模型 开发人员现可以根据自己的数据对GPT-3进行微调 训练GPT-3像人类一样使用基于文本的web浏览器,并通过训练奖励模型提高准确性和有用性 在API中引入文本和代码embedding,将文本等内容转变创数字序列 更新了2021年提出的embedding在文本搜索、代码搜索和句子相似性任务上性能更好 OpenAI和微软扩大合作伙伴关系 ChatGPT Plus服务推出,售价20美元/月,是又一次商业探索 微软整合ChatGPT推出新版Bing主线主线支线支线201
17、8.6-2019.22019.2-2020.72020.7-2022.112022.11-参数量 免责声明和披露以及分析师声明是报告的一部分,请务必一起阅读。4 计算机计算机 GPT-1 阶段:开启生成式预训练模型时代阶段:开启生成式预训练模型时代 GPT-1:在:在 Transformer 架构基础上,引入微调训练架构基础上,引入微调训练 GPT-1 仅保留了仅保留了 Transformer 架构的解码器部分。架构的解码器部分。从架构上看,GPT-1 基于 Transformer架构,但是仅保留了架构中的解码器部分。其中,解码器共有 12 层(layer),整个模型相比 Transforme
18、r 更加简单,训练速度更快,GPT-1 更擅长自然语言处理生成类任务。图表图表2:GPT-1 的架构的架构 资料来源:Improving Language Understanding by Generative Pre-Training、华泰研究 GPT-1 的训练过程包括预训练和微调两个阶段。的训练过程包括预训练和微调两个阶段。1)第一阶段:)第一阶段:采用多层 Transformer 模型的解码器(Decoder)为语言模型,进行基于大文本语料库的高容量无监督学习。2)第二)第二阶段:阶段:在做下游任务时,当输入的问题具有结构化特征,例如有序的句子对或文档、问题和答案的三元组,首先将不同类
19、的问题转换为不同的输入形式,再针对不同任务采用不同数据集进行微调训练。GPT-1 训练的参数量为 1.17 亿,预训练阶段采用 BooksCorpus 数据集,该数据集包括 7000 多本来自风格不同的未出版书籍,内含长段的连续文本,微调阶段则根据不同任务类型选择数据集。训练结果上看,GPT-1 在常识推理、问题回答、文本蕴涵等任务上分别比对比方法进步了 8.9%、5.7%和 1.5%。图表图表3:GPT-1 架构以及用于微调不同任务的输入转换模块架构以及用于微调不同任务的输入转换模块 资料来源:Improving Language Understanding by Generative Pr
20、e-Training、华泰研究 Transformer架构架构GPT-1架构架构12Masked MultiSelf AttentionLayer Norm归一化层Feed Forward前馈神经网络Layer Norm归一化层Text&Position Embed文本&位置 向量矩阵TaskClassifierTextPrediction+带掩模自注意力层文本预测文本分类StartStartStartStartStartStartStartClassificationEntailmentSimilarityMultiple ChoiceTextPremiseText 1Text 2Conte
21、xtContextContextExtractDelimHypothesisExtractDelimExtractDelimExtractDelimAnswer 1ExtractDelimExtractDelimExtractText 1Text 2Answer 2Answer NTransformerTransformerTransformerTransformerTransformerTransformerTransformerLinearLinearLinearLinearLinearLinear分类任务推理任务相似性任务问答任务 免责声明和披露以及分析师声明是报告的一部分,请务必一起阅
22、读。5 计算机计算机 GPT-2 阶段:阶段:无监督训练无监督训练替代有监督训练替代有监督训练 GPT-2:取消微调,用更大参数和数据集进行:取消微调,用更大参数和数据集进行 zero-shot 学习学习 GPT-2 用更大的训练集尝试用更大的训练集尝试 zero-shot 学习。学习。有监督的 NLP 模型(如 GPT-1)能取得不错的效果,原因在于其针对单个特定任务使用大量有标注数据进行训练,当任务目标分布发生变化时则可能会失效,即模型的泛化能力不够强。GPT-2 希望通过海量数据和庞大的模型参数训练出更为通用的模型,无需经过特定的数据集训练也能解决各类问题,即 zero-shot lea
23、rning(零次学习),提高模型的泛化能力。为了达到这一目的,GPT-2 采用了涵盖 800万网页、40GB 大小的数据集 WebText 进行预训练,并将模型参数量最大提升到 15 亿,模型层数从 GPT-1 的 12 提升为 48。图表图表4:zero-shot 学习示意学习示意图图 资料来源:CSDN、华泰研究 GPT-2 在架构上与在架构上与 GPT-1 基本保持相同,在处理下游问题时取消了微调。基本保持相同,在处理下游问题时取消了微调。架构上,GPT-2的结构类似于 GPT-1 模型,仍然使用单向的 Transformer 模型,只做了局部修改:将归一化层移到输入位置,在最后一个自注
24、意力块之后加了一层归一化等。训练步骤上,预训练阶段与 GPT-1 方法基本相同,使用了更大参数的 Transformer,以及覆盖范围广、质量更高的数据集 WebText,采用多任务学习,保证训练出的模型有更好的通用性。在具体处理下游任务时,GPT-2 放弃任何训练和微调,尝试 zero-shot 学习。在这种情况下,为了使模型能识别任务的具体目标,GPT-2 使用一种新的输入形态,增加 prompt 文本提示。例如,翻译训练示例可以写成序列(翻译成法语、英语文本、法语文本),阅读理解训练示例可以写成(回答问题、文档、问题、答案)。在 WebText 数据集下,随着 GPT-2 模型参数规模的
25、扩大,其 zero-shot 学习能力更强,且优于部分已有模型。图表图表5:GPT-2 解决解决 zero-shot 任务能力随着参数规模增加而提高任务能力随着参数规模增加而提高 资料来源:Language Models are Unsupervised Multitask Learners、华泰研究 所所见类别数据见类别数据属性特征属性特征斑马特征描述斑马特征描述斑马预测器斑马预测器这是斑马!这是斑马!阅读理解阅读理解翻译翻译摘要摘要问题回答问题回答 免责声明和披露以及分析师声明是报告的一部分,请务必一起阅读。6 计算机计算机 图表图表6:GPT-2 与与 GPT-1 架构对比架构对比 资料
26、来源:Language Models are Unsupervised Multitask Learners、华泰研究 GPT-2 在多个下游任务中表现出色。在多个下游任务中表现出色。例如,在 8 种语言模型任务中,仅通过 zero-shot 学习,GPT-2 在 7 种任务中超过了最优水平;在儿童图书测试的命名实体识别任务中,超过最优水平 7%;在文本长期依赖性建模能力测试数据集 LAMBADA 上,GPT-2 将困惑度从 99.8降到了 8.6;在阅读理解任务中,GPT-2 超过了 3 个基线模型;在法译英任务中,GPT-2在 zero-shot 学习的基础上,超过了大多数的无监督方法,略
27、逊于有监督的方法;在文本总结任务中的效果接近有监督的模型。OpenAI:得到微软注资,关注技术滥用问题:得到微软注资,关注技术滥用问题 微软向微软向 OpenAI 投资投资 10 亿美元亿美元,并提供独家云支持。,并提供独家云支持。2019 年 7 月,微软向 OpenAI 投资10 亿美元,帮助 OpenAI 构建人工通用智能(AGI)。此外,微软作为 OpenAI 的独家云提供商,与 OpenAI 合作开发 Microsoft Azure 中的软硬件平台并考虑将其扩展到 AGI,以及共同开发新的 Azure AI 超级计算技术。OpenAI 出于对技术滥用问题的考虑,分阶段发布出于对技术滥
28、用问题的考虑,分阶段发布 GPT-2 完整版。完整版。OpenAI 出于对技术滥用问题的考虑,在 GPT-2 诞生后并未发布完整版的训练模型。2019 年 2 月,OpenAI 发布了 124M 参数的小型 GPT-2 模型,5 月发布 355M 参数的中型 GPT-2 模型,8 月发布 7.74亿参数的 GPT-2模型。直到2019年 11月,作为 GPT-2分阶段发布的最终模型版本,OpenAI发布了 15 亿参数 GPT-2,以及代码和模型权重。在此过程中,OpenAI 还使用各种任务的人类反馈对 774M 参数 GPT-2 语言模型进行了微调,提高了模型在部分任务上的表现。12Mask
29、ed MultiSelf AttentionLayer Norm归一化层Feed Forward前馈神经网络Layer Norm归一化层Text&Position Embed文本&位置 向量矩阵TaskClassifierTextPrediction+带掩模自注意力层文本预测文本分类Transformer12Text&Position Embed文本&位置 向量矩阵Layer Norm归一化层Feed Forward前馈神经网络Masked MultiSelf AttentionLayer Norm归一化层TaskClassifierTextPredictionLayer Norm归一化层+带
30、掩模自注意力层文本预测文本分类GPT-1架构架构GPT-2架构架构 免责声明和披露以及分析师声明是报告的一部分,请务必一起阅读。7 计算机计算机 GPT-3 阶段:性能不断突破,开启商业探索阶段:性能不断突破,开启商业探索 GPT-3:模型参数达:模型参数达 1750 亿,亿,few-shot 进一步提高性能进一步提高性能 Few-shot 取代取代 zero-shot,训练效果得到进一步加强。,训练效果得到进一步加强。GPT-2 模型中,在下游训练时采用zero-shot 理念,在执行各类子任务时不给任何样例,属于较为极端的情况。虽然在 GPT-2在某些测试中取得了不错的效果,但在一些任务上
31、结果不达预期。因此,OpenAI 引入了few-shot,即对于特定任务仅给予少量的样例(10-100 个),和 GPT-2 一样不做微调处理,仅通过与模型的文本交互来指定任务和 few-shot。从多种训练基准训练结果看,few-shot能够取得比 zero-shot 更好的准确度结果。图表图表7:Zero-shot、one-shot 和和 few-shot 随着模型参数增加准确度越来越高随着模型参数增加准确度越来越高 注:图中为多种训练基准综合的结果 资料来源:Language Models are Few-Shot Learners、华泰研究 GPT-3 架构基本不变,架构基本不变,最大
32、训练参数达最大训练参数达 1750 亿。亿。GPT-2 模型已经验证,在大参数和大数据集预训练模型后,即使采用 zero-shot 也能取得较好的训练效果。因此,GPT-3 延续这一思想,采用了 8 种不同大小的训练模型,最小参数量为 1.25 亿,最大为 1750 亿。在架构上,GPT-3 与 GPT-2 基本保持一致,将 Transformer 从 48 层提升到 96 层。图表图表8:GPT-3 的的 8 种不同大小模型的参数种不同大小模型的参数 资料来源:Language Models are Few-Shot Learners、华泰研究 GPT-3训练数据集为多种数据集的混合。训练数
33、据集为多种数据集的混合。数据集以Common Crawl为基础,其大小为45TB。但 Common Crawl 数据集的质量低于更精确的数据集,为了保证数据集质量,一方面对Common Crawl 进行过滤,大小压缩到 570GB,另一方面增加了质量更高的数据集,如WebText2、Wikipedia 等。在训练期间,数据集的采样不与其大小成比例,而是质量更高的数据集采样频率更高,因此 CommonCrawl 和 Books2 数据集在训练期间采样次数少于一次,其他更高质量的数据集采样次数为 2-3 次,以换取更高质量的训练数据。模型名称模型名称参数量参数量批量大小批量大小学习率学习率 免责声
34、明和披露以及分析师声明是报告的一部分,请务必一起阅读。8 计算机计算机 图表图表9:GPT-3 训练数据集组合训练数据集组合 资料来源:Language Models are Few-Shot Learners、华泰研究 在大训练参数、在大训练参数、few-shot 的加持下,的加持下,GPT-3 准确性得到极大提高。准确性得到极大提高。从训练结果准确度来看,对于 GPT-3 模型,当模型参数量较低时,如 13 亿,随着 few-shot 样例的增加,准确度提升并不明显。但是当模型参数大小达到 1750 亿时,few-shot 样例的增加会带来准确度较为明显的提升。在大训练参数和 few-sh
35、ot 的加持下,GPT-3 准确性提高明显。图表图表10:大参数、大参数、few-shot 大幅提高大幅提高 GPT-3 准确度准确度 资料来源:Language Models are Few-Shot Learners、华泰研究 对外提供对外提供 GPT-3 API,开启商业模式探索,开启商业模式探索 OpenAI 发布发布 API,开启首次商业尝试,并授权给微软。,开启首次商业尝试,并授权给微软。2020 年 6 月,OpenAI 开始对外提供能够接入 GPT-3 服务的 API,并提供通用的“文本输入,文本输出”界面,支持英语任务。其他厂商可以请求访问,并将 API 集成到产品中,按不同
36、模型类型收费。API 的优势在于:1)GPT-3 模型庞大,需要大量的专业知识来开发和部署,运行成本非常高。API能让小型企业和组织更容易实现访问;2)API 模型便于控制下游应用,防止技术滥用。2020年 9 月,OpenAI 将 GPT-3 授权给微软,微软可以将其用于自己的产品和服务,同时不会影响其他应用通过 API 继续访问 GPT-3 模型。截至 2021 年 5 月,共有超过 300 个应用程序通过 API 提供 GPT-3 支持的搜索、对话、文本完成和其他高级 AI 功能。图表图表11:OpenAI API 价格价格 模型模型类型类型 细分细分 价格(美元)价格(美元)模型类型模
37、型类型 细分细分 训练价格(美元)训练价格(美元)使用价格(美元)使用价格(美元)图像模型 1024x1024 0.02/张 微调模型 Ada 0.0004/千字符 0.0016/千字符 512x512 0.018/张 Babbage 0.0006/千字符 0.0024/千字符 256x256 0.016/张 Curie 0.0030/千字符 0.0120/千字符 语言模型 Ada 0.0004/千字符 Davinci 0.0300/千字符 0.1200/千字符 Babbage 0.0005/千字符 Curie 0.0020/千字符 模型类型 细分 价格(美元)Davinci 0.0200/千
38、字符 嵌入模型 Ada 0.0004/千字符 资料来源:OpenAI 官网、华泰研究 数量数量(tokens)在训练组合在训练组合中的权重中的权重每每3000亿亿tokens经历的经历的epochs数据集数据集 免责声明和披露以及分析师声明是报告的一部分,请务必一起阅读。9 计算机计算机 CodeX:基于:基于 GPT-3 的代码生成工具的代码生成工具 Codex 是基于是基于 GPT-3 在代码生成上的应用。在代码生成上的应用。2021 年 8 月,OpenAI 发布 Codex 通用代码生成模型,能够将自然语言转换为代码。Codex 是 GitHub Copilot 的主要构建块,支持Py
39、thon、JavaScript、Go、Perl、PHP、Ruby、Swift 和 TypeScript 等十几种编程语言。Codex 可以通过 OpenAI API 使用,在初始阶段提供免费服务。图表图表12:Codex 代码生成界面代码生成界面 资料来源:OpenAI 官网、华泰研究 Codex 代码生成能力显著优于代码生成能力显著优于 GPT-3。Codex 的训练数据包含自然语言和来自公共数据源中的数十亿行源代码,其中包括 GitHub 库中的公开代码。Codex 拥有 14KB 的 Python 代码内存,而 GPT-3 只有 4KB,这就使得它在执行任务的过程中可以涵盖三倍于 GPT
40、-3 的上下文信息。Codex 的最大版本拥有 120 亿参数,准确率达到了 72.31%。图表图表13:120 亿参数的亿参数的 Codex 准确率可达准确率可达 72.31%资料来源:Evaluating Large Language Models Trained on Code、华泰研究 免责声明和披露以及分析师声明是报告的一部分,请务必一起阅读。10 计算机计算机 InstructGPT:人类反馈强化学习技术加持下的“最强”:人类反馈强化学习技术加持下的“最强”GPT-3 InstructGPT 在在 GPT-3 的基础上,引入的基础上,引入基于基于人类反馈的强化学习人类反馈的强化学习
41、(RLHF)技术。)技术。强化学习通过奖励(Reward)机制来指导模型训练,奖励机制可以视为传统模训练机制的损失函数。奖励的计算要比损失函数更灵活和多样(例如 AlphaGO 的奖励是对局的胜负),代价是奖励计算不可导,不能直接拿来做反向传播。强化学习的思路是通过对奖励的大量采样来拟合损失函数,从而实现模型的训练。类似的,人类反馈也不可导,也可以作为强化学习的奖励,从而产生基于人工反馈的强化学习。图表图表14:人工反馈的强化学习的基本原理人工反馈的强化学习的基本原理 资料来源:CSDN、华泰研究 InstructGPT 的训练流程包括有监督微调、奖励模型训练和强化学习。的训练流程包括有监督微
42、调、奖励模型训练和强化学习。架构上,InstructGPT与 GPT-3 基本相同。训练过程包括:1)利用人类的标注数据()利用人类的标注数据(demonstration data)对)对 GPT-3 进行有监督训练进行有监督训练 首先,OpenAI 设计了包含大量提示样本的 prompt dataset,给出了不同类的任务描述;其次,委托标注团队对 prompt dataset 进行标注(本质就是人工回答问题);最后,用标注过的数据集微调 GPT-3,得到 SFT 模型(监督微调),该模型具备了最基本的预测能力。2)通过)通过 RLHF 的思路训练奖励模型的思路训练奖励模型 RM 首先用 S
43、FT 模型去回答 prompt dataset 某个问题,通过收集 4 个不同的 SFT 输出获取 4个回答;其次,利用人工对 4 个回答的好坏进行标注和排序,排序的结果用来训练奖励模型 RM,让 RM 模型理解人类偏好。3)通过训练好的通过训练好的 RM 模型模型和和 PPO 算法优化算法优化 SFT 模型策略模型策略 再次让 SFT 模型去回答 prompt dataset 某个问题,通过近端策略优化(Proximal Policy Optimization,PPO)算法产生输出。然后,不再借助人工评估结果好坏,而是利用阶段 2训练的 RM 模型去对 SFT 模型的预测结果进行打分排序,即
44、用“AI 训练 AI”。该阶段可以循环多次。通过以上步骤训练出的结果,一方面能够尽可能地对齐(Alignment)GPT 的输出与对用户友好的语言逻辑,微调出用户友好型 GPT;另一方面,人工反馈的引入,帮助模型更好的理解人类思维和意图,训练结果更符合人类的需求。强化学习算法强化学习算法环境环境奖励预测奖励预测人类人类反馈反馈观察观察行动行动预测的预测的奖励奖励 免责声明和披露以及分析师声明是报告的一部分,请务必一起阅读。11 计算机计算机 图表图表15:InstructGPT 训练步骤训练步骤 资料来源:Training language models to follow instructi
45、ons with human feedback、华泰研究 训练参数与训练参数与 GPT-3 相比降低了超相比降低了超 100 倍。倍。InstructGPT 训练参数最大为 13 亿,与 GPT-3的 1750 亿相比减少了 100 倍之多,且 InstructGPT 输出的训练结果更符合人类的要求。InstructGPT 证明了对人类反馈进行微调是使语言模型与人类意图保持一致的重要发展方向,且基于 RLHF 的训练方法能够大大减少对模型参数量的要求,提高训练速度,降低训练成本。此外,由于 InstructGPT 是在 GPT-3 基础上做的微调,且涉及了人工标注,数据集总量并不大,总计 77
46、K,其中涉及人工的为 46K。图表图表16:InstructGPT 的结果更受用户欢迎的结果更受用户欢迎 资料来源:OpenAI 官网、华泰研究 图表图表17:InstructGPT 训练数据集情况(大小代表训练数据集情况(大小代表 prompt 提示次数)提示次数)资料来源:Training language models to follow instructions with human feedback、华泰研究 第一步:收集描述性数据,并训练一收集描述性数据,并训练一个有监督个有监督的策略的策略从prompt数据库中取样向一个6岁智力的模型解释强化学习由人类训练师撰写期望的输出值对行为
47、给出奖励与惩罚收集的数据用来以监督学习的方式微调GPT-3模型第二步:收集比较性数据,并训练一个奖励收集比较性数据,并训练一个奖励模型模型从prompt数据库中取样,并得到数个模型的回答向一个6岁智力的模型解释强化学习A回答A:“.”B回答B:“.”C回答C:“.”D回答D:“.”由人类训练师对回答进行排序DCAB收集的数据用来训练我们的奖励模型DCAB第三步:用用PPO强化学习算法通过奖励模型优强化学习算法通过奖励模型优化策略化策略从prompt数据库中另外取样示例:“写一段关于.的故事”示例:“很久以前”策略给出回答奖励模型对回答打分用奖励通过PPO算法优化策略PPORMSFT数据数据RM
48、数据数据PPO数据数据分离分离来源来源大小大小分离分离来源来源大小大小分离分离来源来源大小大小 免责声明和披露以及分析师声明是报告的一部分,请务必一起阅读。12 计算机计算机 ChatGPT 阶段:各大互联网厂商争相推出类似产品阶段:各大互联网厂商争相推出类似产品 ChatGPT:以对话方式交互的进化版:以对话方式交互的进化版 InstructGPT ChatGPT 模型模型能够能够以对话方式进行交互以对话方式进行交互。对话方式使 ChatGPT 能够回答后续问题、承认错误、质疑不正确的前提和拒绝不适当的请求。ChatGPT 同样基于 RLHF 理念,从训练步骤上看,ChatGPT 训练方法与
49、 InstructionGPT 基本相同,区别仅在于在第一步利用人类标注数据进行有监督训练时,InstructGPT 基于 GPT-3,而 ChatGPT 基于 InstructGPT。图表图表18:ChatGPT 训练过程训练过程 资料来源:OpenAI 官网、华泰研究 图表图表19:ChatGPT 使用界面使用界面 资料来源:OpenAI 官网、华泰研究 第一步:收集描述性数据,并训练一收集描述性数据,并训练一个有监个有监督的策略督的策略从prompt数据库中取样向一个6岁智力的模型解释强化学习由人类训练师撰写期望的输出值对行为给出奖励与惩罚收集的数据用来以监督学习的方式微调GPT-3.5
50、模型第二步:收集比较性数据,并训练一个奖励收集比较性数据,并训练一个奖励模型模型从prompt数据库中取样,并得到数个模型的回答向一个6岁智力的模型解释强化学习A回答A:“.”B回答B:“.”C回答C:“.”D回答D:“.”由人类训练师对回答进行排序DCAB收集的数据用来训练我们的奖励模型DCAB第三步:用用PPO强化学习强化学习算法算法通过通过奖励模型奖励模型优化策略优化策略从prompt数据库中另外取样示例:“写一段关于.的故事”由有监督的策略初始化PPO模型示例:“很久以前”策略给出回答奖励模型对回答打分用奖励通过PPO算法优化策略PPORM 免责声明和披露以及分析师声明是报告的一部分,
51、请务必一起阅读。13 计算机计算机 ChatGPT Plus:商业模式二次探索:商业模式二次探索 OpenAI 推出推出 ChatGPT Plus 服务,支持按月订阅。服务,支持按月订阅。随着 ChatGPT 用户数激增,当网站负荷过高时,普通用户可能存在无法访问的情况,且 ChatGPT 响应速度会受影响。ChatGPT推出了 Plus 会员服务,收费标准为 20 美元/月。Plus 用户可以享受:1)当网站负荷过高时,有优先访问权;2)ChatGPT 响应速度更快;3)能第一时间体验新版功能。这是 OpenAI继推出 API 后第二次在商业模式上的探索。我们认为,技术变现是推动技术进步的重
52、要方式。随着 OpenAI 推出的模型参数量、复杂度增加,单次训练成本不断提高。OpenAI 通过探索技术的商业变现模式,能够更好的支持其技术发展,未来或将推出更多的付费服务。图表图表20:ChatGPT Plus 服务服务 资料来源:OpenAI 官网、华泰研究 微软继续加注微软继续加注 OpenAI,推出基于,推出基于 ChatGPT 的新版的新版 Bing 微软继续对微软继续对 OpenAI 投资投资 100 亿美元,并扩大技术应用。亿美元,并扩大技术应用。2023 年 1 月 23 日,微软以 290亿美元的估值继续向 OpenAI 投资约 100 亿美元,获得 OpenAI 49%的
53、股权。微软将 OpenAI的技术融入其大部分软件中。例如,微软在其 Azure 云中推出了一套 OpenAI 工具和服务,允许 Azure 客户访问 OpenAI 的 GPT 和 DALL-E 工具;在搜索引擎 Bing 中发布了图像生成器、以及新的 Designer 图形设计工具,由 OpenAI DALL-E 提供支持;Power Apps 软件中支持GPT-3的工具;发布基于OpenAI的Codex模型的代码建议工具GitHub Copilot等。此外,微软正在准备将 OpenAI 的语言 AI 技术引入 Word、PowerPoint 和 Outlook 等应用程序。未来,微软或将增加
54、对专业超级计算系统部署的投资,以加速 OpenAI 研究进度。发布基于发布基于 ChatGPT 的新版的新版 Bing。2023 年 2 月 8 日,微软发布基于 ChatGPT 的新版 EDGEl浏览器和 Bing 搜索引擎,这是是微软与 OpenAI 技术最新结合的产品。在提供传统搜索内容的同时,用户可以与搜索引擎进行对话交流,获得更全面的答案。图表图表21:集成集成 ChatGPT 的的 Bing 资料来源:微软官网、华泰研究 服务负载低时可用服务负载低时可用标准响应速度标准响应速度定期模型更新定期模型更新服务高负载可用服务高负载可用更快的更快的响应速度响应速度优先体验新特性优先体验新特
55、性 免责声明和披露以及分析师声明是报告的一部分,请务必一起阅读。14 计算机计算机 各大互联网厂商均表示将推出类各大互联网厂商均表示将推出类 ChatGPT 产品产品 谷歌发布谷歌发布 ChatGPT 对标竞品对标竞品Bard。Bard 由谷歌的大型语言模型 LaMDA(对话应用语言模型)提供支持。LaMDA(Language Model for Dialogue Applications)是谷歌于 2021年 5 月的 Google I/O 大会上提出的人工智能系统对话应用语言模型,具有 1370 亿参数,略少于 GPT-3,远多于 13 亿参数的 InstructGPT。LaMDA 可以利
56、用外部知识源,专注于生成对话,类似 ChatGPT。其目的不是提供信息搜索,而是通过对自然语言问题的回答来帮助用户解决问题。图表图表22:谷歌谷歌 Bard 回答问题示例回答问题示例 资料来源:谷歌官网、华泰研究 国内互联网厂商纷纷推出类国内互联网厂商纷纷推出类 ChatGPT 产品。产品。2023 年 2 月 7 日,百度宣布推出类 ChatGPT应用、自然语言处理大模型新项目“文心一言”,预计三月份面向公众开放。2 月 10 日,京东云旗下言犀人工智能应用平台宣布将推出“产业版 ChatGPT”智能人机对话平台ChatJD,预计参数量达千亿级,聚焦零售、金融两个垂直行业领域。2 月 8 日
57、,阿里巴巴宣布公司正在研发“阿里版”ChatGPT,目前处于内测阶段。同日,网易有道宣布公司未来或将推出 ChatGPT 同源技术产品,应用场景围绕在线教育。360 也表示,正计划尽快推出类 ChatGPT 技术的试用版本应用。图表图表23:提及公司列表提及公司列表 公司代码公司代码 公司简称公司简称 MSFT US 微软 GOOGL US 谷歌 未上市 OpenAI BIDU US 百度 JD US 京东 BABA US 阿里巴巴 9999 HK 网易 601360 CH 360 资料来源:Bloomberg、华泰研究 风险提示风险提示 宏观经济波动。宏观经济波动。若宏观经济波动,产业变革及
58、新技术的落地节奏或将受到影响,宏观经济波动还可能对 IT 投资产生负面影响,从而导致整体行业增长不及预期。下游需求不及预期。下游需求不及预期。若下游数字化需求不及预期,相关的数字化投入增长或慢于预期,致使行业增长不及预期。本报告内容均基于客观信息整理,不构成投资建议。本报告内容均基于客观信息整理,不构成投资建议。免责声明和披露以及分析师声明是报告的一部分,请务必一起阅读。15 计算机计算机 免责免责声明声明 分析师声明分析师声明 本人,谢春生,兹证明本报告所表达的观点准确地反映了分析师对标的证券或发行人的个人意见;彼以往、现在或未来并无就其研究报告所提供的具体建议或所表迖的意见直接或间接收取任
59、何报酬。一般声明及披露一般声明及披露 本报告由华泰证券股份有限公司(已具备中国证监会批准的证券投资咨询业务资格,以下简称“本公司”)制作。本报告所载资料是仅供接收人的严格保密资料。本报告仅供本公司及其客户和其关联机构使用。本公司不因接收人收到本报告而视其为客户。本报告基于本公司认为可靠的、已公开的信息编制,但本公司及其关联机构(以下统称为“华泰”)对该等信息的准确性及完整性不作任何保证。本报告所载的意见、评估及预测仅反映报告发布当日的观点和判断。在不同时期,华泰可能会发出与本报告所载意见、评估及预测不一致的研究报告。同时,本报告所指的证券或投资标的的价格、价值及投资收入可能会波动。以往表现并不
60、能指引未来,未来回报并不能得到保证,并存在损失本金的可能。华泰不保证本报告所含信息保持在最新状态。华泰对本报告所含信息可在不发出通知的情形下做出修改,投资者应当自行关注相应的更新或修改。本公司不是 FINRA 的注册会员,其研究分析师亦没有注册为 FINRA 的研究分析师/不具有 FINRA 分析师的注册资格。华泰力求报告内容客观、公正,但本报告所载的观点、结论和建议仅供参考,不构成购买或出售所述证券的要约或招揽。该等观点、建议并未考虑到个别投资者的具体投资目的、财务状况以及特定需求,在任何时候均不构成对客户私人投资建议。投资者应当充分考虑自身特定状况,并完整理解和使用本报告内容,不应视本报告
61、为做出投资决策的唯一因素。对依据或者使用本报告所造成的一切后果,华泰及作者均不承担任何法律责任。任何形式的分享证券投资收益或者分担证券投资损失的书面或口头承诺均为无效。除非另行说明,本报告中所引用的关于业绩的数据代表过往表现,过往的业绩表现不应作为日后回报的预示。华泰不承诺也不保证任何预示的回报会得以实现,分析中所做的预测可能是基于相应的假设,任何假设的变化可能会显著影响所预测的回报。华泰及作者在自身所知情的范围内,与本报告所指的证券或投资标的不存在法律禁止的利害关系。在法律许可的情况下,华泰可能会持有报告中提到的公司所发行的证券头寸并进行交易,为该公司提供投资银行、财务顾问或者金融产品等相关
62、服务或向该公司招揽业务。华泰的销售人员、交易人员或其他专业人士可能会依据不同假设和标准、采用不同的分析方法而口头或书面发表与本报告意见及建议不一致的市场评论和/或交易观点。华泰没有将此意见及建议向报告所有接收者进行更新的义务。华泰的资产管理部门、自营部门以及其他投资业务部门可能独立做出与本报告中的意见或建议不一致的投资决策。投资者应当考虑到华泰及/或其相关人员可能存在影响本报告观点客观性的潜在利益冲突。投资者请勿将本报告视为投资或其他决定的唯一信赖依据。有关该方面的具体披露请参照本报告尾部。本报告并非意图发送、发布给在当地法律或监管规则下不允许向其发送、发布的机构或人员,也并非意图发送、发布给
63、因可得到、使用本报告的行为而使华泰违反或受制于当地法律或监管规则的机构或人员。本报告版权仅为本公司所有。未经本公司书面许可,任何机构或个人不得以翻版、复制、发表、引用或再次分发他人(无论整份或部分)等任何形式侵犯本公司版权。如征得本公司同意进行引用、刊发的,需在允许的范围内使用,并需在使用前获取独立的法律意见,以确定该引用、刊发符合当地适用法规的要求,同时注明出处为“华泰证券研究所”,且不得对本报告进行任何有悖原意的引用、删节和修改。本公司保留追究相关责任的权利。所有本报告中使用的商标、服务标记及标记均为本公司的商标、服务标记及标记。中国香港中国香港 本报告由华泰证券股份有限公司制作,在香港由
64、华泰金融控股(香港)有限公司向符合证券及期货条例及其附属法律规定的机构投资者和专业投资者的客户进行分发。华泰金融控股(香港)有限公司受香港证券及期货事务监察委员会监管,是华泰国际金融控股有限公司的全资子公司,后者为华泰证券股份有限公司的全资子公司。在香港获得本报告的人员若有任何有关本报告的问题,请与华泰金融控股(香港)有限公司联系。免责声明和披露以及分析师声明是报告的一部分,请务必一起阅读。16 计算机计算机 香港香港-重重要监管披露要监管披露 华泰金融控股(香港)有限公司的雇员或其关联人士没有担任本报告中提及的公司或发行人的高级人员。有关重要的披露信息,请参华泰金融控股(香港)有限公司的网页
65、 https:/.hk/stock_disclosure 其他信息请参见下方“美国“美国-重要监管披露”重要监管披露”。美国美国 在美国本报告由华泰证券(美国)有限公司向符合美国监管规定的机构投资者进行发表与分发。华泰证券(美国)有限公司是美国注册经纪商和美国金融业监管局(FINRA)的注册会员。对于其在美国分发的研究报告,华泰证券(美国)有限公司根据1934 年证券交易法(修订版)第 15a-6 条规定以及美国证券交易委员会人员解释,对本研究报告内容负责。华泰证券(美国)有限公司联营公司的分析师不具有美国金融监管(FINRA)分析师的注册资格,可能不属于华泰证券(美国)有限公司的关联人员,因
66、此可能不受 FINRA 关于分析师与标的公司沟通、公开露面和所持交易证券的限制。华泰证券(美国)有限公司是华泰国际金融控股有限公司的全资子公司,后者为华泰证券股份有限公司的全资子公司。任何直接从华泰证券(美国)有限公司收到此报告并希望就本报告所述任何证券进行交易的人士,应通过华泰证券(美国)有限公司进行交易。美国美国-重要监管披露重要监管披露 分析师谢春生本人及相关人士并不担任本报告所提及的标的证券或发行人的高级人员、董事或顾问。分析师及相关人士与本报告所提及的标的证券或发行人并无任何相关财务利益。本披露中所提及的“相关人士”包括 FINRA 定义下分析师的家庭成员。分析师根据华泰证券的整体收
67、入和盈利能力获得薪酬,包括源自公司投资银行业务的收入。华泰证券股份有限公司、其子公司和/或其联营公司,及/或不时会以自身或代理形式向客户出售及购买华泰证券研究所覆盖公司的证券/衍生工具,包括股票及债券(包括衍生品)华泰证券研究所覆盖公司的证券/衍生工具,包括股票及债券(包括衍生品)。华泰证券股份有限公司、其子公司和/或其联营公司,及/或其高级管理层、董事和雇员可能会持有本报告中所提到的任何证券(或任何相关投资)头寸,并可能不时进行增持或减持该证券(或投资)。因此,投资者应该意识到可能存在利益冲突。评级说明评级说明 投资评级基于分析师对报告发布日后 6 至 12 个月内行业或公司回报潜力(含此期
68、间的股息回报)相对基准表现的预期(A 股市场基准为沪深 300 指数,香港市场基准为恒生指数,美国市场基准为标普 500 指数),具体如下:行业评级行业评级 增持:增持:预计行业股票指数超越基准 中性:中性:预计行业股票指数基本与基准持平 减持:减持:预计行业股票指数明显弱于基准 公司评级公司评级 买入:买入:预计股价超越基准 15%以上 增持:增持:预计股价超越基准 5%15%持有:持有:预计股价相对基准波动在-15%5%之间 卖出:卖出:预计股价弱于基准 15%以上 暂停评级:暂停评级:已暂停评级、目标价及预测,以遵守适用法规及/或公司政策 无评级:无评级:股票不在常规研究覆盖范围内。投资
69、者不应期待华泰提供该等证券及/或公司相关的持续或补充信息 免责声明和披露以及分析师声明是报告的一部分,请务必一起阅读。17 计算机计算机 法律实体法律实体披露披露 中国中国:华泰证券股份有限公司具有中国证监会核准的“证券投资咨询”业务资格,经营许可证编号为:941011J 香港香港:华泰金融控股(香港)有限公司具有香港证监会核准的“就证券提供意见”业务资格,经营许可证编号为:AOK809 美国美国:华泰证券(美国)有限公司为美国金融业监管局(FINRA)成员,具有在美国开展经纪交易商业务的资格,经营业务许可编号为:CRD#:298809/SEC#:8-70231 华泰证券
70、股份有限公司华泰证券股份有限公司 南京南京 北京北京 南京市建邺区江东中路228号华泰证券广场1号楼/邮政编码:210019 北京市西城区太平桥大街丰盛胡同28号太平洋保险大厦A座18层/邮政编码:100032 电话:86 25 83389999/传真:86 25 83387521 电话:86 10 63211166/传真:86 10 63211275 电子邮件:ht- 电子邮件:ht- 深圳深圳 上海上海 深圳市福田区益田路5999号基金大厦10楼/邮政编码:518017 上海市浦东新区东方路18号保利广场E栋23楼/邮政编码:200120 电话:86 755 82493932/传真:86
71、755 82492062 电话:86 21 28972098/传真:86 21 28972068 电子邮件:ht- 电子邮件:ht- 华泰金融控股(香港)有限公司华泰金融控股(香港)有限公司 香港中环皇后大道中 99 号中环中心 58 楼 5808-12 室 电话:+852-3658-6000/传真:+852-2169-0770 电子邮件: http:/.hk 华泰证券华泰证券(美国美国)有限公司有限公司 美国纽约公园大道 280 号 21 楼东(纽约 10017)电话:+212-763-8160/传真:+917-725-9702 电子邮件:Huataihtsc- http:/www.htsc- 版权所有2023年华泰证券股份有限公司