《传媒行业GPT系列专题之二:GPT~4引领认知革命Deep Speed加速行业发展-230427(28页).pdf》由会员分享,可在线阅读,更多相关《传媒行业GPT系列专题之二:GPT~4引领认知革命Deep Speed加速行业发展-230427(28页).pdf(28页珍藏版)》请在三个皮匠报告上搜索。
1、证券研究报告2023年4月27日行业:传媒增持 (维持)GPT-4引领认知革命 Deep Speed加速行业发展GPT系列专题之二 分析师:陈旻 SAC编号:S08705220200012主要观点我们将“AI+传媒”的研究框架体系定义为“通用大模型”+“行业小样本”的技术架构,“AI+传媒”在应用层表现效力优劣的关键取决于通用大模型对垂直应用的适配程度及迭代速度,1、适配程度是指:多模态的输入及输出是否匹配应用层的输入及输出。比如GPT-4属于“图+文”多模态输入+“文”单模态输出,因此输入模态为“图或文”且输出模态为“文”的垂直应用更适配GPT-4。2、迭代速度是指:应用层产生的“行业小样本
2、”的数据量是否匹配大模型的迭代要求。根据我们对GPT模型的理解,比如Bing AI产生的“行业小样本”源自Bing的搜索结果,ChatGPT产生的“行业小样本”源自用户的反馈和互动。因此我们认为,对于超出GPT所使用的预训练数据库范围(2021年9月前)的事实性表述,Bing AI反馈的是搜索的结果,ChatGPT反馈的是用户主动的观点,Bing AI反馈的效果比ChatGPT更好。我们认为“行业小样本”的价值取决于数据数量及数据质量,数量大且质量高(多模态)的应用场景复用及迭代AI能力的效力更强,因此更进一步理解我们的研究框架,我们将“行业小样本”的结构分层(中层小模型+下层应用及内容),并
3、将“行业小样本”的结合方式分类(调用+训练):1、“行业小样本”的数据集来自小模型或应用及内容:AI产业链包括上层大模型、中层小模型、下层应用及内容,包括应用及内容直接接入大模型或通过小模型接入大模型两种方式,即“大模型+应用及内容”或“大模型+小模型+应用或内容”,其中具备特定功能的AIGC软件产品及MaaS我们理解为“小模型”+“应用”的技术范式,本身具备较高质量的AI能力,若接入匹配的多模态大模型,有望实现能力上的质变突破。4WcZhUlX9XmVtWuVsX7NbPaQmOoOsQtQkPnNmQiNpNvN8OrQoOxNmNnRxNnRrO3主要观点2、“行业小样本”的结合方式包括
4、“能力调用”及“能力训练”两类:(1)“能力调用”是指下游垂类场景直接调用通用大模型的通用能力,并基于垂类场景内产生的特性化数据不断提升调用能力在垂类场景内的适配程度。我们认为现阶段下游应用及内容主要采取此类方式接入大模型能力,此类方式可高效快速调用大模型先进能力,在时间上及成本上具备优势。我们认为“能力调用”匹配“AI+传媒”的第一层利好,即通过AI降本增效,大幅提高数据及内容的供给量。内容产业本质由供给决定需求,因此内容供给量的明显提升将有效带动传媒基本面拐点及增量空间出现。(2)“能力训练”是指下游垂类场景将通用大模型针对特性化数据集进行再训练,从而形成垂类场景专属大模型。例如彭博社利用
5、自身丰富的金融数据源,基于开源的GPT-3框架再训练,开发出了金融专属大模型BloombergGPT。我们认为“能力训练”匹配“AI+传媒”的第二层利好,即下游垂类场景本身的数据或内容反过来“再训练”通用大模型(或开源大模型),形成传媒内容场景专属大模型,形成更稳定且高质的内容输出。我们认为训练难度文本图片视频影视游戏,且内容数量逐步递减但内容质量逐步递增,即偏后端的影视、游戏在内容数量上训练量级不足,因此高质量的内容形态首先通过“能力调用”输出AIGC内容,再将AIGC内容“再训练”大模型以解决高质量内容数量不足的问题(合成数据“再训练”范畴)。4主要观点从投资的角度,按照我们的研究框架,传
6、媒对应垂类场景的“行业小样本”,其核心价值取决于数据与内容,第一层对应数据与内容的输入模态是否匹配大模型的输出模态;第二层对应数据与内容的数量及质量是否匹配大模型的能力再训练:1、按照“模态匹配”的逻辑,AI+文本/虚拟人预计率先兑现案例及业绩,其次AI+图片可通过“大模型”+“小模型”组合方式实现(如GPT+Stable Diffusion、GPT+Midjourney)。随着未来GPT-5提供更多模态的输入及输出,下游垂类场景的适配范围有望扩大,通过“能力调用”适配的应用及内容场景更为丰富,因此后续“AI+视频/影视/游戏”的案例兑现度存在新的催化空间。OpenAI最新发布的GPT-4核心
7、特征包括:(1)多模态输入(图+文),单模态输出(文),可以阅读并总结论文内容、解答较高难度的物理题目、具备较强的OCR能力(如识别网页草稿并按要求反馈网页代码)、理解人类社会常识;(2)具备长文字处理及推理判断能力,GPT-4上下文上限约2.5万字,允许使用长格式内容创建、扩展对话以及文档搜索和分析等,能够阅读并记忆更多信息,且具备更高的推理判断能力;(3)可靠性大幅提升,分辨能力提高,有效减少“虚构”或“有害”信息输出。2、按照“能力再训练”的逻辑,AI+内容/IP预计空间及价值更大,其价值核心取决于数据与内容/IP的数量及质量的高低。微软本周发布的DeepSpeed-Chat大幅提升大模
8、型预训练速度并大幅降低训练成本,我们认为最核心意义为大幅降低垂类场景专属大模型的训练门槛,小模型层及应用层有望明显受益。掌握数据及优质内容(多模态数据)的下游场景具备核心竞争力,因此内容及IP(版权)的价值有望重估。DeepSpeed-Chat集成预训练语言大模型完整三个步骤,其中针对第三步RLHF训练集成了高效且经济的DeepSpeed-RLHF系统,使复杂的RLHF训练变得快速、经济并且易于大规模推广(相比现有系统提速15倍以上,且大幅降低算力要求及成本)。风险提示:风险提示:宏观经济风险,地缘政治风险;技术发展不及预期;AIGC行业发展不及预期。SECTION一、GPT-4:多模态、高认
9、知、更安全二、Deep Speed:更快速、更经济、更普及三、投资建议四、风险提示目录Content61.1 GPT-4:多模态、高认知、更安全u 深耕深耕AIGC领域,领域,AI渗透全方面、渗透全方面、各领域。各领域。OPENAI致力于用AI改变工作和创意,除ChatGPT的语言模型外,还通过API平台向开发者提供最新模型和指南,不断提高应用性能和用户活跃度。u GPT-4是大型多模态模型。相较于只能接受文字是大型多模态模型。相较于只能接受文字/代码输入的代码输入的GPT-3.5,GPT-4接受图片接受图片+文字的多模态输入文字的多模态输入+高认知的结高认知的结合,并反馈文字输出。合,并反馈
10、文字输出。GPT-4是OpenAI新一代自然语言处理模型,继承了GPT-3.5的优点的同时改进了模型结构、训练数据量和算法优化,应用范围跨越数学、编码、视觉、医学、法律、心理学等领域,GPT-4模型多领域的广泛运用和超高任务表现力接近甚至超越人类水平,因此GPT-4是AGI的开创性研究,也是迈向AGI的重要一步。图图1 ChatGPT3.5与与4的的主要区别主要区别资料来源:资料来源:信息元公众号信息元公众号,上海证券研究所上海证券研究所ChatGPT4和3.5的主要区别ChatGPT-3.5ChatGPT-4.01打字速度慢、高峰期更慢普遍说4.0更慢,但实际用起来差别不大2掉线频率基本上每
11、隔几分钟不用就会出现红框、掉线。掉线后需要刷新网页基本不掉线3分段生成能力文本过长的时候,生成几百字就自动停止了,这时候回复:“继续”,3.5就可以继续生成,但3.5的生成往往不够连贯4.0基本是完美的连贯生成4使用频率限制1小时100次提问,基本够用,但是人多的时候,你即使用不到100次也会提示“当前提问人数太多,请一小时后再试”每3小时25次提问,不会受当前使用人数影响5回答质量和其他AI相比,chatgpt是公认的最强AI,基本能满足我们的日常工作需要。但是和4.0相比,差距还是有的,目测能力值相当于4.0的70%吧全球最顶尖的AI,没有之一。能解决的问题种类比3.5多一些,同一个问题,
12、4.0的回复会更好一些。尤其是考试做题能力、逻辑推理能力、角色扮演能力更强6文字限制最多回复3000字,如果你要求回复4000字,它会说“超过限制”,这时候就得分段提问最多回复25000字7有害信息如果提问医疗建议、自我伤害、违反道德的问题,3.5有时会如实作答4.0拒绝回答有害信息的概率更高,不被允许的回答4.0则会直接拒绝8二次开发能力对于想利用ChatGPT来进行二次开发的程序员、运营者来说,3.5有很多不支持,以及调用接口次数限制支持更多次数的api调用,支持更多的调用场景9图片能力无支持图像输入、分析图像(例如拍照帮你做题)。支持图片输出,但是不是自己生成的,是网络上有的图10 联网
13、能力无,训练数据库到2021年无,训练数据库到2021年9月11 防止被诱导一般更难被诱导,拒绝被训练成为坏坏的AI12 连续对话能力能记住大约相当于8000个词之前的指令,但是再多,它就会忘记之前的话了能记住相当于大约64000个单词13理解不同语言水平支持24种语言26种语言,且语言水平普遍比3.5的更高,对中文的理解更是达到了和3.5对英语的理解一样的水平7u 根据根据OpenAI技术文档给出的案例,技术文档给出的案例,GPT-4,对于图片的理解能力极强,对于图片的理解能力极强。1)同时识别多张图片内容。如图2,将3张图片拼凑成1张,GPT-4能够同时识别多张图片的内容。2)根据图片进行
14、算数运算。如图3,将题目发给GPT-4,它能根据图片信息进行算数运算。1.2 多模态:接受图片+文字形式输入图图2 2 GPT-4GPT-4可以同时识别多张图片内容可以同时识别多张图片内容资料来源:资料来源:GPT-4 Technical ReportGPT-4 Technical Report,上海证券研究所,上海证券研究所图图3 3 GPT-4GPT-4可以根据图片信息进行推理运算可以根据图片信息进行推理运算资料来源:资料来源:GPT-4 Technical ReportGPT-4 Technical Report ,上海证券研究所,上海证券研究所用户提问:这张图片有什么有趣的地方?分图片
15、描述。成功识别出上图包含3张图片,并分别描述了图片内容。用户提问:格鲁吉亚和西亚平均每日肉类消费量的总和是多少?在回答之前,请提供逐步推理。GPT-4从图示3处地名识别出用户要求的2处,然后进行算数推演,并得到正确答案。8u 3)阅读并总结论文。阅读并总结论文。如图4、图5,将论文中部分页面截图给GPT-4,即可阅读并总结主要内容并回答用户追加的相关问题。u 4)解答高难度物理题目。解答高难度物理题目。如图6,将cole Polytechnique(巴黎综合理工大学)物理考试题目传给GPT-4,并指定其解答某一问题,即可顺利识别任务并正确解答。1.2 多模态:接受图片+文字形式输入图图4 GP
16、T-4可以阅读和总结论文可以阅读和总结论文资料来源:资料来源:GPT-4 Technical ReportGPT-4 Technical Report ,上海证券研究所,上海证券研究所资料来源:资料来源:GPT-4 Technical ReportGPT-4 Technical Report ,上海证券研究所,上海证券研究所图图5 GPT-4可以根据论文内容回答相关问题可以根据论文内容回答相关问题图图6 GPT-4GPT-4可以根据图片信息进行推理运算可以根据图片信息进行推理运算资料来源:资料来源:GPT-4 Technical ReportGPT-4 Technical Report ,上海
17、证券研究所,上海证券研究所用户提问:请按步骤解答第1小问正确回答了cole Polytechnique(巴黎综合理工大学)物理考试中的题目,该考试主要面向数学和物理学科的顶尖本科和研究生。用户提问:请总结以下InstructGPT论文部分的内容GPT-4解释了论文中某一图表的推导步骤9u 5)识别手写网页识别手写网页草图,草图,并并根据草图写出根据草图写出网页网页前端前端代码代码。如图7,将手写“My Joke Website”网页样式传给GPT-4,GPT-4将反馈相应的前端代码,该代码不但可以顺利运行,也完全符合手绘草稿要求的内容和样式,具有极强的OCR(文字识别)能力。u 6)理解人类社
18、会常识,可读懂理解人类社会常识,可读懂“网络梗图网络梗图”,具有更明显的,具有更明显的“人性化人性化”特征。特征。如图8,用户提问“该图片中有什么特别之处?”GPT-4回答“男人在移动的出租车车顶烫衣服”是不符合人类社会常识之处,展示出惊人的理解力。如图9,用户请GPT-4回答图中的“梗”,GPT-4能够将“鸡块”和“世界地图”相联系,展示出强大的联想能力。1.2 多模态:接受图片+文字形式输入图图7 7 GPT-4GPT-4可以根据手绘图片返回网站代码可以根据手绘图片返回网站代码资料来源:差评公众号,上海证券研究所资料来源:差评公众号,上海证券研究所资料来源:资料来源:GPT-4 Techn
19、ical ReportGPT-4 Technical Report ,上海证券研究所,上海证券研究所图图8 8 GPT-4GPT-4可以识别图片中不符合常理之处可以识别图片中不符合常理之处图图9 GPT-4GPT-4具有强联想能力具有强联想能力资料来源:资料来源:GPT-4 Technical ReportGPT-4 Technical Report ,上海证券研究所,上海证券研究所代码成功运行后的网页截图手写网页草稿GPT-4反馈相关代码用户:图片中有什么特别之处?这张图片的不寻常之处在于,男人在移动的出租车的车顶上烫衣服,烫衣板也固定在车顶上。用户提问:请解释下图中的“梗”GPT-4解释了
20、图中的“梗”在于把鸡块摆放成世界地图的样子10u GPT-4GPT-4具有更强的长文字处理能力。具有更强的长文字处理能力。GPT-4的上下文上限约为2.5万字,是Chat GPT的近8倍,允许使用长格式内容创建、扩展对话及文档搜索和分析等,能够阅读并记忆更多信息。u GPT-4GPT-4有更高的推理判断能力。有更高的推理判断能力。如图11、图12,向Chat GPT和GPT-4提出相同问题“给定3个人物各自的空闲时间,求3人的共同空闲时段以安排会议。”Chat GPT给出了错误答案,而GPT-4成功完成这一要求。1.3 高认知:长文字处理+推理判断能力图图1010 GPT-4GPT-4可处理的
21、上下文上限为可处理的上下文上限为2.52.5万字万字资料来源:资料来源:OpenAIOpenAI官网,上海证券研究所官网,上海证券研究所资料来源:资料来源:OpenAIOpenAI官网,上海证券研究所官网,上海证券研究所图图1111 Chat GPTChat GPT回答错误回答错误图图12 GPT-4GPT-4给出了正确答案给出了正确答案资料来源:资料来源:OpenAIOpenAI官网,上海证券研究所官网,上海证券研究所Chat GPT回答错误,Andrew下午四点没有空闲时间。GPT-4给出了合理解答。11u GPT-4GPT-4具有更高的认知水平。具有更高的认知水平。根据OpenAI给出的
22、专业测试结果,GPT-4在高等数学、法律、生物、化学、英语、高级微观经济等学科的考试成绩远超GPT-3.5。u GPT-4GPT-4在多领域的专业认知超过平均水准。在多领域的专业认知超过平均水准。在律师资格考试中,GPT-4的分数排名可以达到所有考生的前10%,而GPT-3.5只能排倒数10%,是GPT-4优化幅度最大的科目。此外,在GRE、SAT、历史、化学、生物、微观经济、宏观经济等科目中均超过至少80%以上的考生。编程能力(Codeforces Rating)反而是GPT-4最弱的科目,排名在倒数5%。1.3 高认知:长文字处理+推理判断能力图图1313 GPT-4GPT-4在专业测试中
23、的表现在专业测试中的表现资料来源:资料来源:GPT-4 Technical ReportGPT-4 Technical Report ,上海证券研究所,上海证券研究所图图1414 GPT-4GPT-4在专业测试中的排名在专业测试中的排名资料来源:资料来源:GPT-4 Technical ReportGPT-4 Technical Report ,上海证券研究所,上海证券研究所50%80%12u GPT-4GPT-4在评估语言模型的传统基准上优于其他模型。在评估语言模型的传统基准上优于其他模型。在语言模型基准测试中,分别将GPT-4、GPT-3.5与现有最佳性能语言模型(LM SOTA)和现有最
24、佳模型(SOTA)的性能通过小样本(few-shot)测试进行比对,除DROP(阅读理解基准测试)外,GPT-4在多语言学习、常识推理、语音识别、人类评估测试均超越现有最佳模型。u GPT-4GPT-4拥有卓越的外语能力,包括英语和其他小语种。拥有卓越的外语能力,包括英语和其他小语种。如图16,GPT-4在包括英语在内的27种语言测试中准确率均达到62%以上。通过与GPT-3.5、PaLM、Chinchilla模型英语水平进行对比,GPT-4以85.5%的准确性远超其他模型。1.3 高认知:长文字处理+推理判断能力图图1515 GPT-4GPT-4显著优于现有模型显著优于现有模型资料来源:资料
25、来源:GPT-4 Technical ReportGPT-4 Technical Report ,上海证券研究所,上海证券研究所图图1616 GPT-4GPT-4多语言能力更强多语言能力更强资料来源:资料来源:GPT-4 Technical ReportGPT-4 Technical Report ,上海证券研究所,上海证券研究所除DROP(阅读理解基准测试)外,GPT-4全方位超越现有最佳模型。基于自然语言的常识推理测试多语言学习语音识别人类评估13u GPT-4的高认知特征具体体现在以下方面:1)高常识推理能力。高常识推理能力。分别问Chat GPT和GPT-4“1+1什么情况等于3”时,
26、Chat GPT只会从数学计算的角度思考,但GPT-4可以从常识推理的角度思考。2)高可塑性。高可塑性。与Chat GPT不同,GPT-4能够以不同的语言风格与用户交流。当被设定为某个角色时,GPT-4将不会听从违背角色特征的指令。3)高解决问题能力。高解决问题能力。GPT-4能够处理复杂问题,比如运用学习到的税务知识帮助用户解决税务问题。结合税法的高时效性与GPT-4的长文字处理能力,用户可以将最新的税法传给GPT-4后要求其为自己解决税务筹划问题。1.3 高认知:长文字处理+推理判断能力图图17 分别分别问问Chat GPT和和GPT-4“1+1什么情况等于什么情况等于3”资料来源:资料来
27、源:APPSOAPPSO公众号,上海证券研究所公众号,上海证券研究所资料来源:差评公众号,上海证券研究所资料来源:差评公众号,上海证券研究所图图18 GPT-4具有较强的可塑性具有较强的可塑性图图19 GPT-4能够处理复杂问题能够处理复杂问题资料来源:知识分子公众号,上海证券研究所资料来源:知识分子公众号,上海证券研究所设置角色:假设GPT-4是苏格拉底风格的导师设置角色:假设GPT-4是TaxGPT,运用内置的Tax知识帮助客户解决税务规划问题14u GPT-4的可靠性大幅提升的可靠性大幅提升。相较于GPT-3.5(会随着持续迭代而改善),GPT-4显著减少了“虚构”现象。在内部设计的对抗
28、性准确度评估中,GPT-4各科目平均得分比GPT-3.5高出19%。其中,提升幅度在历史和数学科目上的表现尤为突出。u GPT-4的分辨能力有显著提升,但仍存在改进空间。的分辨能力有显著提升,但仍存在改进空间。相较于GPT-3.5,GPT-4在公开基准测试TruthfulQA(测试模型真实性性能好坏的一个测试集)中取得了进步,体现为较高的分辨事实能力。如图21,在零样本(0-shot)提示、小样本(few-shot)提示和人类反馈强化学习(RLHF)微调后的表现中,GPT-4均明显优于GPT-3.5和Anthropic-LM,但GPT-4对TruthfulQA中的某些问题依然给出了错误的回答。
29、1.4 更安全:分辨能力提高图图2020 GPT-4 GPT-4在在9 9个内部设计的对抗性准确度评估中的表现个内部设计的对抗性准确度评估中的表现资料来源:资料来源:GPT-4 Technical ReportGPT-4 Technical Report ,上海证券研究所,上海证券研究所图图21 GPT-421 GPT-4在在TruthfulQATruthfulQA中的表现中的表现资料来源:资料来源:GPT-4 Technical ReportGPT-4 Technical Report ,上海证券研究所,上海证券研究所15u GPT-4优化了安全性指标,能够有效减少有害风险信息的提供。优化了
30、安全性指标,能够有效减少有害风险信息的提供。从响应率来看,GPT-4对违规内容(如制作炸弹的方法)请求的响应率相较于GPT-3.5降低了82%,对敏感内容请求(如医疗建议和自我伤害建议等)的响应率降低了29%,RLHF后的GPT-4的响应率则更低。从反馈“有害信息”的可能性来看,GPT-4在Real Toxicity Prompts 数据集的测试中仅有0.73%的概率生成“有害信息”,而GPT-3.5的概率为6.48%。1.4 更安全:分辨能力提高图图22 22 敏感提示和禁用提示的错误行为比率敏感提示和禁用提示的错误行为比率资料来源:资料来源:GPT-4 Technical ReportGP
31、T-4 Technical Report ,上海证券研究所,上海证券研究所16结合对现有其他语言模型的研究,结合对现有其他语言模型的研究,GPT-4GPT-4仍存在信息迭代受限、准确性不足、反馈违规内容等不足仍存在信息迭代受限、准确性不足、反馈违规内容等不足之处。之处。u 信息迭代受限。信息迭代受限。GPT-4GPT-4信息更迭能力受限,且模型本身不具主动学习能力。信息更迭能力受限,且模型本身不具主动学习能力。根据GPT-4技术报告,由于模型于2021年9月预训练完毕,GPT-4缺乏对此后事件的了解,且无法从经验中学习新内容。ChatGPTChatGPT通过植入插件系统形成了对世界新事物的通过
32、植入插件系统形成了对世界新事物的“触触觉觉”。根据OpenAI官网介绍,Web浏览器插件将利用New Bing的API,通过在互联网上搜索相关信息,给出用户具体答案。u 准确性不足。准确性不足。GPT-4GPT-4的回答准确性相较于的回答准确性相较于GPT-3.5GPT-3.5有较大提升,但仍存在虚构倾向。有较大提升,但仍存在虚构倾向。在TruthfulQA测试中,GPT-4在某些问题上依然给出了错误的回答。随着GPT-4使用范围的扩大,虚构倾向不仅会误导用户,更会降低模型本身的整体可信度。u 存在道德风险。存在道德风险。GPT-4可能根据用户发出的指令产生各种有害内容,包括违反OpenAI政
33、策以及对不利于社会发展的内容。如歧视性内容、误导性内容、策划袭击或暴力活动内容等。u 其他风险。其他风险。结合对现有其他语言模型的研究,GPT-4还可能存在如侵犯隐私权、危害网络安全、出现不受控的新能力、系统交互等潜在风险。1.5 GPT-4仍存在不足之处17u DeepSpeed是是PyTorch的开源的兼容库,在深度学习训练和推理方面具有极高的速度和规模。的开源的兼容库,在深度学习训练和推理方面具有极高的速度和规模。DeepSpeed通过提高规模、速度、成本和可用性来改进大型模型训练,可训练超100亿个参数的模型,实现了自然语言处理(NLP)和多模态(结合语言图像、视频和语音)等领域的突破
34、。u Deep Speed Chat基于微软基于微软Deep Speed深度学习优化库开发而成。深度学习优化库开发而成。Deep Speed Chat可在模型训练中加入完整RLHF流程,用于RLHF训练的低成本开源解决方案,使得复杂的RLHF训练变得快速、经济、轻松访问,实现类似ChatGPT模型的端到端RLHF训练,从而帮助我们生成自己的高质量ChatGPT模型。相较于ChatGPT,Deep Speed Chat普及RLHF(基于人工反馈机制的强化学习)训练到AI社区,削弱了ChatGPT的局限性。2.1 DeepSpeed 更高速度 更大规模图图23 DeepSpeed三大创新支柱三大创
35、新支柱训练、推理训练、推理、压缩压缩资料来源:资料来源:Deep SpeedDeep Speed,上海证券研究所上海证券研究所图图24 DeepSpeed Chat便捷快速的类便捷快速的类chatgpt模型模型资料来源:资料来源:GithubGithub,上海证券研究所上海证券研究所182021.102021.102022.52022.52022.72022.72022.92022.92022.102022.102022.112022.112022.122022.12DeepSpeedDeepSpeed训练了训练了世界上最强大的世界上最强大的语言模型:威震语言模型:威震天天-图灵图灵NLG 5
36、30BNLG 530BDeepSpeedDeepSpeed支持在支持在AMD AMD GPUGPU上进行高效的大型上进行高效的大型模型训练模型训练DeepSpeedDeepSpeed帮助训练了帮助训练了176176亿个参亿个参数的数的BLOOMBLOOM模型模型DeepSpeed CompressionDeepSpeed Compression用于极用于极端压缩的可组合库端压缩的可组合库AzureAzureDeepSpeedDeepSpeed支持易于使用的高性能支持易于使用的高性能模型训练模型训练ZeROZeRO推理:大众化推理:大众化大规模模型推理大规模模型推理实现实现推理(推理(MIIMI
37、I)深速模型深速模型DeepSpeedDeepSpeed数据效数据效率库:实现更少的率库:实现更少的数据、更快的训练数据、更快的训练和更高的模型质量和更高的模型质量通过通过DeepSpeed-MIIDeepSpeed-MII实实现亚秒级稳定的扩散现亚秒级稳定的扩散图像生成图像生成2.2 不断强化模型质量192.3 Deep Speed 三大核心功能在微软开源在微软开源DeepSpeed Chat之后,普通用户可通过简单的操作,即可训练类之后,普通用户可通过简单的操作,即可训练类ChatGPT等大语言模型,降低了等大语言模型,降低了ChatGPT类模型使类模型使用的门槛和成本,主要通过以下三个核
38、心功能来达到:用的门槛和成本,主要通过以下三个核心功能来达到:u 简化简化ChatGPT类型模型的训练并强化推理体验:类型模型的训练并强化推理体验:DeepSpeed-Chat仅需一个脚本即可实现多个训练步骤,如使用Huggingface预训练模型、使用DeepSpeed-RLHF系统运行InstructGPT训练的所有三个步骤、生成自己的ChatGPT模型。此外,在模型训练后可以利用推理API进行对话交互测试。u DeepSpeed-RLHF模块:模块:DeepSpeed-RLHF模块复刻InstructGPT论文中的训练模式,并确保监督微调(SFT)、奖励模型微调和人类反馈强化学习(RLH
39、F)的三个步骤与其一一对应,提供数据抽象和混合功能来支持开发者使用多个不同数据源进行训练。u DeepSpeed-RLHF系统:系统:DeepSpeed-RLHF系统将DeepSpeed的训练和推理能力整合成统一混合引擎(DeepSpeed-HE)中,用于RLHF训练。DeepSpeed Hybrid Engine是为RLHF训练提供更高性能和效率的混合引擎,它结合了DeepSpeed的训练引擎和推理引擎,在训练和推理模式之间自由切换,为RLHF的训练和推理提供了更快的速度,也优化了内存和缓存数据。图图25 用于加速用于加速RLHF流程中最耗时部分的流程中最耗时部分的DeepSpeed混合引擎
40、设计混合引擎设计资料来源:资料来源:GithubGithub,上海证券研究所上海证券研究所202.4 DeepSpeed Hybrid Engine 优势u 高效性和经济性:高效性和经济性:DeepSpeed-HE提供高效的RLHF训练模式,训练速度较现有系统快15倍以上,使RLHF训练快速且经济实惠。u 卓越的扩展性:卓越的扩展性:DeepSpeed-HE能支持训练拥有数千亿参数的模型,并在多节点多GPU系统上展现出其卓越的扩展性。因此,即使是拥有130亿参数的模型,也仅需1.25小时即可完成训练。对拥有1750亿参数的庞大模型,使用DeepSpeed-HE进行训练也只需不到一天的时间。u
41、普及普及RLHF训练:训练:DeepSpeed-HE凭借单个GPU即可支持训练超1300亿参数的模型,使无法多GPU系统的数据科学家既可以轻松创建轻量级的RLHF模型,又可以创建功能强大、能用于不同场景的的大型模型。图图26 单节点在单节点在Azure云上使用云上使用DeepSpeed-HE训练不训练不同模型的时长和相应花费同模型的时长和相应花费资料来源:资料来源:GithubGithub,上海证券研究所上海证券研究所图图27 多节点在多节点在Azure云上使用云上使用DeepSpeed-HE训练不训练不同模型的时长和相应花费同模型的时长和相应花费资料来源:资料来源:GithubGithub,
42、上海证券研究所上海证券研究所图图28 DeepSpeed-HE支持单支持单GPU大型模型大型模型资料来源:资料来源:GithubGithub,上海证券研究所上海证券研究所212.5 训练步骤Deep Speed 的训练生成流程分为三个步骤:的训练生成流程分为三个步骤:1)监督微调()监督微调(SFT)。)。预训练语言模型通过监督微调(SFT)进行微调,使用精选的人类回答来调整训练的语言模型。2)奖励微调模型。)奖励微调模型。使用人类对同一查询的多个答案打分的数据集,去训练一个不同的(通常小于SFT)奖励模型(RW)。3)RLHF训练。训练。使用近端策略优化(Proximal Policy Op
43、timization,PPO)算法,利用奖励模型的奖励反馈,进一步调整SFT模型。图图29 完整的完整的RLHF训练概述图训练概述图资料来源:资料来源:GithubGithub,上海证券研究所上海证券研究所222.6 训练性能评估(1/2)与现有与现有RLHF系统(如系统(如Colossal-AI或或HuggingFace)相比,)相比,DeepSpeed-RLHF在系统性能和模型可扩展性表现出色,在系统性能和模型可扩展性表现出色,DeepSpeed-HE的吞吐量提高了一个数量级以上,能够在相同的延迟预算下训练更大的模型。的吞吐量提高了一个数量级以上,能够在相同的延迟预算下训练更大的模型。图图
44、30 DeepSpeedChat与与Colossal-AI和和HuggingFace的的RLHF吞吐量比较吞吐量比较资料来源:资料来源:GithubGithub,上海证券研究所上海证券研究所1)吞吐量方面:)吞吐量方面:单GPU上,DeepSpeed使RLHF训练的吞吐量提升超10倍图图31 训练第三步:最耗时的端到端训练吞吐量比较训练第三步:最耗时的端到端训练吞吐量比较资料来源:资料来源:GithubGithub,上海证券研究所上海证券研究所多GPU上比Colossal-AI 提速6 19倍,比HuggingFace DDP提速1.4 10.5 倍232.6 训练性能评估(2/2)2 2)扩
45、展性方面扩展性方面:Colossal-AI在单GPU和单A100 40G(服务器)节点上最大可分别运行1.3B和6.7B的模型;DeepSpeed-HE在同样的硬件上可分别运行6.5B 和50B模型,最大可达Colossal-AI的7.5 倍。u DeepSpeedDeepSpeed-Chat-Chat的高效率主要是的高效率主要是DeepSpeedDeepSpeed-HE-HE在在RLFHRLFH生产阶段的优化加速。生产阶段的优化加速。利用DeepSpeed的高性能推理内核,DeepSpeed-HE在生产阶段实现比HuggingFace高9倍的吞吐量,比Colossal-AI高15倍的吞吐量。
46、图图32 1.3B参数模型在参数模型在RLHF训练的时间分解训练的时间分解资料来源:资料来源:GithubGithub,上海证券研究所上海证券研究所242.7 Deep Speed Chat开源意义u 开源开源Deep Speed ChatDeep Speed Chat,降低垂类场景大模型训练门槛。,降低垂类场景大模型训练门槛。ChatGPT只用了几个月便席卷全球,成为史上用户增长速度最快的消费级应用,推动世界的经济发展和科技研发。但庞大的资金资源投入限制了很多企业和个人用户的使用,微软为解决这一限制,开源Deep Speed Chat模型。u 解决解决训练类训练类ChatGPTChatGPT
47、模型模型的局限性,的局限性,做更快速、更经济、更易于推广的大模型。做更快速、更经济、更易于推广的大模型。ChatGPT模型训练基于InstructGPT论文中的RLHF方式,解决了现有深度学习系统在训练类ChatGPT模型时存在的种种局限。Deep Speed Chat只需一个脚本即可实现预训练模型、监督微调、奖励模型微调和RLHF的多个步骤训练,简化了ChatGPT类模型的训练和强化推理,并将DeepSpeed的训练能力和推理能力整合到一个混合引擎中(DeepSpeed-HE),集成高效且经济的DeepSpeed-RLHF系统,使复杂的RLHF训练变得快速、经济且易于推广,以达到最佳效果。u
48、 通过更多的通过更多的下游用户参与来推动行业发展。下游用户参与来推动行业发展。微软此次开源Deep Speed Chat就像初期互联网为提升发展速率降低台式机的价格,使普通用户也可拥有自己的电脑。更多的参与用户才能快速壮大行业生态,因此微软此次开源对ChatGPT生态发展起到了至关重要的推动作用,使得人人都能拥有自己的ChatGPT。25三、投资建议:基于我们基于我们“大模型大模型+小模型小模型+应用及内容应用及内容”的研究框架,我们认为从基本面受益的角度上看,需沿着目前成熟大模的研究框架,我们认为从基本面受益的角度上看,需沿着目前成熟大模型模态输出的范围选择标的,重点关注型模态输出的范围选择
49、标的,重点关注AI+AI+文本文本/虚拟人板块,其次关注虚拟人板块,其次关注AI+AI+图片(大模型图片(大模型+小模型);从价值重估小模型);从价值重估的角度上看,需沿着掌握优质数据或内容(多模态数据)的范围选择标的,重点关注的角度上看,需沿着掌握优质数据或内容(多模态数据)的范围选择标的,重点关注AI+AI+内容内容/IP/IP/版权板块。版权板块。1、建议关注A股稀缺的优质内容型平台公司【芒果超媒】,有望成为传媒估值中枢锚。2、建议关注拥有海外用户/业务,有望接入GPT的优质标的,如【汤姆猫】(全球用户)、【昆仑万维】(Opera)、【神州泰岳】(游戏出海+NLP)、【华凯易佰】(跨境电
50、商)、【焦点科技】(跨境电商)、【蓝色光标】(出海)。3、建议关注中国版Discord【创梦天地】。4、建议关注可与生成式图像AI Midjourney对标的【浙文互联】(米画)、【视觉中国】。5、建议关注国内电商类的【新华都】(电商代运营)、【值得买】(内容测评)、【遥望科技】(虚拟人)、【壹网壹创】(电商代运营)、【青木股份】(电商代运营)、【若羽臣】(电商代运营)、【丽人丽妆】(电商代运营)、【返利科技】。6、建议关注AI+游戏,如【姚记科技】、【盛天网络】、【三七互娱】、【完美世界】、【吉比特】、【世纪华通】、【巨人网络】;建议关注AI+影视,如【百纳千成】、【欢瑞世纪】、【光线传媒】
51、、【华策影视】、【博纳影业】、【上海电影】、【慈文传媒】等;建议关注AI+出版,如【中国科传】、【中国出版】等;建议关注AI+IP,如【中文在线】、【奥飞娱乐】等。7、建议关注【福昕软件】、【光云科技】、【力盛体育】、【汇纳科技】。26四、风险提示u宏观经济风险:AI相关技术研发及应用成本高企,且后续资本支出需求较大,若宏观环境变化导致相关公司经营情况波动、现金流出现问题,可能会影响研发进展;u地缘政治风险:若相关公司涉及到数据安全等领域的问题可能会引起政治风险;u技术发展不及预期:GPT与下游应用结合表现存在不及预期的可能;uAIGC行业发展不及预期:若底层通用大模型发展不及预期,可能影响下
52、游小模型发展。27分析师声明分析师声明作者具有中国证券业协会授予的证券投资咨询资格或相当的专业胜任能力,以勤勉尽责的职业态度,独立、客观地出具本报告,并保证报告采用的信息均来自合规渠道,力求清晰、准确地反映作者的研究观点,结论不受任何第三方的授意或影响。此外,作者薪酬的任何部分不与本报告中的具体推荐意见或观点直接或间接相关。公司业务资格说明公司业务资格说明本公司具备证券投资咨询业务资格。投资评级体系与评级定义投资评级体系与评级定义行业评级与免责声明股票投资评级:分析师给出下列评级中的其中一项代表其根据公司基本面及(或)估值预期以报告日起6个月内公司股价相对于同期市场基准指数表现的看法。买入股价
53、表现将强于基准指数20%以上 增持股价表现将强于基准指数5-20%中性股价表现将介于基准指数5%之间 减持股价表现将弱于基准指数5%以上 无评级由于我们无法获取必要的资料,或者公司面临无法预见结果的重大不确定性事件,或者其他原因,致使我们无法给出明确的投资评级行业投资评级:分析师给出下列评级中的其中一项代表其根据行业历史基本面及(或)估值对所研究行业以报告日起12个月内的基本面和行业指数相对于同期市场基准指数表现的看法。增持行业基本面看好,相对表现优于同期基准指数 中性行业基本面稳定,相对表现与同期基准指数持平 减持行业基本面看淡,相对表现弱于同期基准指数相关证券市场基准指数说明:A股市场以沪
54、深300指数为基准;港股市场以恒生指数为基准;美股市场以标普500或纳斯达克综合指数为基准。投资评级说明:投资评级说明:不同证券研究机构采用不同的评级术语及评级标准,投资者应区分不同机构在相同评级名称下的定义差异。本评级体系采用的是相对评级体系。投资者买卖证券的决定取决于个人的实际情况。投资者应阅读整篇报告,以获取比较完整的观点与信息,投资者不应以分析师的投资评级取代个人的分析与判断。28免责声明免责声明。本公司不会因接收人收到本报告而视其为客户。本报告版权归本公司所有,本公司对本报告保留一切权利。未经书面授权,任何机构和个人均不得对本报告进行任何形式的发布、复制、引用或转载。如经过本公司同意
55、引用、刊发的,须注明出处为上海证券有限责任公司研究所,且不得对本报告进行有悖原意的引用、删节和修改。在法律许可的情况下,本公司或其关联机构可能会持有报告中涉及的公司所发行的证券或期权并进行交易,也可能为这些公司提供或争取提供多种金融服务。本报告的信息来源于已公开的资料,本公司对该等信息的准确性、完整性或可靠性不作任何保证。本报告所载的资料、意见和推测仅反映本公司于发布本报告当日的判断,本报告所指的证券或投资标的的价格、价值或投资收入可升可跌。过往表现不应作为日后的表现依据。在不同时期,本公司可发出与本报告所载资料、意见或推测不一致的报告。本公司不保证本报告所含信息保持在最新状态。同时,本公司对本报告所含信息可在不发出通知的情形下做出修改,投资者应当自行关注相应的更新或修改。本报告中的内容和意见仅供参考,并不构成客户私人咨询建议。在任何情况下,本公司、本公司员工或关联机构不承诺投资者一定获利,不与投资者分享投资收益,也不对任何人因使用本报告中的任何内容所引致的任何损失负责,投资者据此做出的任何投资决策与本公司、本公司员工或关联机构无关。市场有风险,投资需谨慎。投资者不应将本报告作为投资决策的唯一参考因素,也不应当认为本报告可以取代自己的判断。行业评级与免责声明