上海品茶

您的当前位置:上海品茶 > 报告分类 > PDF报告下载

通信行业深度:开源竞速AI大模型的“Linux时刻”降临-230531(27页).pdf

编号:127892 PDF   DOCX 27页 1.87MB 下载积分:VIP专享
下载报告请您先登录!

通信行业深度:开源竞速AI大模型的“Linux时刻”降临-230531(27页).pdf

1、请仔细阅读本报告末页声明请仔细阅读本报告末页声明 证券研究报告|行业深度 2023 年 05 月 31 日 通信通信 开源竞速:开源竞速:AI 大模型的大模型的“Linux 时刻时刻”降临降临 ChatGPT 发布后不久,Meta 就开源了类 GPT 大语言模型 LLaMA,此后,Alpaca、Vicuna、Koala 等多个大模型诞生,它们以远低于 ChatGPT 的模型规模和成本,实现了令人瞩目的性能,引发业内人士担忧“谷歌和OpenAI 都没有护城河,大模型门槛正被开源踏破,不合作就会被取代”。资本市场也在关注大模型未来竞争格局如何,模型小了是否不再需要大量算力,数据在其中又扮演了什么角

2、色?本报告试图分析这波开源大语言模型风潮的共同点,回顾开源标杆 Linux 的发展史,回答这些问题。共同点一:始于开源。共同点一:始于开源。开源免费,开源的商业模式至少包括:1、靠服务变现。曾上市、后被 IBM 收购的 Linux 企业服务公司红帽即是一例。企业为了更稳定和及时的技术支持,愿意付费。2、靠授权费变现。安卓开源,但谷歌向欧盟使用安卓谷歌套件的厂商收取许可费即是一例。3、许可证、标准和能力评价体系的发展,是开源大模型商用程度深化的催化剂。这波开源大模型采用的许可证协议主要是 Apache 2.0 和 MIT,它们不禁止商用,并且不禁止用户修改模型后闭源,这有助于公司应用此类大模型。

3、共同点二:参数少、小型化。共同点二:参数少、小型化。相较于 GPT3+千亿参数超大模型,这波开源大模型的参数量普遍在十亿至百亿级别。目前尚没有一套系统的大模型性能评价体系,其中仅部分任务有公信力较强的评分标准。开源大模型中,Vicuna 的能力也较强,在部分任务能达到 92%GPT4 的效果。总体来说,OpenAI GPT 系仍一骑绝尘,但训练成本高,难复现。而开源大模型借助更大标识符训练数据集、DeepSpeed、RLHF 等方式,实现低训练成本和高性能,超大模型以下大模型的壁垒正在消失。共同点三:数据集重视人类指令,并走向商用。共同点三:数据集重视人类指令,并走向商用。ChatGPT 相较

4、于 GPT3 效果大幅提升的重要因素是使用了 RLHF(基于人类反馈的强化学习),即在训练中,使用人类生成的答案和对 AI 生成内容的排序,来让 AI“对齐”人类偏好。LLaMA 没有使用指令微调,但 LLaMA 之后的大量大模型使用并开源了指令数据集,并且逐步探索自建指令数据集,而非使用有商用限制的 OpenAI 的,进一步降低了复现 GPT 的门槛,扩展了商用可用性。接下来怎么看开源大模型?接下来怎么看开源大模型?站在开源大模型浪潮中,我们注意到两个趋势:1)与多模态融合,清华大学的 VisualGLM-6B 即是著名开源语言模型ChatGLM 的多模态升级版,我们认为,其可基于消费级显卡

5、在本地部署的特性是大势所趋。2)开源模型+边缘计算推动 AI 商用落地,哈尔滨大学的中文医疗问诊模型“华驼”以及在跨境电商的使用就是案例。投资建议:投资建议:我们认为,对大模型的看法应该分时、分层看待。1、短期内,OpenAI 的 GPT 系超大模型仍然超越众开源大模型,因此,应当重点关注与其在股权和产品上深度合作的微软、能获得 ChatGPTios App 收益分成的苹果,以及超大模型的算力服务商英伟达等;2、中长期来看,如果部分开源大模型能力被进一步验证,则应用将快速铺开,大模型对算力将形成正循环;3、其他:边缘算力、大数据公司和开源大模型服务商业态也值得关注。建议关注:1)智能模组服务商

6、:美格智能、广和通;2)边缘IDC 服务商:龙宇股份、网宿科技;3)光模块服务商:中际旭创、新易盛、天孚通信、源杰科技;4)传统的 IoT 通信芯片厂商:有望受益行业上行过程。建议关注:中兴通讯、工业富联、翱捷科技、初灵信息;5)应用端标的:恺英网络、神州泰岳、佳讯飞鸿、中科金财等。风险提示风险提示:伦理风险、市场竞争风险、政策法律监管风险。增持增持(维持维持)行业行业走势走势 作者作者分析师宋嘉吉分析师宋嘉吉 执业证书编号:S0680519010002 邮箱: 分析师孙爽分析师孙爽 执业证书编号:S0680521050001 邮箱: 相关研究相关研究 1、通信:海外 AI 算力的新看点202

7、3-05-28 2、通信:边缘计算始于 AI,赋能应用2023-05-21 3、通信:算力为王,中心、边缘齐发力2023-05-21-16%0%16%32%48%64%--05通信沪深3002023 年 05 月 31 日 P.2请仔细阅读本报告末页声明请仔细阅读本报告末页声明 内容目录内容目录 1 引言.4 1.1“谷歌和 OpenAI 都没有护城河,大模型门槛正被开源踏破”.4 1.2 开源大模型集中出现,堪称风潮.4 1.2.1“LLaMA 系”:表现好,但商用化程度低.4 1.2.2 Dolly2.0、RedPajama、StableLM

8、 等:商用化程度高.5 1.2.3 中文双子星:ChatGLM-6B 和 MOSS.5 2 共同点一:始于开源.7 2.1 为什么要开源?.7 2.1.1 模型视角:防止大公司垄断,破除商业禁用限制.7 2.1.2 数据视角:保护企业机密,使定制化数据训练成为可能.7 2.1.3 算力视角:降低算力成本,使大模型的使用“普惠化”.7 2.2 开源,需要什么土壤?.7 2.2.1 从开源标杆 Linux 说开去.7 2.2.2 Linux 并非一己之作,借力于社区深厚的开源历史.8 2.3 开源了,还怎么赚钱?.10 2.3.1 红帽公司(Red Hat):服务至上.10 2.3.2 安卓系统(

9、Android):背靠谷歌,靠广告变现.10 2.4 开源大模型主流许可证支持商用.11 3 共同点二:开源大模型参数少、小型化.12 3.1 超大模型和大模型分别多大?.12 3.2 GPT 系超大模型能力最强,但难复现.12 3.2.1 Vicuna:利用 GPT-4 评估.14 3.2.2 Zeno Build 测评:较新,较全面.14 3.2.3 C-Eval:全面的中文基础模型评估套件.14 3.2.4 GPT 系超大模型训练成本高,短期内难复现.15 3.3 开源大模型性价比高,超大模型以下大模型的壁垒正在消失.15 4 共同点三:开源大模型数据集重视人类指令,并自立门户.17 4

10、.1 学习 ChatGPT 方法论,引入人类指令数据集.17 4.2 数据集走向商用.18 4.2.1 预训练数据集少量可商用.18 4.2.2 指令数据集部分可商用.18 5 展望.20 5.1 多模态化:助力通用人工智能(AGI)发展.20 5.1.1 ImageBind 闪亮登场,用图像打通 6 种模态.20 5.1.2 开源大模型的多模态探索集中于图片,但进展飞快.20 5.2 专业化:下游生态发力,针对特定任务微调模型.22 6 投资建议.24 6.1 微软:与 OpenAI 深度合作.24 6.2 英伟达:开源大模型带动应用风起,算力需求狂飙.24 6.2.1 超大模型对算力的需求

11、将保持高增长.24 6.2.2 开源大模型的快速追赶也将利好算力.24 6.2.3 催化剂:开源大模型许可证、标准和能力评价体系的发展.24 6.3 Meta:开源“急先锋”,受益于开源生态.25 6.4 其他.25 TVdUqYhUkWpNsQrM7N9R8OmOoOoMnOfQqQoQkPpPqRaQrRxOMYoNoMxNqRqP2023 年 05 月 31 日 P.3请仔细阅读本报告末页声明请仔细阅读本报告末页声明 6.4.1 边缘算力+开源模型:AI 应用的落地加速器.25 6.4.2 大数据公司:看好“开源大模型自有海量数据”组合.25 6.4.3 开源大模型服务商:服务至上.25

12、 6.4.4 苹果:获得 ChatGPT App 收入分成.25 风险提示.26 图表目录图表目录 图表 1:谷歌工程师发文阐述对大模型竞争格局的担忧.4 图表 2:大模型发展树状图.5 图表 3:部分开源大模型概况.6 图表 4:2021 年,中国服务器操作系统市场,Linux 装机量市占率远超 Unix.8 图表 5:Linux 创始人发布的第一篇有关 Linux 的帖子.9 图表 6:红帽公司的部分产品及其定价(截至 2023 年 5 月 9 日).10 图表 7:部分开源软件许可证.11 图表 8:大模型训练和推理的一般流程.12 图表 9:部分大模型的参数量.13 图表 10:PaL

13、M 模型与先前模型最先进结果(SOTA)在多项任务中比较结果.13 图表 11:开源大模型与 OpenAIGPT 系大模型能力对比.13 图表 12:由 GPT-4 评估的回答质量.14 图表 13:Zeno Build 测评结果.14 图表 14:C-Eval 评估结果.15 图表 15:部分开源大模型微调成本.16 图表 16:Chinchilla 五样本大型多任务语言理解测试结果.16 图表 17:ChatGPT RLHF 三步骤.17 图表 18:部分开源大模型的预训练模型开源与商用情况.18 图表 19:部分开源大模型指令数据集的开源与商用情况.19 图表 20:ImageBind

14、典型实例展示.20 图表 21:医学知识图谱 CMeKG 片段示例.23 图表 22:华驼大模型 sus 评分实验结果.23 2023 年 05 月 31 日 P.4请仔细阅读本报告末页声明请仔细阅读本报告末页声明 1 引言引言 一篇报道引发了公众对开源大语言模型的强烈关注。1.1“谷歌和“谷歌和 OpenAI 都没有护城河,都没有护城河,大模型门槛正被开源踏破大模型门槛正被开源踏破”“除非谷歌和“除非谷歌和 OpenAI 改变态度,选择和开源社区合作,否则将被后者替代”,改变态度,选择和开源社区合作,否则将被后者替代”,据彭博和 SemiAnalysis 报道,4 月初,谷歌工程师 Luke

15、 Sernau 发文称,在人工智能大语言模型(Large Language Models,LLM,以下简称“大模型”)赛道,谷歌和 ChatGPT 的推出方 OpenAI 都没有护城河,开源社区正在赢得竞赛。这一论调让公众对“年初 Meta 开源大模型 LLaMA 后,大模型大量出现”现象的关注推向了高潮,资本市场也在关注大公司闭源超大模型和开源大模型谁能赢得竞争,在“模型”“算力”“数据”三大关键要素中,大模型未来竞争格局如何,模型小了是否就不再需要大量算力,数据在其中又扮演了什么角色?本报告试图剖析这波开源大模型风潮的共同点,回顾开源标杆 Linux 的发展史,回答以上问题,展望大模型的未

16、来。图表 1:谷歌工程师发文阐述对大模型竞争格局的担忧 资料来源:Bloomberg、SemiAnalysis,国盛证券研究所 1.2 开源大模型集中出现,堪称风潮开源大模型集中出现,堪称风潮 2 月 24 日,Meta 发布 LLaMA 开源大模型,此后,市场集中涌现出一批大模型,大致可以分为三类。1.2.1“LLaMA 系系”:”:表现好,但商用化程度低表现好,但商用化程度低 LLaMA 包括四个不同的参数版本(70 亿/130 亿/330 亿/650 亿),不支持商用,指令数据集基于 OpenAI,模型表现可与 GPT-3 持平或优于 GPT-3。其中,70 亿和 130 亿参数版拥有包

17、含 1 万亿个标识符(Token)的预训练数据集;330 亿和 650 亿参数版拥有包含 1.4 万亿个标识符的预训练数据集。在与 GPT-3 的对比中,LLaMA-70 亿参数版在常识推理任务、零样本任务、自然问题和阅读理解中的表现与 GPT-3 水平相当,而 130 亿参数及更高参数的版本模型在以上领域的表现均优于 GPT-3。2023 年 05 月 31 日 P.5请仔细阅读本报告末页声明请仔细阅读本报告末页声明 LLaMA 模型本身没有使用指令数据集,但考虑到效果优于 GPT-3 的 ChatGPT 使用了人类指令数据集,一批开源大模型在 LLaMA 模型基础上,使用了 OpenAI

18、指令数据集来优化模型的表现,包括 Alpaca、GPT4All、Vicuna、Koala、Open Assistant 和 Hugging Chat。由于 OpenAI 指令数据集不可商用,因此这批基于 LLaMA 的开源大模型也都不可商用。图表 2:大模型发展树状图 资料来源:Harnessing the Power of LLMs in Practice:A Survey on ChatGPT and Beyond,国盛证券研究所 1.2.2 Dolly2.0、RedPajama、StableLM 等:商用化程度高等:商用化程度高 这些大模型没有使用 OpenAI 指令数据集,因此可以商用

19、,但大多数还在持续开发中。1.2.3 中文双子星:中文双子星:ChatGLM-6B 和和 MOSS ChatGLM-6B 和 MOSS 分别由清华大学和复旦大学相关研究团体推出,在中文社区知名度较高。这批模型还具有一些共同点,报告将在下文详述。2023 年 05 月 31 日 P.6请仔细阅读本报告末页声明请仔细阅读本报告末页声明 图表 3:部分开源大模型概况 模型名称模型名称 推出团队推出团队 发布时间发布时间 参数规模参数规模 训练数据集规模训练数据集规模/标识符数量标识符数量 指令数据集规模指令数据集规模 LLaMA Meta 2023.2.24 70 亿/130 亿/330 亿/650

20、 亿 1 万亿(70 亿/130 亿版);1.4 万亿(330亿/650 亿)无 Open Assistant LAION 2023.4.17 基于 StableLM 70 亿版、LLaMA 300 亿版和Pythia 120 亿/14亿/69 亿版微调训练 1.4 万亿(LLaMA)、1.5万亿(StableLM)、0.3 万亿(Pythia)16.1 万对 Alpaca 斯坦福大学 2023.3.13 基于 LLaMA-70亿版开发 1 万亿 5.2 万对 ChatGLM-6B 清华大学 2023.3.14 62 亿 未开源 无 GPT4All Momic AI 2023.3.29 基于

21、LLaMA-70亿版 1 万亿 40 万对(GPT4All)、80 万对(GPT4All-J)3 Vicuna 加州伯克利大学等1 2023.3.30 基于 LLaMA-130亿版 1 万亿 7 万对 Koala 加州伯克利大学 2023.4.3 基于 LLaMA-130亿版 1 万亿 47.2 万对 Dolly2.0 Databricks 2023.4.12 120 亿/1.5 万对 Red Pajama Together 等2 2023.4.17 目前只有预训练数据,尚无基础模型 1.2 万亿 无 Stable LM Stability AI 2023.4.19 30 亿/70 亿(150

22、 亿和 300亿版仍在开发)1.5 万亿 46.7 万对+MOSS 复旦大学 2023.4.21 160 亿 约包含 7000 亿单词 140 万对 Hugging Chat Hugging Face、LAION 2023.4.26 300 亿(与Open Assistant合作基于LLaMA-300 亿版训练)14 亿 8.44 万对 资料来源:LLaMA、Open Assistant、Alpaca、ChatGLM-6B、GPT4ALL、Vicuna、Koala、Dolly2.0、Red Pajama、Stable LM、MOSS、Hugging Chat 模型官网,国盛证券研究所注:1 加

23、州伯克利大学、CMU、Stanford、UC San Diego 和 MBZUAI;2 Together、Ontocord.ai、ETH DS3Lab、Stanford CRFM、Hazy Research 和 MILA Qubec AI Institute 等;3 GPT4All-J 模型在 GPT4All 基础上将指令数据集扩充到 80 万对数据量,扩充的数据量包括多回合问答样本、诗歌、说唱以及短篇小说等创造性写作样本。2023 年 05 月 31 日 P.7请仔细阅读本报告末页声明请仔细阅读本报告末页声明 2 共同点一:共同点一:始于开源始于开源 这波风潮中,不管是模型本身,还是模型所使

24、用的数据集,它们首要的共同点是“开源”。2.1 为什么为什么要要开源?开源?市场对开源大模型的重要问题是,为什么要开源,这是否会损伤大模型行业的商业模式。我们梳理了部分大模型对开源原因的自述,总结如下。2.1.1 模型视角:防止大公司垄断,破除商业禁用限制模型视角:防止大公司垄断,破除商业禁用限制 为了使人工智能研究民主化,弥合开放模型和封闭模型之间的质量差距,破除商业化禁用限制,开源大模型的蓬勃发展有望促进以上目标。2.1.2 数据视角:保护企业机密,使定制化数据训练成为可能数据视角:保护企业机密,使定制化数据训练成为可能 保障保障数据隐私,允许企业定制化开发。数据隐私,允许企业定制化开发。

25、对于许多行业而言,数据是企业的命脉,大模型的开源使得企业可以将自己的数据集在大模型上进行训练,同时做到对数据的控制,保护企业数据隐私。同时,开源大模型允许企业的开发人员在模型的基础上进行定制化开发,定向训练数据,也可以针对某些主题进行过滤,减少模型体量和数据的训练成本。2.1.3 算力视角:降低算力成本,使大模型的使用“普惠化”算力视角:降低算力成本,使大模型的使用“普惠化”开源大模型开源大模型节省了训练阶段的算力消耗,为企业降低算力成本,推动大模型使用“普惠节省了训练阶段的算力消耗,为企业降低算力成本,推动大模型使用“普惠化”。化”。算力总需求=场景数*单场景算力需求。在大模型的训练和使用中

26、,算力消耗分为两部分场景,即训练成本消耗及推理成本消耗。就训练成本而言,大模型的训练成本高,普通企业的算力资源难以承受,而开源大模型主要节省了企业预训练阶段的算力。但由于不同垂类的训练场景更加丰富,所以整体训练需求是增长的。就推理成本而言,大模型在参数体量庞大的情况下,其推理成本也很高,普通公司难以维持其日常开销,因此,降低模型参数体量可进而降低企业在使用模型时的推理成本。2.2 开源,需要什么土壤?开源,需要什么土壤?开源大模型的蓬勃发展并非没有先例,全球规模最大的开源软件项目开源大模型的蓬勃发展并非没有先例,全球规模最大的开源软件项目Linux 有类似有类似的故事。的故事。研究 Linux

27、 的发展史,对展望开源大模型的未来,有借鉴意义。2.2.1 从开源标杆从开源标杆 Linux 说开去说开去 Linux 是一款基于是一款基于 GNU 通用公共许可证(通用公共许可证(GPL)发布的免费开源操作系统。)发布的免费开源操作系统。所有人都能运行、研究、分享和修改这个软件。经过修改后的代码还能重新分发,甚至出售,但必须基于同一个许可证。而诸如 Unix 和 Windows 等传统操作系统是锁定供应商、以原样交付且无法修改的专有系统。许多全球规模最大的行业和企业都仰赖于许多全球规模最大的行业和企业都仰赖于 Linux。时至今日,从维基百科等知识共享网站,到纽约证券交易所,再到运行安卓(一

28、个包含免费软件的 Linux 内核专用发行版)的移动设备,Linux 无处不在。当前,Linux 不仅是公共互联网服务器上最常用的操作系统,还是速度排名前 500 的超级电脑上使用的唯一一款操作系统。2023 年 05 月 31 日 P.8请仔细阅读本报告末页声明请仔细阅读本报告末页声明 服务器市场,服务器市场,Linux 市占率已经市占率已经远超远超操作系统“鼻祖”操作系统“鼻祖”Unix,“,“Linux 时刻”发生时刻”发生。以中国市场为例,根据赛迪顾问数据,按照装机量统计,在服务器架构上,Linux 是市场主流,占据绝对领先地位,市场占有率达到 79.1%。Windows 市场占有率降

29、至 20.1%,Unix 市场占有率仅剩 0.8%。图表 4:2021 年,中国服务器操作系统市场,Linux 装机量市占率远超 Unix 资料来源:赛迪顾问,国盛证券研究所 2.2.2 Linux 并并非非一一己之作己之作,借力于社区借力于社区深厚的开源历史深厚的开源历史 Unix 开源过,为开源过,为 Linux 提供了火种提供了火种 Unix,现代操作系统的鼻祖。,现代操作系统的鼻祖。操作系统是指直接管理系统硬件和资源(如 CPU、内存和存储空间)的软件,它位于应用与硬件之间,负责在所有软件与相关的物理资源之间建立连接。而 Unix 被许多观点认为是现代操作系统的鼻祖。Unix 曾曾开源

30、。开源。世界上第一台通用型计算机诞生于 1946 年,而 Unix 开发于 1969 年。在长达十年的时间中,UNIX 拥有者 AT&T 公司以低廉甚至免费的许可将 Unix 源码授权给学术机构做研究或教学之用,许多机构在此源码基础上加以扩展和改进,形成了所谓的“Unix 变种”。后来 AT&T 意识到了 Unix 的商业价值,不再将 Unix 源码授权给学术机构,并对之前的 Unix 及其变种声明了著作权权利。Unix 回归闭源之后太贵,促成了回归闭源之后太贵,促成了 Linux 的开发的开发 Linux 由 Linux Torvalds 于 1991 年设计推出,当时他还在读大学,认为当时

31、流行的商业操作系统 Unix 太贵了,于是基于类 Unix 操作系统 Minix 开发出了 Linux,并将其开放给像自己这样负担不起的团队。仅用于教学的仅用于教学的 Minix,启发了,启发了 Linux 的开发的开发 在 AT&T 将源码私有化后,荷兰阿姆斯特丹自由大学教授塔能鲍姆为了能在课堂上教授学生操作系统运作的实务细节,决定在不使用任何AT&T的源码前提下,自行开发与UNIX相容的作业系统,以避免版权上的争议。他以小型 UNIX(mini-UNIX)之意,将它称为MINIX。第一版 MINIX 于 1987 年释出,只需要购买它的磁片,就能使用。在 Linux 系统还没有自己的原生档

32、案系统之前,曾采用 Minix 的档案系统。79.1%20.1%0.8%LinuxWindowsOthers2023 年 05 月 31 日 P.9请仔细阅读本报告末页声明请仔细阅读本报告末页声明 开源社区、许可证与标准助力开源社区、许可证与标准助力 从开始就从开始就开源开源。1991 年 8 月,Linux 创始人 Linus Torvalds 将 Linux 发到 Minix Usenet新闻组。随后他将 Linux 发布到 FTP 网站上,因为他想让更多人一起来开发这个内核。图表 5:Linux 创始人发布的第一篇有关 Linux 的帖子 资料来源:comp.os.minix,国盛证券研

33、究所 许可证助力许可证助力生态开枝散叶、生生不息生态开枝散叶、生生不息。Linux 基于 GNU GPL 许可证(GNUs Not Unix General Public License,革奴计划通用公共许可证)模式。GPL 许可证赋予“自由软件”赋予用户的四种自由,或称“Copyleft(公共版权)”:自由之零:不论目的为何,有“使用”该软件的自由。自由之一:有“研究该软件如何运作”的自由,并且得以“修改”该软件来符合用户自身的需求。可访问源代码是此项自由的前提。自由之二:有“分发软件副本”的自由,所以每个人都可以借由散布自由软件来敦亲睦邻。自由之三:有将“公布修订后的版本”的自由,如此一来

34、,整个社群都可以受惠。可访问源代码是此项自由的前提。GPL 许可证要求 GPL 程序的派生作品也要在遵循 GPL 许可证模式。相反,BSD 式等许可证并不禁止派生作品变成专有软件。GPL 是自由软件和开源软件的最流行许可证。遵循GPL 许可证使得 Linux 生态能生生不息,不至于走进无法继续发展的“死胡同”。标准标准对内使生态“形散而神不散”,对内拥抱“巨鲸”对内使生态“形散而神不散”,对内拥抱“巨鲸”。对内统一标准。对内统一标准。Linux 制定了标准 LSB(Linux Standard Base,Linux 标准基础)来规范开发,以免各团队的开发结果差异太大。因此,各 Linux 衍生

35、开发工具只在套件管理工具和模式等方面有所不同。我们认为,这使得 Linux 开源社区的发展“形散而神不散”,使 Linux 生态的发展不至于分崩离析。对外对外兼容兼容Unix。为了让Linux能兼容Unix软件,Linus Torvalds参考POSIX(Portable Operating System Interface,可携带式操作系统接口)标准修改了 Linux,这使得Linux 使用率大增。该标准由 IEEE(Institue of Electrical and Electronics Engineers,电气和电子工程师协会)于 20 世纪 90 年代开发,正是 Linux 的起步

36、阶段,它致力于提高 Unix 操作系统环境与类 Unix 操作系统环境下应用程序的可移植性,为 Linux的推广提供了有利环境。2023 年 05 月 31 日 P.10请仔细阅读本报告末页声明请仔细阅读本报告末页声明 2.3 开源了,还怎么赚钱?开源了,还怎么赚钱?市场对“开源”的核心疑问是商业模式。“开源”本身免费,但“开源”作为土壤,“开源社区”孕育出了各种商业模式,从 Linux 的生态中可以学习到这一点。2.3.1 红帽公司(红帽公司(Red Hat):服务至上:服务至上 红帽公司(Red Hat)是 Linux 生态的领军企业,超过 90%的财富500 强公司信赖红帽公司,红帽作为

37、公司的商业价值巨大。1993 年,红帽成立,1999 年,红帽即在纳斯达克上市,红帽招股书援引 IDC 的数据称,截止到 1998 年所有经授权的新安装 Linux 操作系统中,有 56%来自红帽;2012 年,红帽成为第一家收入超过 10 亿美元的开源技术公司;2019 年,IBM 以约 340 亿美元的价格收购了红帽。关于 Linux 和红帽的商业模式,就像好奇心日报打的比方,某种意义上,开源的 Linux 内核像免费、公开的菜谱,红帽们像餐厅,人们仍然愿意去餐厅品尝加工好的菜肴和享受贴心的服务。红帽面向企业提供 Linux 操作系统及订阅式服务,主要服务内容包括:1、24*7 技术支持;

38、2、与上游社区和硬件厂商合作,支持广泛的硬件架构,如 x86、ARM、IBM Power 等;3、持续的漏洞警报、定向指导和自动修复服务;4、跨多个云的部署;5、实时内核修补、安全标准认证等安全防护功能;6、检测性能异常、构建系统性能综合视图,并通过预设调优配置文件应用等。图表 6:红帽公司的部分产品及其定价(截至 2023 年 5 月 9 日)资料来源:红帽公司,国盛证券研究所 2.3.2 安卓系统(安卓系统(Android):背靠谷歌,靠广告变现:背靠谷歌,靠广告变现 根据 Statcounter 数据,截至 2023 年 4 月,安卓系统(Android)是全球第一手机操作系统,市占率高

39、达 69%,远超第二名(iOS,31%)。安卓基于 Linux 内核开发,2005 年被谷歌收购。随后,谷歌以 Apache 免费开放源代码许可证的授权方式,发布了安卓的源代码,使生产商可以快速推出搭载安卓的智能手机,这加速了安卓的普及。而关于商业模式,安卓手机预装的诸多服务由谷歌私有产品提供,例如地图、Google Play应用商店、搜索、谷歌邮箱(Gmail)因此,尽管安卓免费、开源,但谷歌仍能通过其在移动市场“攻城略地”,将用户流量变现。2023 年 05 月 31 日 P.11请仔细阅读本报告末页声明请仔细阅读本报告末页声明 谷歌还直接向安卓手机厂商收取授权费谷歌还直接向安卓手机厂商收

40、取授权费,从 2018 年 10 月 29 日开始,使用安卓系统的手机、平板电脑的欧盟厂商使用谷歌应用程序套件,必须向谷歌支付许可费,每台设备费用最高达 40 美元(约 277 元)。2.4 开源大模型主流许可证支持商用开源大模型主流许可证支持商用 开源社区已经有 GPL、BSD、Apache 等知名许可证。大模型方面,我们注意到,2023 年2 月发布的、引领了大模型开源浪潮的 LLaMA 禁止商用,仅可用于研究,MetaAI 将根据具体情况,授予公务员、社会团体成员、学术人员和行业研究实验室,访问该模型的权限。其中,LLaMA 的推理代码基于 GPL3.0 许可证,这意味着:1)他人修改

41、LLaMA 的推理代码后,不能闭源;2)新增代码也必须采用 GPL 许可证。不过,我们注意到,部分开发人员在 LLaMA 基础之上开发的变体模型,有不同类型的许可证。例如,基于 nanoGPT的LLaMA实现Lit-LLaMA新增了部分模型权重,这部分模型采用的许可证是Apache2.0。开源开源大模型采用的大模型采用的协议协议主要是主要是 Apache 2.0 和和 MIT 许可证许可证。Alpaca、Vicuna、Dolly、OpenAssistant 和 MOSS 均采用 Apache 2.0 许可证,Koala 和 GPT4all 采用 MIT 许可证。这两个许可证均允许商用。但令人惋

42、惜的是,Alpaca、Vicuna、Koala 和 GPT4all 因 OpenAI或 LLaMA 限制无法商用。同时,值得注意的是,Apache2.0 和 MIT 许可证均允许再修改源码后闭源,公司可以在开源大模型基础上开发自己的模型,或对公司更有吸引力。图表 7:部分开源软件许可证 资料来源:,国盛证券研究所 2023 年 05 月 31 日 P.12请仔细阅读本报告末页声明请仔细阅读本报告末页声明 3 共同点二:共同点二:开源大模型开源大模型参数少、参数少、小型化小型化“模型参数的大小”与“模型对算力的需求”正相关。3.1 超大模型和大模型分别多大?超大模型和大模型分别多大?预训练赋予模

43、型基本能力。预训练赋予模型基本能力。在自然语言处理(NLP)中,预训练是指在特定任务微调之前,将语言模型在大量文本语料库上训练,为模型赋予基本的语言理解能力。在预训练过程中,模型被训练以根据前面的上下文预测句子中的下一个单词。这可以通过掩盖一些输入中的单词并要求模型预测它们的方式进行,也可以采用自回归的方法(例如 GPT),即根据句子中的前面单词预测下一个单词。预训练模型通常包括大量的参数和对应的预训练数据(通常用标识符即 Token 的数量衡量)。2017 年谷歌大脑团队 Transformer(变换器)模型的出现,彻底改变了 NLP 的面貌,使得模型可以更好地理解和处理语言,提高 NLP

44、任务的效果和准确性。图表 8:大模型训练和推理的一般流程 资料来源:Generative Pre-Trained Transformer for Design Concept Generation:An Exploration,国盛证券研究所 超大模型和大模型分别多大?超大模型和大模型分别多大?语言模型的大小是根据其参数量来衡量的,参数量主要描述了神经元之间连接强度的可调值。目前一般大语言模型参数量在几十到几百亿之间,超过千亿参数的我们称为“超大模型”,例如 GPT-3(1750 亿参数)。3.2 GPT 系系超大模型超大模型能力最强能力最强,但难复现,但难复现 大模型的性能评价标准并没有统一

45、。大模型的性能评价标准并没有统一。一个重要原因是大模型生成内容的任务种类多,不同的应用场景和任务可能需要不同的指标和方法去评估模型的表现。其中部分任务可能有公信力较强的评分标准,如机器翻译中的 BLEU,但大部分任务缺乏类似标准。模糊共识是模糊共识是超大模型性能好。超大模型性能好。大语言模型目前的发展趋势是越来越大(详见下图),原因是大模型在预训练后就具有较好通用性和稳定性。例如,谷歌团队的超大模型 PaLM(5400 亿参数),在零样本和少量样本测试中均有良好的成绩(详见下图),并且随着其2023 年 05 月 31 日 P.13请仔细阅读本报告末页声明请仔细阅读本报告末页声明 训练标识符数

46、量的上升,性能仍能提升。这也不难理解,简单来说,模型见得多了,自然会的也多了。图表 9:部分大模型的参数量 图表 10:PaLM 模型与先前模型最先进结果(SOTA)在多项任务中比较结果 资料来源:Nature,国盛证券研究所 资料来源:PaLM:Scaling Language Modeling with Pathways,国盛证券研究所 “同行评议”,“同行评议”,GPT 系大模型“风华绝代”。系大模型“风华绝代”。当前,OpenAI GPT 系的超大模型拥有着强大的能力和广泛的应用,在处理自然语言任务时具有高准确性和强大的表达能力,其在文本生成、问答系统、机器翻译等多个领域都取得了出色效

47、果,成为了当前自然语言处理领域的标杆之一,被各类大模型当作比较基准。复现 ChatGPT 的门槛并没有降低,开源大模型大部分仅在某些方面有较好的表现,整体质量与 ChatGPT 仍不可比,尚需观望。图表 11:开源大模型与 OpenAIGPT 系大模型能力对比 模型名称模型名称 与与 GPT 系大模型能力比较结果系大模型能力比较结果 Alpaca 由 5 名学生盲评 text-davinci-003 和 Alpaca 7B,内容包括电子邮件写作、社交媒体和生产力工具,90:89 获胜。Vicuna 部分任务上,达到 92%GPT4 的效果。Koala 在“羊驼”和“考拉”测试集上,在 60%情

48、况下,人类满意度不低于 ChatGPT。GPT4all 对于基准真相(Ground Truth)的模型困惑度*表现不如 GPT4。OpenAssistant 偏好测试略优于 GPT-3.5-turbo(51.7%对 48.3%)。资料来源:Alpaca、Vicuna、Koala、GPT4all、OpenAssistant 官网,国盛证券研究所*注:模型困惑度指预测下一个单词的不确定性,越低越好。近段时间以来,我们还注意到若干大模型评价体系,评价方法主要包括机器自动评测(如使用 GPT4)、人类盲评等,我们重点介绍其中部分及其测评结果,但不论哪种评价体系,GPT 系大模型都一骑绝尘。海外 伯克利

49、大学 Chatbot Arena 借鉴游戏排位赛机制,让人类对模型两两盲评;开源工具包 Zeno Build,通过 Hugging Face 或在线 API,使用 Critique 评估多个大模型。2023 年 05 月 31 日 P.14请仔细阅读本报告末页声明请仔细阅读本报告末页声明 海内 SuperCLUE 中文通用大模型综合性评测基准,尝试全自动测评大模型;C-Eval 采用 1.4 万道涵盖 52 个学科的选择题,评估模型中文能力,类似标准尚需时间和市场的检验。3.2.1 Vicuna:利用:利用 GPT-4 评估评估 目前大部分目前大部分开源大模型开源大模型性能未进行系统评价,更多

50、处在起步试验阶段。性能未进行系统评价,更多处在起步试验阶段。在对性能进行评价的开源大模型中,Vicuna 的报告中利用 GPT-4 进行的评估相对较为系统,结果也最令人瞩目。图表 12:由 GPT-4 评估的回答质量 资料来源:lmsys.org,国盛证券研究所 3.2.2 Zeno Build 测评测评:较:较新,较全面新,较全面 Zeno Build 对 GPT-2、LLaMA、Alpaca、Vicuna、MPT-Chat、Cohere Command、ChatGPT(gpt-3.5-turbo)七个模型测评,结果与 GPT-4 评价结果相近。ChatGPT 有明显优势,Vicuna 在开

51、源模型中表现最佳。图表 13:Zeno Build 测评结果 资料来源:Zeno Chatbot Report,国盛证券研究所 3.2.3 C-Eval:全面的中文基础模型评估套件全面的中文基础模型评估套件 C-Eval 评估结果显示,即便是在中文能力上,GPT-4 也是一骑绝尘,但 GPT-4 也仅能达到 67%的正确率,目前大模型的中文处理能力尚有很大提升空间。2023 年 05 月 31 日 P.15请仔细阅读本报告末页声明请仔细阅读本报告末页声明 图表 14:C-Eval 评估结果 资料来源:C-EVAL:A Multi-Level Multi-Discipline Chinese E

52、valuation Suite for Foundation Models,国盛证券研究所 3.2.4 GPT 系超大模型训练成本高,短期内难复现系超大模型训练成本高,短期内难复现 ChatGPT 所需算力所需算力和训练成本和训练成本可观。可观。不考虑与日活高度相关的推理过程所需的算力,仅考虑训练过程,根据论文Language Models are Few-Shot Learners的测算,ChatGPT的上一代 GPT-3(1750 亿参数版)所需的算力高达 3640PF-days(即假如每秒做一千万亿次浮点运算,需要计算 3640 天),已知单张英伟达 A100 显卡的算力约为 0.6PF

53、LOPS,则训练一次 GPT-3(1750 亿参数版),大约需要 6000 张英伟达 A100 显卡,如果考虑互联损失,大约需要上万张 A100,按单张 A100 芯片价格约为 10 万元,则大规模训练就需要投入约 10 亿元。OpenAI 在 GPT-3(1750 亿参数)的训练上花费了超过 400 万美元,而为了维持 ChatGPT 和 GPT4(参数量未公布,预计更高)的运转,每个月理论上更高。3.3 开源大模型性价比高,超大模型以下大模型的壁垒正在消失开源大模型性价比高,超大模型以下大模型的壁垒正在消失 开源大模型小型化趋势明显,开源大模型小型化趋势明显,参数约为百亿级别,参数约为百亿

54、级别,成本降低乃题中之义。成本降低乃题中之义。开源大模型通常具有较少的参数,在设计、训练和部署上,需要的资源和成本都相对较低。这波开源大模型的参数普遍较小,均在十亿百亿级别左右。2023 年 05 月 31 日 P.16请仔细阅读本报告末页声明请仔细阅读本报告末页声明 图表 15:部分开源大模型微调成本 模型名称模型名称 指令数据集大小指令数据集大小(万对)(万对)微调微调成本(美元)成本(美元)微调芯片微调芯片 微调时间微调时间 Alpaca 5.2 600 8x A100 3 小时 Vicuna 7 300 8x A100 一天内 Koala 47.2 100 8x A100 6 小时 G

55、PT4all 40 100 8x A100 8 小时 GPT4all-J 80 200 8x A100 8 小时 资料来源:Alpaca、Vicuna、Koala、GPT4ALL、GPT4ALL-J 模型官网,国盛证券研究所 “船小好调头”,基于已有的开源预训练模型进行微调也是开源大模型的优势之一。在预训练模型基础上进行微调和优化,以适应不同的任务和应用场景,这种方法不仅可以大大缩短模型的训练时间和成本,而且还可以提高模型的性能和效率。更多标识符训练数据和新技术更多标识符训练数据和新技术,让超大模型以下的大模型壁垒趋于消失,让超大模型以下的大模型壁垒趋于消失。LLaMA 被“开源”,让大家都有

56、了一个可上手的大模型,并且随着 DeepSpeed、RLHF 等技术的发展,几百亿的模型可以部署在消费级 GPU 上。更多标识符训练数据可能比更多参数重要:DeepMind 发表于 2022 年 3 月 29 日的研究Training Compute-Optimal Large Language Models(在计算上优化计算大语言模型)向我们揭示了模型大小和训练数据规模之间的关系:大模型往往训练不足,导致大量算力的浪费。用更小的模型更充分地训练,能达到比大模型更好的性能。例如 DeepMind 的Chinchilla,模型仅有 700 亿参数,经过 1.4 万亿标识符训练数据集的训练,在测试

57、中效果优于 DeepMind 的 Gopher(2800 亿参数,3000 亿标识符训练数据集)和 OpenAI 的 GPT-3(1750 亿参数,3000 亿标识符训练数据集)。为了更好地实现模型性能,模型参数量每翻一倍,标识符训练数据集的规模也应该随之翻一倍。更小的模型,也意味着更小的下游微调和推理成本。DeepSpeed 技术:可以显著减少训练大模型的时间和成本。RLHF(基于人类反馈的强化学习):可以以较小的标识符训练量提高模型的性能和准确性。图表 16:Chinchilla 五样本大型多任务语言理解测试结果 资料来源:Training Compute-Optimal Large La

58、nguage Models,国盛证券研究所 2023 年 05 月 31 日 P.17请仔细阅读本报告末页声明请仔细阅读本报告末页声明 4 共同点三:共同点三:开源大模型开源大模型数据集数据集重视重视人类指令,并人类指令,并自立门户自立门户“数据集的大小”也与“模型所需的算力”正相关。4.1 学习学习 ChatGPT 方法论,引入人类指令数据集方法论,引入人类指令数据集 微调是提升特定性能的捷径。微调是提升特定性能的捷径。微调是指在已经预训练的模型上,使用具有标注数据的特定任务数据集,进一步小规模训练。微调可以以较小的算力代价,使模型更加适应特定任务的数据和场景,从而提高模型的性能和准确性。目

59、前微调多为指令微调,指令数据集逐渐成为开源大模型的标配。RLHF(Reinforcement Learning from Human Feedback,基于人类反馈的强化学习),是一种新兴的微调方法,它使用强化学习技术来训练语言模型,并依据人类反馈来调整模型的输出结果。RLHF(基于人类反馈的强化学习)是 ChatGPT 早期版本 GPT3 所不具备的功能,它使得只有 13 亿参数的 InstructGPT 表现出了比 1750 亿参数 GPT-3 更好的真实性、无害性和人类指令遵循度,更被标注员认可,同时不会折损 GPT-3 在学术评估维度上的效果。RLHF(基于人类反馈的强化学习)分为三个

60、步骤:1)监督微调(SFT):让标注员回答人类提问,用这一标注数据训练 GPT;2)奖励模型(RM)训练:让标注员对机器的回答排序,相较于第一步由标注员直接撰写回答的生成式标注,排序作为判别式标注的成本更低,用这一标注训练模型,让它模拟人类排序;3)无人类标注,用近端策略优化算法(PPO)微调模型。这三个步骤对应的数据集的大小分别为 1.3 万个、3.3 万个、3.1 万个。图表 17:ChatGPT RLHF 三步骤 资料来源:OpenAI 官网,国盛证券研究所 对于具有大量数据和一定算力的公司来说,使用自己的数据进行微调可以展现出模型的特化能力,并且用较小的算力达成接近大模型的效果。如多校

61、联合开发的 Vicuna 语言模型,基于 Meta 的 LLaMA-130 亿参数版模型,对 7 万条用户分享的 ChatGPT 对话指令微2023 年 05 月 31 日 P.18请仔细阅读本报告末页声明请仔细阅读本报告末页声明 调,部分任务上,达到了 92%的 GPT4 的效果。在通用性和稳定性上无法超过超大模型,但可以通过微调强化其某些方面的能力,性价比要更高,更适合中小公司应用。4.2 数据集走向商用数据集走向商用 数据集是语言模型发展的重要基础和支撑,通常是由公司或组织自主收集、整理或直接购买获得。相比之下,开源数据集大多由社区或学术界共同维护的,其数据量和种类更加丰富,但可能存在一

62、定的数据质量问题和适用性差异。4.2.1 预训练数据集预训练数据集少量可商用少量可商用 预训练数据集开源对模型商用至关重要。预训练数据集开源对模型商用至关重要。在后 LLaMA 时代,开源大模型犹如雨后春笋般涌现,但很快大家便发现由于 LLaMA 和 OpenAI 的限制,基于其开发的模型无法商用(Alpaca、Koala、GPT4All、Vicuna),为了打破这一局面,Dolly2.0 率先出手,“为了解决这个难题,我们开始寻找方法来创建一个新的,未被“污染”的数据集以用于商业用途。”随后 Red Pajama 和 MOSS 接踵而至。图表 18:部分开源大模型的预训练模型开源与商用情况

63、预训练数据集是否开源预训练数据集是否开源 模型是否可商用模型是否可商用 LLaMA Alpaca GPT4All Vicuna Koala Dolly2 RedPajama MOSS 资料来源:LLaMA、Alpaca、GPT4ALL、Vicuna、Koala、Dolly2.0、Red Pajama、MOSS 模型官网,国盛证券研究所 4.2.2 指令数据集指令数据集部分可商用部分可商用 打造开源生态,各取所需。打造开源生态,各取所需。在早期开源项目中,因其指令数据及多来自 ChatGPT 生成或对话内容,受 OpenAI 限制无法商用。除去研究用途微调外,目前越来越多模型选择自己构建指令数据

64、集来绕开这一限制。指令数据集多样化,部分模型的指令数据集可商用化。指令数据集多样化,部分模型的指令数据集可商用化。按照上文对此批集中出现的大模型的分类,除去 LLaMA、基于 LLaMA 开发出的模型以及 StableLM 使用 OpenAI 的指令数据集外,其余大模型的指令数据集均不基于 OpenAI,也因此这些大模型的指令数据集可商用化,这会加快推动使用且重视 RLHF(基于人类反馈的强化学习)训练范式的此类大模型的更迭与发展。2023 年 05 月 31 日 P.19请仔细阅读本报告末页声明请仔细阅读本报告末页声明 图表 19:部分开源大模型指令数据集的开源与商用情况 指令数据集是否基指

65、令数据集是否基于于 OpenAI 指令数据集能否商用指令数据集能否商用 OpenAssistant Alpaca ChatGLM-6B 未开源 GPT4All Vicuna Koala Dolly2 RedPajama StableLM MOSS 大概率可商用 Hugging Chat 资料来源:Open Assistant、Alpaca、ChatGLM-6B、GPT4ALL、Vicuna、Koala、Dolly2.0、Red Pajama、Stable LM、MOSS、Hugging Chat 模型官网,国盛证券研究所 2023 年 05 月 31 日 P.20请仔细阅读本报告末页声明请仔细

66、阅读本报告末页声明 5 展望展望 我们注意到开源大模型走向相似的路口。5.1 多模态化:多模态化:助力通用人工智能(助力通用人工智能(AGI)发展)发展 多模态开源大模型开始出现,将大模型推向新高潮,助力人类走向通用人工智能。多模态开源大模型开始出现,将大模型推向新高潮,助力人类走向通用人工智能。多模态即图像、声音、文字等多种模态的融合。多模态模型基于机器学习技术,能够处理和分析多种输入类型,可以让大模型更具有通用性。基于多领域知识,构建统一、跨场景、多任务的模型,推动人类走向通用人工智能(Artificial General Intelligence,AGI)时代。5.1.1 ImageBi

67、nd 闪亮登场,用图像打通闪亮登场,用图像打通 6 种模态种模态 ImageBind 开源大模型可超越单一感官体验,让机器拥有“联想”能力。开源大模型可超越单一感官体验,让机器拥有“联想”能力。5 月 9 日,Meta 公司宣布开源多模态大模型 ImageBind。该模型以图像为核心,可打通 6 种模态,包括图像(图片/视频)、温度(红外图像)、文本、音频、深度信息(3D)、动作捕捉传感(IMU)。相关源代码已托管至 GitHub。该团队表示未来还将加入触觉、嗅觉、大脑磁共振信号等模态。从技术上讲,ImageBind 利用网络数据(如图像、文本),并将其与自然存在的配对数据(如音频、深度信息等

68、)相结合,以学习单个联合嵌入空间,使得 ImageBind 隐式地将文本嵌入与其他模态对齐,从而在没有显式语义或文本配对的情况下,能在这些模态上实现零样本识别功能。目前 ImageBind 的典型用例包括:向模型输入狗叫声,模型输出狗的图片,反之亦可;向模型输入鸟的图片和海浪声,模型输出鸟在海边的图片,反之亦可。图表 20:ImageBind 典型实例展示 资料来源:ImageBind:One Embedding Space To Bind Them All,国盛证券研究所 5.1.2 开源大模型的多模态探索开源大模型的多模态探索集中于图片,但进展飞快集中于图片,但进展飞快 当前开源大模型在多

69、模态的探索仍处于初级阶段,除 ImageBind 打通了六种模态外,多数仍在探索文本与图像的融合,但速度相当快,我们梳理了其中部分。2023 年 05 月 31 日 P.21请仔细阅读本报告末页声明请仔细阅读本报告末页声明 VisualGLM-6B:可在消费级显卡上本地部署可在消费级显卡上本地部署 团队:VisualGLM-6B 是开源大语言模型 ChatGLM-6B 的多模态升级版模型,支持图像、中文和英文,由清华大学知识工程和数据挖掘小组发布。技术:VisualGLM-6B 是由语言模型 ChatGLM-6B 与图像模型 BLP2-Qformer 结合,二者结合后的参数为 78 亿(62

70、亿+16 亿)。该模型使用的预训练数据集是CogView 数据集中 3000 万个高质量的“中文图像-文本”和 3 亿个“英文图像-文本”对。在微调阶段,该模型在长视觉问答数据集上进行训练,以生成符合人类偏好的答案。性能:根据 DataLearner,VisualGLM-6B 集成了模型量化技术,用户可以在消费级显卡上本地部署模型,INT4 量化级别只需要 8.7G 的显存。这意味着即使是拥有游戏笔记本的用户也可以快速且私密地部署这个模型,这在此类大小的ChatGPT 类模型中尚属首次。UniDiffuser:为多模态设计的概率建模框架为多模态设计的概率建模框架 UniDiffuser 团队:

71、清华大学计算机系朱军教授带领的 TSAIL 团队于 3 月 12 日公开的一篇论文One Transformer Fits All Distributions in Multi-Modal Diffusion at Scale,进行了一些多模态的探索。技术:UniDiffuser 采用该团队提出的基于 Transformer 的网络架构 U-ViT,在开源的大规模图文数据集 LAION 的 50 亿参数版上,训练了一个十亿参数量的模型,使得其能够高质量地完成多种生成任务。功能:简单来讲,该模型除了单向文生图,还能实现图生文、图文联合生成、无条件图文生成、图文改写等多种功能,实现了任意模态之间的

72、相互转化。LLaVA:部分指令表现可比肩部分指令表现可比肩 GPT-4 团队:由威斯康星大学麦迪逊分校,微软研究院和哥伦比亚大学共同出品的LLaVA,在 GitHub 上开源了代码、模型和数据集。技术:LLaVA 是一个端到端的多模态大模型,它连接了一个视觉编码器和大语言模型,用于通用的视觉和语言理解。功能:以文本为基础的任务:LLaVA 可以处理并分析文本,允许用户问问题,可以和用户交谈,或者完成用户输入的任务,比如提炼文件概要、情感分析、实体识别等。以图像为基础的任务:LLaVA 可以分析图像,描述图像,进行物体识别,分析理解场景。性能:早期实验表明,LLaVA 的多模态聊天能力有时在未见

73、过的图像/指令上都能输出比肩 GPT-4 的表现,在合成的多模态指令跟随数据集上与 GPT-4 相比,获得了 85.1%的相对分数。MiniGPT-4:脱胎于脱胎于 LLaMA 的多模态的多模态开源大模型开源大模型,个人用户的,个人用户的 GPT-4“平替”“平替”团队:多模态 GPT-4 大模型的发布,将大众对于大模型的热情推到了一个新的2023 年 05 月 31 日 P.22请仔细阅读本报告末页声明请仔细阅读本报告末页声明 高潮。但是 GPT-4 并没有完全免费开放给个人,要想使用 GPT-4,要么需要通过官方的邀请,要么需要升级到付费账号。但即使付费,一些地区也无法进行相关服务的购买。

74、在这种环境下,阿布杜拉国王科技大学的 Deyao Zhu、Jun Chen 等人于 4 月 23 日发布了 MiniGPT-4,旨在将来自预训练视觉编码器的视觉信息与先进的大语言模型结合。技术:具体来说,MiniGPT-4 采用了与 BLIP-2 相同的预训练视觉组件,其中该组件由 EVA-CLIP 的 ViT-G/14 和 Q-Former 组成,同时使用大语言模型 Vicuna调优,可以执行各种复杂的语言任务。功能:MiniGPT-4 可实现许多玩法,如上传一张海鲜大餐照片,即可得到菜谱;上传一张商品效果图,即可获得一篇带货文案;手绘一个网页,即可得到对应的 HTML 代码。据使用过的人士

75、反馈,MiniGPT-4 整体效果不错,但目前对中文支持还有待提高。mPLUG-Owl:模块化多模态大模型模块化多模态大模型 团队:mPLUG-Owl 是阿里巴巴达摩院 mPLUG 系列的最新工作,延续 mPLUG系列的模块化训练思想,将语言大模型迁移为多模态大模型。技术:mPLUG-Owl 采用 CLIP ViT-L/14 作为视觉基础模块,采用 LLaMA 初始化的结构作为文本解码器,采用类似 Flamingo 的 Perceiver Resampler 结构对视觉特征进行重组。此外,mPLUG-Owl 第一次针对视觉相关的指令评测提出了全面的测试集 OwlEval。功能:mPLUG-Ow

76、l 具有很强的多轮对话能力、推理能力及笑话解释能力。此外,研究团队还观察到 mPLUG-Owl 初显一些意想不到的能力,比如多图关联、多语言、文字识别和文档理解等能力。性能:实验证明 mPLUG-Owl 在视觉相关的指令回复任务上优于 BLIP2、LLaVA、MiniGPT4。5.2 专业化:专业化:下游生态发力,针对特定任务下游生态发力,针对特定任务微调微调模型模型 大模型开源化为下游生态的蓬勃生长提供了绝佳机会,在细分产业的开发下,大模型开始在特定任务上深化开发,改变人类生活。自开源大模型 LLaMA 推出后,基于 LLaMA 预训练模型微调的下游专业化模型开始浮现,例如医疗问诊领域中的华

77、驼。团队:华驼是基于中文医学知识的 LLaMa 指令微调模型,在智能问诊层面表现出色,可生成一些更为可靠的医学知识回答。在生物医学领域,已发布的大语言模型模型因为缺乏一定的医学专业知识语料而表现不佳。4 月 14 日,哈尔滨工业大学一团队发布了其对 LLaMa 模型进行指令微调后得到的、针对医学领域的、开源智能问诊模型 Hua Tuo。技术:LLaMA 拥有 70 亿650 亿参数等多个版本,为了更快速、高效地训练,节约训练成本,华驼采用了 LLaMA70 亿参数版本作为基础模型。为了保证模型在医学领域回答问题的准确性,研究人员通过从中文医学知识图谱 CMeKG 中提取相关的医学知识,生成多样

78、的指令数据,并收集了超过 8000 条指令数据进行监督微调,以确保模型回答问题的事实正确性。2023 年 05 月 31 日 P.23请仔细阅读本报告末页声明请仔细阅读本报告末页声明 图表 21:医学知识图谱 CMeKG 片段示例 资料来源:HuaTuo(华驼):Tuning LLaMA Model with Chinese Medical Knowledge,国盛证券研究所 性能:在模型效果上,华驼与其他三个基准模型进行了比较。为了评估模型性能,研究人员招募了五名具有医学背景的专业医师,在安全性、可用性、平稳性(SUS)三个维度上进行评估。SUS 刻度从 1(不可接受)到 3(好),其中 2

79、 表示可接受的响应。平均 SUS 得分如下图所示。结果表明,华驼模型显著提高了知识可用性,同时没有太多地牺牲安全性。图表 22:华驼大模型 sus 评分实验结果 资料来源:HuaTuo(华驼):Tuning LLaMA Model with Chinese Medical Knowledge,国盛证券研究所 华驼或将是未来开源大模型下游的特定任务模型发展的范式,即采用低参数体量的小型开源大模型作为基础模型,加之以特定专业领域的数据进行训练,得到表现更好的细分领域模型。2023 年 05 月 31 日 P.24请仔细阅读本报告末页声明请仔细阅读本报告末页声明 6 投资建议投资建议 开源大模型的发

80、展影响深远,本报告选取其中部分可能受益的方向,提请市场关注。6.1 微软微软:与与 OpenAI 深度合作深度合作 我们认为,短期内,ChatGPT 系仍是能力最强的大模型,与其深度合作的微软将受益。股权上股权上,根据财富杂志报道,在 OpenAI 的第一批投资者收回初始资本后,微软将有权获得 OpenAI 75%利润,直到微软收回投资成本(130 亿美元);当 OpenAI实现 920 亿美元的利润后,微软的份额将降至 49%。与此同时,其他风险投资者和OpenAI 的员工,也将有权获得 OpenAI 49%的利润,直到他们赚取约 1500 亿美元。如果达到这些上限,微软和投资者的股份将归还

81、给 OpenAI 非营利基金会。产品上产品上,除了让搜索引擎必应(Bing)整合 ChatGPT,2023 年 1 月,微软宣布推出Azure OpenAI服务,Azure全球版企业客户可以在云平台上直接调用OpenAI模型,包括 GPT3.5、Codex 和 DALL.E 模型,其后不久,微软宣布将 GPT4 整合到了新必应和 Office 升级版 Copilot 上。6.2 英伟达英伟达:开源大模型开源大模型带动应用风起,带动应用风起,算力算力需求狂飙需求狂飙 算力服务是开源大模型浪潮中受益确定性较强的方向,在软硬件一体化方面具有明显的领先优势,是当前 AI 算力的领头羊。6.2.1 超大

82、模型对算力的需求将保持高增长超大模型对算力的需求将保持高增长 超大模型超大模型质量优势质量优势突出突出,市场,市场将将持续追捧,持续追捧,其其对算力的需求会一直增长对算力的需求会一直增长。超大型模型具有强大的表达能力和高准确性,在质量上具有优势,市场将持续追捧这种模型。超大模型规模、数据集和日活持续扩大,所需算力将持续增多。6.2.2 开源大模型开源大模型的快速追赶也将利好算力的快速追赶也将利好算力 短期内,市场对短期内,市场对开源大模型开源大模型持观望态度持观望态度。开源大模型在通用性上表现较差,短时间内无法与大型模型抗衡,加之目前难以系统评价模型的具体性能,市场对开源大模型持观望态度,等待

83、它们证明自己的性能和优势。中长期看,中长期看,开源大模型开源大模型有望进一步提高性能,从而在市场上占据更大的份额。有望进一步提高性能,从而在市场上占据更大的份额。相较于超大模型,开源大模型具有更低的算力需求和更易于部署的特点,还可以通过快速微调等方式,针对某些专业领域优化,具备一定吸引力和实用性。在中长期内,如果有开源大模型能够接近或超越 ChatGPT 在质量上的表现,那么市场对这类模型的需求可能会迅速上升。相应地,这类算力需求会很快起量。6.2.3 催化剂:催化剂:开源大模型开源大模型许可证、标准和能力评价体系的发展许可证、标准和能力评价体系的发展 许可证许可证:我们认为,开源社区发展已久

84、的许可证体系,丰富了开发者的选择,有助于大模型选择适合自己的许可证,从而推动商业应用。大模型的繁荣发展,显然将带动市场对算力的需求。标准标准:我们预计,大模型社区或许还将产生类似于 Linux 开发标准 LSB 的标准,适当的标准化将使得大模型的生态不至于过于分散。我们看好开源社区源源不断的生2023 年 05 月 31 日 P.25请仔细阅读本报告末页声明请仔细阅读本报告末页声明 命力对英伟达等算力服务商业绩的推动。大模型能力评价体系大模型能力评价体系:有公信力的大模型能力评价体系将有助于市场快速分辨大模型的能力,有助于大模型赛道的发展。6.3 Meta:开源开源“急先锋”,受益于开源生态“

85、急先锋”,受益于开源生态 回顾安卓的发展史,我们看好“谷歌-安卓”体系中的类谷歌角色,在该体系中,谷歌作为开源操作系统安卓的开发商,将开源作为激励生态上下游发展的工具,增强自身专有服务在终端客户的曝光度。映射到大模型,我们认为,开源了 LLaMA 的 Meta,可能通过 LLaMA,加深与下游大模型开发厂商的合作,将自身体系中的专有产品,绑定销售给客户。6.4 其他其他 6.4.1 边缘算力边缘算力+开源模型:开源模型:AI 应用的落地加速器应用的落地加速器 边缘算力可以将推理计算放置用户的设备上,不仅能够提高数据处理的速度和效率,从而降低推理的成本,还能够保护用户的隐私和安全。智能模组智能模

86、组:作为承载边缘算力的最佳模式,是未来具身智能产品放量下最具有确定性和弹性的品种。建议关注美格智能、广和通。边缘边缘 IDC:凭借时延和成本优势,是满足“阶梯形”算力分布的一种有效补充。建议关注龙宇股份、网宿科技。光模块光模块:中际旭创、新易盛、天孚通信、源杰科技。传统的传统的 IoT 通信芯片厂商通信芯片厂商:有望受益行业上行过程。建议关注:中兴通讯、工业富联、紫光股份、锐捷网络、翱捷科技、初灵信息。6.4.2 大数据公司大数据公司:看好“:看好“开源大模型开源大模型+自有海量自有海量数据”数据”组合组合 对“拥有大量数据但算力不足”的企业而言,利用自己的数据,充分预训练和微调开源可商用模型

87、,性价比较高。这可以提高模型的准确性和适用性,也能够大大缩短模型训练时间和成本。此外,微调后的模型还能够更好地满足企业的特定需求和业务场景,从而提升企业的竞争力和创新能力。随着技术的不断发展和普及,自主微调模型成为企业利用自有数据,快速实现智能化应用的重要手段。6.4.3 开源大模型服务商开源大模型服务商:服务至上:服务至上 回顾红帽的发展史,我们认为,即使大模型进入开源时代,面向客户的 24*7 的服务仍然必不可少,尤其是面向企业的。我们看好开源大模型服务商。6.4.4 苹果苹果:获得:获得 ChatGPT App 收入分成收入分成 ChatGPT 在 App Store 上架,按照 App

88、 Store 的惯例,苹果将获得收入分成。2023 年 05 月 31 日 P.26请仔细阅读本报告末页声明请仔细阅读本报告末页声明 风险提示风险提示 伦理风险伦理风险:人工智能与人交互过程中,可能出现伦理风险。市场竞争风险市场竞争风险:开源大模型的发展一日千里,对商业公司而言,是机遇也是挑战。政策法律监管风险政策法律监管风险:随着相关法律的逐步完善,或出现法律监管的问题,例如在个人数据保护和知识产权保护方面出现大量纠纷。2023 年 05 月 31 日 P.27请仔细阅读本报告末页声明请仔细阅读本报告末页声明 免责声明免责声明 国盛证券有限责任公司(以下简称“本公司”)具有中国证监会许可的证

89、券投资咨询业务资格。本报告仅供本公司的客户使用。本公司不会因接收人收到本报告而视其为客户。在任何情况下,本公司不对任何人因使用本报告中的任何内容所引致的任何损失负任何责任。本报告的信息均来源于本公司认为可信的公开资料,但本公司及其研究人员对该等信息的准确性及完整性不作任何保证。本报告中的资料、意见及预测仅反映本公司于发布本报告当日的判断,可能会随时调整。在不同时期,本公司可发出与本报告所载资料、意见及推测不一致的报告。本公司不保证本报告所含信息及资料保持在最新状态,对本报告所含信息可在不发出通知的情形下做出修改,投资者应当自行关注相应的更新或修改。本公司力求报告内容客观、公正,但本报告所载的资

90、料、工具、意见、信息及推测只提供给客户作参考之用,不构成任何投资、法律、会计或税务的最终操作建议,本公司不就报告中的内容对最终操作建议做出任何担保。本报告中所指的投资及服务可能不适合个别客户,不构成客户私人咨询建议。投资者应当充分考虑自身特定状况,并完整理解和使用本报告内容,不应视本报告为做出投资决策的唯一因素。投资者应注意,在法律许可的情况下,本公司及其本公司的关联机构可能会持有本报告中涉及的公司所发行的证券并进行交易,也可能为这些公司正在提供或争取提供投资银行、财务顾问和金融产品等各种金融服务。本报告版权归“国盛证券有限责任公司”所有。未经事先本公司书面授权,任何机构或个人不得对本报告进行

91、任何形式的发布、复制。任何机构或个人如引用、刊发本报告,需注明出处为“国盛证券研究所”,且不得对本报告进行有悖原意的删节或修改。分析师声明分析师声明 本报告署名分析师在此声明:我们具有中国证券业协会授予的证券投资咨询执业资格或相当的专业胜任能力,本报告所表述的任何观点均精准地反映了我们对标的证券和发行人的个人看法,结论不受任何第三方的授意或影响。我们所得报酬的任何部分无论是在过去、现在及将来均不会与本报告中的具体投资建议或观点有直接或间接联系。投资评级说明投资评级说明 投资建议的评级标准投资建议的评级标准 评级评级 说明说明 评级标准为报告发布日后的 6 个月内公司股价(或行业指数)相对同期基

92、准指数的相对市场表现。其中 A 股市场以沪深 300 指数为基准;新三板市场以三板成指(针对协议转让标的)或三板做市指数(针对做市转让标的)为基准;香港市场以摩根士丹利中国指数为基准,美股市场以标普 500 指数或纳斯达克综合指数为基准。股票评级 买入 相对同期基准指数涨幅在 15%以上 增持 相对同期基准指数涨幅在 5%15%之间 持有 相对同期基准指数涨幅在-5%+5%之间 减持 相对同期基准指数跌幅在 5%以上 行业评级 增持 相对同期基准指数涨幅在 10%以上 中性 相对同期基准指数涨幅在-10%+10%之间 减持 相对同期基准指数跌幅在 10%以上 国盛证券研究所国盛证券研究所 北京北京 上海上海 地址:北京市西城区平安里西大街 26 号楼 3 层 邮编:100032 传真: 邮箱: 地址:上海市浦明路 868 号保利 One56 1 号楼 10 层 邮编:200120 电话: 邮箱: 南昌南昌 深圳深圳 地址:南昌市红谷滩新区凤凰中大道 1115 号北京银行大厦 邮编:330038 传真: 邮箱: 地址:深圳市福田区福华三路 100 号鼎和大厦 24 楼 邮编:518033 邮箱:

友情提示

1、下载报告失败解决办法
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。

本文(通信行业深度:开源竞速AI大模型的“Linux时刻”降临-230531(27页).pdf)为本站 (云山之巅) 主动上传,三个皮匠报告文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三个皮匠报告文库(点击联系客服),我们立即给予删除!

温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。
会员购买
客服

专属顾问

商务合作

机构入驻、侵权投诉、商务合作

服务号

三个皮匠报告官方公众号

回到顶部