上海品茶

您的当前位置:上海品茶 > 报告分类 > PDF报告下载

AI大模型行业深度:行业概述、发展现状、产业链及相关公司深度梳理-230421(34页).pdf

编号:123373 PDF 34页 6.11MB 下载积分:VIP专享
下载报告请您先登录!

AI大模型行业深度:行业概述、发展现状、产业链及相关公司深度梳理-230421(34页).pdf

1、 1/34 2023 年年 4 月月 21 日日 行业行业|深度深度|研究报告研究报告 行业研究报告 慧博智能投研 AI大模型行业深度:大模型行业深度:行业概述、发展现状、行业概述、发展现状、产业链及相关公司深度梳理产业链及相关公司深度梳理 随着深度神经网络的兴起,人工智能进入统计分类深度模型时代,这种模型比以往的模型更加泛化,可以通过提取不同特征值应用于不同场景。但在 2018 年-2019 年,双下降现象的发现打破了原有的人工智能发展格局。简而言之,以往的数学理论表明,随着参数增多、模型增大,过拟合导致模型的误差会先下降后上升,这使得找到精度最高误差最小的点成为模型调整的目标。而随着人工智

2、能算法算力的不断发展,研究者发现如果继续不设上限的增大模型,模型误差会在升高后第二次降低,并且误差下降会随着模型的不断增大而降低,通俗而言模型越大,准确率越高。因此人工智能发展进入了大模型时代。下面我们将主要介绍 AI 大模型的概念概念、优势优势与技术路线技术路线等内容,并针对大模型大模型产业链产业链及国内外相关企国内外相关企业发布的大模型业发布的大模型进行梳理,探讨未来竞争格局,希望对大家了解 AI 大模型有所启发。目录目录 一、行业概述.2 二、大模型方向.5 三、国内 AI 大模型发展现状及趋势.7 四、国外大模型.9 五、国内大模型.18 六、产业链分析.28 七、格局展望.34 八、

3、参考研报.34 2/34 2023 年年 4 月月 21 日日 行业行业|深度深度|研究报告研究报告 一、行业概述一、行业概述 1、概念、概念 AI 模型最初是针对特定应用场景需求进行训练(即小模型)。小模型的通用性差,换到另一个应用场景中可能并不适用,需要重新训练,这牵涉到很多调参、调优的工作及成本。同时,由于模型训练需要大规模的标注数据,在某些应用场景的数据量少,训练出来的模型精度不理想的情况,这使得 AI 研发成本高,效率低的情况。随着数据,算力及算法的提升,AI 技术也有了变化,从过去的小模型到大模型的兴起。大模型就是Foundation Model(基础模型),指通过在大规模宽泛的数

4、据上进行训练后能适应一系列下游任务的模型。大模型兼具“大规模”和“预训练”两种属性,面向实际任务建模前需在海量通用数据上进行预先训练,能大幅提升人工智能的泛化性、通用性、实用性,是人工智能迈向通用智能的里程碑技术。大模型的本质依旧是基于统计学的语言模型,大模型的本质依旧是基于统计学的语言模型,“突现能力突现能力”赋予其强大的推理能力。赋予其强大的推理能力。通俗来讲,大模型的工作就是对词语进行概率分布的建模,利用已经说过的话预测下一个词出现的分布概率,而并不是人类意义上的“理解”。较过往统计模型不同的是,“突现能力”使得大模型拥有类似人类的复杂推理和知识推理能力,这代表更强的零样本学习能力、更强

5、的泛化能力。2、大模型具备的优势、大模型具备的优势 3/34 2023 年年 4 月月 21 日日 行业行业|深度深度|研究报告研究报告 相比传统相比传统 AI 模型,大模型的优势体现在于:模型,大模型的优势体现在于:(1)解决解决 AI 过于碎片化和多样化的问题,极大提高模型的泛用性过于碎片化和多样化的问题,极大提高模型的泛用性 应对不同场景时,AI 模型往往需要进行针对化的开发、调参、优化、迭代,需要耗费大量的人力成本,导致了 AI 手工作坊化。大模型采用“预训练+下游任务微调”的方式,首先从大量标记或者未标记的数据中捕获信息,将信息存储到大量的参数中,再进行微调,极大提高模型的泛用性。(

6、2)具备自监督学习功能,降低训练研发成本具备自监督学习功能,降低训练研发成本 大模型具备自监督学习功能。可以将自监督学习功能表观理解为降低对数据标注的依赖,大量无标记数据能够被直接应用。这样一来,一方面降低人工成本,另一方面,使得小样本训练成为可能。(3)摆脱结构变革桎梏,打开模型精度上限摆脱结构变革桎梏,打开模型精度上限 过去想要提升模型精度,主要依赖网络在结构上的变革。随着神经网络结构设计技术逐渐成熟并开始趋同,想要通过优化神经网络结构从而打破精度局限变得困难。而研究证明,更大的数据规模确实提高了模型的精度上限。3、大模型技术路线大模型技术路线 大型语言模型研究的发展有三条技术路线:大型语

7、言模型研究的发展有三条技术路线:Bert 模式、模式、GPT 模式、混合模式。模式、混合模式。其中国内大多采用混合模式,多数主流大型语言模型走的是 GPT 技术路线,直到 2022 年底在 GPT-3.5 的基础上产生了ChatGPT。到 2019 年后,Bert 路线基本没有标志性的新模型更新,而 GPT 技术路线则趋于繁荣。从Bert 往 GPT 演化的过程中,模型越来越大,所实现的性能也越来越通用。各类大语言模型路线各有侧重,各类大语言模型路线各有侧重,GPT 模式在生成类任务表现最优。模式在生成类任务表现最优。大型语言模型按照从数据到知识来划分,数据可分为通用数据和领域数据,知识分为语

8、言知识和世界知识。从任务类型来划分,大型语言模型可以分为单一任务和多任务、理解类和生成类;Bert 模式有两阶段(双向语言模型预训练+任务Fine-tuning),适用于理解类以及某个场景的具体任务,表现得“专而轻”。GPT 模式是由两阶段到一阶段(单向语言模型预训练+zero-shot prompt),比较适合生成类任务、多任务,表现得“重而通”。T5模式则将两者的方法结合,包含有两阶段(单向语言模型预训练+Fine-tuning)。根据当前研究结论,4/34 2023 年年 4 月月 21 日日 行业行业|深度深度|研究报告研究报告 如果模型规模不特别大,面向单一领域的理解类任务,适合用

9、T5 模式,而 GPT 模式在做生成类任务时的效果最好。综合来看,当前几乎所有参数规模超过千亿的大型语言模型都采取 GPT 模式。4、大模型底层架构大模型底层架构 GPT 模型利用 Transformer 模型作为特征提取器,是第一个引入 Transformer 的预训练模型。传统的神经网络模型例如 RNN(循环神经网络)在实际训练过程中由于输入向量大小不一、且向量间存在相互影响关系导致模型训练结果效果较差。Transformer 模型有三大技术突破解决了这个问题。首先 Transformer 模型的 Self-Attention(自注意力)机制使人工智能算法注意到输入向量中不同部分之间的相关

10、性,从而大大提升了精准性。其次该模型采用属于无监督学习的自监督学习,无需标注数据,模型直接从无标签数据中自行学习一个特征提取器,大大提高了效率。最后,在做具体任务时,微调旨在利用其标注样本对预训练网络的参数进行调整。也可以针对具体任务设计一个新网络,把预训练的结果作为其输入,大大增加了其通用泛化能力。Transformer 模型的这些优点快速替代了传统的神经网络。5、大模型的战略意义大模型的战略意义(1)大模型是新的生产力工具大模型是新的生产力工具 类 GPT 大模型在通用性和多模态两个层面实现了飞跃,作为更高效的新一代生产力工具,能够帮助所有互联网企业提高生产效率。因此,拥有大模型的厂商将在

11、生态中扮演“卖水人”的角色,通过出售大模型接口的调用权限、提供基于大模型的企业级服务等多种方式进行商业化变现。(2)大模型是新的流量入口大模型是新的流量入口 最通用的人机交互方式将会是自然语言。复盘 TMT 行业的发展历程,发现从 PC 图形界面到 iPhone 多点触控,每一次互联网范式的变革的背后,都是人机交互方式的升级带来使用效率的提升。GPT3.5 大模型在通用性层面的飞跃,使得基于自然语言对话的人机交互方式成为可能,极大提升了用户与机器交互的自由度和使用效率。因此,大模型的战略地位有望比拟操作系统,成为 iOS/安卓之后的新一代流量入口,一端承接庞大的 B 端开发者需求,另一端触达万

12、亿级别的 C 端消费者生态。5/34 2023 年年 4 月月 21 日日 行业行业|深度深度|研究报告研究报告 6、大模型的商业模式大模型的商业模式 当前大模型的商业模式是当前大模型的商业模式是“通用大模型通用大模型+产产业模型业模型”。底层 AI 大模型的研发具有极高的研发门槛,面临高昂的成本投入,不利于人工智能技术在千行百业的推广。而具有数据、算力、算法综合优势的企业可以将模型的复杂生产过程封装起来,通过低门槛、高效率的生产平台,向千行百业提供大模型服务。各个行业的企业只需要通过生产平台提出在实际 AI 应用中的具体需求,生产大模型的少数企业就能够根据应用场景进一步对大模型开发训练,帮助

13、应用方实现大模型的精调,以达到各行业对于 AI 模型的直接应用。二、大模型方向二、大模型方向 NLP 泛化至泛化至 CV,大模型不局限于语言理解。,大模型不局限于语言理解。Transformer 的初衷是为了解决机器翻译相关问题,然而其优良的性能使其被广泛应用于自然语言处理(NLP)领域各类下游任务中。2020 年,Google 提出ViT 模型(Vision Transformer),首次将 Transformer 架构应用于计算机视觉(CV)领域图像分类任务,技术能力开始由 NLP 泛化至 CV。2023 年 3 月,谷歌基于 PaLM(2022 年,5400 亿个参数)以及 ViT 模型

14、,正式发布包含 5620 亿个参数的语言视觉多模态模型 PaLME,案例之一可基于机器视觉完成机器人行为。能够认为,大模型并不局限于语言理解,还能大模型并不局限于语言理解,还能够在视觉、声音等各类模态中发挥作用,够在视觉、声音等各类模态中发挥作用,跨模态大模型有望将人工智能水平托举至新高度。跨模态大模型有望将人工智能水平托举至新高度。6/34 2023 年年 4 月月 21 日日 行业行业|深度深度|研究报告研究报告 1、自然语言处理(自然语言处理(NLP)大模型)大模型 自然语言处理(NLP)主要通过学习通用语言,使得模型具备语言理解和生成能力。在 AI 的感知层(识别能力),目前机器在语音

15、识别(Speech Recognition)的水平基本达到甚至超过了人类的水平。然而,机器在处理自然语言时还是非常困难,主要是因为自然语言具有高度的抽象性,语义组合性,理解语言需要背景知识和推理能力。在 2018 年以来,以 BERT 和 GPT 为代表的语言大模型,弥补了自然语言处理标注数据的缺点,促进了NLP 技术的发展。从技术的角度,这些大模型的训练,透过事先遮住一些文本片段,让 AI 模型通过自监督学习,通过海量语料库的预训练,逐步掌握上下文语境,把这些被遮住的片段,尽可能合乎逻辑的方式填上去。现阶段只有微软和谷歌正式发布了基于 NLP 大模型的可交互式应用,暂时没有办法评判每家公司大

16、模型在实际产品中的表现。尝试比对国内及国外比较领先的 AI 公司在 NLP 领域的专利数,根据 WIPO 国际专利分类,参考 G06F17/20 项(Handling natural language data),国内比较领先的是互联网企业,前三分别是腾讯,百度和阿里巴巴(专利数在 600 个以上),而专注于语音方面的 AI 企业科大讯飞只有 100 多个专利。国内 AI 企业和国际巨头相比,在 NLP 领域的专利数量差距还是比较明显,像微软及谷歌等,他们在 NLP 的专利数已经在几千个的量级。2、计算机视觉(计算机视觉(CV)大模型)大模型 在早期的计算机领域(CV),模型的训练需要透过提取

17、特征工程。视觉大模型是通过学习大量的图像和视频数据,形成具备视觉通用能力。相较于上千亿参数的 NLP 模型相比,CV 模型规模要小两三个数量及,目前 CV 大模型的发展还是存在一些挑战,包括 1)在 CV 领域可用于训练的有效数据比 NLP 领域 7/34 2023 年年 4 月月 21 日日 行业行业|深度深度|研究报告研究报告 有不少差距,2)CV 领域的学习方法还需要突破,3)不同的视觉应用仍需要依赖于不同的模型,如何建立通用的视觉模型还是未知,4)供训练的图像尺寸越来越大,较小的模型也可能有很大的计算量。现阶段比较有名的 CV 大模型包括微软的 swin-transformer 系列,

18、谷歌的 ViT 系列以及有 150 亿参量的V-MOE 模型。国内方面,截止 2021 年,商汤训练了 300 亿参数的 CV 模型,2022 年,华为也发布了30 亿参数的盘古系列 CV 模型。3、多模态模型多模态模型 多模态机器学习(MultiModal Machine Learning,MMML)是指通过机器学习的方法实现处理,理解及融合多源模态信息的能力,模态是指某种类型的信息,例如文本、图像、视频、音频等,目前比较热门的研究方向是文本-图像的模型及应用,比较有名的是 OpenAI 发布的 CLIP 和 DALL E。CLIP(Constrastive Language-Image P

19、re-training)是一个基于对比图片-文本学习的跨模态预训练模型,通过自然语言的监督学习来有效理解视觉概念,用户只需要提供要识别的视觉类别标签,CLIP 就能完成视觉分类任务。基于 CLIP 模型技术,OpenAI 在 2022 发布 DALL E2,它是一个 AI 程序,可以通过文本描述生成图像。三、国内三、国内 AI 大模型发展现状及趋势大模型发展现状及趋势 1、国内国内 AI 市场迅速发展,数据量增速或将全球第一市场迅速发展,数据量增速或将全球第一 国内应用层面的需求推动 AI 产业的加速发展,或将带来市场的爆发性增长。根据 IDC 数据预测,2021年中国人工智能软件及应用市场规

20、模为 51 亿美元,预计 2026 年将会达到 211 亿美元。数据、算法、算 8/34 2023 年年 4 月月 21 日日 行业行业|深度深度|研究报告研究报告 力是 AI 发展的驱动力,其中数据是 AI 发展的基石,中国数据规模增速或排名全球第一。据 IDC 统计,中国数据规模将从 2021 年的 18.51ZB 增长至 2026 年的 56.16ZB,年均增长速度 CAGR 为 24.9%,增速位居全球第一。2、国家政策推动国家政策推动 AI 产业发展产业发展 国家政策的关注与引导有望推动 AI 产业发展。3、国内各大企业纷纷入局国内各大企业纷纷入局 AI 大模型,中美围绕大模型的研发

21、和落地展开大模型,中美围绕大模型的研发和落地展开竞争竞争 大模型增强了 AI 技术的通用性,助力普惠 AI 的实现。未来,大模型有望于场景深度融合,配合专业工具和平台支持应用落地,开放的生态来激发创新,形成良性循环。目前中美之间围绕大模型的研发和落地展开竞争。国内大模型厂商主要包括百度、腾讯、阿里、商汤、华为等企业,也有智源研究院、中科院自动化所等研究机构,同时英伟达等芯片厂商也纷纷入局。2024 年年-2026 年,中国人工智能软件及应用市场规模预测年,中国人工智能软件及应用市场规模预测 2021-2026 全球数据圈(单位:全球数据圈(单位:ZB)9/34 2023 年年 4 月月 21

22、日日 行业行业|深度深度|研究报告研究报告 四四、国外大模型、国外大模型 1、OpenAI:GPT 系列大模型一骑绝尘,智能化程度提升迅速系列大模型一骑绝尘,智能化程度提升迅速 OpenAI 正是基于正是基于 Transformer 基础模型推出了基础模型推出了 GPT 系列大模型。系列大模型。GPT(Generative Pre-trained Transformer)即生成式预训练 Transformer 模型,模型被设计为对输入的单词进行理解和响应并生成新单词,能够生产连贯的文本段落。预训练代表着 GPT 通过填空方法来对文本进行训练。在机器学习里,存在判别式模式和生成式模式两种类型,相

23、比之下,生成式模型更适合大数据学习,判别式模型更适合人工标注的有效数据集,因而,生成式模型更适合实现预训练。GPT 模型依托于模型依托于 Transformer 解除了顺序关联和对监督学习的依赖性的前提。解除了顺序关联和对监督学习的依赖性的前提。在自然语言处理(NLP)领域,基于原始文本进行有效学习的能力能够大幅降低对于监督学习的依赖,而很多深度学习算法要求大量手动标注数据,该过程极大限制了其在诸多特定领域的适配性。在考虑以上局限性的前提下,通过对未标记文本的不同语料库进行语言模型的生成式预训练,然后对每个特定任务进行区分性微调,可以实现这些任务上的巨大收益。和之前方法不同,GPT 在微调期间

24、使用任务感知输入转换,以实现有效的传输,同时对基础模型架构的更改最小。10/34 2023 年年 4 月月 21 日日 行业行业|深度深度|研究报告研究报告 GPT 相比于相比于 Transformer 等模型进行了显著简化。等模型进行了显著简化。相比于 Transformer,GPT 训练了一个 12 层仅decoder 的解码器,原 Transformer 模型中包含编码器和解码器两部分(编码器和解码器作用在于对输入和输出的内容进行操作,成为模型能够认识的语言或格式)。同时,相比于 Google 的 BERT,GPT仅采用上文预测单词,而 BERT 采用了基于上下文双向的预测手段。GPT-

25、1 采用无监督预训练和有监督微调采用无监督预训练和有监督微调,证明了 transformer 对学习词向量的强大能力,在 GPT-1 得到的词向量基础上进行下游任务的学习,能够让下游任务取得更好的泛化能力。不足也较为明显,该模型在未经微调的任务上虽然有一定效果,但是其泛化能力远远低于经过微调的有监督任务,说明了GPT-1 只是一个简单的领域专家,而非通用的语言学家。GPT-2 实现执行任务多样性,开始学习在不需要明确监督的情况下执行数量惊人的任务。实现执行任务多样性,开始学习在不需要明确监督的情况下执行数量惊人的任务。GPT-2 在GPT 的基础上进行诸多改进,在 GPT-2 阶段,OpenA

26、I 去掉了 GPT 第一阶段的有监督微调(fine-tuning),成为了无监督模型。GPT-2 大模型是一个 1.5B 参数的 Transformer,在其论文中它在 8 个测试语言建模数据集中的 7 个数据集上实现了当时最先进的结果。GPT-2 模型中,Transfomer 堆叠至 48层,数据集增加到 8 百万量级的网页、大小为 40GB 的文本。11/34 2023 年年 4 月月 21 日日 行业行业|深度深度|研究报告研究报告 GPT-2 通过调整原模型和采用多任务方式来让通过调整原模型和采用多任务方式来让 AI 更贴近更贴近“通才通才”水平。水平。机器学习系统通过使用大型数据集、

27、高容量模型和监督学习的组合,在训练任务方面表现出色,然而这些系统较为脆弱,对数据分布和任务规范的轻微变化非常敏感,因而使得 AI 表现更像狭义专家,并非通才。考虑到这些局限性,GPT-2 要实现的目标是转向更通用的系统,使其可以执行许多任务,最终无需为每个任务手动创建和标记训练数据集。而 GPT-2 的核心手段是采用多任务模型(Multi-task),其跟传统机器学习需要专门的标注数据集不同(从而训练出专业 AI),多任务模型不采用专门 AI 手段,而是在海量数据喂养训练的基础上,适配任何任务形式。GPT-3 取得突破性进展,任务结果难以与人类作品区分开来。取得突破性进展,任务结果难以与人类作

28、品区分开来。GPT-2 训练结果也有不达预期之处,所存在的问题也亟待优化。相比于 GPT-2 采用零次学习(zero-shot),GPT-3 采用了少量样本(fewshot)加入训练。GPT-3 是一个具有 1750 亿个参数的自回归语言模型,比之前的任何非稀疏语言模型多 10 倍,GPT-3 在许多 NLP 数据集上都有很强的性能(包括翻译、问题解答和完形填空任务),以及一些需要动态推理或领域适应的任务(如解译单词、在句子中使用一个新单词或执行三位数算术),GPT-3 也可以实现新闻文章样本生成等。GPT-3 论文中论述到,虽然少量样本学习(few-shot)稍逊色于人工微调,但在无监督下是

29、最优的,证明了 GPT-3 相比于 GPT-2 的优越性。12/34 2023 年年 4 月月 21 日日 行业行业|深度深度|研究报告研究报告 InstructGPT(GPT-3.5)模型在)模型在 GPT-3 基础上进一步强化。基础上进一步强化。使语言模型更大并不意味着它们能够更好地遵循用户的意图,例如大型语言模型可以生成不真实、有毒或对用户毫无帮助的输出,即这些模型与其用户不一致。另外,GPT-3 虽然选择了少样本学习(few-shot)和继续坚持了 GPT-2 的无监督学习,但基于 few-shot 的效果也稍逊于监督微调(finetuning)的方式,仍有改良空间。基于以上背景,Op

30、enAI 在 GPT-3 基础上根据人类反馈的强化学习方案 RLHF(reinforcement learning from human feedback),训练出奖励模型(reward model)去训练学习模型(即:用 AI 训练 AI 的思路)。InstructGPT 使用来自人类反馈的强化学习方案 RLHF,通过对大语言模型进行微调,从而能够在参数减少的情况下,实现优于 GPT-3 的功能。InstructGPT 与与 ChatGPT 属于相同代际模型,属于相同代际模型,ChatGPT 的发布率先引爆市场。的发布率先引爆市场。GPT-3 只解决了知识存储问题,尚未很好解决“知识怎么调用

31、”的问题,而 ChatGPT 解决了这一部分,所以 GPT-3 问世两年所得到的关注远不及 ChatGPT。ChatGPT 是在 InstructGPT 的基础上增加了 Chat 属性,且开放了公众测试,ChatGPT 提升了理解人类思维的准确性的原因也在于利用了基于人类反馈数据的系统进行模型训练。GPT-4 是是 OpenAI 在深度学习扩展方面的最新里程碑。在深度学习扩展方面的最新里程碑。根据微软发布的 GPT-4 论文,GPT-4 已经可被视为一个通用人工智能的早期版本。GPT-4 是一个大型多模态模型(接受图像和文本输入、输出),虽然在许多现实场景中的能力不如人类,但在各种专业和学术基

32、准测试中表现出人类水平的性能。例如,它在模拟律师资格考试中的成绩位于前 10的考生,而 GPT-3.5 的成绩在后 10。GPT-4 不仅在文学、医学、法律、数学、物理科学和程序设计等不同领域表现出高度熟练程度,而且它还能够将多个领域的技能和概念统一起来,并能理解其复杂概念。除了生成能力,除了生成能力,GPT-4 还具有解释性、组合性和空间性能力。还具有解释性、组合性和空间性能力。在视觉范畴内,虽然 GPT-4 只接受文本训练,但 GPT-4 不仅从训练数据中的类似示例中复制代码,而且能够处理真正的视觉任务,充分证明了该模型操作图像的强大能力。另外,GPT-4 在草图生成方面,能够结合运用 S

33、table Difusion 的能力,同时 GPT-4 针对音乐以及编程的学习创造能力也得到了验证。2、微软:与微软:与 OpenAI 深度绑定,占得行业先机深度绑定,占得行业先机 13/34 2023 年年 4 月月 21 日日 行业行业|深度深度|研究报告研究报告 微软陪跑微软陪跑 OpenAI,双方各取所需。,双方各取所需。本质上,OpenAI 的做法是将公司出租给微软,租期取决于OpenAI 的盈利速度。2019 年微软首次注资 OpenAI 后,双方开始在微软的 Azure 云计算服务上合作开发人工智能超级计算技术,同时 OpenAI 逐渐将云计算服务从谷歌云迁移到 Azure。微软

34、与 OpenAI 合作符合双方各自需求点,一方面 OpenAI 亟需算力投入和商业化背书。另一方面,微软也需要 OpenAI,微软 2015 年推出 Tay 聊天机器人十分受挫,在 AI 技术商业化应用方面日渐式微,当时在基础研究层面也尚无具备广泛影响力的产出,而 AI 能力,尤其大模型 AI 对于每一个大厂来均是防御性质的刚需领域,因而微软可通过 OpenAI 重获 AI 竞争力。微软与微软与 OpenAI 战略合作深入,占得行业先机。战略合作深入,占得行业先机。2020 年,微软买断 GPT3 基础技术许可,并获得了技术集成的优先授权。2021 年微软再次投资,双方合作关系正式进入第二阶段

35、,从合作探索期进入蜜月期。一方面,作为 OpenAI 的云提供商,在 Azure 中集中部署 OpenAI 开发的 GPT、DALLE、Codex 等各类工具,这也形成了 OpenAI 最早的收入来源通过 Azure 向企业提供付费 API 和 AI 工具。与此同时,拥有 OpenAI 新技术商业化授权,微软开始将 OpenAI 工具与自有产品进行深度集成,并推出相应产品。例如,2021 年 6 月基于 Codex,微软联合 OpenAI、GitHub 推出了 AI 代码补全工具 GitHub Copilot,以月付费 10 美元或年付费 100 美元的形式提供服务。2022 年,微软开始通过

36、 Edge 浏览器和Bing 搜索引擎在部分国家和地区提供基于 AI 图像生成工具 DALLE 开发的 Image creator 新功能。同年10 月,微软宣布将推出视觉设计工具 Microsoft designer。微软也正将 ChatGPT 用于 Office 和搜索引擎 Bing 等产品中,以优化现有工具,改进产品功能。2020 年微软发布当时最大语言模型年微软发布当时最大语言模型 Turing-NLG,为更流畅的人机对话打下基础。在自然语言模型日趋大型的背景下,微软图灵项目推出了图灵自然语言生成(T-NLG)技术,该模型包含 170 亿参数量,是此前最大的语言模型英伟达“威震天”(M

37、egatron)的两倍,是 OpenAI 模型 GPT2 的 10 多倍,在预测准确度性能上也打破了已有的最好纪录。当时 OpenAI 使用了额外的处理技术(停用词过滤)来获得比独立模型更好的成绩,而 Megatron 和 T-NLG 都不使用停用词过滤技术。同时,在直接回答问题和零次回答能力上,T-NLG 会直接用完整的句子回答问题,且无需上下文环境。为了使 T-NLG 尽可能通用,从而为各种类型的文本生成摘要,该项目在几乎所有公开可用的摘要数据集中以多任务方式调整了 T-14/34 2023 年年 4 月月 21 日日 行业行业|深度深度|研究报告研究报告 NLG 模型,总计约有 400

38、万个训练实例。总之,T-NLG 为对话更流畅的聊天机器人和数字助理等应用铺平了道路。汲取汲取“两家两家”所长,再次刷新模型规模纪录。所长,再次刷新模型规模纪录。微软联手英伟达进一步打造的 Megatron Turing-NLG(MT-NLG)模型容纳 5300 亿参数,训练过程一共使用了 4480 块英伟达 A100GPU,最终使该模型在一系列自然语言任务中,包括文本预测、阅读理解、常识推理、自然语言推理、词义消歧,都获得了前所未有的准确率。MT-NLG 融合英伟达最先进的 GPU 加速训练设备,以及微软最先进的分布式学习系统,来提高训练速度,并用上千亿个 token 构建语料库,共同开发训练

39、方法来优化效率和稳定性。具体实现上,通过借鉴英伟达 Megatron-LM 模型的 GPU 并行处理,以及微软开源的分布式训练框架 DeepSpeed,创建 3D 并行系统,对于 5300 亿个参数的模型,每个模型副本跨越 280 个 A100 GPU,节点内采用Megatron-LM 的 8 路张量切片,节点间采用 35 路管道并行,然后再使用 DeepSpeed 的数据并行性进一步扩展到数千个 GPU,最终在基于 DGX SuperPOD 的 Selene 超级计算机上完成混合精度训练。该模型在 PiQA 开发集和 LAMBADA 测试集上的零样本、单样本和少样本三种设置中都获得了最高的成

40、绩。15/34 2023 年年 4 月月 21 日日 行业行业|深度深度|研究报告研究报告 打造不同打造不同 AI 领域功能融合的多模态基础模型,领域功能融合的多模态基础模型,AI 技术和模型大一统渐露曙光。技术和模型大一统渐露曙光。2022 年 8 月,微软亚洲研究院联合微软图灵团队推出了最新升级的 BEiT-3 预训练模型,在广泛的视觉及视觉-语言任务上,包括目标检测、实例分割、语义分割、图像分类、视觉推理、视觉问答、图片描述生成和跨模态检索等,实现了 SOTA 的迁移性能。BEiT-3 创新的设计和出色的表现为多模态研究打开了新思路,也预示着 AI大一统趋势渐露曙光。3、谷歌:扎根基础模

41、型研发,引领技术革新谷歌:扎根基础模型研发,引领技术革新 构筑行业发展基石,大型基础模型持续优化升级。构筑行业发展基石,大型基础模型持续优化升级。谷歌最早在 2017 年提出 Transformer 网络结构,成为了过去数年该领域大多数行业进展的基础。随后在 2018 年,谷歌提出的 BERT 模型,在 11 个 NLP领域的任务上都刷新了以往的记录。和 GPT 相比,BERT 最大的区别就是使用文本的上下文来训练模型,而 GPT 专注于文本生成,使用的是上文。BERT 使用了 Transformer 的 Encoder 和 Masked LM 预训练方法,因此可以进行双向预测;而 OpenA

42、I GPT 使用了 Transformer 的 Decoder 结构,利用了 Decoder中的 Mask,只能顺序预测。BERT 无需调整结构就可以在不同的任务上进行微调,在当时是 NLP 领域最具有突破性的一项技术。16/34 2023 年年 4 月月 21 日日 行业行业|深度深度|研究报告研究报告 基于基于 Transformer 结构,结构,T5 明确了大模型性能提升路径。明确了大模型性能提升路径。鉴于各个机构不断提出预训练目标函数,并不断收集更多训练语料,很难分析比较这些工作的有效贡献量,因此谷歌于 2019 年推出大模型T5(Text-to Text Transfer Trans

43、former),将各种 NLP 任务(翻译、分类、回归、摘要生成等)都视为 Text-to-Text 任务,从而使得这些任务在训练(预训练和微调)时能够使用相同的目标函数,在测试时也能使用相同的解码过程,由此可以方便地评估在阅读理解、摘要生成、文本分类等一系列 NLP 任务上,不同的模型结构、预训练目标函数、无标签数据集等的影响。本质上 T5 提出的目的不是提出一个新方法,而是对 NLP 领域的技术支撑点提供较为全面的分析视角,分析各种训练技巧对模型性能提升的实际影响,从而采用合适的技巧预训练出一个好的模型。谷歌谷歌 LaMDA 实现自然对话突破,释放与技术互动的更自然方式。实现自然对话突破,

44、释放与技术互动的更自然方式。在 ChatGPT 取得突破性成功之后,谷歌宣布了自己的聊天机器人谷歌 Bard,而 Bard 这个技术形象背后是 LaMDA 在提供后端支撑。LaMDA 是继 BERT 之后,谷歌于 2021 年推出的一款自然对话应用的语言模型。LaMDA 建立在谷歌2020 年发表的早期研究之上,该研究表明,基于 Transformer 的语言模型经过对话训练,可以学会谈论几乎任何事情。此后,谷歌还发现,一旦经过训练,LaMDA 可以进行微调,从而大幅提高其反应的合理性和特异性。与其他大多数语言模型不同,LaMDA 是在对话中训练的,在训练过程中它发现了一些区别于其他语言形式的

45、开放式对话的细微差别。总之,LaMDA 的推出虽然在技术上没有新突破,但却提供了很有价值的落地方案参考。Switch Transformer 模型进一步提升大模型参数,实现简单且高效计算。模型进一步提升大模型参数,实现简单且高效计算。Switch Transformer 的设计原则是以一种简单且高效计算的方式来最大化 Transformer 模型的参数数量。Switch Transformer 拥有 1.6 万亿参数,超越了 GPT-3 的规模,成为史上首个万亿级语言模型。Switch Transformer 是由混合专家(Mix of Expert,MoE)AI 模型范式发展而来的,MoE

46、模型是指将多个专家或专门从事不同任务的模型放在一个较大的模型中,并有一个“门控网络(Gating Network)”来选择为任何给定数据要咨询哪些专家。其论文中指出,Switch Transformer 使用了稀疏激活技术,该技术只使用了神经网络权重的子集,或者是转换模型内输入数据的参数,在相同计算资源下,其训练速度上比谷歌之前研发的最大模型 T5-XXL 还要快 4 倍。谷歌通用稀疏语言模型谷歌通用稀疏语言模型 GLaM 在小样本学习上打败在小样本学习上打败 GPT-3。虽然大型语言模型可以通过简单地使用更多参数来获得更好的性能,但更有效地训练和使用这些模型也十分必要。鉴于此,谷歌在 Swi

47、tch Transformer 推出的同年,研发出 GLaM 模型架构,GLaM 也是混合专家模型(MoE),其在多个小样本学习任务上取得有竞争力的性能。谷歌首先构建了一个高质量、具有 1.6 万亿 token 的数据集以及开 17/34 2023 年年 4 月月 21 日日 行业行业|深度深度|研究报告研究报告 发文本质量过滤器,谷歌应用这个过滤器来生成 Web 网页的最终子集,并将其与书籍和维基百科数据相结合来创建最终的训练数据集。完整的 GLaM 总共有 1.2T 参数,每个 MoE 包含 64 个专家,总共 32个 MoE 层,但在推理期间,模型只会激活 97B 的参数,占总参数的 8

48、%。最终谷歌证明了稀疏激活模型在达到与密集模型相似的 zero-shot 和 one-shot 性能时,训练时使用的数据显著减少。如果使用的数据量相同,稀疏型模型的表现明显更好。并且,GLaM 训练时耗能要少于其他模型。融合传感器模态与语言模型,相较于融合传感器模态与语言模型,相较于 ChatGPT 新增了视觉功能。新增了视觉功能。2023 年 3 月,谷歌和柏林工业大学AI 研究团队推出了迄今最大视觉语言模型PaLM-E 多模态视觉语言模型(VLM),该模型具有5620 亿个参数,集成了可控制机器人的视觉和语言能力,将真实世界的连续传感器模态直接纳入语言模型,从而建立单词和感知之间的联系,且

49、该模型能够执行各种任务且无需重新训练,其相较于ChatGPT 新增了视觉功能。PaLM-E 的主要架构思想是将连续的、具体化的观察(如图像、状态估计或其他传感器模态)注入预先训练的语言模型的语言嵌入空间,这是通过将连续观测编码为与语言标记的嵌入空间具有相同维度的向量序列来实现的,因此,以类似于语言标记的方式将连续信息注入到语言模型中。PaLM-E 是一种仅限解码器的 LLM,它在给定前缀或提示的情况下自回归地生成文本完成。18/34 2023 年年 4 月月 21 日日 行业行业|深度深度|研究报告研究报告 基于大模型积累,实现视觉语言与机器人高水平实时互联。基于大模型积累,实现视觉语言与机器

50、人高水平实时互联。基于语言模型,PaLM-E 会进行连续观察,例如接收图像或传感器数据,并将其编码为一系列与语言令牌大小相同的向量。因此,模型就能继续以处理语言的方式“理解”感官信息。而且,同一套 PaLM-E 模型能够达到实时控制机器人的水准。PaLM-E 还展现出随机应变的能力,例如尽管只接受过单图像提示训练,仍可实现多模态思维链推理(允许模型对包含语言和视觉信息在内的一系列输入进行分析)和多图像推理(同时使用多张输入图像进行推理或预测)。但谷歌展示的 Demo 中的空间范围、物品种类、任务规划复杂度等条件还比较有限,随着深度学习模型愈发复杂,PaLME 也将打开更多可行性应用空间。五五、

51、国内大模型、国内大模型 1、百度:全栈技术积累颇丰,百度:全栈技术积累颇丰,AI 应用场景全覆盖应用场景全覆盖 2023 年 3 月 16 日,百度官方发布“文心一言”。“文心一言”是百度研发的知识增强大语言模型,拥有文学创作、商业文案创作、数理逻辑推理、中文理解和多模态生成五大能力。文心一言在百度 ERNIE 及PLATO 系列模型基础上研发而成,关键技术包括监督精调、人类反馈的强化学习、提示、知识增强、检索增强以及对话增强。其中,百度在知识增强、检索增强和对话增强方面实现技术创新,使得文心一言在性能上实现重大进步。19/34 2023 年年 4 月月 21 日日 行业行业|深度深度|研究报

52、告研究报告 文心一言展现五大核心能力,对中文的深度理解以及多模态能力值得关注。文心一言展现五大核心能力,对中文的深度理解以及多模态能力值得关注。百度针对文心一言的五大能力进行测试,模型在各项测试中展现出良好性能,其中对成语的理解和解释,以及音频(有方言版本)、视频生成样例,反映了文心一言在中文深度理解以及多模态生成方向的探索和实践,未来随着模型算法的持续优化,以及高质量训练数据的持续输入,文心一言有望在中文 AI 以及多模态领域不断进步,为未来的商业化落地奠定坚实基础。文心大模型处于百度全栈布局中的模型层。文心大模型处于百度全栈布局中的模型层。百度经过 11 年积累了全栈人工智能技术,从芯片层

53、、框架层、模型层到应用层。这四层之间形成层到层反馈、端到端优化,尤其是模型层的文心大模型和框架层的飞桨(产业级开源开放平台),在开发文心一言的过程中,它们的协同优化起到了至关重要的作用。模型层的文心大模型包括 NLP 大模型、CV 大模型和跨模态大模型,在此基础上开发了大模型的开发工具、轻量化工具和大规模部署工具,而且支持零门槛的 AI 开发平台以及全功能 AI 开发平台。20/34 2023 年年 4 月月 21 日日 行业行业|深度深度|研究报告研究报告 2019 年第一个文心大模型和如今的文心一言一样是年第一个文心大模型和如今的文心一言一样是 NLP 模型,模型,ERNIE 模型是关键。

54、模型是关键。文心 NLP 大模型打造了 ERNIE 模型系列。ERNIE 问世于 2019 年,目前已发展到 ERNIE 3.0。应用于金融、医疗、搜索、编程、图理解等领域。此外,文心 NLP 大模型还包含了全球首个知识增强超大模型鹏城-百度 文心(ERNIE 3.0 Titan),模型参数规模达到 2600 亿;全球首个超百亿参数规模的中英文对话预训练模型 PLATO,实现机器像人类一样进行有逻辑、有内容的流畅对话。文心一言英文名 ERNIE Bot,是基于 ERNIE 模型系列打造的生成式对话产品,ERNIE 是文心一言实现的关键。ERNIE 3.0 是基于知识增强的多范式统一预训练框架。

55、是基于知识增强的多范式统一预训练框架。ERNIE 3.0 将自回归和自编码网络融合进行预训练,并在训练时引入大规模知识图谱类数据。其中,自回归网络基于 Tranformer-XL 结构,支持长文本语言模型建模。自编码网络采用 ERNIE 2.0 的多任务学习增量式构建预训练任务,持续的进行语义理解学习,并增加了知识增强的预训练任务。多范式的统一预训练模式,不仅在 zero/few-shot(零样本/少样本学习)任务上展现了很强的能力,也能很好地处理传统的 fine-tune(微调)任务,使得 ERNIE 3.0 在理解任务、生成任务和零样本学习任务上取得了较好表现。21/34 2023 年年

56、4 月月 21 日日 行业行业|深度深度|研究报告研究报告 在在 Fine-tuning 任务上,文心任务上,文心 ERNIE 可以用在不同任务中,用任务数据做微调。可以用在不同任务中,用任务数据做微调。文心 ERNIE 在 21类 54 个 Fine-tuning 任务中取得领先。这些任务分布广泛,包括语言理解、语言生成、知识推理等。同时,文心 ERNIE 在零样本和小样本学习的能力也突出,尤其在文本分类、阅读理解、知识推理、指代消解等任务中取得全面领先。相比 Bert,ERNIE 在理念上引入了知识图谱等外部知识信息,例如语料里的人名、地名、机构名、句子间结构关系和逻辑关系等等。在这些特征

57、的赋能下,相比 GPT-3,文心ERNIE 在复杂知识推理能力上有 8 个百分点的绝对提升。文心一格和文心百中均是基于文心大模型的产品级应用,与文心一言定位相似。文心一格和文心百中均是基于文心大模型的产品级应用,与文心一言定位相似。文心一格和文心百中是目前文心大模型成功应用的范例。其中,文心一格基于文心大模型中的文图生成模型 ERNIE-ViLG,主要实现 AI 作画应用。文心百中是基于文心 ERNIE 大模型的端到端搜索引擎,用来替代传统搜索引擎复杂的特征及系统逻辑。未来推出的文心一言,与文心一格和文心百中具有相似的定位,或将共同补全文心大模型在对话生成、图像生成和搜索等领域的应用图谱。文心

58、一言或将提供大模型文心一言或将提供大模型 API 相关功能相关功能。技术上来说,文心大模型已经具备了搜索、文图生成等功能,并成功得到应用,这些能力或将集成于文心一言。此外,据百度官方信息,文心一言或将提供大模型API 相关功能。目前,文心大模型提供的大模型 API 包括 ERNIE-ViLG 文生图和 PLATO,以及正在开发的 ERNIE 3.0 文本理解与创作。ERNIE 3.0 文本理解与创作与文心一言官网相关联,能够认为,文心一言等生成式对话产品或将同样提供大模型 API 相关功能。22/34 2023 年年 4 月月 21 日日 行业行业|深度深度|研究报告研究报告 文心千帆提供开发

59、运维管理一体化服务平台。文心千帆提供开发运维管理一体化服务平台。3 月 27 日,百度于首批测试企业闭门沟通会中正式推出企业级“文心千帆”大模型平台,其中包括文心一言在内的大模型服务,还提供相应的开发工具链及整套环境,未来文心千帆还会支持第三方的开源大模型。文心千帆着力拓展下游应用场景,使每个企业都可拥有智能底座,实现“模型自由”。2、腾讯:优化腾讯:优化大模型训练,加速大模型应用落地大模型训练,加速大模型应用落地 腾讯腾讯 2022 年底发布国内首个低成本、可落地的年底发布国内首个低成本、可落地的 NLP 万亿大模型:混元万亿大模型:混元 AI 大模型。大模型。HunYuan 协同腾讯预训练

60、研发力量,旨在打造业界领先的 AI 预训练大模型和解决方案,以统一的平台,实现技术复用和业务降本,支持更多的场景和应用。当前 HunYuan 完整覆盖 NLP 大模型、CV 大模型、多模态大模型、文生图大模型及众多行业、领域任务模型,自 2022 年 4 月,先后在 MSR-VTT、MSVD 等五大权威数据集榜单中登顶,实现跨模态领域的大满贯;2022 年 5 月,于 CLUE(中文语言理解评测集合)三个榜单同时登顶,一举打破三项纪录。基于腾讯强大的底层算力和低成本高速网络基础设施,HunYuan 依托腾讯领先的太极机器学习平台,推出了 HunYuan-NLP 1T 大模型并登顶国内权威的自然

61、语言理解任务榜单 CLUE。23/34 2023 年年 4 月月 21 日日 行业行业|深度深度|研究报告研究报告 探索大模型应用机制,实现工业界快速落地。探索大模型应用机制,实现工业界快速落地。HunYuan 模型先后在热启动和课程学习、MoE 路由算法、模型结构、训练加速等方面研究优化,大幅降低了万亿大模型的训练成本。用千亿模型热启动,最快仅用 256 卡在一天内即可完成万亿参数大模型 HunYuan-NLP 1T 的训练,整体训练成本仅为直接冷启动训练万亿模型的 1/8。此外,业界基于万亿大模型的应用探索极少,对此腾讯研发了业界首个支持万亿级 MoE 预训练模型应用的分布式推理和模型压缩

62、套件“太极-HCF ToolKit”,实现了无需事先从大模型蒸馏为中小模型进而推理,即可使用低成本的分布式推理组件/服务直接进行原始大模型推理部署,充分发挥了超大预训练模型带来的模型理解和生成能力的跃升,HunYuan 也成为业界首个可在工业界海量业务场景直接落地应用的万亿 NLP 大模型。打造高效率开发工具,降低模型训练成本。打造高效率开发工具,降低模型训练成本。为了使大模型能够在可接受的推理成本下最大化业务效果,腾讯设计了一套“先蒸馏后加速”的压缩方案实现大模型的业务落地,并推出太极-HCF ToolKit,它包含了从模型蒸馏、压缩量化到模型加速的完整能力,为 AI 工程师打造从数据预处理

63、、模型训练、模型评估到模型服务的全流程高效开发工具。其中,太极-HCF distributed(大模型分布式推理组件)融合了分布式能力和单卡推理优化,兼顾分布式高效推理能力的构建和易用性建设。太极-SNIP(大模型压缩组件)结合量化、稀疏化和结构化剪枝等多种加速手段,进一步加速了 student 模型的推理速度。总之,腾讯在技术上从蒸馏框架和压缩加速算法两方面,实现了迭代更快,效果更好,成本更低的大模型压缩组件。降低显存压力,突破模型参数扩大瓶颈。降低显存压力,突破模型参数扩大瓶颈。随着预训练模型的参数不断增大,模型训练需要的存储空间显著增加,如万亿模型仅模型状态需要 17000 多 G 显存

64、,仅仅依靠显存严重束缚着模型参数的扩大。因此,基于 Zero-Infinity 的理念,腾讯自主研发了太极 AngelPTM,AngelPTM 将多流异步化做到了极致,在充分利用 CPU 和 GPU 进行计算的同时最大化的利用带宽进行数据传输和 NCCL 通信,使用异构流水线均衡设备间的负载,最大化提升整个系统的吞吐。HunYuan 商业化拓展迅速,大模型效益得到验证。商业化拓展迅速,大模型效益得到验证。HunYuan 先后支持了包括微信、QQ、游戏、腾讯广告、腾讯云等众多产品和业务,通过 NLP、CV、跨模态等 AI 大模型,不仅为业务创造了增量价值而且降低了使用成本。特别是其在广告内容理解

65、、行业特征挖掘、文案创意生成等方面的应用,在为腾讯广告带来大幅 GMV 提升的同时,也初步验证了大模型的商业化潜力。24/34 2023 年年 4 月月 21 日日 行业行业|深度深度|研究报告研究报告 3、阿里:聚焦通用底层技术,开源释放大模型应用潜力阿里:聚焦通用底层技术,开源释放大模型应用潜力 率先探索通用统一大模型,快速提升参数量级。率先探索通用统一大模型,快速提升参数量级。阿里达摩院一直以来深耕多模态预训练,并率先探索通用统一大模型。阿里达摩院于 2021 年发布使用 512 卡 V100GPU 实现全球最大规模 10 万亿参数多模态大模型 M6,并于 2022 年发布最新通义大模型

66、系列。通义大模型注重开源开放,首次通过“统一范式”实现多模态、多任务、多结构的运行,并通过模块化设计实现高效率高性能。M6 具有强大的多模态表征能力,通过将不同模态的信息经过统一加工处理,沉淀成知识表征,可以为各个行业场景提供语言理解、图像处理、知识表征等智能服务。跟其他大模型类似,M6 也是以预训练模型的形式输出泛化能力,下游只需提供场景化数据进行优化微调,就能快速产出符合行业特点的精准模型。2022 年 4 月,清华大学、阿里达摩院等机构联合提出“八卦炉”(BaGuaLu)模型,其为第一项在新一代神威超级计算机上训练脑尺度模型的工作,通过结合特定于硬件的节点内优化和混合并行策略,在前所未有

67、的大型模型上实现了良好的性能和可扩展性,BaGuaLu 可以使用混合精度训练 14.5 万亿参数模型,其性能超过 1 EFLOPS,并有能力训练与人脑中突触的数量相当的 174 万亿参数模型。持续聚焦大模型通用性及易用性,打造了国内首个持续聚焦大模型通用性及易用性,打造了国内首个 AI 统一底座统一底座。2022 年 9 月,达摩院发布阿里巴巴最新通义大模型系列,其打造了国内首个 AI 统一底座,并构建了通用与专业模型协同的层次化人工智能体系,将为 AI 从感知智能迈向知识驱动的认知智能提供先进基础设施。通义大模型整体架构中,最底层为统一模型底座,通义统一底座中借鉴了人脑模块化设计,以场景为导

68、向灵活拆拔功能模块,实现高效率和高性能。中间基于底座的通用模型层覆盖了通义-M6、通义-AliceMind 和通义-视觉,专业模型层深入电商、医疗、娱乐、设计、金融等行业。25/34 2023 年年 4 月月 21 日日 行业行业|深度深度|研究报告研究报告 M6-OFA 覆盖多模态任务,在一系列视觉语言任务中实现了覆盖多模态任务,在一系列视觉语言任务中实现了 SOTA 性能。性能。基于统一学习范式,通义统一底座中的单一 M6-OFA 模型,将涉及多模态和单模态(即 NLP 和 CV)的所有任务都统一建模成序列到序列(seq2seq)任务,可以在不引入任何新增结构的情况下同时处理图像描述、视觉

69、定位、文生图、视觉蕴含、文档摘要等 10 余项单模态和跨模态任务,并达到国际领先水平,这一突破最大程度打通了 AI 的感官。M6-OFA 统一多模态模型在一系列视觉语言任务中实现了 SOTA 性能,在 Image Caption 任务取得最优表现,长期在 MSCOCO 榜单排名第一。开源深度语言模型,模块化统一开源深度语言模型,模块化统一趋势明显。趋势明显。通义-AliceMind 是阿里达摩院开源的深度语言模型体系,包含了通用语言模型 StructBERT、生成式 PALM、结构化 StructuralLM、超大中文 PLUG、多模态StructVBERT、多语言 VECO、对话 SPACE

70、1.0/2.0/3.0 和表格 STAR1.0/2.0,过程中形成了从文本PLUG 到多模态 mPLUG 再到模块化统一模型演化趋势。2022 年,基于 AliceMind/StructBERT 模型结果在中文语言理解测评基础 CLUE 上获得了三榜第一。另外,270 亿参数版 AliceMind-PLUG 也是当时规模最大的开源语言大模型。视觉大模型在电商、交通等领域应用空间巨大。视觉大模型在电商、交通等领域应用空间巨大。通义视觉大模型自下往上分为底层统一算法架构、中层通用算法和上层产业应用。根据阿里云社区资料,通用-视觉大模型可以在电商行业实现图像搜索和万物识别等场景应用,并在文生图以及交

71、通和自动驾驶领域发挥作用。4、华为:昇腾华为:昇腾 AI 打造全栈使能体系打造全栈使能体系 26/34 2023 年年 4 月月 21 日日 行业行业|深度深度|研究报告研究报告 2021 年 4 月 25 日,在华为开发者大会(Cloud)上,华为云发布了盘古系列超大规模预训练模型。自“盘古大模型”发布以来,已经发展出 L0、L1、L2 三大阶段的成熟体系持续进化。L0 为基础模型为基础模型,这类模型无法直接应用到行业场景中,需要与行业数据结合,混合训练得到行业大模型。其中包括 NLP大模型、CV 大模型、多模态大模型、科学计算大模型等基础大模型;L1 为行业模型为行业模型,行业模型可以直接

72、在具体细分场景进行部署,由此也就得到了细分场景模型,比如气象、矿山、电力等行业大模型;L2为细分场景模型为细分场景模型,比如电力行业的无人机巡检、金融违约风险识别模型等。中文语言(中文语言(NLP)大模型:)大模型:盘古 NLP 大模型是业界首个千亿参数的中文预训练大模型,被认为是最接近人类中文理解能力的 AI 大模型。在训练过程中使用了 40TB 的文本数据,包含了大量的通用知识与行业经验。2019 年权威的中文语言理解评测基准 CLUE 榜单中,盘古 NLP 大模型在总排行榜及分类、阅读理解单项均排名第一,刷新三项榜单世界历史纪录;总排行榜得分 83.046,多项子任务得分业界领先,是目前

73、最接近人类理解水平(85.61)的预训练模型。盘古 NLP 大模型在预训练阶段沉淀了大量的通用知识,同时也可以通过少样本学习对意图进行识别,转化为知识库和数据库查询。通过功能的模块化组合支持行业知识库和数据库的嵌入,进而对接行业经验,使能全场景的快速适配与扩展。比如在华为云和循环智能合作构建的金融客服场景中,盘古 NLP大模型能更好地赋能销售环节,帮助服务人员快速提升业务水平,重塑消费者体验。视觉(视觉(CV)大模型:)大模型:视觉(CV)大模型是超过 30 亿参数的业界最大 CV 大模型,首次实现模型按需抽取,首次实现兼顾判别与生成能力。它可以基于模型大小和运行速度需求,自适应抽取不同规模模

74、型,AI 应用开发快速落地,使 AI 开发进入工业化模式。使用层次化语义对齐和语义调整算法,在浅层特征上获得了更好的可分离性,使小样本学习的能力获得了显著提升。盘古 CV 大模型服务于智能巡检、智慧物流等场景。盘古 CV 大模型在电力巡检行业中已实现行业应用,助力国家电网。它利用海量无标注电力数据进行预训练,并结合少量标注样本微调的高效开发模式,节省人工标注时间。在模型通用性方面,结合盘古搭载的自动数据增广以及类别自适应损失函数优化策略,大幅降低了模型维护成本。科学计算大模型:科学计算大模型:主要解决各种科学问题,旨在用 AI 促进基础科学的发展。包括分子大模型、金融大模型、气象大模型。例如气

75、象大模型可提供秒级天气预报,例如重力势、湿度、风速、温度,气压等变量的 1 小时-7 天预测,精度均超过当前最先进的预报方法,同时速度相比传统方法提升 1000 倍以上。27/34 2023 年年 4 月月 21 日日 行业行业|深度深度|研究报告研究报告 同时,盘古气象大模型支持广泛的下游预报方案,如在台风路径预测任务上可以降低 20%以上的位置误差。图网络(图网络(Graph)大模型)大模型:首创图网络融合技术,在工艺优化、时序预测、智能分析等场景有广泛应用。多模态大模型:多模态大模型:具备图像和文本的跨模态理解、检索与生成能力。昇腾(昇腾(Ascend)AI 能力提供大模型全流程使能体系

76、,构筑盘古大模型演化基石。能力提供大模型全流程使能体系,构筑盘古大模型演化基石。企业用户要开发大模型,需要考虑基础开发、行业适配、实际部署等问题,华为直接打造的大模型开发使能平台,覆盖从数据准备、基础模型开发、行业应用适配到推理部署全开发流程,发布了大模型开发套件、大模型微调套件以及大模型部署套件。在大模型开发套件中,昇思 MindSpore 与 ModelArts 结合既提供了像算法开发基础能力,还具备了像并行计算、存储优化、断点续训的特殊能力。在算法开发上,昇思 MindSpore提供了易用编程 API,既能满足多种需求,算法还能百行代码就可实现千亿参数的 Transformer 模型开发

77、;昇腾 MindX 提供的大模型微调套件,其功能包括两部分:一键式微调、低参数调优,即通过预置典型行业任务微调模板、小样本学习等手段,直接冻结局部参数,自动提示或者直接激活特定的参数;在推理部署方面,昇腾 AI 在 MindStudio 中提供了分布式推理服务化、模型轻量化、动态加密部署三方面能力,通过多机多卡分布式推理,可以大幅提高计算吞吐量。面向各模态应用领域,量身打造异构计算架构面向各模态应用领域,量身打造异构计算架构 CANN。昇腾 AI 全栈涵盖了计算硬件层、异构计算架构层、AI 框架层面和应用使能层面。计算硬件是 AI 计算的底座,有了强力的芯片及硬件设备,上层的加速才有实施的基础

78、。面向计算机视觉、自然语言处理、推荐系统、类机器人等领域,华为量身打造了基于“达芬奇(DaVinci)架构”的昇腾 AI 处理器,提升用户开发效率和释放昇腾 AI 处理器澎湃算力,同步推出针对 AI 场景的异构计算架构 CANN,CANN 通过提供多层次的编程接口,以全场景、低门槛、高性能的优势,支持用户快速构建基于平台的 AI 应用和业务。28/34 2023 年年 4 月月 21 日日 行业行业|深度深度|研究报告研究报告 六、六、产业链分析产业链分析 大模型产业链上游上游包括硬件与软件,其中 AI 云服务由现有云服务厂商提供,为人工智能生成技术提供算力服务。大算力芯片的主要玩家为英伟达英

79、伟达等海外半导体巨头,目前国内厂商正在追赶。产业链中游中游为研发与模型管理维护,高成本和高技术壁垒导致科技巨头与科研机构成为主要玩家。科技巨头的基础模型研发成果可内化为公司一系列业务提供支持。模型管理与维护对模型进行行业化改造,提供 API 或改造后的模型。下游下游为应用领域及应用场景。29/34 2023 年年 4 月月 21 日日 行业行业|深度深度|研究报告研究报告 1、海量参数开路,算力瓶颈渐至海量参数开路,算力瓶颈渐至 大模型海量参数训练所需算力日益攀升。头部厂商近期推出的大模型的参数量规模都达到万亿、10 万亿级别,而刚刚发布的 GPT-4 大模型更是赋予了升级版多模态任务处理能力

80、。日益增加的模型参数自然提升了算力需求。以 GPT-3 为例,GPT-3 的训练使用了微软专门建设的 AI 计算系统,由 1 万个V100GPU 组成的高性能网络集群,总算力消耗约 3640PF-days(即假如每秒计算一千万亿次,需要计算 3640 天)。大规模、长时间的 GPU 集群训练任务,对网络互联底座的性能、可靠性、成本等各方面都提出极致要求。计算资源投入呈指数级增长,高算力需求推动了训练成本快速上扬。计算资源投入呈指数级增长,高算力需求推动了训练成本快速上扬。以 ChatGPT 的总算力消耗3640PFdays 计算,需要 7-8 个投资规模 30 亿、算力 500P 的数据中心支

81、撑运行。因而,头部玩家OpenAI 获得微软为其专门打造的 E 级超级计算机,用来在 Azure 公有云上训练超大规模的人工智能模型,该超级计算机拥有 28.5 万个 CPU 核心,超过 1 万颗 GPU。据 OpenAI 测算,自 2012 年以来,全球头部 AI 模型训练算力需求 3-4 个月翻一番,每年头部训练模型所需算力增长幅度高达 10 倍。与仅能处理 NLP 的 GPT-3.5 相比,支持多模态的 GPT-4 能够以较强的逻辑分析能力同时处理图像及文本输入,并生成文本输出,GPT-4 在完成这一系列更为丰富和复杂的任务的同时,其对算力的需求也在 GPT3.0的基础上成倍增加。2、模

82、型日益复杂,硬件需求承压模型日益复杂,硬件需求承压 芯片是算力服务器最大价值所在,芯片是算力服务器最大价值所在,AI 计算芯片居于首位。计算芯片居于首位。从用途分类角度来看,芯片可以包括存储芯片、计算芯片、通信芯片、感知芯片等,而目前 AI 技术浪潮下,计算芯片需求居于首位,再是存储芯片。而人工智能计算芯片又主要包括图形处理器(GPU)、现场可编程门阵列(FPGA)、专用集成电 30/34 2023 年年 4 月月 21 日日 行业行业|深度深度|研究报告研究报告 路(ASIC)、神经拟态芯片(NPU)等,考虑到 AI 深度算法对并行处理能力有强大需求,所以 GPU是当下主流的 AI 计算加速

83、芯片,而其他计算芯片大都不能够满足现今巨量数据的并行计算。因此关注GPU 硬件进展可以有效分析 AI 大模型的算力空间,而大模型复杂度的日益增加又提升了 GPU 性能需求,因为数据维度越多,模型参数量则越多,同时模型越复杂,模型的准确度越高,因而对算力的指数需求越高。而而 GPU 硬件发展的速度难以满足硬件发展的速度难以满足 Transformer 模型规模发展的需求。模型规模发展的需求。近四年来,模型参数量增长了十万倍,但 GPU 的显存仅增长 4 倍。例如,在不包括训练过程中产生的激活值所需的存储的前提下,万亿模型的模型训练仅参数和优化器状态需要 1.7TB 以上的存储空间,至少需要 42

84、5 张 A100(40G)。在该背景下,大模型训练不仅受限于海量的算力,更受限于巨大的存储需求。AI 大模型的演化对于芯片的多核并行运算、片上存储、带宽、低延时的访存等也都提出了较高的需求,因此,硬件性能也逐步成为大模型升级的重要挑战。基于基于 GPU 集群网络的深度定制,追求极致网络性能,可集群网络的深度定制,追求极致网络性能,可以用来支撑集群极致算力。以用来支撑集群极致算力。GPU 计算集群领域,业界主流 GPU 集群网络技术路线的选择可以考量多类因素,比如网络规模、网络拓扑架构选型、接入带宽与网络容量、网络协议选择、甚至与计算芯片的联合优化设计等等。为了解决 GPU 在模型训练上的性能瓶

85、颈问题,业界厂商通常会根据自身需求,选择不同的网络技术路线。目前呈现 3 大网络技术路线趋势,首先是商用网络方案,即采用商用 GPU+商用网络组网、协议,以 Nvidia 售卖的 DGX SuperPod 为代表,该方案整体集成度高,网络深度优化,性能最优,但是价格高昂;其次,自研以太网络方案采用商用 GPU+自研网络协议,该方案经过自研协议优化后,性能接近商用方案,成本较低;第三种是自研计算芯片+自研网络方案,其能做到计算芯片与网络深度配合优化,性价比最优。未来随着 GPU 算力的持续提升,GPU 集群网络架构也需要不断迭代升级,才能保证大模型算力的高利用率与高可用性。31/34 2023

86、年年 4 月月 21 日日 行业行业|深度深度|研究报告研究报告 3、聚焦技术路线优化,突破模型算力瓶颈聚焦技术路线优化,突破模型算力瓶颈 硬件优化效果有限,模型训练手段改良需求凸显。硬件优化效果有限,模型训练手段改良需求凸显。基本的神经网络运算成本,即浮点运算(FLOPs)的成本可以通过硬件(例如从 GPU 转向 TPU)以及框架级的优化来降低,因为可以充分利用并行性优势。诸多大型模型的训练成本也正随着硬件的创新和训练方法的改进而出现相应的下降,尽管如此,虽然硬件改进可以降低 FLOPs 成本,但大模型的持续升级使得总成本却一直在增加,因此,具体的训练计划和架构的改良十分重要。国外的大模型预

87、训练创新解决方案目前占据业界主流。国外的大模型预训练创新解决方案目前占据业界主流。业内大模型预训练的解决方案主要包括微软的DeepSpeed 和英伟达的 Megatron-LM。DeepSpeed 引入 ZeRO(Zero Redundancy Optimizer)优化器,将模型参数、梯度、优化器状态按需分配到不同的训练卡上,满足大模型对存储的极致要求;Megatron-LM 基于 3D 并行(张量并行、流水并行、数据并行)将模型参数进行切分,满足大模型在有限显存资源下的训练诉求。国内玩家各显神通,提升大模型训练效率。国内玩家各显神通,提升大模型训练效率。随着参数规模指数级增加以及由此带来的训

88、练成本急剧攀升,即使是最大容量的 GPU,也存不下如此规模的参数,如果不特别注意优化算法、软件和硬件堆栈,则所需的大量计算操作可能会导致训练时间过长。在 GPU 硬件发展的速度难以满足 Transformer 模型规模发展需求的背景下,国内各玩家通过改变模型训练手段以及优化模型架构来达到算力规模与效率的平衡:国内各玩家通过改变模型训练手段以及优化模型架构来达到算力规模与效率的平衡:(1)腾讯腾讯 极致利用存储空间,极致利用存储空间,ZeRO-Cache 策略助力优化模型训练。策略助力优化模型训练。腾讯为了以最小的成本和最快的性能训练大模型,太极机器学习平台对 DeepSpeed 和 Megat

89、ron-LM 进行了深度定制优化,推出了 AngelPTM 训练框架,腾讯发布的混元 AI 大模型便是基于 AngelPTM 框架训练而来。在具体技术优化策略上,腾讯是基于 ZERO 策略,将模型的参数、梯度、优化器状态以模型并行的方式切分到所有 GPU,并自研ZeRO-Cache 框架把内存作为二级存储 offload 参数、梯度、优化器状态到 CPU 内存,同时也支持把SSD 作为第三级存储。而为了最大化和最优化的利用内存和显存进行模型状态的缓存,腾讯引入了显存内存统一存储视角,将存储容量的上界由内存扩容到内存+显存总和。同时,将多流异步化做到极致,在 GPU 计算的同时进行数据 IO 和

90、 NCCL 通信,使用异构流水线均衡设备间的负载,最大化提升整个系统的吞吐。ZeRO-Cache 将 GPU 显存、CPU 内存统一视角管理,减少了冗余存储和内存碎片,增加了内存的利用率,将机器的存储空间“压榨”到了极致。32/34 2023 年年 4 月月 21 日日 行业行业|深度深度|研究报告研究报告(2)阿里)阿里 创新平台技术架构,突破计算效率极限。创新平台技术架构,突破计算效率极限。为了给各类科研和智能企业机构提供强大高效的智能计算服务,阿里推出了飞天智算平台。飞天智算平台采用先进的技术架构,将衡量算力效率的核心指标“千卡并行计算效率”,从传统架构的 40%提升至 90%,可将算力

91、资源利用率提高 3 倍以上,AI 训练效率提升 11倍,推理效率提升 6 倍;同时,该平台支持“一云多芯”,提供基于阿里云磐久基础设施的融合算力和大数据 AI 一体化平台整体解决方案,可以运行在 X86、GPU、ARM 等多种芯片类型的服务器上,实现“一云多芯”,支持多种处理器混合部署、统一调度,并可进行应用优化,部分性能提升 100%以上。(3)百度百度 借助软硬协同优化手段,打造训练加速套件。借助软硬协同优化手段,打造训练加速套件。百度考虑到虽然使用更好的硬件可以加速性能,但大部分情况下存在硬件计算能力未充分发挥的情况,核心原因在于训练代码的执行效率并没有调到最优或更优的状态。鉴于此,百度

92、打造了百度百舸 AI 异构计算平台,目标是为 AI 场景提供软硬一体化的解决方案,通过 AI 计算、AI 存储、AI 加速、AI 容器四层技术栈,满足上层业务场景的需求。基于该框架,为了进一步调优模型训练性能,百度推出了 AIAK-Training 加速套件,旨在通过抽象易用性的接口降低优化成本,并通过软硬协同的优化手段,来充分加速客户在百度智能云上的模型训练性能。33/34 2023 年年 4 月月 21 日日 行业行业|深度深度|研究报告研究报告 (4)华为)华为 降低降低 AI 使用门槛,发力便捷式产业应用。使用门槛,发力便捷式产业应用。相较于百度、腾讯和阿里,华为更为专注在基于 CV

93、大模型的产业应用优化上。华为在发布盘古大模型前就充分考虑到了 AI 应用开发定制化、碎片化和手工作坊式的局限性,盘古大模型的设计是在利用超大规模的神经网络来吸收数据的前提下,借助强大的网络结构保证最高的性能,最后基于优良的泛化能力,来覆盖各个产业场景。基于多任务、大模型、少样本技术的 AI 共建方案,成功突破了大模型微调的难题。盘古大模型通过 Prompt 将下游监督任务加入预训练阶段,采用超多任务的大规模预训练方式,大幅降低了微调难度,解决了以往大模型难以为不同那个行业场景进行微调的难题。34/34 2023 年年 4 月月 21 日日行业行业|深度深度|研究报告研究报告 七、格局展望七、格

94、局展望 1、维持、维持 Transformer 的模型架构基础,未来格局将为寡头垄断的模型架构基础,未来格局将为寡头垄断如果仍维持如果仍维持 Transformer 的模型架构基础,未来行业将是寡头垄断的竞争格局。的模型架构基础,未来行业将是寡头垄断的竞争格局。一方面,现有的大模型已经开始训练,在模型训练上有绝对的优势,模型的效果也会更好;另一方面,随着大模型版本的迭代,每一代大模型的算力、训练成本也有迹可循,对资金的需求也会持续扩大,没有雄厚资金支持的企业会逐渐掉队。2、若大模型技术出现突破,未来格局有望一家独大、若大模型技术出现突破,未来格局有望一家独大一旦大模型技术出现突破,行业竞争格局

95、有望一家独大。一旦大模型技术出现突破,行业竞争格局有望一家独大。由于当前大模型的技术是公用的,没有哪家存在明显的技术领先,因此各行各业厂商纷纷入局,希望分得一杯羹,因此出现了大模型百花齐放的竞争格局。一旦出现技术突破,大模型的准确度以及智能化出现了“碾压”的优势,行业需求会迅速向 NO.1集中,有望形成一家独大的竞争格局。八、参考研报八、参考研报 1.国泰君安-计算机行业:AI 大模型引发科技革命2.东吴证券-计算机行业深度报告:AI 偏向科普性报告,围绕算法、算力、数据和应用3.华安证券-计算机行业深度报告:ChatGPT 引发的大模型时代变革4.德邦证券-互联网行业 AIGC 专题三:国内大模型概览5.兴业证券-计算机行业周报:AI 大模型百花齐放,场景 IT 有望全面重估6.中金公司-人工智能行业主题研究:AI 浪潮之巅系列,ChatGPT 之后,大小模型如何推演?7.华泰证券-电子行业动态点评:ChatGPT 热潮的冷思考8.招银国际-计算机行业 ChatGPT 跨行业专题报告:AIGC 发展大年,推动新一轮产业革命免责声明:以上内容仅供学习交流,不构成投资建议。

友情提示

1、下载报告失败解决办法
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。

本文(AI大模型行业深度:行业概述、发展现状、产业链及相关公司深度梳理-230421(34页).pdf)为本站 (芦苇) 主动上传,三个皮匠报告文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三个皮匠报告文库(点击联系客服),我们立即给予删除!

温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。
会员购买
客服

专属顾问

商务合作

机构入驻、侵权投诉、商务合作

服务号

三个皮匠报告官方公众号

回到顶部