您的当前位置：上海品茶 > 报告分类 > PDF报告下载

报告预览

计算机行业AIGC系列之五：跨模态更多应用场景出现中国公司得到更大机会-230313（20页）.pdf

编号：118310

PDF 20页 1.84MB 下载积分：VIP专享

下载报告请您先登录！

计算机行业AIGC系列之五：跨模态更多应用场景出现中国公司得到更大机会-230313（20页）.pdf

1、行业及产业行业研究/行业深度证券研究报告计算机 2023 年 03 月 13 日跨模态：更多应用场景出现，中国公司得到更大机会看好 AIGC 系列之五相关研究数据局，国资云，AIGC，中东进：全面数字经济！-计算机行业周报20 2023 年 3月 11日重视信创带来的数据库运维新机会-数据库行业点评 2023 年 3 月 8 日证券分析师洪依真 A0230519060003 林起贤 A0230519060002 李国盛 A0230521080003 杨海燕 A0230518070003 联系人洪依真(8621)23297

2、818 本期投资提示：“模态”是指数据的存在形式,比如文本、音频、图像、视频等文件格式。多模态是一种全新的交互、生成模式，集合了图像、语音、文本等方式。我们认为，多模态/跨模态 AI 大模型将得到相比 ChatGPT 等 NLP 大模型更大的应用。近期 google、微软等海外巨头在 2023 年后在跨模态预训练大模型上有更大投入。3 月google 推出 Palm-E 参数量达 562B，可以理解图像，还能理解、生成语言，并将两者结合起来。微软推出多模态大型语言模型，此外计划在下周推出 GPT-4。目前我们已经可以在跨模态中看到更多应用可能性。除了已经相对成熟的文生图外，人机互动、机器人控制

3、、图片搜索，语音生成等，大量应用涌现。本篇深度中，我们解释了大量市场预期差。市场认为，国内 AI 大模型相比美国落后较多。我们认为，实际上国内巨头已在跨模态有较多提前布局。2022 年以前，百度、华为、阿里、腾讯、商汤等公司就已经开始尝试跨模态大模型应用。应用领域包括金融、电商、工业、智慧城市等众多领域。市场认为，相比 NLP 单模态大模型，多模态技术难度在每个单点上都提升。我们认为，多模态可能反而降低了单点技术难度。类似文生图等多模态大模型对于纯文本特征提取要求降低，不需要理解长文本，不需要理解多轮对话；对文本生成无要求。DALL-E 的参数量从 GPT-3 的 175B 降低到 12B 就

4、是一个佐证。市场认为，视觉大模型仍然需要更多参数标注、且 transformer 算法不适用于 CV 场景。我们认为，图像自动标注已经有了更多方法论，且 trans 应用于 CV 也开始成熟，算法和数据都已大幅迭代。更大参数的数据模型意味着更多的数据标注。我们认为更大参数的数据模型并不直接意味着更多标注数据需求，但 RLHF 等需求可能增加。且近年来随着 vit、swin transformer、mae 等论文推出，transformer 在 CV 和跨模态等应用增加。CV 大模型参数量达到了百亿级别。建议重点关注。视频、图像、文本素材：大华股份、海天瑞声、AI 领军、当虹科技算力和基础设施

5、：中科曙光、拓维信息、寒武纪、浪潮信息、光通信和光模块多模态应用：1）文生图：新国都、中科创达；2）机器人：三花智控、鸣志电器、绿的谐波；3）其他应用：汤姆猫（申万传媒）、万兴科技、昆仑万维（申万传媒）、风语筑（申万传媒）。视觉和跨模态算法：商汤（港股）、云从科技、虹软科技、科大讯飞风险提示：大模型技术中美仍存在差异，部分技术尚处于早期实验室阶段，存在落地风险；实体清单等可能对训练硬件产生影响。请务必仔细阅读正文之后的各项信息披露与声明行业深度请务必仔细阅读正文之后的各项信息披露与声明第 2 页共 20 页简单金融成就梦想投资案件结论和投资分析意见跨模态 AI 大模型是通

6、用式强人工智能的下一站，跨模态/视觉大模型将带来更多行业应用可能。中国 AI 公司在其中相比 NLP 大模型受益更大。重点推荐 1）视频、图像、文本素材，2）算力和基础设施，3）多模态应用，4）视觉和跨模态算法四类公司。原因及逻辑 1）海外巨头在 2023 年后在跨模态预训练大模型上有更大投入。近期 google 推出 Palm-E 参数量达 562B，可以理解图像，还能理解、生成语言，并将两者结合起来。微软推出多模态大型语言模型，此外计划在下周推出 GPT-4；2）跨模态意味着更多应用可能性，包括人机互动、图片搜索，语音生成等；3）国内 AI 公司在跨模态/CV 大模型领域的能力强于纯 NL

7、P 大模型，体现在 2022年以前，百度、华为、阿里、腾讯、商汤等公司就已经开始尝试跨模态大模型应用。有别于大众的认识市场认为，多模态应用仍然较远。我们认为，实际上 DALL-E 等文生图应用已经较为成熟。Latent Diffusion 等方法提升了图片生成能力，降低了扩散去噪的成本，使之达到可商用水平；这个过程中大量关键工具已开源，我们看到的文生图应用也是最多最成熟的。市场认为，国内 AI 大模型相比美国落后较多。我们认为，实际上国内巨头已在跨模态有较多提前布局。2022 年以前，百度、华为、阿里、腾讯、商汤等公司就已经开始尝试跨模态大模型应用。应用领域包括金融、电商、工业、智慧城市等众

8、多领域。市场认为，相比 NLP 单模态大模型，多模态技术难度在每个单点上都提升。我们认为，多模态可能反而降低了单点技术难度。类似文生图等多模态大模型对于纯文本特征提取要求降低，不需要理解长文本，不需要理解多轮对话；对文本生成无要求。DALL-E的参数量从 GPT-3 的 175B 降低到 12B 就是一个佐证。技术细节上也有较大预期差。市场认为，更大参数的数据模型意味着更多的数据标注。我们认为更大参数的数据模型并不直接意味着更多标注数据需求，但 RLHF 等需求可能增加。市场认为，transformer 算法只适用于 NLP 场景。我们认为，近年来随着 vit、swin transformer

9、、mae 等论文推出，transformer 在 CV 和跨模态等应用增加。CV 大模型参数量达到了百亿级别。pPmNYU8ZbZeUpXdUzW7N8QbRpNmMnPtQfQpPoNiNqRqM7NrRyRwMtPsQMYtRtM 行业深度请务必仔细阅读正文之后的各项信息披露与声明第 3 页共 20 页简单金融成就梦想 1、文生图：最先成熟的跨模态应用.5 1.1 DALL-E：初代爆款文生图应用，贡献了 CLIP 工具.5 1.2 从 DALL-E 到 Stable Diffusion：4 倍分辨率，背后是 Diffusion.7 2、CV 大模型：transformer 取代

10、 CNN，参数已到百亿级别8 2.1 CV+大模型的难度为何相比 NLP 更高.9 2.2 学界尝试将 transformer 应用于 CV 大模型.9 2.3 百亿参数级别的 CV 大模型有“涌现”能力了吗？CV 大模型会大幅提升标注数据需求吗？.11 3、跨模态：更多应用可能性，中国 AI 公司参与热情暴增.13 3.1 Google：视觉语言模型大模型 PaLM-E.13 3.2 微软和 OPEN AI：下一代 GPT 可能也是多模态.15 3.3 视觉/跨模态大模型是国内 AI 公司更擅长的.16 4、推荐标的：.18 目录行业深度请务必仔细阅读正文之后的各项信息披露与声明第 4

11、页共 20 页简单金融成就梦想图表目录图 1 DALLE 设计“一颗白菜穿着芭蕾舞裙在遛狗”.5 图 2 DALLE-2 设计“一碗汤是另一个次元的入口.5 图 3 CLIP 需要的数据为图像及其标题，数据集中大约包含 4 亿张图像及描述.6 图 4 CLIP 的核心思路.6 图 5 从 GAN 到 Diffusion.7 图 6 扩散去噪的马尔可夫过程.7 图 7 Latent Diffusion model 方法.8 图 8 图像分类任务中使用 Vision Transformer 取得了较好的结果.9 图 9 google 的 Vision Transformer 的核心思路

12、.10 图 10 微软的 Swin Transformer 的核心思路.10 图 11 Facebook 的 MAE 的核心思路.11 图 12 参数到达一定规模后，模型能力提升显著.11 图 13 对于视觉任务进行反馈训练后任务效果显著提升.12 图 14 PaLM-E核心思路和可以做到的任务.13 图 15 用德语指令“把抽屉里的薯片拿过来”，机器人分为三个步骤完成指令 14 图 16 机器人完成指令“绿色色块推到乌龟旁边”.14 图 17 KOSMOS 可以感知视觉、语音、图像等输入.15 图 18 大模型/小模型两类公司路线区别.16 图 19 百度文心大模型和多行业工具平台.16 图

13、20 华为“空天.灵眸”大模型使用 ViT和Swin Transformer 自动提取遥感地物通用特征.17 表 1：AI 行业重点公司估值表.19 行业深度请务必仔细阅读正文之后的各项信息披露与声明第 5 页共 20 页简单金融成就梦想“模态”是指数据的存在形式,比如文本、音频、图像、视频等文件格式。多模态是一种全新的交互、生成模式，集合了图像、语音、文本等方式。我们认为，多模态/跨模态AI 大模型将得到相比 ChatGPT 等 NLP 大模型更大的应用。1、文生图：最先成熟的跨模态应用 1.1 DALL-E：初代爆款文生图应用，贡献了 CLIP 工具最早的跨模态实际在 GPT-

14、3 阶段已经出现，DALL-E 文生图 API 可以认为是首批出圈的跨模态-文生图应用。DALLE：基于 CLIP，可以按照文字描述、生成对应图片。DALLE 是 OpenAI 2021年发布的跨模态-文生图模型，DALLE 基于 GPT-3 技术，经过文本-图像数据集训练，具有120 亿参数。DALLE 能够创建拟人化的动物和物体，以合理的方式组合不相关的概念，渲染文本，以及对现有图像进行转换。图 1 DALLE 设计“一颗白菜穿着芭蕾舞裙在遛狗”图 2 DALLE-2 设计“一碗汤是另一个次元的入口资料来源：OpenAI 官网、申万宏源研究资料来源：OpenAI 官网、申万宏源研究 D

15、all-E一代的创新点：CLIP 形成文字和图片对照。1）在文字输入部分，仍然使用了与 GPE-3 类似的 transformer 语言模型，且参数量大幅降低。DALLE 有 12B 参数，相比 GPT-3 的 175B 大幅降低，模型由 64 个稀疏 transformer 块组成，该模型是在 250M 图像-文本对的数据集上训练的。训练后的模型根据提供的文本生成了几个样本（最多 512 个），然后再由 CLIP 进行排序。2）CLIP，暴力美学下的文本-图像对应工具，DALL-E 的最大创新点。行业深度请务必仔细阅读正文之后的各项信息披露与声明第 6 页共 20 页简单金融成就梦

16、想 CLIP（Contrastive Language-Image Pre-Training）用于将相关文本和图像对应，背后思路简单，Open AI 从网上爬虫，抓取已经有过描述的文本-图像数据集，但是数据集规模达到了 4 亿。图 3 CLIP 需要的数据为图像及其标题，数据集中大约包含 4 亿张图像及描述资料来源：新智元、申万宏源研究然后在数据集上训练对比模型。对比模型可以给来自同一对的图像和文本产生高相似度得分，而对不匹配的文本和图像产生低分。如下图左对比式无监督预训练 Contrastive pre-training。图 4 CLIP 的核心思路资料来源：Learning Tran

17、sferable Visual Models From Natural Language Supervision，申万宏源研究这一部分的预训练模型由两个编码器组成：一个用于文本，另一个用于图像。文本编码器：更小的 transformer，可以用来理解短文字。由 12 层组成，每层有 8个注意力头，总 63M 的参数。注意力跨度只有 76 个 token。相比之下 GPT-3 有 2048个 token，标准 BERT 有 512 个 token。图像编码器：可以是 CNN 也可以是 transformer。共有 9 个图像编码器，5 个卷积编码器（ResNet）和 4 个 transform

18、er 编码器（视觉 transformer，即 ViT，原理见下文）。最后推理阶段，无论何种图片只要就进行 Image Encoder 进行特征提取，会生成一个一维的图片特征向量，然后拿这个图片特征和 N 个文本特征做相似度对比，最相似的即为行业深度请务必仔细阅读正文之后的各项信息披露与声明第 7 页共 20 页简单金融成就梦想想要的那个结果。即 CLIP 在一次预训练后，可以方便的迁移到其他视觉分类任务上进行 Zero-shot 的预测。文本-图像匹配工具开源对文生图应用出现产生正向影响。2021 年 1 月 open ai开源了 CLIP，这也是后续众多文生图方法和工具得到飞

19、速进展的基础。2022 年 3 月，LAION开源了大规模跨模态数据库 LAION-5B，包含 5.85 B 图片-文本对。流行的 AI 绘画模型Stable Diffusion 正是利用 LAION-Aesthetics 训练出来的。1.2 从DALL-E 到Stable Diffusion：4 倍分辨率，背后是Diffusion 从 GAN 到 Diffusion。DALL-E 一代作画风格基本与艺术风格无关，只是简单的按照文字要求生成图片。在 CLIP 开源后，部分人尝试把其它 AI 连接到 CLIP 上，此时CLIP+VQGAN 等开源的作画工具出现（DALL-E 不开源）。但 GAN

20、类模型的生成结果始终不尽如人意，此时，另一种思路 Diffusion 模型（扩散去噪模型）出现。图 5 从 GAN 到 Diffusion 图 6 扩散去噪的马尔可夫过程资料来源：What are Diffusion Models?1、申万宏源研究资料来源：Denoising Diffusion Probabilistic Models、申万宏源研究 Diffusion 扩散模型通过反转逐渐的噪声过程来学习生成数据。噪声过程被视为一个参数化的马尔可夫链，它逐渐向图像添加噪声以破坏图像，最终（渐近地）产生纯高斯噪声。扩散模型学习沿着这条链向后导航，在一系列时间步长上逐渐消除噪声以逆转这一过

21、程。但 Diffusion 方法仍然存在缺陷。包括反向去噪生成图片的迭代过程很慢，模型在像素空间中进行计算，导致对计算时间和内存资源的巨大需求，在生成高分辨率图像时变得异常昂贵。从 Diffusion 到 Latent Diffusion。2022 年 7 月 Stable Diffusion 相比 Diffusion提升为，把模型的计算空间，从像素空间经过数学变换，在尽可能保留细节信息的情况下 1 https:/lilianweng.github.io/posts/2021-07-11-diffusion-models/行业深度请务必仔细阅读正文之后的各项信息披露与声明第 8 页共 2

22、0 页简单金融成就梦想降维到一个称之为潜空间（Latent Space）的低维空间里，然后再训练和图像生成。Stable Diffusion 使用的 Latent 潜空间编码缩减因子为 8，即 512x512 的图像在潜空间中直接变为 64x64，节省了 8x8=64 倍的内存。2022 年 8 月，Stable Diffusion 完全开源。图 7 Latent Diffusion model 方法资料来源：High-Resolution Image Synthesis with Latent Diffusion Models（Latent Diffusion Models）、申万宏

23、源研究 2022 年 4 月，同样基于 Diffusion 方法，Open AI 推出了 DALL-E 2（API，未开源）。升级版以 4 倍的分辨率开始生成更逼真、更准确的图像，不到 3 个月注册人数就突破 100 万。统统是 OpenAI 公布了 DALL-E 2 的 API 使用价格，按照不同尺寸有不同收费，10241024 的图片每张为 0.02 美元；512512 的图片每张 0.018 美元，而 256256 的图片则是每张 0.016 美元。总结 1）对于纯文本特征提取要求降低，不需要理解长文本，不需要理解多轮对话；对文本生成无要求。DALL-E 的参数量从 GPT-3 的 17

24、5B 降低到 12B 就是一个佐证；2）生成图片关键在于 CLIP，4 亿文本-图片对应数据，是暴力出奇迹的产物；3）Latent Diffusion 等方法提升了图片生成能力，降低了扩散去噪的成本，使之达到可商用水平；4）这个过程中大量关键工具已开源，我们看到的文生图应用也是最多最成熟的。2、CV 大模型：transformer 取代 CNN，参数已到百亿级别行业深度请务必仔细阅读正文之后的各项信息披露与声明第 9 页共 20 页简单金融成就梦想 2.1 CV+大模型的难度为何相比 NLP 更高在 CV 领域，为何基于传统 CNN+大参数的思路遇到瓶颈？从算子层面看，传统的 C

25、NNs 算子缺乏长距离依赖和自适应空间聚合能力；从结构层面看，传统 CNNs 结构缺乏先进组件。为何 CV 视觉+transformer+大模型发展相比 NLP 慢？实际上 2017 年 transformer推出之后，2018 年就有学者将其应用于 CV 图像领域，但当时应用效果未发现相比传统CNN 等算法有较大提升。当时常见做法是将自注意力和 CNN 一起使用，而原有结构基本不变，对于传统卷积神经网络仍有较高依赖。Transformers 用在 CV 上的难点。对于一个 Transformer 的 encoder，输入元素是一个个的单词，输出是一些元素。Transformers 自注意力操

26、作中，每个元素需要和每个元素互相进行两两互动，最后算得一个 Attention 自注意力图，通过加权平均，最后得到输出。由于单元间两两互动，因此复杂度是序列长度的平方，也就是 n2，在自然语言处理中，一个句子的长度一般就是几百或上千，例如 BERT 为 512 序列长度。而对于一个比较常见的 224 x 224 大小的图片，如果直接以每一个像素点为单位进行两两互动的话，那序列长度为 50176，大概为 BERT 序列长度的 100 倍，因此复杂度极高。2.2 学界尝试将 transformer 应用于 CV 大模型但在 2021 年后，随着 vit、swin transformer、mae

27、等论文推出，transformer在 CV 和跨模态等应用增加。图 8 图像分类任务中使用 Vision Transformer 取得了较好的结果资料来源：、申万宏源研究例如 2021 年 3 月，google 将尝试将自注意力机制和 transformer 直接应用在图像领域。在不依赖 CNN 结构的情况下，如何尽可能地将 Transformer 不做修改的迁移到 CV 行业深度请务必仔细阅读正文之后的各项信息披露与声明第 10 页共 20 页简单金融成就梦想领域，并取得了较好的效果。ViT 将输入图片分为多个 patch（16x16），再将每个 patch投影为固定长度的向

28、量送入 Transformer，后续 encoder 的操作和原始 Transformer 中完全相同。ViT 已被证明在迁移学习设置中具有良好的扩展性，在较少的预训练计算下，比 CNN 获得更高的准确率。图 9 google 的 Vision Transformer 的核心思路资料来源：AN IMAGE IS WORTH 16X16 WORDS:TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE、申万宏源研究 2021 年 8 月，微软研究院发表了 Swin Transformer。用了类似卷积神经网络中的层次化构建方法（Hierarchical fea

29、ture maps），比如特征图尺寸中有对图像下采样 4 倍的，8 倍的以及 16 倍的，这样的 backbone 有助于在此基础上构建目标检测，实例分割等任务。而在之前的 Vision Transformer 中是一开始就直接下采样 16 倍，后面的特征图也是维持这个下采样率不变。图 10 微软的 Swin Transformer 的核心思路资料来源：Swin Transformer:Hierarchical Vision Transformer using Shifted Windows、申万宏源研究 2021 年 11 月 Facebook 引入 MAE 方法。masked autoe

30、ncoders(MAE)方法是随机 mask（遮罩）掉一部分像素，能极大加速模型的训练速度并提升准确率。由于语言的信息密度更高，mask 部分文字可能使得语义完全不同；而图像的冗余度就很高，因此 mask掉部分信息可以大大减少冗余。行业深度请务必仔细阅读正文之后的各项信息披露与声明第 11 页共 20 页简单金融成就梦想图 11 Facebook 的 MAE 的核心思路资料来源：Masked Autoencoders Are Scalable Vision Learners、申万宏源研究基于 ViT 和 Swin Transformer 等方法，首次将 CV 模型扩大到 20

31、亿和 30 亿参数级别。其单模型在 ImageNet 数据集的分类准确率也都突破了 90%，远超传统 CNN 网络和小规模模型，突破了技术瓶颈。2.3 百亿参数级别的 CV 大模型有“涌现”能力了吗？CV 大模型会大幅提升标注数据需求吗？更大的模型参数可能产生类似量变到质变的“涌现”，这一情况在语言大模型 LLM 中已出现。2022 年 8 月，Google 发表论文重新探讨了模型效果与模型规模之间的关系。结论是：当模型规模达到某个阈值时，模型对某些问题的处理性能突然呈现快速增长。作者将这种现象称为 Emergent Abilities，即涌现能力。尽管到现在，涌现能力的原因仍没有得到较好的科

32、学解释。图 12 参数到达一定规模后，模型能力提升显著资料来源：Emergent Abilities of Large Language Models，申万宏源研究但似乎截至目前，百亿参数级别的 CV 大模型似乎仍未出现类似的惊人“涌现”能力，同时 CV 大模型的应用结合也相对更加困难。CV 大模型在应用上的一个难点是与实际应用相结合，目前社会中用的较多的视觉相关的深度学习模型主要包括物体检测，人脸识别以及缺陷检测（部分）相比 NLP 模型在实际中的使用少很多，因此将 CV 模型与实际生产相行业深度请务必仔细阅读正文之后的各项信息披露与声明第 12 页共 20 页简单金融成就梦

33、想结合发现更多的应用场景很关键。另外一个 CV 大模型应用的难点就是如何快速高效的使用蒸馏和知识迁移技术提升下游任务的性能。图像数据标注：基础标注减少，但是 RLHF 可能增加。首先，大规模预训练模型所追求的无监督学习本身就不需要大量前期数据标注。无监督学习意味着，在训练数据中，只需要给定输入，没有人工给出正确的输出，目的是让模型开放式地、自己学习数据之间的关系。其次，已有的图像大模型工具，实际上也通过各种方法减少数据标注需求。例如上文提到的 CLIP，直接从互联网上爬虫现成的文本-图片对，从而最大限度地减少标注成本和训练深度网络所需的工作量。CLIP 不需要标签并且在 ImageNet 上

34、实现 76.2%的测试准确率，远超之前 zero-shot 图像分类 11.5%的准确率，证明这一方式可行。如下文提到的 google palm-e 通过分析来自机器人摄像头的数据来实现对高级命令的执行，而无需对场景进行预处理。这消除了人类对数据进行预处理或注释的需要。但同时，RLHF 等需求可能增加。如我们此前深度大模型技术突破，AI 多场景落地，OpenAI 使用了一种通过人类反馈来强化学习(RLHF，Reinforcement Learning from Human Feedback)的现有技术，明显减少对话中的不真实、不良或负面的结果。此前 google 已有类似 CV RLHF 的

35、方法尝试。2023 年 2 月，google 在Tuning computer vision models with task rewards 中证明了，使用 REINFORCE 算法（Williams 于 1992 提出）来调整（Tuning）具有奖励函数的预训练模型可以开箱即用地用于各种计算机视觉任务。这项研究可能是实现视觉 RLHF 的有效途径。图 13 对于视觉任务进行反馈训练后任务效果显著提升资料来源：Tuning computer vision models with task rewards、申万宏源研究行业深度请务必仔细阅读正文之后的各项信息披露与声明第 13 页共

36、20 页简单金融成就梦想总结：1）使用传统 CNN 架构生产 CV 大模型难度较大；2）相比 NLP，Transformers 使用在 CV 中有一定难度；3）但在 2021 年后，随着 vit、swin transformer、mae 等论文推出，transformer在 CV 和跨模态等应用增加。CV 大模型参数量达到了百亿级别。4）视觉大模型能否实现类似 LLM 的“涌现”，且以何种方式改变应用，仍尚待研究；5）更大参数的数据模型并不直接意味着更多标注数据需求，但RLHF等需求可能增加。3、跨模态：更多应用可能性，中国 AI 公司参与热情暴增 3.1 Google：视觉语言模型大模

37、型 PaLM-E 2023 年 3 月 6 日，来自谷歌和德国柏林工业大学的一组人工智能研究人员公布了史上最大视觉语言模型 PaLM-E（Pathways Language Model with Embodied）2。PaLM包括了 540B 语言模型与 22B 视觉 ViT（Vison Transformer）模型，最终参数量达 562B。作为一种多模态具身视觉语言模型(VLM)，PaLM-E 不仅可以理解图像，还能理解、生成语言，另外可以将两者结合起来，处理复杂机器人指令。整体上，我们认为，palm-e 的亮点在于跨模态能力以及这种能力在人机交互中的应用，但在纯 NLP 任务中是否超过 c

38、hatGPT 仍未知，且 22B 的视觉大模型是否能带来“涌现”能力仍尚待讨论。图 14 PaLM-E 核心思路和可以做到的任务资料来源：palm-e github、申万宏源研究 2 https:/palm-e.github.io/#demo 行业深度请务必仔细阅读正文之后的各项信息披露与声明第 14 页共 20 页简单金融成就梦想亮点在于多模态大模型应用于人机交互领域。1）发现参数扩大有助于提升人机交互中的语言能力：语言模型越大，在视觉语言与机器人任务的训练中，保持的语言能力就越强，5620 亿参数的 PaLM-E 几乎保持了它所有的语言能力。2）对于机器人的长跨度、长周期任务

39、，以往通常需要人工协助，PaLM-E 通过自主学习全部完成，如下图左。3）展示了模型的泛化能力，研究人员要求机器人将“绿色色块推到乌龟旁边”的指令，即便机器人之前没有见过这只乌龟摆件，也能完成任务。图 15 用德语指令“把抽屉里的薯片拿过来”，机器人分为三个步骤完成指令图 16 机器人完成指令“绿色色块推到乌龟旁边”资料来源：palm-e github，申万宏源研究资料来源：palm-e github，申万宏源研究同时 palm-e 通过分析来自机器人摄像头的数据来实现对高级命令的执行，而无需对场景进行预处理。这消除了人类对数据进行预处理或注释的需要，并允许更自主的机器人控制。Googl

40、e 在 NLP 上为何暂时落后于 open ai？学界猜测的原因。和这次 palm-e 的路线选择。1）是否 decoder-only。在语言模型上 palm-e 选择了 decoder-only（只有解码器）结构。此前在 2018-2021年，谷歌路线为 encoder-only（只有编码器）3或encoder-decoder（编码解码器）4，而同一时期，open ai一直基于 decoder-only（只有解码器）路线迭代自己的 AGI 生成式大模型。直到 2021 年 10 月，Google 推出 FLAN（1370 亿参数），并从此开始重新转向只有 decoder

41、-only 模型，还提出了 ChatGPT 用到的 Instruction Tuning 概念。即中间有约 20 个月时间，google 并未使用 decoder-only结构，部分 AI 学者认为这是 google 在 AGI 产品上暂时落后于 open ai的原因之一。3 2018 年 10 月，谷歌提出 3 亿参数的 BERT（Bidirectional Encoder Representation from Transformers）。只有编码器，用一种完形填空的方法，其训练效果超过人类表现，宣告 NLP 范式的改变。4 2019 年 10 月，Google 发布了统一的模型框架 T5

42、，基于编码解码器的 T5（BERT 只有编码，GPT 只用解码），最大模型 110 亿参数并开放。行业深度请务必仔细阅读正文之后的各项信息披露与声明第 15 页共 20 页简单金融成就梦想 2）稀疏还是稠密。PaLM 是谷歌在 22 年 4 月发布的语言大模型，它是 Pathways架构训练出来的，Pathways 是一种稀疏模型架构。稀疏模型是谷歌 AI 这两年重点发展方向之一，目标就是训练出可执行成千上百种任务的通用模型。而同时 open ai 一直以稠密模型作为主要方向。3）是否人类反馈。根据公开资料看 palm-e 暂无这一提升。2017 年 DeepMind 最早提出了 R

43、LHF 概念，通过人工标注作为反馈，提升了强化学习在模拟机器人以及游戏上的表现效果。后续 open ai使用这一方法减少 chatGPT 中的有毒结果。但目前 google 仍未在已有应用中完整展示过这一提升。整体来看，本次 palm-e 尚未公布消费级 NLP 应用（如类似 chatGPT），因此基于plam-e 应用的纯 NLP 能力是否达到 chatGPT 水平仍不可知。3.2 微软和 OPEN AI：下一代 GPT 可能也是多模态此前 3 月 1 日，微软团队在论文Language Is Not All You Need:Aligning Perception with Langua

44、ge Models中介绍了一个多模态大型语言模型（MLLM）KOSMOS-1。它能理解文字与图像内容，未来会整合更多的输入模式，如音频、视频。除感知外，KOSMOS 可以做到遵循指令（Zero-shot）以及在上下文中学习（Few-shot）。图 17 KOSMOS 可以感知视觉、语音、图像等输入资料来源：Language Is Not All You Need:Aligning Perception with Language Models、行业深度请务必仔细阅读正文之后的各项信息披露与声明第 16 页共 20 页简单金融成就梦想申万宏源研究此外，微软计划在下周推出 GPT-

45、4，可能是一种多模态模型。3 月 9 日微软德国研讨会上，微软德国首席技术官 Andreas Braun 宣布“我们将在下周推出 GPT-4，是一种多模态模型。为用户带来不同的内容生成体验，例如，通过文本生成视频。”3.3 视觉/跨模态大模型是国内 AI 公司更擅长的国内擅长 CV 的 AI 公司，在 2022 年前对于基于 transformer 的大模型关注投入较少，但是我们认为随着视觉/跨模态大模型出现，应用类的 CV 公司也会开始关注并投入大模型。在此前ChatGPT/AIGC 九问九答AI 行业系列点评中我们提出：2021 年前国内大部分 AI 公司都以小模型路线为主，且在 CV

46、领域投入较多，NLP 领域投入相对少，原因可能包括，更多的 CV 人才，更完整的人脸等图像数据库、而 NLP 高质量语料库缺乏，更便宜的图像标注成本。2021 年后互联网公司和头部算法企业开始投入大模型研发，发布结果较多的包括百度、华为、阿里、商汤等，且从已经发布的论文和应用看，纯 NLP 能力较 open ai等弱，优势可能会在多模态融合、视觉大模型。图 18 大模型/小模型两类公司路线区别资料来源：申万宏源研究百度“文心”大模型：纯 NLP 能力领先，跨模态也有较多布局。应用场景涵盖：NLP大模型、CV 大模型、跨模态大模型、生物计算大模型、行业大模型。API 包括了：1）ERNIE3

47、.0文本理解与创作：预置作文生成、文案创作、情感分析等任务提示，2）ERNIE-ViLGAI 作画大模型，3）PLATO 大模型开放域对话服务。图 19 百度文心大模型和多行业工具平台行业深度请务必仔细阅读正文之后的各项信息披露与声明第 17 页共 20 页简单金融成就梦想资料来源：百度文心官网，申万宏源研究华为“盘古”大模型：重视下游产业合作。2021 年 4 月华为发布千亿参数 40TB 训练数据的中文语言（NLP）预训练模型，30 亿参数的视觉（CV）预训练模型。此后，华为深耕跨模态大模型的行业应用，例如遥感、矿山、气象等，成立 AI 流体力学、AI 生物医药、以及智慧育

48、种等产业联盟。图 20 华为“空天.灵眸”大模型使用 ViT 和 Swin Transformer 自动提取遥感地物通用特征资料来源：华为官网、申万宏源研究阿里“通义”大模型：强调了大模型的通用化能力。大模型底层 M6-OFA 底层的亮点是不引入新增结构，单一模型就可以同时处理超过 10 项跨模态任务，升级后可以处理超过30 种。在电商、设计、医疗、法律、金融等行业，落地 200 个场景。例如通用-视觉大模型可以在电商行业实现图像搜索和万物识别等场景应用，并在文生图以及交通和自动驾驶领域发挥作用；对话大模型可以与钉钉深度结合。腾讯“混元”大模型：跨模态视频检索能力领先。2022 年 4 月

49、，腾讯对外正式宣布，腾讯“混元”AI 大模型在 MSR-VTT，MSVD，LSMDC，DiDeMo 和 ActivityNet 五大跨模态视频检索数据集榜单中先后取得第一名的成绩。“混元“大模型应用到广告创作、广告检索、广告推荐等腾讯业务场景中。2021 年商汤发布书生(INTERN)大模型，覆盖 CV 领域四大任务。书生大模型可以同时解决图像分类、目标检测、语义分割、深度估计四大任务，与 CLIP 相比，在 CV 领域的行业深度请务必仔细阅读正文之后的各项信息披露与声明第 18 页共 20 页简单金融成就梦想四大任务 26 个数据集上，书生的平均错误率分别降低了 40.2%、4

50、7.3%、34.8%和 9.4%。目前商汤视觉大模型达到 320 亿参数，覆盖 10 个以上核心业务。总结 1）海外巨头在 2023 年后在跨模态预训练大模型上有更大投入；2）跨模态意味着更多应用可能性，包括人机互动、图片搜索，语音生成等；3）我们认为国内 AI 公司在跨模态/CV 大模型领域的能力强于纯 NLP 大模型，体现在202 2 年以前，百度、华为、阿里、腾讯、商汤等公司就已经开始尝试跨模态大模型应用；4）但国内跨模态大模型方法可能还有待更新。如此前部分国内跨模态大模型在图像特征提取上仍然使用了 ResNet 等，可能更新为 Vit 等 transformer 模型后会取得更好效果；

51、5）国内此前有成本优势的简单图像标注环节，在大模型时代可能变得没有那么重要，建议传统标注公司可以在 RLHF 上增加布局。4、推荐标的：视频、图像、文本素材：大华股份（工业场景视频素材和标注），海天瑞声（视频、图像数据标注），AI 领军、当虹科技算力和基础设施：中科曙光、拓维信息、寒武纪（AI 芯片）、浪潮信息、光通信和光模块多模态应用：1）文生图：新国都、中科创达（移动端文生图工具部署）2）机器人：三花智控、鸣志电器、绿的谐波 3）其他应用：汤姆猫（申万传媒）、万兴科技、昆仑万维（申万传媒）、风语筑（申万传媒）视觉和跨模态算法：商汤（港股）、云从科技、虹软科技、科大讯飞行业深度请务必

52、仔细阅读正文之后的各项信息披露与声明第 19 页共 20 页简单金融成就梦想表 1：AI 行业重点公司估值表证券代码公司名称 2023/3/10 Wind 一致预期归母净利润（亿元）PE PB(LF)总市值 2021A 2022E 2023E 2024E 2021A 2022E 2023E 2024E（亿元）002236.SZ 大华股份 488 33.78 26.68 33.17 38.11 14 18 15 13 1.94 688787.SH 海天瑞声 78 0.32 0.30 0.54 1.16 248 265 146 67 9.44 688039.SH 当虹科技 57 0.

53、61-0.99 1.02 1.48 94-56 39 4.21 603019.SH 中科曙光 472 11.58 15.15 20.05 25.97 41 31 24 18 2.78 002261.SZ 拓维信息 128 0.83-0.47 1.90 2.72 156-67 47 3.53 688256.SH 寒武纪-U 369-8.25-11.66-7.18-4.00-45-7.42 300130.SZ 新国都 82 2.01 3.23 4.57 5.93 41 25 18 14 2.70 300496.SZ 中科创达 459 6.47 7.69 11.16 15.03 71 60 41 3

54、1 5.06 002050.SZ 三花智控 839 16.84 24.63 30.61 37.72 50 34 27 22 7.22 603728.SH 鸣志电器 176 2.80 2.92 5.33 9.31 63 60 33 19 6.70 688017.SH 绿的谐波 192 1.89 1.59 2.78 3.76 101 121 69 51 9.95 300459.SZ 汤姆猫 206 7.08-29-5.37 300624.SZ 万兴科技 71 0.28 1.06 1.55 2.07 254 67 46 34 8.39 300418.SZ 昆仑万维 275 15.47 11.65 1

55、3.13 15.20 18 24 21 18 2.29 603466.SH 风语筑 86 4.39 1.28 3.88 4.76 19 67 22 18 4.07 688327.SH 云从科技-uw 205-6.32-8.51-5.23-0.37-9.70 688088.SH 虹软科技 111 1.41 0.56 1.83 2.74 79 197 61 41 4.31 002230.SZ 科大讯飞 1,106 15.56 7.70 18.53 26.13 71 144 60 42 6.95 资料来源：Wind、申万宏源研究风险提示：1）大模型技术中美仍存在差异，部分技术尚处于早期实验室阶段，

56、存在落地风险；实体清单等可能对训练硬件产生影响。2）由于应用场景碎片化，下游落地慢于预期。不同的行业、细分领域之间，甚至同一领域不同的企业之间，对 AI 应用的需求可能都有区别。AI 落地进度可能因为场景碎片化而低于预期。3）数据保护政策强化，可能限制 C 端的 AI 应用。各国对数据隐私和数据安全进一步强化保护力度，可能影响部分 AI 企业的数据采集分析，且 C 端 AI 应用受到影响更大。行业深度请务必仔细阅读正文之后的各项信息披露与声明第 20 页共 20 页简单金融成就梦想信息披露证券分析师承诺本报告署名分析师具有中国证券业协会授予的证券投资咨询执业资格并注册为证券分析

57、师，以勤勉的职业态度、专业审慎的研究方法，使用合法合规的信息，独立、客观地出具本报告,并对本报告的内容和观点负责。本人不曾因，不因，也将不会因本报告中的具体推荐意见或观点而直接或间接收到任何形式的补偿。与公司有关的信息披露本公司隶属于申万宏源证券有限公司。本公司经中国证券监督管理委员会核准，取得证券投资咨询业务许可。本公司关联机构在法律许可情况下可能持有或交易本报告提到的投资标的，还可能为或争取为这些标的提供投资银行服务。本公司在知晓范围内依法合规地履行披露义务。客户可通过索取有关披露资料或登录信息披露栏目查询从业人员资质情况、静默期安排及其他有关的信息披露。机构销售团队联系人华东 A

58、组陈陶华东 B 组谢文霓华北组李丹华南组李昇 L 股票投资评级说明证券的投资评级：以报告日后的 6 个月内，证券相对于市场基准指数的涨跌幅为标准，定义如下：买入（Buy）增持（Outperform）中性(Neutral)减持(Underperform)：相对强于市场表现20以上；：相对强于市场表现520；：相对市场表现在55之间波动；：相对弱于市场表现5以下。行业的投资评级：以报告日后的6个月内，行业相对于市场基准指数的涨跌幅为标准，定义如下：看好（Overweight）中

59、性(Neutral)看淡(Underweight)：行业超越整体市场表现；：行业与整体市场表现基本持平；：行业弱于整体市场表现。我们在此提醒您，不同证券研究机构采用不同的评级术语及评级标准。我们采用的是相对评级体系，表示投资的相对比重建议；投资者买入或者卖出证券的决定取决于个人的实际情况，比如当前的持仓结构以及其他需要考虑的因素。投资者应阅读整篇报告，以获取比较完整的观点与信息，不应仅仅依靠投资评级来推断结论。申银万国使用自己的行业分类体系，如果您对我们的行业分类有兴趣，可以向我们的销售员索取。本报告采用的基准指数：沪深300指数法律声明本报告仅供上海申银万国证券研究所有限公司（以下简称“

60、本公司”）的客户使用。本公司不会因接收人收到本报告而视其为客户。客户应当认识到有关本报告的短信提示、电话推荐等只是研究观点的简要沟通，需以本公司 http:/ 网站刊载的完整报告为准，本公司并接受客户的后续问询。本报告上海品茶列示的联系人，除非另有说明，仅作为本公司就本报告与客户的联络人，承担联络工作，不从事任何证券投资咨询服务业务。本报告是基于已公开信息撰写，但本公司不保证该等信息的准确性或完整性。本报告所载的资料、工具、意见及推测只提供给客户作参考之用，并非作为或被视为出售或购买证券或其他投资标的的邀请或向人作出邀请。本报告所载的资料、意见及推测仅反映本公司于发布本报告当日的判断，本报告所指的

61、证券或投资标的的价格、价值及投资收入可能会波动。在不同时期，本公司可发出与本报告所载资料、意见及推测不一致的报告。客户应当考虑到本公司可能存在可能影响本报告客观性的利益冲突，不应视本报告为作出投资决策的惟一因素。客户应自主作出投资决策并自行承担投资风险。本公司特别提示,本公司不会与任何客户以任何形式分享证券投资收益或分担证券投资损失，任何形式的分享证券投资收益或者分担证券投资损失的书面或口头承诺均为无效。本报告中所指的投资及服务可能不适合个别客户，不构成客户私人咨询建议。本公司未确保本报告充分考虑到个别客户特殊的投资目标、财务状况或需要。本公司建议客户应考虑本报告的任何意见或建议是否符合其特定

62、状况，以及（若有必要）咨询独立投资顾问。在任何情况下，本报告中的信息或所表述的意见并不构成对任何人的投资建议。在任何情况下，本公司不对任何人因使用本报告中的任何内容所引致的任何损失负任何责任。市场有风险，投资需谨慎。若本报告的接收人非本公司的客户，应在基于本报告作出任何投资决定或就本报告要求任何解释前咨询独立投资顾问。本报告的版权归本公司所有，属于非公开资料。本公司对本报告保留一切权利。除非另有书面显示，否则本报告中的所有材料的版权均属本公司。未经本公司事先书面授权，本报告的任何部分均不得以任何方式制作任何形式的拷贝、复印件或复制品，或再次分发给任何其他人，或以任何侵犯本公司版权的其他方式使用。所有本报告中使用的商标、服务标记及标记均为本公司的商标、服务标记及标记。

友情提示

1、下载报告失败解决办法
2、PDF文件下载后，可能会被浏览器默认打开，此种情况可以点击浏览器菜单，保存网页到桌面，就可以正常下载了。
3、本站不支持迅雷下载，请使用电脑自带的IE浏览器，或者360浏览器、谷歌浏览器下载即可。
4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩，下载后原文更清晰。

本文（计算机行业AIGC系列之五：跨模态更多应用场景出现中国公司得到更大机会-230313（20页）.pdf）为本站（securities）主动上传，三个皮匠报告文库仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对上载内容本身不做任何修改或编辑。若此文所含内容侵犯了您的版权或隐私，请立即通知三个皮匠报告文库（点击联系客服），我们立即给予删除！

温馨提示：如果因为网速或其他原因下载失败请重新下载，重复下载不扣分。