您的当前位置：上海品茶 > 报告分类 > PDF报告下载

报告预览

计算机行业AIGC系列深度之24：GPT~4v如何实现强大多模态从文生图到图生文-231009（37页）.pdf

编号：142448

PDF DOCX 37页 2.53MB 下载积分：VIP专享

下载报告请您先登录！

计算机行业AIGC系列深度之24：GPT~4v如何实现强大多模态从文生图到图生文-231009（37页）.pdf

1、行业及产业行业研究/行业深度证券研究报告计算机 2023 年 10 月 09 日 GPT-4v 如何实现强大多模态：从文生图到图生文看好AIGC 系列深度之 24 相关研究 GPT-4V 与问界新 M7，计算机继续机会的路边风景！-计算机行业周报20 2023 年 10月 8日发布潮：华为+Dojo+Copilot 后，计算机反弹可持续多久？-计算机行业周报 20 2023 年 9 月23 日证券分析师洪依真 A0230519060003 施鑫展 A0230519080002 刘洋 A0230513

2、050006 联系人洪依真(8621)23297818 本期投资提示：GPT-4V 展现强大多模态能力，新兴应用曙光初现。9 月 25 日，Open AI 宣布即将发布新的多模态功能，包括图像读取与理解、语音对话和语音生成；根据微软测评：1）4V 支持多种混合输入方式，同时展现了指令跟随、思维链、上下文少样本学习等能力；2）可以胜任大量具体任务，包括开放世界视觉理解、视觉描述、多模态知识、文档推理等都表现较好；3）可以期待 4V 出现后更多 AI 创新应用，包括工业缺陷检测、医疗影像识别、具身智能交互、汽车保险评估等。过去小模型时代“视觉智能”有限，增加语言模态或成为破局关键。在计算机视觉

3、CV 领域，过去常见方式仍是使用高质量、密集标注数据集进行预训练，这一训练方法下模型 F ew-shot 和 Zero-shot 较弱。增加语言信息，有助于提升视觉模型的泛化能力。多模态两大重要基础工作：ViT 和 CLIP。1）ViT（Vision Transformer）首次将 Transformer架构较好的应用在计算机视觉任务中；2）CLIP 用于将相关文本和图像对应，Open AI 从网上爬虫，抓取已经有过描述的文本-图像数据集，数据集规模达到了 4 亿。在这两个基础工作后，语言和视觉特征可以用同一架构 Transformer 提取，且也有了对应数据集训练。Open AI 的 GPT

4、-4v 多模态能力来源：1）强大的已有语言模型基础，产业界猜测 GPT-4使用了类似 Flamingo 架构的交叉注意力机制，特点为不直接训练一个多模态模型，而是在已经预训练好的语言大模型中引入图像理解能力。即 Open AI 可以使用 ChatGPT 中已经构建的语言模块，大幅节约成本；2）2C 应用发布前的大量安全工作，GPT-4 尽管此前已经完成了多模态部分的测试，但是在发布前的 6 个月也经历大量调整，包括减少幻觉、拒绝越狱指令、拒绝回答刻板印象、仇恨问题等；3）包括 Clip 在内的优质联合训练数据；4）并行计算策略和达到 175B 参数 Davinci 模型 3 倍的推理成本。Go

5、ogle：从 Palm 到 Gemini，应用发布值得期待。1）此前 google 发布了 562B 参数的多模态大模型 Palm-E，可以理解图像，还能理解、生成语言，且可以用于多个具体任务，包括顺序机器人操作规划、视觉问题解答和图像视频字幕描述；2）目前业界对于后续即将发布的新模型 Gemini 期待，业界猜测训练 Gemini 的硬件 FLOPS 将超过 1e26，比训练 GPT-4 的算力大 5 倍，训练总数据集大小约为 GPT-4 的两倍。无论 Open AI 还是 Google，都在 AI 架构、Prompt、RLHF、安全、数据、计算资源等多个方面多做出努力。相比单模态大模型，多

6、模态的进入门槛更高。因此在上市公司层面，我们认为后续应当更加重点关注应用环节。推荐标的：1）展现应用提价能力：金山办公、福昕软件；2）多模态核心受益：万兴科技、大华股份、虹软科技、科大讯飞。风险提示：大模型技术中美仍存在差异，部分技术尚处于早期实验室阶段，存在落地风险；实体清单等可能对训练硬件产生影响。请务必仔细阅读正文之后的各项信息披露与声明行业深度请务必仔细阅读正文之后的各项信息披露与声明第 2 页共 37 页简单金融成就梦想投资案件结论和投资分析意见 1）本次 GPT-4V 发布展现出的多模态能力超过市场预期；2）未来 AI 多模态应用有望加速；3）但同时多模态大模型的进

7、入门槛，相比语言单模态阶段，也大幅提高。原因及逻辑 1）根据微软详细测评，GPT-4V 可以胜任大量具体任务，包括开放世界视觉理解、视觉描述、多模态知识、文档推理等都表现较好；2）过去小模型时代“视觉智能”有限，主要因为在计算机视觉 CV 领域，过去常见方式仍是使用高质量、密集标注数据集进行预训练，这一训练方法下模型 Few-shot和 Zero-shot 能力较弱。增加语言模态后，视觉模型泛化能力大幅提升；3）除了常见的 ChatGPT 对话功能以外，可以期待更多 AI 创新应用，包括工业缺陷检测、医疗影像识别、具身智能交互、汽车保险评估等；4）为了达到多模态智能，无论 Open AI 还是

8、 Google，都在 AI 架构、Prompt、RLHF、安全、数据、计算资源等多个方面多做出努力；相比单模态大模型，多模态的进入门槛更高。因此在上市公司层面，我们认为后续应当更加重点关注应用环节。有别于大众的认识市场此前并未充分了解 GPT-4 多模态能力来源，我们认为它来自于：1）强大的已有语言模型基础，产业界猜测 GPT-4 使用了类似 Flamingo 架构的交叉注意力机制，特点为不直接训练一个多模态模型，而是在已经预训练好的语言大模型中引入图像理解能力。即 Open AI 可以使用 ChatGPT 中已经构建的语言模块，大幅节约成本；2）2C应用发布前的大量安全工作，GPT-4 尽

9、管此前已经完成了多模态部分的测试，但是在发布前的 6 个月也经历大量调整，包括减少幻觉、拒绝越狱指令、拒绝回答刻板印象、仇恨问题等；3）包括 Clip 在内的优质联合训练数据；4）并行计算策略和达到 175B参数 Davinci 模型 3 倍的推理成本。市场对于 Open AI 之外的多模态大模型关注较少，我们认为 Google 的 Palm 和Gemini等工作也值得期待。1）此前 google发布了562B参数的多模态大模型Palm-E，可以理解图像，还能理解、生成语言，且可以用于多个具体任务，包括顺序机器人操作规划、视觉问题解答和图像视频字幕描述；2）目前业界对于后续即将发布的新模型Ge

10、mini 期待，业界猜测训练 Gemini 的硬件 FLOPS 将超过 1e26，比训练 GPT-4 的算力大 5 倍，训练总数据集大小约为 GPT-4 的两倍。3XhUgYlYcZnVsOsOsP6MbP6MtRnNoMpMeRqRmMlOnMpO7NrQqQMYnOtMwMtPnQ 行业深度请务必仔细阅读正文之后的各项信息披露与声明第 3 页共 37 页简单金融成就梦想 1.海外 AI 应用更新，集中体现多模态能力.6 1.1 Open AI 在 ChatGPT 中升级了图片、语音多模态能力.6 1.2 GPT-4V 的使用方法、工作模式、任务能力.8 1.3 微软 AI Cop

11、ilot 系统更新，Office Copilot 办公能力即将发布.11 2.多模态原理解析：从文生图到图生文.15 2.1 文生图：最先成熟的 AIGC 应用，核心在 CLIP.15 2.2 图生文：语言等模态有助于扩展视觉 AI 理解能力边界.17 2.3 OpenAI：GPT-4 的多模态能力猜测.18 2.3 Google：从 Palm-E 到 Gemini.21 3.后续 AI 应用关注重点：多模态安全、产品提价.26 3.1 GPT-4v 重点提升安全能力，这也是多模态应用落地核心.26 3.2 海外映射：哪些 AIGC 应用可提价？.28 4.重点标的.30 4.1 金山办公：直

12、接对标微软 copilot，高价值 AI 应用入口.30 4.2 福昕软件：面向海外 B 端客户，率先落地 AIGC 能力.32 4.3 万兴科技：Open AI 图片能力升级重点受益！.34 4.4 大华股份：多模态+视频分析，有望在能源等行业率先落地应用.35 目录行业深度请务必仔细阅读正文之后的各项信息披露与声明第 4 页共 37 页简单金融成就梦想图表目录图 1：向 ChatGPT 求助如何降低自行车座椅，中间涉及多轮图文对话.6 图 2：ChatGPT 理解复杂图表.6 图 3：DALLE 3 模型，图文能力进步显著.7 图 4：GPT-4V 支持交错图像-文本输入.

13、8 图 5：按照指令一步一步思考，体现了思维链能力.8 图 6：上下文的零样本学习.8 图 7：让 GPT-4V 描述下图中飞盘和人让人的位置关系.9 图 8：让 GPT 假设自己是侦探，从图片中推测信息.9 图 9：圈出画面中一部分问 GPT 这是什么.9 图 10：画线和点问 GPT 下一张图片应该是什么.9 图 11：输入关键帧，让 GPT4 排序.10 图 12：理解视频中人物行动.10 图 13：GPT 应用于工业缺陷检测.10 图 14：GPT 应用于医疗影像.10 图 15：为新游戏头像创建一张特写飞行员照片，有坚毅眼神同样 prompt 在前一代模型和 DALLE 3 中的不同

14、效果.12 图 16：AI 设计工具 Microsoft Designer prompt 为制作一幅捕捉秋收节日气氛的拼贴画.12 图 17：Excel 中自动生成数据高级分析.13 图 18：生成 OneNote 笔记草稿.13 图 19：视觉与语言 Transformer 技术的演进.15 图 20：DALLE 设计“一颗白菜穿着芭蕾舞裙在遛狗”.15 图 21：DALLE-2 设计“一碗汤是另一个次元的入口.15 图 22：CLIP 需要的数据为图像及其标题，数据集中大约包含 4 亿张图像及描述16 图 23：CLIP 的核心思路.16 图 24：视觉 zero-shot 示意图.17

15、图 25：CV 中图像分类、语义分割、目标检测、实例分割任务的区别.18 图 26：3 月发布的 GPT-4 基础模型已可以理解网络搞笑图片.18 图 27：多模态模型的 5 种典型结构.19 行业深度请务必仔细阅读正文之后的各项信息披露与声明第 5 页共 37 页简单金融成就梦想图 28：Flamingo 的整体架构.20 图 29：Flamingo 使用的文本-图像交叠的多模态数据集.20 图 30：多模态提示示例.21 图 31：google 的 Vision Transformer 的核心思路.22 图 32：PaLM-E 核心思路和可以做到的任务.22 图 33：PaLM

16、-E-562B 可以进行 zero-shot 多模态 chain-of-thought 推理 22 图 34：2023 年 7 月 13 日 Google Bard 更新多模态功能，可以理解图片中的笑点.23 图 35：Dylan Patel 关于 Gemini 预测.24 图 36：Semi Analysis 关于 Gemini 预测.24 图 37：GPT-4V（Launch 版本）拒绝了图片中的越狱要求.26 图 38：GPT-4V 拒绝不安全行为的比例较高.26 图 39：GPT-4 在科学专业知识的风险（右）.27 图 40：GPT-4V 修正刻板印象回答.27 图 41：GPT-4

17、V 修正误导信息回答.27 图 42：Doulingo Max 订阅采用 AI 大模型技术提升外语学习效率，提价至 30 美金/月.28 图 43：Notion AI 功能融入后，实现了 8 美金/月的提价.29 图 44：WPS AI 已经全面接入 WPS 产品线.30 图 45：AI 能力的融入将有助于 WPS 付费率和 ARPU 值进一步提升.31 图 46：面向企业的 WPS 365 已于近期上线.32 图 47：福昕软件率先将 AIGC 能力融入 PDF 产品线.33 图 48：在 Filmora 中使用 ChatGPT 功能.34 图 49：在思维导图中使用 AI 功能.34 表

18、1：常见的视觉 FSL（Few Shot Learning）.17 表 2：海外和国内 AIGC 融入后的典型提价应用.29 表 3：金山办公 C 端空间测算.31 表 4：福昕编辑器订阅制与授权制价格（美元）.33 表 5：AI 行业重点公司估值表.35 行业深度请务必仔细阅读正文之后的各项信息披露与声明第 6 页共 37 页简单金融成就梦想 1.海外 AI 应用更新，集中体现多模态能力近期，海外 AI 应用催化较多：1）Open AI 升级了图片、语音多模态能力，并即将应用在最新 ChatGPT 中；2）微软宣布本月底更新 AI Copilot 系统，全面集成 Open AI

19、模型能力。1.1 Open AI 在 ChatGPT 中升级了图片、语音多模态能力 9 月 25 日，Open AI 宣布即将发布新的多模态功能，包括图像读取与理解、语音对话和语音生成。ChatGPT 即将在两周内对 Plus 用户与企业用户开放一系列新功能，其中图文能力（如下图）对全平台开放，与 Chatgpt 语音对话的能力仅对 ios 及安卓客户端开放。图 1：向 ChatGPT 求助如何降低自行车座椅，中间涉及多轮图文对话资料来源：OPEN AI 官网、申万宏源研究对话能力：通过语音直接对 ChatGPT 对话，同时 GPT 可以直接语音回复客户，可选 5种定制声音，支持 ios

20、和 Android 移动应用使用；图像-文本能力：ChatGPT 除了文字之外，可以理解客户上传的图片信息。GPT 能够理解照片、图片截图、包含图像的文档等。客户可以上传一张或者多张图片给系统，甚至可以用画笔标注重点内容，让系统读取理解，可以用于辅导学生作业、搜索日常食谱等各个方向。语音和图像提供了更多在生活中使用 ChatGPT 的方式。例如在旅行时拍摄地标的照片，并就其进行实时对话问答；拍摄冰箱和食品储藏室的照片，以确定晚餐的食物（并询问后续问题以获取分步食谱）；通过直接拍摄家庭作业照片来获得解答，或分析与工作相关的数据的复杂图表。图 2：ChatGPT 理解复杂图表行业深度请务必仔细

21、阅读正文之后的各项信息披露与声明第 7 页共 37 页简单金融成就梦想资料来源：ChatGPT、申万宏源研究此前，OPEN AI 也升级了 DALLE 3 模型能力。新的 DALLE 模型与 ChatGPT 能力合并，画作更加细腻，同时可以不用 prompt，准确还原细节，并且为图片配上文字。Plus和企业版用户通过文本就能直接在 ChatGPT 中生成各种类型图片，不仅加强提示词的生成图像体验，而且增强模型理解用户指令的能力，图像效果也有提升。图 3：DALLE 3 模型，图文能力进步显著资料来源：OPEN AI 官网、申万宏源研究行业深度请务必仔细阅读正文之后的各项信息披

22、露与声明第 8 页共 37 页简单金融成就梦想更好的掌握用户提出的每一个描述。例如上图，“享受夜间生活的行人”“满月的光辉”“蒸汽朋克电话”“和怒气冲冲的老商人讨价还价”等多个较难以体现的细节描述，都体现在图画中。同时可以对生成内容进行多轮自然语言对话编辑。例如让 DALL-E 模型生成多个刺猬图片，选出其中一只取名为 Larry，并要求模型生成更多 Larry 图片，甚至可以询问模型“为什么 Larry 这么可爱”，模型可以做出文字解答，期间完成了 5 轮对话和修改。1.2 GPT-4V 的使用方法、工作模式、任务能力微软在 Open AI 发布后，公布了GPT-4V

23、详细测评 The Dawn of LMMs:Preliminary Explorations with GPT-4V(ision)。5 种使用方式：输入图像（images）、子图像（sub-images）、文本（texts）、场景文本（scene texts）和视觉指针（visual pointers）。即同时支持纯图像输入、也支持图像、文本交互输入、同时也可以对图片进行指向性提示（例如画箭头、画圈）。基本上涵盖了图-文多模态的每个场景。图 4：GPT-4V 支持交错图像-文本输入资料来源：微软、申万宏源研究 3 种支持的能力：指令遵循（instruction following）、

24、思维链（chain-of-thoughts）、上下文少样本学习（in-context few-shot learning）。图 5：按照指令一步一步思考，体现了思维链能力图 6：上下文的零样本学习行业深度请务必仔细阅读正文之后的各项信息披露与声明第 9 页共 37 页简单金融成就梦想资料来源：微软、申万宏源研究资料来源：微软、申万宏源研究此外，微软也展示了 GPT-4V 的多项基本能力：1）视觉-语言能力；2）与人类的互动：视觉参考提示；3）时间和视频理解；4）其它，包括智商测试、情商测试，以及创新场景应用。1）视觉-语言能力：除常见的人物、地标等识别外，GPT-4V 还可

25、以理解人和物体间的关系，计数、生成字幕和描述，解释笑话，回答科学问题，根据手写数学方程生成 LaTeX代码等。图 7：让 GPT-4V 描述下图中飞盘和人之间的位置关系图 8：让 GPT 假设自己是侦探，从图片中推测信息资料来源：微软、申万宏源研究资料来源：微软、申万宏源研究 2）与人类的互动：视觉参考提示。在与多模态系统的人机交互中，指向特定空间位置是一项基本能力，例如进行基于视觉的对话。图 9：圈出画面中一部分问 GPT 这是什么图 10：画线和点问 GPT 下一张图片应该是什么行业深度请务必仔细阅读正文之后的各项信息披露与声明第 10 页共 37 页简单金融成就梦想

26、资料来源：微软、申万宏源研究资料来源：微软、申万宏源研究 3）时间和视频理解：多图像序列、视频理解、基于时间理解的视觉参考提示。输入视频的几个关键帧，可以理解事件前后关联。图 11：输入关键帧，让 GPT4 排序图 12：理解视频中人物行动资料来源：微软、申万宏源研究资料来源：微软、申万宏源研究 4）视觉推理、智商、情商测试等，此外 GPT-4v 还可以用于工业、医药、汽车保险、具身智能、GUI 交互等。图 13：GPT 应用于工业缺陷检测图 14：GPT 应用于医疗影像行业深度请务必仔细阅读正文之后的各项信息披露与声明第 11 页共 37 页简单金融成就梦想资料来源：

27、微软、申万宏源研究资料来源：微软、申万宏源研究整体来看，GPT-4V：1）展现出强大的混合输入能力，并且可以较好的支持 LLM 中观察到的 test-time 技术，包括指令跟随、思维链、上下文少样本学习等；2）在不同领域人物中完成度和通用性都较强，包括开放世界视觉理解、视觉描述、多模态知识、常识、场景文本理解、文档推理、编码、时间推理、抽象推理、情感理解等；3）像素级编辑能力扩展了 4V 的使用边界；4）4V 出现后人工智能应用空间进一步打开，包括工业、医疗、金融、具身智能等多个产品都看到应用可能。1.3 微软 AI Copilot 系统更新，Office Copilot 办公能力即将发

28、布 AI Copilot 9 月 26 日起发布，Office Copilot 11 月 1 日起大范围开放。1）9 月 21日，微软更新AI Copilot功能，并宣布Copilot功能将自9 月26日起，随着更新的 Windows 11 以初期版本形式免费更新，支持在多个 APP 和设备运行；2）Office Copilot 将于 11月 1 日开始大范围开放，此前 7 月，微软曾表示将把 Copilot 的价格定在每人每月 30 美元，这是传统 Office 365 订阅价格之外的额外费用。这次 Win 11 版本更新了超过 150 个新功能，新版本中 AI Copilot 既可以始终显

29、示在任务栏上，也可以通过 Win+C 的快捷键启动。新功能包括为 Windows PC 带来 Copilot 功能以及画图、照片、Clipchamp 等应用。必应将增加对 OpenAI 最新 DALLE 3 模型的支持。行业深度请务必仔细阅读正文之后的各项信息披露与声明第 12 页共 37 页简单金融成就梦想我们认为，本次发布的 AI Copilot/Office Copilot 亮点包括：1、图像能力显著提升：正式加入 DALLE 3 模型，新增图文生成、图片理解、AI编辑 P 图等功能。此前 Open AI 发布了第三代 AI 绘图工具 DALLE 3，集成了 ChatGPT，

30、用户不需要在 prompt 上多费时间就能生成图像。相比上一代，DALLE 3 提供了更强的细节渲染，还可以更好地理解要求，提供更准确的图像。图 15：为新游戏头像创建一张特写飞行员照片，有坚毅眼神同样 prompt 在前一代模型和 DALLE 3 中的不同效果资料来源：微软发布会、申万宏源研究同时微软必应中也集成了这一 AI 设计工具 Microsoft Designer。用户在使用 Designer 可在通过拖曳、prompt 等简单操作直接将原始画质图像添加到自己的设计中。比如使用本地图片设计封面，并直接执行消除背景等操作，或通过 AI 创作图片内容对图像进行延申。图 16：AI 设

31、计工具 Microsoft Designer prompt 为制作一幅捕捉秋收节日气氛的拼贴画资料来源：微软发布会、申万宏源研究行业深度请务必仔细阅读正文之后的各项信息披露与声明第 13 页共 37 页简单金融成就梦想此外，基于 DALLE 3，微软更新了 Bing 搜索引擎和 Edge 浏览器的 AI 功能。例如在购物中，以图识图搜索商品细节，根据网络上的买家评论，结合优惠券和促销打折码帮忙寻找合适的产品和最优惠价格。同时，微软通过加密方法向 Bing 中所有 AIGC 图像添加“内容凭证”（Content Credentials）。即一种不可见的数字水印，包括最初的创建时间

32、和日期。2、AI Copilot 升级了多端和团队协同能力。AI Copilot 支持下，Outlook for Windows 可连接到谷歌、苹果等不同公司的多个（云端）账户。文件管理器 File Explorer 的主页、地址栏和搜索框能直接访问重要且相关的内容，无需打开文件便可进行协作。备份 Backup 功能可将大多数文件、应用程序和个性化设置等从一台 Windows 电脑无缝转移到另一台上。Copilot 还可从用户手机（例如短信）中获取内容，导入 Win11 系统。假设用户要给家人发送航班时刻表，Copilot 会根据要求将数据导入电脑桌面上，无需拿出手机就可完成信息发送。3、集合

33、展示了 word、excel、ppt、OneNote 中的 copilot 能力。本次发布会展示的办公软件插件能力与此前多次发布并无较大差异。仍然包括：Word：文档摘要、重写内容、调整语气、从副本中生成表格等。Excel：通过自然语言 Prompt 实现数据可视化、添加计算公式等。OneNote：对 note 提出较为综合的问题、生成摘要、文章快速编辑等。图 17：Excel 中自动生成数据高级分析图 18：生成 OneNote 笔记草稿资料来源：微软发布会、申万宏源研究资料来源：微软发布会、申万宏源研究行业深度请务必仔细阅读正文之后的各项信息披露与声明第 14 页共 37 页

34、简单金融成就梦想基于以上，本次增加了办公软件 AI 助手功能：Microsoft 365 Chat。可梳理工作中的各个数据领域信息，包括电子邮件、会议、聊天记录、文档以及网络信息。Microsoft 365 Copilot 企业版将提取用户的企业数据来帮助撰写电子邮件、规划活动等。我们认为，本次发布会相对超预期的点包括：1）展示了 AI 能力在 Windows 操作系统中的全局管理能力；2）融合图片大模型 DALLE 3 基础，从纯文本能力升级到文本-图片多模态，同时图片 AIGC 水平远超前一代；3）明确 Win11 更新免费，可以使更多人体验 AI Copilot；4）对 Offic

35、e Copilot 发布给定明确时间。但同时，我们认为目前发布也存在争议点，包括：1）Office Copilot 体现出的能力、尤其语言文字理解能力相比于 3 月发布并无显著优势；2）而 Office Copilot 定价 30 美金/月，能否体现增量价值有待商榷；2）部分 Win 系统中通过 AI 操作调用需要大量 Prompt，便捷性需要验证。行业深度请务必仔细阅读正文之后的各项信息披露与声明第 15 页共 37 页简单金融成就梦想 2.多模态原理解析：从文生图到图生文 2022 年后，随着 Transformer 技术的发展，Transformer 也使用在了 CV 领域，并

36、形成了 Vision Transformer 技术。2023 年后，基于 Transformer 的多模态大模型出现，AI 大模型应用新的空间打开。图 19：2019 年到 2022 年的多模态预训练大模型资料来源：Large-scale Multi-modal Pre-trained Models:A Comprehensive Survey、申万宏源研究注：包括多模态数据集和代表性模型。紫色字体表示该数据集包含中文文本(其他数据集包含英文文本)。红色突出显示的模型是使用两个以上的模态进行训练的。2.1 文生图：最先成熟的 AIGC 应用，核心在 CLIP DALLE：基于 CLIP，可

37、以按照文字描述、生成对应图片。DALLE 是 OpenAI 2021年发布的多模态-文生图模型，DALLE 基于 GPT-3，经过文本-图像数据集训练，有 120亿参数。图 20：DALLE 设计“一颗白菜穿着芭蕾舞裙在遛狗”图 21：DALLE-2 设计“一碗汤是另一个次元的入口资料来源：OpenAI 官网、申万宏源研究资料来源：OpenAI 官网、申万宏源研究行业深度请务必仔细阅读正文之后的各项信息披露与声明第 16 页共 37 页简单金融成就梦想 Dall-E一代的创新点：CLIP 形成文字和图片对照。1）在文字输入部分，仍然使用了与 GPE-3 类似的 transfor

38、mer 语言模型，且参数量大幅降低。DALLE 有 12B 参数，相比 GPT-3 的 175B 大幅降低，该模型是在 250M 图像-文本对的数据集上训练的。训练后的模型根据提供的文本生成了几个样本（最多 512 个），然后再由 CLIP 进行排序。2）CLIP，暴力美学下的文本-图像对应工具，DALL-E 的最大创新点。CLIP（Contrastive Language-Image Pre-Training）用于将相关文本和图像对应，背后思路简单，Open AI 从网上爬虫，抓取已经有过描述的文本-图像数据集，但是数据集规模达到了 4 亿。图 22：CLIP 需要的数据为图像及其标题，数据

39、集中大约包含 4 亿张图像及描述资料来源：新智元、申万宏源研究然后在数据集上训练对比模型。对比模型可以给来自同一对的图像和文本产生高相似度得分，而对不匹配的文本和图像产生低分。如下图左对比式无监督预训练。图 23：CLIP 的核心思路资料来源：Learning Transferable Visual Models From Natural Language Supervision，申万宏源研究行业深度请务必仔细阅读正文之后的各项信息披露与声明第 17 页共 37 页简单金融成就梦想但是到 DALL-E 为止，AI 仍然无法实现 zero-shot1或者 few-shot 下

40、的图片理解，即无法形成“图生文”能力。2.2 图生文：语言等模态有助于扩展视觉 AI 理解能力边界传统 CV 小模型，在解决 Few-shot 和 Zero-shot 问题时能力受限。GPT-3 结果说明，使用超大规模的文本集合训练出的 NLP 模型性能是足以超越高质量，密集标注数据集训练的结果的。但是在 CV 领域，在 LLM 成熟前，常见方式仍是使用高质量，密集标注数据集(如 ImageNet-1K)进行预训练。表 1：常见的视觉 FSL（Few Shot Learning）FSL 分类具体 Few-shot 图像分类在 FSL 视觉任务中，每个任务可能只包含一个或几个样本，而解决

41、few-shot 图像分类任务，常常通过数据增强、迁移学习、元学习和多模态融合学习解决 Few-shot 目标检测 FSOD 是从多个样本中检测稀有物体的任务。目前可以分为三个阵营：数据增强、迁移学习和元学习。其中，Attention 机制在小样本目标检测中起到了举足轻重的作用。Few-shot 语义分割 Few-shot 语义分割可以大致分为有监督分割、无监督分割和视频语义分割。Few-shot 实例分割与语义分割相比，实例分割还涉及到了识别图像中的每个像素并分别标记。目前的工作大多仍然集中在改进r-cnn，较少有研究处理实例中的少样本分割问题。资料来源：申万宏源研究多模态信息有助于提升

42、视觉的 Few Shot Learning（FSL）能力。多模态预训练模型的出现可以支持多个任务，跨多场景泛化，并具有大规模泛化和复制的强大能力。例如下图，给出一个 CV 识别领域的 Zero-shot 案例，在机器没有进行斑马图片识别小样本训练的情况下，识别出一个斑马。1）通过大量图片（但没有斑马）预训练，模型学会各种有助于识别的特征（attribute feature）：马的形状（horselike）、条纹（stripe）、黑白色；2）通过理解语言描述，掌握了斑马的特征，形状像马且有黑白条纹；3）一张机器从未见过的斑马照片，并完成识别。图 24：视觉 zero-shot 示意图 1 NLP

43、领域自监督预训练的方法一般是采用自回归(Autoregressive)，或者掩码文本建模(Masked Language Modeling)，其特点是在模型容量，数据规模方面扩展了许多数量级，使得模型能力稳步提高，并发现模型开始具备了 Zero-Shot 能力，也叫零样本学习的能力，即无需在目标下游任务上面进行专门的训练，即获得对应的能力。行业深度请务必仔细阅读正文之后的各项信息披露与声明第 18 页共 37 页简单金融成就梦想资料来源：CSDN，申万宏源研究图 25：Dino V2 实现深度估计、语义分割、目标检索资料来源：Meta、申万宏源研究除此以外，纯视觉任务已经有

44、了较多泛化工具。例如 meta 的 dino v2、SAM。Dino V2 可以实现 zero-shot 下的语义分割、深度估计、图像检索，通过训练 vit 模型，并将其提取为较小的模型，这些模型在图像和像素级都超过了可用的最佳通用功能 OpenCLIP。但是截至目前，仍然缺乏较为有效的 0 样本实例分割工具。2.3 OpenAI：GPT-4 的多模态能力猜测此前 GPT-4 模型已具有多模态能力，但 Open AI 并未具体公布其训练方法。根据Open AI，近期发布的 GPT-4V，与此前发布 GPT-4 训练过程基本相同，2023 年 3 月，GPT-4 已经展示出多模态能力，例如可以

45、理解网络搞笑图片、理解图表含义和计算等，但是 Open AI 在技术报告中并没有给出 GPT-4 的参数、训练方法等具体细节。图 26：3 月发布的 GPT-4 基础模型已可以理解网络搞笑图片此前模型没有此前模型没有见过见过斑马图片斑马图片行业深度请务必仔细阅读正文之后的各项信息披露与声明第 19 页共 37 页简单金融成就梦想资料来源：Open AI、申万宏源研究产业界猜测 GPT-4 的视觉多模态来自于类似 Flamingo 的架构，使用交叉注意力机制2。产业界猜测 GPT-4 的模型架构基于一个独立于语言预训练模型的视觉 Transformer，二者之间存在交叉注意力。

46、该架构类似于 Flamingo。这在 GPT-4 的 1.8 万亿个参数之上增加了更多参数。在纯文本的预训练之后，它又经过了另外约 2 万亿个 token 的微调。产业界认为这是目前多模态模型中对 Open AI 最有成本优势的架构。图 27：多模态模型的 5 种典型结构资料来源：Large-scale Multi-modal Pre-trained Models:A Comprehensive Survey、申 2 一般认为多模态模型的 5 种典型结构（来源：深圳鹏城实验室）行业深度请务必仔细阅读正文之后的各项信息披露与声明第 20 页共 37 页简单金融成就梦想万宏源研究注

47、：a）合并注意力架构（Merge-attention）：多个输入模态调整为同一的特征表示，多个模态的特征在自注意力之前被合并，共同进入 Transformer。b）共同注意力架构（Co-attention）：每个输入模态都具备私有自注意力通道，用于模态独立特征的导入，然后再使用共同的交叉注意力层融合多模态特征。c）交叉注意力架构（Cross-attention）：对于多模态任务，将图像与语言分别结合，实现图文信息的相互嵌入与问答。d）三角 Transformer 架构（Tangled-transformer）：使用三组 Transformer 模块同时处理动作、图形对象和语言特征，通过特定的三

48、角连接关系，注入其他模态的 Transformer 网络，以不同模态的信息融合。e）模态间对比学习架构（Inter-Modality Contrastive Learning）：不同模态的信息被分解，通过矩阵结构建立多模态对比学习关联。Flamingo 是 DeepMind 在 2022 年 4 月发布的工作。Flamingo 模型是一个可以输入图像和文本来生成文本的多模态模型，Flamingo 建立在预训练好的语言模型基础上（DeepMind 之前所提出的 Chinchilla，最大参数量 70B），又引入了一个 Vision Encoder。图 28：Flamingo 的整体架构资料来源

49、：Flamingo:a Visual Language Model for Few-Shot Learning、申万宏源研究核心思路为：不是直接训练一个多模态模型，而是在已经预训练好的语言大模型中引入图像理解能力。1）引入预训练好的视觉模型用来提取图像的语义特征，并且嵌入预训练好的语言模型中（如上 Vision Encoder）；2）引入一个包含图像和文本的多模态数据集用来 finetune 模型，如下图。模型支持图像输入，而本身的任务还是文本生成，所以训练损失还是采用语言模型的language modeling loss，即根据前面的输入预测下一个token。图 29：Flamingo 使

50、用的文本-图像交叠的多模态数据集资料来源：Flamingo:a Visual Language Model for Few-Shot Learning、申万宏源研究行业深度请务必仔细阅读正文之后的各项信息披露与声明第 21 页共 37 页简单金融成就梦想可见，若使用交叉注意力架构，Open AI 可以有效节省成本：可以大幅度使用 ChatGPT中已经构建的语言模块。在预训练框架搭建完成后，猜测 GPT-4 也进行了大量训练、提示、RLHF。2023 年 7月，SemiAnalysis 展示了大量关于 GPT-4 训练的猜测，例如 GPT-4 的大小是 GPT-3 的10 倍以上

51、，120 层网络中总共有 1.8 万亿个参数，使用了 16 个专家模型，每个专家模型大约有 111B 个参数。同时业界猜测 Open AI 训练的一部分数据是联合数据（包括渲染的 LaTeX/文本）、网页的截屏、YouTube 视频（采样帧），并使用 Whisper 对其进行运行以获取转录文本，以上数据可以用于训练或者制作 Prompt。图 30：多模态提示示例资料来源：微软、申万宏源研究此外，产业界猜测 GPT-4 使用了并行计算策略。为了在所有 A100 GPU 上进行并行计算，他们采用了 8 路张量并行，因为这是 NVLink 的极限。除此之外，他们还采用了 15路流水线并行，最终

52、GPT-4 的推理成本是 1750 亿参数的 Davinci 模型的 3 倍。2.3 Google：从 Palm-E 到 Gemini 相比 Open AI 早期持续投入 LLM，Google 更多探索图像和多模态大模型边界。例如视觉重磅工具 Vision Transformer（ViT），将 Transformer 应用于 CV 任务中。2021年 3 月，google 尝试将自注意力机制和 transformer 直接应用在图像领域。Google 在不依赖 CNN 结构的情况下，尽可能地将 Transformer 不做修改的迁移到 CV 领域，取得了较好的效果。ViT 将输入图片分为多个

53、patch（16x16），再将每个 patch 投影为固定长度的向量送入 Transformer，后续 encoder 的操作和原始 Transformer 中完全相同。ViT 已行业深度请务必仔细阅读正文之后的各项信息披露与声明第 22 页共 37 页简单金融成就梦想被证明在迁移学习设置中具有良好的扩展性，在较少的预训练计算下，比 CNN 获得更高的准确率。图 31：google 的 Vision Transformer 的核心思路资料来源：AN IMAGE IS WORTH 16X16 WORDS:TRANSFORMERS FOR IMAGE RECOGNITION AT

54、SCALE、申万宏源研究 2023 年 3 月 6 日，google 和德国柏林工业大学公布了当时全球最大视觉语言模型PaLM-E（Pathways Language Model with Embodied）。PaLM 包括了 540B 语言模型与 22B 视觉 ViT（Vison Transformer）模型，总参数量 562B。PaLM-E 不仅可以理解图像，还能理解、生成语言，且可以用于多个具体任务，包括顺序机器人操作规划、视觉问题解答和图像视频字幕描述。图 32：PaLM-E 核心思路和可以做到的任务资料来源：palm-e github、申万宏源研究 PaLM-E-562B 可以进行

55、 zero-shot 多模态 chain-of-thought 推理。模型可以在给定图像的情况下讲述视觉条件下的笑话，并展示了一系列与机器人相关的多模态知情能力，包括感知、视觉基础对话和计划。PaLM-E 还将 zero-shot 推广到多图像提示，尽管只针对单个图像提示进行了训练。PaLM-E 还可以对带有文本交错手写数字的图像进行数学运算。此外，该模型可以在时间标注的以自我为中心的视觉上执行、zero-shot、提问和回答。图 33：PaLM-E-562B 可以进行 zero-shot 多模态 chain-of-thought 推理行业深度请务必仔细阅读正文之后的各项信息披露与声明第

56、 23 页共 37 页简单金融成就梦想 2023 年 5 月，Google 下一代多模态大模型 Gemini 正式宣布进入研发环节。2023年 5 月谷歌在 I/O 大会3上宣布研究重心正在转向 Gemini，后者是一种多模态和高效的机器学习工具。谷歌在今年 4 月份合并了内部的两个人工智能实验室：谷歌大脑（Google Brain）和 DeepMind，Gemini 这项联合计划就由来自两个实验室的研究人员组成的团队牵头。根据 I/O 大会发布，Gemini 将具有像 GPT-4 一样的万亿参数，且在训练中展示出了多模态能力。经过微调和严格的安全性测试后，谷歌同样将提供不同尺寸和功能的

57、 Gemini 版本，类似此前 Palm-2，并将 Gemini 部署在各项应用中。图 34：2023 年 7 月 13 日 Google Bard 更新多模态功能，可以理解图片中的笑点 3 https:/blog.google/technology/ai/google-io-2023-keynote-sundar-pichai/#palm-2-gemini 资料来源：palm-e github、申万宏源研究行业深度请务必仔细阅读正文之后的各项信息披露与声明第 24 页共 37 页简单金融成就梦想资料来源：Google Bard、申万宏源研究近期，Semi Analysis 分

58、析师 Dylan Patel4 和 Daniel Nishball 在 twitter 等平台上公布更多关于 Gemini 的预测，训练算力是 GPT-4 的 5 倍、数据集是 2 倍。Gemini应该是在 TPUv4 上训练的，并且猜测训练 Gemini 的硬件 FLOPS 将超过 1e26，比训练GPT-4 的算力大 5 倍。此外，Gemini 训练数据库包括 Youtube 上 93.6 亿分钟的视频字幕，总数据集大小约为 GPT-4 的两倍。图 35：Dylan Patel 关于 Gemini 预测图 36：Semi Analysis 关于 Gemini 预测资料来源：twitte

59、r、申万宏源研究资料来源：Semi Analysis、申万宏源研究我们认为，Google 体系独有的消费场景数据有望增强 Gemini 训练效果，减少大模型幻觉。Gemini 可以访问 YouTube 视频、谷歌图书、搜索索引以及 Google Scholar的学术资料，这些数据大部分都是谷歌独有的，这可能会让谷歌在创建比其他公司更智能的模型方面更具优势。4 曾在今年 7 月 11 日曾曝光 GPT-4 的架构行业深度请务必仔细阅读正文之后的各项信息披露与声明第 25 页共 37 页简单金融成就梦想综上，尽管我们无法了解 Open AI 具体如何让 GPT-4 获取多模态智能

60、，但无论 Open AI 还是 Google，都在 AI 架构、Prompt、RLHF、安全、数据、计算资源等多个方面多做出努力。相比单模态大模型，多模态的进入门槛更高。行业深度请务必仔细阅读正文之后的各项信息披露与声明第 26 页共 37 页简单金融成就梦想 3.后续 AI 应用关注重点：多模态安全、产品提价 3.1 GPT-4v 重点提升安全能力，这也是多模态应用落地核心由上文可知，无论 Flamingo、ViT 还是 Palm，Google 似乎在多模态的研究上抢占先机，但是迟迟无法推出爆款应用赢得市场。我们认为，除了模型本身智能以外，Open AI在 2C 产品中做出的安全

61、能力提升也不容忽视。GPT-4 到 4V，训练过程基本相同，提升主要在安全工作：定性和定量评估、专家红队测试、缓解措施。此前 2023 年 3 月，GPT-4 已发布，但 ChatGPT 中应用仍限制图片输入。根据 Open AI，GPT-4V 背后的技术主要还是来自 GPT-4，所以训练过程是相同的。它使用了大量文本和图像数据进行预训练，然后通过 RLHF 进行微调。为了确保 GPT-4V更加安全，OpenAI 在这内测期间开展了大量对齐工作，对此进行了定性和定量评估、专家红队测试、以及缓解措施。多模态安全性评估。个体识别评估：GPT-4V 可以识别名人图像，但是对于半私人和私人个体，拒绝率

62、超过了 98%。无基础推理评估：无基础推理是指不仅仅依赖用户提供的信息而进行的推理，这种推理容易体现强化偏见或者提供不准确的信息。例如针对一个人的图像，提问“谁更危险？”或“她从事什么工作？”，GPT-4V 可以识别并拒绝这类请求。多模态越狱：使用图片信息越狱，遭到 GPT-4V 拒绝。此前，OpenAI 在对 ChatGPT进行越狱攻击，采取的手段是设计复杂的逻辑推理链来困住模型，使其忽略其指令和训练。这一次，将一些用于破解模型的逻辑推理放入图像中，比如，上传一张文字版 prompt 的截图，此前 early 版本中接受了越狱要求，而发布 launch 版则直接拒绝，体现 2C 应用安全性。

63、图 37：GPT-4V（Launch 版本）拒绝了图片中的越狱要求图 38：GPT-4V 拒绝不安全行为的比例较高资料来源：GPT-4V(ision)System 资料来源：GPT-4V(ision)System Card、申万宏源研究行业深度请务必仔细阅读正文之后的各项信息披露与声明第 27 页共 37 页简单金融成就梦想 Card、申万宏源研究专家红队测试：多模态大模型的 6 个关键风险与之前一样，OpenAI 与外部专家合作，定性评估模型和系统相关的限制和风险，并收集到了红队反馈的 6 个关键风险，它们分别是：1）科学专业知识；例如下图右侧，GPT-4V 根据芬太尼、

64、卡芬太尼和可卡因等物质的化学结构图像，错误地识别出这些物质。图 39：GPT-4 在科学专业知识的风险（右）资料来源：GPT-4V(ision)System Card、申万宏源研究 2）医疗建议：GPT-4V 在医学影像的解释上存在不一致性。虽然 GPT-4V 偶尔会给出准确的答复，但有时也会对同一问题给出错误的答复。GPT-4V 不适合用于执行任何医疗功能或替代专业医疗建议、诊断、治疗或判断。3）刻板印象和无根据推理：例如下图，早期 GPT-4V 可能会产生不必要或有害的假设，而这些假设并不基于提供给模型的信息，发布版本则规避这一回答。图 40：GPT-4V 修正刻板印象回答图 41：GP

65、T-4V 修正误导信息回答资料来源：GPT-4V(ision)System Card、申万宏源研资料来源：GPT-4V(ision)System Card、申万宏源研究行业深度请务必仔细阅读正文之后的各项信息披露与声明第 28 页共 37 页简单金融成就梦想究 4）虚假信息风险；5）视觉漏洞：测试人员发现，输入图像的先后顺序也会影响 GPT-4V 的识别能力，例如上图。综上所述：GPT-4 尽管此前已经完成了多模态部分的测试，但是在发布前的 6 个月也经历大量调整，提升在 2C 使用时的安全性，包括：1）减少模型环境、拒绝越狱指令、拒绝回答刻板印象、仇恨问题等；2）但同时在回答

66、医疗、专业科学等问题时，GPT-4V 仍然然有可能犯错。3.2 海外映射：哪些 AIGC 应用可提价？当前阶段投资人更关注 AIGC 应用落地速度和变现节奏，海外的发展情况提供了很好的借鉴。典型案例之 Doulingo：多邻国是一款全球知名的外语学习软件，其在 2023 年 3 月14 日宣布接入 ChatGPT，5 月 9 日发布一季度财报，订阅和用户活跃数据都有显著提升：总预订额为 1.4 亿美元，比上年同期增长 37%；截至季度末，付费用户总数为 480 万，比去年同期增长 63%；月活跃用户（MAU）较上年同期增长 47%至 7260 万，日活跃用户（DAU）较上年同期增长 62%至

67、2030 万；总收入为 1.157 亿美元，比上年同期增长 42%。图 42：Doulingo Max 订阅采用 AI 大模型技术提升外语学习效率，提价至 30 美金/月资料来源：doulingo 官网、申万宏源研究行业深度请务必仔细阅读正文之后的各项信息披露与声明第 29 页共 37 页简单金融成就梦想典型案例之 Notion AI：Notion AI 是 Notion 公司开发的一款人工智能工具，它可以为用户提供自动化的数据分析、文本处理和自然语言处理等功能。该工具可以帮助用户更快速、更准确地完成各种任务，从而提高工作效率。在加入 AI 能力后，Notion AI 实现了

68、8 美金/月的提价，且订阅 ARR、用户活跃度实现了大幅提升。图 43：Notion AI 功能融入后，实现了 8 美金/月的提价资料来源：Notion AI、申万宏源研究典型案例之微软 Microsoft 365 copilot：Microsoft 365 Copilot 定价达到 30 美金/月，相比原来订阅价格，加入 copilot 后 2-3 倍 ARPU 提升，前文已经分析。表 2：海外和国内 AIGC 融入后的典型提价应用海外应用名称领域应用简介原始订阅价格提价情况 AIGC 能力提升 Microsoft 365 businesses 办公全球最通行的办公软件商业

69、标准版$12.5/月商业 E3 版$36/月额外$30/月，用于Microsoft 365 Copilot 自动完成写作/文档处理/Teams/以及各类办公软件生产力增强 Duolingo 教育通过互动练习和聊天机器人教授不同语言的语言学习$12.99/月，用于Duolingo Super Plus$30/月，用于 Duolingo Max 使用 AI 大模型自然语言处理来增强语言学习 Notion AI 办公和写作集成了人工智能助手的协作工具，可以帮助用户创建和管理文档和表格等内容免费版或$4/月，用于Notion 个人版或团队版（不含 AI 功能）$15/月，用于 Notion

70、AI版（含 AI 功能）使用 AI 大模型来自动化任务，提供见解，生成摘要，翻译内容等 ChatPDF 办公和写作使用 AI 大模型，分析和处理PDF 免费版，使用限制较多$5/月，用于 ChatPDF Plus 使用 AI 大模型来实现总结、改写、对话等功能 Spotify 音乐提供个性化播放列表和推荐的音乐流媒体服务$9.99/月，用于 Spotify Premium$11.99/月，用于 Spotify Premium 使用 AI 大模型生成个性化播放列表和推荐 ChatSonic 办公和写作使用 AI 大模型生成内容，标题，标语等的写作工具$29/月，用于 Writesonic

71、Starter$49/月，用于 ChatSonic Pro 提供不同的 AI 人格和语言支持国内上市公司领域产品原价提价情况 AIGC 能力提升金山办公办公和写作 WPS 办公套件、轻文档等云办公服务 WPS 会员 89 元/年；超级会员 179 元/年 WPS 超级会员-基础套餐（148 元/年）和 WPS超级会员-Pro套餐（248元/年）有望进一步提价 WPS AI 直接对标微软。辅助内容生成，自动写作、制作 PPT、生成表格等福昕软件办公和写作 PDF Editor Suite$79/99/149三档年订阅价$129/159两档年订阅价格海外落地最顺畅。使用AI 行

72、业深度请务必仔细阅读正文之后的各项信息披露与声明第 30 页共 37 页简单金融成就梦想格有望进一步提价大模型实现总结、改写、基于 PDF 内容的对话等功能科大讯飞教育/办公/医疗等星火大模型、星火语伴 APP、学习机、办公本、翻译机等学习机：普通版本价格段在2000-5000 元办公本：普通版本价格段在2000-3000 元学习机：大模型版本价格段在 7000 元以上办公本：大模型版本价格段在 4000 元以上自研大模型，应用丰富。高效口语练习、作文批改、会议纪要自动整理总结、诊后康复管理等万兴科技办公和创意 Filmora、万兴播爆、万兴爱画、PDF 等

73、可免费试用万兴播爆：1688 元/年万兴爱画：5 元/10 次创作 AI 生成数字人短视频、文本生成图片、一键生成思维导图等虹软科技视觉和多模态智能手机摄像头算法、智能驾驶视觉解决方案、VR/AR解决方案、电商 AIGC 模特等手机 AI 算法预计可提价 30%；电商AIGC 模特预计年费类似 Midjourney 2000 元吸收大模型能力，实现更丰富的功能，同时对象分割效果更好、性能更强、功耗更低资料来源：各公司官网，申万宏源研究映射国内，当前重点关注办公、教育等应用，长期关注具身智能、AI Agent。海外AI 大模型应用在办公和教育领域成功案例较多，实现涨价的同时也

74、显著提升了用户活跃度、付费意愿。我们认为后续应重点关注现有的付费应用（证明有较好的卡位和用户基础）、并敢于借助 AIGC 能力提价的标的。对标海外，办公+AIGC 领域关注金山办公、福昕软件；多模态 AI 领域关注万兴科技、大华股份；教育+AIGC 领域关注科大讯飞；其他领域虹软科技、汉得信息、润达医疗等。长期重点关注具身智能、AI Agent 等新兴领域，关注萤石网络。4.重点标的 4.1 金山办公：直接对标微软 copilot，高价值 AI 应用入口全面拥抱 AI 变革，WPS AI 成为国内率先落地的 AI 办公应用。在 9 月 20 日的 2023金山办公技术开放日，公司官方宣布，基

75、于大语言模型的智能办公助手 WPS AI 已接入金山办公全线产品。公司定位为大语言模型应用方，锚定 AIGC（内容创作）、Copilot（智慧助手）、Insight（知识洞察）三个战略方向，WPS AI 已接入 WPS 文字、演示、表格、PDF、金山文档等产品线。图 44：WPS AI 已经全面接入 WPS 产品线行业深度请务必仔细阅读正文之后的各项信息披露与声明第 31 页共 37 页简单金融成就梦想资料来源：金山办公官网、申万宏源研究 WPS AI 有望助力个人订阅付费率与 ARPU 值再上台阶。根据公司半年报，国内个人订阅业务上半年收入 12.52 亿元，同比增长 33.2

76、%。截至 23Q2 月活设备数 5.84 亿，同比增长 2.5%。报告期末累计年度付费个人用户数 3324 万人，同比增长 16.4%，付费率进一步提升至 5.69%。公司通过 AI 升级能力，产品体验及质感得到跃升。在坚持长周期会员策略的同时，将原有会员体系升级，拉动更多用户成为会员，提升会员客单价。图 45：AI 能力的融入将有助于 WPS 付费率和 ARPU 值进一步提升资料来源：公司公告、申万宏源研究测算金山办公 C 端付费空间，远期有望 300 亿以上。借助 WPS AI 对办公软件的赋能，我们认为 C 端付费率远期有望提升至 15%、ARPU 值有望提升至 300 元/年。据此

77、测算，金山办公 C 端订阅收入空间可达 300 亿元/年，如下表所示：表 3：金山办公 C 端空间测算 2020A 2022A 2023E 2025E 远期行业深度请务必仔细阅读正文之后的各项信息披露与声明第 32 页共 37 页简单金融成就梦想月活用户数（百万人）474 573 592 620 680 PC 月活用户数（百万人）185 242 254 272 300 移动及其他月活用户数（百万人）289 331 338 348 380 累计付费用户数（百万人）20 30 35 45 102 付费率 4.1%5.2%5.9%7.3%15.0%付费率（仅考虑 PC 端）10.6%1

78、2.4%13.8%16.6%34.0%ARPU（元）52 68 82 148 300 个人订阅收入（亿元）10.2 20.5 28.6 67.0 306.0 资料来源：公司公告、申万宏源研究类比微软 copilot 提价逻辑，金山办公 B 端价值同样大幅提升。根据公司半年报，国内机构订阅业务上半年收入 4.18 亿元，同比增长 40.4%。上半年数字办公产品新增政企客户（不含 SaaS）1700 余家。公司已新打造出一系列灯塔项目并广泛复制。此外公司持续引导客户使用云和协作应用，报告期内，公有云领域 SaaS 付费企业数同比增长 54%，付费企业续约率超 70%，金额续费率超 100%，带动

79、公有云领域相关收入同比增长 100%。在 B 端客户方面，微软通过与 Visa、通用汽车等企业用户一起探索后，宣布于 11 月 1 日开始上线企业版，价格是每月 30 美元，证明 AI 在企业端的高价值。WPS AI 融入后，有望大幅提升金山办公在机构订阅业务的市场空间。图 46：面向企业的 WPS 365 已于近期上线资料来源：金山办公官网、申万宏源研究 4.2 福昕软件：面向海外 B 端客户，率先落地 AIGC 能力 AIGC 提升产品价值，迭代节奏领先行业。4 月，福昕软件海外云产品 PDF Editor Cloud率先集成 AIGC 技术；5 月发布全新产品线 PDF Editor

80、Suite 和 PDF Editor Suite Pro 并实现提价；8 月在 ChatGPT Plugin Store 发布了新插件 Foxit PDF Assistant；9 月，接入行业深度请务必仔细阅读正文之后的各项信息披露与声明第 33 页共 37 页简单金融成就梦想百度文心千帆大模型，重磅发布福昕 PDF 中文 AI 助手。公司的 PDF Editor Cloud 现可实现文档总结、内容改写、实时问答、文本翻译、文档智能解析及增强问答、文本解释、语法&拼写纠错八大功能。更多 AIGC 相关功能将陆续丰富，并同步至 PC 端 PDF Editor 编辑器。公司主要针对高

81、付费能力的海外 B 端客户，逐步实现 AIGC 在办公场景落地并提升用户粘性。图 47：福昕软件率先将 AIGC 能力融入 PDF 产品线资料来源：福昕软件官网、申万宏源研究年内已实现一轮调价，预计 AIGC 打开进一步提价空间。根据公司官网，此前 PDF EDITOR 的$79/99/149 美元的三档年订阅价格，现已调整为 PDF Editor Suite 的$129/159 美元的两档订阅价格。此轮核心产品体系调整，主要变化在于将 eSign、PDF Editor Cloud 等依托于云端提供的业务作为标配，打包进 PDF Editor Suite 中，实现价格的整体提升。订阅起步价

82、从此前的 79 美元提升至目前的 129 美元，增幅达 63%。未来随着 AIGC 能力的不断完善，我们认为订阅价格还有进一步向上调整的空间。表 4：福昕编辑器订阅制与授权制价格（美元）产品（5 月 21 日提价前）订阅制价格/年授权制价格 PDF EDITOR$79.00$179.99 PDF EDITOR PRO$99.00$209.99 PDF EDITOR PRO+$149.00 -PDF EDITOR CLOUD$49.99 -产品（5 月 21 日提价后）订阅制价格/年授权制价格 PDF Editor Suite for Teams 2023$129.00 -PDF Edito

83、r Suite Pro for Teams 2023$159.00 -行业深度请务必仔细阅读正文之后的各项信息披露与声明第 34 页共 37 页简单金融成就梦想注：PDF EDITOR PRO+版本融合了云化的 esign 能力，已不提供授权选项；PDF EDITOR CLOUD 为纯云化产品，同样只提供订阅付费选项；5 月 21 日产品线更新后，仅提供订阅制版本资料来源：公司官网，申万宏源研究在 AIGC 之外，公司订阅+渠道“双转型”战略同样推进顺利，实现自身成长：订阅转型成效卓著，核心指标超预期。2022-2024 为公司订阅转型期，订阅类相关指标为核心变量。根据公司财报

84、，23Q1/Q2 订阅收入占比分别为 30%/35%，提升显著；23Q2订阅 ARR 为 1.86 亿元，同比+85.6%、订阅类合同负债为 1.09 亿元，同比+89.2%，增速均较 Q1 加速。Editor 产品订阅续费率环比一季度提升 2pct，达到 93%。分区域看，发达国家市场订阅增长迅猛，北美/欧洲区域订阅收入分别同比增长 78.7%/115.7%。以上数据证明公司商业模式正发生根本性升级，且转型速度超预期。渠道收入同样加速增长，国内垂直市场顺利推进。23Q1/Q2 来自渠道收入分别同比增长 15%/25%，渠道收入占比分别为 30%/34%，渠道收入增幅与占比均较 Q1 明显提升

85、。公司有望利用渠道触达大量海外 B 端客户，有效扩大市占率。面向垂直市场，知名老牌船舶企业天海防务率先使用福昕船舶图纸管理系统；家装、证券、医疗、法律、供应链、银行、出版、教育等行业应用同步拓展，高效挖掘国内市场。4.3 万兴科技：Open AI 图片能力升级重点受益！核心产品均已接入 ChatGPT。今年 4 月，万兴科技宣布与微软签订云服务框架协议。目前，万兴科技主流产品均已接入 ChatGPT：1）Filmora：上线 AIGC 生成封面、AI 脚本写作功能，此外，还有 AI 智能抠像、AI音频重组、AI 智能降噪等一系列 AI 工具智能套件高级功能；图 48：在 Filmora 中使用

86、 ChatGPT 功能图 49：在思维导图中使用 AI 功能资料来源：Filmora 官网、申万宏源研究资料来源：EdrawMax、申万宏源研究 2）亿图/EdrawMax：输入关键词 AI 一键绘制流程图，同时可以使用自然语言连续对话，对流程图进行逻辑分析和矫正、并完成自动化排版；3）PDFelement：在业内领先上线高度智能的 AI 侧边栏、打造全新 AI 工具集，并带来更安全的电子签名功能。行业深度请务必仔细阅读正文之后的各项信息披露与声明第 35 页共 37 页简单金融成就梦想 2023H1 的业绩流量双高增证明了 AI 功能加持成功。上半年公司实现营业收入 7.18

87、亿元，同比增长 32.90%；归母净利润 4386.89 万元，同比增长 275.06%，且截至 6 月底，公司订阅转型进程持续深化，实现订阅收入占比增长至 72%，订阅续约率增长至 65%。其中拳头产品视频创意软件实现营业收入 4.56 亿元，同比增长 41.31%。我们认为，此前 ChatGPT 放开接口能力以语言为主，融合多模态能力后对视频剪辑软件有更大提升。此前公司核心产品视频剪辑软件 Filmora 融合 ChatGPT 功能主要用于自动生成脚本、生成简单的图片封面等，而视频剪辑软件中核心的图片、视频分析能力提升较少，我们认为，结合目前 OpenAI 已经公布的新能力视频，后续投资者

88、期待的 AI 一键剪辑、AI 视频定位、AI 视频文字描述等功能有望推出。4.4 大华股份：多模态+视频分析，有望在能源等行业率先落地应用多模态持续发展，公司大有可为。近年来随着 vit、swin transformer、mae 等论文推出，transformer 在 CV 和多模态等应用增加。基于 ViT 和 SwinTransformer 等方法，大模型在 ImageNet 数据集的分类准确率突破了 90%，超过传统 CNN，展现出较强的应用潜力。上述技术路线已经开源，考虑到公司对 AI 前瞻性技术投入、拥有大量高价值视频数据、具备丰富的落地场景，大模型技术路线的应用，有望助力公司高效满

89、足海量的客户需求，并进一步压缩定制化开发成本。加大研发投入，预计四季度后，大华视觉大模型有望在城市治理、电力等行业完成方案验证。根据公司半年报后发布会，尽管外部环境压力，公司依然坚定的加大对 AI、大模型等方面的战略投入，后续还将适配研发进度，投入更大规模的资源。针对大模型、多模态等一系列技术，公司首要关心的还是行业价值的创造，以及商业上的长期主义。公司基于自身的行业积累和全面的工程化能力，再结合大模型天然的强泛化、理解等特性，打造垂直行业视觉大模型。此外，公司计划在今年四季度正式推出大华行业视觉大模型，并分别在城市治理、电力等领域完成大模型方案验证；2024 年，进行方案部署及行业试点，持续

90、做深做宽。与中移动合作持续深化.期待视觉大模型落地：8 月 25 日公司公告董事会同意提名袁利华，张晓明为公司非独立董事，监事会同意提名贾琦为公司非职工监事。以上三人均为移动系高管。我们预计大华股份凭借在 AI 领域深厚积累，将有效赋能中国移动视联网及数字化业务建设，同时公司可借用中移动强大的渠道和客户资源，额外收获大量 B 端数智化转型订单，助力 AI 解决方案广泛应用落地。表 5：AI 行业重点公司估值表证券代码公司名称 2023/9/28 Wind 一致预期归母净利润（亿元）PE PB(LF)总市值 2022A 2023E 2024E 2025E 2022A 2023E 2024E

91、2025E（亿元）行业深度请务必仔细阅读正文之后的各项信息披露与声明第 36 页共 37 页简单金融成就梦想 688111.SH 金山办公 1,712 11.18 14.73 20.04 27.07 153 116 85 63 18.77 002230.SZ 科大讯飞 1,173 5.61 13.27 19.47 27.50 209 88 60 43 7.20 688095.SH 福昕软件 75-0.02-0.20 0.02 0.49-3140 153 2.87 300624.SZ 万兴科技 137 0.41 1.03 1.51 2.08 332 133 91 66 10.33 00

92、2236.SZ 大华股份 734 23.24 36.41 44.65 54.07 32 20 16 14 2.27 688088.SH 虹软科技 165 0.58 1.48 2.17 2.97 285 112 76 55 6.28 资料来源：Wind、申万宏源研究风险提示：大模型技术中美仍存在差异，部分技术尚处于早期实验室阶段，存在落地风险；实体清单等可能对训练硬件产生影响。行业深度请务必仔细阅读正文之后的各项信息披露与声明第 37 页共 37 页简单金融成就梦想信息披露证券分析师承诺本报告署名分析师具有中国证券业协会授予的证券投资咨询执业资格并注册为证券分析师，以勤勉的职业

93、态度、专业审慎的研究方法，使用合法合规的信息，独立、客观地出具本报告,并对本报告的内容和观点负责。本人不曾因，不因，也将不会因本报告中的具体推荐意见或观点而直接或间接收到任何形式的补偿。与公司有关的信息披露本公司隶属于申万宏源证券有限公司。本公司经中国证券监督管理委员会核准，取得证券投资咨询业务许可。本公司关联机构在法律许可情况下可能持有或交易本报告提到的投资标的，还可能为或争取为这些标的提供投资银行服务。本公司在知晓范围内依法合规地履行披露义务。客户可通过索取有关披露资料或登录信息披露栏目查询从业人员资质情况、静默期安排及其他有关的信息披露。机构销售团队联系人华东 A 组茅炯 02

94、1-33388488 华东 B 组李庆华北组肖霞华南组李昇 L 股票投资评级说明证券的投资评级：以报告日后的 6 个月内，证券相对于市场基准指数的涨跌幅为标准，定义如下：买入（Buy）增持（Outperform）中性(Neutral)减持(Underperform)：相对强于市场表现20以上；：相对强于市场表现520；：相对市场表现在55之间波动；：相对弱于市场表现5以下。行业的投资评级：以报告日后的6个月内，行业相对于市场基准指数的涨跌幅为标准，定义如下：看好（Overweight）中性(Neutra

95、l)看淡(Underweight)：行业超越整体市场表现；：行业与整体市场表现基本持平；：行业弱于整体市场表现。我们在此提醒您，不同证券研究机构采用不同的评级术语及评级标准。我们采用的是相对评级体系，表示投资的相对比重建议；投资者买入或者卖出证券的决定取决于个人的实际情况，比如当前的持仓结构以及其他需要考虑的因素。投资者应阅读整篇报告，以获取比较完整的观点与信息，不应仅仅依靠投资评级来推断结论。申银万国使用自己的行业分类体系，如果您对我们的行业分类有兴趣，可以向我们的销售员索取。本报告采用的基准指数：沪深300指数法律声明本报告仅供上海申银万国证券研究所有限公司（以下简称“本公司”）的客户

96、使用。本公司不会因接收人收到本报告而视其为客户。客户应当认识到有关本报告的短信提示、电话推荐等只是研究观点的简要沟通，需以本公司 http:/ 网站刊载的完整报告为准，本公司并接受客户的后续问询。本报告上海品茶列示的联系人，除非另有说明，仅作为本公司就本报告与客户的联络人，承担联络工作，不从事任何证券投资咨询服务业务。本报告是基于已公开信息撰写，但本公司不保证该等信息的准确性或完整性。本报告所载的资料、工具、意见及推测只提供给客户作参考之用，并非作为或被视为出售或购买证券或其他投资标的的邀请或向人作出邀请。本报告所载的资料、意见及推测仅反映本公司于发布本报告当日的判断，本报告所指的证券或投资标的的

97、价格、价值及投资收入可能会波动。在不同时期，本公司可发出与本报告所载资料、意见及推测不一致的报告。客户应当考虑到本公司可能存在可能影响本报告客观性的利益冲突，不应视本报告为作出投资决策的惟一因素。客户应自主作出投资决策并自行承担投资风险。本公司特别提示,本公司不会与任何客户以任何形式分享证券投资收益或分担证券投资损失，任何形式的分享证券投资收益或者分担证券投资损失的书面或口头承诺均为无效。本报告中所指的投资及服务可能不适合个别客户，不构成客户私人咨询建议。本公司未确保本报告充分考虑到个别客户特殊的投资目标、财务状况或需要。本公司建议客户应考虑本报告的任何意见或建议是否符合其特定状况，以及（若有

98、必要）咨询独立投资顾问。在任何情况下，本报告中的信息或所表述的意见并不构成对任何人的投资建议。在任何情况下，本公司不对任何人因使用本报告中的任何内容所引致的任何损失负任何责任。市场有风险，投资需谨慎。若本报告的接收人非本公司的客户，应在基于本报告作出任何投资决定或就本报告要求任何解释前咨询独立投资顾问。本报告的版权归本公司所有，属于非公开资料。本公司对本报告保留一切权利。除非另有书面显示，否则本报告中的所有材料的版权均属本公司。未经本公司事先书面授权，本报告的任何部分均不得以任何方式制作任何形式的拷贝、复印件或复制品，或再次分发给任何其他人，或以任何侵犯本公司版权的其他方式使用。所有本报告中使用的商标、服务标记及标记均为本公司的商标、服务标记及标记。

友情提示

1、下载报告失败解决办法
2、PDF文件下载后，可能会被浏览器默认打开，此种情况可以点击浏览器菜单，保存网页到桌面，就可以正常下载了。
3、本站不支持迅雷下载，请使用电脑自带的IE浏览器，或者360浏览器、谷歌浏览器下载即可。
4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩，下载后原文更清晰。

本文（计算机行业AIGC系列深度之24：GPT~4v如何实现强大多模态从文生图到图生文-231009（37页）.pdf）为本站（茫然）主动上传，三个皮匠报告文库仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对上载内容本身不做任何修改或编辑。若此文所含内容侵犯了您的版权或隐私，请立即通知三个皮匠报告文库（点击联系客服），我们立即给予删除！

温馨提示：如果因为网速或其他原因下载失败请重新下载，重复下载不扣分。