您的当前位置：上海品茶 > 报告分类 > PDF报告下载

报告预览

2024多模态AI市场现状、机遇与产业前景及相关公司分析报告（33页）.pdf

编号：155916

PDF 33页 3.85MB 下载积分：VIP专享

下载报告请您先登录！

2024多模态AI市场现状、机遇与产业前景及相关公司分析报告（33页）.pdf

1、2023 年深度行业分析研究报告行业研究报告慧博智能投研目录目录一、多模态?AI?综述.1 二、市场现状.5 三、研究方向.12 四、技术能力.15 五、产业框架.20 六、市场应用.21 七、市场机遇.24 八、相关公司.26 九、产业前景.31 一、多模态一、多模态 AI 综述综述1、AI 模型：必将从单模态走向多模态，实现复杂场景下的智能决策模型：必将从单模态走向多模态，实现复杂场景下的智能决策 2、多模态或成为多模态或成为 AI 大模型主流大模型主流多模态模型是指将不同类型的数据（例如图像、文字、视频、语音等）结合起来进行分析处理的模型多模态模型是指将不同类型的数据（例如图

2、像、文字、视频、语音等）结合起来进行分析处理的模型。其通过不同数据类型的相互关联和结合，可以大幅提高模型的准确性和鲁棒性，应用场景进一步拓展。其次，多模态更接近人类学习的模式，在物理世界中，人类认知一个事物并不是通过单一模态，例如认知一只宠物，可以从视觉（宠物形貌）、听觉（宠物叫声）、嗅觉（宠物体味）、触觉（宠物毛发、宠物体温等）等多模态全面立体认知，是未来人工智能的发展方向。多模态向通用人工智能（多模态向通用人工智能（AGI）迈前一步）迈前一步。多模态大模型同时处理文本、图片、音频以及视频等多类信息，与现实世界融合度高，有望成为人类智能助手，推动 AI 迈向 AGI：多模态更符合人类接收、处

3、理和表达信息的方式。人类能够感知多元信息，每一类信息均为一种模态，这些信息往往是相互关联的。多模态信息使得大模型更为智能。多模态与用户交互方式更便捷，得益于多模态输入的支持，用户可以以更灵活的方式与智能助手进行交互和交流。多模态提升任务解决能力。目前，多模态大模型已成为大模型发展前沿方向目前，多模态大模型已成为大模型发展前沿方向。2022 年及之前，大模型处于单模态预训练大模型阶段，主要探索文本模式的输入输出。2017 年，Transformer 模型提出，奠定了当前大模型的主流算法结构；2018 年，基于 Transformer 架构训练的 BERT 模型问世，参数规模首次突破 3 亿；随后

4、 GPT 系列模型推出，2022 年底至今 ChatGPT 引爆全球大模型创新热潮。步入 2023 年，大模型发展从文本、图像等单模态任务逐渐发展为支持多模态的多任务，更为符合人类感知世界的方式。大模型公司的比拼重点转移为多模态信息整合和数据挖掘，精细化捕捉不同模态信息的关联。例如，2023 年 9 月，OpenAI推出最新多模态大模型 GPT-4V，增强了视觉提示功能，在处理任意交错的多模态方面表现突出。VY3U1XEUOZBVSU9PbP8OoMqQpNnRkPrRpMfQpPqMaQnMtQNZoPrQMYtRyQ 3、多模态是实现通用人工智能的必经之路多模态是实现通用人工智能的必经之路

5、按照处理的数据类型数量划分，按照处理的数据类型数量划分，AI 模型可以划分为两类：模型可以划分为两类：单模态：只处理 1 种类型数据，如文本等；多模态：处理 2 种及以上数据，可类比人脑同时对文本、声音、图像等不同类型信息进行处理。多模态是实现通用人工智能的必经之路多模态是实现通用人工智能的必经之路。相比单模态，多模态大模型在输入输出端的优势明显：输入端输入端：提升模型能力：高质量语言数据存量有限，且不同模态包含的信息具有互补性，多元的训练数据类型有助于提升通用大模型能力；提高用户体验：推理侧更低的使用门槛和更少的信息损耗。输出端输出端：更实用。可直接生成综合结果，省去多个模型的使用和后期整

6、合；更符合真实世界生产生活需要，从而实现更大商业价值。4、多模态多模态 AI 以融合为核心，基于以融合为核心，基于 5 大技术环节实现复杂问题解决大技术环节实现复杂问题解决 5、多模态模型厚积薄发，性能实现飞跃多模态模型厚积薄发，性能实现飞跃多模态模型历经多个发展阶段，模型复杂度和性能持续提升多模态模型历经多个发展阶段，模型复杂度和性能持续提升。多模态模型的发展经历了五个关键阶段，分别是行为、计算、交互、深度学习和大模型时代。这一发展历程始于最初对行为理论和科学研究的探索，如今正逐步转向多模态技术在产业领域的实际应用。在这一过程中，半导体技术和计算机科学的迅猛发展扮演了重要的推动角色。多模态

7、模型逐渐从简单模拟人类行为模式转变为复杂的计算模型，随着深度学习技术的兴起，这些模型获得了更深层次的理解和学习能力，使得其在图像、语音、视频等多种形式数据处理上取得了突破性进展。大模型开启新时代，多模态技术发展迅速大模型开启新时代，多模态技术发展迅速。2020 年大模型时代到来，多模态技术的发展得到进一步推进。大模型时代的核心在于构建能够处理海量数据的大规模模型，从而使得多模态模型在处理复杂任务时展现出了更高的性能和智能。最近，OpenAI 发布的 GPT-4V 已经具备了强大的图片理解、逻辑推理以及情感感知能力，预计将在各产业得到广泛应用。二、二、市场现状市场现状 1、国资委鼓励央企参与国资

8、委鼓励央企参与 AI 产业产业产业政策方面，2 月 19 日国务院国资委召开“AI 赋能产业焕新”中央企业人工智能专题推进会。会议提出推动中央企业在人工智能领域实现更好发展、发挥更大作用；加快建设一批智能算力中心；开展 AI+专项行动，加快重点行业赋能，构建一批产业多模态优质数据集，打造从基础设施、算法工具、智能平台到解决方案的大模型赋能产业生态。会上，10 家中央企业签订倡议书，表示将主动向社会开放人工智能应用场景。2、国外市场、国外市场：Sora 和和 Gemini1.5 推出，开启多模态大模型新纪元推出，开启多模态大模型新纪元（1）OpenAI 发布首款文生视频大模型发布首款文生视频大

9、模型 Sora，可以快速生成，可以快速生成 60 秒、准确反映用户提秒、准确反映用户提示的视频示的视频 2024 年 2 月 16 日，OpenAI 发布首款文生视频大模型 Sora，可以快速生成 60 秒、准确反映用户提示的视频，其具有 60 秒超长长度、多角度视频一致性、对物理世界理解等特性。Sora 可生成可生成 60 秒超长视频秒超长视频。相较于 Runway ML Gen-2、Pika 等文生视频大模型，Sora 可以生成 60秒一镜到底的视频，视频逻辑顺畅、主人物及背景的行人均非常稳定，文生视频大模型能力进一步提升。Sore 多角度视频一致性多角度视频一致性。Sore 可以在单个生

10、成视频中创建多个镜头，以准确保留角色和视觉风格。根据 OpenAI 官网发布的 Demo，59 秒的视频中，有多角度镜头，且主人物保持了完美的一致性。Sore 在尝试理解物理世界在尝试理解物理世界。根据 OpenAI 官网披露，Sore 不仅可以理解用户 Prompt 的要求，同时亦尝试理解 Prompt 中的事物在物理世界中的存在方式（即物理规律）。根据 OpenAI 官网 Demo 视频中，汽车在山路行驶中的颠簸，以及猫踩奶等动作符合物理世界规律，视频逼真度进一步提升。Sora 技术原理：技术原理：Transformer+Diffusion。通过已知。通过已知 Patches 推测下一推

11、测下一 Patches。传统大语言模型通过已知 Tokens 推测下一 Tokens，Sora 同大语言模型类似，将视频数据切分成不同 Patches（即大语言模型中的 Tokens），通过已知 Patches 推测下一 Patches。通常可以分为以下两个步骤：将高纬度视频数据压缩成低纬度隐空间（Latent Space）：OpenAI 通过训练视频压缩网络实现该步骤，通常将视频数据作为输入（input），后对视频数据进行时间和空间维度的压缩，并输出（output）潜在表示（latent representation）。进一步将数据转化为 Spacetime Patches：提取一系列的 l

12、atent Space 作为训练/推理的 Tokens，完成对模型的训练。通过通过 Diffusion 还原画面还原画面。如前文所述，通过已知 Patches 推测下一 Patches，得到 Latent Patches，OpenAI 通过训练 Decoder 将得到的 latent Space 映射到像素空间，再通过 Diffusion 模型进一步还原画面。（2）谷歌推出谷歌推出 Gemini1.5，大模型迭代速度加快，大模型迭代速度加快最长可支持一百万最长可支持一百万 token 超长上下文，超越超长上下文，超越 GPT-4Turbo。谷歌研究人员进行了一项测试，在这个测试中，模型需要在

13、一定的文本范围内检索到 100 个不同的特定信息片段。Gemini 1.5 Pro 在较短的文本长度上的性能超过了 GPT-4-Turbo，并且在整个 100 万 token 的范围内保持了相对稳定的表现，GPT-4Turbo 的性能则飞速下降，且无法处理超过 128,000token 的文本。可对大量的信息进行复杂推理可对大量的信息进行复杂推理。Gemini 1.5 Pro 可以在给定提示内无缝分析、分类和总结大量内容。例如，当给出阿波罗 11 号登月任务的 402 页记录时，它可以推理整个文档中的对话、事件和细节。跨模式推理和理解能力增强跨模式推理和理解能力增强。Gemini 1.5 Pr

14、o 可以针对包括视频在内的不同模式执行高度复杂的理解和推理任务。例如，当给定一部 44 分钟的巴斯特基顿无声电影时，该模型可以准确分析各种情节点和事件，甚至推理出电影中容易被忽略的小细节。相比上一代性能增强，并具备相比上一代性能增强，并具备“上下文学习上下文学习”能力能力。在涵盖文本、代码、图像、音频和视频的综合性测试中，1.5Pro 在 87%的基准测试上超越了 1.0Pro。与 1.0Ultra 在相同基准测试的比较中，1.5Pro 的表现也相差无几。此外，Gemini 1.5 Pro 展现了卓越的“上下文学习”能力，能够仅凭长提示中提供的信息掌握新技能，无需进一步细化调整。这一能力在“

15、从一本书学习机器翻译（MTOB）”基准测试中得到了验证，该测试检验了模型学习从未接触过的信息的能力。对于一本关于全球不足 200 人使用的 Kalamang语的语法手册，模型能够学会将英语翻译成 Kalamang，学习效果与人类学习相似。Gemini 首次发布是 2023 年 12 月，仅两个月之后，Gemini 1.5 的发布已经展现了与其前代相比的显著性能提升，这一迅速的迭代速度不仅彰显了大模型技术飞速发展的态势，同时也反映出了 AI 领域大模型竞争愈发激烈。3、国内国内市场：市场：加速对齐海外龙头，细分领域或有优势加速对齐海外龙头，细分领域或有优势（1）国内市场加速）国内市场加速对齐海外

16、龙头，多模态大模型陆续推出对齐海外龙头，多模态大模型陆续推出国内科技公司积极研发国产大模型，互联网大厂在数据积累与算法水平兼具优势，率先切入多模态大模型赛道，其后不断涌现大模型科技公司与初创公司，在多模态大模型领域持续投入同时陆续更新大模型能力。例如，百度百度 2023 年 3 月发布文心一言，成为全球大厂中第一个对标 ChatGPT 甚至是 GPT-4 的大模型，同时具备文字生成图片、音频（方言）、视频等多模态能力。其后，阿里巴巴阿里巴巴、腾讯腾讯等互联网大厂，商汤科技商汤科技等大模型公司以及智源研究院智源研究院、智谱智谱等初创公司或研究所均发布了国产多模态大模型，并通过不断迭代实现能力突

17、破，逐步缩小与海外大模型差距。然而，总体而言，由于国产训练数据集、算力支持和应用场景等与海外大厂仍存在较大差距，国产大模型仍在向海外大厂靠齐过程中。根据 SuperCLUE 测评数据，截至 2023 年 12 月，海外 GPT-4Turbo、GPT-4 依旧为全球性能最优大模型。国内市场在国内市场在细分领域或有优势细分领域或有优势。海外龙头厂商具有示范效应，Meta 等厂商算法开源显著降低国产大模型学习成本，国产大模型可通过复制海外龙头厂商先进技术快速成长，通过逐步超越海外龙头上代产品，并摸索最新技术的方式升级迭代：阿里巴巴最新通义千问可媲美阿里巴巴最新通义千问可媲美 GPT-4V 和和 Ge

18、mini。2023 年 8 月，阿里阿里发布 Qwen-VL 模型的第一个版本，并很快对通义千问进行了升级。Qwen-VL 支持以图像、文本作为输入，并以文本、图像、检测框作为输出，让大模型真正具备了看世界的能力。在多模态大模型性能整体榜单 OpenCompass 中，Qwen-VL-Plus 紧随 Gemini Pro 和 GPT-4V，占据了前三名的位置。2024 年 1 月，阿里巴巴新升级的通义千问视觉语言大模型 Qwen-VL-Max 发布，在多个测评基准上取得较好成绩，并实现了强大的图像理解能力，整体能力达到了媲美 GPT-4V 和 Gemini 的水平，在多模态大模型领域实现了业内

19、领先。智谱智谱 AI 发布多模态大模型发布多模态大模型 GLM-4，模型性能均达，模型性能均达 GPT-4 九成以上九成以上。作为国内唯一一个产品线全对标OpenAI 的大模型公司，GLM-4 性能相比 GLM-3 提升 60%，逼近 GPT-4（11 月 6 日最新版本效果）。多模态能力方面，GLM-4 则是把原本就有的文生图（CogView3）、代码能力做了升级，CogView3 效果超过开源最佳的 Stable Diffusion XL，逼近 DALLE 3。2023 年 12 月，智源研究院智源研究院开源发布新一代多模态基础模型 Emu2，成为目前最大的开源生成式多模态模型，通过大规模

20、自回归生成式多模态预训练，显著推动多模态上下文学习能力的突破。Emu2 在少样本多模态理解任务上大幅超越 Flamingo-80B、IDEFICS-80B 等主流多模态预训练大模型，在包括VQAv2、OKVQA、MSVD、MM-Vet、TouchStone 在内的多项少样本理解、视觉问答、主体驱动图像生成等任务上取得最优性能。Emu2-Chat 可以精准理解图文指令，实现更好的信息感知、意图理解和决策规划。Emu2-Gen 可接受图像、文本、位置交错的序列作为输入，实现灵活、可控、高质量的图像和视频生成。（2）国产大模型有望凭借独特生态优势在细分领域取得差异化竞争优势）国产大模型有望凭借独特生

21、态优势在细分领域取得差异化竞争优势百度百度 2023 年 3 月发布的文心一言，其训练数据包含万亿级网页数据、数十亿的搜索数据和图片数据、百亿级的语音日均调用数据，以及 5500 亿事实的知识图谱等，在搜索领域或具有技术与数据优势；阿阿里巴巴里巴巴 2023 年 4 月发布的通义千问训练数据包括大量文本、专业书籍、代码等，生成的大模型或在电商领域具有较强竞争力。总体而言，通过向海外技术对齐和利用独特生态禀赋，国产大模型与海外大厂差距逐步缩小。根据SuperCLUE 测评数据，在 2023 年下半年，国内领军大模型企业实现了大模型代际追赶的奇迹，从 7 月份与 GPT3.5 的 20 分差距，

22、每个月都有稳定且巨大的提升，到 11 月份测评时已经完成总分上对 GPT3.5的超越。4、多模态发展路径逐步清晰，底层技术日臻成熟多模态发展路径逐步清晰，底层技术日臻成熟目前，多模态大模型发展路径逐步清晰目前，多模态大模型发展路径逐步清晰。发展思路主要有三：利用单模态模型如 LLMs 来调动其他数据类型的功能模块完成多模态任务，典型代表有 Visual、ChatGPT、HuggingGPT 等；直接利用图像和文本信息训练得到多模态大模型，典型代表有 KOSMOS-1 等；将 LLMs 与跨模态编码器等有机结合，融合 LLMs 的推理检索能力和编码器的多模态信息整合能力，典型代表有 Flami

23、ngo、BLIP2 等。多模态大模型底层技术日臻成熟，多模态大模型底层技术日臻成熟，支持支持实现多类信息融合与转换实现多类信息融合与转换。从技术架构来看，多模态大模型一般包括编码、对齐、解码和微调等步骤，逐步整合多模态关联信息，输出目标结果。编码：包括视觉、音频、文本等模态编码器，目的是有效处理多个模态信息，转化为可处理状态；对齐：解决不同模态编码器可能不能直接融合的问题，建立共同表示空间，将不同模态的表示统一，实现多个模态信息的有效整合；解码：编码的反向过程，把模型的内部表示转化为物理世界的自然信号，即输出人类可识别的信息；微调：针对个性化如垂直行业大模型，重新训练大模型消耗算力成本较高，便

24、可在预训练模型的基础上，通过在自有小数据集上的训练来适应新的任务，更好地提升大模型在下游特定领域能力。userid:93117,docid:155160,date:2024-03-06, 文生图为最先成熟的多模态技术领域，其代表技术为 OpenAI 于 2021 年推出的 CLIP 模型。CLIP 使用约 4 亿从网页中爬取的图像-文本对数据进行对比学习，采用图像和文本双编码器，用于评估给定图像与给定文本描述的匹配程度，成为连接文本和图像的桥梁。目前，多模态底层技术不再局限于文本与图像两层信息，Meta-Transformer 可同时理解 12 种模态信息。2023 年 7 月，香港中文大学多

25、媒体实验室联合上海人工智能实验室的 OpenGVLAB 研究团队提出一个统一多模态学习框架 Meta-Transformer，实现骨干网络的大统一，具有一个模态共享编码器，并且无需配对数据，即可处理 12 种模态信息，并提供了多模态无边界融合的新范式。相比 CLIP、BEiT-3、Imagebind，模态数目大幅增加，并且摆脱了多模态训练过程中对于配对数据的依赖性，为多模态学习提供了新路径。5、多模态多模态 AI 是机遇也是挑战是机遇也是挑战信息异构，数据升维信息异构，数据升维。人类日常生活中的自然语言、语气、手势和眼神，这些不同的表达形式和对方的感知形式，就是不同的模态，这种多模态对齐到“

26、0-1”世界中，就是文字、图像&视频、音频信息甚至物理化学公式，而这些信息之间形成了相似、补充或互斥的关系，这种相互关系会对多模态的表现产生重大影响。多模态多模态 AI 的输入和输出超出了单一的文字维度，对的输入和输出超出了单一的文字维度，对 AI 既是机遇也是挑战既是机遇也是挑战。机遇在于，多模态信息可以帮助 AI 更精确地了解人类世界，在作答时就可以输出更加贴近现实、符合预期的回答。如同失聪者同时难以说话，AI 获取的信息若不是多模态，就只能停留在文字数据给予的单一维度认知。不同模态之间的相互作用有多种方式，正反馈例如，若将一张人类跑步的图片、一段描述“跑步”的文字、力学定律等输入至 AI

27、，那么 AI 就可以获得对“跑步”这一行为的增强理解；负反馈例如，在文字训练数据出现错误时，其他模态的数据可以帮助 AI 辅助判断对错，从源头减少 AI“幻觉”的产生。多模态的挑战集中于数据、算力和调优多模态的挑战集中于数据、算力和调优。首先是多模态数据的融合（Fusion），进一步增加了算力资源的压力。例如，一段文字和一张图片里都包含“1+1=2”的信息，这种情况可以为二者给予相同的训练权重；如果包含更加复杂的信息，简单的信息融合将失效，就需要引入张量融合算法，从而占据一部分算力资源。其次，数据的对齐（Alignment）对不同模态之间的协调起着关键作用。今年 3 月发布的 GPT-4 模

28、型能够识别搞笑图片中的笑点所在，就是由于 OpenAI 做好了充分的文字与图片的数据对齐，因此，训练数据越优质，模型后续训练需要的人类反馈学习就越少，从而缩短模型研发周期谷歌谷歌发布Gemini 模型时表示，高性能的 Ultra 版本目前尚在 RLHF 阶段，因此推出时间稍晚。多模态多模态 AI 的发展，不仅利于影视创作、游戏制作行业的生产效率提升，同时也有利于逐步打消业界对的发展，不仅利于影视创作、游戏制作行业的生产效率提升，同时也有利于逐步打消业界对AI 能力的怀疑能力的怀疑。Pika1.0、Gemini 的发布提振了用户的信心Pika 有效解决了多模态大模型生成视频时帧连续性的问题，输出

29、结果堪称惊艳，而 Gemini 原生基于多模态打造，有效解决了多模态数据融合的问题，相当于 AI“新物种”。AI 并未停下脚步，通向 AGI 的星辰大海正在拉开帷幕。三、三、研究研究方向方向多模态模型五大方向多模态模型五大方向视觉理解、视觉生成、统一视觉、视觉理解、视觉生成、统一视觉、LLM 支持、多模态支持、多模态 Agent。近期，微软多位研究员联合撰写文章，对多模态模型进行了全面的研究和分类，并关注了模型从专业性向通用性转变的特点。在模型分类中，研究员们将模型研究方向分为两大类五个主题：目前已成熟、完善的研究主题，包括视觉理解、视觉生成；具备探索性、开放性的前沿研究领域，包括统一视觉模

30、型、受 LLM（大语言模型）支持的多模态大模型以及多模态 agent。方向一：视觉理解方向一：视觉理解。在 AI 领域，视觉理解是指使计算机系统能够解释和理解视觉信息的能力。视觉理解的核心问题是通过预训练使得神经网络的主干架构 backbone 获得强大的图像理解能力。模型训练方法可根据监督信号的不同分为三类：标签监督、语言监督和纯视觉自监督。其中，纯视觉自监督的监督信号来源为图像本身，相关方法有对比学习、非对比学习和掩码图像建模。在这些方法之外，常用的预训练方法还有多模态融合、区域级和像素级图像理解等。方向二：视觉生成方向二：视觉生成。这是 AI 图像生成与理解的核心，不仅包括图像生成，还包

31、括视频、3D 点云图等多种内容的生成。视觉生成不仅可以应用于艺术、设计等内容创作领域，它还在合成训练数据方面发挥着巨大作用，从而促进多模态内容理解与生成的闭环发展。视觉生成的重点在于如何生成与人类意图一致的图像，常见的四类相关研究方向为：有空间可控生成、基于文本再编辑、遵循文本提示生成和生成概念定制（concept customization）。当前研究趋势和未来短期研究方向是创建通用的文生图模型，以更好地满足人类意图，并提升上述方向的可替代性。方向三：统一视觉模型。构建统一视觉模型具有多重挑战方向三：统一视觉模型。构建统一视觉模型具有多重挑战。在计算机视觉领域，各任务的差异很大，这为建立统一

32、的视觉模型带来了巨大挑战：输入类型不同，输入内容可包括静态图形、动态视频、纯视觉输入、模糊图像等；不同的任务需要不同的粒度，如图像级任务、区域级任务、像素级任务等，因此输出的空间信息和语义信息也要求不同的格式；在建模之外，数据也有挑战，比如不同类型的标签注释成本差异很大，收集成本比文本数据高，这导致视觉数据的规模通常比文本语料库小得多。未来统一视觉模型是非常有价值的研究方向。CV 领域对于开发通用、统一的视觉系统具有很高的兴趣，实现这一目标的关键研究方向包括：从闭集模型到开集模型，可以更好地将文本和视觉匹配；从特定任务到通用能力，减少新模型/垂直细分模型的开发成本；从静态模型到可提示模型。未来

33、通用视觉模型应具备强大的上下文学习能力，因此 LLM 可以接受不同语言和上下文提示作为输入，并生成用户所需的输出，无需微调。方向四：方向四：LLM 支持的多模态大模型支持的多模态大模型。该领域的代表作为 OpenAI 的多模态模型 GPT-4V，模型具备较强大的能力：模型具有强大的通用性能力，能够处理不同输入模态的任意组合，包括图像、子图像、文本、场景文本和视觉指针。经过详细测试，研究人员发现 GPT-4V 支持 LLM 中的 test-time 技术，如指令跟随、思维链、上下文少样本学习等。GPT-4V 在多个实验领域表现接近人类水平的能力，包括开放世界视觉理解、视觉描述、多模态知识、常识、

34、场景文本理解、文档推理、编码、时间推理、抽象推理、情感理解等。LLM 支持的多模态模型仍有部分领域需要改进和迭代，包括更多超越视觉和语言的模态（Multitask Instruct with Established Academic Datasets/Tasks）、多模态的上下文学习（MultimodalIn-Context-Learning、参数高效训练（Parameter-Efficient Training）以及 Benchmark 等内容。方向五：多模态方向五：多模态 Agent。多模态 Agent 是将不同的多模态专家模型同 LLM 联系起来，进而解决复杂多模态理解问题的办法，也是目

35、前最前沿的多模态研究方向。大语言模型（LLM）具有对各领域用户提示的通用性特点，以及利用少量提示快速适应新场景的学习能力。受到这种强大能力的启发，研究人员正在探索一种新的模型范式，该范式不再是针对解决有限预定义问题的独立模型，而是通过将多个工具或专家与 LLM 协同来解决复杂的开放性问题。与方向四不同，这样的系统可以在没有任何训练的情况下构建，只需使用少量提示训练 LLM，使其对现有工具进行调用。整体而言，多模态 agent 在多模态理解方面能力较强，并可轻松扩展到潜在的数百万种工具中。四、技术能力四、技术能力语音和视觉能力先行，视觉能力为核心语音和视觉能力先行，视觉能力为核心。当前模态主

36、要包括图像、视频、音频、代码、标准数据库等，多模态大模型进展主要围绕语音和视觉任务，其中语音任务和文本任务本质上相通，有成熟开源技术方案，门槛相对较低；而视觉任务主要涵盖视觉理解和视觉生成，由于信息复杂度高、利用难度较大，并且对模型感知能力和应用开发潜力提升具有重要价值，成为当前多模态大模型发展的核心方向。1、技术基础技术基础：AIGC 突破突破 0-1 关卡后，多模态能力快速发展关卡后，多模态能力快速发展自聊天机器人 ChatGPT 问世以来，AIGC 技术覆盖面已由文本拓展至图片、音频。可以重点参考 AI 第一梯队平台 OpenAI 的技术及产品进程：2023 年 3 月，OpenAI

37、推出 ChatGPT3.5，该聊天机器人可通过机器学习技术来生成人类类似的文本回复，凭借出色的文本对话和任务完成能力，已获得大量 C 端付费订阅及 B 端订单，据 IT 之家援引 The Information2023 年 10 月报道，该公司预计全年收入超 13 亿美元。2023 年年 9 月，月，OpenAI 宣布旗下宣布旗下 ChatGPT 将能看、能听、能说，从此前的只能文本交互，实将能看、能听、能说，从此前的只能文本交互，实现多现多模态能力的更新模态能力的更新。“模态”指的是数据的不同类型或来源，如图像、音频、文本等。具备多模态能力后的GPT4，可以进行语音沟通，使用图片与用户互动，

38、从而在使用形态上更接近苹果 Siri 等热门人工智能助手。2、语音能力：语音能力：STT+TTS+GPT 便捷实现语音对话，优化人机交互体验便捷实现语音对话，优化人机交互体验语音转文字模型（语音转文字模型（Speech-To-Text，STT）技术成熟度高，难构成行业壁垒）技术成熟度高，难构成行业壁垒。语音识别技术历史悠久，最早可以追溯到 1952 年，成熟度相对较高，并已融入各类日常场景。最近几年技术层面逐步从统计模型走向端到端的深度模型，底层架构逐步从小模型走向大模型。在多模态大模型系统中，STT 模型将语音转换为特定模式的文本文件，并直接输入模型。以 OpenAI 推出的 Whispe

39、r 模型为代表，模型底层使用 Transformer 的编码器-解码器架构，可以将音频信息直接转化成包含提示词的标准化 Token，基于 68 万小时的对话学习，较主流小模型可以将错误率降低 50%左右。Meta 推出 MMS，谷歌谷歌推出 Audio PaLM 模型，均采用 Transformer 架构实现端到端的 STT 模型。文本转语音（文本转语音（Text-To-Speech，TTS）模型是实现大模型语音能力的）模型是实现大模型语音能力的核心技术，差异主要体现在音色核心技术，差异主要体现在音色和情感方面和情感方面。TTS 模型同样具有悠久技术历史。过去几年，TTS 模型和 STT 模型

40、在技术层面同步发展，实现从 HMM-GMM 为基础的概率统计模型走向 Transformer 基础的端到端大模型的技术转变，形成Tacotron2、Fastspeech 等代表模型。技术进展下，TTS 模型语音合成效果有明显提升，可以模拟真人的语气、情感和停顿，音色更加贴近真人，可以实现高质量流畅合成。由于模型训练阶段使用的音源在音色、情感、语种等方面存在差异，底层模型设计也不尽相同，当前主流 TTS 模型合成效果存在明显差异，对于用户的使用体验影响较大。STT+TTS+GPT 模式成为实现大模型语音对话的主流，技术门槛相对较低模式成为实现大模型语音对话的主流，技术门槛相对较低。通过构建 ST

41、T+TTS+GPT的模式，可以便捷实现基于大语言模型的语言对话，为大模型增加音频模态。在该模式下，STT、TTS、LLM 模型均为独立模块，可以实现低成本替换，因此在应用开发层面可进行灵活组合。当前市面主流对话助手的语音功能均以此方式实现，以 ChatGPT 语音功能为例，采用 Whisper+GPT-4+OpenAI 自研TTS 模型的组合，实现优秀语音对话效果。考虑到 STT 和 TTS 模型均有成熟开源解决方案，大模型实现语音模态兼容技术门槛相对较低。3、视觉能力：形成两大主流路线，图文融合带动应用场景全面扩展视觉能力：形成两大主流路线，图文融合带动应用场景全面扩展传统计算机视觉（传统

42、计算机视觉（CV）技术储备有助于构建视觉认知模型）技术储备有助于构建视觉认知模型。计算机视觉（CV）长期以来是人工智能的核心领域之一，过去十年围绕卷积神经网络实现快速发展。近年来部分 CV 模型采用 Transformer 架构，对于大模型时代的视觉系统构建实现技术积累。传统 CV 模型受限规模等原因，主要解决单一场景问题，具备独立的视觉信息处理能力。与传统 CV 模型不同，大模型时代的视觉系统主要围绕提升模型整体的通用能力，以理解和认知视觉信息为核心，和文本等模态有机结合满足多模态任务的需求，但底层技术存在共通之处，传统 CV 领域的 Transformer 技术经验积累对于构建大模型视觉系

43、统具有重要价值。目前在底层架构设计上主要形成两大技术路线目前在底层架构设计上主要形成两大技术路线：模块化设计模块化设计：模块化多模态设计单独处理视觉信息输入。考虑到视觉信息和文本信息差距较大，当前大模型千亿规模统一处理所有模态信息具有较大难度。因此，设计上可以分别针对文本和模型等模态分别进行模型训练，并通过系统优化实现各模型的结合。以 GPT-4V（ision）版本为例，其视觉方案以大语言模型 GPT-4 为核心，图像认知能力上或采用与 OpenAI2021 年发布的 CLIP 模型类似的方案，未来有望基于 DALL E3 模型融合图像输出能力，形成完整的视觉多模态系统。模块化设计提升系统灵活

44、性，带来更高模型性价比模块化设计提升系统灵活性，带来更高模型性价比。视觉认知、视觉生成和大语言模型在模型设计、训练数据集、目标函数设计等方面差异较大，训练和推理相对独立，模块化设计和分别训练的模块在性能、性价比、灵活性上存在优势。性能上，各个模块可以针对特定任务单独优化，更容易在各子任务上实现高性能；性价比上，把各模态的需求分割成多模块，并进行分开训练的模式，降低了单次训练的模型规模，显著降低算力需求；灵活性上，各模块可进行单独替换，也可以基于任务需求进行模块增减，同时大模型系统可以快速接入第三方服务，多维度实现更加灵活的解决方案。一体化（原生多模态）设计一体化（原生多模态）设计：原生多模态

45、设计统一文本和视觉信息输入。前端利用不同的处理模块将文本、图像等信息分别 Token 化，并直接输入统一的大模型。12 月 6 日，谷歌谷歌发布 Gemini 模型，作为第一款“原生多模态”大模型，文本和视觉等模态在统一架构下预训练。统一的训练有望使得各模态之间的结合更加顺畅。根据官方技术文档，模型可以实现图文结合的理解和推理，目前在数学和物理等领域有所进展，体现了模型的复杂问题拆解能力，对于扩展应用领域以及提升输出准确性有较大价值。原生多模态设计实现更强图文结合效果，但模型成本较高原生多模态设计实现更强图文结合效果，但模型成本较高。可以针对图像和文本结合的综合任务进行端到端的统一训练和优化，

46、把图文结合当成一项任务直接进行学习，而不是通过系统层面基于人为规则制定的融合和调优。因此，采用原生多模态设计的大模型可以实现多模态信息的无缝共享、互通和融合，例如谷歌谷歌 Gemini 模型演示中就展示了基于模型对于视觉、文本、代码的融合生成能力。但同时为了容纳多模态的处理能力，模型单次参与推理的参数较多，训练数据的多样性和规模也相应提升，将显著提升模型训练和推理成本。图像生成模型主要采用扩散模型架构，各产品存在显著差异图像生成模型主要采用扩散模型架构，各产品存在显著差异。潜在扩散模型（Latent Diffusion model）是 Transformer 大模型在图像领域的特化应用，通过图

47、片噪点生成的方式学习大量图片，并通过逆向去噪方式实现图片生成，成为图片生成领域的主流技术路径。与文本生成注重正确性相比，图片生成需求更加多元，各产品在艺术风格、易用度等方面的差异化竞争更加明显。目前主流产品可以实现对用户需求的准确理解，并生成高质量的、具备一定艺术风格的图像。代表产品有主打低门槛高质量生成的Midjourney，打造开源生态实现工业级定制的 Stable Diffusion，结合 ChatGPT 实现便捷化使用的DALL E3 等。视频生成是图像生成在时间轴上的延续，视频与图像生成底层不存在技术壁垒视频生成是图像生成在时间轴上的延续，视频与图像生成底层不存在技术壁垒。与图像生成

48、类似，当前视频生成同样通过扩散模型实现，根据 RunwayGen1 模型论文（Patrick Esser，Johnathan Chiu，Parmida Atighehchian 等），在文生视频流程中，模型首先通过 DALL E、Stable Diffusion 的文生图模型实现高质量图片生成，引入带有时间轴的预训练图像模型，并在图像和视频上做联合训练，从而将扩散模型从图像扩展到视频生成领域。因此视频和图像生成底层不存在技术壁垒，核心能力在于如何更好的处理视频的流畅性和艺术表达，提升视频生成的长度限制。目前视频模型产品主要功能包括文生视频、文图结合生成视频、视频智能编辑等功能。根据论文统计，视

49、频生成领域热度明显高于视频编辑和理解。目前视频生成代表产品包括 Pika、NeverEnds、Runway 等，参考微信公众号 AIPioneer 的测试，相关产品在动画生成上效果出色。4、代码生成：代码大模型快速发展，国产厂商位于第一梯队代码生成：代码大模型快速发展，国产厂商位于第一梯队通过大语言模型微调构建代码大模型，正确率和多模态融合能力快速提高通过大语言模型微调构建代码大模型，正确率和多模态融合能力快速提高。代码大模型主要将自然语言转化成可执行代码，作用于开发领域提升程序员工作效率。由于代码标准化程度高、容错低，和自然语言差异较大，普遍采取基于语言模型使用代码数据进行微调的方式，构建

50、专用的代码大模型。这样既可以保留模型对用户输入的高理解能力，又可以将输出严格限制为代码格式。过去几年，代码大模型正确率不断升级，最新基于 GPT-4 构建的代码大模型在 HumanEval 测试级上单次正确率可以达到 82%。此外，代码与其他模态的互动与融合也是主要进展方向之一，谷歌谷歌最新 Gemini 模型演示了基于文字和图像生成代码的能力，展现相关技术的巨大潜力。国际巨头加速布局，国厂商位列第一梯队国际巨头加速布局，国厂商位列第一梯队。过去一年全球主要厂商大力投入代码大模型研发，模型能力屡创新高。3 月，OpenAI 基于 GPT-4 推出代码模型，官方技术公告显示模型在 HumanEv

51、al 测试集上的正确率为 67%。9 月，Meta 发布基于 Llama2 的开源代码大模型 Code Llama，在 Hugging Face 平台测评中一度超越 GPT-4 等主流代码模型，占据榜首位置。12 月，Google 基于 Gemini 模型推出AlphaCode2，性能超过 85%的人类程序员，将加持 Gemini 模型定制版。国产厂商中，根据论文 A Surveyon Language Models for Code（ZibinZheng，KaiwenNing，YanlinWang 等），蚂蚁集团蚂蚁集团的开源代码大模型 CodeFuse 和华为华为代码大模型 PanGu-C

52、oder2 性能优异，位列行业第一梯队。五五、产业框架、产业框架 1、多模态大模型框架概览多模态大模型框架概览数据数据：文本、视觉、声音、触觉、气味等。算法算法：通过多模态统一建模，增强模型的跨模态语义对齐能力，打通各模态之间的关系，执行标准化的任务。应用应用：办公、电商、娱乐、教育等领域。2、数据：高质量多模态数据有限，合成数据发展或能改善数据：高质量多模态数据有限，合成数据发展或能改善数据存量有限数据存量有限：根据 Epochai，在当前大模型高速发展趋势下，高质量语言数据可能在 2026 年之前耗尽，而低质量语言/视觉数据存量也可能将在 20302050/20302060 年耗尽。高

53、质量多模态数据集有限：由于不同类型的标注成本差异大，视觉等模态数据的收集成本比文本数据高，导致多模态数据集，尤其是高质量数据集通常比文本数据集少得多。AI 合成数据或有望改善数据枯竭问题合成数据或有望改善数据枯竭问题。与实际数据具有相同的预测特性；合成数据获取速度更快，为垂直模型的训练更快定制数据集；适应多模态模型的数据模态组合，能够扩大所有数据模态存量的组合，有效增加数据存量。3、算法：技术要求更高，算法：技术要求更高，LLM 发展提供突破口发展提供突破口相比单模态，多模态大模型算法和工程难度更大相比单模态，多模态大模型算法和工程难度更大，在表征、对齐、推理、生成、迁移、量化等环节均面临更

54、多难点。预训练为多模态主流训练方式预训练为多模态主流训练方式。由于高质量的多模态标注数据较少，基于 Transformer 结构的多模态预训练模型逐渐成为主流，通过海量无标注数据进行预训练，再使用少量有标注数据进行微调。原生多模态大模型是未来发展趋势，即设计时原生支持多模态，具有处理不同形式数据的能力，但各环节难度会更高。23 年 12 月谷歌 GEMINI 即为原生多模态，一开始就在不同模态上进行预训练，利用额外的多模态数据进行微调以提升有效性，行业技术取得进一步突破。这一波大语言模型发展给多模态带来新突破这一波大语言模型发展给多模态带来新突破：大语言模型 LLM 可充当大脑，处理各种模态信

55、息，将其它模态信息对齐到 LLM 的语义空间。大语言模型在训练方式上给多模态模型提供前进方向参考，如自监督、预训练、上下文学习、指令遵循等。4、算力：需求更大，催化产业新机遇算力：需求更大，催化产业新机遇多模态大模型对算力的需求高于单模态多模态大模型对算力的需求高于单模态。一般在同样信息量情况下，文字数据量图片数据量视频数据量，多模态大模型需处理的数据量更大，再加上训练工程上难点更多，对应算力需求更高。参考前深度学习时代向深度学习时代过渡，以及从“大炼模型”进入“炼大模型”切换之后，算力需求均有明显提升。根据机器之心，谷歌 Gemini 有万亿参数，训练动用的算力是 GPT-4 的五倍。未来

56、随着算力需求的进一步提升，芯片制造、提供云服务以及模型微调的企业有望迎来更多发展机会。六六、市场应用、市场应用 1、AI+办公：以微软领衔的科技巨头纷纷布局办公：以微软领衔的科技巨头纷纷布局自 ChatGPT 掀起大模型浪潮以来，微软微软、谷歌谷歌、亚马逊亚马逊、Meta 等海外科技巨头在 AI 领域纷纷发力，大部分巨头从硬件基础设施到应用端进行了全产业链布局，并在不同的环节各有侧重。其中微软发布的Microsoft 365 Copilot 以及 Azure AI 云服务产品更是进行了多轮迭代，在 AI+办公垂直领域表现惊艳。当下 AI+办公软件主要有两类，一类是如 Microsoft 36

57、5 Copilot 的工具套件，另一类是细分不同用途的单工具应用。工具套件工具套件：微软微软推出 Microsoft 365 Copilot 与 Azure AI，集成了 GPT-4，将大模型（LLM）与Microsoft Graph 的业务数据、Micros Office 365 中各类应用相互结合，并提供 AI 模型、工具和平台，助力企业自主训练大模型，是目前 AI+办公领域的标杆软件。谷歌谷歌推出 Google Wokspace，功能与Microsoft 365 Copilot 类似，集成了多款谷歌自身的 AI 工具。亚马逊亚马逊推出 Amazon Q，为企业提供个性化 AI 助手服务。

58、国内金山办公金山办公亦推出 WPS AI 与其 WPS Office 服务集成，提高工作效率。单工具应用单工具应用：文本写作类助手以 Jasper AI 为代表，可协助生成新闻文稿、营销文案等。图像制作类以Adobe 为代表，推出 Firefly 软件，简化 PS 软件工作流程。幻灯片制作工具 Canva 亦推出 Canva AI，协助制作海报、名片等设计作品。AI 办公软件的功能同质化程度高，未来如微软、谷歌等巨头的办公工具套件优势将逐渐加强办公软件的功能同质化程度高，未来如微软、谷歌等巨头的办公工具套件优势将逐渐加强。在文本写作和图像编辑等 AI 工具上，GPT-4 更新后，ChatGPT

59、支持多模态交互，集文本写作、图像生成、PDF 阅读等多重功能于一身，微软微软的 Microsoft 365 Copilot 亦集成了多种软件工具，因此诸如 Jasper AI 此类单一功能的应用工具将受到一定冲击，办公软件领域头部效应将加强，如 365 Copilot、Google Wokspace、WPS AI 这类型的工具套件将占据大部分市场。2、AI+创意工具：技术迭代加速，爆款应用频现创意工具：技术迭代加速，爆款应用频现创意工具包括了图片、视频、音频、3D 模型等 AIGC 应用，在多种模态的生成中，现阶段最具前景的是图片和 3D 模型的生成，目前市场上已有许多爆款应用浮现。AI+

60、视频视频：美国 Pika Labs 推出 AI 视频生成平台 Pika，用户输入文本即可生成和编辑各种风格的视频，一经推出即破圈，获得超 50 万人使用。阿里巴巴阿里巴巴亦推出 Animate Anyone，可以从静态图像生成动态视频，可将任意图像角色动画化。字节跳动字节跳动推出 Magic Animate，可用于创建动画效果，它可以帮助用户轻松地制作各种类型的动画，包括 2D 和 3D 动画。Meta 发布的 Emu Video，能够基于文本和图像输入生成视频剪辑，Runway 的 Gen2 具有 Motion Brush 动态笔刷功能，只需要在图像中的任意位置一刷，就能使图像中静止的物体动

61、起来。同时，Stablility AI 推出 Stable Video Diffusion，可以根据图像自动生成高品质的视频剪辑。AI+图片图片：随着多模态技术融入大模型，ChatGPT、Bing 等聊天机器人软件可线上实时生成图片，掀起新一股 AI 生图风潮。除了比较早期的 AI 生成图片以外，近期在软件上迎来了一波 AI 括图的新风尚。最早一批的图片生成应用之一 Midjourney 更新了“平移扩图”功能，可将图片自由前后平移。国内软件美图秀秀美图秀秀在 7 月 11 日正式上线“AI 括图”功能；抖音抖音旗下的产品剪映 APP 凭借短视频的传播也拥有许多用户，其采用多元化的视频模板将成

62、品图片输出。AI+音频音频：音频合成在技术和商业化已经比较成熟，近年来大模型和优化算法的成熟能够基于大量音乐数据集训练和优化算法来创建 AI 虚拟歌手，更加趋近于真人发声效果（如：AI 孙燕姿），这一领域的相关应用包括 WaveNet、Deep Voice、Music AutoBot 等。3D 模型模型：3D 模型生成还处于早期，能够基于 2D 图像中生成 3D 图像或场景，目前已经成为 3D 模型构建的主流算法，并广泛应用于游戏、数字人、虚拟现实、增强现实、电子商务等领域，未来具备广阔应用空间，代表应用包括 Magic3D、Dream Fusion。创意工具作为 AIGC 的关键应用领域，高

63、度依赖于算法、大模型等底层技术的进步，是当下 C 端 AI 应用最有可能的落地方向。目前由于 AIGC 产业格局尚未完全确定，多模态技术仍处于早期，模型和算法的能力决定了应用的竞争力，对于拥有强技术壁垒的科技巨头而言，这一领域存在领先优势。3、AI+各垂类行业：在细分领域大放异彩各垂类行业：在细分领域大放异彩除了办公软件与创意工具外，在不同的垂类行业，AI 亦有不同程度的应用。一些主要的行业与相关标杆AI 应用如下：AI+企业服务企业服务：目前生成式 AI 已经与企业服务领域的主要产品 CRM、ERP、财务、HR、OA 实现了不同程度的结合，短期来看 CRM 等营销侧的产品成熟度最高，且已经

64、初步实现商业化。龙头参与厂商是Salesforce。AI+IT 运维运维：生成式 AI+IT 运维主要结合点在于智能运维（AIops），提升 IT 运维的自动化和智能化水平。目前这一领域的龙头厂商是 Servicenow。AI+教育教育：目前 AI 的应用根据功能的不同分为语言学习、在线课程、学习工具三个层面，而目前应用最多的是语言学习和学习工具。同时，教育领域的商业化模式较为成熟，AIGC 的技术注入将为其带来明显提升。目前国外有多邻国多邻国，国内有学而思学而思等厂商参与。AI+金融金融：生成式 AI 技术在金融领域的主要应用为数据分析工具，通过对金融大数据的挖掘来实现知识洞察，典型应用包括

65、证券领域的智能投顾，银行领域的智能风控等。目前彭博社推出 500 亿参数大语言模型 BloombergGPT。AI+医疗医疗：AI+医疗通常应用于医药研发、医院诊疗、医疗器械等场景。AI+医疗参与者众多，除了亚马亚马逊逊等科技巨头的加入，还包括 Sensely 等医疗科技公司。AI+智能制造智能制造：AI 在智能制造领域主要应用于以下方面：预测维护、质量控制、机器人控制、供应链管理、设备故障诊断、资源计划调度、产品设计和数字孪生等。然而由于智能制造数据规模通常较小，质量不佳，无法发挥 AI 最大的优势。同时由于 AI 本身存在的黑盒问题，在一些制造领域缺乏解释能力，且大模型训练规模大，成本高，

66、对中小企业而言亦是挑战。因此 AI+智能制造目前仍处于商业化的早期阶段。当下国外厂商 SIEMENS 已在其生产流程中应用相关 AI 技术。七、市场机遇七、市场机遇 1、模型数据量显著增加，训练算力需求激增模型数据量显著增加，训练算力需求激增 445 倍倍多模态大模型训练阶段在数据源、模型结构、计算操作方面更加复杂多模态大模型训练阶段在数据源、模型结构、计算操作方面更加复杂。多模态大模型需要处理多种来源的数据，如文本、图像和声音，其输入数据的复杂性增加。此外，多模态模型的结构自然更复杂，因为它经常包含为不同数据源优化的多个子模块，如处理文本的 RNN 部分和处理图像的 CNN 部分。为了在模

67、型中有效地结合多种模态的信息，交互和融合层的引入可能涉及复杂的计算操作，如注意力机制，会进一步增加计算负担。多模态模型往往需要更大量的训练数据，进一步增加算力消耗。随着模型复杂度的提升，算力需求在不断攀升随着模型复杂度的提升，算力需求在不断攀升。研究显示，2010 年之前，训练算力的增长率符合摩尔定律，大约每 20 个月翻一番。随着深度学习和大模型的训练需求增加，训练算力的增长率大幅度提升，对训练算力的要求提高了 10 到 100 倍。OpenAI 认为自 2012 年以来，大规模 AI 训练所需的算力呈指数级增长，每 3.4 个月翻一番。2012-2018 期间已增长超过 300,000 倍

68、。当前多模态大模型仍在不断迭代，训练阶段的算力将保持增长。GPT-4 对于算力的需求在同等训练时长下相比对于算力的需求在同等训练时长下相比 GPT-3 增长增长 445 倍倍。根据推测，GPT-4 在 120 层中总共包含了 1.8 万亿参数，包含约 13 万亿个 token。而 GPT-3 只有约 1750 亿个参数，包含约 300 亿个token。根据相关公式可推测 GPT-3 对应计算量 3.15E+23FLOPs，GPT-4 对应计算量 1.40E+26FLOPs。假设 GPU 利用率为 35%，共训练 90 天，考虑到 A100 的峰值性能为 3.12E+14FLOPs/s，则与训练

69、GPT-3 需要 371 片 A100，GPT-4 需要 165344 片 A100，增长了大约 445 倍。显然，这个 GPU 的增长数量在当下算力紧缺的环境下难以满足，只能延长训练时间。2、多场景应用持续落地，多场景应用持续落地，算力或迎来高速扩张，服务器、芯片等厂商有算力或迎来高速扩张，服务器、芯片等厂商有望受益望受益推理成本受到计算集群的规模、能力、使用效率、批次大小以及集群的管理策略等因素的影响推理成本受到计算集群的规模、能力、使用效率、批次大小以及集群的管理策略等因素的影响。集群的规模和计算能力决定了其处理任务的速度和效率，高性能的计算节点可以更快地完成任务，从而降低单位任务的推

70、理成本。同时，集群的使用效率高意味着计算资源得到了充分利用，从而最大化了每单位时间的计算输出，减少了推理成本。此外，大批次处理可以更好地利用并行处理能力，进一步提高效率。下游商业模式逐步清晰，大模型终端使用量有望增加下游商业模式逐步清晰，大模型终端使用量有望增加。9 月 21 日，微软微软宣布 Microsoft 365 Copilot 将于 11 月 1 日面向企业客户全面推出，定价为每用户每月 30 美元。在 Word 中，Copilot 可以为用户撰写草稿、添加内容到现有文档、重写文本或生成摘要。在 Excel 中，用户不仅可以通过 Copilot 快速生成公式，还可以使用提示来高亮关键

71、数据。在 Outlook 和 Teams 中，Copilot 可以为用户提供邮件和会议的快速总结，推荐回复方式，并自动跟踪无法参加的团队会议。视频创作平台视频创作平台 WondershareFilmora 全球上线，接入全球上线，接入 OpenAI 相关服务，多模态应用前景广泛相关服务，多模态应用前景广泛。该平台不仅推出了用于生成视频脚本、文案及社交媒体描述的 AI 文案功能，而且还推出了 AI 绘图功能，允许用户简单快捷地产生所需的图片素材，创造出与众不同的艺术作品。此外，RunwayGen-1 和 Gen-2 也已开放使用，Gen-2 不仅可以像 Gen-1 一样在原视频的基础上编辑出符合

72、用户要求的视频，还可以从头生成视频。从应用趋势来看，随着多模态大模型在语音、图像和视频等多种输入输出方式中的应用，内容创作领域从应用趋势来看，随着多模态大模型在语音、图像和视频等多种输入输出方式中的应用，内容创作领域可能会经历前所未有的变革可能会经历前所未有的变革。目前应用较为广泛的文字交互或仅为 Chatgpt 以及 AIGC 应用场景的冰山一角，语音、图片、视频等多形式的输入输出，将很可能为内容创作领域带来革命性变化。而更广的数据形态、更多的应用场景、更深的用户体验，亦将大幅提升支撑人工智能的算力需求，算力或迎来高速扩张时代，服务器、芯片、IDC、光通信等厂商有望核心受益。八、相关公司八、

73、相关公司 1、万兴科技：已实现万兴科技：已实现 AIGC 赋能智能创作赋能智能创作天幕大模型支撑万兴天幕大模型支撑万兴 AIGC 创作能力创作能力。万兴“天幕”是国内首个专注于以视频创意应用为核心的百亿级参数多媒体大模型，由视频、音频、图片、文本大模型组成，支持视觉、音频、语言多模态 AI 生成及优化，具备一键成片、AI 美术设计、文生音乐、音频增强、音效分析、多语言对话等核心能力。万兴于12 月 1 日展示天幕大模型文生视频能力，生成视频“人生四季”，视频已具备较高的清晰度和流畅度。Wondershare Filmora：已实现：已实现 AI 文生视频文生视频。万兴海外产品 Wonder

74、share Filmora 已实现 AI 文生视频，同时具备 AI 辅助创作、基于文本编辑视频等功能。Filmora AI 文生视频：基于用户输入的 prompt 生成视频；Filmora AI Copilot Editing：AI 辅助创作及编辑，使用 AI 分析用户视频并根据用户需求提供智能建议；基于人工智能的文本编辑：将用户的视频转换为文本，并使用 AI 基于文本的编辑功能像编辑文档一样编辑视频；Filmora AI Thumbnail Creator：通过 AI 帮助用户创建视频缩略图。万兴喵影：多种万兴喵影：多种 AI 功能赋能视频创作功能赋能视频创作。万兴喵影是万兴科技旗下的一款视

75、频剪辑软件，内含多款 AI 功能，包括 AI 稳定影片、AI 智能补帧、AI 智能遮罩、AI 文字快剪、智能人声分离等。通过万兴喵影，万兴已实现 AIGC 赋能视频创作。万兴播爆：脚本万兴播爆：脚本数字人数字人场景，实现智能化视频营销场景，实现智能化视频营销。万兴播爆为万兴科技的智能化营销视频生成工具，现已实现 AI 文生视频、AI 字幕及配音、3D 数字人等功能，内含 180+专业级模版、120+标准语言声音、免版权音乐资源库、海量视频创作素材，可制作 200+免版权多国籍数字人，输入关键词即可快速生成 AI 脚本。2、大华股份：多模态大华股份：多模态+视频分析，有望在能源等行业率先落地应用

76、视频分析，有望在能源等行业率先落地应用多模态持续发展，公司大有可为多模态持续发展，公司大有可为。近年来随着 vit、swin transformer、mae 等论文推出，transformer在 CV 和多模态等应用增加。基于 ViT 和 Swin Transformer 等方法，大模型在 ImageNet 数据集的分类准确率突破了 90%，超过传统 CNN，展现出较强的应用潜力。上述技术路线已经开源，考虑到公司对AI 前瞻性技术投入、拥有大量高价值视频数据、具备丰富的落地场景，大模型技术路线的应用，有望助力公司高效满足海量的客户需求，并进一步压缩定制化开发成本。加大研发投入，大华视觉大模型

77、有望在城市治理、电力等行业完成方案验证加大研发投入，大华视觉大模型有望在城市治理、电力等行业完成方案验证。根据公司 2023 年半年报后发布会，尽管外部环境压力，公司依然坚定的加大对 AI、大模型等方面的战略投入，后续还将适配研发进度，投入更大规模的资源。针对大模型、多模态等一系列技术，公司首要关心的还是行业价值的创造，以及商业上的长期主义。公司基于自身的行业积累和全面的工程化能力，再结合大模型天然的强泛化、理解等特性，打造垂直行业视觉大模型。此外，公司计划在今年四季度正式推出大华行业视觉大模型，并分别在城市治理、电力等领域完成大模型方案验证；2024 年，进行方案部署及行业试点，持续做深做宽

78、。与中移动合作持续深化与中移动合作持续深化，期待视觉大模型落地期待视觉大模型落地。8 月 25 日公司公告董事会同意提名袁利华，张晓明为公司非独立董事，监事会同意提名贾琦为公司非职工监事。以上三人均为移动系高管。预计大华股份凭借在 AI 领域深厚积累，将有效赋能中国移动视联网及数字化业务建设，同时公司可借用中移动强大的渠道和客户资源，额外收获大量 B 端数智化转型订单，助力 AI 解决方案应用落地。3、科大讯飞：、科大讯飞：星火大模型将对标星火大模型将对标 GPT4-Turbo 公司实现业绩增长并实施稳定利润分配公司实现业绩增长并实施稳定利润分配。自 2008 年上市至 2023 年底，公司营

79、收增长超 76 倍，市值较发行市值增长超 78 倍，近三年以现金累计分配利润占近三年年均可分配利润比例达 118%。未来，公司将重视企业发展业绩增长、定期制定未来三年股东回报规划、强化信息披露与公司治理等，实现长期、稳定、可持续的投资者回报。1 月 29 日，公司发布业绩预告，预计 2023 年营收超 200 亿元，同比+约 7%；归母净利润 6.45-7.30 亿元，同比+15-30%。2023Q4，预计营收超 75 亿元，同比+超 20%；毛利超 32 亿元，同比+超 25%；单季经营性现金流超 14 亿元，验证公司提升经营质量的显著成效。星火大模型将达到星火大模型将达到 GPT4-Tur

80、bo 最好水平，潜在估值空间广阔最好水平，潜在估值空间广阔。2024 年 1 月 30 日，公司正式发布的“星火大模型 V3.5”在语言理解、数学能力超过 GPT-4Turbo，代码达到 GPT-4Turbo96%，多模态理解达到 GPT-4V91%；同时星火语音大模型首次发布，首批 37 个主流语种的语音识别效果超过 OpenAI Whisper V3。“飞星一号”为支撑万亿参数大模型训练的国产算力平台，公司宣布实现训练效率达 A100的 90%。面向 2024 年，刘庆峰提出讯飞大模型战略年度四大目标：星火通用大模型国内领先对标 GPT-4；赋能智能硬件终端 1000 万、独立软件用户数过

81、亿；教育/医疗/金融/汽车/央国企/城市行业市场第一；汇聚100 万大模型开发者打造行业第一生态。2023 年，星火大模型已逼近 GPT-4Turbo 当前水平，预计2024 年上半年达 GPT4-Turbo 当前最好水平。根据智东西，截至 2023 年底，全球有约 28 家生成式 AI 和大模型相关独角兽，OpenAI、Anthropic 估值 1000 和 184 亿美元、排名前二，中国智谱 AI 估值 15 亿美元。讯飞星火大模型基于全国产算力平台，具技术研发、用户基础和开发者生态等优势，估值潜在空间广阔。根据地业务经营稳健，讯飞星火赋能强化竞争壁垒根据地业务经营稳健，讯飞星火赋能强化竞

82、争壁垒。2023 年，公司预计开放平台及消费者业务占总营收约 30%以上，同比显著增长；智慧金融、智慧医疗业务收入稳健增长，收入占比提升；运营商业务收入占比相对稳定。教育业务占比仍超过 30%，智慧城市业务占比约 20%。其中，预计教育业务 G 端占比 31%，B 端 28%，C 端 41%，C 端占比持续提升，且高端学习机市占率、线上销售额均保持市场第一。星火大模型赋能根据地业务星火大模型赋能根据地业务：B 端：规模企业私有化解决方案：2023 年 10 月 24 日，公司联合行业龙头发布金融/汽车/运营商/工业等十二个行业大模型，星火认知大模型在中国人保/中国太保/中国太平洋保等头部央国企

83、开始逐步落地；中小开发者 API 经济：2023 年，讯飞人工智能开放平台开发者 578.5万，新增开发者 197.5 万，超 35 万大模型开发者，生态规模国内领先。C 端：AI 应用：讯飞星火 APP、星火语伴 APP、讯飞晓医 APP 大模型 AI 应用。讯飞听见 6500 万用户，讯飞星火纯用户 2400 万，讯飞输入法 1.4 亿活跃用户。AI 硬件：推动智能硬件销售。讯飞学习机、智能办公本、翻译机、智能助听器等产品销量增长明显，在 2023 年双 11 全周期内销售额同比增长 126%。4、金山办公：直接对标微软金山办公：直接对标微软 copilot，高价值，高价值 AI 应用入口

84、应用入口全面拥抱全面拥抱 AI 变革，变革，WPS AI 成为国内率先落地的成为国内率先落地的 AI 办公应用办公应用。在 9 月 20 日的 2023 金山办公技术开放日，公司官方宣布，基于大语言模型的智能办公助手 WPS AI 已接入金山办公全线产品。公司定位为大语言模型应用方，锚定 AIGC（内容创作）、Copilot（智慧助手）、Insight（知识洞察）三个战略方向，WPS AI 已接入 WPS 文字、演示、表格、PDF、金山文档等产品线。WPS AI 有望助力个人订阅付费率与有望助力个人订阅付费率与 ARPU 值再上台阶值再上台阶。根据公司半年报，国内个人订阅业务上半年收入 12

85、.52 亿元，同比增长 33.2%。截至 23Q2 月活设备数 5.84 亿，同比增长 2.5%。报告期末累计年度付费个人用户数 3324 万人，同比增长 16.4%，付费率进一步提升至 5.69%。公司通过 AI 升级能力，产品体验及质感得到跃升。在坚持长周期会员策略的同时，将原有会员体系升级，拉动更多用户成为会员，提升会员客单价。测算金山办公测算金山办公 C 端付费空间，远期有望端付费空间，远期有望 300 亿以上亿以上。借助 WPS AI 对办公软件的赋能，C 端付费率远期有望提升至 15%、ARPU 值有望提升至 300 元/年。据此测算，金山办公 C 端订阅收入空间可达 300亿元/

86、年。类比微软类比微软 copilot 提价逻辑，金山办公提价逻辑，金山办公 B 端价值同样大幅提升端价值同样大幅提升。根据公司半年报，国内机构订阅业务上半年收入 4.18 亿元，同比增长 40.4%。上半年数字办公产品新增政企客户（不含 SaaS）1700 余家。公司已新打造出一系列灯塔项目并广泛复制。此外公司持续引导客户使用云和协作应用，报告期内，公有云领域 SaaS 付费企业数同比增长 54%，付费企业续约率超 70%，金额续费率超 100%，带动公有云领域相关收入同比增长 100%。在 B 端客户方面，微软通过与 Visa、通用汽车通用汽车等企业用户一起探索后，宣布于 11 月 1 日开

87、始上线企业版，价格是每月 30 美元，证明 AI 在企业端的高价值。WPS AI 融入后，有望大幅提升金山办公在机构订阅业务的市场空间。5、福昕软件：面向海外福昕软件：面向海外 B 端客户，率先落地端客户，率先落地 AIGC 能力能力 AIGC 提升产品价值，迭代节奏领先行业提升产品价值，迭代节奏领先行业。4 月，福昕软件海外云产品 PDF Editor Cloud 率先集成AIGC 技术；5 月发布全新产品线 PDF Editor Suite 和 PDF Editor Suite Pro 并实现提价；8 月在ChatGPT Plugin Store 发布了新插件 Foxit PDF Assi

88、stant；9 月，接入百度文心千帆大模型，重磅发布福昕 PDF 中文 AI 助手。公司的 PDF Editor Cloud 现可实现文档总结、内容改写、实时问答、文本翻译、文档智能解析及增强问答、文本解释、语法&拼写纠错八大功能。更多 AIGC 相关功能将陆续丰富，并同步至 PC 端 PDF Editor 编辑器。公司主要针对高付费能力的海外 B 端客户，逐步实现 AIGC 在办公场景落地并提升用户粘性。年内已实现一轮调价，预计年内已实现一轮调价，预计 AIGC 打开进一步提价空间打开进一步提价空间。根据公司官网，此前 PDFEDITOR 的$79/99/149 美元的三档年订阅价格，现已调

89、整为 PDF Editor Suite 的$129/159 美元的两档订阅价格。此轮核心产品体系调整，主要变化在于将 eSign、PDF Editor Cloud 等依托于云端提供的业务作为标配，打包进 PDF Editor Suite 中，实现价格的整体提升。订阅起步价从此前的 79 美元提升至目前的 129 美元，增幅达 63%。未来随着 AIGC 能力的不断完善，订阅价格或还有进一步向上调整的空间。在在 AIGC 之外，公司订阅之外，公司订阅+渠道渠道“双转型双转型”战略同样推进顺利，实现自身战略同样推进顺利，实现自身成长成长：订阅转型成效卓著，核心指标超预期订阅转型成效卓著，核心指标

90、超预期。2022-2024 为公司订阅转型期，订阅类相关指标为核心变量。根据公司财报，23Q1/Q2 订阅收入占比分别为 30%/35%，提升显著；23Q2 订阅 ARR 为 1.86 亿元，同比+85.6%、订阅类合同负债为 1.09 亿元，同比+89.2%，增速均较 Q1 加速。Editor 产品订阅续费率环比一季度提升 2pct，达到 93%。分区域看，发达国家市场订阅增长迅猛，北美/欧洲区域订阅收入分别同比增长 78.7%/115.7%。以上数据证明公司商业模式正发生根本性升级，且转型速度超预期。渠道收入同样加速增长，国内垂直市场顺利推进渠道收入同样加速增长，国内垂直市场顺利推进。23

91、Q1/Q2 来自渠道收入分别同比增长 15%/25%，渠道收入占比分别为 30%/34%，渠道收入增幅与占比均较 Q1 明显提升。公司有望利用渠道触达大量海外B 端客户，有效扩大市占率。面向垂直市场，知名老牌船舶企业天海防务天海防务率先使用福昕船舶图纸管理系统；家装、证券、医疗、法律、供应链、银行、出版、教育等行业应用同步拓展，高效挖掘国内市场。九九、产业产业前景前景 1、多模态模型快速发展推动应用层加速繁荣多模态模型快速发展推动应用层加速繁荣大模型多模态发展趋势显著，打开广阔应用场景大模型多模态发展趋势显著，打开广阔应用场景。2023 年 3 月，OpenAI 推出 GPT-4 大模型，支

92、持图形、文本等不同数据形式的输入，实现多模态发展，回答准确性相较 GPT-3.5 显著提升。9 月，正式发布了多模态模型 GPT-4V，新增了语音和图像的交互功能，向多模态方向持续发力。在关注度更高的图像交互功能方面，OpenAI 官方案例里，用户上传自行车图片向 ChatGPT 询问如何调低座椅座位，期间使用绘图工具圈出特定位置追问细节，最终 ChatGPT 通过理解用户多轮提问中的文字和图片内容，给出详细的操作步骤，展现了 GPT-4V 强大的多模态理解能力。其他国内外科技巨头也争相进入多模态领域，包括谷歌谷歌的 PaLM-E、Meta 的 AnyMAL、微软微软的 KOSMOS-1、百度

93、百度的文心一言、阿里阿里的 M6 大模型等，大模型多模态化发展趋势显著。从模型技术来看，单模态模型主要针对一种数据的输入，在交互方面具有局限性和不完整性，应用通常也限于单一的数据类型任务。而多模态模型可以同时处理两种或以上的数据输入，捕获跨模态的复杂数据关系，全面理解和分析信息，从而参与到更复杂、更深层次的任务中，具有更广阔的应用场景。伴随着多模态模型能力的快速升级，游戏、出版、影视、营销领域均有望受益伴随着多模态模型能力的快速升级，游戏、出版、影视、营销领域均有望受益。应用进展上，目前国内大模型已在金融、办公、文娱（包括游戏开发、营销、影视制作等）、教育、医疗、交通等多个领域落地应用。从行业

94、渗透度来看，根据钛媒体发布的2023AI 大模型应用中美比较研究显示，大模型在文娱和教育领域的渗透度均超过 50%，分列第三、第四位，仅次于金融和政务应用场景。具体而言，目前基于多模态模型的生成式 AI 技术和传媒领域应用场景的融合探索主要有两大发展方向：一方面，AIGC 可以赋能内容生产降本增效，在游戏、出版、影视、广告营销等涉及文字、图片、音频等相关领域带来应用体验的创新。另一方面，在产品方面，有望通过与 AI 技术相结合，开拓软硬件 AI 产品的商业价值空间，例如目前在付费意愿较强的教育领域已经有相关应用产品落地，包括软件方面的智慧教育平台和硬件方面的智能学习机等。伴随着多模态大模型快速

95、迭代，多模态能力不断升级下，生成式 AI产业空间有望加速打开，传媒行业的游戏、出版、影视、营销领域均有望受益。2、多模态大模型带来多模态大模型带来 AI 全新应用场景，市场规模有望快速成长全新应用场景，市场规模有望快速成长预计预计 2028 年全球大模型市场规模将超过年全球大模型市场规模将超过 1000 亿美元亿美元。根据大模型之家、钛媒体数据，预计 2023 年全球大模型市场规模达到 210 亿美元，同比增长 94.4%。预计到 2028 年全球大模型市场规模将达到1095 亿美元，20222028 年复合增长率约为 47.12%，根据 IDC 预测，全球生成式 AI 计算市场规模将从 2

96、022 年的 8.2 亿美元增长至 2026 年的 109.9 亿美元，CAGR 约为 91.34%。预计至预计至 2028 年我国大模型市场规模接近年我国大模型市场规模接近 1200 亿人民币亿人民币。根据大模型之家、钛媒体数据，预计 2023年中国大模型市场规模达到 147 亿人民币，同比增长 110.0%。预计到 2028 年中国大模型市场规模将达到 1179 亿人民币，20222028 年复合增长率约为 60.11%，市场规模快速成长。多模态大模型带来多模态大模型带来 AI 全新应用场景，多模态内容市场规模有望快速成长全新应用场景，多模态内容市场规模有望快速成长。第一财经数据显示，预计至2025 年，中国多模态内容市场规模将达到 832.7 亿美元，2018-2025 年复合增长率达 65.02%。多模态大模型内容将主要应用于商业定制、医疗、游戏、教育和影视领域。

友情提示

1、下载报告失败解决办法
2、PDF文件下载后，可能会被浏览器默认打开，此种情况可以点击浏览器菜单，保存网页到桌面，就可以正常下载了。
3、本站不支持迅雷下载，请使用电脑自带的IE浏览器，或者360浏览器、谷歌浏览器下载即可。
4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩，下载后原文更清晰。

本文（2024多模态AI市场现状、机遇与产业前景及相关公司分析报告（33页）.pdf）为本站（2200）主动上传，三个皮匠报告文库仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对上载内容本身不做任何修改或编辑。若此文所含内容侵犯了您的版权或隐私，请立即通知三个皮匠报告文库（点击联系客服），我们立即给予删除！

温馨提示：如果因为网速或其他原因下载失败请重新下载，重复下载不扣分。