您的当前位置：上海品茶 > 报告分类 > PDF报告下载

报告预览

2024Sora模型技术分析、与其他厂商模型对比及文生视频未来市场规模预测报告（38页）.pdf

编号：155141

PDF 38页 20.56MB 下载积分：VIP专享

下载报告请您先登录！

2024Sora模型技术分析、与其他厂商模型对比及文生视频未来市场规模预测报告（38页）.pdf

1、2 0 2 3 年深度行业分析研究报告多模态AI综述01Partone3AI模型：必将从单模态走向多模态，实现复杂场景下的智能决策014单模态多模态跨模态多模态神经搜索Jina AI光谱AI实现模态融合多模态AI数据：将多模态数据融合处理模型：更多融合人类脑神经机制，提升性能功能：实现智能决策、跨模态任务、运动控制、智能预测反馈来源：AWS，IBM Research，浙商证券研究所2024年，有望出现多模态领域类ChatGPT的爆款应用015来源：Multimodal Foundation Models:FromSpecialists to General-Purpose Assistants

2、，浙商证券研究所1Task-Specific模型2预训练模型3Unified Models withEmerging Capabilities4General Purpose Assistants语言文本领域视觉&多模态领域机器翻译文字填充情绪识别BERTGPTGPT-2GPT-3LLaMA分类检索风格转换MoCoCLIPDALLEFlamingoPaLM-EChatGPTGPT-4子类细分方向代表模型视觉理解（visualUnderstanding）监督学习、基于语言-文本对的训练、仅有图像的自监督学习、多种方法的融合、多模态融合、区块和像素级别的预训练BiT、ViTCLIP、ALIGNMo

3、Co、DINO、MAESLIP、UniCLUNITER、CoCaGLIP、SAM视觉生成（Visual Generation）文本-图像生成基础模型、Spatial Controllable生成、基于文本的编辑模型、文本Prompt、Concept CustomizationStable DiffusionControlNetInstructPix2PixDDPODreamBooth子类细分方向代表模型联合视觉模型（Unified Vision Models）From Closed-set to Open-set Models、From Task-Specific to Generic Mod

4、els、From Static to Promptable ModelsGLIP、Openseg、OpenSeeD、Unified-IO、X-Decoder、SAM、SEEM、SegGPT基于LLM训练的多模态大模型（Visual Generation）图像到文字的生成模型、Instruction Tuning in LLM、Instruction Tuning in LMMFlamingo、ChatGPT、VicunaMultimodal GPT-4、LLaVA、MiniGPT-4多模态助手：基于LLM的工具链（Multimodal Agents:Chaining Tools with LL

5、M)多模态助理（Multimodal Agent）VISPROG、Visual ChatGPT、MM-REACT特定目的的预训练模型通用多模态助手演变大模型行业规模持续增长，市场前景广阔016来源：2023年中美AI大模型应用比较研究报告，第一财经，浙商证券研究所预计2028年全球大模型市场规模将超过1000亿美元。根据大模型之家、钛媒体数据，预计2023年全球大模型市场规模达到210亿美元，同比增长94.4%。预计到2028年全球大模型市场规模将达到1095亿美元，20222028年复合增长率约为47.12%，根据IDC预测，全球生成式AI计算市场规模将从2022年的8.2亿美元增长至202

6、6年的109.9亿美元，CAGR约为91.34%。预计至2028年我国大模型市场规模接近1200亿人民币。根据大模型之家、钛媒体数据，预计2023年中国大模型市场规模达到147亿人民币，同比增长110.0%。预计到2028年中国大模型市场规模将达到1179亿人民币，20222028年复合增长率约为60.11%，市场规模快速成长。多模态大模型带来AI全新应用场景，多模态内容市场规模有望快速成长。第一财经数据显示，预计至2025年，中国多模态内容市场规模将达到832.7亿美元，2018-2025年复合增长率达65.02%。多模态大模型内容将主要应用于商业定制、医疗、游戏、教育和影视领域。2020-

7、2028年全球大模型市场规模2020-2028年中国大模型市场规模2018-2025年中国多模态内容市场规模多模态AI以融合为核心，基于5大技术环节实现复杂问题解决017淘宝多模态特征融合方案表征（Representation）翻译（Translation）对齐（Alignment）融合（Fusion）联合学习（Co-learning）目标实现模态互补剔除模态冗余模态映射模态子成分关联分析信息整合模态知识填充技术路线联合表示Example-based无监督方法早期/晚期融合Parrallel learning协同表示Decoder-Encoder监督方法多核学习Zero Shot图像模型方法图

8、像模型Hybrid神经网络方法神经网络多模态AI的5大核心技术环节基于多模态融合的AI疾病诊断来源：阿里云，AIDD Pro，Multimodal Machine Learning：A Survey and Taxonomy，浙商证券研究所OpenAI 发布Sora模型，将视觉数据转化为patch018过去的视频模型（循环网络、生成对抗网络、自回归Transformer和扩散模型等）：只关注特定类型的视觉数据、较短或者固定尺寸的视频；Sora：通用的视觉数据模型，能生成各种持续时间（甚至长达1分钟）、宽高比和分辨率的视频和图片。借鉴了LLM的思想。视频压缩网络（Video compressio

9、n network）：减少视觉数据维度。输入原始视频，输出一个在时间和空间上都压缩了的潜在空间。Sora在这个压缩后的潜在空间中进行训练。（同时训练了一个解码器将生成的潜在表征转回原像素空间）潜空间patch（Spacetime latent patches）：类比Transformer tokens，推理时通过在合适大小的网格中随机初始化patch控制生成视频的大小。来源：OpenAI官网，浙商证券研究所LLM（大语言模型）tokensSorapatches多种形态的文本代码、数学公式等视觉数据首先将视频压缩到低维空间中，再分解为时空patch9Sora模型核心要点梳理来源：硅基智能官方微信

10、号，浙商证券研究所Sora技术路线0210Sora2024.2Diffusion Transformer2023.2Stable Diffusion2022.4CLIP2021.2(OpenAI)ViT2020.10(Google)DDPM(Diffusion改进模型 2020.6)GAN2014.6基础模型基础模型文字图像联合编码模型图像生成模型基于Transformer的图象编码模型起源于本领域开山之作来源：OpenAI，ArXiv，浙商证券研究所userid:93117,docid:155089,date:2024-03-05,Sora模型技术分析02Partone112.1 Sora模

11、型底座：Diffusion Transformer0212Sora 是 Diffusion TransformerSora是一个Diffusion（扩散）模型：输入有噪声的patch，预测原来“干净”的patch。同时，Sora是diffusion transformer。Transformer在语言、视觉和图像生成等多个领域都表现出良好的拓展能力。如今，视频领域同样表现优异。Base compute4x compute32x compute随训练计算资源的增加，视频质量显著提升来源：OpenAI官网，浙商证券研究所2.1 Sora模型底座：Diffusion Transformer0213S

12、ora是一个Diffusion（扩散）模型：输入有噪声的patch，预测原来“干净”的patch。同时，Sora是diffusion transformer。Transformer在语言、视觉和图像生成等多个领域都表现出良好的拓展能力。如今，视频领域同样表现优异。Sora模型 VS 基础模型：基于Transformer的Sora与基于U-Net的基础模型相比，有提升了一个量级的视频时长（2秒到1分），更强的清晰度（4K到1080P），支持数字世界模拟，在一致性等方面均表现更优。来源：互动创作，Scalable Diffusion Models with Transformers，浙商证券研究所

13、指标Sora模型基础模型视频时长60秒24秒世界理解能力强弱数字世界模拟支持不支持物体一致性强弱物体连续性强弱架构TransformerU-Net文本理解能力强一般清晰度1080P最高4K扩展视频生成前/后后驱动方式数据驱动图片驱动视频到视频剪辑强弱世界互动能力强弱原生纵横比强弱无缝连接能力强弱3D运动连贯性强弱2.1 Sora模型灵感：谷歌使用Patchify技术压缩时空变量02142023年12月，斯坦福团队同谷歌合作，推出了用于生成逼真视频的扩散模型W.A.L.T。该方法成功地将 Transformer 架构整合到了隐视频扩散模型中。隐扩散模型（LDM）可在源自自动编码器的更低维隐空间中

14、运行，从而降低计算需求。第一阶段，用一个自动编码器将视频和图像映射到一个统一的低维隐空间，可以在图像和视频数据集上联合训练单个生成模型，并显著降低生成高分辨率视频的计算成本。第二阶段，该团队设计了用于隐视频扩散模型的新 Transformer 块，其由自注意力层构成，这些自注意力层在非重叠、窗口限制的空间和时空注意力之间交替。首先，使用局部窗口注意力能显著降低计算需求。其次，它有助于联合训练，其中空间层可以独立地处理图像和视频帧，而时空层则用于建模视频中的时间关系。Patchify（图块化）。按照原始 ViT 的设计，该团队对每个隐含帧分别进行图块化，做法是将其转换成一个不重叠图块的序列。窗口

15、注意力。完全由全局自注意力模块组成的 Transformer 模型的计算和内存成本很高，尤其是对于视频任务。为了效率以及联合处理图像和视频，该团队是以窗口方式计算自注意力，这基于两种类型的非重叠配置：空间（S）和时空（ST），来源：机器之心，浙商证券研究所该团队在文本-图像和文本-视频对上联合训练了 W.A.L.T 的文本到视频生成能力。他们使用了一个来自公共互联网和内部资源的数据集，其中包含约 970M 对文本-图像和约 89M 对文本-视频。0215过去：往往将视频或者图片压缩到固定大小（比如4秒钟、分辨率256*256）。Sora：直接在原始素材规格上训练。优势一：灵活的视频制作尺寸范围

16、：宽屏的1920X1080到竖屏的1080X1920。Tips：以较低分辨率快速制作视频原型，再用生成全分辨率内容。来源：OpenAI官网，浙商证券研究所2.1 Sora模型亮点一：直接在原始图片的大小上训练优势二：更优的构图框架左图：传统模型。将训练视频裁剪成正方形，仅显示部分主题视频。右图：Sora。在原始视频的长宽比上训练，有改进的帧生成。2.1 Sora模型亮点二：为视频训练素材生成详细字幕0216方法：Re-captioning technique字幕自动生成。首先训练一个能生成详细描述的标注模型，然后用它为训练集中的视频生成文本说明。技术来源：DALL E3中已经使用过，使用GPT

17、将简短prompt转化为详细说明，这些说明会被输入到视频模型中。优点：增强文本理解能力，可以提高文本的保真度和视频的整体质量，使得Sora能够生产准确遵循用户提升的高质量视频。来源：OpenAI官网，浙商证券研究所2.2 Sora应用一：图片生成视频0217Sora除了可以支持文字生成视频，还可以支持图片或视频作为输入，生成视频。Animating DALLE images 动态化DALL*E图片一只戴贝雷帽和黑高领衫的柴犬一家五口怪物的插画，风格简洁明快。其中包括一只毛茸茸的棕色怪物，一只光滑的黑色怪物长着天线，还有一只绿色的带斑点怪物和一只小巧的带波点怪物，在一个欢快的场景玩耍。来源：Op

18、enAI官网，浙商证券研究所生成无缝衔接视频。从一个片段出发，向时间的倒退方向延伸。尽管开头各不相同，但最后汇聚于同一结局。2.2 Sora应用二&三：视频编辑、视频拼接0218Extending generated videos 扩展视频时间线改变零拍摄输入视频的风格和环境。Video-to-video editing（SDEdit）视频到视频编辑来源：OpenAI官网，浙商证券研究所在两个输入视频之间平滑插值，使得主题完全不同的视频无缝转换中心视频将左右两个视频进行插值Connecting videos 拼接视频2.2 Sora应用四：图片生成，更高像素0219一位女士在秋季的特写照片，细

19、节丰富，背景模糊一个生机勃勃的珊瑚礁，居住着五颜六色的鱼类和海洋生物数字绘画，一只幼年老虎在苹果树下，哑光画风一个被雪覆盖的山村，温馨的小屋和壮丽的北极光，画面细腻逼真，50mm f/1.2镜头拍摄来源：OpenAI官网，浙商证券研究所工具图片分辨率视频分辨率DALL E21024*1024DALL E3默认：1024*1024；宽屏：1792*1024；竖屏：1024*1792Sora任意大小，最高2048*2048介于1920*1080、1080*1920之间任意尺寸的视频，最高1080P2.3 Sora核心能力一&二：3D一致性&物体持久性0220视频生成模型最大的挑战：长视频序列保持时

20、间一致性。源于规模效应，Sora生成的人物和场景在三维空间的移动十分自然。有效模拟短期和长期依赖关系：物体被遮挡或暂离画面，也可以准确表示它们。长时间序列外观一致性：能够在单个视频中生成同一角色的多个场景，保持外观一致性。来源：OpenAI官网，浙商证券研究所涌现：3D consistency 3D一致性一对情侣在冬日东京漫步山水风景和徒步涌现：Long-range coherence and object permanence 视频一致性和物体持久性小狗被挡住后，原样出现在画面中2.3 Sora核心能力三&四：世界交互&模拟数字世界0221来源：OpenAI官网，浙商证券研究所涌现：Inte

21、racting with the world 与世界交互汉堡留下了咬痕，符合物理规则世界交互：模拟简单行为方式影响世界状态，如吃汉堡后留下咬痕。模拟数字世界：如视频游戏。以“Minecraft”为例，Sora能控制玩家角色，以高度逼真方式模拟游戏世界变化。涌现：Simulating digital worlds 模拟数字世界仅需输入“Minecraft”Sora就可以展现该能力2.4 Sora模型的局限性0222但是，Sora还存在不少局限：虽然能模拟一些基础物理互动，比如玻璃的碎裂，但还不够精确；其他相互作用，比如吃食物，并不总是能产生物体状态的正确变化；长视频中存在逻辑不连贯，或者物体会无

22、缘无故出现的现象。来源：OpenAI官网，浙商证券研究所Sora当前展现出的能力突显了持续扩展视频模型的潜力。这种做法为发展出能够精细模拟物理世界和数字世界的复杂性，包括其中的各类物体、动物和人类的“世界模型”，提供了一条充满希望的途径。模拟玻璃碎裂还不够精确视频生成模型对比03Partone233.1 国内外厂商已相继推出AI视频生成算法及工具0324来源：各模型技术文档，浙商证券研究所算法/工具名称公司/团队发布时间底层模型/架构核心功能及亮点SoraOpenAI2024年2月Transformer架构+LDM方法通用的视觉数据模型（general purpose simulators），

23、能生成各种持续时间（甚至长达1分钟）、宽高比和分辨率的视频和图片。Phenaki谷歌2022年10月C-ViViT Encoder+MaskGiT架构根据不同的文字描述组合，生成连贯且多样化的视频；即使训练集的数据只有1.4秒，生成视频也可以长达几分钟。Imagen Video谷歌2022年10月TSR+SSR 级联模型SSR增加空间分辨率，TSR增加时间分辨率，通过级联方式，最后能够生成每秒24帧且分辨率为 1280768 的高清视频。Make-A-VideoMeta2022年10月T2I模型+超分辨率模型加快了T2V模型的训练（不需要从头开始学习视觉和多模态表示），生成的视频在审美、幻想描

24、述等方面表现优异。CoDeF蚂蚁技术研究院2023年8月CoDeF（内容变形场）CoDeF是一项真实时、强细节、高保真的视频处理技术，用于完成视频风格迁移任务。Runway Gen 2Runway2023年3月Diffusion ModelGen-2在上增添了文成视频、图生视频、及文字+图片生成视频的新功能，实现了从头直接生成视频的技术突破。PikaPika2023年11月Diffusion ModelPika 在单帧画面拟真程度、美学质量以及视频的动作感上表现出色，社区活跃度位列业内前茅。Stable VideoDiffusion(SVD)Stability.ai2023年11月基于Stab

25、le DiffusionV2.1SVD作为一种高分辨率的视频潜在扩散模型，达到了文本到视频或图像到视频的SOTA 水平。SVD以两种图像到视频模型的形式发布，能够以每秒3到30帧之间的可定制帧速率生成14和25帧的视频。EMU Edit&VideoMeta2023年11月Diffusion ModelEmu Edit模型仅用文字指令就可以准确编辑图像，而通过分解文字转视频（Text-to-Video）的生成过程，Emu Video方法可以改善最终生成视频的品质和多样性。W.A.L.T谷歌2023年12月Transformer架构+LVDM方法使用因果编码器在统一的潜在空间内联合压缩图像和视频，

26、实现跨模态的训练和生成，生成基准测试上实现了SOTA，无需使用无分类器指导。MagicVideo V2字节跳动2024年1月3D Morphable+Diffusion Model模型可以根据用户输入的任意文本描述，生成具有出色保真度和平滑度的高分辨率视频，支持 4K、8K 超高清画质，以及多种绘图风格。03253.2 Stable Video Diffusion：依靠大量高质量数据进行训练StabilityAI使用了一个包含5.8亿个视频剪辑的巨大数据集，来训练SVD模型。为了筛选高质量数据，研究人员首先检测每个视频中的不同镜头和转场，并且评估每个镜头中的运动信息，然后为每个镜头自动生成描述

27、文字和每个镜头的美学效果等。SVD的数据筛选具体方法如下：级联切换检测：采用级联的切换检测方法识别视频中的场景转场。运动信息提取：基于稠密光流估计每个视频片段的运动信息。文本描述生成：为每个视频片段自动生成三种形式的文字描述。质量评估：使用CLIP等方法评估每个片段的视觉质量、文本匹配度等。过滤去噪：根据上述评估指标过滤掉质量较差的视频片段。经过层层筛选，最后保留了一个约1.5亿视频片段的超高质量数据集，为后续的SVD模型训练奠定重要基础。所以SVD模型能生成高质量视频、并且视频中运动连贯，能够高精准还原文本的描述，与其庞大且高质量的训练集有非常大的关系。来源：Datalearner，机器之心

28、Pro，浙商证券研究所03263.3 字节跳动：MagicVideo-V2视频生成模型字节跳动提出了MagicVideo-V2视频生成模型，官方技术文档指出，该模型将文生图模型、视频运动生成器、参考图像embedding模块和帧插值模块集成到端到端视频生成管道中，MagicVideo-V2能够生成逼真度与流畅度都较高的高分辨率视频，并显著优于Runway、Pika 1.0、Morph、Moon Valley和Stable Video Diffusion model等领先的文生视频模型。根据字节跳动官方技术文档，MagicVideo-V2模型的T2I模块创建一个10241024的图像，用于封装所

29、描述的场景。随后，I2V模块对该静止图像进行动画处理，生成60060032帧的序列图片。V2V模块将这些帧增强到10481048的分辨率，同时细化视频内容。最后，插值模块将序列扩展到94帧，得到10481048分辨率的视频，该视频具有高的分辨率与视频帧数。确保了视频的高质量与动作的运动丝滑性。人类评估下MagicVideo-V2模型生成质量优于其它模型MagicVideo-V2模型生成视频效果来源：机器感知，字节跳动官方技术文档MagicVideo-V2:Multi-Stage High-Aesthetic Video Generation，浙商证券研究所03273.4 通过3D建模、微调量化

30、等方法提高文生视频质量3D Morphable模型：研究人员提出将3D morphable模型集成到多视图一致扩散方法中，提高了生成可控性和人形虚拟角色的质量。这种方法能准确地将面部表情和身体姿态控制纳入生成过程，是首个从单个未见过的人像中创建出完全3D一致、可动画且逼真的人形虚拟角色的扩散模型。扩散模型的微调量化：研究人员在微调量化的扩散模型领域，通过定制三个模型（PEQA用于微调量化参数，Q-Diffusion用于后训练量化，DreamBooth用于个性化），建立了强大的基线模型。分析显示，基线模型在主体和提示保真度之间存在显著的权衡，实现了视频个性化的增强，而且保持了提示保真度和图像质量

31、，在质量和数量上都显著优于基线。SonicVisionLM：研究人员通过利用视觉语言模型来生成各种声音效果。该方法首先使用视觉语言模型识别视频中的事件，然后根据视频内容推荐可能的声音。这种方法将图像和音频的匹配任务转化为更易研究的图像到文本和文本到音频的匹配任务。该方法在将视频转换为音频方面超越了当前SOTA方法，提高了视频与音频的同步性，并改善了音频和视频元素之间的对齐。3D morphable模型提高生成可控性和人形虚拟角色的质量SonicVisionLM框架来源：机器感知，浙商证券研究所3.5 未来：多模态大模型视频生成有望与3D建模模型相结合0328来源：OFWeek维科网，浙商证券研

32、究所2023年3D-AIGC开源模型梳理除视频生成之外，OpenAI在2023年5月曾推出Shap-E 3D建模模型。Shap-E 是一种在 3D 隐式函数空间上的潜扩散模型，能够直接生成隐式函数的参数提取纹理网格模型。训练 Shap-E 分为两个阶段：首先训练编码器，该编码器将 3D 资产确定性地映射到隐式函数的参数中；其次在编码器的输出上训练条件扩散模型。该类模型的优势在于生成速度快，且生成效果较为稳定。当在配对的3D 和文本数据大型数据集上进行训练后，Shap-E 能够在几秒钟内生成复杂而多样的 3D 资产。我们认为目前Sora模型当中存在的一些物体逻辑性问题在未来有望通过AIGC 3D

33、建模的方法引入得到解决。AIGC在视频领域的商业化现状与展望04Partone294.1 Synthesia：0430来源：Synthesia官网，Linkloud，浙商证券研究所Synthesia 创立于 2017 年，关注数字人技术研究和产品落地。公司早期以API方式为用户提供技术支持，2020 年Synthesia 推出了自己的SaaS产品Synthesia STUDIO，旨在让用户可以像制作 PPT 一样制作视频。目前这款工具主要面向的企业客户，满足产品演示、使用说明、公司理念、内部培训等场景需求。Synthesia STUDIO 的使用非常简单，用户只需要在 Synthesia 提供

34、的模板中选择适合视频主题的模板和数字人形象（AI Avatar）、输入每一个画面对应的文案后，就可以一键生成一段视频由数字人作为 speaker 的视频，视频生成后，用户还可以在平台上对视频进行深度编辑，例如修改画面中的文字和对应格式、插入产品展示图片或视频动画等、增加视觉效果等。Synthesia 预设了超过 60 种模版，涵盖培训、销售、学术、商业、HR、创意内容等场景，同时，Synthesia 也提供上传并使用专门logo、匹配品牌色系等个性化设置。Synthesia 目前可以提供超过150 种数字形象（AI Avatar），用户还可以设定扬眉、点头等微表情和手势，数字人形象可以和超过

35、120 种语言进行匹配。Synthesia 还支持用户基于创建自己的数字形象（AI Avatar）并采用自己的声音。Synthesia：可基于文本内容生成专业视频4.1 Synthesia0431来源：Synthesia官网，Linkloud，浙商证券研究所Synthesia：可基于文本内容生成专业视频Synthesia 目前分为个人、创作者和企业三个版本的产品。年费方案下个人用户的收费为22美元/月（合每年264美元），个人方案每月只支持 10 分钟的视频制作。创作者用户的收费为67美元/月（合每年804美元），创作者方案每月支持 30分钟的视频制作。针对企业用户，Synthesia 则根据

36、公司需求设定定制化的收费方案，费用主要与使用者数量相关。Synthesia 对客户的价值在于大幅降低视频内容生产成本，使其能够充分利用视频提高内容传播效果。从生产成本角度看，Synthesia 平台操作简便，无需专业视频编辑技能，可以在原视频上修改、实时更新内容，减少重复工作，从 PPT 到创建微视频只需要约 34 个核心创造者，一周左右的时间就可以完成，比传统视频制作流程节省 50%60%的成本。从传播效果角度看，Synthesia 生成的视频相比仅提供文本或 PPT 更吸引受众，AI 数字人本身也具有吸睛效应。平台模板丰富多样，支持多语言版本，可以针对不同受众群体定制视频。4.2 Runw

37、ay：Gen-2可基于文本、图片等多种输入生成高质量视频0432来源：Runway官网，网易新闻，浙商证券研究所Gen-2由Runway在2023年3月发布，可以通过文本、图片、文本+图片直接生成视频，同时支持风格化和渲染添加好莱坞式大片特效，仅需要几分钟即可完成所有操作，该平台于2023年6月正式公测。据Runway介绍，Gen-2采用的是扩散模型，生成的过程从完全由噪声构成的起始图像中逐渐消除噪声，以接近用户的文本提示。Gen-2的训练数据包括2.4亿张图片、640万个视频剪辑片段以及数亿个学习示例。Gen-2在Gen-1的基础上添加了新功能，包括文生视频、图文生成视频等，此外在分辨率、内

38、容和图型渲染等方面表现更佳。Gen-2以8种工作模式全面助力多模态：模式1&2&3：文字转视频、文字+图片转视频、图片转视频。模式4、风格：将任何图像或提示的样式传输到视频的每一帧。模式5、故事板：将模型转换为完全风格化的动画渲染。模式6、面具：隔离视频中的物体，使用文本提示对其进行修改。模式7、渲染：输入图像或提示，将无纹理渲染转换为逼真的输出。模式8、自定义：通过自定义模型来释放 Gen-2 的全部功能，以获得更高保真度的结果。Runway Gen 2：可基于文本内容生成专业视频4.2 Runway：Gen-2可基于文本、图片等多种输入生成高质量视频0433来源：Runway官网，浙商证券

39、研究所Runway 目前提供基础版、标准版、专业版、无限版、企业版五个版本的产品。希望探索Runway的个人用户可免费试用基础版，可以生成3个视频项目，Gen-1生成的视频长达4秒，Gen-2长达16秒，清晰度720P，提供3个视频编辑器。最主流的订阅方式是标准版，年费方案下12美金/月（按月订购15美金/月），可以去除水印，Gen-1生成的视频长达15秒，Gen-2长达16秒，提供无限次的视频编辑项目和5个视频编辑器，清晰度为4K，并且可以训练自定义AI生成器。年费方案下专业版28美金/月，无限版76美金/月。企业版的订购需要联系Runway。从内容生成单价看，Gen-1模型下每秒视频的生成

40、价格为0.14美元（合$8.4/min），而Gen-2模型的价格为每秒0.05美元（合$3/min），而文本转语音的价格为每50词0.01美元。根据用户调研，Runway的结果优于现有的图像到图像和视频到视频的转换方法。比起Stable Diffusion 1.5 有73.5%用户更喜欢Runway，优于Text2Live 生成器88.2%。Runway：可基于文本内容生成专业视频Runway生成不同内容价目表4.3 其它AI视频生成公司商业化进展0434来源：D-ID、Heygen、Elai、Hour one官网，金融界、sownai、网络探索者，浙商证券研究所目前海外创业公司布局AI+视频

41、赛道多集中在企业宣传、营销场景，定价差异不大。除Synthesia、Runway外，目前海外布局AIGC视频生成的厂商还有D-ID、Heygen、Elai等，这些厂商基于积累的虚拟人素材库和视频模板库，可根据客户的需求快速生成视频内容，应用场景主要集中在产品营销宣传、客户服务、内部培训等场景，视频生成价格大多约为每分钟2美元。公司收费模式核心产品介绍D-ID免费试用：5minLite：$5.9/month（10min）Pro：$29/month（15min）Advanced：$196/month（100min）D-ID公司专注于自然用户界面（NUI）技术，结合面部合成和深度学习专业知识，提供多

42、种语言的交互式AI体验，D-ID平台无缝将图像、文本、视频、音频和语音转化为的数字人物，提供独特的沉浸式体验。公司技术为专门从事客户体验、营销和销售的企业以及全球内容创作者提供解决方案。Heygen免费试用：1minCreator：$29/month（15min）Business：$89/month（30min）HeyGen 产品采用Diffusion技术，并且公司已经自研视频 AI 模型，整合OpenAI 和Anthropic 的大模型用于文本处理，以及 Eleven Labs 提供的音频技术。近期Heygen推出一项新功能即时 AI 头像生成器，使用手机摄像头，5 分钟就可以创建自己的AI

43、头像。Elai免费试用：1minCreator：$29/month（15min）Business：$125/month（50min）Elai.io 提供以文本生成 AI 视频的平台，包括人物头像、文本转视频、语言和模板等功能，用户可以在几分钟内创建定制化视频，而无需相机、工作室或绿屏。网站适用于解释视频、HR 入职、电子学习、电子商务、企业沟通和房地产等领域。Hour one免费试用：3minCreator：$30/month（10min）Business：$112/month（20min）Hour one是一个AI数字虚拟人视频生成平台，可以将任何文本、幻灯片或提示转换成专业的主持人风格的

44、视频。Hour one的应用场景包含教育培训、人力资源、新闻报道、营销推广、社交媒体等。海外其它AI文生视频平台梳理4.3 商业应用：AIGC在企业视频生成中具备应用前景0435来源：Vidyard，浙商证券研究所Sora具备1min高质量视频生成能力，AIGC在企业视频场景下有望快速打开应用空间。海外企业视频营销公司Vidyard调研结果显示，基于2023年177.8万条企业视频，可以发现金融服务和高科技行业平均单企业生成视频数量位居前两位，分别达到934条和917条，有五个行业的企业用户年度生成视频数量超过500条，AI生成企业视频需求量非常可观。从企业视频应用场景看，相当比例的企业将视频

45、营销应用于产品Demo（47%）、名词解释（35%）、活动回放（33%）、操作方法介绍（31%）等场景，参考Synthesia、Runway等厂商现有的商业化方案，我们认为Sora以其更长时间和更高质量的视频生成能力，有望快速地切入这一市场。调研显示接近60%的企业视频时长不足2分钟，AIGC技术已接近满足要求。Vidyard数据显示，2023年34%的企业视频市场在1分钟以内，25%的视频时长在1-2分钟，目前Sora可以生成1min的高质量视频，2024年随着技术迭代有望满足企业营销视频市场超过50%的需求。2023年企业平均发布视频数量-按行业分（单位：条）2023年企业视频应用场景情况

46、（单位：%）2023年企业视频时长分布情况4.3 千亿级数字视频生成市场有望被AIGC覆盖0436来源：PR Newswire，Market.us，浙商证券研究所2025年全球数字视频内容市场规模有望超3000亿美元，未来有望受益视频营销场景拓展而实现市场持续增长。根据PR Newswire数据预测，2025年全球数字视频市场内容规模有望达到3271.9亿美元，2021-2025年CAGR超过14%，保持持续增长态势。全球AIGC 文生视频市场有望保持快速增长。Market.us数据显示，2022年AIGC文生视频市场规模仅有2.57亿美元，预计到2032年AI文生视频内容市场可达到24.80

47、亿美元，2022-2032年CAGR约为26.2%。我们认为AI大模型将推动优质视频生成成本大幅下降，进而刺激下游企业用户需求的显著增长，市场规模有望加速发展。全球数字视频内容市场规模预测全球AI文生视频市场规模预测（单位：百万美元）建议关注标的05Partone37A股AI+视频相关标的梳理38来源：浙商证券研究所公司名称代码AI+视频相关业务/产品科大讯飞002230.SZ国产大模型龙头，多模态领域技术积累深厚海康威视002415.SZ研发视觉多模态大模型大华股份002236.SZ自研大华星汉大模型云从科技-UW688327.SH国内CV领域龙头厂商之一焦点科技002315.SZAI外贸虚

48、拟人视频助手虹软科技688088.SH视觉AI开放平台万兴科技300624.SZAI视频领域龙头，“天幕”大模型国投智能300188.SZAI视频图像鉴真工作站当虹科技688039.SHAI智能视频解决方案网达软件603189.SH积极推动“大视频+AI”在垂直领域的布局丝路视觉300556.SZ子公司是视频渲染技术龙头商汤-W0020.HK“日日新SenseNova”大模型拓尔思300229.SZ并面向媒体、金融、政务领域、拓天大模型汉王科技002362.SZ笔智能交互、NLP技术、大数据处理、智能人机交互、垂直领域大模型建议关注标的39来源：Runway官网，浙商证券研究所我们在 2023 年 11 月 15 日发布的大地回春，百花齐放计算机行业 2024 年度策略中提出，2024 年国内外厂商有望发布更加复杂的多模态大模型，实现文本、语音、图像以及音视频等多模态数据的复杂处理和交互。我们认为 OpenAI发布 Sora 模型，有望开启多模态大模型的新一轮浪潮。建议关注标的：（1）大模型厂商：科大讯飞、云从科技、微软、谷歌;；（2）多模态应用厂商：万兴科技、虹软科技、焦点科技、Adobe;

友情提示

1、下载报告失败解决办法
2、PDF文件下载后，可能会被浏览器默认打开，此种情况可以点击浏览器菜单，保存网页到桌面，就可以正常下载了。
3、本站不支持迅雷下载，请使用电脑自带的IE浏览器，或者360浏览器、谷歌浏览器下载即可。
4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩，下载后原文更清晰。

本文（2024Sora模型技术分析、与其他厂商模型对比及文生视频未来市场规模预测报告（38页）.pdf）为本站（2200）主动上传，三个皮匠报告文库仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对上载内容本身不做任何修改或编辑。若此文所含内容侵犯了您的版权或隐私，请立即通知三个皮匠报告文库（点击联系客服），我们立即给予删除！

温馨提示：如果因为网速或其他原因下载失败请重新下载，重复下载不扣分。