上海品茶网(全国品茶/上海品茶论坛）

《计算机行业：Sora有望带来AI生成视频领域的新一轮变革-240218（19页）.pdf》由会员分享，可在线阅读，更多相关《计算机行业：Sora有望带来AI生成视频领域的新一轮变革-240218（19页）.pdf（19页珍藏版）》请在三个皮匠报告上搜索。

1、分析师分析师Sora有望带来AI生成视频领域的新一轮变革研究团队研究团队计算机行业计算机行业证券研究报告|计算机行业|2024年 02月 18日张初晨张初晨登记编号：S01陈嵩陈嵩登记编号：S02报告摘要TransformerTransformer可能逐渐取代可能逐渐取代U U-NetNet成为扩散模型中去噪网络的首选：成为扩散模型中去噪网络的首选：Transformer-diffusion在AI视频生成领域的核心痛点在于内存需求随着输入序列长度增加会指数级增长，处理视频信号的成本很高，没办法生成高分辨率的图像；Sora

2、通过引入视频压缩网络（含时空自编码器与解码器）&Pacth化解决了这个问题，Transformer对时间帧的记忆有优势，因此生成长视频过程中比U-Net更能保证帧与帧之间的连续性，分辨率短板补足后很可能取代U-Net成为扩散模型中的主流backbone。SoraSora证明了证明了AIAI生成视频领域同样适用“参数量越大生成视频领域同样适用“参数量越大+训练时间越长训练时间越长 =训练效果越好”训练效果越好”：Transformer的特征是可拓展性强，模型参数量越大、训练数据集越大、训练时间越长效果就会越好；Sora通过其强大的涌现能力再次说明了这一点，即“参数量越大+训练时间越长=训练效果越

3、好”，AI生成视频可能带来新一轮算力需求爆发。AIAI生成视频与生成视频与LLMLLM是勾稽的，这个领域很可能还是强者恒强：是勾稽的，这个领域很可能还是强者恒强：Sora语义信息理解能力强大的背后是通过GPT来重新生成高度描述性的caption，从而提高视频-文本对数据集的质量，再次说明没有优质的训练数据集很难做出好的模型，而视频标注的难度又远大于文本与图像，对于视频自动标注模型的要求非常高。以OpenAI（微软）、Google为代表的多模态头部厂商依然优势明显，纯粹做模型的初创公司在AI生成视频领域的机会或许不大。此外，做安防&自动驾驶的公司可能会有差异化的机会，得益于大量的视频数据积累，有

4、能力开发高质量的视频自动标注模型&拥有优质的“视频-文本对”数据集（可以自用也可以出售）。AIAI生成视频领域的“生成视频领域的“MidjourneyMidjourney时刻”可能很快到来：时刻”可能很快到来：Transformer模型的涌现特征意味着模型提升的速度将非常快，文生视频从可用到好用的拐点或加速到来，应用生态也有望加速繁荣。离实现离实现AGIAGI又前进了一步：又前进了一步：Sora展现出的理解能力、推理能力已经有些世界模型的雏形（通过预测周围环境未来的变化，来规划决策），人类迈向通用人工智能的脚步或许又快了一些。SoraSora对对AIAI生成视频产业的影响：生成视频产业的影响：

5、TransformerTransformer或异军突起，头部效应可能更明显，离或异军突起，头部效应可能更明显，离AGIAGI又更进一步又更进一步PW0X3VCWUXFZVX9P9R9PpNmMmOsOeRqQtRjMmOoP9PpOoOvPqNqRMYtOpM报告摘要SoraSora对下游行业的影响：对下游行业的影响：算力需求或许仍旺盛：算力需求或许仍旺盛：AI生成视频因为Sora的出现也将加速向以Transformer为主干的大模型架构发展，考虑到视频数据集的数据量&标注难度都远远高于文本及图片，云端算力基础设施需求或进一步提升（CPO、GPU、HBM等等）；建议关注：建议关注：服务器（中科

6、曙光、神州数码、高新发展等）、CPO（中际旭创、剑桥科技、新易盛等）、HBM（雅克科技、香农芯创、深科技等）动画动画/电影电影/短视频短视频/游戏游戏/商拍等领域效率提升商拍等领域效率提升&门槛降低：门槛降低：从目前的视频生成时长&长视频场景稳定性来看，Sora还没到取代专业导演的地步，但可能改变包括短视频/广告/商拍在内的内容创作领域工作流，增强用户体验的同时，降低用户使用门槛，包括抖音、快手在内的内容创作平台可能获益；另外建议关注建议关注以美图、虹软为代表的深耕AI图像生成的厂商加速取得技术进步；视频剪辑类工具：视频剪辑类工具：视频创作门槛降低必然带来视频剪辑需求提升；建议关注：建议关注：

7、万兴科技；智能驾驶领域智能驾驶领域&机器人或迎来新一轮技术进步：机器人或迎来新一轮技术进步：智驾大家熟悉的是BEV、Occupancy，特斯拉在去年的CVPR就提到了世界模型，Sora展现出的场景理解与推理能力已经有些世界模型的雏形，今年很可能是新一轮算法范式革新的开始（从BEV+Transformer到BEV+Transformer-diffusion），同样机器人产业链也有望深度受益；建议关注：建议关注：德赛西威、经纬恒润、中科创达、均胜电子、拓普集团、鸣志电器等；AI+AI+安防：安防：视频数据积累最多&集中度最高的领域，龙头的业务边界较广且后发优势明显；建议关注：建议关注：海康威视、大

8、华股份；网络安全：网络安全：视频数据比文本/图片更高维，监管难度也更大，网安头部厂商或受益；建议关注：建议关注：启明星辰、深信服、安恒信息、奇安信、博汇科技等；多模态多模态/AI/AI应用相关标的：应用相关标的：Sora&Gemini 1.5的发布表明AIGC技术进步依然很快，头部应用厂商将持续受益；建议关注：建议关注：金山办公、科大讯飞、用友网络等；资料来源：标记狮社区、量子位、Runway官网、无限AI社区、方正证券研究所主要功能主要功能&亮点：亮点：支持的视频生成方式支持的视频生成方式&时长：时长：底层模型diffusion-model；支持文生视频、图生视频、图加文字描述生成视频；默认

9、生成的视频长度为4s（每秒视频需要消耗5积分；免费用户目前有525积分），可以通过将已生成图片作为输入，延长视频时长（extend，最多延长至20s以内）；可以调整的参数：可以调整的参数：基础设置：interpolate（使视频帧更丝滑）；Upscale：提高视频分辨率（需要会员，免费版默认720P）；Remove watermark（去除水印，需要会员）；Camera Motion：指定摄像机的不同方向的运动与速度（假设自己是导演在运镜）；Motion Brush：用户可以控制生成内容中特定对象是否运动&运动方向；亮点：亮点：可以通过Motion Brush/Director模式的高级摄像头

10、实现生成内容运动状态的精细控制；可以一键设置不同视频风格；主要缺点：主要缺点：视频帧率问题：视频帧率问题：生成视频的帧率较低，一些画面像连放PPT；移动过程中图片内容容易掉帧移动过程中图片内容容易掉帧/模糊化模糊化/扭曲：扭曲：当相机围绕物体快速移动/放大物体时，物体周围的像素会模糊化；语义信息理解能力不够强：语义信息理解能力不够强：比如以“龙年大吉”为提示词，生成内容只有龙，Gen-2忽视了其他提示词的存在（例如good luck、new year）；评价：评价：公认的综合能力较为突出的文生视频工具；能生成比较连贯的视频，但如果通过它来搭建一个视频的连续框架可能要输入的素材和工作量远大于正常

11、拍摄；要生成高质量长视频还需要迭代。Runway-Gen2：综合实力最强的文生视频应用，内部训练数据集含2.4亿张图像和640万个视频剪辑图表图表1 1：PromptPrompt为为Wish you good luck in the Wish you good luck in the Chinese new year of the DragonChinese new year of the Dragon图表图表2 2：Motion BrushMotion Brush控制运镜控制运镜图表图表3 3：Gen2Gen2一键生成不同风格图像一键生成不同风格图像图表图表4 4：Gen2Gen2的定价情况

12、（月度）的定价情况（月度）Stable Video Diffusion（SVD）：开源文生视频平台，Stability.AI基于Stable Diffusion的演进主要功能主要功能&亮点：亮点：支持的视频生成方式支持的视频生成方式&时长：时长：Stable Video Diffusion同样是一种潜在扩散模型；支持文本描述生成视频、图像生成视频（可以使用一张图像作为条件,生成这张图像的后续运动镜头）、多视角渲染（可以生成同一个物体的多个前后左右观察角度的视频镜头，这样可以生成3D效果视频）、插入视频帧（可以将两张图像作为条件,生成插入在它们中间的额外镜头,实现视频帧率的提升）；时长：默认生成

13、的视频长度也是4s；可以调整的参数：可以调整的参数：模型选择：可选择14帧的SVD/25帧的SVD-XT（与SVD架构相同，但针对25帧视频生成进行了微调）；视频大小；视频帧数（5-30FPS）；镜头移动距离；训练方式与数据集规模：训练方式与数据集规模：Stability.AI使用5.8亿个视频剪辑的巨大数据集来训练SVD模型，使用系列方法进行数据筛选（级联切换检测、运动信息提取、文本描述生成、质量评估、过滤去噪），最后保留1.5亿视频片段的超高质量数据集；模型采取三层训练架构（预训练层+大规模数据训练层+高质量数据微调层），并设计了专门的时间卷积和注意力结构，明显提高了视频时序信息的捕捉和学

14、习能力；亮点：亮点：开源；高性能：例如图生视频功能14帧&25帧测评结构不逊色于Gen2&Pika Labs的免费模型；作为 Stability.AI家族产品的一部分，SVD与其他开源模型（如 Stable Diffusion 和 Stable LM）相结合，形成了一个完整的多模态解决方案；主要缺点：主要缺点：硬件性能要求高：硬件性能要求高：由于端侧部署，需要20G以上的显存，一般用户难以使用；尺寸限制：尺寸限制：SVD支持的图片尺寸为 1024x576，可能限制应用场景；相机运动&可控性差：SVD不支持调节相机视角，也不能精细控制视频内容；帧率帧率&清晰度：清晰度：视频清晰度不够&生成对象移

15、动过程中掉帧&形变比较明显；评价：评价：较之Runway&pika等商用产品，SVD在帧数/分辨率/内容精细控制/内容风格选择/视频生成时长等方面存在差距，胜在开源。图表图表5 5：HuggingfaceHuggingface上上SVDSVD的的demodemo之一之一图表图表7 7：SVDSVD与与Runway2&PikaRunway2&Pika的比较的比较图表图表6 6：SVDSVD技术文档描述的视频生成案例技术文档描述的视频生成案例资料来源：Huggingface、CSDN、Stable Video Diffusion:Scaling Latent Video Diffusion Mod

16、els to Large Datasets（Stability AI）、知乎（Rocky Ding、甜橙AI商业）、stable-video-diffusion官网、方正证券研究所Pika：视频版Mid-journey主要功能主要功能&亮点：亮点：支持的视频生成方式支持的视频生成方式&时长：时长：支持文生视频、图生视频、视频生成视频；时长：默认时长为3s（最多可以延长至15s）；分辨率默认24帧；可以调整的参数：可以调整的参数：指定摄像机的不同方向的运动与速度、视频尺寸、视频帧数、正向/反向提示词、可以增加视频时长&提升分辨率（会员功能）、视频局部修改（可以给对象添加元素）。训练方式与数据集规

17、模：训练方式与数据集规模：未知亮点：亮点：生成视频的背景稳定性很好；可以给视频局部添加元素（例如给人物添加眼镜）；部分场景视频质量很高（例如卡通风格）；主要缺点：主要缺点：场景不够泛化、语义信息理解能力不够强（例如把熊猫理解成猫）、运镜过程中内容掉帧&人物审美及肢体细节的展现有缺陷；评价：评价：较之Runway Gen2&SVD，在卡通等细分场景表现不俗；对提示词要求高，场景泛化能力相对弱些；图表图表8 8：PikaPika月费价格月费价格图表图表1010：PikaPika官网官网demodemo图表图表9 9：通过：通过PikaPika给视频中的人像添加墨镜给视频中的人像添加墨镜资料来源：

18、pika官网、氪学家（订阅号）、方正证券研究所文生图&视频的总体框架：三大网络-token化网络（Clip等）、图像生成网络（diffusion/LLM）、图像压缩网络（VAE等）图表图表1111：AIAI生成图像生成图像/视频的总体框架视频的总体框架资料来源：最佳拍档（订阅号）、方正证券研究所技术路线差异&当前text/image/video-to-video领域的痛点问题总结：文生视频领域的核心痛点问题：文生视频领域的核心痛点问题：视频时长：视频时长：市面上主流产品目前能生成的视频时长普遍只有3-20s（GEN-2默认4s，可延长至20s以内；Pika1.0默认3s，可延长至15s以内；S

19、VD默认时长为4s）；长视频生成的核心痛点在于前后帧不够连贯，场景一旦变化比较大，视频就掉帧/模糊化/扭曲；解决方法包括：1）利用LLM写脚本分镜（Video DirectorGPT，LLM-Grounded VDM等）；2）对场景衔接的关键帧做处理等；分辨率问题：分辨率问题：直接通过扩散模型来生成高分辨率的图像成本很高，目前普遍是通过引入压缩编码器的形式来解决（例如meta的Make a Video paper给出的解决方法：先生成浓缩版本低分辨率视频延长该低分辨率视频的时长提升图像的分辨率）；pika、Runway、SVD生成视频的默认分辨率均在720P以内，提升分辨率需要额外付费/会员服

20、务；语义信息理解问题：语义信息理解问题：与LLM一样，生成式视频同样可能存在模型幻觉问题，生成的结果不符合自然规律；问题的核心还是可用来训练的文本-视频对太少，且视频标注的难度大；这个问题的解决办法需要一个针对视频内容的高品质标注模型（跟智驾领域很像；数据标注还是很重要，LLM大厂做AI生成视频依旧有大优势）；模型的时间模型的时间oror长距离一致性长距离一致性/空间一致性空间一致性/泛化能力：泛化能力：时间or长距离一致性指AI 生成出来的视频往往有物体在中途突然消失的情况；空间一致性是镜头移动过程中，整个背景&对象发生明显形变；泛化能力则考验的是模型能胜任的场景多样性；以上问题解决需要模型

21、对时间帧的敏感性&逻辑推理能力进一步提高；技术路线技术路线模型模型/项目项目图像生成图像生成backbonebackbone机构机构支持的视频品质支持的视频品质推出时间推出时间是否开源是否开源技术路线总结技术路线总结GANXMC-GAN GANGoogle通常适用低分辨率、短距、视频中运动目标单一、孤立的场景；21.04否GAN通过单个前向传递生成图像训练高效，但训练过程不稳定且仅适合单个/多个对象类建模，难胜任复杂场景；GauGAN2GAN英伟达21.11否VQGAN-CLIPGANEleuther AI22.04是LLM/自回归模型DALL-ETransformerOpenAI可以根据文本

22、输入合成长视频；比如VideoPoet可以根据上一个视频的最后1s预测下一秒，实现视频持续延伸；21.01部分代码开源 Transformer的核心优势在于：1）对时序帧的敏感性更强，能保证视频的时间一致性，适合长视频生成；2）是可以统一其他模态的多模态框架；3）参数可拓展性强，训练视频生成大模型成为可能；4）Zero-shot能力；主要缺点：1）纯LLM框架偏逻辑推理，无法像扩散模型一样还原细节，容易导致视频内容失真；2）对内存的需求随着输入序列长度增加指数增长，处理视频信号的成本很高；NUWATransformer微软21.11是CogVideoTransformer清华&智谱22.05是

23、Make-A-VideoTransformerMeta22.09否PhenakiTransformerGoogle22.10否VideoPoetTransformerGoogle23.12否扩散模型GEN2U-NETRunwayU-NET作为去噪网络的优点：1）混合了卷积&注意力机制，生成效率高；2）较之Transformer，不需要位置编码，容易实现图像尺寸的调整；23.03否扩散模型在生成多样化、超现实和上下文丰富的图像方面取得了显著成功；目前主流去噪网络为U-NET，Transformer可能异军突起DALL-E2/E3U-NETOpenAI23.10否Stable Video Diff

24、usionU-NETStability.AI23.11是Pika1.0可能为U-NETPIKA23.11否DiTTransformerMeta只能生成图片；用Transformer替代U-NET作为去噪网络22.12是W.A.L.TTransformer 斯坦福&谷歌通过隐扩散模型（LDM）将视频&图像压缩到低维空间，显著降低生成高分辨率视频的计算成本23.12否SoraTransformerOpenAI引入时空自编码器+时间压缩模块技术+重标注技术，突破了视频生成的市场限制&分辨率限制24.02否图表图表1313：Gen2Gen2视频生成；视频生成；PromptPrompt：威尔：威尔史密斯

25、吃意大利面史密斯吃意大利面图表图表1212：主流图像生成模型：主流图像生成模型&技术路线比较技术路线比较图表图表1414：PikaPika视频生成；视频生成；PromptPrompt：威：威尔尔史密斯吃意大利面史密斯吃意大利面资料来源：36Kr（硅基研究室）、澎湃（光锥智能）、Hugging Face博客、CSDN、Video Diffusion Tutorial（NUS Prof Mike Shou）、方正证券研究所Sora：text/image/video-to-video领域的Midjourney时刻，也是通用人工智能又一大的里程碑图表图表1414：Midjourney 22Midjou

26、rney 22-2323年平均年平均3 3个月迭代一个版本，从个月迭代一个版本，从V1V1到到V6V6，画面从，画面从“面目全非”到“细腻逼真”“面目全非”到“细腻逼真”图表图表1515：同样的：同样的Prompt SoraPrompt Sora处理长镜头场景能力明显优于主要竞品处理长镜头场景能力明显优于主要竞品SoraSora简介：简介：依托transformer实现扩散模型的文生视频模型；训练数据集为可变时间、分辨率、宽高比的文本-视频、文本-图像；Sora官网置顶的demo是一段59s，高质量1920 x1080的视频，生成视频的长度&分辨率远远超过以SVD为代表（默认14-25帧，57

27、6x1024，默认4s）的AI视频生成应用；OpenAI的研究人员认为Sora是是能够理解和模拟现实世界的模型的基础，相信这一功能将成为实现通用人工智能（AGI）的重要里程碑。图表图表1313：SoraSora官网官网demodemo长达长达59s59s资料来源：Sora官网、澎湃号（光锥智能）、新智元、方正证券研究所Sora基本解决了文生视频领域的核心痛点问题：图表图表1717：SoraSora可以轻松制作从宽屏的可以轻松制作从宽屏的1920 x10801920 x1080到竖屏的到竖屏的1080 x19201080 x1920的不同尺寸视频的不同尺寸视频时长：时长：虽然官网给的demo是

28、59s的，但是技术文档中给出的视频基本在20s以内；Atlman推特按照网友给得Prompt生成的视频也均在10s以内，可以推断Sora一次性生成视频的默认程度应该在20s以内，达到1分钟的长度可能需要多个分镜的拼接（也强于Gen2等20s以内的延伸视频时长能力）；尺寸尺寸&分辨率：分辨率：能够制作各种尺寸，适配不同显示设备不同分辨率的视频（原理应该也是先以较低分辨率快速制作出视频原型，再提升视频分辨率）。支持的输入内容：支持的输入内容：跟主流AI视频生成模型一样，Sora支持文生视频、文生图（分辨率最高可以达到2048x2048）、图生视频等多类别输入。此外支持视频内容编辑（比pika、Ge

29、n2更强大，Sora甚至可以直接替换生成视频中的场景背景）、不仅支持视频时长延伸，甚至可以回溯视频之前的内容、拼接不同内容的视频；语义信息理解方面：语义信息理解方面：能够理解包括吃饭、画画在内的多对象互动场景（但仍有缺陷）；生成视频的时间生成视频的时间/空间一致性空间一致性/泛化能力：泛化能力：均表现突出，长镜头/镜头切换过程中画面中的对象&背景不形变且对画面中存在元素具有记忆性。场景泛化方面，通过学习Minecraft相关视频内容，Sora以高度逼真的方式渲染出Minecraft游戏世界和动态变化；图表图表1818：SoraSora也可以实现高质量的文生图也可以实现高质量的文生图图表图表19

30、19：通过：通过SoraSora编辑视频背景（有点类似编辑视频背景（有点类似PikaPika的视频元素编辑）的视频元素编辑）图表图表2020：SoraSora模拟出的模拟出的MinecraftMinecraft场景风格（场景风格（PromptPrompt：MinecraftMinecraft）资料来源：Sora官网、Sora技术文档、新智元、方正证券研究所Sora基本解决了文生视频领域的核心痛点问题：图表图表2121：SoraSora基于基于DALLDALL-E E生成的图片生成视频生成的图片生成视频图表图表2222：SoraSora在两个输入视频之间逐渐进行插值，从而在具有完全不同主题和场景

31、构成的视频之间创建无缝过渡（视频拼接）在两个输入视频之间逐渐进行插值，从而在具有完全不同主题和场景构成的视频之间创建无缝过渡（视频拼接）资料来源：Sora官网、Sora技术文档、新智元、方正证券研究所Sora基本解决了文生视频领域的核心痛点问题：图表图表2424：SoraSora的时间一致性：离开镜头的对象，并不会在的时间一致性：离开镜头的对象，并不会在镜头切回来时消失镜头切回来时消失/丢帧丢帧图表图表2323：SoraSora的的3D3D一致性：镜头移动情况下背景与人物相当稳定一致性：镜头移动情况下背景与人物相当稳定图表图表2525：涌现的模拟能力：涌现的模拟能力：SoraSora对物理规律

32、的理解（不加特殊规则，对物理规律的理解（不加特殊规则，SoraSora靠样本学习理解规律）靠样本学习理解规律）资料来源：Sora官网、Sora技术文档、新智元、方正证券研究所Sora也并非完美无缺且目前还处于实验室阶段缺陷：缺陷：1）虽然能模拟基础的物理互动，但有时候不够精确（例如玻璃破碎的场景）；2）长视频中生成内容逻辑不连贯；商业化进程：商业化进程：目前被定性为初期研究成果，处于Red-teaming（网络安全对抗测试阶段），仅面向少数创作者开放；图表图表2626：SoraSora能够模拟玻璃破碎场景，但不够精确能够模拟玻璃破碎场景，但不够精确图表图表2828：SoraSora能够模拟跑步

33、机跑步，但跑步机也跟人一起动能够模拟跑步机跑步，但跑步机也跟人一起动图表图表2727：长视频生成过程中可能出现场景不一致：长视频生成过程中可能出现场景不一致/莫名其妙的对象莫名其妙的对象图表图表2929：尚处于实验室阶段，仅面向少数创作者开放：尚处于实验室阶段，仅面向少数创作者开放资料来源：Sora官网、Sora技术文档、新智元、方正证券研究所Sora背后的技术进步是更值得关注的，AI视频生成正发生新一轮的范式变化通过通过TransformerTransformer实现扩散模型：实现扩散模型：虽然扩散模型的主流架构是U-Net（一种CNN网络），但Transformer-diffusion在

34、22年就已经开始出现（比如Meta的DiT模型；斯坦福&谷歌的W.A.L.T），按道理来说Transformer对时间帧的敏感性更强（生成长视频过程中保持各帧之间的平滑性，可以突破U-NET框架的时长限制）&参数可拓展更强（通过扩大参数规模&训练数据量可以快速提升模型性能与泛化能力），在视频生成领域应该大放异彩，实际却不然；Transformer-diffusion在AI视频生成领域之前被核心诟病的点在于：内存需求随着输入序列长度增加会指数级增长，处理视频信号的成本很高，所以没办法生成高分辨率的图像；Sora前的很多工作实现了通过设计图像编码器在空间维度压缩图片（比如VideoLDM），Sor

35、a通过引入视频压缩网络（含时空自编码器与解码器），可以实现将原始视频作为输入，并输出一个在时间上和空间上都进行了压缩的潜表征（时间维压缩可能是Sora能到达1min时长的核心因素），以减少视觉数据的维度；同时对于压缩后的降维视频特征，OpenAI通过patch化（跟token分词的概念可能类似），形成一系列时空patch，充当transformer的token，基于patch的表示使 Sora 能够对不同分辨率、持续时间和长宽比的视频和图像进行训练。在推理时可以通过在适当大小的网格中排列随机初始化的patch来控制生成视频的大小；Patch作为输入，通过以Transformer为骨架的图像生成

36、模型来进行去噪。视频尺寸多样性的来源：视频尺寸多样性的来源：Sora的输入可以是任何分辨率、任何长宽比、任何时长的视频，不像绝大多数模型一样需要有标准化的过程（比如只能接受4s+256x256分辨率的输入），这个特性可能也跟Transformer有关（输入视频有位置编码，图块之间的时空关系或许可以确定）；Sora不限制输入的特性导致其可以生成不同尺寸的视频。先低分辨率后全分辨率：先低分辨率后全分辨率：这个是扩散模型的经典范式之一了，先通过模型生成低分辨率图像，再通过图像增强网络提升分辨率。引入视频压缩网络（时空编解码器），将输入视频信号在空间/时间维度同时压缩到低纬空间已经通过压缩网络映射到低

37、纬空间的视频数据进一步被压缩分解为patch（类似LLM中的token）f1（x）Embeddingf2（x）去噪网络去噪网络CLIP等模型处理Transformer+高斯噪声f3（x）（解压缩网络）以Transformer而不是U-Net跑扩散网络图表图表3030：SoraSora的架构创新示意图的架构创新示意图资料来源：Sora技术文档、Sora官网、方正证券研究所Sora背后的技术进步是更值得关注的，AI视频生成正发生新一轮的范式变化语义信息理解能力强大的背后是重标注技术：语义信息理解能力强大的背后是重标注技术：Sora学习自家的DALL.E3，训练了高度描述性的字幕生成器（Sora通过

38、GPT将简短的Prompt转化为更容易被模型理解的复杂提示词），使用这个字幕生成器模型为所有训练集中的视频端生成文字字幕，这个过程提升了文本保真度以及输入视频-文字对的整体质量（说明优质的标注数据集非常重要，而这个过程是离不开LLM的）。TransformerTransformer架构的涌现能力在架构的涌现能力在AIAI视频生成中得到体现：视频生成中得到体现：Transformer的特征就是可拓展性强，模型参数量越大、训练数据集越大、训练时间越长效果就会越好。Sora技术报告为我们展示了这一点，1x、4x、16x某单位训练时间下，模型输出的质量差距非常大。AIAI视频生成的能力边界被视频生成的

39、能力边界被SoraSora拓宽：拓宽：Sora不仅能改变视频内容（例如通过SDEdit技术更换视频背景），还能实现多视频合成、视频内容的延伸&回溯等等并表现出了极强的时空一致性；更重要的是，Sora表现出的涌现能力，其不需要专门针对3D空间、物体等设置特定规则的情况下，就模拟出人类、动物以及自然环境的某些特征，这种泛化能力完全得益于模型规模的扩大。图表图表3232：SoraSora在不同训练时长下的成像效果（参数量越大，训练时间越长，训练效果越好在不同训练时长下的成像效果（参数量越大，训练时间越长，训练效果越好）图表图表3131：DALL.E3DALL.E3的重新标注技术的重新标注技术（利用（

40、利用LLMLLM重写重写Prompt/captionPrompt/caption，可以保证模型能更精细的渲染内容），可以保证模型能更精细的渲染内容）资料来源：Sora技术文档、Sora官网、Improving Image Generation with Better Captions（Open AI）、方正证券研究所行业竞争加剧风险行业竞争加剧风险：随着技术更加成熟，以及行业渗透率提升，市场参与者之间的竞争可能会加剧。模型及应用厂商如未能快速建立数据、场景、及用户习惯的壁垒，进一步增长可能面临困难，以及被头部厂商整合并购的可能。人工智能配套及监管政策不及预期人工智能配套及监管政策不及预期：当前

41、技术发展仍处于早期，行业对人工智能发展安全性及伦理性的讨论仍在进行。尽管当前大部分国家对人工智能技术发展持积极鼓励的态度，但不排除未来政府及相关组织会基于安全合规的考虑，出台进一步监管或规范措施的可能。行业公司产品落地及市场拓展不及预期行业公司产品落地及市场拓展不及预期：行业内众多厂商产品的商业变现路径仍在探索，定位客群，并提高目标客户的支付意愿是企业对AI技术投入的关键。后续相关公司的经营和产品数据仍需建立密切的跟踪。风险提示16分析师声明与免责声明17评级说明18方正证券研究所上海市静安区延平路71号延平大厦2楼深圳市福田区竹子林紫竹七道光大银行大厦31层广州市天河区兴盛路12号楼隽峰院2期3层方正证券北京市西城区展览路 4 8 号新联写字楼6层长沙市天心区湘江中路二段36号华远国际中心37层专注专心专业19