《计算机软件行业深度研究:Sora开启创意领域iPhone时刻关注全球文生图、视频投资机会-240218(22页).pdf》由会员分享,可在线阅读,更多相关《计算机软件行业深度研究:Sora开启创意领域iPhone时刻关注全球文生图、视频投资机会-240218(22页).pdf(22页珍藏版)》请在三个皮匠报告上搜索。
1、敬请参阅最后一页特别声明 1 Sora 问世,视频创作领域迎来“问世,视频创作领域迎来“iPhone 时刻”。时刻”。2023 年 2 月 15 日,OpenAI 发布视频生成大模型 Sora,通过文本指令,Sora 可以直接输出长达 60 秒的高清视频,包含高度写实的背景、复杂的多角度镜头以及富有情感的多角色叙事,更为可贵的是,Sora 生成的视频表现出对于真实世界物理常识的深刻理解。部分媒体报道惊叹“Sora 之后,现实将不再存在”。从本轮 AI 应用端发展实践来看,以文本创作(小说、剧本)、图像创作(绘画、平面设计、摄影)、视频创意(广告、短视频、传统影视、游戏)为代表的创意创作领域因其
2、高容错率、高投入度,在 AI 浪潮之初就被市场广泛认为将会成为最先被 AI 深刻赋能的产业之一;从本轮 AI 模型发展演绎来看,以 ChatGPT 为代表的文本创作以 Midjourney、Stable Diffusion 为代表的图像创作以 Runway、Sora为代表的视频创作的发展速度无疑是极为惊人的。我们认为,从文字到图像到视频,AI 内容创作的信息升维越来越考验模型的创作效率与生成结果的稳定性(早期版本的 Midjourney 存在生成时间长、生成结果违背物理常识或者“AI 感”明显的问题;Runway Gen-1/2 也存在生成视频时长较短且生成视频逻辑连贯性较弱等缺陷),但正如
3、Midjourney V5/6 已逐步广泛实现多行业的商业化落地,我们认为 Sora 的问世有望推动着视频创作领域的“iPhone 时刻”到来。Sora 取法取法 Tokens 文本特征标记,文本特征标记,是是基于基于 Patches 视觉特征标记的视觉特征标记的 Diffusion Transformer 模型。模型。OpenAI 研究团队从 LLM 中汲取灵感,认为 LLM 范式的成功在一定程度上得益于 Tokens 的使用,故而通过将视频信息分解为带有时空特征的 Patches 训练了 Diffusion Transformer 模型。从训练角度而言,基于 Patches 视觉特征标记对
4、原生视频进行采样扩大了可用样本的规模且省去了标准化样本的步骤。从推理角度而言,基于原生视频训练的模型在生成新视频方面改善了构图和取景。OpenAI 目前发布的 Sora 视频大模型主要具备文生视频、视频编辑、文生图三类功能,在文生视频过程中,用户通过输入 Prompt 提示词DALL E 生成图像Sora 生成视频。文生图和文生视频是当下文生图和文生视频是当下 AI 应用端落地焦点,应用端落地焦点,海外相关技术产品迭代迅速海外相关技术产品迭代迅速。据 Discord,按邀请页面流量排序的十大 AI 应用程序中,有 5 个是图片生成应用程序,2 个是音频生成应用程序,2 个是视频生成应用程序,其
5、中,Midjourney 位列第一,Pika 位列第二,图片约占前 10 名流量的 74%,视频约占前 10 名流量的 8%。文生图领域,海外有 Adobe(老牌创意软件巨头,现已发布下一代 Firefly 支持多种文生图功能)、Midjourney(文生图模型新锐,现已广泛实现商业化落地)。文生视频领域,海外有 Pika(AI 初创公司,支持一键生成 3 秒共计 72 帧视频)、Runway(拥有最早商业化的 T2V 模型 Runway Gen-2)。国内推荐关注万兴科技和国内推荐关注万兴科技和美图美图公司公司等等创意软件龙头投资机会创意软件龙头投资机会。万兴于 2023 年 9 月宣布即将
6、发布国内首个专注于以视频创意应用为核心的百亿级参数多媒体大模型“天幕”,具备一键成片、AI 美术设计、文生音乐、音频增强、音效分析、多语言对话等核心能力。2022 年底至 2023 全年万兴对旗下 T2V/I 多款拳头产品进行 AI 功能更新,AI 赋能之下订阅收入占比及订阅续约率取得双增。美图公司于 2023 年 12 更新视觉大模型 MiracleVision 4.0,具备文生视频、图生视频、视频生视频等多模态能力,AI 赋能之下订阅业务收入占比逐年增长。Sora 开启创意领域新纪元,国内推荐关注万兴科技、美图公司、虹软科技、科大讯飞;海外推荐关注 Adobe。海外基础软硬件使用受限的风险
7、;AI 应用落地不及预期的风险;行业竞争加剧风险。行业深度研究 敬请参阅最后一页特别声明 2 内容目录内容目录 1OpenAI 视频大模型 Sora:不止于视频,剑指世界模型,初步理解物理规律.4 1.1 Sora 问世:OpenAI 发布视频生成大模型,剑指物理世界通用模拟工具.4 1.2 技术路径:基于 Patches 视觉特征标记的 Diffusion Transformer 模型.4 1.3 算法实现:Patches 实现更灵活的采样+更优化的构图.5 1.4 功能解读:文生视频+视频编辑,确保“物理世界常识”始终在场的通用模拟工具.7 2.文生图/视频海外标杆:AI 应用端焦点,技术
8、及产品迭代迅速.8 2.1 文生图/视频为当下 AI 应用焦点:相关产品流量排序名列前茅.8 2.2 文生图-T2I(Text to Image):Diffusion 模型奠定文生图商业化基石,新老玩家广泛入局.9 2.2.1 Adobe:老牌创意软件巨头向 AIG 出征,发布下一代 Firefly 支持多种文生图功能.10 2.2.2 Midjourney:文生图模型新锐,提升创意设计工作效率,广泛实现商业化落地.11 2.3 文生视频-T2V(Text to Video):创意产业工作流变革前夜,MGC 时代大幕下的先行者.11 2.3.1 Pika:AI 初创公司发布 1.0 工具,支持
9、一键生成 3 秒共计 72 帧视频.13 2.3.2 Runway:拥有最早商业化的 T2V 模型之一-Runway Gen-2.14 3.文生图/视频国内映射:万兴、美图头部标杆,相继发布视觉大模型,订阅收入占比势能向上.14 3.1 万兴科技:发布“天幕”大模型整合 T2V/I 能力,AI 赋能订阅及续约率双增.14 3.2 美图公司:自研视觉大模型 MiracleVision 4.0,订阅业务收入占比逐年增长.18 4.投资建议.19 5.风险提示.19 QV0X1XFVTUEYTV7NdN8OnPqQtRsOkPnNmOiNqRwPbRnMrQwMsQoOuOtPrM行业深度研究 敬请
10、参阅最后一页特别声明 3 图表目录图表目录 图表 1:OpenAI 发布文生视频大模型 Sora.4 图表 2:Sora 技术路径:基于 Patches 视觉特征标记的 Diffusion Transformer 模型.5 图表 3:Why Patches?更灵活的采样+更优化的构图.6 图表 4:基于 DALL E 3 DCS 的描述性标题重述与基于 GPT 的标题扩写.7 图表 5:Sora 功能一览:文生视频+视频编辑,确保“物理世界常识”始终在场.8 图表 6:Midjourney 高居 AI 产品流量榜首.9 图表 7:AI 图片生成约占前十 AI 产品流量的 74%.9 图表 8:
11、T2I 模型近年来加速迭代演进.9 图表 9:Diffusion 模型的前向阶段噪声化和逆向阶段去噪过程.10 图表 10:Adobe Firefly 目前能够支持的部分 AI 功能.10 图表 11:Midjourney 文生图创意作品已广泛商业化落地.11 图表 12:Latent Video Diffusion 模型基于文字描述与初始图像编辑视频.12 图表 13:以 Sora 为代表的 T2V 大模型有望深刻改变影视产业工作流.13 图表 14:Pika 1.0 工具主要功能.14 图表 15:Runway Gen-2 主要功能.14 图表 16:万兴大模型“天幕”宣传片中透露七大 A
12、I 功能,涉及视频、图片、音频等多模态领域.15 图表 17:2023 年以来万兴 T2V/I 产品相继更新/发布.16 图表 18:万兴旗下 T2V/I 多款拳头产品已进行 AI 功能更新,价格/月活/收入数据相对积极.17 图表 19:AI 赋能万兴订阅收入占比及订阅续约率双双逐年增长.17 图表 20:美图发布 MiracleVision 4.0 赋能多行业生产力工作流,开放 API 支持 T2I/I2I 功能.18 图表 21:2020 年以来美图订阅业务收入占比逐年增长.19 图表 22:推荐关注创意软件厂商万兴科技、美图公司;AI 技术龙头虹软科技、科大讯飞.19 行业深度研究 敬
13、请参阅最后一页特别声明 4 1.1 Sora 问世问世:OpenAI 发布发布视频生成大模型视频生成大模型,剑指,剑指物理物理世界通用模拟世界通用模拟工具工具 2 月 15 日,OpenAI 发布视频生成大模型 Sora。OpenAI 基于 Transformer 架构的 Sora大模型能够生成长达一分钟的高清视频,同时可以指定视频时间长度、分辨率与宽高比。OpenAI 研究团队认为,Sora 的问世一定程度上意味着扩展视频生成模型是构建物理世界通用模拟器的重要潜在途径。图表图表1:OpenAI发布文生视频大模型发布文生视频大模型Sora 来源:OpenAI 官网,国金证券研究所 1.2 技术
14、技术路径路径:基于基于 Patches 视觉特征标记视觉特征标记的的 Diffusion Transformer 模型模型 Sora 取法 Tokens 文本特征标记,是基于 Patches 视觉特征标记的 Diffusion Transformer模型。OpenAI 研究团队从 LLM 中汲取灵感,认为 LLM 范式的成功在一定程度上得益于Tokens 的使用,Tokens 统一了代码、数学和各种自然语言的文本模式。类似于 LLM 范式下的 Tokens 文本标记,Sora 创新性地使用了 Patches(a part of something marked out from the res
15、t by a particular characteristic;视觉特征标记)。鉴于 Patches 之前已被证明是视觉数据模型的有效表示,OpenAI 研究团队进一步研发发现 Patches 是一种高度可扩展且有效的表示,可以被用于在不同类型的视频和图像上训练生成模型:Step1 将视觉数据转化为 Patches(Turning visual data into patches):将视频、图像等视觉数据压缩至低维的潜在空间中,并将其分解为带有时空(Spacetime)特征的 Patches(若为图像,则对空间特征进行分解),从而将视觉数据转换为 Patches。Step2 构建视频压缩网络
16、(Video compression network):OpenAI 训练的视频压缩网络将原始视频作为输入,并输出在时间和空间上都经过压缩的潜在特征。Sora 在这个压缩的潜在空间中接受训练并生成视频。OpenAI 还训练了一个相应的解码器模型,该模型将生成的潜在对象映射回像素空间。Step3 提取视觉数据的时空潜在特征(Spacetime Latent Patches):给定一个压缩的输入视频,提取一系列时空特征 Patches(此方案也适用于图像,因为图像只是单帧视频)。基于 Patches 的表示使 Sora 能够利用不同分辨率、视频时间和宽高比的视频和图像进行训练。在推理时,可以通过在
17、适当大小的网格中排列随机初始化的Patches 来控制生成的视频的大小。Step4 推广 Transformer 模型到视频生成领域(Scaling transformers for video generation):Sora 是一个 Diffusion Transformer 模型,给定输入的嘈杂(noisy)Patches(以及文本提示等条件信息),它被训练来预测原始的干净(clean)Patches,继而生成高清视频。随着训练计算量的提高,样本质量也明显提高。行业深度研究 敬请参阅最后一页特别声明 5 图表图表2:Sora技术路径技术路径:基于基于Patches视觉特征标记的视觉特征标
18、记的Diffusion Transformer模型模型 来源:OpenAI 官网,Auto-Encoding Variational Bayes(Diederik P.Kingma&Max Welling,2022),High-Resolution Image Synthesis with Latent Diffusion Models(Robin Rombach et al,2022),国金证券研究所 1.3 算法实现算法实现:Patches 实现实现更灵活的采样更灵活的采样+更优化的构图更优化的构图 Why Patches?更灵活的采样+更优化的构图。从训练角度而言,基于 Patches
19、视觉特征标记对原生视频进行采样扩大了可用样本的规模且省去了标准化样本的步骤。对于不同分辨率、视频长度和宽高比的视频,以往常见的做法是将视频剪辑、调整大小或修剪到标准格式(例如:分辨率为 256x256的 4 秒视频),而 Sora 则基于 Patches 视觉特征标记对原生视频进行采样(Sora 可对宽屏 1920 x1080p 视频、垂直 1080 x1920p 视频以及介于两者之间的所有视频进行采样)。从推理角度而言,基于原生视频训练的模型在生成新视频方面改善了构图和取景。如行业深度研究 敬请参阅最后一页特别声明 6 下图所示,左下角为采样标准化样本生成的视频构图,叙事主体潜水员被较为生硬
20、地分割开,右下角为采样原生样本生成的视频构图,叙事主体潜水员较为完整地出现在视频的中间位置。图表图表3:Why Patches?更灵活的采样更灵活的采样+更优化的构图更优化的构图 来源:OpenAI 官网,国金证券研究所 Sora 基于 DALLE 3 DCS(Descriptive synthetic captions;描述性合成标题)的描述性标题重述与 GPT 的标题扩写强化其语言理解能力。训练文本到视频生成系统需要大量带有相应文本标题的视频,OpenAI 应用 DALLE 3,基于高度描述性的字幕器模型为训练集中的所有视频生成文本字幕,同时,OpenAI 还利用 GPT 将简短的用户提示
21、转换为更长的详细字幕,以最终获得更优的视频输出结果。行业深度研究 敬请参阅最后一页特别声明 7 图表图表4:基于基于DALLE 3 DCS的描述性标题重述与基于的描述性标题重述与基于GPT的标题扩写的标题扩写 来源:Improving Image Generation with Better Captions(James Betker et al,2023),ChatGPT,国金证券研究所 1.4 功能解读功能解读:文生视频文生视频+视频编辑,确保“物理世界常识”始终在场的通用模拟工具视频编辑,确保“物理世界常识”始终在场的通用模拟工具 确保“物理世界常识”始终在场的通用模拟工具。OpenAI
22、 目前发布的 Sora 视频大模型主要具备文生视频、视频编辑、文生图三类功能,其中前二项为最核心的 AI 功能:文生视频:基础生成:Prompt 提示词DALLE 生成图像Sora 生成视频。用户通过输入一段 Prompt 提示词经由 DALLE 重述文本继而生成图像,Sora 基于初始图像与重述后的描述性文本生成视频。目前支持 1 分钟时长以内、多种分辨率与宽高比的视频生成,风格涵盖真实世界与虚拟世界的各类题材。3D 一致性(3D consistency):确保景别切换时运镜的连贯性。在“一镜到底”的样片当中,画面中场景中的天空、树木、街边的装潢与叙事主题人物的空间关系始终符合物理世界逻辑,
23、Sora 的 3D 一致性能够确保视频在景别切换的过程中运镜的连贯性。远距离相干性和物体持久性:确保透视关系下被遮挡物始终存在。如下图,在前景中的人物陆续走过后景中斑点小狗的过程中,在画面的透视关系与景深连贯稳定的情况下,被遮挡的斑点小狗并未在后续画面中凭空消失。与世界的互动性:确保真实世界的常识始终在场。如下图,在绘画视频中,笔触在画布上留下的痕迹在后续画面中始终存在;中年男人咬下汉堡之后后续画面出现咬痕。表明在叙事主体与世界发生交互之后,真实世界的物理规律等“常识”始终在场,并未出现违背常识的画面。模拟数字世界:数字世界渲染引擎。除了对于真实物理世界连续且稳定的视频呈现,Sora 同时也可
24、以生成例如 Minecraft 这类虚拟世界视频场景。真实世界与数字世界的双重生成能力一定程度上促使 Sora 有望成为一部“通用世界模拟工具”。视频编辑:1、基于时空双维度的视频扩展-时间线与空间关系前后对照;2、更换视频所处场景及风格-一键置景一键风格化渲染;3、不同主题场景视频的无缝连接-镜头语言创新与 IP 重组。(Sora 通过逐渐插入技术,可以创建两个完全不同主题和场景构图视频之间的无缝过渡。在下面视频编辑的示例中,中心的视频是左右对应的视频之间的插值。)行业深度研究 敬请参阅最后一页特别声明 8 图表图表5:Sora功能一览:文生视频功能一览:文生视频+视频编辑视频编辑,确保“物
25、理世界常识”始终在场确保“物理世界常识”始终在场 来源:OpenAI 官网,国金证券研究所 2.1 文生图文生图/视频视频为当下为当下 AI 应用焦点应用焦点:相关产品流量排序名列前茅相关产品流量排序名列前茅 T2V/I 产品为时下流量焦点。按邀请页面流量排序的十大 AI 应用程序,Midjourney 位列第一,Pika 排在第二。在排名前十的应用程序中,有 5 个是图片生成应用程序,2 个是音频生成应用程序,2 个是视频生成应用程序。按流量计算,图片占了前 10 名流量的 74%,其次是视频 8%,语音/音乐(音频)6%。行业深度研究 敬请参阅最后一页特别声明 9 图表图表6:Midjou
26、rney高居高居AI产品流量榜首产品流量榜首 图表图表7:AI图片生成约占前十图片生成约占前十AI产品流量的产品流量的74%来源:新智元微信公众平台转引自 Discord,国金证券研究所 来源:新智元微信公众平台转引自 Discord,国金证券研究所 2.2 文生图文生图-T2I(Text to Image):):Diffusion 模型模型奠定文生图商业化基石,新老玩家广奠定文生图商业化基石,新老玩家广泛入局泛入局 T2I 模型迭代加速演进。2016 年以来,T2I 模型算法加速演进,包括 GAN、CLIP、Diffusion在内的多种算法模型相继涌现,DALL-E、Stable Diffu
27、sion 与 Midjourney 等知名产品或平台相继问世。2021 到 2022 年,T2I 应用出现了突破性的进展,生成的图像质量得到了迅速提高。2022年前,文生图的模型以生成性对抗网络(GANs)为主,但因为在实践中存在明显不足,因而无法广泛商业化。2022 年开始,Diffusion 模型由于其生成图像的高逼真度与细节丰富度开始走入主流 T2I 应用赛道且进展迅速:2022 年初,T2I 工具 Disco Diffusion(一个可直接运行在谷歌云端电脑 Google Colab 的程序,于 2022 年 2 月引发关注)仅可以生成一些很有氛围感的草图;2 个月后,DALL-E 2
28、(OpenAI 于 2022 年 4 月发布的 T2I 模型)相比 DALL-E 分辨率提高了 400%,已经可以刻画细节,生成准确的五官;如今,T2I模型产品 Stable Diffusion(由慕尼黑大学研究团队 CompVis 与纽约 Runway 团队共同研发而成,由出资方 Stability AI 于 2022 年 8 月发布开源版本)和 Midjourney(独立研究室Midjourney 于 2022 年 7 月发布同名 T2I 产品)创作的图像更加精致且具有艺术感,并且将作画速度缩短到 30s。图表图表8:T2I模型近年来加速迭代演进模型近年来加速迭代演进 来源:Multimo
29、dal Foundation Models:From Specialists to General-Purpose Assistants(Chunyuan Li et al,2023),国金证券研究所 目前 T2I 的核心方法是 Diffusion 模型。OpenAI 于 2020 年发布的基于对抗学习的图像分类模型 CLIP(Contrastive Language-Image Pre-Training)能够将文本与图像快速匹配,帮助 Diffusion 模型变得更为实用。Diffusion 模型通过在前向阶段对图像逐步添加随机噪声,直至图像被破坏变成完全的高斯噪声,然后再逆向该过程以生成高
30、质量图像。其独特之处在于其生成过程的逐步性和渐进性,使得生成的图像具有高度的逼真度和细节丰富度。Stable Diffusion 与 Midjourney 模型均基于 Diffusion 模型开发而来。Diffusion 模型交互简单、生成速度快,极大地降低了使用门槛。Image,74%Video,8%Voice/Music,6%Various,1%行业深度研究 敬请参阅最后一页特别声明 10 图表图表9:Diffusion模型的前向阶段噪声化和逆向阶段去噪过程模型的前向阶段噪声化和逆向阶段去噪过程 来源:Diffusion Models:A Comprehensive Survey of M
31、ethods and Applications(Ling Yang et al,2023),国金证券研究所 2.2.1 Adobe:老牌创意软件巨头向老牌创意软件巨头向 AIG 出征出征,发布下一代发布下一代 Firefly 支持多种文生图功能支持多种文生图功能 Adobe Firefly 支持多种 T2I 功能。2023 年 10 月,Adobe 在 Adobe MAX 2023 大会上发布了下一代 Firefly 模型集,包含 3 个新的生成式 AI 模型:Firefly Image2 Model(改善图像渲染质量)、Firefly Vector Model(世界首个生成高质量矢量图的 A
32、I 模型)和 Firefly Design Model(文生设计模板的 AI 模型)。与第一代 Adobe Firefly 类似,下一代 Firefly模型也将嵌入Adobe的创意工作流中,赋予设计人士更强大的生产力。目前,下一代Firefly模型已嵌入至 Adobe Photoshop,Adobe Illustrator 和 Adobe Express 等产品中。Adobe Firefly 目前支持多种 AI 功能,包括提示词图像生成、提示词图像生成+环境嵌入、提示词图片色彩填充、提示词字体效果填充、图片智能扩展等。Adobe Firefly 目前披露的 AI 功能较为细分,一定程度上是软件
33、原有功能智能化延伸,Adobe 作为老牌创意软件巨头具有客群基数规模大、紧贴市场需求、拥有多年沉淀积累的合规的创意数据集等优势。图表图表10:Adobe Firefly目前能够支持的部分目前能够支持的部分AI功能功能 来源:Adobe 公司官网,国金证券研究所 行业深度研究 敬请参阅最后一页特别声明 11 2.2.2 Midjourney:文生图模型新锐,文生图模型新锐,提升创意设计工作效率,广泛实现商业化落地提升创意设计工作效率,广泛实现商业化落地 Midjourney 是自筹资金的独立研究室,目前开发了同名文生图模型及应用,产品搭载在 Discord 中,采用 SaaS 模式收费,用户通过
34、与 Midjourney Bot 进行对话式交互,提交 Prompt(文本提示词)以获取 T2I 生成的图像。Midjourney 生成的图片可以显著地提高创意设计的工作效率。目前 Discord 的用户中专业设计师占比达 30%-40%,包括 Nike、Adidas、NewBalance 等公司的设计师。Midjourney主要被应用于设计工作早期,帮助设计师激发灵感,快速测试想法,并迭代图片。Midjourney 的风格包括很多科幻元素,擅长创造环境图,同时针对人像做了优化,风格较为细腻,非常适合游戏、电影、音乐和出版等创意行业。图表图表11:Midjourney文生图文生图创意创意作品已
35、广泛商业化落地作品已广泛商业化落地 来源:海外独角兽微信公众平台,国金证券研究所 2.3 文生视频文生视频-T2V(Text to Video):):创意创意产业工作流变革前夜,产业工作流变革前夜,MGC 时代大幕下的先时代大幕下的先行者行者 Latent Video Diffusion 模型的问世奠定 T2V 领域的基石。2023 年,Runway 发布 Latent Video Diffusion(潜在视频扩散)模型,能够基于初始图像与文本描述来编辑并生成新的视频。Latent Video Diffusion 被应用于 Runway Gen-1 产品当中,在 2023 年初一度被业界认为启
36、动了文生视频的“iPhone 时刻”。2023 年 3 月,Runway 开放 Gen-2 内测版本,产品功能已支持完全的文生视频,而不仅仅是对于已有视频的编辑功能。2023 年 11 月16 日,Meta 基于 Latent Video Diffusion 模型发布 T2V 模型 Emu Video。2023 年 11 月18 日,字节跳动同样基于 Latent Video Diffusion 模型发布 T2V 模型 PixelDance。后续,行业深度研究 敬请参阅最后一页特别声明 12 Stability AI 与 Pika 也相继发布了旗下 T2V 模型产品。而 OpenAI 近期发布
37、的 Sora 则是一个基于 Diffusion Model(扩散模型)的 Transformer。扩散模型的工作原理是通过连续添加高斯噪声来破坏训练数据,然后通过逆转这个加噪过程来学习恢复数据,Transformer 则是一套编码器和解码器的架构,将文本编码成数字向量,然后通过解码将数字向量还原出文本。Sora 融合了两者,通过编码器-解码器架构处理含噪点的输入图像,并在每一步预测出更清晰的图像版本,被用于从高维的时空碎片张成的空间中,观察并提取丰富的时空碎片之间的关联与演化的动态过程。图表图表12:Latent Video Diffusion模型基于文字描述与初始图像模型基于文字描述与初始图
38、像编辑编辑视频视频 来源:Structure and Content-Guided Video Synthesis with Diffusion Models(P Esser et al,2023),国金证券研究所 我们认为,基于 Latent Video Diffusion 文生视频大模型的 AI 产品或将深刻变革视频内容行业,在影视创作、广告创意、短视频创作等领域均有广阔的应用前景。下述段落以影视产业为例详细剖析 T2V 大模型对于视频内容产业工作流带来的深刻变革。AI深入赋能影视产业内容生产环节。影视产业链是指以作品版权为核心的贯穿开发创作、拍摄制作、宣传发行(内容推送)、影院放映(在线
39、播映)以及衍生品开发整个过程的影视生产链条。AI 现已逐步渗透影视产业链的各个环节,与影视内容创作、分发息息相关。以影视产业内容生产的核心环节开发创作与拍摄制作为例,以往 AI 已经落地了一系列智能化的变革:开发创作环节:智能选角:优酷通过全网舆情提炼出演员的个人标签,又从其历史扮演的角色中提炼出角色标签,建立模型,将演员和角色进行匹配度计算,为长安十二时辰选定由雷佳音扮演张小敬这一角色,并最终收获市场验证。剧本生成:ScriptBook 的剧本生成器能通过特定的词和短语识别出风格和主题,生成指定的故事设定和类型,并依据上下文正确地描绘出剧本结构。迪士尼的Spellcheck 能分析剧本中角色
40、的性别、种族、残疾等指标的百分比,以识别和纠正剧本的潜在的偏见,生成更中立的内容。票房预测:ScriptBook 能对先前的案例数据进行建模,从角色的行为、对话中识别角色性格特征,对电影分级、目标观众构成和最受观众欢迎的角色以及票房收入做出预测,辅助项目开发决策。拍摄制作环节:动作捕捉:如复仇者联盟 3中使用机器学习算法对真人演员面部表情的捕捉和跟踪,制作出“灭霸”角色更逼真的表情;Weta 公司使用深度学习的方法推算“阿丽塔”角色的运动数据,绘制出更精致的肌肤细节。智能剪辑:特效软件 Massive 实现了 AI 模拟功能,AI 替身帮助节省了生成 CG角色的时间,也减少对演员岗位的需求;中
41、国新说唱的智能剪辑用 AI 进行自动化的音视频对位工作,极大地减轻了剪辑师的基础工作。风格迁移:AI 在后期制作的运用试图让视觉效果不断向高层次丰富,如用选取基准图片和提取视频关键帧的方式,把图片的风格迁移至视频中,实现用户对风格的定制。行业深度研究 敬请参阅最后一页特别声明 13 以 Sora 为代表的 T2V 大模型有望深刻改变影视产业工作流。此前 AI 赋能影视产业的逻辑主要以 AI 算法进入既有的影视内容生产、分发环节,以降本增效地方式为影视产业节约成本、提高效率为主。伴随以 Sora 为代表的 T2V 大模型的问世,我们认为,机器生产内容(MGC 模式,Machine-Generat
42、ed Content)的时代或在不远的将来成为现实。当影视内容的剧本创作不再需要编剧,当拍摄制作不再需要真人演员、场地置景、专业的拍摄与后期团队,当以 TikTok 为代表的“推荐你喜欢”模式转向“生成你喜欢”模式继而重新定义“生成即渠道”,影视产业,无论是传统的 PGC 电影、电剧集还是新兴的 UGC短视频、短剧,抑或是饱受期待的 3D 视频内容,也许都将面临 T2V 大模型对于影视产品工作流的巨大冲击与深刻变革。未来,不断迭代演进的 T2V 大模型有可能以更少交互的 Agent 形态存在,从而更便捷地响应市场海量的视频内容需求。图表图表13:以以Sora为代表的为代表的T2V大模型有望深刻
43、改变影视大模型有望深刻改变影视产业产业工作流工作流 来源:OpenAI 官网,看得见的智能人工智能在影视产业链中的应用和反思(张锐和覃剑虹,2022),国金证券研究所 2.3.1 Pika:AI 初创公司初创公司发布发布 1.0 工具工具,支持一键生成支持一键生成 3 秒共计秒共计 72 帧视频帧视频 2023 年 12 月,AI 初创公司 Pika 推出视频生成工具 Pika 1.0,卡位文生视频(T2V)、图生视频(I2V)。Pika 支持 3D 动画、动漫或电影生成,具备画布延展、局部修改、视频时长拓展等编辑功能。目前 Pika 一键最多生成长度为 3 秒的共计 72 帧视频。目前,Pi
44、ka已获得三轮合计 5,500 万美元的融资,公司估值约为 2-3 亿美元。目前,Pika 1.0 的主要功能包括:T2V/I2V:输入几行文本或上传图像,可以通过 AI 创建简短、高质量的视频。风格切换:将现有视频转换为不同的风格,包括不同的角色和对象,同时保持视频的结构。局部替换:使用 AI 编辑视频内容,比如更换衣服、添加另一个角色、更改环境或添加道具。扩展画布:扩展视频的画布或宽高比。将视频从 TikTok 9:16 格式更改为宽屏 16:9格式,AI 模型将预测超出原始视频边界的内容。扩展长度:使用 AI 扩展现有视频剪辑的长度。行业深度研究 敬请参阅最后一页特别声明 14 图表图表
45、14:Pika 1.0工具主要功能工具主要功能 来源:Pika 官网,新智元微信公众平台,国金证券研究所 2.3.2 Runway:拥有拥有最早商业化的最早商业化的 T2V 模型模型之一之一-Runway Gen-2 Runway 早期是一家以 AI 研究为中心的公司,在研究的过程中团队发现了市场机会,并将早期研究的技术成果应用在了视频后期这个应用场景当中。受到 Google 投资的Runway 在开发 AI 图像生成器 Stable Diffusion 方面发挥了重要作用。2023 年 6 月,Runway基于Gen1发布Gen-2,是市面上最早商业化的T2V模型之一。同年8月,Runway
46、将 Gen-2 生成视频的最大长度从 4 秒提升到了18 秒。近日,Gen-2 新增功能“运动笔刷”,最多支持独立控制多达 5 个选定的区域,可通过笔刷选定区域实现自动灵活的 I2V。图表图表15:Runway Gen-2主要功能主要功能 来源:Runway 官网,AI 奇点网微信公众平台,量子位微信公众平台,国金证券研究所 3.1 万兴科技:万兴科技:发布“天幕”大模型整合发布“天幕”大模型整合 T2V/I 能力,能力,AI 赋能订阅及续约率双增赋能订阅及续约率双增 万兴“天幕”大模型支持视频、图片、音频等多模态 AI 功能。万兴于 2023 年 9 月世界计算大会上宣布即将发布国内首个专注
47、于以视频创意应用为核心的百亿级参数多媒体大模型“天幕”,“天幕”将依托基础大模型及高性能全球网络平台、计算集群算力平台、海量数据平台,由视频大模型、音频大模型、图片大模型、文本大模型组成,涵盖当前市面上语言、音频、图像的大模型能力,包括视觉、音频、语言多模态 AI 生成及优化,具备行业深度研究 敬请参阅最后一页特别声明 15 一键成片、AI 美术设计、文生音乐、音频增强、音效分析、多语言对话等核心能力。图表图表16:万兴大模型“天幕”宣传片中透露七大万兴大模型“天幕”宣传片中透露七大AI功能,涉及视频、图片、音频等多模态领域功能,涉及视频、图片、音频等多模态领域 来源:万兴科技微信公众平台,国
48、金证券研究所 2023 年以来万兴 AI 产品相继更新/发布:2023 年 8 月,万兴对 PDF 进行更新,AI 助手 Lumi 可直接在内唤醒。2023 年 9 月,万兴对亿图脑图进行更新,将“思维导图”定义为一种崭新的文件范式,创新性地提供思维导图生成 PPT/音频/视频等功能;万兴在原有“视频版”基础上发布万兴播爆“直播版”,支持数字人直播、直播推流、实时互动、AI 智能脚本、AI 翻译、智能回复等功能;万兴发布万兴智演,定位为名师讲演神器,具备人景融合、文稿编排等功能。2023 年 10 月,万兴对旗下视频创意核心产品 Filmora 进行大版本更新,实现智能文字快剪、智能人声分离、
49、AI 遮罩、AI 智能补帧、稳定影片、肤色保护六大功能升级。行业深度研究 敬请参阅最后一页特别声明 16 图表图表17:2023年以来万兴年以来万兴T2V/I产品相继更新产品相继更新/发布发布 来源:万兴科技微信公众平台,万兴科技公司官网,国金证券研究所 万兴于 2022 年底至 2023 全年对旗下 T2V/I 多款拳头产品进行 AI 功能更新,发布全新AI-Native 产品 Kwicut/万兴播爆/万兴智演等,且至少已有 3 款产品明确接入 OpenAI GPT系列模型。加入 AI 功能之后,多款产品月活/付费率/收入数据有所增长。万兴的价格策略调整幅度较小,后续或考虑 AI Token
50、s 增值模式。行业深度研究 敬请参阅最后一页特别声明 17 图表图表18:万兴旗下万兴旗下T2V/I多款拳头产品已进行多款拳头产品已进行AI功能更新,价格功能更新,价格/月活月活/收入数据相对积极收入数据相对积极 产品类别 产品名称 历次版本更新 功能升级 接入模型 价格/月活/收入数据变化 视频创意视频创意 万兴喵影/Filmora 2022/12 发布V12,2023/12 发布V13 V12:AI 智能抠像、AI 音频重组、手绘遮罩、云端备份审阅、海量模板、喵影学社六大功能升级;V13:智能文字快剪、智能人声分离、AI遮罩、AI 智能补帧、稳定影片、肤色保护六大功能升级。Open AI
51、Dall-E 2 V12:三端打通版本由$49.9 上调至$69.9;V13:未调价,后续考虑 AI Token 增值模式 Kwicut 2023/9 单独发布(另集成在Filmora)识别文稿内容,文稿与视频同比编辑,删除气口等/万兴播爆/Virbo 2023/3 发布视频版 2023/9 发布直播版 视频版:面向跨境电商提供低成本“文生营销视频”;直播版:破局直播场景“寻找主播难”“搭建直播间贵”“直播时间短”难题 万兴自有模型 视频版:2023/9 月活 10w+,收入百万量级 直播版:2023/9 亮相华为全连接大会,暂无数据 万兴智演/DemoCreator 2023/9 发布 面向
52、教师线上教学录播制作场景量身打造/绘图创意绘图创意 亿图脑图/EdrawMind 2023/9 发布V10.9 2023/11 发布V11:V10.9:思维导图生成 PPT/音频/视频等功能;V11:业内率先实现脑图文件桌面端协同编辑,实现多端协同一体化;优化上海品茶布局;丰富主题样式 百度“文心一言”V10.9:未调价 V11:未调价 墨刀/Mockitt 2023/4 加入 AI助手 AI 助手对话获取设计灵感等 GPT 加入 AI 助手:未调价 万兴爱画 2023/7 新增 AI创作模式 文字绘画/以图绘图/简笔画三种 AI 创作模式 万兴自有模型/来源:万兴科技公司官网,万兴科技微信公众平
53、台,万兴科技调研纪要,国金证券研究所 AI 赋能万兴订阅收入占比及订阅续约率双双逐年增长。万兴于 2018 年便开始逐步实现从传统 License 模式向 SaaS 模式转型,从跨端(桌面端、移动端)服务模式向多端(桌面端、移动端、云端)整合服务模式升级。2023H1 年公司订阅收入占比已达 72%,订阅续约率提升至 65%。图表图表19:AI赋能赋能万兴订阅收入占比及订阅续约率双双逐年增长万兴订阅收入占比及订阅续约率双双逐年增长 来源:万兴科技公司官网,万兴科技公司财报,国金证券研究所 46%60%64%72%48%60%65%40%45%50%55%60%65%70%75%20202021
54、20222023H1订阅收入占比订阅续约率行业深度研究 敬请参阅最后一页特别声明 18 3.2 美图公司:美图公司:自研视觉大模型自研视觉大模型 MiracleVision 4.0,订阅业务收入占比订阅业务收入占比逐年增长逐年增长 自研视觉大模型,MiracleVision 4.0 焕新升级。2023 年 6 月,美图正式发布自研 AI 视觉大模型 MiracleVision(奇想智能),全面应用于美图旗下影像与设计产品,为美图旗下 AI图片、AI 视频、AI 设计、AI 数字人等提供服务。2023 年 12 月 5 日,美图创造力大会上,MiracleVision 升级至 4.0,具备文生视
55、频、图生视频、视频生视频等多模态能力。美图收购站酷强化创意软件业内协同效应。2023 年 2 月,美图宣布以总价 3,964.05 万美元(约 2.85 亿元)收购站酷,交易结构中,1,778.4 万美元将以配发及发行 5,299.2 万股代价股份支付,余额 2,185.6 万美元将以现金支付。站酷成立于 2006 年,聚集了来自全球 300 多个城市的设计师、摄影师、插画师等视觉创意从业者,拥有近 1,700 万注册用户。美图 CEO 吴欣鸿表示,站酷的加入将进一步提升美图影像与设计产品业务,为美图自研的 AI 视觉大模型 MiracleVision(奇想智能)生态带来优质协同效应。图表图表
56、20:美图发布美图发布MiracleVision 4.0赋能多行业生产力工作流,开放赋能多行业生产力工作流,开放API支持支持T2I/I2I功能功能 来源:Miracle Vision 官网,国金证券研究所 行业深度研究 敬请参阅最后一页特别声明 19 2020年以来美图订阅业务收入占比逐年增长。2022年,美图VIP订阅业务收入占比最高,占比 37.5%,实现收入 7.8 亿元,同比增长 57.4%;SaaS 及相关服务收入增长强劲,占比 22.2%,系公司收购一家专注于向化妆品门店提供 ERP 及供应链管理 SaaS 方案的企业;在线广告及达人内容营销解决方案(IMS)收入受疫情冲击影响较
57、大,收入占比呈下降趋势。2020 年以来,美图订阅业务收入占比呈现逐年增长态势。图表图表21:2020年以来年以来美图美图订阅业务收入占比订阅业务收入占比逐年增长逐年增长 来源:Wind,国金证券研究所 文生图/文生视频大模型或将深刻变革内容生产工作流。推荐关注数字创意软件厂商万兴科技、美图公司;AI 技术龙头虹软科技、科大讯飞。图表图表22:推荐关注创意软件厂商万兴科技、美图公司;推荐关注创意软件厂商万兴科技、美图公司;AI技术龙头虹软科技、技术龙头虹软科技、科大讯飞科大讯飞 公司名称 股票代码 推荐理由 万兴科技 300624.SZ 万兴科技系国内 AIGC 工具软件领航者。公司主要面向
58、C 端及 B 端客户提供涉及视频创意、绘图创意、文档创意、数据管理等 PC 及移动端软件产品。预测公司 23、24、25 年归母净利分别为 0.88、1.40、2.29亿元,对应 121X、76X、47X PE。美图公司 1357.HK 美图公司是一家以“美”为内核、以人工智能为驱动的科技公司。公司致力于 C 端用户的拍摄、修图、修视频及社交分享,AI 时代,公司依托 C 端多年图片处理经验借 AI 赋能拓展 B 端生产力工具市场。Wind一致预测 23、24、25 摊薄 EPS 分别为 0.08、0.11、0.18元,对应 29X、21X、13X PE。虹软科技 688088.SH 虹软科技
59、系计算机视觉行业领先算法服务商。公司为各领域提供一站式视觉解决方案,为全球各类知名的设备制造商提供个性化具有市场竞争力优势的行业解决方案与产品。预测公司 23、24、25 年摊薄 EPS分别为 0.27、0.39、0.46 元,对应 101X、69X、59X PE。科大讯飞 002230.SZ 科大讯飞是人工智能和智能语音龙头企业。公司从事智能语音、自然语言理解、计算机视觉等核心技术研究,积极推动人工智能产品和行业应用落地,以讯飞开放平台为核心,积极拓展智慧教育、智慧医疗、智慧城市、智慧司法等行业赛道。预测公司 23、24、25 年营业收入分别为201.0、230.8、271.0 亿元,对应
60、EPS 分别为 0.34、0.46、0.62 元。采用市销率法对公司进行估值,给予公司 2023 年8.3 倍 P/S 估值,目标价 71.73 元/股。来源:Wind,国金证券研究所 注:万兴科技、虹软科技与科大讯飞的盈利预测及估值来自团队以往发布的报告,美图公司的盈利预测及估值来自 Wind 一致预期(更新至 2024 年 2 月 17 日收盘价)。海外基础软硬件使用受限。若因国际关系等原因,高算力 GPU 等基础硬件或计算框架等基础软件使用受限,可能会76.9%57.0%46.0%28.6%4.7%3.8%5.7%4.6%29.8%37.5%2.3%22.2%16.2%7.1%8.8%1
61、7.3%9.7%21.9%16.7%33.9%83.3%66.1%0%10%20%30%40%50%60%70%80%90%100%2002020212022在线广告互联网增值服务VIP订阅业务SaaS及相关业务IMS及其它高级订阅及应用内购买其他互联网业务智能硬件行业深度研究 敬请参阅最后一页特别声明 20 对国内人工智能算法应用产生影响。AI 应用落地不及预期。若各赛道商业应用场景无法按预期落地,或相关场景客户没有较强的付费意愿,可能会对各公司 AI 布局创收产生影响。行业竞争加剧风险。若相关企业加快技术迭代和应用布局,整体行业竞争程度加剧,将会对行业内已有企业的业绩
62、增长产生威胁。行业深度研究 敬请参阅最后一页特别声明 21 行业行业投资评级的说明:投资评级的说明:买入:预期未来 36 个月内该行业上涨幅度超过大盘在 15%以上;增持:预期未来 36 个月内该行业上涨幅度超过大盘在 5%15%;中性:预期未来 36 个月内该行业变动幅度相对大盘在-5%5%;减持:预期未来 36 个月内该行业下跌幅度超过大盘在 5%以上。行业深度研究 敬请参阅最后一页特别声明 22 特别声明:特别声明:国金证券股份有限公司经中国证券监督管理委员会批准,已具备证券投资咨询业务资格。本报告版权归“国金证券股份有限公司”(以下简称“国金证券”)所有,未经事先书面授权,任何机构和个
63、人均不得以任何方式对本报告的任何部分制作任何形式的复制、转发、转载、引用、修改、仿制、刊发,或以任何侵犯本公司版权的其他方式使用。经过书面授权的引用、刊发,需注明出处为“国金证券股份有限公司”,且不得对本报告进行任何有悖原意的删节和修改。本报告的产生基于国金证券及其研究人员认为可信的公开资料或实地调研资料,但国金证券及其研究人员对这些信息的准确性和完整性不作任何保证。本报告反映撰写研究人员的不同设想、见解及分析方法,故本报告所载观点可能与其他类似研究报告的观点及市场实际情况不一致,国金证券不对使用本报告所包含的材料产生的任何直接或间接损失或与此有关的其他任何损失承担任何责任。且本报告中的资料、
64、意见、预测均反映报告初次公开发布时的判断,在不作事先通知的情况下,可能会随时调整,亦可因使用不同假设和标准、采用不同观点和分析方法而与国金证券其它业务部门、单位或附属机构在制作类似的其他材料时所给出的意见不同或者相反。本报告仅为参考之用,在任何地区均不应被视为买卖任何证券、金融工具的要约或要约邀请。本报告提及的任何证券或金融工具均可能含有重大的风险,可能不易变卖以及不适合所有投资者。本报告所提及的证券或金融工具的价格、价值及收益可能会受汇率影响而波动。过往的业绩并不能代表未来的表现。客户应当考虑到国金证券存在可能影响本报告客观性的利益冲突,而不应视本报告为作出投资决策的唯一因素。证券研究报告是
65、用于服务具备专业知识的投资者和投资顾问的专业产品,使用时必须经专业人士进行解读。国金证券建议获取报告人员应考虑本报告的任何意见或建议是否符合其特定状况,以及(若有必要)咨询独立投资顾问。报告本身、报告中的信息或所表达意见也不构成投资、法律、会计或税务的最终操作建议,国金证券不就报告中的内容对最终操作建议做出任何担保,在任何时候均不构成对任何人的个人推荐。在法律允许的情况下,国金证券的关联机构可能会持有报告中涉及的公司所发行的证券并进行交易,并可能为这些公司正在提供或争取提供多种金融服务。本报告并非意图发送、发布给在当地法律或监管规则下不允许向其发送、发布该研究报告的人员。国金证券并不因收件人收
66、到本报告而视其为国金证券的客户。本报告对于收件人而言属高度机密,只有符合条件的收件人才能使用。根据证券期货投资者适当性管理办法,本报告仅供国金证券股份有限公司客户中风险评级高于 C3 级(含 C3 级)的投资者使用;本报告所包含的观点及建议并未考虑个别客户的特殊状况、目标或需要,不应被视为对特定客户关于特定证券或金融工具的建议或策略。对于本报告中提及的任何证券或金融工具,本报告的收件人须保持自身的独立判断。使用国金证券研究报告进行投资,遭受任何损失,国金证券不承担相关法律责任。若国金证券以外的任何机构或个人发送本报告,则由该机构或个人为此发送行为承担全部责任。本报告不构成国金证券向发送本报告机构或个人的收件人提供投资建议,国金证券不为此承担任何责任。此报告仅限于中国境内使用。国金证券版权所有,保留一切权利。上海上海 北京北京 深圳深圳 电话: 邮箱: 邮编:201204 地址:上海浦东新区芳甸路 1088 号 紫竹国际大厦 5 楼 电话: 邮箱: 邮编:100005 地址:北京市东城区建内大街 26 号 新闻大厦 8 层南侧 电话: 传真: 邮箱: 邮编:518000 地址:深圳市福田区金田路 2028 号皇岗商务中心 18 楼 1806