上海品茶

您的当前位置:上海品茶 > 报告分类 > PDF报告下载

甲子光年:2024AIGC视频生成:走向AI创生时代—视频生成的技术演进、范式重塑与商业化路径探索(49页).pdf

编号:155982 PDF  PPTX 49页 3.81MB 下载积分:VIP专享
下载报告请您先登录!

甲子光年:2024AIGC视频生成:走向AI创生时代—视频生成的技术演进、范式重塑与商业化路径探索(49页).pdf

1、出品机构:甲子光年智库研究团队:张一甲、宋涛发布时间:2024.03*刘瑶、小麦对本报告亦有贡献。“一类人有一类人原力觉醒的方式一类人有一类人原力觉醒的方式。物理学家想学习上帝;物理学家想学习上帝;数学家想反抗上帝;数学家想反抗上帝;哲学家认为自己就是上帝;哲学家认为自己就是上帝;生物学家想造上帝的反生物学家想造上帝的反工程师说都不用工程师说都不用,我们再造一个我们再造一个。”甲小姐:站在两个世界之间甲子光年 2017.10目 录Part 02AIGC视频生成推动世界走向“AI创生时代”Part 03“提示交互式”视频制作范式重塑视频产业链Part 04文娱领域有望开启第二轮投资浪潮Part

2、01AIGC视频生成的技术路线与产品演进趋势1.1 Sora让文生视频迎来“GPT-3”时刻OpenAI发布文生视频模型Sora,堪称视频生成领域的“GPT-3”时刻“Sora”一词在微信指数及百度指数的关注度快速上升2月16日微信指数快速上升百度关键词搜索趋势处于高位效果逼真:普通人一时难以分辨时长感人:60秒高清视频生成“百万”剪辑:堪比专业的镜头语言多模态:文字、图片、视频皆可生成视频春节假期甚至还未结束,Sora已引发全民关注“炸裂”视频效果成为讨论热点1.2 Sora的展现效果Sora模型展现自身超强视频生成及剪辑能力,超出其他竞品一个段位能力项Sora其他模型基本视频生成视频时长6

3、0秒20秒以内视频长宽比1920*1080之间的任意尺寸固定尺寸比例,例如16:9,9:16,1:1等视频清晰度1080p部分upscale后达到4k多模态生成语言理解能力强弱文本生成视频支持支持图片生成视频强支持视频生成视频支持支持视频编辑文本编辑视频支持支持扩展视频向前/向后扩展仅支持向后视频的无缝连接支持不支持独特模拟能力3D一致性强弱或不支持远程相干性和物体持久性强弱世界交互强弱数字世界模拟支持不支持Sora的语言理解能力更强,可将简短的用户提示转换为更长的详细描述Sora还可以生成图片,最高可达到2048*2048分辨率Sora通过插帧技术,实现完全不同主题和场景构图的视频之间的流畅

4、自然的过渡效果Sora可生成具有动态摄像机运动效果的视频,随着摄像机的移动和旋转,人和场景元素在三维空间中保持一致移动Sora可以对短期和长期依赖关系进行建模,保持各个主体的时空连贯性和一致性Sora以简单的方式模拟影响世界状态的行为,比如一个人吃完汉堡可以在上面留下咬痕Sora还能够模拟人工过程,比如视频游戏,同时通过基本策略控制玩家,同时以高保真度渲染世界及其动态模型Gen-2pika1.0Stable Video DiffusionEmu VideoW.A.L.T开发团队RunwayPika LabsStablity AIMeta李飞飞及其学生团队、谷歌时间2023年11月2023年11

5、月2023年11月2023年11月2023年12月长度4-18秒3-7秒2-4秒4秒3秒分辨率768*448,1536*896,4096*21601280*7202560*1440576*1024512*512512*896是否开源非开源非开源开源非开源非开源其他模型情况1.2 Sora的展现效果大模型训练的“暴力美学”在视频生成领域再次涌现卓越特性3D一致性:确保景别切换时运镜的连贯12341234以上四个镜头由远及近,保证了视频镜头中人和场景的一致性,是其他AI生成视频中少见的。远程相关性和物体持久性以上四个镜头在同一视频中生成,包括机器人的多个角度。画家可以在画布上留下新的笔触,并随着时

6、间的推移而持续存在。与世界互动:Sora有时可以用简单的方式模拟影响世界状况的动作模拟数字世界例如,Sora可以同时通过基本策略控制我的世界中的玩家,同时以高保真度渲染世界及其动态。不同主题场景视频的无缝连接一键进行风格渲染基于时空双维度的视频扩展文/图像/视频生视频的功能视频剪辑功能OpenAI发现视频模型在大规模训练时表现出许多有趣的“涌现”能力,使Sora能够从物理世界中模拟人、动物和环境。值得一提的是OpenAI官网所说的“they are purely phenomena of scale”它们纯粹是“规模现象”,这再一次验证了“暴力美学”。1.3 Sora的出现意味着AGI的又一个

7、里程碑时刻Sora意味着scaling law(规模法则)再次验证,推动文生视频进入“GPT-3”时刻Scaling law(规模法则)的再次验证:虽然Sora并不十全十美,但它通过scaling law和原有模型拉开了差距,为视频生成领域提供了另一条可以走通的路线,推动行业进入全新的阶段。文生视频的“GPT-3”时刻:从发展阶段类比,Sora更像文本模型的GPT-3时刻。ChatGPT让人类看到实现AGI的雏形,Sora让实现AGI的目标又进一步。备注说明:信能比,是甲子光年智库发明的概念,反映单位能源所能驾驭的信息量。信能比通过单位时间内产生/传输/使用/存储的信息量除以单位时间内所消耗的

8、能源量计算得出,反映单位能源所能调用的信息量水平的高低。信能比可以体现数据智能技术的先进性和能源效率的高效性:它能够反映整个社会数字化、智能化水平的高低;它能体现能源体系的可持续发展能力;它能反映生产力的高低和生产效率的提升;它能体现社会经济发展的先进性、创新性、可持续性。原始时代农业时代工业时代第一台计算机第一代PCiPhone4GPT-1GPT-2GPT-3ChatGPTGPT-4SoraAGI5000200020022202320252030300+智能新世代:Sora向AGI再进一步0信能比 AI赋能生产力跃迁100信能比300无穷小信息时代

9、数字时代智能新世代宙线:时间(人类文明进化历程)当下文本生成模型推动人类向AGI迈过第一个里程碑文生视频模型推动人类向AGI迈过又一个里程碑1.4 Sora开启“明牌游戏”,推动AIGC应用时间轴进一步被压缩历史反复表明,一旦先行者模式验证,后来者整体的应用进程时间表将加快领域类型2020年之前2020年2022年2023年2024年E2025年E2030年E文本领域诈骗垃圾信息识别翻译基础问答回应基础文案撰写初稿更长的文本二稿垂直领域的文案撰写实现可精调(论文等)终稿,水平接近人类平均值终稿,水平高于人类平均值终稿,水平高于专业写手代码领域单行代码补足多行代码生成更长的代码更精确的表达支持更

10、多语种领域更垂直根据文本生成初版应用程序根据文本生成初版应用程序根据文本生成终版应用程序,比全职开发者水平更高图像领域艺术图标摄影模仿(产品设计、建筑等)终稿(海报设计、产品设计等)终稿(产品设计、建筑等)终稿,水平高于专职艺术家、设计师等视频/3D/游戏领域视频和3D文件的基础版/初稿根据文本生成初版的短视频根据文本生成初版的长视频,并实际应用于制作环节AI版Roblox可依个人梦想定制的游戏与电影图2:生成式AI技术的成熟应用进程时间表先行者往往要花费大量时间精力试错,一旦模式跑通,“明牌游戏”就开启了。后来者会有更好的参考系和聚焦方向。ChatGPT后续的文本生成模型进展就说明了这一点。

11、过去一年,AI文本生成和图像生成相继走向成熟,Sora的发布意味着视频生成应用走向成熟的时间比原先预计的更早出现,AIGC已经加速迈入视频生成阶段。对此,甲子光年智库更新了生成式AI技术的成熟应用进程时间表。2024年可实现根据文本提示生成初版短视频,2025年有望实现根据文本生成初版长视频,并在视频制作环节真实使用落地。大模型成熟难度:初级尝试接近成熟成熟应用51.9%37.6%32.4%27.6%26.2%22.4%17.1%文本生成类图像生成类科研文字生成类视频生成类代码生成类语音生成类多模态生成类图1:AIGC用户偏好使用的大模型产品类型1.5 Sora验证视频生成的新技术范式视频生成

12、技术路线在过去主要有两条,一条是基于Transformer的路线,以Phenaki为代表,第二条是Diffusion Model(扩散模型)路线,该路线在2023年是主流路线,诞生了Meta的Make-A-Video、英伟达的Video LDM,Runway的Gen1、Gen2,字节的MagicVideo等代表性产品。Sora的发布,对Transformer+Diffusion Model(DiT)路线进行了成果瞩目的验证。Sora的出现意味着视频生成的DiT技术路线得到有力验证时间2024生成视频质量Transformer+Diffusion Model早期20222023GAN+VAETr

13、ansformerDiffusion Model早期路线Transformer路线扩散模型路线DiT路线代表产品:Sora代表产品:Make-A-VideoVideo LDMText2Video-ZeroRunway-Gen2 通义千问视频大模型代表产品:PhenakiCog VideoVideoGPT代表产品:Text2FilterGen-2Pika1.0stable video diffusionEmu VideoW.A.L.TSora0070图2:Sora技术优势与竞品的对比情况720P高清1080P最大生成时长(秒)视频分辨率图1:AIGC视频生成的技术演进路径1

14、.6 Sora的技术原理Sora模型将视频压缩到低维空间(latent space),并使用时空补丁(Spacetime latent patches)来表示视频。这个过程类似于将文本转换为Token表示,而视频则转换为patches表示。Sora模型主要在压缩的低维空间进行训练,并使用解码器将低维空间映射回像素空间,以生成视频。Sora使用了diffusion模型,给定输入的噪声块+文本prompt,它被训练来预测原始的“干净”分块。Sora是diffusion transformer,而transformer在各个领域都表现出显著的规模效应。Patch(时空编码思路)+DiT(Diffus

15、ion和Transformer模型的结合)+Scaling Law(规模效应)Pixel Video SpaceEncoderDiffusion Transformer BlockClean LatentLatent Spacetime PatchesPatchifyDenoised latentZTZT-1Z RHWTdZ RHWTdZT RHWTdNoised LatentDecoderLower-Dimensional Latent SpaceConditioningHumaninstructionsCLIPGPT-4AugmentedpromptImages or video fram

16、es图:业内推测出的Sora技术架构图1.6 Sora的技术原理Sora模型的实施路径有四个核心部分:Part1:使用文生图模型(DALLE 3)把文本和图像对联系起来。Part2:视频数据切分为Patches,通过编码器压缩成低维空间表示,解决了时间和空间两个维度的注意力交互(patch化是训练生成式模型的一个非常scalable和高效的图像/视频表征形式)。Part3:Diffusion Transformer。Denoising Diffusion Probabilistic Models(DDPMs):通过逐步添加噪声来模拟数据分布,然后学习逆向过程去除噪声,以生成新的数据。DiT是D

17、DPM在图像生成中的应用。Latent Diffusion Models(LDMs):使用变分自编码器将图像压缩到低维表示,然后在低维空间中训练DDPM。这样可以降低计算成本,并使DiT成为基于Transformer的DDPM的适用框架。Part4:DiT生成的低维空间表示,可通过解码器恢复成像素级的视频数据。Sora模型的实施路径可拆分为四个部分图:业内推测的模型实施路径解析Pixel Video SpaceEncoderDiffusion Transformer BlockClean LatentLatent Spacetime PatchesPatchifyDenoised latent

18、ZTZT-1Z RHWTdZ RHWTdZT RHWTdNoised LatentDecoderLower-Dimensional Latent SpaceConditioningHumaninstructionsCLIPGPT-4AugmentedpromptImages or video framesPart2Part4Part3Part11.7 Sora的局限性Sora仍存在三大方面局限性,会短期制约其商业化、规模化应用技术局限性伦理合规性普适制约性物理现实主义的挑战Sora对复杂场景中物理原理的处理不一致,导致无法准确复制因果关系,偶尔会偏离物理合理性。例如物体的不自然变换或对刚性结构

19、的不正确模拟,导致不切实际的物理交互。此外,描绘复杂的动作或捕捉微妙的面部表情是模型可以增强的领域。以上,导致Sora现阶段更擅长幽默的结果而非严肃的内容。时空连续性的挑战Sora生成的视频中可能会出现物体无缘无故消失或出现,Sora有时会误解给定提示中与物体的放置或排列相关的指令,从而导致方向混乱。此外,它在保持事件的时间准确性方面面临挑战,可能会导致预期时间流发生偏差,影响生成内容的可靠性和连贯性。人机交互的限制Sora生成视频的随机性很强,类似人类的“做梦”,用户可能很难精确指定或调整视频中特定元素的呈现,这限制了Sora在视频编辑和增强方面的潜力,也让Sora在长视频应用中面临挑战。数

20、据合规性可能涉及到他人的隐私信息,例如在视频中出现的人物、场景或个人数据等。未经授权或未经允许的情况下,生成和传播涉及他人隐私的虚假视频可能导致隐私泄露问题。版权风险生成的视频内容可能涉及到他人的知识产权/版权,如果未经授权使用他人的作品或内容进行生成,就可能涉嫌侵犯他人的版权权益,引发版权纠纷或法律诉讼。AI安全问题可能导致深度伪造视频的增加,即利用技术手段在视频中替换现实中的人物或场景,使得伪造的视频无法通过肉眼识别真伪,给社会带来信任危机和安全隐患。确保Sora的输出始终安全且公正是一项主要挑战。经济账与成本问题OpenAI自从推出文本生成大模型再到推出视频生成大模型,一直没有解决商业化

21、问题,大模型的训练需要较高成本投入,如何算好经济账是影响规模化应用的前提。需要依赖高质量、大规模的视频数据Sora的训练路径需要依赖庞大规模的视频数据,并需要较高的数据标注、合成能力,后期的迭代升级会受到底层训练数据的影响与限制。算力瓶颈问题Sora视频模型的训练需要很高的算力支撑,如何平衡算力、成本、能源消耗等关系是值得关注的制动因素,也将是影响Sora大规模商业化运营的瓶颈。数据来源:甲子光年智库梳理,2024年;文案创作办公文本改写/扩写搜索引擎文本摘要归纳知识问答智能客服科研学术翻译海报设计视频拍摄与制作6062646668707274(25)(15)(5)5152535451.7 S

22、ora的局限性视频生成处于用户满意但不推荐象限,说明现有视频生成工具虽然惊艳,但尚无法支持实际工作数据来源:甲子光年智库,N=476,2023年问卷调研;X NPSY满意度光年象限星团象限星辰象限星云象限领导者先行者挑战者新势力甲子星空坐标系:用户对AIGC产品不同应用场景的满意度与NPS值1.8 Sora引发的世界模型之争Sora被OpenAI定义为“世界模拟器”,由此引发了世界模型的实施路线之争OpenAI 把 Scale 作为核心价值观之一:我们相信规模在我们的模型、系统、自身、过程以及抱负中具有魔力。当有疑问时,就扩大规模。VSOpenAI 是自回归生成式路线(Auto-regress

23、ive models),遵循“大数据、大模型、大算力”的暴力美学路线。从 ChatGPT 到 Sora,都是这一思路的代表性产物。Yann LeCun,图灵奖获得者和Meta首席科学家,最近表达了对Sora的生成式技术路线的质疑,并指出该路线可能面临失败的风险。Yann LeCun认为,仅凭文字提示生成逼真视频并不代表模型真正理解物理世界。他指出生成视频的过程与基于世界模型的因果预测完全不同。在2月19日的发文中,他再次反驳了通过生成像素来建模世界的观点,认为这种方法是浪费,就像被广泛抛弃的“通过合成来分析”的想法一样,注定会失败。Yann LeCun认为文本生成之所以可行是因为文本本身是离散

24、的,具有有限数量的符号。在这种情况下,处理预测中的不确定性相对容易。而在处理高维连续的感觉输入时,基本上不可能处理预测的不确定性,这也是为什么针对感觉输入的生成模型注定会失败的原因。Keras 之父 Franois Chollet 也持有类似观点。他认为仅仅通过让 AI 观看视频是无法完全学习到世界模型的。尽管像 Sora 这样的视频生成模型确实融入了物理模型,问题在于这些模型的准确性及其泛化能力即它们是否能够适应新的、非训练数据插值的情况。Artificial Intuition的作者Carlos E.Perez认为,Sora并没有真正学会物理规律,只是表面上看起来像学会了,就像几年前的烟雾

25、模拟一样。知名 AI 学者、Meta AI 研究科学家田渊栋也表示,关于Sora 是否有潜力学到精确物理(当然现在还没有)的本质是:为什么像“预测下一个token”或“重建”这样简单的思路会产生如此丰富的表示?正方:OpenAI 把它定义为一个“世界模拟器”(World Simulator)反方:仅根据文字提示生成逼真的视频,并不代表模型理解了物理世界!OpenAI 表示:“Sora是能够理解和模拟现实世界模型的基础,我们相信这种能力将成为实现 AGI 的重要里程碑。”英伟达高级研究科学家 Jim Fan 更是直接断言:“Sora是一个数据驱动的物理引擎,是一个可学习的模拟器,或世界模型。”目

26、 录Part 01AIGC视频生成的技术路线与产品演进趋势Part 03“提示交互式”视频制作范式重塑视频产业链Part 04文娱领域有望开启第二轮投资浪潮Part 02AIGC视频生成推动世界走向“AI创生时代”2.1 走向AI创生时代,改变世界刚刚开始AIGC视频生成开启AI创生时代,重塑视频产业链仅仅是第一步甲子光年智库将AIGC视频生成对世界的影响分为如下四个阶段:L1:AI生产时代/AI工业时代。AIGC引发内容相关产业的生产力变革,视频产业将是首先被重塑的领域,AI驱动内容领域迎来“工业革命”,大幅提升内容生产效率,形成第二生产力。L2:AI原生时代。AIGC将进一步引发生产关系变

27、革,引发角色与分工的变迁。视频成为人类信息表达的第二语言,人类语言将告别“词不达意”阶段,重塑人、内容、机器间的生产关系与交互关系。在这一阶段,AI渗透率将无限逼近人类在数字世界的生产活动行为边界人在数字世界可以做的事情,AI都可以做。L3:AI创生时代。AI与物理世界进一步融合,逐渐渗透逼近人在物理世界的生产活动行为边界。从AI for science到生产制造,从人形机器人到世界模型,AI将逐渐突破人类为主语的创造范畴,世界模型将创造人类智慧之外的“第二智慧体系”。L4:AI文明时代。AI推动人类认知重塑,开启AI文艺复兴。AI会深度参与人类的物理世界和心灵世界,人类智慧与AI将互相影响、

28、共同进化,人类文明进入“双生时代”,形成“AI的归AI,人类的归人类”的有序分工和共生模式。AIGC视频生成提示交互式制作范式终极?技术成熟度改变世界的进程图:AIGC视频生成改变世界的进程展望L1:AI生产时代L2:AI原生时代L3:AI创生时代L4:AI文明时代数字科研世界模型人形机器人AI+生产制造智能融合文化共生重塑文明新型社交网络人机交互数字人元宇宙第二生产力第二语言第二智慧体系双生文明2.2 L1-AI生产时代:“拍扁”视频制作链条,开启“提示交互式”新范式基于AIGC视频生成工具的提示交互式视频制作范式将重塑传统视频制作流程数据来源:甲子光年智库,2024年 AIGC视频生成工具

29、可对视频生产流程进行重塑,由传统视频制作范式进化到“提示交互式”新范式。“提示交互式”新范式相比传统范式具有三方面的重塑:“拍扁”制作过程:传统视频制作流程涉及多个阶段和专业团队的合作,耗费大量时间和资源;而AIGC视频生成可将视频生成、剪辑、后期等环节集于一体,仅需要输入提示词即可生成视频,省去了很多繁琐步骤,尤其可将摄影、素材收集、后期等环节取消或缩短。提升创意和剪辑自由度:传统视频制作通常由制作团队提出创意、编写剧本,受人的能力局限;提示交互式视频生成用更可视化的方式激发创作者想象力,支持创作者调用AI模型探索每个镜头的无限可能,而且剪辑过程可以随时发生。节省制作成本和时间:传统视频制作

30、流程需要投入较多的人力、物力和时间,而提示交互式视频生成的流程成本和时间较少,可在提示交互的飞轮中迭代生成最终满足需要的内容。策划拍摄后期筹备 制定视频内容的概念和主题。编写剧本或提纲,规划视频的情节和内容。确定目标受众和传达的信息。确定拍摄地点、演员、道具等资源。制定拍摄计划和时间表。准备拍摄设备和技术团队。实际拍摄视频素材。确保拍摄质量和符合剧本要求。视频剪辑和编辑。添加音效、音乐、特效等元素。调整画面色调、字幕等。最终呈现和渲染视频。1234用户提示1 用户提供关于期望视频内容的提示词或描述性文本。生成满足用户要求的最终视频内容。内容生成反馈交互重新生成提示交互飞轮模型解析用户提示词,理

31、解用户的需求。模型生成视频内容,包括图像、场景、角色等元素。模型根据用户反馈进行调整,并重新生成视频内容。用户对生成的内容进行反馈,提出修改或调整意见。234最终生成5传统视频制作执行流程基于AIGC工具的提示交互式视频生成制作流程2.2 L1-AI生产时代:AIGC视频生成将“多点开花”,开源是下个关键节点伴随开源模型的出现,AI视频生成将迎来多元化的入局者Sora虽未公测,根据当下的视频效果,模型及对应的技术路线与其他公司已经拉开差距,但猜测其模型可能仿照ChatGPT,不提供开源模型非开源开源?AI+视频创业公司以生成式AI技术为底色,已经完成部分技术积累,正在进行技术追赶和体验创新。数

32、字人技术提供商数字人本身可以完成部分视频录制,虽然暂且无法完成端到端生成(文字直接生成视频),但可以快速满足部分场景需求。AI+影视公司对视频,尤其是专业视频(影视、广告、动画或游戏)具备深刻理解,AI技术可以充分提供视频创作、分发的工具。互联网科技企业具备充分的技术积累,产品丰富,平台用户量高,可迅速在内容产业中实现价值。徐图智能相关赛道企业若想具备先发优势,要么技术更强,建立技术壁垒,要么产品对用户需求的理解更深,建立用户粘性和数据飞轮文生视频领域迫切需要如LLama2的模型,让更多应用层公司节省从0-1的成本C端用户全民视频创作的浪潮正蓄势而来,未来人人都会成为导演,每个人都会拥有个人平

33、台。角色变迁:视频用户变为AI原生居民,实现生产者、消费者、拥有者“三位一体”2.3 L2-AI原生时代:视频用户身份实现“三位一体”越来越多视频用户将成为AI原生居民:他们同时是内容生产者、消费者和拥有者。个体在视频内容生产、消费和拥有方面拥有更大的主动权和自主性。这将改变人与内容、人与人的生产关系与交互关系。信息时代数字时代AI原生时代阶段 内容消费者 PGC内容生产形式角色转换 初次内容生产者 UGC AI原生居民【生产、消费、拥有一体】AIGC专业人工专业设备专业内容平台用户模糊推送主动检索用户设备内容AIGC视频生产制播一体核心环节演进消费者生产者拥有者提问交互生产数量少、质量有限、

34、无法自动化生产数量多、质量有限、无法自动化平台用户精准推送主动检索阶段古代媒体时代网络时代数字时代AI原生时代投放渠道牌匾媒体刊物互联网视频平台元宇宙、虚拟世界交互变迁离线离线在线,单向在线,双向实时、沉浸角色变迁高门槛的内容生产、消费者高门槛的内容生产、消费者内容消费者内容生产者生产、消费、拥有三位一体内容形态文字文字+图片文字+图片+广告视频视频可交互、可编辑、可定制的视频视频成为人类的第二语言,人类语言告别“词不达意”阶段2.3 L2-AI原生时代:视频成为“第二语言”伴随视频生产成本的无限降低,以及视频可交互、可编辑、可定制的灵活能力,人人可驾驭视频表达的时代到来。视频将成为人类的第二

35、语言,大量用户会进行行为迁移原本用文字表达的场景,将用视频直接表达。视频具有连续性,视频表达将不受限于“词汇量”,比文字表达拥有更丰富、更沉浸的特征,可以表达更准确的场景、承载更丰富的情感、抵达更深刻的共情。文本与视频的无缝切换,让人类语言告别“词不达意”、“意在言外”的阶段。图:人类传递信息的内容载体形态演变历程视频语言:视频语言指利用视频和图像等视觉元素进行交流表达的语言形式。视频语言的特点:1.视觉化表达:与文字语言相比,视频语言主要通过视觉影像来表达信息,通过图像、颜色、动作等元素传达更加直观、生动、丰富的信息。2.多媒体结合:视频语言通常结合了图像、声音、文字等多种媒体形式,丰富了表

36、达手段和效果。3.情感共鸣:视觉和声音的传达方式更容易引起情感共鸣。4.多样化形式:视频语言可以呈现为电影、电视、短视频、动画等多种形式,适应不同场景和需求。视频成为第二语言数字人与视频生成大模型的结合,推动数字人发展进入L5级2.3 L2-AI原生时代:AI渗透率无限逼近人类在数字世界生产活动行为边界 场景:平面展示等L1:Tool主要依赖人工制作形象和动画效果L2依赖外部动捕设备采集肢体、表情和口型信息L2:Chatbot 场景:视频录播等L3依赖算法驱动肢体、姿态、口型、表情等L3:Copilot 场景:虚拟化身进行实时互动直播等L4语音交互智能化,但在特定场合需要人工接管L4:Agen

37、t 场景:垂直领域逐步代替真人服务等L5完全实现智能交互的数字人L5:Species 场景:个性化AI助手、视频自动生成、虚拟人物自动生成等智能化水平拟人化程度图:AIGC视频生成技术与数字人的结合推动硅基生命的探索终极:硅基生命数字人可自主理解世界、形成关系互动 场景:数字人可以自行基于文本、视频等语言理解物理世界,自行实现数字人与数字人的交互沟通文本生成大模型视频生成大模型多模态大模型?数字人与AIGC的结合一直是重要发展方向。在Sora出现之前,主要是数字人与文本生成模型(如GPT系列)的结合,生成虚拟角色的对话和互动内容,主要应用于虚拟助手、客服机器人、虚拟主持人等基于文本的交互和对话

38、场景。AIGC视频生成技术的发展将会推动数字人进入全新阶段。数字人与视频生成大模型(如Sora)的结合,提升了数字人的逼真度和互动性,其应用场景会进一步拓宽,涵盖虚拟演员、虚拟教育导师等需要视觉交流和场景互动的领域。未来,数字人还会探索与多模态大模型的融合发展,继续提升仿真度和互动性、拓展应用场景、探索人机交互的新可能,丰富人们感知和改变世界的方式。“硅基生命”将加速到来,无限逼近人类在数字世界的生产活动行为边界。2.3 L2-AI原生时代:元宇宙相关产业将加速到来由于视频和C端有天然的联系,AIGC视频生成技术的快速发展将推动应用层和交互层的快速发展。通过简单的操作用户即可快速生成高质量的视

39、频内容,将大大提升用户体验和参与度,推动元宇宙生态的蓬勃发展。因此,在传统AI技术栈上,应用层和交互层将诞生丰富的创新机会,在B端和C端都迎来无穷的想象空间。交互层通用场景应用层新一代交互技术虚拟人人形机器人营销虚拟活动出行泛娱乐社交教培虚拟办公购物政务党建工业制造C端B端/G端XR头显/眼镜触控设备手势识别及控制设备脑机接口智能体影音机声控设备嗅觉面罩硬件交互设备人机交互NFTVR互动平台数字支付平台DAO游戏内容创作者平台社交AI芯片公司AIDC智算中心文本数据类公司视频数据类公司图片数据类公司算法层算力层平台层数据平台视频生成中间层视频生成基础层共识机制密码学技术智能合约链式存储区块链图

40、:AIGC视频生成将加速元宇宙世界的内容构建未来发展重心在应用内容构建应用层与交互层在B端C端都将带来无穷想象空间2.4 L3-AI创生时代:重塑人与机器的交互视频成为机器理解物理世界的主要媒介,推动AI与物理世界进一步融合文本传递信息为主的人机交互交互语言:文字为主,传统人机交互主要依赖于键盘、鼠标、触摸屏等输入设备以及文字、图像、声音等输出方式进行交流。多模态物理世界文本图片视频信息数字世界+物理世界A AB BB BB BB BC CD1D1人/机器A AB BC CD D文本信息数字世界物理世界人机器视频等多模态传递信息为主的人机交互交互语言:声音、动作、表情、场景都可以作为机器理解人

41、的指令的输入形式,再配以摄像头等传感器的机器将会主动理解世界。信息表达:信息含量低。传统人机交互以文字、图像、声音等为主要表达方式,信息相对单一。信息表达:信息含量大且多样化。视频语言时代的人机交互更加丰富多样,信息以视频为载体,可以包含文字、图像、声音、动作等多种元素,表达更加生动和直观。感知能力:传统人机交互主要依赖于计算机对文字、图像、声音等信息的理解和处理能力。感知能力:视频语言时代的人机交互需要计算机具备更强的视频感知和理解能力,能够识别、理解和分析视频中的内容和情境。交互体验:单向交互模型。传统人机交互通常是静态的,用户通过键盘、鼠标等输入设备与计算机进行交互,交互过程相对单一。交

42、互体验:实时、沉浸式交互。视频语言时代的人机交互更加动态和生动,用户可以通过拍摄、录制视频、实时互动来与计算机进行交互,交互过程更加自然和直观。人机交互进入视频语言时代。与传统人机交互相比,视频语言在信息表达形式、感知方式、交互体验和个性化定制等方面都有较大差异点,为用户提供了更加丰富、直观和个性化的交互体验。视频等多模态内容的信息含量更大、更多元,让机器更容易理解物理世界,让机器人真正成为数字世界与物理世界的桥梁。AIGC视频生成与具身智能、工业视觉、工业元宇宙等方向的结合,将会推动AI突破数字世界,与物理世界进一步融合。D2D2具身智能工业视觉工业元宇宙人形机器人数字孪生工业仿真AIGC生

43、成技术与数字孪生、仿真等融合,可驱动科技研发进入全新范式2.4 L3-AI创生时代:数字科研推动新一轮“科学革命”AIGC生成技术与数字孪生、仿真等技术的融合可以探索出一条基于虚拟世界仿真的科技研发模型。这种模型可以通过在虚拟世界中建立逼真的数字孪生模型和仿真环境进行科技研究和实验,大大提高科研的效率,解放科研工作者的人力,降低综合科研成本。甲子光年智库将这种基于虚拟世界仿真的科技研发模型称之为数字科研模型,将通过数字科研模型进行研发的模式称为“数字科研”。当前,AI已经在药物研发、合成生物等基础科学研究中得到广泛应用。AI的进一步发展,将推动数字科研加快实现。未来数字科研模型有望成为科学研究

44、的通用基础设施,在各个学科普及,这将催生新一轮科学范式革命。在虚拟世界中建立逼真的数字孪生模型和仿真环境,包括各种物体、场景、情境等,以模拟真实世界的各种情况。通过AIGC生成技术,可以生成逼真的虚拟世界内容,包括各种场景、人物、物体、声光等,以丰富和完善虚拟世界的仿真环境。在虚拟世界中进行科技研究和实验,利用数字孪生模型和仿真环境,模拟各种情况和场景,探索新的科技解决方案和创新思路。在虚拟世界中得到的研究成果和解决方案可以在现实物理世界进行验证和实践,通过实验和测试验证其可行性和有效性。基于虚拟世界仿真的科技研发模型,可以为科研人员提供更加灵活、高效、低成本的研究平台,加速科技创新和成果转化

45、,推动科研方式转型和升级。第一步第二步第三步第四步第五步建立数字孪生模型和仿真环境AIGC生成虚拟世界内容进行科技研究和实验物理世界验证和实践构建新型科研范式图1:AIGC在基础科学研究中应用于众多领域图2:数字科研的实施步骤化学规划化学合成途径与视觉呈现生命科学生物医学序列的语言建模超分辨率 3D 活细胞成像地球科学天气预报真实模拟假设空间中的导航医学视频化手术导航医疗资源调配视觉化呈现材料科学新材料发现与设计优化物理粒子碰撞中的稀有事件选择核聚变反应堆的磁控制与呈现2.4 L3-AI创生时代:世界模型创造人类智慧之外的“第二智慧体系”世界模型的核心路径分歧来自于:世界是不是真的需要一个解析

46、解?人类依靠大脑来理解世界。美国艺术与科学学院院士、加拿大皇家学会院士莉莎费德曼巴瑞特在认识大脑一书中提出了人类大脑通过对外界刺激进行预测来解释和理解世界的过程。甲子光年将这个过程概括为四个阶段:预测阶段、感知阶段、匹配/思考阶段、形成认知阶段,可简称为“预测式模型”。是否遵循大脑理解世界的模式构成了世界模型的不同思路,将催生不同技术路线。伴随AI创生时代到来,我们将迎来人类大脑智慧之外的“第二智慧体系”。甲子光年将世界模型大体划分为两类:第一智慧体系:预测式世界模型,代表是人类大脑,Meta的V-JEPA也属于预测式模型。第二智慧体系:生成式世界模型,代表是ChatGPT、Sora等深度学习

47、的数据驱动流派。深度学习的数据驱动流派的核心思路是:通过大量数据模拟世界所得到的结果可能会比一个解析解更能反映世界的真实物理,更能体现智能。人类智慧只是智慧的一种范式,ChatGPT、Sora等范式已能够通过大量模拟世界学习到世界规律。因此,用一个物理公式概括现实世界的思路并不一定正确,深度学习的数据驱动流派开启的“第二智慧体系”也可能成为理解世界最终奥妙的一把钥匙,而非追求解析解。感知前的预测阶段,大脑基于内部模型、先前经验和期望,预测可能发生的情况。预测感知匹配/思考形成认知在预测与感知的匹配阶段,大脑将外界刺激与先前的预测进行匹配,并调节、更新预测,以使其与感知一致。在意义建构和理解阶段

48、,大脑解释、理解感知到的信息,并将其纳入更广泛的认知框架中。对外界刺激的感知,接受外部刺激,形成感知信号,并进行感知输入。图1:大脑理解世界的四个环节预测感知匹配/思考形成认知输入预测输出预测感知匹配/思考形成认知输入生成输出Meta的V-JEPA第一智慧体系:预测式模型对世界的理解逻辑OpenAI的Sora第二智慧体系:生成式模型对世界的理解逻辑路径1:在感知前先预测,然后接收外部刺激信号进行思考匹配并形成认知,基于预测输出对世界理解的内容。认知后是输出阶段。预测式模型:将路径1对世界的理解逻辑称为预测式模型。世界模型代表:Meta的V-JEPA。路径2:第一步是直接接收外部刺激信号进行思考

49、匹配后形成认知,基于认知预测生成对世界理解的内容。预测后是生产输出阶段。生成式模型:将路径2对世界的理解逻辑称为生成式模型。世界模型代表:OpenAI的Sora。预输入两种世界模型:预测式模型和生成式模型2.5 L4-AI文明时代:AI驱动文艺复兴交互行为、角色、载体形态的变化推动人类认知重塑,并形成新文化圈层AI文化认知重塑信息传递载体变化角色变迁行为变迁视频作为一种生动、直观的传播媒介,能够更好地激发人们的情感,与文字、图片相比,视频更能引发观众的深度共鸣和参与。信息载体的变化会重塑人类的认知与观念,并将具有相同认知观念的人群逐步集合到一起,形成新的文化圈层,推动文化的变迁,并进一步推动A

50、I版本的文艺复兴。行为变迁:AIGC视频生成技术若能在视频领域规模化应用,将首先打破视频生产的固化流程,让视频实现一键生成,实现视频生产的流程归一,行为归一。信息传递载体形态变化:视频形态从传统的不可编辑的单向输出版式转变为更加交互、可编辑和可定制的形式,使得视频成为了更加灵活多样的信息传递载体。角色变迁:由内容消费者变为AI原生居民,是内容沉浸生产者、拥有者和消费者,集内容生产、内容消费、内容拥有于一体。认知重塑:随着信息载体的变迁,人们的认知和观念也会发生重塑。通过视频内容的传播和互动交流,人们可能会形成共享的认知观念,理念和价值观的统一性会得到加强。AI文化:基于AI的新文化圈层的形成,

51、具有相似认知观念的人群可能会因为共享相似的视频内容和信息,逐步形成新的文化圈层,形成共享的文化认同和价值体系,带来AI文艺复兴。新形态的视频图:AI驱动文艺复兴符号世界物理世界心灵世界无限的创意和想象世界模型波普尔世界三元组眼耳鼻舌身意文明的演进:人类文明进入与AI共建共生的“双生时代”,AI的归AI,人类的归人类2.5 L4-AI文明时代:重塑人类文明波普尔的世界三元组是哲学家卡尔波普尔提出的概念,用于描述对世界的基本认知,包括三个要素:物理世界、心灵世界和符号世界。AI从符号世界出发,参与物理世界的方式是逐渐建立通用的世界模型,参与心灵世界的方式是生成无限的创意和想象。最终,AI会深度参与

52、人类的物理世界和心灵世界,人类智慧与AI将互相影响、共同进化,人类文明进入“双生时代”,形成“AI的归AI,人类的归人类”的有序的分工。AI符号世界物理世界心灵世界无限的创意和想象世界模型波普尔世界三元组眼耳鼻舌身意备注说明:波普尔的世界三元组第一元:物理世界(World 1):指的是客观存在的实体世界,包括物质和能量等自然现象。物理世界是独立于我们的意识和思想存在的,是客观存在的。第二元:心灵世界(World 2):指的是个体的主观意识和心理活动所构成的世界,包括思想、感觉、情绪、意识等心理现象。心灵世界是个体内部的心理体验领域,是主观存在的。第三元:符号世界(World 3):指的是人类通

53、过语言、符号和文化制度等共同建构的文化世界,包括科学理论、艺术作品、社会制度、文化传统等。符号世界是人类共同的文化积累和认知产物,是客观存在的,但是不同于物理世界,是通过人类的创造和交流而存在的。路径路径图2:人与AI共建共生的“双生时代”AI文明人类文明图1:AI主导的世界及其两条影响路径目 录Part 01AIGC视频生成的技术路线与产品演进趋势Part 04文娱领域有望开启第二轮投资浪潮Part 02AIGC视频生成推动世界走向“AI创生时代”Part 03“提示交互式”视频制作范式重塑视频产业链短视频类长视频类3.1 视频内容的两大类型:短视频和长视频IP内容衍生,是视频内容价值链的主

54、要逻辑链条,长视频与短视频是两大核心类型数据来源:甲子光年智库,2024年;文学游戏动漫音乐电影电视剧动画体育衍生品演出渠道IP类内容类衍生类上游中游下游上游产业更加注重版权的再开发,特别是可改编成内容的版权中游产业偏向内容展示为主,影像类居多,可以按视频内容的长度划分为短视频和长视频两大类型下游产业偏向以内容为基础的再开发广告新闻资讯微短剧生活记录竖屏剧综艺节目3.2 传统视频产业链:完整产业链视频产业链包含七个关键环节,制作环节是最核心环节,也是AI视频生成工具现阶段主要服务环节数据来源:甲子光年智库,2024年;IP投资制作宣发播映映后开发产品链核心角色主要职责内容播放内容生产制作投资评

55、估剧本开发与策划IPIP评估与交易内容宣传发行制作公司文学平台制作公司编剧工作室制作公司投资公司制作公司经纪公司后期公司视频平台营销公司视频平台数字平台传统电视台视频制作工具策划/剧本衍生品开发出版社游戏公司策划工作室商务公司发行公司票务平台院线衍生品设计衍生品开发海外视频平台图:传统视频产业链及关键核心角色3.3 传统视频产业链:长视频与短视频的核心产业链环节长视频需覆盖完整视频产业链,短视频则更注重分发和变现数据来源:甲子光年智库,2024年;IP投资制作宣发播映映后开发长视频策划/剧本图:长视频与短视频的核心产业链环节制作分发短视频变现 长视频与短视频在产业链中的各自侧重点有显著性差异。

56、长视频需要完整覆盖视频产业链,并非常注重制作环节的投入。短视频则对上游IP、策划、投资等环节依赖度极低,通常关注中下游的制作、分发与变现环节。3.4 不同形态视频细分领域的应用进程短视频正在进入AI原生时代,长视频正在进入AI生产时代长视频工业短视频社交终极?技术成熟度AI改变世界的进程图:AIGC视频生成对不同视频形态的应用进程情况L1:AI生产时代L2:AI原生时代L3:AI创生时代L4:AI文明时代AIGC视频生成技术在不同形态的视频内容领域的应用进程各不相同。概括而言,长视频领域AIGC视频生成技术仍然处于L1阶段,由于现阶段AIGC视频生成技术的局限性,导致一些具有高度专业性的领域仅

57、仅将其作为生产工具,例如为电影、剧集等提供素材来源,尚无法带来颠覆性重塑,但会压缩原有产业链。而对于新闻这类需要高度准确性的内容,则暂时只能满足情景复现等少量场景。短视频领域则会首先面临AIGC视频生成技术的颠覆,甲子光年智库判断短视频领域将会进入L2即AI原生时代,短视频产业链将不复存在,而会诞生AI原生的短视频模式和平台。长视频处在L1阶段短视频已迈入L2阶段3.5 短视频重塑后的产业链短视频进入AI原生时代,产业链被压缩,催生AI原生模式的新型平台角色分工导演编剧艺人摄影剪辑特效美术武指制片工作流概念脚本选景道具分镜拍摄剪辑音效渲染All in One,链条缩短,环节融合无序、沉浸、实时

58、、互动、聚联式平台AI原生平台AI克隆音色图文成片数字人口播视频生成素材生成个人平台数字时代短视频的工作流数字时代短视频的角色分工AI原生时代的短视频平台 PC互联网时代催生出了长视频平台,移动互联网催生出了短视频平台,虽然短视频平台已经在大幅度应用AI技术进行赋能,但仍然存在显著的短视频生产工作流和短视频制作的角色分工体系。AIGC视频生成技术将会打破短视频的原有产业链,大幅度压缩简化生产制作流程和角色分工,实现一键生成的all in one原生模式。AI原生视频流程的归一,将会带来AI原生时代的短视频平台新范式,新的视频平台范式将具有无序、沉浸,实时、互动、聚联的AI原生特征。无序是指打破

59、传统固化的视频生产流程。沉浸是指实现全面体验的沉浸式视频生产。实时是低延时的视频快速生成。互动是指一边交互对话一边进行视频调整的个性化、定制化的互动视频。聚联是指去中心化的生产方式。3.5 短视频重塑后的产业链新型制播一体的AI原生内容平台,有望颠覆短视频平台格局,每个用户既是导演又是平台数据来源:甲子光年智库,2024年;去中心化平台B端用户自媒体机构MCN快消品C端用户创意故事IP版权AI创意工具AI原生视频工具分发变现平台 在AIGC视频生成对视频产业链的技术变革下,有望孵化出新一代的集短视频制作、分发、变现为一体的全新形态的视频平台。新型的制播一体的AI原生内容平台应该是融合AI创意工

60、具+AI原生视频工具+变现平台三大环节的AI原生短视频平台。在实现AI原生范式的转换后,过去短视频平台和内容创作者将会出现一些变革:短视频平台:将会向AI创意工具+AI原生视频工具+变现平台的融合式的平台转变,提供AI原生视频工具和流量分发平台。用户平台:用户将不仅仅是作为生产者和消费者,真正做到人人都是导演型的创作者,并且人人都是一个小型的平台。个人用户可以建立个人平台,企业用户可以建立企业平台,直播机构可以建立直播平台。内容创作者的价值将更注重创意能力、解决实际问题的能力、个人IP影响力等。负责创意的生产提供,既可以是B端用户也可以是C端用户自行产生。负责视频的生成制作,以提问交互的方式进

61、行视频生成,平台负责为用户提供全套的视频生成工具。负责生成视频的流量分发与内容变现,将会催生三大类型的变现平台:最中心的流量分发平台、外围的直播平台、用户平台。图:新型制播一体的AI原生内容平台的业务模式流量分发平台直播平台用户平台个人平台1直播平台2个人平台2个人平台3个人平台N企业平台N企业平台3企业平台2企业平台1直播平台1直播平台3直播平台NAIGC视频生成大模型AI克隆音色工具图文生成工具剪辑工具渲染工具数字人工具素材生成工具用户以导演的角色进行交互式生成3.6 长视频重塑后的产业链制作环节难度下降,将会助推产业链上游的创意环节和下游宣发播映环节重要程度上升,好故事、好脚本、好平台将

62、成为视频产业的核心竞争力数据来源:甲子光年智库,2024年;IP投资制作宣发播映映后开发产品链策划/剧本新核心环节图:AIGC视频生成简化传统视频产业链视频制作环节难度下降,成本降低,将会推动产业链上游和下游发展更注重向上游拓展优质IP和创意能力注重向下游寻找发行资源和播映渠道创意生成环节视频生成环节宣发播映环节 AIGC视频生成工具会降低视频制作的准入门槛、抛弃对专业设备的依赖、降低生产成本、提升制作效率。随着制作环节难度下降,好故事、好脚本等产业链上游的创意环节将成为视频产业的核心竞争力。AI视频产量的大幅增加需要更符合AI视频特征的播映平台,产业链也将更为注重下游宣发播映平台渠道的建设更

63、新。原有产业链的投资环节主要针对内容制造环节,未来文娱和技术投资将走向融合。3.6 长视频重塑后的产业链重塑后的视频产业链将整合简化为三大环节:创意生成视频生成宣发播映数据来源:甲子光年智库,2024年;IP制作宣发播映映后开发策划/剧本视频生成应用层视频生成中间层视频生成基础层文本+剧本文本+小说图片+设计图片+海报视频+剪辑音频+配乐创意生成环节视频生成环节宣发播映环节细节说明文本生成模型图片生成模型音频生成长视频生成模型音频生成短视频生成模型图片生成模型视频+特效视频+3D视频+动作视频+渲染图片+美术图片+设计视频+剪辑音频+配乐视频+元宇宙视频+人机交互文本+创意文本+策划 创意生成

64、:主要包括原IP、策划/剧本和映后开发环节。主要以讲好故事、做好创意策划为目的。需要整合文本生成和图像生成模型。视频生成:主要包括制作环节。主要负责将故事由文本变为视频内容。需要具备长视频生成和音频生成模型。宣发播映:主要包括宣发与播映环节。主要负责将生成视频内容进行宣传和播放。需要具备短视频生成、音频生成和图片生成模型。重塑后的视频产业链将基于三大环节产生三大产业体系:基于创意生成模型的产业体系、基于视频生成模型的产业体系、基于宣发播映模型的产业体系。3.6 长视频重塑后的产业链重塑后的视频产业链将会变为基于三大模型体系的全新产业链,并带来全新的生产方式数据来源:甲子光年智库,2024年;图

65、:AIGC视频生成整合重塑后的全新视频产业链算法层视频生成应用层创意生成模型产业体系视频生成模型产业体系宣发播映模型产业体系算力层AI芯片公司平台层AIDC智算中心视频生成中间层视频生成基础层制作公司文学平台编剧工作室出版社游戏公司策划工作室衍生品设计衍生品开发制作公司经纪公司后期公司视频制作工具长视频平台营销公司短视频平台数字平台传统电视台发行公司票务平台院线动画公司教育培训广告公司传媒公司文本生成+图片生成的大模型厂商长视频生成+音频生成的大模型厂商短视频+音频+图片生成的多模态大模型厂商文本生成工具厂商图片生成工具厂商音频生成工具厂商长视频生成工具厂商音频生成工具厂商短视频生成工具厂商图

66、片生成工具厂商文本数据类公司视频数据类公司图片数据类公司数据平台3.6 长视频重塑后的产业链机会:创意生成体系IP版权生产交易开发一体化的平台有望成为新的发展机遇数据来源:甲子光年智库,2024年;IP版权交易模式生产出版发行用户消费获取授权再开发内容推广版权方:作者版权拥有方平台方:出版社阅读平台用户:普通用户专业用户版权采购方:内容公司版权代理方平台方内容开发方:影视公司游戏公司动漫公司内容主控方:影视公司游戏公司动漫公司授权授权授权阅读IP版权生产模式观看内容生成内容上传版权确认定价和许可设置数字签约支付使用监控传统的版权生产与交易模式IP版权生产交易开发一体化的平台 传统IP版权的生产

67、非常依赖作家的能力,而在版权交易环节通常是由版权持有者直接与使用方(如出版商、电影制作公司等)之间进行的,可交易范围较窄。使用AIGC技术后,版权生成环节可以直接使用大模型来生成内容,并且可以是文本文章、图片、音频剪辑、视频片段等各种形式的内容。版权交易不再是人与人之间的交易,而是创作者与技术平台之间的交易。因此,IP版权生产和交易开发一体化的新型平台有望迎来机遇。创作者VS技术平台3.6 长视频重塑后的产业链机会:创意生成体系白金作家群体不再成为稀有资源,未来人人都是小说家,中小型文学平台将可能迎来春天数据来源:甲子光年智库,2024年;行业的代表性人物,数量极少行业的中坚力量,数量不多行业

68、的基础力量,数量众多行业的主要群体,数量庞大白金作家大神作家普通作家公众作家90.6%0.004%0.001%9.4%在传统视频产业链中,上游的IP环节中更注重处于金字塔顶端的白金作家群体的维护管理与产品设计,大型文学平台通过垄断平台和作家资源构建核心竞争力。AIGC视频生成重塑后的产业链体系中,创意生成体系将会更为注重底层占比90.6%的公众作家,其将成为很多视频生成平台的创意来源和IP输出者。整合AIGC技术、打通AIGC小说生成流程的中小型文学平台有望迎来发展的春天。现阶段的作家群体分布呈现金字塔状态人人都是小说家 使用AIGC模型撰写小说可以帮助小说作家快速生成大量文本,并为创作提供灵

69、感和创意的启发,可以显著降低撰写小说的门槛,未来小说家将不再是特点人群,而是人人都是小说家。伴随内容供给的增加,传统寡头垄断型的文学平台有望被打破,中小型文学平台的发展将迎来春天。准备工作 选择一个用于生成文本的AIGC模型,可以是一个预训练好的通用语言模型,也可以是经过特定领域或风格微调的模型。设定故事框架 确定故事基本框架,包括主要人物、情节发展、背景设定等方面的内容。这些信息将作为生成文本的基础,引导模型生成与故事相关的内容。生成文本 基于设定好的故事框架使用AIGC模型生成文本。通过向模型提供一些关键词、句子或段落作为输入,然后模型会基于这些输入生成相应的文本。筛选和编辑 生成的文本可

70、能包含不符合故事情节或风格的部分,因此需要进行筛选和编辑,删除不需要的内容、调整语言表达、补充细节等操作,以确保生成的文本符合故事的整体需求。人工创作与整合 在使用AIGC模型生成文本的同时,还可以发挥作家的创意和思维进行人工创作和整合,以提升故事的质量和独特性。图1:作家群体分布图图2:AIGC生产小说的创作流程3.6 长视频重塑后的产业链机会:宣发播映体系传统制播分离模式将被抛弃,沉浸式互动点播云影院将成新机遇数据来源:甲子光年智库梳理,2024年;1234567发行时间(年)影院发行3-6月网络视频服务EST在线发行/电子下载电视付费视频点播付费电视不付费电视/付费有线电视频道包月视频点

71、播服务永久永久6-8月12月/10次24月/3次12月/10次24月/3次12月12月/3-6次家庭娱乐产品发行永久传统视频宣发模式导致下游宣发播映环节过于依赖影院等传统平台或长视频平台。随着AIGC视频生成对视频产业链的重塑,过去基于固定宣发流程的发行模式有望向互动点播模式转型,以AI平台为核心,让用户深度参与电影前期的剧本创作和内容生产,并在沉浸式互动点播云影院上线,满足不同用户对故事走向的不同需求。传统的宣发模式是制播分离的沉浸式互动点播云影院有望成为第三大发行体系图1:传统专业长视频发行模式:以美国电影发行为例中国发行公司业务多仅限于前两项点映模式在中国市场尚是小众市场在长视频领域,中

72、国传统主流视频宣发模式仅仅聚焦影院发行和网络视频平台发行两种,点播影院模式一直是小众市场。内容生产发行放映映后开发影院云影院传统厂牌制片网络平台深度参与制片线下渠道销售线上渠道带货互动点播云影院AI平台+用户深度参与制片个性化设计生产AI互动平台视频平台院线为主图2:“院网”并行的发行模式与新型点播云影院发行体系目 录Part 01AIGC视频生成的技术路线与产品演进趋势Part 04文娱领域有望开启第二轮投资浪潮Part 02AIGC视频生成推动世界走向“AI创生时代”Part 03“提示交互式”视频制作范式重塑视频产业链19.815.828.842.8电影电视节目书籍音乐其他4.1 当经济

73、体处于下行周期时,文娱产业迎来发展视频是文娱产业的核心内容形态,将会受到大经济周期的影响,迎来新的发展机遇批发业零售业交通物流影视传媒金融房地产专业科技企业咨询教育医疗健康文化娱乐住宿餐饮其他服务-10%-5%0%5%10%15%20%25%30%-50%0%50%100%150%200%250%300%350%热点高扩张高增长压缩66%-0.7%收入规模提高比例年复合增长率提高幅度图2:文娱企业各细分行业投资规模走势图(十亿美元)020304050607080951617金融危机前金融危机后美国在经济调整期时增长最快的行业是文娱业美国经济体文娱业在调整期后反而成为投资高

74、增长领域备注:2008年金融危机前和危机后美国各服务行业的企业盈利能力情况对比分析图1:美国经济调整期时的热点行业游戏影视视频动漫新媒体音乐网络文学传媒体育图像处理艺人经纪时尚服饰美食影音在线电台-505101520554.2 中国文娱领域第一轮投资浪潮:2011-2017年第一轮投资浪潮中,文娱产业投资聚焦内容生态本身,而忽视了底层技术领域数据来源:公开资料,甲子光年智库梳理,2024年平均投资规模投资企业数量图:2011-2017年主流企业泛娱乐投资领域趋势分布拓展领域重点领域试水领域 中国文娱市场在2011-2017年是投资高峰期,在第一轮投资浪潮中,影

75、视、视频、游戏是重点投资方向,其次是体育、音乐、动漫、新媒体等领域。在第一轮投资浪潮中,投资机构更多聚焦内容生产类,而忽视了为内容生产机构提供底层技术工具的厂商。20001620174.2 文娱领域第一轮投资浪潮:2011-2017年BAT在第一轮投资浪潮的主投资方向是内容制作和播映平台,对创意生成、技术领域缺乏关注视频影视游戏网络文学艺人经纪音乐动漫体育娱乐营销传媒新媒体时尚服饰图像处理在线电台7%2%7%36%5%17%22%3%IP策划/剧本投资内容制作发行售票放映衍生品创意生成环节是过往投资缺失环节视频制作和播映环节是过往投资重点图2:201

76、1-2017年BAT企业影视行业投资企业数量分布图图1:2011-2017年BAT泛娱乐投资历程分布图备注:BAT主流投资机构包括腾讯、阿里、百度等三家公司对泛娱乐领域投资企业分布情况;BAT都是先从泛娱乐产业链中游的内容制作环节介入,即视频和影视,而后拓展上游和下游布局。内容制作类企业是过往投资重点,但IP、剧本策划类和衍生品类等创意生成体系下的企业是第一轮浪潮中关注度不足的领域。宣发环节是过往投资缺失环节视频内容制作是BAT投资文娱的聚焦方向创意生成类和底层图像处理技术类缺乏关注气泡大小代表投资企业数量内容制作环节是主流投资领域创意生成领域更多聚焦IP环节宣发播映更多聚焦宣传新兴图像技术处

77、理领域关注度不足4.3 文娱领域有望开启第二轮投资浪潮经济周期调整与技术革命双重加持将推动以视频为核心内容形态的文娱产业迎来第二轮爆发期图:以视频内容形态为核心的文娱领域投资周期曲线图投资规模时间20112024E2030E第一波文娱投资高峰期第二波文娱投资高峰期2017内容生态播映发行AI视频工具创意生成产业宣发播映平台AI技术+内容型 文娱领域在经历第一波投资高峰期后,在2018年开始进入下行周期。在宏观经济周期与AI技术革命的双重加持下,文娱领域有望开启第二轮投资浪潮。在文娱领域的第一轮投资浪潮中,投资机构主要聚焦视频产业链的制作和播映环节,标的企业以影视公司、视频播映平台、影视项目等为

78、主。在文娱领域的第二轮投资浪潮中,投资方向将会更多聚焦底层技术及与技术相融合的内容公司,标的企业将以AI视频工具、创意生成类企业、新型宣发播映平台等为主。4.3 文娱领域有望开启第二轮投资浪潮第二轮围绕视频内容为核心的投资热点领域,将以视频内容+技术的生态型公司为主过去公司:单一内容型现在公司:内容生态型游戏影视文学衍生品游戏影视文学影视综艺影视影视过去传统视频等内容公司主营业务以某一个子行业/领域为主。现在的主流视频内容公司则以多个子行业联动形式,试图以打造内容生态体系的方式开展主营业务。未来公司:AI技术+内容型文学动漫游戏衍生品演出电影电视剧综艺上游上游下游下游中游中游音乐渠道视频体育算

79、法层视频生成应用层文学算力层AI芯片公司平台层AIDC智算中心视频生成中间层视频生成基础层数据平台游戏短视频影视衍生品广告未来视频领域的公司应该注重AI技术+内容型的构筑,不能仅聚焦视频的应用层,而是视频生成应用层+中间层,甚至结合视频生成基础层进行布局。在第一轮文娱领域的投资浪潮中,投资主流形式是以视频内容项目作为投资标的,如投资某一个电影或电视剧等,未来投资对象将会从投资内容项目为主变为投资企业股权为主,被投企业的业务范围将由内容生产为主变为AI技术与视频生成相结合。4.4 AIGC视频生成技术的投资价值和方向大厂适合全都要,初创企业适合介入应用层/中间层,央国企适合从底层基础设施开始布局

80、算法层视频生成应用层算力层AI芯片公司平台层AIDC智算中心长视频生成+音频生成的多模态大模型厂商短视频+音频+图片生成的多模态大模型厂商文本数据类公司视频数据类公司图片数据类公司数据平台视频生成中间层视频生成基础层文本生成大模型厂商图片生成大模型厂商音频生成大模型厂商长视频生成大模型厂商音频生成大模型厂商短视频生成大模型厂商图片生成大模型厂商视频+剪辑音频+配乐视频+特效视频+3D视频+动作视频+渲染图片+海报图片+设计视频+剪辑音频+配乐视频+元宇宙视频+人机交互文本+剧本文本+小说图片+设计图片+美术文本+创意文本+策划创意生成工具视频生成工具宣发生成工具创意生成应用视频生成应用宣发播映

81、应用初创企业适合入局应用层或中间层某一细分领域大厂适合进行全产业链布局图:AIGC视频生成领域适合投资入局的技术方向 重塑后的每一个视频产业体系都具有较高投资价值。其中,大厂适合进行全产业链布局,初创企业适合入局应用层或中间层某一细分领域,央国企适合入局算力层、平台层和基础层。央国企适合入局算力层、平台层和基础层下一步研究计划甲子光年智库将推出2024中国AI+视频行业发展研究报告,征集案例合作,欢迎咨询Part 1 机遇:Sora模型爆火,带来AI+视频领域的新潜力Part 2 需求:内容行业迎来属于自己的“寒武纪爆发”Part 3 实践:中国本土企业具备成为全球一流企业的潜力Part 4

82、未来:视频信息可能成为更优质的信息载体1.1 AIGC领域迎来巨变:DiT模型点燃行业希望Sora的视频效果逼真,引发对“AI+视频”的高度关注Diffusion+Transformer模型开辟了新技术思路1.2 变化中的机遇:文生视频,甚至多模态视频迎来诸多关注Sora与其他企业的技术差距分析AI+视频的产品形态一览海内外AI+视频投资情况概览个人内容创作人在行业巨变中的生态位变化1.3 行业面对的新挑战:要么All in,要么出清挑战1:大企业如何追上行业巨头挑战2:中小企业如何利用AI挑战3:AIGC与行业应用之间离得多远2.1 行业场景的深度分析:千行千面,泛内容行业可能迎来生产方式巨

83、变影视制作:超级个体的生产及专业剪辑能力的快速普惠内容社区:大量玩法出现,行业爆款在即广告营销:内容营销+个性投推动MarTech企业提供更优质的全案解决方案游戏娱乐:游戏美术流程迎来创作流程的变革,沉浸式游戏再次探索商业性爆发传媒:视频+自媒体将迎来内容的井喷教育:可视化内容实现教育质量的普惠化2.2 步步为营:多模态*多场景,产业呈现L1-L4的阶梯发展AIGC与视频产业的结合成功关键在于人机协作的理解、程度及流程化AI视频时代,依然需要人作为最后的内容审核者,人对于视频合理性及创意性的把控成为AI技术应用程度的关键容错率与创意性,成为to B及to C领域的应用的差别关键3.1 中国AI

84、+视频全景图谱算力层、数据层、模型层、应用层:三大关键产业链的全面梳理模型层的深度剖析:模型中间层所对应垂直产业、垂直领域的产业链分析全方位捕捉中国AI+视频企业3.2 中国AI+视频的优质实践者:用AI开启“人人都是up主”的时代AI+视频行业先行企业介绍实践企业的技术背景、商业模式等优势梳理各行业标杆性案例的展示海内外企业的对比及出海机会分析4.1 趋势展望:视频信息的生产成本迎来视频信息传递的便捷性视频信息是“全世界的通用语言”,真正实现全世界文化与与交流的互通互联虚拟世界(元宇宙)可迎来实质进展,人类具备大规模、低成本地生产沉浸式内容的能力4.2 挑战与风险:内容的监管面临巨大挑战,算

85、力成本可能加深数字鸿沟视频的内容发布、分发、监管的流程面临重新调整,大量垃圾内容可能充斥互联网算力在短时间内依然可能成为AI普惠的最大挑战,大多数人依然捆缚在信息茧房之内 甲子光年智库将推出AIGC视频生成系列报告,下一步要推出的报告为2024中国AI+视频行业发展研究报告,现开展典型案例征集合作,欢迎咨询报名。北京甲子光年科技服务有限公司是一家科技智库,包含智库、媒体、社群、企业服务版块,立足于中国科技创新前沿阵地,动态跟踪头部科技企业发展和传统产业技术升级案例,致力于推动人工智能、大数据、物联网、云计算、AR/VR交互技术、信息安全、金融科技、大健康等科技创新在产业之中的应用与落地扫码联系商务合作关注甲子光年公众号智库院长宋涛(微信/手机)商业合作负责人李胜驰(微信/手机)甲子光年创始人张一甲JJJessica0114(微信)

友情提示

1、下载报告失败解决办法
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。

本文(甲子光年:2024AIGC视频生成:走向AI创生时代—视频生成的技术演进、范式重塑与商业化路径探索(49页).pdf)为本站 (臭皮匠) 主动上传,三个皮匠报告文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三个皮匠报告文库(点击联系客服),我们立即给予删除!

温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。
会员购买
客服

专属顾问

商务合作

机构入驻、侵权投诉、商务合作

服务号

三个皮匠报告官方公众号

回到顶部