上海品茶

您的当前位置:上海品茶 > 报告分类 > PDF报告下载

传媒行业专题研究:AIGC引领内容生产方式变革-230209(36页).pdf

编号:114706 PDF  DOCX   36页 3.61MB 下载积分:VIP专享
下载报告请您先登录!

传媒行业专题研究:AIGC引领内容生产方式变革-230209(36页).pdf

1、 免责声明和披露以及分析师声明是报告的一部分,请务必一起阅读。1 证券研究报告 传媒传媒 AIGC 引领内容生产方式变革引领内容生产方式变革 华泰研究华泰研究 传媒传媒 增持增持 (维持维持)研究员 朱珺朱珺 SAC No.S0570520040004 SFC No.BPX711 +(86)10 6321 1166 研究员 吴晓宇吴晓宇 SAC No.S0570522100002 +(86)755 2399 3324 联系人 王星云王星云 SAC No.S0570121100014 +(86)755 8249 2388 行业行业走势图走势图 资料来源:Wind,华泰研究 重点推荐重点推荐 股票

2、名称股票名称 股票代码股票代码 目标价目标价 (当地币种当地币种)投资评级投资评级 昆仑万维 300418 CH 24.88 买入 蓝色光标 300058 CH 6.96 买入 风语筑 603466 CH 17.68 买入 阅文集团 772 HK 42.90 买入 三人行 605168 CH 129.22 买入 资料来源:华泰研究预测 2023 年 2 月 09 日中国内地 专题研究专题研究 ChatGPT 引发热潮,科技巨头加码布局,引发热潮,科技巨头加码布局,AIGC 迎来发展机遇迎来发展机遇 AIGC 即生成式 AI,是自动化内容生成的技术合集。22 年 AIGC 产品集中发布,从效率、

3、质量、多样性等方面为内容生产带来变革。文本方面,ChatGPT 引领热潮,通过引入 RLHF 机制,持续优化模型效果,能完成问答、诗歌创作、代码写作等,科技巨头亦加码布局交互式文本。图像方面,Diffusion 取代 GAN 成为图像生成的主流模型,由文字到图像的跨模态生成成为重点探索方向。此外,视频/代码/游戏/3D 亦有较广阔的空间。建议关注:昆仑万维、蓝色光标、风语筑、阅文集团、三人行,产业链相关公司还包括:视觉中国、中文在线、值得买、美图公司等。技术助力技术助力 AIGC 发展,发展,掀起全场景内容生产力革命掀起全场景内容生产力革命 AI 技术逐渐实现从分析到创造的迭代,而生成算法、预

4、训练模型、多模态技术则是驱动 AIGC 发展的关键,长期看大模型+多模态将成为趋势。从产业链上看,AIGC 主要包括基础层(预训练模型)、中间层(垂直化、场景化、个性化的模型)和应用层(面向 C 端的 AIGC 应用),由于技术与投资环境差异,中外公司整体差距在 3 年左右。AIGC 有望通过其强大的生成能力广泛服务于内容生产的各类场景和内容生产者,在内容行业的应用场景不断增加和拓展,从而引领全场景内容生产力革命。AIGC 所应用的细分场景众多,目前看文本、音频、图像领域发展较快。ChatGPT 引领热潮,大厂加码布局交互式文本引领热潮,大厂加码布局交互式文本 AI 文本生成作为 AIGC 最

5、早发展的技术,已在新闻报道、商业营销、客服机器人等领域广泛落地。22 年 11 月 30 日,OpenAI 推出的智能聊天工具ChatGPT 引入 RLHF 机制,持续优化模型效果,不仅能作答问题,还能完成短文和诗歌创作、代码写作、数学和逻辑运算,推出仅 2 月平均日活超1,300 万。科技巨头亦加码布局交互式文本,微软在 23 年 1 月追加投资OpenAI,并宣布整合 OpenAI 语言模型到 Bing 搜索引擎和 Edge 浏览器中;谷歌亦发布 Bard 与投资 ChatGPT 的竞品 Anthropic 来应对挑战;百度公布了大模型新项目文心一言。图像领域预训练模型迭代升级,图像领域预

6、训练模型迭代升级,AI 图像生成迎机遇图像生成迎机遇 AIGC 图像包括文字生成图像、图像属性编辑、图像部分编辑与图像端到端生成,其中由文字到图像的跨模态生成成为重点探索方向。22 年成为 AI绘画元年,从技术上看,Diffusion 逐渐取代 GAN 成为图像生成的主流模型,助推了 AIGC 图像的发展。2022 年 8 月,太空歌剧院出圈引发 AI图像生成的热潮;同月 Stability AI 推出 Stable Diffusion 模型,为后续图像模型的更迭打下基础;此外 OpenAI、谷歌在图像模型上亦持续迭代;百度文心一格支持中国风 AI 创作。据 6pen,未来 5 年全球 10-

7、30%的图像有望由 AI 生成或辅助生成,AI 图像领域潜力较大。音频音频&视频部分应用落地较快,代码视频部分应用落地较快,代码/游戏游戏/3D 等仍待成熟等仍待成熟 AIGC 通过提取信息生成音频,主要应用于 TTS(Text-to-speech)场景和乐曲/歌曲生成;TTS 技术已相当成熟,广泛应用于客服及硬件机器人、有声读物制作、语音播报等。AIGC 视频生成可以降低视频制作时间,主要应用于视频自动编辑、视频自动生成和文字生成视频等,有望显著降低视频内容的制作门槛、大幅提升制作效率,但在视频全自动生成方面仍有较大提升空间。此外,AIGC 在代码/游戏/3D 等生产方面不断进步,包括:代码

8、补全生成、游戏操作策略/角色逻辑/剧情生成、3D 模型/3D 角色制作/3D 场景生成等,但生产质量及应用成熟度仍待提升。风险提示:AI 技术发展不及预期,商业化存在不确定性,政策监管风险。(25)(18)(12)(5)2Feb-22Jun-22Oct-22Feb-23(%)传媒沪深300 免责声明和披露以及分析师声明是报告的一部分,请务必一起阅读。2 传媒传媒 正文目录正文目录 技术助力技术助力 AIGC 发展,长期看大模型发展,长期看大模型+多模态成趋势多模态成趋势.3 AI 由分析转向创造,22 年 AIGC 产品集中发布.3 生成算法、预训练模型、多模态技术成为 AIGC 发展的关键.

9、4 AIGC 产业链基础层/中间层/应用层,中外差距约 3 年.6 AIGC 颠覆传统生产模式,掀起全场景内容生产力革命颠覆传统生产模式,掀起全场景内容生产力革命.7 AIGC 从效率、质量、多样性为内容生产带来革命.7 文本、音频和图像生成等落地相对较快,游戏等方向仍待成熟.8 AIGC 多场景快速落地,文本多场景快速落地,文本/图像关注度较高图像关注度较高.10 文本:ChatGPT 引领热潮,大厂加码布局交互式文本.10 图像:预训练模型迭代升级,AI 图像生成迎机遇.15 音频:集中应用于 TTS 场景和乐曲/歌曲生成.21 视频:可实现视频自动编辑、视频自动生成和文字生成视频等.24

10、 其他:游戏/代码/3D 生成等领域应用前景广阔.28 相关公司.31 昆仑万维(300418 CH,“买入”评级,目标价 24.88 元).31 蓝色光标(300058 CH,“买入”评级,目标价 6.96 元).32 风语筑(603466 CH,“买入”评级,目标价 17.68 元).32 阅文集团(772 HK,买入,目标价:42.90 港币).32 三人行(605168 CH,“买入”评级,目标价 129.22 元).33 风险提示.33 kUkZpZsUmW9Y9WdYrU9YbR9R7NnPrRmOtQeRqQoMjMrQrR6MpPxOwMpOnMwMnPuM 免责声明和披露以及

11、分析师声明是报告的一部分,请务必一起阅读。3 传媒传媒 技术助力技术助力 AIGC 发展发展,长期看大模型,长期看大模型+多模态成多模态成趋势趋势 AI 由分析转向创造,由分析转向创造,22 年年 AIGC 产品集中发布产品集中发布 AI 技术逐渐实现从分析到创造的迭代。技术逐渐实现从分析到创造的迭代。AI(Artificial Intelligence)即人工智能,传统的 AI技术被称为分析式 AI(Analytical AI),偏向于分析数据并总结规律,同时将规律运用到其他用途,比如运用 AI 技术进行垃圾邮件检测、向用户推荐感兴趣的短视频等。但随着技术的迭代,AI 已经不仅仅局限于分析已

12、有事物,而是开始创造有意义、具备美感的东西,即完成感知世界到创造世界的变迁,这种新型的技术被称为生成式 AI(Generative AI)。从定义上看,从定义上看,AIGC 既是一种内容既是一种内容形态,也是一种内容生成形态,也是一种内容生成的的技术合集,即生成式技术合集,即生成式 AI。从狭义上看,AIGC(AI Generated Content)是继 PGC(Professional Generated Content)与 UGC(User Generated Content)之后的一种内容形式,即利用人工智能技术生成的内容。从广义上看,AIGC 指的是自动化内容生成的技术合集,基于生成

13、算法、训练数据、芯片算力,生成包括文本、音乐、图片、代码、视频等多样化内容。图表图表1:什么是什么是 AIGC 资料来源:红杉资本、华泰研究 AIGC 起源于起源于 20 世纪世纪 50 年代,经过多年年代,经过多年发展,在发展,在 2022 年年 AIGC 产品产品集中集中发布发布,多款产,多款产品出圈,引发社会品出圈,引发社会广泛关注广泛关注。据中国信通院,AIGC 起源于 20 世纪 50 年代,莱杰伦希勒和伦纳德艾萨克森完成历史上第一只由计算机创作的音乐作品依利亚克组曲,但受制于技术水平,截至 1990 年,AIGC 均仅限于小范围实验。1990-2010 年是 AIGC 的沉淀积累阶

14、段,AIGC 逐渐从实验向实用转变,但受限于算法瓶颈,效果仍有待提升。2010年以来,伴随着生成算法、预训练模型、多模态技术的迭代,AIGC 快速发展,2022 年多款产品出圈。2022 年 8 月,Stabilty AI 发布 Stable Diffusion 模型,为后续 AI 绘图模型的发展奠定基础,由 Midjourney 绘制的太空歌剧院在美国科罗拉多州艺术博览会上获得“数字艺术”类别的冠军,引发社会广泛关注。2022 年 11 月 OpenAI 推出基于 GPT-3.5 与 RLHF(Reinforcement Learning from Human Feedback,人 类 反

15、馈 强 化 学 习)机 制 的ChatGPT,推出仅 2 月日活超 1,300 万,据 Forbes,2023 年 1 月 OpenAI 的估值从 2021年的 140 亿美元提升到 2023 年 1 月的 290 亿美元。此外,科技巨头亦加码布局 AIGC,如微软表示将自己的消费者和企业产品中部署 OpenAI 的模型,宣布将 OpenAI 语言模型整合到 Bing 引擎和 Edge 浏览器中;谷歌在 ChatGPT 发布后亦加快 AI 自研,2023 年 2月 7 日正式发布下一代 AI 对话系统 Bard,此外谷歌还投资 ChatGPT 的竞品 Anthropic;国内方面,据百度官网,

16、2023 年 2 月 7 日,百度公布了大模型新项目文心一言(ERNIE Bot),据彭博社,百度计划在 2023 年 3 月将最初的版本将内嵌到搜索服务中。分析式AI 诈骗信息识别 垃圾邮件检测 预测外卖时间 推荐感兴趣的视频AIGC(生成式AI)文本文本音乐音乐图片图片代码代码等等视频视频生成算法预训练模型多模态技术 免责声明和披露以及分析师声明是报告的一部分,请务必一起阅读。4 传媒传媒 图表图表2:AIGC 的发展历程的发展历程 资料来源:中国信息通信院、OpenAI 官网、华泰研究 生成算法生成算法、预训练模型预训练模型、多模态技术多模态技术成为成为 AIGC 发展发展的关键的关键

17、从技术上看,从技术上看,生成算法生成算法、预训练模型预训练模型、多模态技术多模态技术是是 AIGC 发展的关键发展的关键。从流程上看,算从流程上看,算法法接收接收数据,进行运算并生成预训练模型,多模态技术则是将不同模型融合的关键。数据,进行运算并生成预训练模型,多模态技术则是将不同模型融合的关键。长期长期看看大模型大模型+多模态多模态将成为趋势将成为趋势:#1 生成算法持续优化生成算法持续优化 算法即解决问题的策略和机制,2014 年伊恩古德费洛提出的 GAN(Genrative Adversarial Network,生成对抗网络)成为最早的 AI 生成算法。随后 Diffusion、Tra

18、nsformer、基于流的生成模型(Flow-based models)、CLIP(Contrastive Language-Image Pre-Training)等深度学习算法相继被推出,其中 Diffusion 逐渐代替 GAN 成为图像生成的主流模型,Transformer 的推出为预训练模型奠定了基础,CLIP 则广泛应用在多模态技术中。图表图表3:AIGC 主流算法梳理主流算法梳理 模型模型 提出时间提出时间 模型描述模型描述 变分自动编码(Variational Autoencoders,VAE)2014 基于变分下界约束得到的 Encoder-Decoder 模型对。生成对抗网络

19、(GAN)2014 基于对抗的 Generator-Discriminator 模型对。基于流的生成模型(Flow based models)2015 学习一个非线性双射转换(bijective transformation),其将训练数据映射到另一个空间,在该空间上分布是可以因子化的,整个模型架构依靠直接最大化 log-likelihood 来完成。扩散模型(Diffusion Model)2015 扩散模型有两个过程,分别为扩散过程和逆扩散过程。在前向扩散阶段对图像逐步施加噪声,直至图像被破坏变成完全的高斯噪声,然后在逆向阶段学习从高斯噪声还原为原始图像的过程。经过训练,该模型可以应用这些

20、去噪方法,从随机输入中合成新的“干净”数据。Transformer 模型 2017 一种基于自注意力机制的神经网络模型,最初用来完成不同语言之间的文本翻译任务,主体包含 Encoder 和Decoder 部分,分别负责对源语言文本进行编码和将编码信息转换为目标语言文本。神经辐射场(Neural Radiance Field,NeRF)2020 它提出了一种从一组输入图像中优化连续 5D 神经辐射场的表示(任何连续位置的体积密度和视角相关颜色)的方法,要解决的问题就是给定一些拍摄的图,如何生成新的视角下的图。CLIP(Contrastive Language-Image Pre-Training

21、)模型 2021 1、进行自然语言理解和计算机视觉分析;2、使用已经标记好的“文字-图像训练数据。一方面对文字进行模型训练。一方面对另一个模型的训练,不断调整两个模型的内部参数,使得模型分别输出的文字特征和图像特征值并确认匹配。资料来源:腾讯研究院、华泰研究 1950年,艾伦 图灵提出著名的“图灵测试”,给出判定机器是否具有“智能”的试验方法1966年,世界第一款可人机对话的机器人“Eliza”问世1957年,第一支由计算机创作的弦乐四重奏依利亚克组曲(llliacSuite)完成80年代中期,IBM创造语 音 控 制 打 字 机Tangora受限于科技水平,AIGC仅限于小范围实验早期萌芽阶

22、段(20世纪50年代至90年代中期)2007年,世界第一部完全由人工智能创作的小说1 The Road问世2012年,微软展示全自动同声传译系统,可将英文演讲者的内容自动翻译成中文语音AIGC从实验性向实用性转变,受限于算法瓶颈,无法直接进行内容生成沉淀积累阶段(20世纪90年代中期至21世纪10年代中期)2014年,lanJ.Goodfellow 提 出 生成式对抗网络GAN2018年,英伟达发布StyleGAN模型可以自动生成高质量图片2017年,微软“小冰”推出世界首部100%由人工智能创作的诗集阳光失了玻璃窗2018年,人工智能生成的画作在佳士得拍卖行以 43.25万美元成交,成为首个

23、出售的人工智能艺术品2021 年,OpenAI推 出 了 DALL-E,主要应用于文本与图像交互生成内容2019 年,DeepMind发 布 DVD-GAN模 型用以生成连续视频深度学习算法不断迭代,人工智能生成内容百花齐放,效果逐渐逼真直至人类难以分辨快速发展阶段(21世纪10年代中期至2021)迎来集中爆发,多款产品出圈迎来爆发阶段(2022至今)AIGC典型事件典型事件AIGC发展特点发展特点人工智能人工智能总体阶段总体阶段2022年11月30日推出的人工智能聊天工具ChatGPT2022年8月StabilityAI发布的Stable Diffusion模型2022年8月,由AI绘图工具

24、Midjourney绘制的太空歌剧院在美国科罗拉多州艺术博览会上获得“数字艺术”类别的冠军 免责声明和披露以及分析师声明是报告的一部分,请务必一起阅读。5 传媒传媒#2 预训练模型持续完善预训练模型持续完善 2015 年以前,小模型一度被认为是行业发展的方向,但这些小模型更偏向处理分析性任务,生成能力较弱。2017 年谷歌研究院在Attention is All You Need中提出Transformer 算法的概念,而 Transformer 能够有效提取长序列特征,具备较高的计算效率和可扩展性,大大降低训练时间。2018 年谷歌发布基于 Transformer 的 NLP(Natural

25、 Language Processing,自然语言处理)预处理模型 BERT,标志着人工智能进入预训练模型时代。从流程上看,预训练模型采用两阶段学习法,即首先在大量的通用数据上训练并具备基础能力,再结合多样的垂直行业和场景对预训练模型进行微调,从而有效提升开发效率。随着参数规模的扩大,预训练模型在语言理解,图像识别等领域迅速取得突破,所需的计算量也急剧增长。据红杉资本,2015-2020 年,用于模型训练的计算量增加了 6 个数量级。据腾讯研究院,按照类型分类,预训练模型包括:1)NLP(自然语言处理)模型,使得人与计算机能够用自然语言有效通信,包括 OpenAI 的 GPT 系列,Faceb

26、ook 的 M2M-100;2)CV 模型(Computer Vision,计算机视觉),运用计算机及相关设备对生物视觉进行模拟,比如微软的 Florence;3)多模态预训练模型,包含图像、文字、视频等多种形式,如谷歌的 Image、Stability AI 的 Stable Duffusion 等。图表图表4:AIGC 主要预训练模型梳理主要预训练模型梳理 企业企业 预训练模型预训练模型 应用应用 参数量参数量 领域领域 谷歌 BERT 语言理解与生成 4810 亿 NLP LaMDA 对话系统 NLP PaLM 语言理解与生成、推理、代码生成 5400 亿 NLP Imagen 语言理解

27、与图像生成 110 亿 多模态 Parti 语言理解与图像生成 200 亿 多模态 微软 Florence 视觉识别 6.4 亿 CV Turing-NLG 语言理解、生成 170 亿 NLP Facebook OPT-175B 语言模型 1750 亿 NLP M2M-100 100 种语言互译 150 亿 NLP Deep Mind Gato 多面手的智能体 12 亿 多模态 Gopher 语言理解与生成 2800 亿 NLP AlphaCode 代码生成 414 亿 NLP Open Al GPT3 语言理解与生成、推理等 1750 亿 NLP CLIP&DALL-E 图像生成、跨模态检索

28、 120 亿 多模态 Codex 代码生成 120 亿 NLP ChatGPT 语言理解与生成、推理等 NLP Stability Al Stable Diffusion 语言理解与图像生成 多模态 英伟达 Megatron-Turing NLG 语言理解与生成、推理 5300 亿 NLP 资料来源:腾讯研究院、华泰研究#3 多模态技术快速发展多模态技术快速发展 多模态技术(Multimodal Technology)即将图像、语音、视频、文字等多模态融合的机器学习技术,而 CLIP(Contrastive LanguageImage Pre-training)的推出成为跨模态应用生成的重要节

29、点。CLIP 在 2021 年由 OpenAI 开源推出,能够将文字和图像进行关联且关联特征丰富,后续“CLIP+其他模型”成为跨模态生成领域的较通用的做法,如 Disco Diffusion 便是将 CLIP 与 Diffusion 模型进行关联,用户输入文字指令便能够生成相关的图片。在多模态技术的加持下,预训练模型已经从早期单一的 NLP、CV 向多模态、跨模态的方向发展。免责声明和披露以及分析师声明是报告的一部分,请务必一起阅读。6 传媒传媒 AIGC 产业链产业链基础层基础层/中间层中间层/应用层,中外差距应用层,中外差距约约 3 年年 从产业链结构来看,从产业链结构来看,AIGC 主

30、要包括基础层、中间层和应用层主要包括基础层、中间层和应用层,中外差,中外差距在距在 3 年左右年左右。由于技术与投资环境差异,AIGC 在我国大多作为公司的部分业务进行开发,独立的初创公司数量较少,导致 AIGC 实际的场景开发较国外仍有差距。据量子位,中外公司的整体差距在 3 年左右,底层技术是核心原因。#1 基础层基础层 基础层即预训练模型,构成了 AIGC 的基础。随着预训练模型参数的增加,预训练所需要的数据量同样快速提升,带来较高的成本投入。据中国信通院与京东探索研究院发布的人工智能生成内容白皮书 2022,模型参数量已从最初的千万级发展到了千亿级别,训练代价也从数十天增长到几十万天(

31、按在单张 V100 GPU 计算)。据北京智源人工智能研究院,2020 年 OpenAI 发布的 NLP 模型 GPT-3 的参数量约 1,750 亿,训练数据量达45TB,模型训练成本近 1,200 万美元。因此该领域的参与者主要是科技巨头与头部的研究机构,如 OpenAI、谷歌、微软、Meta、百度等。#2 中间层中间层 中间层即垂直化、场景化、个性化的模型。在预训练模型的基础上,能够快速生成垂直化的小模型,实现流水线式的开发,降低开发成本,提升效率。如 Stable Diffusion 开源后多个绘画模型基于 Stable Diffusion 开发,二次元绘画领域包括知名的 NovelA

32、I,而昆仑万维的天工巧绘 SkyPaint 模型则采用全球第一款多语言 Stable Diffusion 分支模型,兼容Stable Diffusion。据腾讯研究院,随着大模型+多模态加速成长为通用性技术平台,模型即服务(Model-as-a-Service,MaaS)逐渐实现,通过 API 授权有望助力 AIGC 变现。#3 应用层应用层 应用层即面向 C 端的 AIGC 应用。从模态上看,应用层包括图像、音频、文本、视频等,其中图像领域代表产品包括 MidJourney、Dream Studio 等;音频包括 DeepMusic 等;文本包括 ChatGPT、Sudowrite 等;视频

33、包括 Runway 等。从形式上看,应用层包括 App、网页、小程序、聊天机器人等,将 C 端用户与模型联通,已经逐渐渗透到生活中的各个领域,如 MidJourney 搭载在聊天软件 Discord 中推出,ChatGPT 则支持网页直接登录,国内的如昆仑万维的天工巧绘 SkyPaint 能够通过微信小程序登录,满足用户的多样化需求。图表图表5:AIGC 产业链结构产业链结构 资料来源:腾讯研究院、华泰研究 预训练模型、预训练模型、串联融合串联融合GANCLIPDiffusionTransformer 免责声明和披露以及分析师声明是报告的一部分,请务必一起阅读。7 传媒传媒 AIGC 颠覆传统

34、生产模式,掀起全场景内容生产力革命颠覆传统生产模式,掀起全场景内容生产力革命 AIGC 从效率、质量、多样性为内容生产带来革命从效率、质量、多样性为内容生产带来革命 AIGC 技术的突破性进展引发内容生产方式变革,内容生产由技术的突破性进展引发内容生产方式变革,内容生产由 PGC(专业制作)和(专业制作)和 UGC(用户创作)时代逐渐步入(用户创作)时代逐渐步入 AIGC 时代。时代。AIGC 顺应了内容行业发展的内在需求,一方面内容消费量增加,急需降低生产门槛,提升生产效率;另一方面用户端表达意愿明显上升,消费者对内容形态要求更高,内容生成个性化和开放化趋势明显。图表图表6:内容生产方式的四

35、个发展阶段内容生产方式的四个发展阶段 资料来源:AIGC 发展趋势报告 2023、华泰研究 AIGC 通过其强大的生成能力广泛服务于内容生产的各类场景和内容生产者,在内容行业通过其强大的生成能力广泛服务于内容生产的各类场景和内容生产者,在内容行业的应用场景不断增加和拓展,将在内容生产中产生变革性影响。具体来看主要有以下三点:的应用场景不断增加和拓展,将在内容生产中产生变革性影响。具体来看主要有以下三点:1)自动内容生成,提升内容生产效率,降低内容生产门槛和内容制作成本。)自动内容生成,提升内容生产效率,降低内容生产门槛和内容制作成本。当前大量文本、图像、音频、视频等内容都可以通过 AIGC 技

36、术自动生成,高效的智能创作工具可以辅助艺术、影视、广告、游戏、编程等创意行业从业者提升日常内容生产效率。此外,自动内容生成可以降低内容生产门槛和内容制作成本,例如,借助 AI 编曲软件可以自动生成编曲,而人为创作大概需要 7-10 年的经验积累。2)提升内容质量,增加内容多样性。)提升内容质量,增加内容多样性。AIGC 生成的内容可能比普通的人类创建的内容质量更高,大量数据学习积累的知识可以产生更准确和信息更丰富的内容,谷歌的 Imagen 生成的 AI 绘画作品效果已经接近中等画师水平。而且 AIGC 可以帮助企业和专业人士创建更多样化、更有趣的内容,VQGAN 可以生成抽象绘画作品,不咕剪

37、辑 Cooclip 内置丰富的贴纸、音频、经典“梗”素材等,可以增加视频本身的玩法与乐趣。3)助力内容创新,实现个性化内容生成。)助力内容创新,实现个性化内容生成。AIGC 将内容创作中的创意和实现分离,替代创作者的可重复劳动,可以帮助有经验的创作者捕捉灵感,创新互动形式,助力内容创新。例如 AICG 在设计初期生成大量草图可以帮助美术创作者生成更多创作灵感。根据个人用户的喜好生成个性化内容,也有利于多种创意落地。AIGC 发展中仍面临法律、安全、伦理和环境等问题。发展中仍面临法律、安全、伦理和环境等问题。首先,AIGC 引发了新型版权侵权风险,因版权争议,国外艺术作品平台 ArtStatio

38、n 上的画师们掀起了抵制 AIGC 生成图像的活动。其次,AIGC 滥用容易引发信息内容安全、内生安全、诈骗违法犯罪行为等安全隐患,诈骗团队利用 AIGC 换脸伪造埃隆马斯克的视频,半年诈骗价值超过 2 亿人民币的数字货币。再次,算法歧视等伦理问题依然存在,人工智能大规模替代人类劳动引发争议。最后,AIGC 模型训练消耗大量算力,碳排放量巨大,对环境保护造成压力。免责声明和披露以及分析师声明是报告的一部分,请务必一起阅读。8 传媒传媒 文本、音频和图像生成等落地相对较快,文本、音频和图像生成等落地相对较快,游戏等方向仍待成熟游戏等方向仍待成熟 细分场景众多,文本、音频、图像领域发展较快。细分场

39、景众多,文本、音频、图像领域发展较快。基于模态,我们认为目前 AIGC 下游落地场景有文本、音频、图像、视频、游戏、代码、3D 生成等。较之国外,我国 AIGC 行业仍处于刚起步阶段,体系化发展等仍待完善。图表图表7:AIGC 主要下游落地场景主要下游落地场景 资料来源:红杉中国、腾讯研究院、量子位、Microsoft、OpenAI、rct ai、华泰研究 文本生成:文本生成:AIGC 目前可以较好地完成新闻播报等结构化写作、推荐相关内容、帮助润色等非结构化内容,同时在虚拟男/女友、心理咨询等闲聊机器人中应用较为广泛。剧情续写、营销文本等非结构化写作与文本交互游戏等应用尚未实现规模化应用,未来

40、或可实现文本生成的终稿达到人类平均水平甚至专业水平。图像生成:图像生成:随着算法模型的不断迭代,AI 作画水平不断提高。在图像编辑工具上,去除水印、提高分辨率、特点滤镜等已较广泛应用。根据随机或按照特点属性生成画作等的创意图像生成,与根据指定要求生成营销类海报、模特图等的功能性图像生成发展接近成熟。当前图像生成水平与专职艺术家、设计师和摄影师的产品设计作品存在一定差距。音频生成:音频生成:发展较为成熟,消费与企业级的应用正在铺开。AIGC目前在语音克隆、生成虚拟人的特定歌声/播报等的文本生成特定语言、包含作曲与编曲的乐曲/歌曲生成上得到广泛应用,代表企业和应用的有倒映有声、Deepmusic、

41、网易-有灵智能创作平台等。AI 降噪去除压缩和采样中的噪音仍需改善,AI作曲不再机械化与人类创作音乐水平相仿,在未来值得期待。视频生成:视频生成:AIGC 目前对于删除特定主体、生成特效、跟踪剪辑等的视频属性编辑已较广泛应用,视频换脸等的视频部分剪辑预计不久将规模化应用,对特定片段进行检测与合成的视频自动剪辑发展仍不完善。当前,全自动生成长时间的视频作品还不能实现,距离依个人梦想定制电影和剧集还较为遥远。其他(游戏其他(游戏/代码代码/3D):):代码补全生成来替代程序员重复性劳动的发展较为成熟,大量应用已落地。游戏中游戏操作策略生成和 NPC 逻辑及剧情生成尚需进一步完善,3D 生成尚处于早

42、期阶段,3D 模型、3D 角色制作和 3D 场景尚未实现规模化应用。3D、游戏、代码自动生成更加智能将成为未来的增长方向。免责声明和披露以及分析师声明是报告的一部分,请务必一起阅读。9 传媒传媒 AIGC 的商业模式同样处于持续探索的阶段,由按量收费等传统方式向 SaaS 订阅模式等应用场景更灵活的方式拓展。AIGC 让 AI 公司为更多中小型企业甚至个人提供服务,可规模化地降本增效,为 AI 行业带来一种全新的可能性和商业模式。1)按量收费:按量收费:AI 技术传统应用模式主要以 API 接口对外开放,以实际使用量/训练量计算收费,如 OpenAI 的 GPT3 语言模型服务以每千 toke

43、ns 定价(OpenAI 使用的字符计算单位,一千 tokens 约等于 750 个单词),Ada/Babbage/Curie/Davinci 四种模型的能力和产出速度不同,单价也有所不同,分别为$0.0004/0.0005/0.0020/0.0200 每千tokens。图像生成方面,DALLE 模型同样按次收费,不同尺寸的图像收费不同,生成一张 256x256/512x512/1024x1024 像素的图片,单次收费$0.016/0.018/0.020。2)SaaS 模式:模式:AIGC 为 B 端及 C 端用户提供了会员 SaaS 收费的模式,降低了传统 AI公司的客户服务规模化的难度。据

44、 OpenAI 官网,2023 年 OpenAI 推出付费版本的ChatGPT Plus,起价为每月 20 美元,提供更快的响应速度,以及新功能和更新的有限使用权。美国 AIGC 公司 Jasper 主打 AI 生成文案服务,以类 SaaS 服务收费,2021 年成立当年营收达 4,500 万美元,以其 Starter 模式为例,基础收费是 24 美元/月,可以使用不超过 2 万字;最高 332 美元/月,可以使用 32 万字。3)其他:其他:通过降本增效来增利、定制化服务付费、个性化产品销售等。市场积极探索其他场景商业化:在广告营销、影视、音乐、游戏、艺术品等领域 AIGC 有望继续拓展更多

45、样化的商业化形式。蓝色光标推出的“销博特”发布 AIGC“创策图文”营销套件,该套件的定制版服务将销博特营销能力服务部署为企业自有云服务,并根据企业个性化需求进行二次开发,构建企业内部营销创意基础设施平台,为企业提供专属营销策划和创意内容。AIGC 的商业模式同样处于持续探索的阶段,由按量收费等传统方式向 SaaS 订阅模式等应用场景更灵活的方式拓展。AIGC 让 AI 公司为更多中小型企业甚至个人提供服务,可规模化地降本增效,为 AI 行业带来一种全新的可能性和商业模式。免责声明和披露以及分析师声明是报告的一部分,请务必一起阅读。10 传媒传媒 AIGC 多场景快速落地,文本多场景快速落地,

46、文本/图像关注度较高图像关注度较高 文本:文本:ChatGPT 引领热潮引领热潮,大厂加码布局交互式文本,大厂加码布局交互式文本 据量子位,AI 文本生成分为交互式与非交互式。非交互式包括结构化写作,非结构化写作和辅助性写作,其中结构化写作指基于数据或规范格式,在特定情况下生成的文本,如新闻、简讯等;非结构化写作以创作型文本生成为主,具备更高的开放度。作为 AIGC 最早发展的技术,AI 文本生成已经在新闻报道、商业营销、客服机器人等领域广泛落地。2022年 11 月 30 日,OpenAI 推出的智能聊天工具 ChatGPT 引入 RLHF 机制,降低训练成本且效果优化,不仅能够对问题作出回

47、答,还能完成短文和诗歌创作、代码写作、数学和逻辑运算等任务,据 Similarweb,ChatGPT 推出仅 2 月平均日活超 1,300 万,引发社会广泛关注。科技巨头亦加码布局交互式文本,微软在 2023 年 1 月追加投资 OpenAI,未来还计划将 ChatGPT 整合到旗下的搜索引擎 Bing 中;谷歌通过内部研发与投资 ChatGPT 的竞品 Anthropic 来应对挑战,23 年 2 月 6 日公布了与 ChatGPT 类似的对话服务 Bard;据彭博社,百度计划将 ChatGPT 类似程序嵌入搜索服务中。图表图表8:国内外重点企业及产品国内外重点企业及产品介绍介绍 大类大类

48、小类小类 公司公司 国家国家 应用应用/模型模型 介绍介绍 非交互式 结构化写作 澜舟科技 中国 contentnote 智能文案 主要针对营销文案的智能化写作 腾讯 中国 Dreamwriter 腾讯财经开发的一款自动写作新闻软件 百度 中国 AI 助理 基于百度文心大模型,可产出不同风格的文章标题、内容段落 字节 中国 Xiaomingbot 一款新闻写作机器人,该机器人在里约奥运会上,共撰写了 457 篇关于羽毛球、乒乓球、网球的消息简讯和赛事报道。Automated Insights 海外 WordSmith 已经被美联社等机构使用,帮助报道大学橄榄球赛事、公司财报等新闻 Narrat

49、ive Science 海外 Quill 将数据转化为自然语言,并凸显最重要的洞见 非结构化写作 Phrasee 海外 Phrasee Score 解决电子邮件营销优化的问题,一键生成数百万种符合品牌要求的内容 Persado 海外 Persado 生成电子邮件、网页和其他营销活动等的文案 北京彩彻区明科技 中国 彩云小梦 人工智能小说续写 APP,已入驻喜马拉雅 谷歌 海外 Dramatron 一款 AI 剧本写作模型,能够自动产生人物、位置、情节的描述并生成对话 中文在线 中国 AI 文字创作功能 已在 17K 小说上线,作者在使用该功能时,通过针对不同的描写场景填写关键词和辅助短语,即可

50、生成对应的文字内容描写为作品使用 Jasper 海外 Jasper 支持 26 种语言,可实现剽窃检测、速写、长篇文档编辑等 辅助性写作 智搜信息 中国 Gilso 写作机器人 内容创作 AI 辅助工具,提供热点写作、提纲写作、汽车写作等类型写作 赅推智能 中国 Get 写作 用 AI 加速写作,以人机协作的方式提升写作效率,快速创作 北京万卷在线 中国 写作猫 AI 智能写作内容辅助写作工具 谷歌 海外 Wordcraft 基于 LaMDA 模型,能够根据现有文本产生新想法或者帮助创作者重写已有的句子 Sudowrite 海外 Sudowrite 支持头脑风暴、想出新角色、帮助详细描述、重写

51、等 交互式 闲聊机器人 Open AI 海外 ChatGPT 人工智能聊天机器人,可完成撰写邮件、视频脚本、文案、翻译、代码等任务 谷歌 海外 Bard 基于谷歌的 LaMDA 模型,能够利用网络上的信息提供最新的、高质量的回答 百度 中国 文心一言 预计 2023 年 3 月嵌入百度搜索引擎 文本交互游戏 Latitude 海外 AI Dungeon 利用了 GPT-2 模型,根据上下文和用户输入生成文本的文字冒险游戏 资料来源:各公司官网、量子位、华泰研究#1 交互式文本交互式文本 在交互式文本当中,最近热度较高的在交互式文本当中,最近热度较高的 ChatGPT 是代表性应用是代表性应用,

52、展现出较强的智能水平,展现出较强的智能水平。ChatGPT 是 OpenAI 在 2022 年 11 月 30 日推出的人工智能聊天工具,其不仅能够模仿人类的风格作出问题回答,还能完成短文和诗歌创作、代码写作、数学和逻辑运算等任务。据腾讯研究院,ChatGPT 目前可以驾驭各种风格和文体,能够做到回答后续问题、承认错误、质疑不正确的前提和拒绝不适当的请求等。ChatGPT 的内容输出质量、内容覆盖维度,已经可以直面“搜索引擎”与“问答社区”。据 CNBC,ChatGPT 通过了 Google 3 级工程师的编码面试,据 NBC News,沃顿商学院教授 Christian Terwiesch

53、发现 ChatGPT 能够以 B-到 B 的成绩通过该校 MBA 核心课程运营管理的期末考试,展现出较强的智能水平。免责声明和披露以及分析师声明是报告的一部分,请务必一起阅读。11 传媒传媒 图表图表9:ChatGPT 对话实例对话实例 资料来源:OpenAI 官网、华泰研究 ChatGPT 的出现迅速引起广泛关注,仅推出的出现迅速引起广泛关注,仅推出 2 月平均日活超月平均日活超 1,300 万,成为一款现象级万,成为一款现象级的产品。的产品。ChatGPT 用户数在 5 天内突破了 100 万,据 Similarweb,2023 年 1 月每天平均有 1,300 万独立访客使用 ChatG

54、PT,超 12 月的 2 倍,而这距离 ChatGPT 的推出仅 2 个月。ChatGPT 强大的性能引发了社会的广泛关注,特斯拉 CEO 马斯克在 Twitter 上表示“许多人已经陷入了 ChatGPT 的疯狂循环中”,“我们离强大到危险的 AI 不远了”;2023年 2 月,微软创始人比尔盖茨接受 Forbes 采访时表示“AI 将成为 2023 年最热门的话题,ChatGPT 这种人工智能技术出现的意义不亚于互联网和 PC 的诞生”。ChatGPT 引入引入 RLHF 机制,机制,通过引入人类反馈,持续优化模型通过引入人类反馈,持续优化模型效果。效果。据 OpenAI 官网,ChatG

55、PT 的模型在 GPT-3.5 的基础上引入了 RLHF(Reinforcement Learning from Human Feedback,人类反馈强化学习)机制,这一模式增强了人类对于模型输出结果的调整,对结果进行更具理解性的排序,并提升训练效率,加速模型收敛。具体来看,ChatGPT 的训练分为:1)第一阶段:监督调优:在数据集中随机抽取问题,由标注人员给出高质量回答,并用标注好的回答微调 GPT-3.5 模型,获得 SFT(Supervised Fine-Tuning)模型;2)第二阶段:训练奖励模型:在数据集中随机抽取问题,标注人员对于每个问题的不同回答给出排名顺序,并用排序结果训

56、练奖励模型;3)第三阶段:近端策略优化:将奖励模型用于改进 SFT 模型。第一阶段仅训练 1 次,通过持续迭代第二和第三阶段即可生成高质量的 ChatGPT 模型。图表图表10:历代历代 GPT 模型参数对比模型参数对比 图表图表11:ChatGPT 底层引入了底层引入了 RLHF 技术技术 资料来源:机器之心、华泰研究 资料来源:OpenAI 官网、华泰研究 GPT-1GPT-2GPT-3ChatGPT发布时间2018年6月 2019年2月2020年5月 2022年11月参数量1.17亿15亿1,750亿/预训练数据量约5GB40G45TB/免责声明和披露以及分析师声明是报告的一部分,请务必

57、一起阅读。12 传媒传媒 ChatGPT 再获微软投资,合作持续加深,再获微软投资,合作持续加深,未来将集成至未来将集成至 Bing 搜索引擎与搜索引擎与 Edge 浏览器中浏览器中。据路透社,OpenAI 在 2019 年获得微软 10 亿美元的投资,2021 年微软对 OpenAI 追加了投资。据微软官网,微软在 2023 年 1 月表示,作为两家公司合作的第三阶段,微软将加大对 supercomputing systems 的投资以支持 OpenAI 的发展。此外微软未来会把自己的消费者和企业产品中部署 OpenAI 的模型,并为客户引入基于 OpenAI 技术的体验,将OpenAI 的

58、技术构建到 GitHub Copilot 和 Microsoft Designer 等,同时微软仍然为 OpenAI的独家云提供商。从具体的落地层面看,2023 年 1 月微软 CEO 萨提亚纳德拉表示微软旗下的 Azure 云服务即将整合 ChatGPT 技术,2023 年 2 月,微软旗下的 Teams 推出嵌入 ChatGPT 的高级服务,同时微软宣布将 OpenAI 的语言模型整合到 Bing 搜索引擎和Edge 浏览器中。据 The information,截至 2023 年 1 月,OpenAI 估值达 290 亿美元。ChatGPT 在商业化路径上持续探索,推出付费版本在商业化路

59、径上持续探索,推出付费版本 ChatGPT Plus。OpenAI 的 CEO SamAltman 在 Twitter 上表示,ChatGPT 平均一次聊天成本在个位数美分,除了 API 外,公司正在探索更多的商业化变现模式,而 ChatGPT Plus 便是其中之一。据 OpenAI 官网,2023 年 OpenAI 推出付费版本的 ChatGPT Plus,起价为每月 20 美元,目前只对美国的用户开放。据 OpenAI 官网,ChatGPT Plus 即使在高峰时段也可以访问,有更快的响应,可以优先使用新功能和改进。图表图表12:ChatGPT 推出推出付费版本付费版本 ChatGPT

60、Plus 图表图表13:ChatGPT 平均一次聊天成本在个位数美分平均一次聊天成本在个位数美分 资料来源:OpenAI 官网、华泰研究 资料来源:Twitter、华泰研究 谷歌通过内部研发与投资应对谷歌通过内部研发与投资应对 ChatGPT 或带来的颠覆性挑战。或带来的颠覆性挑战。据 Insider,2022 年 12 月,谷歌为 ChatGPT 带来的威胁发布了“红色警报”,着手进行紧急应对。应对措施方面,谷歌一方面加快内部研发,据谷歌官网,美国时间 2023 年 2 月 6 日,谷歌发布了与ChatGPT 类似的对话服务 Bard,目前 Bard 向测试人员开放,未来几周将持续向公众开放

61、该服务。Bard 基于谷歌的 LaMDA 模型(Language Model for Dialogue Applications,用于对话场景的语言模型),能够利用网络上的信息提供最新的、高质量的回答。此外,据The Independent,谷歌或将在 2023 年通过子公司 DeepMind 推出聊天机器人 Sparrow,可通过谷歌搜索引用特定的信息源,准确性更强。谷歌也在通过投资持续布局相关领域。据金融时报,2023 年 2 月,谷歌投资 AIGC 初创公司 Anthropic 超 3 亿美元,获得了约 10%股份。据 Anthropic 官网,谷歌已经与 Anthroic签署了一份大型

62、云计算合同,Anthropic 从谷歌云购买计算资源,谷歌提供 AI 模型算力。Anthropic 在 2021 年由前 OpenAI 研究副总裁 Dario Amodei 建立,核心产品是与ChatGPT 类似的聊天机器人 Claude。免责声明和披露以及分析师声明是报告的一部分,请务必一起阅读。13 传媒传媒 图表图表14:Anthropic 宣布使用谷歌云训练模型宣布使用谷歌云训练模型 图表图表15:谷歌发布基于谷歌发布基于 LaMDA的对话服务的对话服务 Bard 资料来源:Twitter、华泰研究 资料来源:谷歌官网、华泰研究 国内大厂对于国内大厂对于 ChatGPT 的发展持乐观态

63、度,百度将的发展持乐观态度,百度将集成集成文心一言文心一言至搜索引擎。至搜索引擎。腾讯研究院在 2023 年 1 月发布AIGC 趋势报告 2023,对于 ChatGPT 的发展持乐观态度,指出AIGC 有望作为数据与内容的强大生产引擎,升级甚至重塑内容工具,申请的“人机对话方法、装置、设备及计算机可读存储介质”专利可实现人机顺畅沟通;京东集团副总裁何晓冬表示京东会不断结合 ChatGPT 的方法和技术点,融入到产品服务中推动人工智能的产业落地;据百度官网,2023 年 2 月 7 日,百度公布了大模型新项目文心一言(ERNIE Bot),据彭博社,百度计划在 2023 年 3 月将最初的版本

64、将内嵌到搜索服务中;阿里巴巴达摩院申请了“人机对话及预训练语言模型训练方法、系统及电子设备”的专利,积极布局 AIGC。#2 非交互式文本非交互式文本 结结构化写作构化写作已经在新闻写作、公司财报、客服类聊天问答等场景广泛应用。已经在新闻写作、公司财报、客服类聊天问答等场景广泛应用。国外方面,代表性的垂直公司 Automated Insights 成立于 2007 年,旗下的 Wordsmith 是一个自然语言生成平台,能够借助 NLP 技术将数据转化成描述性的语言,据公司官网,目前Automated Insights 已经在新闻写作中具有较广泛的应用,下游的客户包括雅虎、美联社等主流媒体。国

65、内方面,小冰公司、腾讯、百度、字节、澜舟科技等公司均有布局。澜舟科技成立于 2021 年,主要产品是基于“孟子轻量化预训练模型”打造的一系列 SaaS 功能引擎,被广泛应用于包括搜索、生成、翻译、对话等领域。字节推出的 Xiaomingbot 是新闻写作机器人,该机器人在里约奥运会上,共撰写了 457 篇关于羽毛球、乒乓球、网球的消息简讯和赛事报道。整体来看,目前结构化写作已具备较成熟的应用,长期来看,Narrative Science 创始人预测到 2030 年 90%以上的新闻将有 AI 写作完成。图表图表16:Automated Insights 下游客户下游客户 图表图表17:澜舟科技

66、技术方案模型澜舟科技技术方案模型 资料来源:Automated Insights 官网、华泰研究 资料来源:澜舟科技官网、华泰研究 免责声明和披露以及分析师声明是报告的一部分,请务必一起阅读。14 传媒传媒 非结构化写作开放度和技术要求更高,主要运用在营销和剧情写作非结构化写作开放度和技术要求更高,主要运用在营销和剧情写作领域领域。据量子位,非结构化写作主要运用在剧情写作、营销文本等领域,开放度和自由度更高,对于生成技术亦有更高的要求,而目前长篇文字在内部逻辑上仍然有较明显的问题,暂不适合直接使用,预计未来的 4-5 年或取得一定的突破。国外方面,代表性的公司包括谷歌、Anyword、Penc

67、il、Copy.ai、Jasper 等,其中 Jasper 成立于 2021 年,基于 GPT-3 训练模型,通过AI 技术帮助企业完成社交媒体、广告营销、电子邮件等多种内容,2022 年 10 月,Jasper宣布获得 1.25 亿美元的 A 轮融资,估值达 15 亿美元;谷歌的 AI 剧本写作模型Dramatron 则能够自动产生人物、位置、情节的描述并生成对话。国内代表性公司为中文在线、彩云小梦等,在彩云小梦 App 中创作页面输入一段文字,便能够生成三条不同的故事走向,用户可以点击选择继续或者让彩云小梦重新续写,从而让故事走向更加符合用户的设定。中文在线的 AI 文字创作功能已在 17

68、K 小说上线,作者在使用该功能时,通过针对不同的描写场景填写关键词和辅助短语,即可生成对应的文字内容描写为作品使用。图表图表18:Jasper 广泛应用于社交媒体、广告等领域广泛应用于社交媒体、广告等领域 图表图表19:彩云小梦彩云小梦能够实现非结构化写作能够实现非结构化写作 资料来源:Jasper 官网、华泰研究 资料来源:App Store、华泰研究 辅助性写作落地场景广泛,主要运用在资讯和文章写作等场景。辅助性写作落地场景广泛,主要运用在资讯和文章写作等场景。据量子位,除端到端的文本创作外,辅助性写作是国内目前供给及落地最为广泛的场景,辅助性写作主要是基于素材爬取的协助作用,如定向采集信

69、息素材、文本素材预处理、自动聚类去重等提供相关素材。国外代表性的公司为 Sudowrite,其辅助性写作工具支持头脑风暴、想出新角色、帮助详细描述、重写等;谷歌发布的 Wordcraft 基于 LaMDA 模型,能够根据现有的文本产生新想法或者帮助创作者重写已有的句子。国内方面,代表性的公司包括写作猫、Gilso写作机器人、Get 写作等,其中智搜信息的 Gilso 写作机器人拥有资讯写作、文章校对、文章改写、提纲写作、营销写作等功能,曾为中国南方电网、经济日报等提供服务。图表图表20:智搜信息的客户案例智搜信息的客户案例 图表图表21:Sudowrite 帮助在写作中找到合适的词帮助在写作中

70、找到合适的词 资料来源:智搜信息官网、华泰研究 资料来源:Sudowrite 官网、华泰研究 免责声明和披露以及分析师声明是报告的一部分,请务必一起阅读。15 传媒传媒 图像:预训练模型迭代升级,图像:预训练模型迭代升级,AI 图像生成迎机遇图像生成迎机遇 据量子位,AIGC 图像包括文字生成图像、图像属性编辑、图像部分编辑与图像端到端生成,其中由文字到图像的跨模态生成成为重点探索方向。从底层技术上看,Diffusion 逐渐取代 GAN 成为图像生成的主流模型,助推了 AIGC 图像的发展。2022 年 8 月,由Midjourney 生成的太空歌剧院出圈,引发 AI 图像生成的热潮;202

71、2 年 8 月,Stability AI 推出 Stable Diffusion 模型,成为 AI 图像生成的里程碑,为后续图像模型的更迭打下基础。此外,OpenAI、谷歌在图像模型上亦持续迭代;百度文心一格则支持中国风 AI 创作。据 6pen,未来 5 年全球 10-30%的图像有望由 AI 生成或辅助生成,AI 图像领域展现出较大的潜力。图表图表22:国内外重点企业及产品国内外重点企业及产品介绍介绍 分类分类 公司公司 国家国家 应用应用/模型模型 介绍介绍 文字生成图像 MidJourney Lab 海外 MidJourney 一款搭载在 Discord 上的聊天机器人,玩家机器人并输

72、入相关的提示词(Prompts)即可在 1分钟以内生成 4 张图片 百度 中国 文心一格 基于 ERNIE-ViLG 2.0,目前支持国风、油画、水彩、水粉、动漫、写实等十余种不同风格高清画作的生成 Stability AI 海外 Stable Diffusion 该模型的运行速度快、消费资源及内容较少,使用消费级显卡即可迅速生成高质量的图像,且该模型完全免费开源,所有的代码均在 GitHub 上公开 OpenAI 海外 DALL E 2 根据文本描述生成图像,较前代图像质量提升了 3 倍;能够在更细的颗粒度上实现文本到图像的转化,能够根据自然语言进行 P 图,同时会反馈阴影、纹理等元素的变化

73、;生成速度极大提升 谷歌 海外 Imagen 从效果上看,Imagen 在写实场景中表现更加优秀 图像属性编辑 Alexey Moiseenkov 团队 海外 Prisma 照片编辑器,在全球拥有 1.2 亿用户及 500 款样式库,借助 Prisma 的 AI 自动生成框架,可将照片转化为艺术品 谷歌 海外 RawNeRF 能够将夜晚照片降噪,此外能将 2D 照片合成 3D 效果并调节焦点 美图公司 中国 美图 AI 开放平台、美图秀秀 专注于人脸技术、人体技术、图像识别、图像处理、图像生成等核心领域,接入的客户包括欧莱雅、兰蔻、宝洁等 图像部分编辑 英伟达 海外 CycleGAN 自动将一

74、类图片替换为另一类图片,如支持将图内的斑马和马、苹果和橘子等内容进行互换 Metaphysic.ai 海外 Metaphysic 能够调节照片的情绪、年龄和微笑 万兴科技 中国 万兴爱画 APP 支持 AI 修改局部画面,支持通过文本修改,如输入珍珠项链,可在图片中添加 Deepswap.ai 海外 Deepfake 支持 AI 换脸 图像端到端生成 阿里巴巴 中国 阿里鹿班 设计水平已经非常接近普通设计师,平均 1 秒钟就能完成 8000 张海报设计 蓝色光标 中国 销博特 通过结合 AI、统计算法和多维数据库,一键自动化生成策划案、消费者洞察、营销创意等内容 谷歌 海外 Chimera P

75、ainter 使用机器学习,可以把随手画的粗略草图生成怪物图像 Artbreeder Bot 海外 Artbreeder 支持有机组合多张图像生成新图像 Rosebud AI 海外 Rosebud.ai 支持生成虚拟的模特面部,用于品牌广告和娱乐 VanceAI 海外 VansPortrait 在 5 秒内将图片变成绘画、素描或动画 资料来源:各公司官网、量子位、华泰研究 早期早期 AIGC 图像主要基于图像主要基于 GAN 模型模型,但生成效果欠佳,但生成效果欠佳。GAN 模型主要由生成器(Generator)和判别器(Discriminator)两部分组成,生成器负责模拟出与真实训练样本类

76、似的假数据,并将假数据混入原始数据交由判别器区分,两个模型相互博弈,直到生成器的假数据能够以假乱真。早期的 AIGC 图像主要基于 GAN 模型生产,但是 GAN 存在训练难以收敛、模型坍塌、梯度消失等问题,造成训练结果冗余、图像生成质量差。免责声明和披露以及分析师声明是报告的一部分,请务必一起阅读。16 传媒传媒 图表图表23:基于基于 GAN 的图像生成原理的图像生成原理 资料来源:CSDN、华泰研究 Diffusion 模型逐渐取代模型逐渐取代 GAN 成为主流模型,推动图像生成技术的发展。成为主流模型,推动图像生成技术的发展。Diffussion 受热力学模型启发,通过增加高斯噪声破坏

77、训练数据,然后通过反转噪声来恢复学习的数据,经过训练的模型便能够应用去噪方法来生成干净的数据。Diffussion 相对于 GAN 具有更灵活的模型框架和精确的对数似然,所需数据更少,但图像生成效果较更佳,目前逐渐取代GAN 成为新一代图像生成的主流模型。图表图表24:Diffusion 模型生成原理模型生成原理 资料来源:量子位、GitHub、华泰研究#1 文字生成图像文字生成图像 由由 Midjourney 生成的太空歌剧院出圈,引发社会生成的太空歌剧院出圈,引发社会广泛讨论。广泛讨论。Midjourney 是一款搭载在 Discord 上的聊天机器人,玩家只需要机器人并输入相关的提示词(

78、Prompts)即可在 1 分钟以内生成 4 张图片。凭借着极低的上手门槛和 Discord 社区加持,截至 2023 年 2月 4 日,Discord 数据显示 Midjourney 在 Discord 约有 980 万成员。2022 年 8 月,由Midjourney 生成的太空歌剧院在美国科罗拉多州艺术博览会上获得“数字艺术”类别的冠军,使得 AI 绘画引发了广泛的关注,围绕 AI 能够替代艺术创作的讨论热度较高。免责声明和披露以及分析师声明是报告的一部分,请务必一起阅读。17 传媒传媒 图表图表25:Midjourney搭载在搭载在 Discord 社区社区 图表图表26:太空歌剧院太

79、空歌剧院 资料来源:Discord、华泰研究 资料来源:The Information、华泰研究 Stable Diffusion 模型成为模型成为 AI 图像领域的里程碑图像领域的里程碑,Stability 估值达估值达 10 亿美元。亿美元。2022 年 8月,Stability AI 推出 Stable Diffusion 模型,随着算法和模型的持续优化,Stable Diffusion的运行速度快、消费资源及内容较少,使用消费级显卡即可迅速生成高质量的图像,且该模型完全免费开源,所有的代码均在 GitHub 上公开,因此也为后续整个图像模型的更迭打下基础。据 TechCrunch,截至

80、 2022 年 10 月,已有超 20 万开发者下载和获得 Stable Diffusion 的授权,各渠道的累计日活已经超过 1,000 万;基于 Stable Diffusion,面向消费者的 AI 智能绘图软件 Dream Studio 用户数超 150 万,已生成 1.7 亿张图片。2022 年 10月,Stabilty AI 宣布获得 Coatue、Lightspeed Venture Partners 和 OShaughnessy Ventures LLC 投资的 1.01 亿美元,估值达 10 亿美元,跻身独角兽行业。图表图表27:Stable Diffusion 的组成的组成

81、资料来源:CSDN、华泰研究 OpenAI 持续持续迭代迭代 DALL E 模型,图片画质、生成效率均有提升。模型,图片画质、生成效率均有提升。2021 年 1 月 OpenAI 发布模型 DALL E,能够根据文本描述生成图像,2022 年 4 月,OpenAI 公布了 DALL E 2研发进展。据量子位,从原理上看,DALL E 2 是 CLIP 与 Diffusion 模型的结合,其中CLIP 将文本嵌入转变为图像嵌入,而图像嵌入将通过调节扩散(Diffusion Decoder)生成最终的图像。DALL E 2 与前一代相比图像质量提升了 3 倍,DALL E 2 生成图像画质为102

82、41024,DALL E 画质为 256256,且生成的速度更快。此外 DALL E 2 能够在更细的颗粒度上实现文本到图像的转化,能够根据自然语言进行 P 图,同时会反馈阴影、纹理等元素的变化。免责声明和披露以及分析师声明是报告的一部分,请务必一起阅读。18 传媒传媒 图表图表28:DALLE E 2 较前一代图像质量提升较前一代图像质量提升 3 倍倍 资料来源:OpenAI 官网、华泰研究 谷歌的谷歌的 Imagen 在写实场景表现优秀在写实场景表现优秀,Muse 图像生成效率更高。图像生成效率更高。2022 年 5 月,Google公布了自研的 Imagen 模型。据量子位,从技术上看,

83、该模型并未采用 CLIP+GAN 或CLIP+Diffusion 的常规做法,语言模型采用谷歌的 T5-XXL,并仅负责编码文本特征,图像生成由一系列 Diffusion 模型构成;从效果上看,Imagen 在写实场景中表现更加优秀。2023 年 1 月,Google 发布了从文本生成图像的 Transformer 模型 Muse,与 Imagen 和DALL E 2 等 Diffusion 模型相比,Muse 由于采用离散标记且需要更少的采样迭代,生成效率显著提升,据 Google Research 与 Dataconomy,在 TPUv4 芯片上,Muse 生成512x512 分辨率的图像

84、仅需 1.3 秒,较 Stable Diffusion 1.4 的 3.7 秒更快。图表图表29:谷歌谷歌 Imagen 模型原理模型原理 图表图表30:Muse 模型模型图像生成速度更快图像生成速度更快 资料来源:量子位、华泰研究 注:基于 TPUv4 芯片 资料来源:Google Research、Dataconomy、华泰研究 百度推出国产基础模型百度推出国产基础模型 ERNIE-ViLG 2.0,文心一格支持中国风,文心一格支持中国风 AI 创作。创作。伴随 AI 绘图的火热,国内也出现了众多的 AI 作图产品,但这些产品大多基于 DALL E 2 或 Stable Diffusion

85、 等海外大模型,百度在 2022 年 10 月发布的 ERNIE-ViLG 2.0 是国内首个在基础模型方向取得突破的产品。据百度 AI 官网,从技术上看,ERNIE-ViLG 2.0 通过引入视觉知识和语言知识,提升模型跨模态语义理解能力与可控生成能力;在扩散降噪过程中,通过混合专家网络建模,增强模型建模能力,提升图像的生成质量;此外百度构建了近 2 亿的高质量中文图文数据对比,具备强大的中文语义理解能力,助力中国风元素构建。从应用上看,ERNIE-ViLG 2.0 可以用于工业设计、动漫设计、游戏制作、摄影艺术等场景,通过简单描述,在几十秒内生成设计图,提升效率、降低门槛。基于 ERNIE

86、-ViLG 2.0,百度也推出了 AI 艺术与创意辅助平台文心一格,目前支持国风、油画、水彩、水粉、动漫、写实等十余种不同风格高清画作的生成。ModelResolutionInterence TimeStable Diffusion 1.45125123.7sParti-3B2562566.4sImagen2562569.1sImagen1024102413.3sMuse-3B2562560.5sMuse-3B5125121.3s 免责声明和披露以及分析师声明是报告的一部分,请务必一起阅读。19 传媒传媒 图表图表31:ERNIE-ViLG 2.0 助力中国风图像创作助力中国风图像创作 资料来

87、源:百度 AI 官网、华泰研究#2 图像属性编辑图像属性编辑 据量子位,AI 图像属性编辑包括去水印、自动调整光影、设置滤镜、修改颜色纹理、复刻图像属性编辑包括去水印、自动调整光影、设置滤镜、修改颜色纹理、复刻/修改图像风格、提升分辨率等,修改图像风格、提升分辨率等,类似于低门槛的 PS(Photoshop)。在该领域布局的初创公司较多,并且谷歌、Adobe 等大厂亦有涉及。国外方面,以 Prisma 为例,作为一款照片编辑器,在全球拥有 1.2 亿用户以及 500 款样式库,借助 Prisma 的 AI 自动生成框架,用户无需投入精力即可将照片转化为艺术品;谷歌的 RawNeRF 技术能够将

88、夜晚照片降噪,此外能将 2D 照片合成 3D 效果并调节焦点;国内的代表产品为美图公司,旗下的美图 AI开放平台专注于人脸技术、人体技术、图像识别、图像处理、图像生成等核心领域,为客户提供经市场验证的专业 AI 算法服务和解决方案,目前接入的客户包括欧莱雅、兰蔻、宝洁等,助力图像属性处理;面向 C 端的美图秀秀则通过医美级去皱、面部丰盈、一键更换刘海等增值功能收费。图表图表32:Prisma 相片编辑器功能展示相片编辑器功能展示 图表图表33:美美图图秀秀支持自动调节光影秀秀支持自动调节光影 资料来源:App Store、华泰研究 资料来源:美图秀秀官网、华泰研究 免责声明和披露以及分析师声明

89、是报告的一部分,请务必一起阅读。20 传媒传媒 图表图表34:美图美图 AI 开放平台开放平台下游客户下游客户 资料来源:美图 AI 开放平台官网、华泰研究#3 图像部分编辑图像部分编辑 据量子位,图像部分编辑包括部分更改图像部分构成与修改面部特征。英伟达的CycleGAN 能够自动将一类图片替换为另一类图片,如支持将图内的斑马和马、苹果和橘子等内容进行互换。修改面部特征方面,据量子位,Metaphysics 支持调节照片的情绪、年龄和微笑,Metaphysics 还是电影Here的唯一制定 AI 视觉特效供应商。国内方面,万兴科技推出的万兴爱画 App,支持 AI 修改局部画面,支持通过文本

90、修改,如输入珍珠项链,可在图片中添加。图表图表35:英伟达的英伟达的 CycleGAN 支持图片替换支持图片替换 图表图表36:Metaphysics 能够调节照片年龄能够调节照片年龄 资料来源:英伟达、华泰研究 资料来源:Metaphysics 官网、华泰研究#4 图像端到端生成图像端到端生成 据量子位,AI 图像端到端生成包括草图生成完整图像、有机组合多张图像生成新图像、根图像端到端生成包括草图生成完整图像、有机组合多张图像生成新图像、根据指定属性生成目标图像等据指定属性生成目标图像等,按照场景划分,包括创意图像生成和功能型图像生成,其中创意图像多为 NFT 产品,功能性图像包括营销海报、

91、用户头像等。国外方面,谷歌推出的Chimera Painter 可以将粗略草图生成 3D 怪物图像,垂直类公司包括 VanceAI、Deepdream Generator、Rosebud.ai 等,其中 VanceAI 旗下的 VansPortrait,可在 5 秒内将图片变成绘画、素描或动画。国内的代表产品包括阿里鹿班、诗云科技、蓝色光标等,其中阿里鹿班支持海报、LOGO 等设计,据阿里技术,阿里鹿班平均 1 秒钟就能完成8,000 张海报设计,一天可以制作 4,000 万张,2017 年双 11 设计约 4 亿张 banner 海报。蓝色光标的销博特通过结合人工智能、统计算法和多维数据库,

92、一键自动化生成策划案、消费者洞察、营销创意等内容。免责声明和披露以及分析师声明是报告的一部分,请务必一起阅读。21 传媒传媒 图表图表37:Chimera Painter 可将草图变成怪物可将草图变成怪物 图表图表38:阿里鹿班阿里鹿班生成的生成的 banner 海报海报 资料来源:Chimera Painter 官网、华泰研究 资料来源:阿里技术官网、华泰研究 音频:集中应用于音频:集中应用于 TTS 场景和乐曲场景和乐曲/歌曲生成歌曲生成 AIGC 通过提取信息生成音频,主要应用于通过提取信息生成音频,主要应用于 TTS(Text-to-speech)场景和乐曲)场景和乐曲/歌曲生成。歌曲

93、生成。其中,TTS 技术已相当成熟,广泛应用于客服及硬件机器人、有声读物制作、语音播报等,覆盖新闻、电子书、虚拟 IP、短视频配音等多个领域,代表公司有倒映有声、DeepMind、喜马拉雅、百度等。通过 AIGC 可以简化乐曲/歌曲生成的流程,降低音乐创作的门槛,可应用于流行歌曲、乐曲、有声书的内容创作,以及视频、游戏、影视等领域的配乐创作,大大降低音乐版权的采购成本,代表公司有 Amper Music、DeepMusic、腾讯、网易等。图表图表39:AIGC 在音频生成领域部分应用案例在音频生成领域部分应用案例 应用环节应用环节 代表公司代表公司 应用案例应用案例 TTS(Text-to-s

94、peech)场景 倒映有声 独家研发的无人驱动数字分身可以实现内容播报与交互功能输出,覆盖新闻资讯播报、有声读物制作、自媒体有声化、虚拟 IP 声音定制、短视频配音、金融领域数字人服务、文旅领域互动、游戏娱乐聊天等多种场景。DeepMind 出了用于生成原始音频波形的深层神经网络模型“WaveNet”,并在一年的时间内将原始模型的效率提高了 1000倍。高保真(24kHZ)、高分辨率(16bit)和快速生成声波的 WaveNet 已经在 Google Assistant 被正式商用。喜马拉雅 运用 TTS 技术喜马拉雅重现单田芳声音版本的毛氏三兄弟和历史类作品,“单田芳声音重现”账号已经上线

95、6 部专辑作品。百度 百度语音合成团队基于智能交通一书 20 万字文本,使用李彦宏约 1 小时音频素材,通过 AIGC 技术生成了智能交通有声书,这套有声书共 86 集,每集时长 10-20 分钟,并于 2022 年 4 月 23 日在喜马拉雅上线。乐曲/歌曲生成 Amper Music 2019 年推出首个人工智能作曲平台 Amper ScoreTM,可以根据项目的独特性创作出符合项风格、长度和结构的定制音乐。DeepMusic 开发了针对视频生成配乐的配乐猫、支持非音乐专业人员创作的口袋音乐、可 AI 生成歌词的 LYRICA、AI 作曲软件 LAZYCOMPOSER,从作词、作曲、编曲、

96、演唱、混音等方面全方位降低音乐创作及制作门槛。腾讯 QQ 音乐成为 AI 音乐公司 Amper music 的 API 合作伙伴,腾讯 AI Lab 开发 AI 识图作曲技术并推出 AI 虚拟偶像“艾灵”,可通过用户提供的关键词自动生成歌词并演唱。网易 2022 年 1 月网易推出首个人工智能音乐创作平台网易天音,主要实现编曲环节(顺便解决了混音环节)的自动化。资料来源:各平台官网、华泰研究#1 TTS 场景:广泛应用于客服硬件机器人、有声读物制作、语音播报等场景:广泛应用于客服硬件机器人、有声读物制作、语音播报等 TTS(Text-to-speech)技术为文字内容有声化提供规模化能力,在)

97、技术为文字内容有声化提供规模化能力,在 AIGC 领域下技术已领域下技术已相当成熟,广泛应用于客服及硬件机器人、有声读物制作、语音播报等。相当成熟,广泛应用于客服及硬件机器人、有声读物制作、语音播报等。TTS 技术是一种文字转语音技术,可以从文本中获取足够的信息用于语音合成。基于深度学习的端到端语音合成模式正在逐步替代传统的拼接及参数法,可以通过丰富文本信息(如文本的深层情感、深层语义了解等)更好的表现其中的抑扬顿挫,以及基于用户较少的个性化数据得到整体的复制能力,代表模型包括 WaveNet、Deep Voice 及 Tacotron 等。免责声明和披露以及分析师声明是报告的一部分,请务必一

98、起阅读。22 传媒传媒 TTS 技术覆盖新技术覆盖新闻、电子书、虚拟闻、电子书、虚拟 IP、短视频配音等多个领域。、短视频配音等多个领域。以倒映有声为例,公司致力于打造 AIGC 神经渲染引擎,率先布局 AI 数字分身 IP 生态,并通过数字分身 IP 的人工智能来自主生成内容。其独家研发的无人驱动数字分身可以实现内容播报与交互功能输出,覆盖新闻资讯播报、有声读物制作、自媒体有声化、虚拟 IP 声音定制、短视频配音、金融领域数字人服务、文旅领域互动、游戏娱乐聊天等多种场景,帮助提升内容制作产能超200%,节省 90%的制作成本。图表图表40:倒映有声应用场景倒映有声应用场景 图表图表41:倒映

99、有声数字分身内容创作平台倒映有声数字分身内容创作平台 资料来源:倒映有声官网、华泰研究 资料来源:倒映有声官网、华泰研究 语音克隆对于电子书、动画、电影、以及虚拟人行业等有重要意义。语音克隆对于电子书、动画、电影、以及虚拟人行业等有重要意义。语音克隆是本质上属于指定了目标语音(如特定发言人)的 TTS,该技术目前被应用于虚拟歌手演唱、自动配音等。喜马拉雅运用 TTS 技术在电子书、新闻等领域实现了较广的应用,能够高效地将新闻、书籍和文章中的大量文字信息转为音频,大幅提升了音频的生产效率。运用 TTS 技术喜马拉雅重现单田芳声音版本的毛氏三兄弟和历史类作品,“单田芳声音重现”账号已经上线 6 部

100、专辑作品。百度语音合成团队使用李彦宏约 1 小时音频素材,通过 AIGC 技术生成了智能交通有声书。podcast.ai 通过乔布斯的传记和收集网络上关于他的所有录音,利用 Play.ht 的语言模型大量训练生成 Joe Rogan 采访乔布斯的播客内容。图表图表42:喜马拉雅实现“单田芳声音重现”喜马拉雅实现“单田芳声音重现”图表图表43:podcast.ai 推出推出 AI 播客成功克隆乔布斯语音播客成功克隆乔布斯语音 资料来源:喜马拉雅官网、华泰研究 资料来源:podcast.ai 官网、华泰研究#2 乐曲乐曲/歌曲生成:已推出歌曲生成:已推出 AI 音乐创作平台和作曲软件音乐创作平台和

101、作曲软件 AIGC 可以简化乐曲可以简化乐曲/歌曲生成的流程,降低音乐创作的门槛。歌曲生成的流程,降低音乐创作的门槛。AIGC 在词曲创作中的功能可被逐步拆解为作词(NLP 中的文本创作/续写)、作曲、编曲、人声录制和整体混音。AIGC 能通过强大的数字处理能力兼顾歌曲从制作到演唱的全流程,实现化繁为简,在短时间内完成音乐作品创作。目前,AIGC 已经支持基于开头旋律、图片、文字描述、音乐类型、情绪类型等生成特定乐曲。免责声明和披露以及分析师声明是报告的一部分,请务必一起阅读。23 传媒传媒 通过通过 AI 作曲功能,创作者可以得到作曲功能,创作者可以得到 AI 创作的纯音乐或乐曲中的主旋律,

102、创作的纯音乐或乐曲中的主旋律,AI 生成的乐曲已生成的乐曲已经在演奏舞台上广泛演出。经在演奏舞台上广泛演出。AI 作曲以语言模型为中介,通过 MIDI 等路径对音乐数据进行双向转化,在过程中不但需要对段落、调性等高维度的乐理知识进行专业提取,而且 AI 会自动提取节奏、音高、音长等低维度乐理信息。2019 年深圳交响乐团上演了全球首部 AI交响变奏曲我和我的祖国;2020 年网易首次完成由 AI 完全生成的歌曲醒来;2021年底全球首部人工智能生成的古琴曲烛完成首演;2021 年末,贝多芬管弦乐团在波恩首演人工智能谱写完成的贝多芬未完成之作第十交响曲,即为 AI 基于对贝多芬过往作品的大量学习

103、,进行自动续写。图表图表44:网易首支全链路网易首支全链路 AI 歌曲醒来歌曲醒来 图表图表45:全球首部全球首部 AI 交响变奏曲我和我的祖国演奏现场交响变奏曲我和我的祖国演奏现场 资料来源:网易官网、华泰研究 资料来源:深圳交响乐团官网、华泰研究 AI 编曲基于主旋律和创作者个人的偏好,生成不同乐器的对应和弦完成整体编配,多家公编曲基于主旋律和创作者个人的偏好,生成不同乐器的对应和弦完成整体编配,多家公司已推出司已推出 AI 音乐创作平台和作曲软件。音乐创作平台和作曲软件。AI 编曲在特定乐曲/情绪风格内学习主旋律和特定要素间的映射关系,从而基于主旋律生成自身所需和弦。Amper Musi

104、c 于 2019 年推出首个人工智能作曲平台 Amper ScoreTM,可以根据项目的独特性创作出符合风格、长度和结构的定制音乐,帮助使用素材音乐库的视频编辑者节省 90%选择音乐和编辑音乐的时间。DeepMusic 开发了针对视频生成配乐的配乐猫、支持非音乐专业人员创作的口袋音乐、可AI 生成歌词的 LYRICA、AI 作曲软件 LAZYCOMPOSER,从作词、作曲、编曲、演唱、混音等方面全方位降低音乐创作及制作门槛。图表图表46:人工智能作曲平台人工智能作曲平台 Amper ScoreTM 图表图表47:DeepMusic 推出推出 AI 音音乐工作站口袋音乐乐工作站口袋音乐 资料来源

105、:Amper Music 官网、华泰研究 资料来源:DeepMusic 官网、华泰研究 自动编曲功能已在国内主流音乐平台上线,与虚拟偶像演出一同成为重点关注领域。自动编曲功能已在国内主流音乐平台上线,与虚拟偶像演出一同成为重点关注领域。QQ音乐成为 AI 音乐公司 Amper music 的 API 合作伙伴,腾讯 AI Lab 开发 AI 识图作曲技术并推出 AI 虚拟偶像“艾灵”,可通过用户提供的关键词自动生成歌词并演唱;2022 年 1 月网易推出首个人工智能音乐创作平台网易天音;快手通过自主研究,推出了 AI 音乐创作模型和 AI 歌手,并邀请平台内的音乐人使用 AI 模型进行歌曲创作

106、。免责声明和披露以及分析师声明是报告的一部分,请务必一起阅读。24 传媒传媒 图表图表48:腾讯腾讯 AI 虚拟偶像“艾灵”虚拟偶像“艾灵”图表图表49:人工智能音乐创作平台网易天音人工智能音乐创作平台网易天音 资料来源:腾讯官网、华泰研究 资料来源:网易天音官网、华泰研究 视频:可实现视频:可实现视频自动编辑、视频自动生成和文字生成视频等视频自动编辑、视频自动生成和文字生成视频等 AIGC 视频生成可以降低视频制作时间,主要应用于视频自动编辑、视频自动生成和文字视频生成可以降低视频制作时间,主要应用于视频自动编辑、视频自动生成和文字生成视频等。生成视频等。其中,视频自动编辑具备视频属性编辑和

107、视频自动剪辑两大功能,视频属性编辑能帮助节省视频制作时间,增加视频玩法,视频自动剪辑在短视频和直播领域被大量使用。代表公司有 Runway ML、不咕剪辑、Adobe、IBM、网达软件、闪剪、字节跳动剪映和快手的云剪。视频完全自动生成仍处于技术尝试阶段,所生成视频的时长、清晰度、逻辑程度等仍有较大的提升空间,已在动画制作应用落地,代表公司和产品包括百度文心一格、小冰公司和 Synthesia。文本生成视频可以看作文本生成图像的进阶版技术,目前已有成熟产品,代表公司和产品包括 Meta、谷歌、百度智能视频合成平台 VidPress、Gliacloud、Pencil 等。图表图表50:AIGC 在

108、视频生成领域部分应用案例在视频生成领域部分应用案例 应用环节应用环节 代表公司代表公司 应用案例应用案例 视频自动编辑 Runway ML 推出 AI 视频创意工具平台 Runway,主打的 AI 辅助功能有三个:绿幕功能、视频修复功能和运功功能,通过点选的方式AI 自动补全贴合主题的轮廓,周围的背景通过 AI 计算进行填充。不咕剪辑 不咕剪辑 Cooclip 可以通过人工智能进行视频抠像分轨,内置丰富的贴纸、音频、经典“梗”素材等,可以增加视频本身的玩法与乐趣。Adobe 与斯坦福共同研发的 AI 视频剪辑系统,可以将所有镜头包括多个角度拍摄的画面按照脚本进行组织,准确的识别出需要剪辑的内容

109、,系统会利用面部识别和情绪识别系统,对每一帧画面进行分析。IBM IBM Watson 自动剪辑科幻电影摩根的预告片,制作预告片的时间缩减到 24 小时,而通常需要 10 天到一个月。网达软件 网达视频实时智能云剪系统,可以边直播、边录制、边剪辑,实现分钟级短视频智能剪辑发布,具有集锦自动制作、智能封面提取、热点视频自动制作、全景直播拆条等功能。闪剪 智能直播切片系统通过 AI 识别直播间的精彩片段,实现直播间内容智能剪辑,再通过矩阵化运营,带来增量曝光与二次转化。字节跳动 抖音短视频剪辑软件剪映支持 AI 识别字幕和文本朗读、智能抠图和绿幕抠图等各功能,提升短视频制作效率。快手 快手的短视频

110、剪辑软件云剪支持 AI 识别字幕、智能封面、智能抠图和绿幕抠图等各功能,提升短视频制作效率。视频自动生成 百度 百度文心一格联合推出 AIGC 视频短片AI 描绘天宫盛宴,进一步提升了 AI 作画的可控性、复杂构图和细节刻画能力,AI 作画不再单纯地输出一帧帧高质量图片,而是基于统一的风格,尝试连续地讲述一个完整的故事。小冰公司 推出全球首支 AIGC 动画短片犬与少年,采用 rinna 开发的 AI 辅助背景进行制作,极大地简化了从导演分镜表到Layout“设计图”的工序环节。Synthesia Synthesia 为 Snoop Dogg 制作的广告,通过使用 deepfake 改变其嘴部

111、动作,就能够将原始广告匹配到另一品牌。文字生成视频 百度 百度智能视频合成平台 VidPress 可以实现文字分析和摘要、视频内容搜索、素材智能化处理、音视频对齐,以及智能剪辑等 5 个步骤的自动化。Gliacloud 输入文本链接,自动对其中的标题和文字进行区分表示。自动配素材和文字的出现方式,形成说明式的视频。能够增加10 倍的视频产量。Meta Make-A-Video 是一款可以直接基于文字生成短视频的人工智能系统,目前系统可以根据输入文字或者图片自动生成准确率很高的 5 秒钟短视频片段。谷歌 推出 Imagen Video 和 Phenaki,相比于 Make-A-Video,Ima

112、gen Video 的视频清晰度和分辨率更高,可以产生分辨率1280768 的 5.3 秒视频。Phenaki 可根据提示语智能生成极其贴近文本描述的 2 分钟以上的长视频 资料来源:各平台官网、华泰研究 免责声明和披露以及分析师声明是报告的一部分,请务必一起阅读。25 传媒传媒#1 视频自动编辑:主要应用于视频属性编辑和视频自动剪辑视频自动编辑:主要应用于视频属性编辑和视频自动剪辑 AIGC 在视频自动编辑领域的应用主要为视频属性编辑和视频自动剪辑两类。在视频自动编辑领域的应用主要为视频属性编辑和视频自动剪辑两类。针对视频属性编辑,AIGC 可以实现视频画质修复、删除画面中特定主体、自动跟踪

113、主题剪辑、生成视频特效、自动添加特定内容、视频自动美颜等;对于视频自动剪辑,AIGC 可以基于视频中的画面、声音等多模态信息的特征融合进行学习,按照氛围、情绪等高级语义限定,对满足条件片段进行检测并合成。视频视频属性编辑:视频修复等功能帮助节省制作时间,特效等功能可以增加视频玩法。属性编辑:视频修复等功能帮助节省制作时间,特效等功能可以增加视频玩法。Runway ML 推出 AI 视频创意工具平台 Runway,主打的 AI 辅助功能有三个:绿幕功能,可以把选择的对象以绿幕的方式作为视频主题剪裁出来,通过点选的方式 AI 自动补全贴合主题的轮廓;视频修复功能,类似图片的 PS 功能,周围的背景

114、通过 AI 计算进行填充;运动功能,视频效果(如标题)可以跟随主体运动。不咕剪辑 Cooclip 可以通过人工智能进行视频抠像分轨,内置丰富的贴纸、音频、经典“梗”素材等,可以增加视频本身的玩法与乐趣。图表图表51:Runway工工作原理作原理 图表图表52:不咕剪辑实机操作曲面跟踪特效不咕剪辑实机操作曲面跟踪特效 资料来源:Runway ML 官网、华泰研究 资料来源:不咕剪辑公司官网、华泰研究 视频自动剪辑:目前主要在技术尝试阶段。视频自动剪辑:目前主要在技术尝试阶段。Adobe 与斯坦福共同研发的 AI 视频剪辑系统,可以将所有镜头包括多个角度拍摄的画面按照脚本进行组织,准确的识别出需要

115、剪辑的内容,系统会利用面部识别和情绪识别系统,对每一帧画面进行分析。IBM Watson 自动剪辑科幻电影摩根的预告片,制作预告片的时间缩减到 24 小时,而通常需要 10 天到一个月。我国的公司影谱科技推出了相关产品,能够基于视频中的画面、声音等多模态信息的特征融合进行学习,按照氛围、情绪等高级语义限定,对满足条件片段进行检测并合成。AIGC 在短视频和直播领域被大量使用,短视频自动剪辑内容更快更高效。在短视频和直播领域被大量使用,短视频自动剪辑内容更快更高效。网达视频实时智能云剪系统,可以边直播、边录制、边剪辑,实现分钟级短视频智能剪辑发布,具有集锦自动制作、智能封面提取、热点视频自动制作

116、、全景直播拆条等功能。智能直播切片系统通过 AI 识别直播间的精彩片段,实现直播间内容智能剪辑,再通过矩阵化运营,带来增量曝光与二次转化。抖音和抖音的短视频剪辑软件剪映与云剪支持 AI 识别字幕和文本朗读,智能封面、智能抠图和绿幕抠图等各功能,提升短视频制作效率。免责声明和披露以及分析师声明是报告的一部分,请务必一起阅读。26 传媒传媒 图表图表53:影谱科技视频剪辑产品影谱科技视频剪辑产品 图表图表54:抖音短视频剪辑软件剪映抖音短视频剪辑软件剪映 资料来源:影谱科技官网、华泰研究 资料来源:剪映官网、华泰研究#2 视频自动生成:全自动生成技术仍在尝试,在动画、广告和特定商务场景应用落地视频

117、自动生成:全自动生成技术仍在尝试,在动画、广告和特定商务场景应用落地 不引用现有素材完全从头生成视频仍处于技术尝试阶段,在图像生成的基础上可以实现简不引用现有素材完全从头生成视频仍处于技术尝试阶段,在图像生成的基础上可以实现简单的视频短片制作,所生成视频的时长、清晰度、逻辑程度等仍有较大的提升空间。单的视频短片制作,所生成视频的时长、清晰度、逻辑程度等仍有较大的提升空间。目前的 AI 技术不仅可以生成图片,也能够生成序列帧,通过 AI 逐帧完成图片生成,制作视频短片。如 2022 年 12 月我国新华社与百度文心一格联合推出 AIGC 视频短片AI 描绘天宫盛宴,进一步提升了 AI 作画的可控

118、性、复杂构图和细节刻画能力,AI 作画不再单纯地输出一帧帧高质量图片,而是基于统一的风格,尝试连续地讲述一个完整的故事。AIGC 在动画制作领域已经开始商业化落地。在动画制作领域已经开始商业化落地。犬与少年由小冰公司日本分部(rinna)、WIT STUDIO 与合作伙伴共同创作,该片采用 rinna 开发的 AI 辅助背景进行制作,极大地简化了从导演分镜表到 Layout“设计图”的工序环节,将手工着色的“设计图”提交至AI 生成细化并优化背景,再对 AI 生成的背景图进行修正,进而通过人工智能技术绘制完整动画场景。图表图表55:AIGC 视频短片视频短片AI 描绘天宫盛宴描绘天宫盛宴 图表

119、图表56:全球首支全球首支 AIGC 动画短片犬与少年动画短片犬与少年 资料来源:新华网、华泰研究 资料来源:小冰公司官网、华泰研究 AIGC 能够实现视频中的人脸合成、虚拟环境合成等功能。能够实现视频中的人脸合成、虚拟环境合成等功能。视频生成技术的本质是基于目标图像或视频对源视频进行编辑及调试,通过基于语音等要素逐帧复刻,能够完成人脸替换、人脸再现(人物表情或面部特征的改变)、人脸合成(构建全新人物)甚至全身合成、虚拟环境合成等功能。以人脸合成为例,首先需要对源人物及目标人物的多角度特征数据提取,然后基于数据对模型进行训练并进行图像的合成,最后基于合成的图像将原始视频进行转换。免责声明和披露

120、以及分析师声明是报告的一部分,请务必一起阅读。27 传媒传媒 人脸合成等技术可以在广告和特定商务场景得到应用。人脸合成等技术可以在广告和特定商务场景得到应用。广告方面,可以选择服务于明星,在多语言广告、碎片化内容生成等领域使用,快速提升明星的 IP 价值。例如 Synthesia 为Snoop Dogg 制作的广告,通过使用 deepfake 改变其嘴部动作,就能够将原始广告匹配到另一品牌。除 deepfake 外,AIGC 还可以实现在视频中的虚拟内容植入生成个性化广告,也即利用计算机图形学和目标检测在视频中生成物理世界并不存在的品牌虚拟元素,如logo、产品、吉祥物等。在特定商务场景,AI

121、GC 可以应用于培训材料分发(如 WPP 的全球培训视频)、素人直播及短视频拍摄等。图表图表57:deepfake 人脸合成技术工作原理人脸合成技术工作原理 图表图表58:Synthesia 制作合成广告制作合成广告 资料来源:公司官网、华泰研究 资料来源:公司官网、华泰研究#3 文字生成视频:已有成熟产品,文字生成视频:已有成熟产品,Meta 和谷歌竞争激烈和谷歌竞争激烈 文本生成视频可以看作文本生成图像的进阶版技术。文本生成视频可以看作文本生成图像的进阶版技术。一方面,文本生成视频同样是以Token 为中介,关联文本和图像生成,逐帧生成所需图片,最后逐帧生成完整视频。而另一方面,视频生成会

122、面临不同帧之间连续性的问题。对生成图像间的长序列建模问题要求更高,以确保视频整体连贯流程。从数据基础来看,视频所需的标注信息量远高于图像。目前已经进入可商用阶段,国外有较为成熟的产品。目前已经进入可商用阶段,国外有较为成熟的产品。文字生成视频需要基于文字(涉及NLP 语义理解)搜索合适的配图、音乐等素材,在已有模板的参考下完成自动剪辑。代表公司/产品方面,ToC 的包括百度智能视频合成平台 VidPress、慧川智能、Gliacloud、Synths.video、lumen5,ToB 端代表公司为 Pencil。以百度智能视频合成平台 VidPress 为例,其工作原理与编辑制作视频的步骤相似

123、,先准备文本脚本,收集媒体材料后将材料处理成视频片段,将脚本配音与视频对齐,最后编辑检查。通过 AI 技术,VidPress 可以实现文字分析和摘要、视频内容搜索、素材智能化处理、音视频对齐,以及智能剪辑等 5 个步骤的自动化。图表图表59:Gliacloud 输入文本形成说明式视频输入文本形成说明式视频 图表图表60:Pencil 基于文字生成广告创意基于文字生成广告创意 资料来源:量子位、华泰研究 资料来源:量子位、华泰研究 免责声明和披露以及分析师声明是报告的一部分,请务必一起阅读。28 传媒传媒 两大巨头两大巨头 Meta 和谷歌竞争激烈。和谷歌竞争激烈。Meta 公司在 2022 年

124、 9 月 29 日推出的 Make-A-Video 是一款可以直接基于文字生成短视频的人工智能系统。据 Meta 公司透露,技术人员在开发该产品的过程中结合了几百万个视频和 23 亿张图片数据集数据来训练其模型,目前系统可以根据输入文字或者图片自动生成准确率很高的 5 秒钟短视频片段。在 Meta 发布了Make-A-Video 的一周后,谷歌推出 Imagen Video 和 Phenaki,相比于 Make-A-Video,Imagen Video 的视频清晰度和分辨率更高,可以产生分辨率 1280768 的 5.3 秒视频。Phenaki 可根据提示语智能生成极其贴近文本描述的 2 分钟

125、以上的长视频,在公布的DEMO 中,Phenaki 基于几百个单词组成一段前后逻辑连贯的视频只需两分钟。图表图表61:Meta 推出推出 Make-A-Video 图表图表62:Phenaki 可以生成时间上连贯的多样化视频可以生成时间上连贯的多样化视频 资料来源:Meta 官网、华泰研究 资料来源:谷歌官网、华泰研究 其他:游戏其他:游戏/代码代码/3D 生成等领域应用前景广阔生成等领域应用前景广阔 AIGC 应用场景多元,随着应用场景多元,随着 AIGC 技术发展愈加成熟,在游戏技术发展愈加成熟,在游戏/代码代码/3D 生成等领域将迎来生成等领域将迎来蓬勃发展。蓬勃发展。目前游戏生成中游戏

126、操作策略生成、NPC 逻辑及剧情生成和游戏资产已经得到应用,AIGC 生成代码能替代编码中大部分重复性劳动,3D 生成尚处于早期阶段。代表产品/公司包括 Deepmind、rct AI、腾讯、Scenario、Runway、Epic Games 游戏黑客帝国:觉醒、谷歌 DreamFusion、英伟达 Magic3D 和 GET3D、GitHub Copilot 等 图表图表63:AIGC 在其他领域部分应用案例在其他领域部分应用案例 应用环节应用环节 代表公司代表公司 应用案例应用案例 游戏生成 腾讯“绝悟”AI 通过强化学习的方法来模仿真实玩家,包括发育、运营、协作等指标类别,以及每分钟手

127、速、技能释放频率、命中率、击杀数等具体参数,让 AI 更接近正式服玩家真实表现,测试的总体准确性提升到 95%。rct AI rct AI 的混沌球(Chaos Box)算法可以在游戏中大规模地轻松生成具有智能意识的虚拟角色,进而实现性格化 NPC、对抗式 AI、互动式 AI、大规模智能 NPC 部署、智能留存及智能运营策略等。Scenario 用户可通过视频拍摄现实生活的中的 3D 物体然后生成在游戏中对应的模型,在 Stable Diffusion 的基础上,Scenario 推出了一个面向游戏开发者和游戏设计的是 AIGC 工具,专注于生成各种游戏资产。3D 生成 Runway 基于 d

128、iffusion 推出了一个 AI 生成 3D 素材的模型,可快速生成 3D 纹理。谷歌 发布 DreamFusion,能够使用文本到图像模型先生成 2D 图像,然后优化为体积 NeRF 数据,目前成成的 3D 内容质量不高。英伟达 发布的 Magic3D 可以在大约 40 分钟内生成一个 3D 网格模型并配有彩色纹理,比谷歌 DreamFusion 的 3D 生成速度更快,22 年 12 月新发布 GET3D 可以合成 3D 几何体,每秒可生成约 20 个物体。代码生成 GitHub Copilot GitHub Copilot 可根据命名或者正在编辑的代码上下文为开发者提供代码建议。据官方

129、介绍,其已经接受来自 GitHub 上公开可用存储库的数十亿行代码的训练,支持大多数编程语言,近 30%GitHub 网站上的新代码是在 AI 的帮助下完成的。资料来源:各平台官网、华泰研究 免责声明和披露以及分析师声明是报告的一部分,请务必一起阅读。29 传媒传媒 游戏内容形式复杂,包含游戏内容形式复杂,包含 2D 图像、图像、3D 建模、音频、视频、数字资产等,建模、音频、视频、数字资产等,AIGC 将对游戏将对游戏内容生产的各方面形成冲击,内容生产的各方面形成冲击,AIGC 在游戏当中的应用包括以下方面:在游戏当中的应用包括以下方面:1)游戏操作策略生成。游戏操作策略生成。人工智能玩家生

130、成真实对战策略,帮助游戏进行前期平衡性测试、游戏跑图/功能测试、对局陪伴、特定风格模拟等。2016 年 Deepmind AlphaGO 在围棋中有所展示,随后,AI 决策在 Dota2、StarCraft2、德扑、麻将等游戏领域中均展现出了良好的实力。腾讯“绝悟”AI 通过强化学习的方法来模仿真实玩家,包括发育、运营、协作等指标类别,以及每分钟手速、技能释放频率、命中率、击杀数等具体参数,让 AI 更接近正式服玩家真实表现,测试的总体准确性提升到 95%。2)NPC 逻辑及剧情生成。逻辑及剧情生成。开放世界游戏越来越受欢迎,通过 AIGC 来创建场景和 NPC都将会大幅度提升效率和降低成本。

131、rct AI 成立于 2018 年,运用人工智能为游戏行业提供完整的解决方案,rct AI 的混沌球(Chaos Box)算法可以在游戏中大规模地轻松生成具有智能意识的虚拟角色,进而实现性格化 NPC、对抗式 AI、互动式 AI、大规模智能 NPC 部署、智能留存及智能运营策略等。3)游戏资产的生成。游戏资产的生成。Scenario 用户可通过视频拍摄现实生活的中的 3D 物体然后生成在游戏中对应的模型,在 Stable Diffusion 的基础上,Scenario 推出了一个面向游戏开发者和游戏设计的是 AIGC 工具,专注于生成各种游戏资产。图表图表64:腾讯腾讯 AI Lab 在游戏产

132、业全链路中的研究与应用能力在游戏产业全链路中的研究与应用能力 图表图表65:rct AI 利用混沌球算法构建的“盗梦人”原型利用混沌球算法构建的“盗梦人”原型 资料来源:腾讯 AI Lab 官网、华泰研究 资料来源:rct AI 官网、华泰研究 AIGC 日益成为日益成为 3D 内容生成的基础技术支撑。内容生成的基础技术支撑。传统的 3D 制作需要耗费大量的时间和成本,相比于 2D 内容的制作,3D 内容蕴含的信息量更多、制作成本更高、制作周期更长。随着Diffusion 模型、NeRF 模型的发展,AIGC 在 3D 内容生成的应用上迎来了快速的发展,3D 模型、场景和角色制作能效提升。3D

133、 内容生成对游戏、电影、室内设计等领域产生影响。内容生成对游戏、电影、室内设计等领域产生影响。3D 纹理和素材是制作 3D 游戏和电影必不可少的元素,近期 Runway 基于 diffusion 推出了一个 AI 生成 3D 素材的模型,可快速生成 3D 纹理。2022 年虚幻引擎和 Epic Games 推出的黑客帝国:觉醒利用虚幻 5 引擎技术下,建立了 700 万个实例化资产,每个资产由数百万个多边形组成,包括7000 栋建筑、38000 辆可驾驶车和超过 260 公里的道路。通过 NeRF 模型可以快速生成3D 室内建模,并且可以通过文字指令来切换整体的风格,腾讯旗下“腾讯云三维建模”

134、软件通过手机拍照可以实现快速对实际场景进行三维重建的功能。免责声明和披露以及分析师声明是报告的一部分,请务必一起阅读。30 传媒传媒 图表图表66:Meta 推出推出 Make-A-Video 图表图表67:腾讯云三维建模软件通过手机拍照可实现腾讯云三维建模软件通过手机拍照可实现 3D 建模建模 资料来源:AIGC 发展趋势报告 2023、华泰研究 资料来源:苹果应用商店、华泰研究 谷歌和英伟达在谷歌和英伟达在 3D 内容生成上较为领先。内容生成上较为领先。2022 年 10 月谷歌发布 DreamFusion,能够使用文本到图像模型先生成 2D 图像,然后优化为体积 NeRF 数据,目前生成

135、的 3D 内容质量不高。英伟达发布的 Magic3D 可以在大约 40 分钟内生成一个 3D 网格模型并配有彩色纹理,比谷歌 DreamFusion 的 3D 生成速度更快,22 年 12 月新发布 GET3D 可以合成3D 几何体,每秒可生成约 20 个物体。图表图表68:Magic3D(1、3 列)与列)与 DreamFusion(2、4 列)对比列)对比 图表图表69:GET3D 基于基于 AI 生成的具有光影效果的生成的具有光影效果的 3D 物体模型物体模型 资料来源:AIGC 发展趋势报告 2023、华泰研究 资料来源:AIGC 发展趋势报告 2023、华泰研究 AIGC 生成代码能

136、替代编码中的重复性劳动,为程序员工作带来巨大效率提升。生成代码能替代编码中的重复性劳动,为程序员工作带来巨大效率提升。GitHub 和OpenAI 合作产生 AI 代码生成工具 GitHub Copilot,可根据命名或者正在编辑的代码上下文为开发者提供代码建议。据官方介绍,其已经接受来自 GitHub 上公开可用存储库的数十亿行代码的训练,支持大多数编程语言,近近 30%GitHub 网站上的新代码是在网站上的新代码是在 AI 的帮的帮助下完成的助下完成的。图表图表70:AI 代码生成工具代码生成工具 GitHub Copilot 图表图表71:OpenAI 与与 GitHub Copilo

137、t 的合作的合作 资料来源:GitHub 官网、华泰研究 资料来源:GitHub 官网、华泰研究 免责声明和披露以及分析师声明是报告的一部分,请务必一起阅读。31 传媒传媒 相关公司相关公司 图表图表72:AIGC 内容相关上市公司梳理内容相关上市公司梳理 代码代码 公司名称公司名称 相关布局相关布局 A 股股 000681 CH 视觉中国 公司在 AIGC 领域布局包括:1)在“元视觉”平台进行 AIGC 的 NFT 数字艺术品发售;2)通过 AIGC 将自然语义和传统关键词结合,优化图片搜索结果,提升准确命中率从而提升图片付费转化率;3)基于公司自有图片集进行小模型训练做 AIGC 小工具

138、帮助平台上的专业供稿人员进行图片创作,提升生产效率、拓展图片品类。300418 CH 昆仑万维 公司主要布局有四大 AIGC 模型,分别是天工乐府 SkyMusic、天工巧绘 SkyPaint、天工妙笔 SkyText、天工智码 SkyCode,覆盖图像、音乐、文本、编程等多模态内容生成。昆仑万维在音乐最成熟,目前商业化主要面向 ToB 端。300364 CH 中文在线 AI 主播:已在有声书生产中应用,根据文字故事情节的真实语境,生动模拟音色以塑造角色,适用于文学类故事小说音频化;AI 辅助创作:已在 17K 平台上线,目前可针对人物、物品进行辅助创作;AI 绘画:已在小黑屋云写作 App

139、上线,输入文字能够生成图像;还在探索音生短视频、文生动漫、文生剧本等领域。300058 CH 蓝色光标 AIGC 聚焦于 web 3.0 时代的营销全内容的创造,布局包括:1)虚拟人快速建设平台“分身有术”;2)虚拟直播间产品“蓝标智播”;3)“销博特”平台,发布“创意画廊”一键生成抽象画的平台。销博特还可以通过 AIGC 去生成 slogan、海报、文案等。603466 CH 风语筑 风语筑是中国展览展示龙头。公司在虚拟展厅、虚拟数字人、虚拟场景以及数字艺术创作领域均有结合 AI 技术的探索与应用,有效提升了数字创意、三维设计与 3D 内容创作的效率和独特性,未来 AI 生成内容的精细度及个

140、性化交互能有有望持续提升。605168 CH 三人行 公司持续积累 AIGC 技术应用经验,创意团队利用包括 ChatGPT 等工具回应客户需求,为文案、平面、视频等广告创意提供改进意见。同时公司借助积累的海量营销数据,利用相关技术不断完善 AI 创意能力。300785 CH 值得买 2017 年 10 月起,公司便尝试通过算法和机器的方式生产内容 MGC(Machine-Generated Content,机器贡献内容)。2021 年公司机器贡献的内容占比为 18.97%。300624 CH 万兴科技 目前已在多个产品内落地虚拟人、文生图、AI 智能抠像、AI 智能降噪、AI 音乐重组、AI

141、 换脸等功能,并逐步从泛娱乐、泛知识向泛营销领域等多场景渗透。目前万兴科技旗下 AIGC 新品万兴爱画已实现网页端、iOS、安卓、微信小程序多端覆盖,旗下视频创意软件万兴喵影已集成 AIGC 功能,用户在视频剪辑时可智能生成图片素材。300182 CH 捷成股份 公司参股公司世优科技拥有包括实时驱动数字人、AI 数字人、2.5D 数字人、捏人等全栈数字人产品技术体系;世优科技 2019 年推出了 AIGC 类产品世优 AI 快速短视频系统,快速为客户生成高质量的短视频内容,赋能内容生产。600986 CH 浙文互联 公司持续探索科技赋能营销,此外公司旗下米塔数字艺术作为元宇宙艺术创作社区,已开

142、启 AIGC 模式,现支持 AI 绘画和手动绘画两种模式,打开 AI 绘画即可使用 AI 进行绘制。603825 CH 华扬联众 将虚拟数字人核心技术与 AIGC 相结合,应用于汽车动态销售场景,推出了 AI 数字人直播 SAAS 系统,帮助商家通过数字人视频+数字人直播的方式获客。300612 CH 宣亚国际 公司正在积极探索布局“元宇宙+AI”的垂直领域场景服务,如目前推进的乡村元宇宙搭建过程中,人工智能将赋予虚拟农业数字人在智能互动、行为驱动等层面,以及相关农产品模块内容生成层面更好的技术支持。002624 CH 完美世界 公司关心前沿技术在游戏研发中的作用,已将 AI 相关技术应用于游

143、戏中的智能 NPC、场景建模、AI 剧情、AI 绘图等方面。港股港股 9888 HK 百度集团 2023 年 2 月,百度公布了大模型新项目文心一言(ERNIE Bot),据彭博社,百度计划在 2023 年 3 月将最初的版本将内嵌到搜索服务中。文心一格基于自研的 ERNIE-ViLG 2.0,支持国风、油画、水彩、水粉、动漫、写实等十余种不同风格高清画作的生成。1357 HK 美图公司 公司旗下的美图 AI 开放平台专注于人脸技术、人体技术、图像识别、图像处理、图像生成等核心领域。面向 C 端的美图秀秀则通过医美级去皱、面部丰盈、一键更换刘海等增值功能收费。772 HK 阅文集团 以数字阅读

144、为基础,IP 培育与开发为核心的综合性文化产业集团。旗下囊括 QQ 阅读、起点中文网、新丽传媒等业界品牌,受益AIGC 提高产出效率。资料来源:各公司官网、深交所互动易、上证 e 互动、华泰研究 昆仑万维(昆仑万维(300418 CH,“买入”评级,目标价,“买入”评级,目标价 24.88 元元)公司在 22 年 12 月发布 AIGC 全系列算法与模型,旗下产品包括天工巧绘 SkyPaint、天工乐府 SkyMusic、天工妙笔 SkyText、天工智码 SkyCode,覆盖图像、音乐、文本、编程等多模态,其中音乐领域保持领先,据互动易,公司旗下 Opera 浏览器计划接入ChatGPT 功

145、能。此外公司主业稳健,夯实基本盘,其中 StarX 降本增效持续增厚利润;Opera 业绩高速增长;Ark Game 国内储备有圣境之塔;闲徕互娱筑基现金流。我们预计 22-24 年归母净利预测 10.42/12.17/13.98 亿元,分部估值法计算市值 294 亿元(Star Group 4.5X 2023PS,Opera 4.5X 2023 PS,游戏业务 13.0X 2023 PE),对应目标价24.88 元,给予“买入”评级。(估值日期:2023 年 2 月 9 月)风险提示:版号发放不及预期,游戏表现不及预期,AIGC 发展不及预期等。免责声明和披露以及分析师声明是报告的一部分,请

146、务必一起阅读。32 传媒传媒 蓝色光标(蓝色光标(300058 CH,“买入”评级,目标价,“买入”评级,目标价 6.96 元元)AI 技术在公司业务中的应用主要有:1)从 22 年开始,AIGC 生成提案中的部分内容,如参考场景等,节省大量时间,提升人效;2)22 年公司已实现使用图片生成模型的技术,3 分钟即可生产一个模型,节省数字人建模时间;3)通过 AIGC 生成定制化的数字藏品;4)通过 AI 生成视频脚本、人物形象、驱动交互,快速生成定制化的视频。同时公司正积极试用人机对话技术,自有虚拟人苏小妹已经介入 AI 多轮对话,AI 作诗能力已经进入技术测试阶段,公司也在做其他人机对话产品

147、的试用和调试。我们预计 22-24 年归母净利润为-19.48/5.88/6.53 亿元,可比公司 Wind 一致预期 23 年 PE 均值 23X,考虑公司元宇宙及 AIGC 业务布局领先、出海广告龙头地位,给予 23 年 PE 29X,目标价 6.96 元,给予“买入”评级。(估值日期:2023 年 2 月 9 日)风险提示:宏观经济疲软、元宇宙&AIGC 业务发展不及预期等。风语筑(风语筑(603466 CH,“买入”评级,目标价,“买入”评级,目标价 17.68 元)元)公司发布 2022 年业绩预告,预计全年实现归母净利润 5,600 万元8,000 万元,同比减少87.24%至 8

148、1.77%;预计实现扣非归母净利润 2,600 万元3,700 万元,同比减少 93.68%至 91.01%。业绩下滑主要因 22H1 公司总部所处地上海受疫情影响较大,下半年物流不畅、差旅不便,业务实施进度及交付出现延迟。公司经营恢复下,业绩修复态势有望在 23年继续保持;同时虚拟现实、元宇宙等相关领域支持政策陆续出台,公司元宇宙领域创新业务发展及数字化体验业务线上化拓展有望加速,我们建议关注后续公司订单获取转化节奏及数字创新应用场景拓展情况。我们预计 22-24 年归母净利润 0.70/4.06/4.75 亿元。可比公司 23 年 PE Wind 一致预期均值 26X,我们给予 23 年

149、26X PE,对应目标价 17.68 元,给予“买入”评级。(估值日期:2023 年 1 月 30 日)风险提示:宏观经济及消费疲弱,疫情反复影响,行业政策变动风险。阅文集团(阅文集团(772 HK,买入,目标价:,买入,目标价:42.90 港币)港币)阅文集团上半年积极降本增效,以应对短期宏观挑战。我们预计 2022 年在线业务收入将同比下降 8.0%至人民币 49 亿元,占全年总收入的 57.4%,主因广告需求疲软导致免费阅读业务收入表现较弱。对于 IP 运营业务,我们预测 2022/2023/2024 年收入同比增长7.9%/14.3%/11.0%至人民币 36 亿/41 亿/46 亿元

150、。尽管收入增长放缓,鉴于公司经营效率提升,我们预计其利润率有望改善。我们预计 2022/2023/2024E 非 IFRS 下净利润 14 亿/16 亿/19 亿元,其对应的净利率为 16.1%/17.2%/18.7%。我们基于 SOTP 估值法得出目标价 42.90 港币,给予“买入”,包括:1)在线业务每股估值 11.1 港币,基于 23 倍 2022 年预测 PE,考虑到阅文的内容和用户流量优势,较行业均值(22 倍)有所溢价;2)IP 运营和其他业务估值每股 31.7 港币,基于 30 倍 2022 年预测 PE,较其他 IP 内容生产商(29 倍)有所溢价,主要考虑到公司已经构建了个

151、全面的IP 生态系统。我们的目标价格对应 28/24 倍的 2022/2023 非 IFRS 口径 PE。(估值日期:2022 年 8 月 26 日)风险提示:1)IP 商业化步伐慢于预期;2)在线业务付费率下降。免责声明和披露以及分析师声明是报告的一部分,请务必一起阅读。33 传媒传媒 三人行三人行(605168 CH,“买入”评级,目标价,“买入”评级,目标价 129.22 元)元)公司公告 2022 年业绩预增:预计 22 年实现营收 55-57 亿元,同增 54.02%-59.62%,显示公司业务发展态势良好;预计归母净利 7.23-7.4 亿元,同增 43.17%-46.54%;预计

152、扣非后归母净利 4.9-5.1 亿元,同增 5.91%-10.23%。公司为领先的整合营销服务商,在行业承压背景下实现营收高增长,显示其较强的竞争优势,新客户开拓和投资业务进展喜人,为后续业绩增长提供支撑。我们预计 22-24 年归母净利 7.33/10.08/13.12 亿元,EPS 7.23/9.94/12.94 元,采用可比公司估值法,给予公司 23 年 PE 13X,对应目标价 129.22元,给予“买入”评级。(估值日期:2023 年 1 月 10 日)风险提示:宏观经济疲软、客户开拓不及预期。图表图表73:重点推荐公司一览表重点推荐公司一览表 收盘价收盘价 目标价目标价 市值市值(

153、百万百万)EPS(元元)PE(倍倍)股票名称股票名称 股票代码股票代码 投资评级投资评级(当地币种当地币种)(当地币种当地币种)(当地币种当地币种)2021 2022E 2023E 2024E 2021 2022E 2023E 2024E 昆仑万维 300418 CH 买入 21.61 24.88 25,564 1.31 0.88 1.03 1.18 16.50 24.56 20.98 18.31 蓝色光标 300058 CH 买入 5.95 6.96 14,822 0.21-0.78 0.24 0.26 28.33-7.63 24.79 22.88 风语筑 603466 CH 买入 14.8

154、4 17.68 8,850 0.73 0.12 0.68 0.79 20.33 123.67 21.82 18.78 阅文集团 772 HK 买入 40.00 42.90 40,610 1.81 1.11 1.34 1.58 22.10 36.04 29.85 25.32 三人行 605168 CH 买入 113.60 129.22 11,520 4.98 7.23 9.94 12.94 22.81 15.71 11.43 8.78 注:数据截至 2023 年 2 月 9 日 资料来源:Bloomberg,华泰研究预测 风险提示风险提示 1)AI 技术发展不及预期。技术发展不及预期。AIGC(

155、生成式 AI)是基于生成算法、训练数据、芯片算力,生成包括文本、音乐、图片、代码、视频等多样化的内容,目前仍然处于早期阶段,若技术的发展进度不及预期,则会进一步影响用户体验,降低沉浸感。2)商业化存在不确定性)商业化存在不确定性。AIGC 的发展需要大量的资金投入。若商业化进度不及预期,则会进一步影响到研发资金的供给,导致技术发展缓慢,影响用户体验。3)政策监管风险)政策监管风险。AIGC 生成的内容多样化,相关法律法规、监管准则仍有较大的不确定性,若相关政策趋严,在一定程度会影响到 AIGC 发展进程。免责声明和披露以及分析师声明是报告的一部分,请务必一起阅读。34 传媒传媒 免责免责声明声

156、明 分析师声明分析师声明 本人,朱珺、吴晓宇,兹证明本报告所表达的观点准确地反映了分析师对标的证券或发行人的个人意见;彼以往、现在或未来并无就其研究报告所提供的具体建议或所表迖的意见直接或间接收取任何报酬。一般声明及披露一般声明及披露 本报告由华泰证券股份有限公司(已具备中国证监会批准的证券投资咨询业务资格,以下简称“本公司”)制作。本报告所载资料是仅供接收人的严格保密资料。本报告仅供本公司及其客户和其关联机构使用。本公司不因接收人收到本报告而视其为客户。本报告基于本公司认为可靠的、已公开的信息编制,但本公司及其关联机构(以下统称为“华泰”)对该等信息的准确性及完整性不作任何保证。本报告所载的

157、意见、评估及预测仅反映报告发布当日的观点和判断。在不同时期,华泰可能会发出与本报告所载意见、评估及预测不一致的研究报告。同时,本报告所指的证券或投资标的的价格、价值及投资收入可能会波动。以往表现并不能指引未来,未来回报并不能得到保证,并存在损失本金的可能。华泰不保证本报告所含信息保持在最新状态。华泰对本报告所含信息可在不发出通知的情形下做出修改,投资者应当自行关注相应的更新或修改。本公司不是 FINRA 的注册会员,其研究分析师亦没有注册为 FINRA 的研究分析师/不具有 FINRA 分析师的注册资格。华泰力求报告内容客观、公正,但本报告所载的观点、结论和建议仅供参考,不构成购买或出售所述证

158、券的要约或招揽。该等观点、建议并未考虑到个别投资者的具体投资目的、财务状况以及特定需求,在任何时候均不构成对客户私人投资建议。投资者应当充分考虑自身特定状况,并完整理解和使用本报告内容,不应视本报告为做出投资决策的唯一因素。对依据或者使用本报告所造成的一切后果,华泰及作者均不承担任何法律责任。任何形式的分享证券投资收益或者分担证券投资损失的书面或口头承诺均为无效。除非另行说明,本报告中所引用的关于业绩的数据代表过往表现,过往的业绩表现不应作为日后回报的预示。华泰不承诺也不保证任何预示的回报会得以实现,分析中所做的预测可能是基于相应的假设,任何假设的变化可能会显著影响所预测的回报。华泰及作者在自

159、身所知情的范围内,与本报告所指的证券或投资标的不存在法律禁止的利害关系。在法律许可的情况下,华泰可能会持有报告中提到的公司所发行的证券头寸并进行交易,为该公司提供投资银行、财务顾问或者金融产品等相关服务或向该公司招揽业务。华泰的销售人员、交易人员或其他专业人士可能会依据不同假设和标准、采用不同的分析方法而口头或书面发表与本报告意见及建议不一致的市场评论和/或交易观点。华泰没有将此意见及建议向报告所有接收者进行更新的义务。华泰的资产管理部门、自营部门以及其他投资业务部门可能独立做出与本报告中的意见或建议不一致的投资决策。投资者应当考虑到华泰及/或其相关人员可能存在影响本报告观点客观性的潜在利益冲

160、突。投资者请勿将本报告视为投资或其他决定的唯一信赖依据。有关该方面的具体披露请参照本报告尾部。本报告并非意图发送、发布给在当地法律或监管规则下不允许向其发送、发布的机构或人员,也并非意图发送、发布给因可得到、使用本报告的行为而使华泰违反或受制于当地法律或监管规则的机构或人员。本报告版权仅为本公司所有。未经本公司书面许可,任何机构或个人不得以翻版、复制、发表、引用或再次分发他人(无论整份或部分)等任何形式侵犯本公司版权。如征得本公司同意进行引用、刊发的,需在允许的范围内使用,并需在使用前获取独立的法律意见,以确定该引用、刊发符合当地适用法规的要求,同时注明出处为“华泰证券研究所”,且不得对本报告

161、进行任何有悖原意的引用、删节和修改。本公司保留追究相关责任的权利。所有本报告中使用的商标、服务标记及标记均为本公司的商标、服务标记及标记。中国香港中国香港 本报告由华泰证券股份有限公司制作,在香港由华泰金融控股(香港)有限公司向符合证券及期货条例及其附属法律规定的机构投资者和专业投资者的客户进行分发。华泰金融控股(香港)有限公司受香港证券及期货事务监察委员会监管,是华泰国际金融控股有限公司的全资子公司,后者为华泰证券股份有限公司的全资子公司。在香港获得本报告的人员若有任何有关本报告的问题,请与华泰金融控股(香港)有限公司联系。免责声明和披露以及分析师声明是报告的一部分,请务必一起阅读。35 传

162、媒传媒 香港香港-重要监管披露重要监管披露 华泰金融控股(香港)有限公司的雇员或其关联人士没有担任本报告中提及的公司或发行人的高级人员。有关重要的披露信息,请参华泰金融控股(香港)有限公司的网页 https:/.hk/stock_disclosure 其他信息请参见下方“美国“美国-重要监管披露”重要监管披露”。美国美国 在美国本报告由华泰证券(美国)有限公司向符合美国监管规定的机构投资者进行发表与分发。华泰证券(美国)有限公司是美国注册经纪商和美国金融业监管局(FINRA)的注册会员。对于其在美国分发的研究报告,华泰证券(美国)有限公司根据1934 年证券交易法(修订版)第 15a-6 条规

163、定以及美国证券交易委员会人员解释,对本研究报告内容负责。华泰证券(美国)有限公司联营公司的分析师不具有美国金融监管(FINRA)分析师的注册资格,可能不属于华泰证券(美国)有限公司的关联人员,因此可能不受 FINRA 关于分析师与标的公司沟通、公开露面和所持交易证券的限制。华泰证券(美国)有限公司是华泰国际金融控股有限公司的全资子公司,后者为华泰证券股份有限公司的全资子公司。任何直接从华泰证券(美国)有限公司收到此报告并希望就本报告所述任何证券进行交易的人士,应通过华泰证券(美国)有限公司进行交易。美国美国-重要监管披露重要监管披露 分析师朱珺、吴晓宇本人及相关人士并不担任本报告所提及的标的证

164、券或发行人的高级人员、董事或顾问。分析师及相关人士与本报告所提及的标的证券或发行人并无任何相关财务利益。本披露中所提及的“相关人士”包括FINRA 定义下分析师的家庭成员。分析师根据华泰证券的整体收入和盈利能力获得薪酬,包括源自公司投资银行业务的收入。华泰证券股份有限公司、其子公司和/或其联营公司,及/或不时会以自身或代理形式向客户出售及购买华泰证券研究所覆盖公司的证券/衍生工具,包括股票及债券(包括衍生品)华泰证券研究所覆盖公司的证券/衍生工具,包括股票及债券(包括衍生品)。华泰证券股份有限公司、其子公司和/或其联营公司,及/或其高级管理层、董事和雇员可能会持有本报告中所提到的任何证券(或任

165、何相关投资)头寸,并可能不时进行增持或减持该证券(或投资)。因此,投资者应该意识到可能存在利益冲突。评级说明评级说明 投资评级基于分析师对报告发布日后 6 至 12 个月内行业或公司回报潜力(含此期间的股息回报)相对基准表现的预期(A 股市场基准为沪深 300 指数,香港市场基准为恒生指数,美国市场基准为标普 500 指数),具体如下:行业评级行业评级 增持:增持:预计行业股票指数超越基准 中性:中性:预计行业股票指数基本与基准持平 减持:减持:预计行业股票指数明显弱于基准 公司评级公司评级 买入:买入:预计股价超越基准 15%以上 增持:增持:预计股价超越基准 5%15%持有:持有:预计股价

166、相对基准波动在-15%5%之间 卖出:卖出:预计股价弱于基准 15%以上 暂停评级:暂停评级:已暂停评级、目标价及预测,以遵守适用法规及/或公司政策 无评级:无评级:股票不在常规研究覆盖范围内。投资者不应期待华泰提供该等证券及/或公司相关的持续或补充信息 免责声明和披露以及分析师声明是报告的一部分,请务必一起阅读。36 传媒传媒 法律实体法律实体披露披露 中国中国:华泰证券股份有限公司具有中国证监会核准的“证券投资咨询”业务资格,经营许可证编号为:941011J 香港香港:华泰金融控股(香港)有限公司具有香港证监会核准的“就证券提供意见”业务资格,经营许可证编号为:AOK

167、809 美国美国:华泰证券(美国)有限公司为美国金融业监管局(FINRA)成员,具有在美国开展经纪交易商业务的资格,经营业务许可编号为:CRD#:298809/SEC#:8-70231 华泰证券股份有限公司华泰证券股份有限公司 南京南京 北京北京 南京市建邺区江东中路 228号华泰证券广场 1号楼/邮政编码:210019 北京市西城区太平桥大街丰盛胡同 28号太平洋保险大厦 A座 18层/邮政编码:100032 电话:86 25 83389999/传真:86 25 83387521 电话:86 10 63211166/传真:86 10 63211275 电子邮件:ht- 电子邮件:ht- 深圳

168、深圳 上海上海 深圳市福田区益田路 5999号基金大厦 10楼/邮政编码:518017 上海市浦东新区东方路 18号保利广场 E栋 23楼/邮政编码:200120 电话:86 755 82493932/传真:86 755 82492062 电话:86 21 28972098/传真:86 21 28972068 电子邮件:ht- 电子邮件:ht- 华泰金融控股(香港)有限公司华泰金融控股(香港)有限公司 香港中环皇后大道中 99 号中环中心 58 楼 5808-12 室 电话:+852-3658-6000/传真:+852-2169-0770 电子邮件: http:/.hk 华泰证券华泰证券(美国美国)有限公司有限公司 美国纽约公园大道 280 号 21 楼东(纽约 10017)电话:+212-763-8160/传真:+917-725-9702 电子邮件:Huataihtsc- http:/www.htsc- 版权所有2023年华泰证券股份有限公司

友情提示

1、下载报告失败解决办法
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。

本文(传媒行业专题研究:AIGC引领内容生产方式变革-230209(36页).pdf)为本站 (颜如玉) 主动上传,三个皮匠报告文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三个皮匠报告文库(点击联系客服),我们立即给予删除!

温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。
会员购买
客服

专属顾问

商务合作

机构入驻、侵权投诉、商务合作

服务号

三个皮匠报告官方公众号

回到顶部