资讯科技行业AI音乐：打通技术新路径大模型时代加速发展-230511.pdf

《资讯科技行业AI音乐：打通技术新路径大模型时代加速发展-230511.pdf》由会员分享，可在线阅读，更多相关《资讯科技行业AI音乐：打通技术新路径大模型时代加速发展-230511.pdf（21页珍藏版）》请在三个皮匠报告上搜索。

1、本报告由中信建投证券股份有限公司在中华人民共和国（仅为本报告目的，不包括香港、澳门、台湾）提供。在遵守适用的法律法规情况下，本报告亦可能由中信建投（国际）证券有限公司在香港提供。同时请参阅最后一页的重要声明。证券研究报告证券研究报告海外行业深度海外行业深度 A AI I 音乐：音乐：打通打通技术技术新新路径路径，大模大模型时代加速发展型时代加速发展核心观点核心观点计算机音乐因专业门槛相对高、结构化数据获取难度大，相比计算机视觉及自然语言处理发展较缓慢，随着大模型引发 AI 浪潮、硬件及基础设施快速升级，AI 音乐迎来机遇：2023 年 2 月谷歌推出 MusicLM 模型，尝试以 Ber

2、t 模型机制实现音乐数据的情景生成，结合早期基于 RNN、VAEs、GANs 的预训练模型，音色混音等难题得以攻克，上游数据标注领域也逐渐出现商业化工具。目前 AI 音乐发展的障碍在于核心版权资源高度分散，数字音乐行业版权壁垒高筑，原始录制文件无法从互联网直接获取，随着版权方投资入局，谷歌引领 wav-to-wav 类模型兴起，发展路径更加通畅，有望产生突破式进展。硬件升级解锁新的技术路径，“暴力求解”模式解放硬件升级解锁新的技术路径，“暴力求解”模式解放 A AI I 音乐生音乐生产力。产力。计算机音乐已经几十年发展历史，基于深度学习的音乐生成约在 2015 年起步，主流模型是 VAEs、G

3、ANs 等，行业玩家包括索尼等科技公司、Spotify 等流媒体平台、乐器厂商、AI 音乐初创公司等。2022 年以来大模型浪潮推动 AI 基础设施发展，谷歌尝试用 NLP 生成方式训练音乐生成模型，验证了 MLM 方式在音乐生成任务中的可行性（传统 AI 音乐模型的基础理论主要是概率类），音色、混音等难题得以一并攻克。随着算力持续升级、调优迭代、数据量增加，模型有巨大的升级潜力。核心痛点核心痛点是是版权音乐版权音乐资源资源的封闭和分散的封闭和分散，随着版权方积极入局、随着版权方积极入局、上游数据集行业发展，现状上游数据集行业发展，现状有望有望改善。改善。音乐版权壁垒高筑，版权资源有严格的层级

4、分发渠道，三大唱片厂拥有大部分流行音乐版权。不同于图文，互联网获取的音频丢失了大量创作细节，难用于结构化的再生成，长期以来主流模型使用的是以 BGM、古典乐、游戏音乐为主的公版资源。近年来环球音乐、华纳音乐等老牌唱片公司积极投资 AI 音乐初创公司，有望释放更多商业 AI 数据资源；上游数据标注行业发展也将推动 wav to wav 模式下更多训练资源的产出，国内已经有慧听科技，海天瑞声等公司提供音乐数据服务，各众包平台也能提供定制化的标注服务。公司方面，（公司方面，（1）版权方）版权方：包括环球音乐、华纳音乐、索尼音乐等，其中索尼音乐依托索尼集团，AI 研发和商业化能力领先。（2）流媒体平台

5、流媒体平台：Spotify、TME、云音乐、Apple Music 等，研究主要围绕用户行为、歌曲识别等展开，长期有望受益于 AI 增量内容带来的全行业降本增效。（3）互联网公司：互联网公司：谷歌、微软、百度等，AI 研究成果储备最多，有望持续推动前沿技术革新。（4）AI 通通用技术用技术商商和数据公司和数据公司，比如商汤，科大讯飞，海天瑞声等。维持维持强于大市强于大市孙晓磊 SAC 编号:s05 SFC 编号:BOS358 崔世峰 SAC 编号:S04 发布日期：2023 年 05 月 11 日市场表现市场表现相关研究报告相关研究报告 -3

6、0%-10%10%30%50%2022/4/182022/5/182022/6/182022/7/182022/8/182022/9/182022/10/182022/11/182022/12/182023/1/182023/2/182023/3/18传媒恒生指数资讯科技业资讯科技业海外行业深度报告资讯科技业资讯科技业请参阅最后一页的重要声明目录目录一、生产要素分析.1 技术路线：百花齐放，算力升级使暴力求解成为可能.1（1）传统路线：基于音符逻辑的算法音乐.1（2）AI 时代：神经网络架构的音乐生成诞生多流派.1（3）GoogleMusicLM：基于 NLP 语境学习思路的音乐生成

7、.5 数据集：版权标注曲库是核心稀缺资源.7 二、公司动态.11 版权方&流媒体&互联网公司.11 商业化成品对比.14 风险分析.17 图表目录图 1:AI 音乐产业细分.1 图 2:AI 生成音乐的两种思路.2 图 3:常用音频生成 NN 架构.3 图 4:各生成模式的模型进展梳理.4 图 5:MusicVAE 结构.5 图 6:MusicLM 三种生成模式.6 图 7:谷歌 MusicLM基于 SoundStream、w2v-BERT、MuLan 三个模型实现.6 图 8:MusicCaps 数据集测试下的模型精度对比.7 图 9:音乐数据资源分布.8 表 10:常用数据集整理.8 表

8、 11:数据采集标注公司音乐类数据开发情况（截至 2023.5）.9 图 12:海天瑞声音乐相关数据库（TTS 为主）.9 图 13:慧听科技音乐数据集.9 图 14:北大音乐情感标注系统-基于维度情感模型的检索.10 图 15:北大音乐情感标注系统-基于色彩和情感词的检索.10 表 16:AI 音乐发展大事件.11 表 17:唱片公司 AI 音乐相关动态梳理.12 表 18:流媒体平台 AI 音乐相关动态梳理.13 表 19:其他互联网/科技公司 AI 音乐相关动态梳理.14 图 20:AIVA 产品结构.15 图 21:网易天音产品结构.15 图 22:Magenta Studio 工具套

9、装.16 EYhU1WmUeXFZhU3UjZdU6McM7NoMnNoMnOkPmMqNjMnMpN6MpOmMNZrQsPNZtQsN 1 海外行业深度报告资讯科技业资讯科技业请参阅最后一页的重要声明一、生产要素一、生产要素分析分析 AI 音乐生产要素包括底层硬件、数据集、技术范式，其中硬件有成熟的解决方案音乐生产要素包括底层硬件、数据集、技术范式，其中硬件有成熟的解决方案，国内外大型云服务商均已推出了针对 AI 模型训练的 GPU 云服务；优质优质训练训练数据数据获取成本高获取成本高，音乐类数据成品和标注工具商还在发展早期，而关键的 MIDI 数据归属于版权方，难以从互联网获取，市

10、面上可用的音乐数据集相比文本和图片数量较少；技术理论技术理论加速加速发展发展，谷歌等科技公司入局，在算力加持下探索新的解决方案。应用方面，目前已有的AI 音乐产品包括端到端产品，例如 AIVA，网易天音等；部分公司开发 AI 音乐应用主要用于内部降本增效，降低配乐成本，比如抖音，微软等。图图 1:AI 音乐产业细分音乐产业细分数据来源：各公司官网，中信建投证券技术技术路线路线：百花齐放，算力升级使暴力求解成为可能百花齐放，算力升级使暴力求解成为可能（1）传统路线：基于音符逻辑的算法音乐基于音符逻辑的算法音乐基于音符逻辑的算法音乐长期存在，但长期存在，但并非严格意义的并非严格意义的 AI

11、工具。工具。AI 生成音乐的概念早在 80 年代就已出现，从辅助创作、帮助生成的角度出发，早期计算机音乐大多基于音符逻辑，学习乐谱、通过马尔科夫链等生成音符内容，已广泛应用于业界，产品包括 YAMAH 等推出的编曲键盘，Band-in-a-Box 软件等。这类技术的特点是生成逻辑更接近音乐家的思维方式，主体是计算程序，输出的是不具有混音效果的纯音谱，并非是真正意义上的 AI 产物。（2）AI 时代：神经网络架构的音乐生成诞生多流派 2015 年后深度学习学科快速发展，年后深度学习学科快速发展，AI 音乐的生成诞生两种路线：音乐的生成诞生两种路线：（1）“小节小节-旋律旋律-多音轨”结构化生成多

12、音轨”结构化生成：作为循序渐进的生成方式，需要引入音乐家系统，模型训练的算 2 海外行业深度报告资讯科技业资讯科技业请参阅最后一页的重要声明力要求较低，长期以来是学术界和业界主流，诞生了诸多小而美和专业化的 AI 工具；（2）放弃结构化信息）放弃结构化信息，从音频到音频的直接生成从音频到音频的直接生成：第二种方式随着大模型的发展、硬件推动算力解放，提供了一种全新的思路，例如将 NLP 的情景演讲生成模型套用到音乐数据上，目前已经迭代了 2-3 代，对算力要求高，过程更加不可控，但能够一步解决混音、音色的问题，潜力巨大。图图 2:AI 生成音乐的两种思路生成音乐的两种思路数据来源：中信建

13、投证券基础的生成理论方面，通用的基础的生成理论方面，通用的神经网络音乐神经网络音乐生成架构包括生成架构包括 RNN、VAE、GAN、Transformers 等，等，一套一套成成熟的熟的 AI 音乐工具往往是多个模型的融合嫁接。音乐工具往往是多个模型的融合嫁接。随着深度学习学科发展，2015 年后涌现了一批 AI 音乐初创公司，计算机音乐和进入深度学习时代。生成音乐用到的神经网络生成模型包括 VAEs、GANs 等，近年来利用Transformers 等 NLP 领域流行的范式进行复调音乐生成也有不少成果，例如谷歌的 AudioLM、MusicLM 等。发展至今，各路 AI 音乐模型在调优与

14、算力加持下，均有能力产出长时间（60s 左右）连贯音频。3 海外行业深度报告资讯科技业资讯科技业请参阅最后一页的重要声明图图 3:常用常用音频音频生成生成 NN 架构架构数据来源：斯坦福公开课，谷歌大脑，A Comprehensive Survey on Deep Music Generation:Multi-level Representations,Algorithms,Evaluations,and Future Directions，中信建投证券不同生成场景不同生成场景采用采用的模型也各有侧重，的模型也各有侧重，生成旋律方面，VAE 模型和 GAN 模型较主流，应用最广泛；生

15、成复调音乐（polyphony）方面，VAE、RNN 使用较多，近几年 Transformers 生成复调的研究成果越来越多；生成多轨音乐（multi-track music）方面，通常是多种模型叠加使用，VAE、Transformers 近几年技术更新较快。4 海外行业深度报告资讯科技业资讯科技业请参阅最后一页的重要声明图图 4:各各生成模式生成模式的的模型模型进展进展梳理梳理数据来源：A Comprehensive Survey on Deep Music Generation:Multi-level Representations,Algorithms,Evaluations,a

16、nd Future Directions，中信建投证券变分自编码器(VAE)最初的 VAE 模型使用 encoder-decoder 架构通过重构输入来产生潜在空间（latent space）。潜在空间是压缩数据的多维空间，其中最相似的元素彼此最接近。在 VAE 中，编码器近似后验，解码器参数化似然，后验和似然近似由分别具有和参数的 NN 参数化用于编码器和解码器。后验推断是通过最大化证据下界(ELBO)来最小化编码器或近似后验与真实后验之间的 Kullback-Leiber(KL)散度来完成的。梯度通过重新参数化技巧计算得到，VAE 模型有多种变体，例如-VAE，它在重构损失中添加了惩罚项

17、，以改善潜在空间分布。5 海外行业深度报告资讯科技业资讯科技业请参阅最后一页的重要声明图图 5:MusicVAE 结构结构数据来源：From Artificial Neural Networks to Deep Learning for Music Generation History,Concepts and Trends，中信建投证券生成对抗网络（GAN）GAN 是由两个 NN 组成的生成模型：生成器 G 和判别器 D。生成器在输入数据上学习分布进行训练是为了让判别器最大化将正确标签分配给训练样本和生成器生成的样本，这种训练思想可以理解为 D 和G 遵循 Goodfellow 等

18、人提出的两人极小极大博弈的描述，生成器和鉴别器可以由不同的 NN 层组成，例如多层感知器(MLP)、LSTM 或卷积神经网络(CNN)。Transformers Transformers 在 NLP 应用中使用较多，它在 NLP 在 CV 模型中表现良好。Transformer 可以用作自回归模型，例如 LSTM，使它们用于生成任务。Transformers 背后的基本思想是注意力机制，注意层与前馈层的结合使 Transformer 的 Encoder 和 Decoder 形成，并区别于同样由 Encoder-Decoder 组成的纯AutoEncoder 模型。（3）GoogleMusicL

19、M：基于 NLP 语境学习思路的音乐生成谷歌在 2023 年 2 月推出全新的 AI 生成音乐模型 MusicLM，实现端对端文字转音乐，实质是基于一系列NLP 技术对音频数据的暴力破解。目前产品官网推出三种应用模式，包括（1）音乐生成、（2）文字转音乐和（3）长文字生成长音频的 StoryMode。6 海外行业深度报告资讯科技业资讯科技业请参阅最后一页的重要声明图图 6:MusicLM 三种生成模式三种生成模式数据来源：MusicLM官网，中信建投证券模型模型参数参数：和前身 AudioLM（2022.10 推出）类似，MusicLM 的核心 w2v-BERT 组件由 Trans

20、formers 的decoder 堆叠而成，模型共 24 层，16 个注意力头，嵌入维度数为 1024，dropout 系数为 0.1，加上相对位置嵌入机制，估算得每阶段的参数量约 4.3 亿。各组件各组件功能功能：MusicLM 使用 SoundStream、w2v-BERT、MuLan 三个模型实现其功能，其中（1）SoundStream 用于音频数据离散化，生成声学标记单元（audiotoken），用于连续音频变量的升维及降维处理，核心方法是残差矢量量化（ResidualVectorQuantization，RVQ）；（2）w2v-BERT：实现情景内容输出，结合对比学习和 MLM 框架

21、，前者将输入的连续语音信号离散成有限的可辨别的语音标记集，后者通过解决消化离散的标记的掩蔽预测任务来学习上下文的语音表征；（3）MuLan：完成音乐和文本的嵌入配对，用音乐-文本标记数据训练配对机制，以应对标注数据配对稀缺的问题。图图 7:谷歌谷歌 MusicLM基于基于 SoundStream、w2v-BERT、MuLan 三个三个模型模型实现实现数据来源：MusicLM:GeneratingMusicFromText，中信建投证券数据集及数据集及训练：训练：MuLan 是预训练模型，因为已解决了文本音频嵌入配对的问题，模型只需对纯音频数据进行训练，模型训练采用公开的 FMA 数据库中的

22、 500 万余共 28 万小时的 24kHz 音乐片段作为训练数据，对 7 海外行业深度报告资讯科技业资讯科技业请参阅最后一页的重要声明 SoundStream 和 w2v-BERT 进行训练。音频数据进行了 30crops/10 秒的数据采样，作为对照，前作 AudioLM 仅在 3 秒的切割上进行训练，新的数据切割方式使得模型精度得到提高。计算 FAD 指标，MusicLM 在 FADVGG指标上的表现优于 Mubert 和 Riffusion。在 FADTRILL指标上，MusicLM 的表现与 Mubert 相似，比 Riffusion 好。用KLD 和 MCC 指标衡量，Musi

23、cLM 的表现均更好。图图 8:MusicCaps 数据集测试下的模型精度对比数据集测试下的模型精度对比数据来源：MusicLM:GeneratingMusicFromText，中信建投证券模型模型评述评述：验证验证 NLP 语境分析对于音频数据的可套用性，但仍有大量针对音乐的适配和改进工作等待进语境分析对于音频数据的可套用性，但仍有大量针对音乐的适配和改进工作等待进行。行。MusicLM 对比前作 AudioLM 实现了端对端的文本转音频（原仅能实现音频片段转音频），多模态应用更进一步；对比其他文本转音频的生成工具（例如 Riffusion、Mubert），模型精度有所提升，在较长音频的

24、生成上优势更明显。对模型的争议集中在，模型采用 NLP 语境分析的方法对音乐数据进行处理，而非针对音乐开发新的理论模型，推演逻辑本身难自洽；完全的 WAVtoWAV 生成机制过于黑箱，不符合传统的音乐制作习惯，难以成为真正的生产力。针对这些问题，可改进的方向有：（1）给输入的音频数据划分更多层次，进行更精细的切割；（2）对模型分模块训练，让音乐生成过程更贴近实际创作，而非完全依赖 MLM 的逻辑生成音乐。（3）丰富训练数据集，目前的训练数据集为 500 万余个音乐片段，训练数据的增加必然会提升模型训练的效果。这些改进意见并非难以做到，根据谷歌在 AI 音乐方面的进展更新频率，我们认为从技术层面

25、看，谷歌团队有实力在未来 1-2 年内推出更强大的音乐生成 AI 模型。数据集数据集：版权标注曲库是版权标注曲库是核心稀缺资源核心稀缺资源 AI 音乐音乐虽然发展历史悠久，但爆发虽然发展历史悠久，但爆发滞后于滞后于 AI 图片、文字，图片、文字，我们认为一大原因是我们认为一大原因是上游高质量数据集的稀上游高质量数据集的稀缺缺。结构化音乐数据集的获取，以及获取后如何按照需求标注处理，是 AI 音乐目前面临最直接也最难解的问题。用于 AI 模型训练的数据可粗略分成几种类型：标签型数据标签型数据（用于训练推荐系统、模型检验等，互联网上有海量此类数据），Wav/mp3 等等 PCM 编码格式的数据编码

26、格式的数据（最常见的音频储存方式），音乐制作过程中保留的MIDI 数据数据（归属于版权方，无法从互联网得到）。不同于图片和文字，混音后输出的音频会模糊掉大部分创作细节，而文本、图片的信息损失相对较小，所以 MIDI 数据对于结构化的音频生成至关重要。8 海外行业深度报告资讯科技业资讯科技业请参阅最后一页的重要声明图图 9:音乐音乐数据数据资源分布资源分布数据来源：IFPI，百度图片，中信建投证券目前主流模型训练数据来自目前主流模型训练数据来自 FMA 等公开免费数据库。等公开免费数据库。根据公开的模型介绍及论文，大多数音乐模型训练使用的是免费公开的音乐数据资源，比如 MusicLM

27、使用的 FMA，MusicVAE 使用的 LMD 等，歌曲数量通常在百万级。以 MusicVAE 为例，模型用到了 1.5 百万数据量的 LMD 数据库，另外还用到 4 百万的单独旋律数据和3 百万的单独鼓声数据。经过调查，我们发现公开数据集的音频种类涵盖往往不全，数据集内容多以 BGM、古典乐、游戏音乐等为主，流行音乐数据尤其难以获取。表表 10:常用数据集整理常用数据集整理模型模型训练曲库训练曲库数据量数据量数据内容数据内容/格式格式 MusicLM FMA 5m 纯音乐，Wav MusicVAE LakhMIDIDataset 1.5m 纯音乐，MIDI MusicTransfo

28、rmer JSBChorale 23053 巴赫四部合唱乐谱数据，MIDI Piano-e-Competition/人类演奏数据集，MIDI 数据来源：各模型发布论文，中信建投证券部分数据标注及人工智能公司已涉及音乐数据业务。部分数据标注及人工智能公司已涉及音乐数据业务。上游数据公司方面，国内成品音乐数据集和数据标注公司相对较少，音频 AI、TTS 等垂直领域数据公司部分涉及音乐类数据业务，此外，大部分众包数据公司均可以提供定制化的数据集制作服务，可按照需求对音频或 MIDI 数据进行人工标注。9 海外行业深度报告资讯科技业资讯科技业请参阅最后一页的重要声明表表 11:数据采集标注公司

29、音乐类数据开发情况数据采集标注公司音乐类数据开发情况（截至（截至 2023.5）公司公司/平台平台相关产品相关产品百度智能云暂无阿里众包暂无京东众智暂无海天瑞声歌曲数据库、音色库龙猫数据互联网行业数据标注云测暂无数据堂暂无标贝科技歌声合成、情感合成慧听数据音乐数据制作标注，曲谱标注、MIDI 制作数据来源：各公司官网，中信建投证券例如海天瑞声有小样本的歌曲和音色库，在公司官网上搜索歌声数据，能够找到十余个相关成品数据集（主要用于 TTS）；垂类数据公司中，慧听数据提供专业的音乐数据集标注制作服务，公司官网“数据服务”下设有音乐数据制作标注业务，包括音乐

30、音频制作、哼唱识别、歌曲曲谱和内容标注、歌曲人声旋律 MIDI 制作。图图 12:海天瑞声音乐相关数据库（海天瑞声音乐相关数据库（TTS 为主）为主）图图 13:慧听科技音乐数据集慧听科技音乐数据集数据来源：公司官网，中信建投证券数据来源：公司官网，中信建投证券高校高校推进技术研究，部分机构以推进技术研究，部分机构以产学合作产学合作方式开放其成果方式开放其成果，例如北大产业技术研究院例如北大产业技术研究院的音乐情感自动识别的音乐情感自动识别及自动标注系统。及自动标注系统。高校方面，北京大学产业技术研究院以合作开发、技术许可等方式提供其研发的音乐情感自动识别及自动标注系统的使用权：该系统采

31、用多模态情感回归的方法，实现音乐情感的自动标注，并通过音乐情感词作为中间桥梁，实现音乐情感维度信息到情感类别的映射，间接实现了音乐情感的分类，因此系统能够同时满足对音乐情感维度信息和类别信息自动标注的需求。根据官方介绍，研究已经实现：（1）完成全部关键算法的研究开发；（2）完成全部关键算法的研究开发；（3）在 4000 首音乐歌曲（音乐：1700 首；歌曲：2300首）集上完成情感学习模型的训练；（4）在 4000 首音乐歌曲（音乐：1700 首；歌曲：2300 首）集上完成情感学习模型的训练。10 海外行业深度报告资讯科技业资讯科技业请参阅最后一页的重要声明图图 54:北大音乐情感标注

32、系统北大音乐情感标注系统-基于维度情感模型的检索基于维度情感模型的检索图图 15:北大音乐情感标注系统北大音乐情感标注系统-基于色彩和情感词的检索基于色彩和情感词的检索数据来源：北大产业技术研究院官网，中信建投证券数据来源：北大产业技术研究院官网，中信建投证券 11 海外行业深度报告资讯科技业资讯科技业请参阅最后一页的重要声明二、公司二、公司动态动态 2015 以来以来初创公司初创公司 AI 音乐音乐 ToB 业务开始涌现业务开始涌现，大厂入局加速发展，大厂入局加速发展：2015 年后初创公司 Juckdeck、AmperMusic 及 AIVA 开始推出 AI 成品音乐，客户会告

33、诉计算机他们想要多长时间的曲目以及其风格和情绪的其他信息，然后人工智能会吐出客户愿意接受的曲目，供客户选择。另一商业模式开创自来自初创企业AmadeusCode，该公司最初开发的是人工智能作曲辅助工具。在 2019 年它推出了一个名为 EvokeMusic 的免版税音乐库，人工智能生成的曲目由工作人员挑选。另一个例子是柏林的初创公司 Loudly，它最初的产品是人工智能 remix。当遭遇版权方不愿提供授权的困难后，公司改变策略并建立了一个名为 LoudlyAIMusicStudio 的工具，AIMusicStudio 同 Jukedeck、AmperMusic 最初的目标基本一致，即为视频博

34、主、游戏开发商和其他企业提供免版税音乐创作。表表 16:AI 音乐发展音乐发展大大事件事件 2015 AI 音乐初创公司 Juckdeck 在英国成立 2015 Spotify 收购数据分析公司 EchoNest 和 SeedScientific 2016 Googledeepmind 提出 wavenet 技术，用于 AI 音乐创作 2016 AIVA 在卢森堡成立，是至今为止最有影响力的 AI 音乐公司之一 2017 AI 音乐初创公司 AmperMusic 成立 2018 DeepMusic 完成 A+轮融资，与全民 K 歌合作落地多项应用 2019 Juckdeck 被字节跳动收购 2

35、019 美国歌手 TarynSouthern 创作 AI 歌曲BreakFree，推出首张 AI 作曲专辑IAMAI 2020 网易投资 AIVA 2020 人工智能歌曲大赛 AISongContest（AISC）举办，第一届冠军为澳大利亚团队 UncannyValley 2021 AI 音乐游戏公司 Splash 完成 2000 万美元融资 2021 瑞典 AI 音乐公司 Starmony 获 350 万美元融资 2022 平台型产品 Aimi 完成 B 轮融资，Spotify 参与投资 2022 第三届 AISC 举办，与索尼音乐等公司深度合作，参赛团队超过 100 个 2023 环球音乐

36、、微软、迪士尼等投资 AI 初创公司 Soundful 共 380 万美元 2023.2 谷歌发布最新的端对端文字音乐生成模型 MusicLM 2023.4 AI 歌曲HeartonMySleeveTiktok 点击超千万，引发版权方环球音乐声明数据来源：知乎tuoerye，百度百科，各公司官网，中信建投证券版权方&流媒体&互联网公司版权方：积极投资版权方：积极投资 AI 音乐，索尼音乐依托索尼音乐，索尼音乐依托索尼 CSL 基础研究能力领先。基础研究能力领先。音乐版权市场的主要竞争者是三大唱片厂（根据 IFPI，三家版权歌曲数量合计市占率接近 90%），其中环球、华纳是老牌音乐娱乐公司

37、，业务完整涵盖录制音乐、版权管理、授权商品、及视听内容等核心上游环节，在 AI 音乐领域主要以投资的方式进行布局。索尼音乐依托母公司索尼强大的机器学习基础实力及硬件研发能力，发布了大量前沿研究成果，并推出了 FlowMachines 等实验性的 AI 音乐商业化工具。12 海外行业深度报告资讯科技业资讯科技业请参阅最后一页的重要声明表表 17:唱片公司唱片公司 AI 音乐相关动态梳理音乐相关动态梳理公司名称公司名称事件事件时间时间备注备注环球音乐（UMG）投资并购 2023.4 投资 AI 音乐初创公司 Soundful，百万美元级应用-推出 AI 音乐识别检索功能招聘-发

38、布数据分析、AR 相关岗位华纳音乐（WMG）投资并购 2018.3 收购 AI 技术公司 Sodatone 投资并购 2022.3 参投 Siri 联合创始人创立的 AI 音乐公司 LifeScore，该轮总金额 1100 万美元招聘-发布数据分析、AR 相关岗位索尼音乐（索尼）研发 2016 索尼 CSL 放出制作的 Beatles 风格的 AI 歌曲研发 2019 成立新机构 SonyAI 研发 2020 推出音乐 AI 工具 FlowMachines,包含从鼓点、贝斯、钢琴伴奏的生成，到多音轨的混合研发 2021 开发出 DrumGAN，一款 AI 生成鼓声工具;与 Stein

39、berg 合作更新 Backbone 研发 2021 研发 AI 声音分离技术招聘-发布大量 AI 研究相关岗位数据来源：UMG、WMG、SONY官网，中信建投证券流媒体平台：流媒体平台：聚焦音频识别及播放行为领域，长期将受益于内容费用的下降聚焦音频识别及播放行为领域，长期将受益于内容费用的下降。流媒体平台的优势在音频修复转录、智能识别和用户行为等领域，Spotify 的 R&D 部门长期致力于机器学习研究，在 AI 音乐领域有丰富的研究成果，包括音频转录、鼓声转录等。TME 则推出天琴实验室，截至 2023 年累计发布 10 余篇国际顶会论文，500 项专利。网易的 AI 基础研究始于

40、 2011 年，云音乐的 AI 日推系统是其核心竞争力之一。长期看，通过 AI 协助音乐人创作，平台方能够聚集更多内容资源，长期有望缓解版权成本压力，例如网易在 2023 年推出的 AI 音乐工具网易天音。13 海外行业深度报告资讯科技业资讯科技业请参阅最后一页的重要声明表表 18:流媒体平台流媒体平台 AI 音乐相关动态梳理音乐相关动态梳理公司名称公司名称事件事件时间时间备注备注 Spotify 研发-设有机器学习研发团队，研究领域涉及音频数据处理、音乐创作、用户行为研究等研发 2021 作为赞助商在 ISMIR 上开源 AI 音讯研究框架 Klio，助力大型音频数据集生态发

41、展投资并购 2021 参投 AI 音乐公司 Aimi，该轮融资额 2000 万美元投资并购 2022 收购 AI 语音平台 Sonantic 应用 2023 与 OpenAI 合作应用 2023.2 推出 AIDJ TME（腾讯）投资并购 2018 投资音乐识别技术商 SoundHound，该轮融资总额 1 亿美元研发 2019 QQ 音乐旗下听歌识曲团队获得了 Mirex 音频指纹大赛冠军研发 2020 独创的 PredictiveModel（PDM）技术也打破了预测识别（PatternsforPrediction）世界纪录，助力潜力好歌挖掘投资并购 2020 与华纳等投资 A&

42、R 监测公司 Instrumental 研发 2021 成立天琴实验室，专于音视频相关 AI 研究，截至 2023 累计发布 10 余篇国际顶会论文，500 项专利研发 2022 推出 AI 音乐辅助创作软件 TMEStudio 云音乐（网易）投资并购 2020 170 万美元战略投资 AI 音乐公司 AIVA 研发 2020 发布全链路 AI 歌曲醒来研发 2023 推出 AI 音乐创作工具网易天音研发-网易人工智能自 2011 年就开始专注于人工智能研究，服务公司泛娱乐业务数据来源：各公司官网，中信建投证券互联网互联网企业企业：探索前沿科技探索前沿科技+推动降本增效。推动降本增效

43、。微软、谷歌、苹果、字节等公司均在 AI 音频领进行了投资并购及专利储备。微软亚洲研究院 2021 年开源 AI 音乐研究项目 Muzic；谷歌 2023 年 2 月推出最新的音乐模型 MusicLM；苹果 2022 年收购初创公司 AIMusic，购入专利；字节发布自制的钢琴曲 MIDI 数据集，推出 AI音乐应用海绵乐队。除了纯粹的学术研究外，各公司将开发的 AI 工具应用于主营业务，帮助降本增效，例如字节在短视频 BGM 生成方面积极布局，微软申请了游戏 AI 配乐的专利等等。14 海外行业深度报告资讯科技业资讯科技业请参阅最后一页的重要声明表表 19:其他互联网其他互联网/科技公

44、司科技公司 AI 音乐相关动态梳理音乐相关动态梳理公司名称公司名称事件事件时间时间备注备注微软研发 2021 微软亚洲研究院开源 AI 音乐研究项目 Muzic 研发 2022 注册 AI 作曲专利谷歌研发 2016 推出 Magnenta 项目，尝试用 AI 来生成音乐研发 2017 Meganta 推出新工具 NSynth，一个接受 30 万种乐器声音训练的神经网络研发 2021 推出音乐生成模型 AudioLM 研发 2023.2 推出音乐生成模型 MusicLM 投资并购 2023.2 投资 AI 工具公司 Anthropic 约 3 亿美元投资并购 2023.4

45、投资 AI 初创公司 Soundful，百万美元级苹果投资并购 2022 AppleMusic 收购音乐分析公司 Asaii 的技术投资并购 2022 收购初创公司 AIMusic 字节跳动投资并购 2019 收购 AI 音乐初创公司 Jukedeek 应用 2021 ByteMuse 在抖音推出 AI 歌曲不想上班播放接近 1 亿研发 2021 发布全球最大的古典钢琴数据集 GiantMIDI-Piano 应用 2022 发布 AI 音乐创作 App 海绵乐队招聘-招聘深度学习与音乐、音频交叉领域专家科大讯飞研发 2019 基于自身 AI 技术推出讯飞音乐厂牌，涉及唱歌合成

46、、唱歌变声和唱歌评测等数据来源：各公司官网，中信建投证券商业化成品对比（1）AIVA：专业音乐人创作辅助产品，提供风格预设和曲到曲生成：专业音乐人创作辅助产品，提供风格预设和曲到曲生成 AIVA(Artificial Intelligence Virtual Artist)2016 于卢森堡成立，创立初期以海量的古典乐训练神经网路，并发表了第一张专辑创世纪(Genesis)，之后慢慢加入各种音乐风格的训练以创作出更多元的音乐。初期 AIVA 主要针对客户需求创作客制化音乐，例如游戏背景配乐、广告配乐、卢森堡国庆日演奏的主题曲以及帮歌手客制化流行乐等。多年来，AIVA 背后的开发者已经建立了

47、许多 AI 模型（例如递归神经网络、卷积神经网络和进化算法），它们为 AIVA 带来音乐领域的创造力。提供预设生成、曲到曲生成两种模式：提供预设生成、曲到曲生成两种模式：AIVA 为用户提供两种音乐创作方式。第一种：使用预先训练的“预设样式”，这些样式基于内部精心制作的各种数据集（由调和级数、节奏模式和旋律线等重要音乐特征组成）。第二种：使用上传的歌曲来影响创作过程，以创作出具有相似音乐特征但不同的曲目，分为上传 MIDI 和上传 Audio 两种方式，上传 MIDI 模式下，软件会分析音乐结构、调性、主旋律、伴奏等，作为依据创作出一首与原曲风格类似的全新音乐，使用者还可以在创作完成后做一些调

48、整；上传 Audio则是进一步支持 MIDI 以外的格式进行曲到曲风格模仿。15 海外行业深度报告资讯科技业资讯科技业请参阅最后一页的重要声明图图 20:AIVA 产品结构产品结构数据来源：AIVA官网，中信建投证券（2）网易天音网易天音：降低创作门槛降低创作门槛，另增歌声与歌词生成，另增歌声与歌词生成功能功能网易天音是云音乐旗下的 AI 音乐创作平台，于 2022 年 4 月 22 日正式上线，可以在网页或者移动端使用，音乐生成同样有风格预设和曲到曲生成两种方式。功能包括：（1）一键渲染：只需要输入一些关键词或者和弦走向，就可以得到一首完整的歌曲编曲。还可以选择不同的风格、速度、

49、调性等参数，定制自己喜欢的效果。（2）分轨&MIDI：在生成编曲后，可以对编曲进行微调和导出。可以选择导出分轨或者 MIDI 文件，分轨文件包含了各个乐器的单独音轨，方便后期制作和混音；MIDI 文件包含了编曲的数据信息。（3）编辑和分享：可以在网页端或者手机端使用网易天音的在线编辑器，对编曲进行剪辑、淡入淡出、音量调节等操作。对比 AIVA，网易天音除了音乐生成外，还结合 TTS 提供歌声生成、结合 NLP 模型提供歌词创作。产品整体分成 AI 写歌、AI 编曲两个模块，提供大量的预设模板，创作自由度高。且平台针对无乐理知识的创作者提供了简易教程，大幅降低了音乐创作的门槛。图图 21:网易天

50、音产品结构网易天音产品结构数据来源：网易天音官网，中信建投证券（3）谷歌谷歌 Magenta：开源开源研究研究项目，项目，面向熟悉代码的音乐家面向熟悉代码的音乐家 16 海外行业深度报告资讯科技业资讯科技业请参阅最后一页的重要声明 Magenta 是谷歌旗下一个开源研究项目，基于 tensorflow，探讨机器学习在创作过程中作为工具的作用。Magenta 为熟悉代码的音乐家们提供丰富的开源资源，主要针对作曲领域，未提供作词和歌曲合成。Magenta Studio 是 Ableton Live(一款有名的音乐制作软件)的 MIDI 插件，包含 5 个工具：Continue，Groove

51、，Generate，Drumify 和 Interpolate，可用于将 Magenta 模型应用于 MIDI 文件。（1）Continue：使用 RNN 进行扩展创作和续写，输入 MIDI 文件，它最多可以扩展 32 个小节。（2）Generate：类似于 Continue，但是它生成一个 4 小节的短旋律，而无需输入。（3）Groove：可调节输入 MIDI 文件中的鼓点时间和速度，以产生鼓手演奏的感觉。（4）Drumify：根据任何输入的节奏创建鼓点。（5）Interpolate：把两段旋律或者鼓点作为输入，合并成一段新的旋律。Magenta 除了针对智能作曲的开源项目外，还有针对前端展

52、示、二次开发的 Demo 教程等，方便其他厂商使用。图图 22:Magenta Studio 工具套装工具套装数据来源：Magenta Studio，中信建投证券 (4)OpenAI Musenet：未至商业化阶段，模型主要功能为音乐风格融合生成：未至商业化阶段，模型主要功能为音乐风格融合生成 MuseNet 是 OpenAI 在 2019 年推出的深度神经网络模型，可以使用 10 种不同的乐器生成 4 分钟的音乐作品，并且可以对乡村、披头士、莫扎特等差异较大的风格进行组合和融合。MuseNet 由十万个 MIDI 文件训练得到，使用与 GPT-2 相同的通用无监督技术。GPT-2 为先前

53、OpenAI 提出的一个大规模 Transformer 模型，训练 AI 预测序列中的下一个 token，包括音频和文本，用在 MuseNet 上则是给定一组音符后，要求 AI 预测后面会出现的音符。另外，MuseNet 使用 Sparse Transformer 的重新计算和优化核来训练一个具有 24 个注意力头（attention head）的 72 层网络，其全部注意力都放在 4096 个 token 的语境中。17 海外行业深度报告资讯科技业资讯科技业请参阅最后一页的重要声明风险分析风险分析技术发展不及预期，初创公司经营风险；宏观经济下行，居民互联网娱乐支出减少；新的商业模式增

54、加研发支出，回报存在不确定性；用户反馈不佳，获客不及预期；新模式受到付费用户抵制，免费+广告模式可能影响平台原有生态；新模式覆盖曲库较少，无法满足免费用户需求；市场竞争加剧；互联网娱乐业务受到政策来带的不确定性；股东减持风险；美联储鹰派超预期；数字内容创作进度不及预期；宏观经济及消费复苏不及预期导致整体需求不及预期。18 海外行业深度报告资讯科技业资讯科技业请参阅最后一页的重要声明分析师介绍分析师介绍孙晓磊孙晓磊海外研究首席分析师，北京航空航天大学硕士，游戏产业和金融业 7 年复合从业经历，专注于互联网研究，对腾讯、网易、阿里、美团、阅文等互联网巨头有较为深入的理解。2019 年新财

55、富港股及海外最佳研究团队入围，2020 年、2021 年新财富港股及海外最佳研究团队第五名。崔世峰崔世峰海外研究联席首席分析师，南京大学硕士，6 年买方及卖方复合从业经历，专注于互联网龙头公司研究，所在卖方团队获得 2019-2020 年新财富传媒最佳研究团队第二名。2022 年新财富海外研究最佳研究团队入围。19 海外行业深度报告资讯科技业资讯科技业请参阅最后一页的重要声明评级说明评级说明投资评级标准评级说明报告中投资建议涉及的评级标准为报告发布日后 6个月内的相对市场表现，也即报告发布日后的 6 个月内公司股价（或行业指数）相对同期相关证券市场代表性指数的涨跌幅作为基准。A

56、股市场以沪深300 指数作为基准；新三板市场以三板成指为基准；香港市场以恒生指数作为基准；美国市场以标普500 指数为基准。股票评级买入相对涨幅 15以上增持相对涨幅 5%15 中性相对涨幅-5%5之间减持相对跌幅 5%15 卖出相对跌幅 15以上行业评级强于大市相对涨幅 10%以上中性相对涨幅-10-10%之间弱于大市相对跌幅 10%以上分析师声明分析师声明本报告署名分析师在此声明：（i）以勤勉的职业态度、专业审慎的研究方法，使用合法合规的信息，独立、客观地出具本报告,结论不受任何第三方的授意或影响。（ii）本人不曾因，不因，也将不会因本报告中的具体推荐意

57、见或观点而直接或间接收到任何形式的补偿。法律主体说明法律主体说明本报告由中信建投证券股份有限公司及/或其附属机构（以下合称“中信建投”）制作，由中信建投证券股份有限公司在中华人民共和国（仅为本报告目的，不包括香港、澳门、台湾）提供。中信建投证券股份有限公司具有中国证监会许可的投资咨询业务资格，本报告署名分析师所持中国证券业协会授予的证券投资咨询执业资格证书编号已披露在报告上海品茶。在遵守适用的法律法规情况下，本报告亦可能由中信建投（国际）证券有限公司在香港提供。本报告作者所持香港证监会牌照的中央编号已披露在报告上海品茶。一般性声明一般性声明本报告由中信建投制作。发送本报告不构成任何合同或承诺的基础

58、，不因接收者收到本报告而视其为中信建投客户。本报告的信息均来源于中信建投认为可靠的公开资料，但中信建投对这些信息的准确性及完整性不作任何保证。本报告所载观点、评估和预测仅反映本报告出具日该分析师的判断，该等观点、评估和预测可能在不发出通知的情况下有所变更，亦有可能因使用不同假设和标准或者采用不同分析方法而与中信建投其他部门、人员口头或书面表达的意见不同或相反。本报告所引证券或其他金融工具的过往业绩不代表其未来表现。报告中所含任何具有预测性质的内容皆基于相应的假设条件，而任何假设条件都可能随时发生变化并影响实际投资收益。中信建投不承诺、不保证本报告所含具有预测性质的内容必然得以实现。本报告内容的

59、全部或部分均不构成投资建议。本报告所包含的观点、建议并未考虑报告接收人在财务状况、投资目的、风险偏好等方面的具体情况，报告接收者应当独立评估本报告所含信息，基于自身投资目标、需求、市场机会、风险及其他因素自主做出决策并自行承担投资风险。中信建投建议所有投资者应就任何潜在投资向其税务、会计或法律顾问咨询。不论报告接收者是否根据本报告做出投资决策，中信建投都不对该等投资决策提供任何形式的担保，亦不以任何形式分享投资收益或者分担投资损失。中信建投不对使用本报告所产生的任何直接或间接损失承担责任。在法律法规及监管规定允许的范围内，中信建投可能持有并交易本报告中所提公司的股份或其他财产权益，也可能在过去

60、 12 个月、目前或者将来为本报告中所提公司提供或者争取为其提供投资银行、做市交易、财务顾问或其他金融服务。本报告内容真实、准确、完整地反映了署名分析师的观点，分析师的薪酬无论过去、现在或未来都不会直接或间接与其所撰写报告中的具体观点相联系，分析师亦不会因撰写本报告而获取不当利益。本报告为中信建投所有。未经中信建投事先书面许可，任何机构和/或个人不得以任何形式转发、翻版、复制、发布或引用本报告全部或部分内容，亦不得从未经中信建投书面授权的任何机构、个人或其运营的媒体平台接收、翻版、复制或引用本报告全部或部分内容。版权所有，违者必究。中信建投证券研究发展部中信建投证券研究发展部中信建投（国际）中信建投（国际）北京上海深圳香港东城区朝内大街2 号凯恒中心B座 12 层上海浦东新区浦东南路528号南塔 2103 室福田区福中三路与鹏程一路交汇处广电金融中心 35 楼中环交易广场 2 期 18 楼电话：（8610）8513-0588 电话：（8621）6882-1600 电话：（86755）8252-1369 电话：（852）3465-5600 联系人：李祉瑶联系人：翁起帆联系人：曹莹联系人：刘泓麟邮箱：邮箱：邮箱：邮箱：charleneliucsci.hk

上海品茶

资讯科技行业AI音乐：打通技术新路径大模型时代加速发展-230511.pdf

报告推荐

相关图表

相关报告

热门报告