基于神经网络的语言合成-智能语音科技创新论坛（29页）.pdf

编号：84529

PDF 29页 17.76MB 下载积分：VIP专享

下载报告请您先登录！

基于神经网络的语言合成-智能语音科技创新论坛（29页）.pdf

1、首个神经声码器WaveNet基于神经网络的语言合成神经语音模型Tacotron应用TransformerTransformerTTS结合神经语音模型和声码器Tacotron 2通过单调搜索对齐文本波形GlowTTS首个非自回归语音模型FastSpeech基于对抗生成的非自回归模型Parallel WaveGAN引入音高、能量等预测FastSpeech 2基于扩散模型的生成式模型Diffwave约束注意力机制对齐文本音频EfficientTTS基于网络结构搜索的轻量模型LightSpeech语音模型声码器文本音素频谱波形端到端非自回归语音合成FastSpeech 2s基于标准化流的生成式模型Wa

2、veGlow神经语音模型神经声码器端到端语音合成神经声码器的发展01Neural Speech SynthesisWaveNetWaveNet 是首个基于神经网络的声码器模型。模型采用了层次化的空洞因果卷积设计,大幅度扩张了模型的感受野大小，以此捕获超长序列上的依赖关系，从而使得模型能够处理高采样率的音频数据。van den Oord,Aron,et al.WaveNet:A Generative Model for Raw Audio.9th ISCA Speech Synthesis Workshop.层次化空洞因果卷积PreviousCurrentParallel WaveGAN 使用对

3、抗生成网络的方法，直接训练一个非自回归的声码器模型。模型通过优化对抗损失和多分辨率梅尔频谱进行训练，以此学习真实语音的频域特性。相比必须分步自回归合成的声码器，其训练于合成速度都有显著提升。Parallel WaveGANDiscriminatorGenerator(WaveNet)STFT loss(1st)STFT loss(2nd)STFT loss(Mth)Adversarial lossDiscriminator loss+Natural SpeechRandom noiseAuxiliary featureParameter updateParameter updateYamamo

4、to,Ryuichi,Eunwoo Song,and Jae-Min Kim.Parallel WaveGAN:A fast waveform generation model based on generative adversarial networks with multi-resolution spectrogram.ICASSP 2020-2020 IEEE International Conference on Acoustics,Speech and Signal Processing(ICASSP).IEEE,2020.WaveGlowxaxbWNAffineTransform

5、xaxbUpsampledMel-spectrogramAffine Coupling LayerInvertible 1x1ConvolutionSqueeze toVectorsxz 12Prenger,Ryan,Rafael Valle,and Bryan Catanzaro.Waveglow:A flow-based generative network for speech synthesis.ICASSP 2019-2019 IEEE International Conference on Acoustics,Speech and Signal Processing(ICASSP)

6、.IEEE,2019.WaveGlow 是基于标准化流的非自回归声码器模型。模型完全由可逆结构组成，能够直接学习声音波形到简单随机分布空间的双向映射。合成速度远高于自回归模型，且训练上相比对抗学习更加稳定。DiffwaveKong,Zhifeng,et al.DiffWave:A Versatile Diffusion Model for Audio Synthesis.International Conference on Learning Representations.2020.Diffwave 是基于扩散建模的声码器模型。该方法将波形到随机噪声的映射看做一个固定步数随机扩散，并使用神经

7、网络学习模拟其逆过程，实现声音波形的重建。Diffwave具备易训练、合成速度快、空间占用少的特点，且在有约束和无约束的合成任务上均有较好的表现。p(x0|x1)p(x1|x2)p(xT-1|xT)x1x2x0 xT-1xTq(x1|x0)q(x2|x1)q(xT|xT-1)DiffusionProcessReverseProcessRandom NoiseWaveform神经语音模型的发展02Neural Speech SynthesisTacotronAttentionAttn RNNDec RNNAttn RNNAttn RNNDec RNNAttn RNNAttn RNNDec RNN

8、Attn RNNCBHGGriffin-Lim reconstructionPre-netCBHGTacotron 模型架构Wang,Yuxuan,et al.Tacotron:Towards End-to-End Speech Synthesis.Proc.Interspeech 2017(2017):4006-4010.Tacotron 是首个端到端的神经语音模型。该方法可以直接使用的数据对进行训练，无需额外的音素对齐等，大大减少了对数据标注的依赖。相比多阶段分别构建的模型，端到端模型的泛化性更强，也更加鲁棒。Tacotron 2&Transformer-TTSTacotron 2Tra

9、nsformer TTSShen,Jonathan,et al.Natural tts synthesis by conditioning wavenet on mel spectrogram predictions.2018 IEEE International Conference on Acoustics,Speech and Signal Processing(ICASSP).IEEE,2018.Li,Naihan,et al.Neural speech synthesis with transformer network.Proceedings of the AAAI Confere

10、nce on Artificial Intelligence.Vol.33.No.01.2019.TextText-to-phoneConvertorEncoderPre-netMultiheadAttentionAdd&NormFFNAdd&NormMultiheadAttentionAdd&NormFFNAdd&NormMaskedMultiheadAttentionAdd&NormDecoderPre-netStopTokenMel LinearStop LinearPost NetN NText3-LayerCNNStopTokenBi-directionalLSTMDecoderPr

11、e-net2-layer LSTMLocationSensitiveAttentionMel LinearStop LinearPost NetWaveNetMoLTacotron 2 简化了 Tacotron 的结构，并结合了基于 WaveNet 的神经声码器，实现完全由神经网络组成的文本-波形合成。Transformer-TTS 模型则使用 Transformer 模型替换了原本的 LSTM，使模型可以并行进行训练，训练效率提升45倍。FastSpeechFeed-Forward TransformerFFT BlockLength RegulatorDuration PredictorM

12、ulti-HeadAttentionAdd&NormAdd&NormConv1DPhoneme EmbeddingFFT BlockFFT BlockLinear LayerLength RegulatorPhonemePositional Encoding+Positional Encoding+NNLRDurationPredictorD=2,2,3,1=1.0AutoregressiveTransformer TTSConv1D+NormConv1D+NormLinear LayerDurationExtractorMSE LossPhonemeTrainingRen,Yi,et al.

13、FastSpeech:fast,robust and controllable text to speech.Proceedings of the 33rd International Conference on Neural Information Processing Systems.2019.FastSpeech 利用了文本和语音单调对应的性质，实现了全并行的非自回归架构的语音模型。该方法通过长度适配模块预测并控制语音速度和韵律，得以并行执行语音合成，且大大提高了语音合成的可控性和鲁棒性。FastSpeech 频谱合成速度相比自回归方法提高了270倍，语音波形合成速度提高了38倍。Fas

14、tSpeech 2FastSpeech 2Variance adaptorVariance PredictorWaveform decoderRen,Yi,et al.FastSpeech 2:Fast and High-Quality End-to-End Text to Speech.International Conference on Learning Representations.2020.PhonemePositional Encoding+Positional Encoding+EncoderVariance AdaptorMel-spectrogramDecoderWavef

15、ormDecoderPhoneme EmbeddingFastSpeech 2sLR+Duration PredictorPitch PredictorEnergy Predictor PredictorConv1D+ReLUConv1D+ReLULN+DropoutLN+DropoutLinear LayerTransposed Conv1DGated ActivationDialated Conv1DConv 1x1Conv1D NFastSpeech 2 直接使用 ground-truth 的频谱进行训练，并引入音高、能量预测作为辅助，以解决语音合成问题中，文本-语音对应关系的多峰性挑战

16、，提升了合成语音的韵律感。FastSpeech 2s 直接通过输入文本合成波形，实现了第一个完全非自回归的文本到波形生成系统。其合成的音频具有可以匹敌声学模型+声码器模型的性能和音质，且有更快的速度。MethodMOSGT4.300.07GT(Mel+PWG)3.920.08Tacotron 2(Mel+PWG)3.700.08Transformer TTS(Mel+PWG)3.720.07FastSpeech(Mel+PWG)3.680.09FastSpeech 2(Mel+PWG)3.830.08FastSpeech 2s(Mel+PWG)3.710.09MethodTraining Ti

17、me(h)Inference Speed(RTF)Inference SpeedupTransformer TTS38.649.32x10-1/FastSpeech53.121.92x10-248.5xFastSpeech 217.021.95x10-247.8xFastSpeech 2s92.181.80 x10-251.8xGlow-TTSKim,Jaehyeon,et al.Glow-TTS:A Generative Flow for Text-to-Speech via Monotonic Alignment Search.Advances in Neural Information

18、Processing Systems 33(2020).ProjectionEncoderInputGlow-based DecoderDuration PredictorLdurStop GradiantGlow-TTS 使用基于生成流的解码器实现隐空间到频谱空间的映射，计算其条件概率，并采用单调搜索的方式搜索文本和音频的最优对齐，使得模型能够进行非自回归的训练和合成，速度相比自回归模型提高了16倍。EfficientTTSMiao,Chenfeng,et al.Efficienttts:An efficient and high-quality text-to-speech archite

19、cture.International Conference on Machine Learning.PMLR,2021.EfficientTTS 提出了索引映射向量，通过对注意力机制施加约束来使得模型自监督地学习文本-语音序列的连续对应关系。该方法几乎没有额外训练开销，能够在不使用外部工具的情况下端到端训练得到非自回归模型，进一步提高了训练效率。AlignmentReconstructionDecoderText EncoderAligned PositionPredictorText SequenceAligned PositionMel EncoderIMV GeneratorInfer

20、enceTrainingLightSpeechFastSpeech 2LightSpeech#Params27.0M1.8MCompression Ratio/15xMACs12.50G0.76GRatio/16xInference Speed6.1E-29.3E-3Speedup/6.5xLuo,Renqian,et al.Lightspeech:Lightweight and fast text to speech with neural architecture search.ICASSP 2021-2021 IEEE International Conference on Acoust

21、ics,Speech and Signal Processing(ICASSP).IEEE,2021.LightSpeech 着眼于内存和算力均受限的终端实时合成场景，通过神经网络结构搜索的技术自动搜索设计了更为轻量、高效的语音合成模型。搜索得到的模型远小于原始结构，且仍能保证一致的生成质量。语言合成技术相关任务及应用03Neural Speech Synthesis语音克隆Speaker AdaptationSpeaker EncodingTrainingCloningGenerationFixedTrainableMulti-SpeakerGenerative ModelTextAudio

22、Speaker EmbeddingMulti-SpeakerGenerative ModelCloning TextCloning AudioSpeaker EmbeddingMulti-SpeakerGenerative ModelTextAudioSpeaker EmbeddingMulti-SpeakerGenerative ModelCloning AudioSpeaker EmbeddingMulti-SpeakerGenerative ModelTextAudioMulti-SpeakerGenerative ModelCloning AudioSpeaker EmbeddingM

23、ulti-SpeakerGenerative ModelTextAudioSpeaker EmbeddingArk,Sercan.,et al.Neural voice cloning with a few samples.Proceedings of the 32nd International Conference on Neural Information Processing Systems.2018.语音克隆技术致力于学习指定话者的声音特征进行模仿，以实现个性化的语音合成。其主要技术方向有两类：基于话者自适应的方法通过大量数据预训练一个模型后，使用目标话者数据精调合成模型；基于话者编

24、码的方法同时训练话者编码提取的模型和基于编码合成目标话者语音的模型.语音克隆-AdaSpeech 2MelEncoderPhonemePhonemeEncoderMelDecoderLossMelEncoderPhonemePhonemeEncoderMelDecoderMelEncoderPhonemeEncoderMelDecoderMelEncoderPhonemePhonemeEncoderMelDecoderStep 1Step 2Step 3Step 4FixedTrainableYan,Yuzi,et al.Adaspeech 2:Adaptive text to speech

25、with untranscribed data.ICASSP 2021-2021 IEEE International Conference on Acoustics,Speech and Signal Processing(ICASSP).IEEE,2021.AdaSpeech 2 能够只依靠音频数据便完成语音克隆的自适应学习。其在前期训练阶段中加入了频谱编码器，将频谱编码与文本编码对齐。该技术解决了实际应用场景中的目标话者数据往往没有对应的文本信息，难以进行自适应学习的问题。DeepSinger直接使用一般的歌曲提取人声作为原始训练数据，通过语音识别模型，无监督地完成歌词对齐，并能够根据输

26、入直接合成歌声。该技术无需专门录制高质量清唱歌声并人工对齐，极大降低了歌声合成任务所用数据需的采集成本和标注成本。歌声合成-DeepSingerPitchEmbeddingTransformerTransformerLinearPitchPitch Encoder+PhonemeEbeddingTransformerLength ExpansionLyrics2,3,2,1,Lyrics EncoderAvgPoolingPre-NetTransformerReference EncoderRen,Yi,et al.Deepsinger:Singing voice synthesis with

27、 data mined from the web.Proceedings of the 26th ACM SIGKDD International Conference on Knowledge Discovery&Data Mining.2020.歌声合成-FMSingConv1dUpSamplingWaveNet block2xConv1x1ReLUMelNoiseGeneratorConv1d10 xChannel:64 Kernel:7Dialation:1,2,3,10Dialation ConvRaw WaveformP2Unconditioned DiscriminatorSin

28、ger Condition DiscriminatorConv1dDownSampling 4xConv1dLSTMLinearReLURaw WaveformP1SpeakerEmbeddingPassFMSing使用多波段生成的方式加速训练和歌声合成的过程，使用对抗学习方法来提取歌手声音特征，提高了模型对不同歌手的泛化性，对于训练数据中未包含的歌手的生成效果显著优于传统方法。歌声克隆-PitchNetEncoderSinger ClassificationNetworkPitch RegressionNetworkDecoderPitchPitchLookupTableDeng,Cheng

29、qi,et al.Pitchnet:Unsupervised singing voice conversion with pitch adversarial network.ICASSP 2020-2020 IEEE International Conference on Acoustics,Speech and Signal Processing(ICASSP).IEEE,2020.PitchNet 通过对抗学习的方法学习到与曲调和歌手均无关的语义编码，再结合歌手特征和曲调重构音频。合成时，使用目标歌手特征替换源歌手特征，能够生成曲调准确的新歌声。歌声克隆 Disentangled VAEF

30、eature ExtractionBiLSTM Encoder 1BiLSTM Encoder 2Encoding BlockSinger AttentionTechnique AttentionSinger ClassifierTechnique ClassifierOptional Classification BlockDecoding BlockBiLSTM DecoderRefinement NetworkLuo,Yin-Jyun,et al.Singing voice conversion with disentangled representations of singer an

31、d vocal technique using variational autoencoders.ICASSP 2020-2020 IEEE International Conference on Acoustics,Speech and Signal Processing(ICASSP).IEEE,2020.该方法使用变分自编码器学习音频空间和编码空间的映射关系，将与歌手和歌唱技巧相关的编码特征进行解耦。模型可以利用标注不完整的歌声数据，提高了数据利用效率。该方法可以对不同片段施加不同约束，实现歌声的灵活变换。伴奏合成-PopMAGOutput ModuleM+1th Bar(Target

32、Tracks)N NM+1thBar(Condition Tracks)Input ModuleSelf-AttentionAdd&NormFeed ForwardAdd&NormM+1thBar(Target Tracks)Input ModuleAdd&NormAdd&NormAdd&NormFeed ForwardCross AttentionCausal Self-AttentionMthBar(Condition Tracks)Input ModuleSelf-AttentionAdd&NormFeed ForwardAdd&NormMthBar(Target Tracks)Inpu

33、t ModuleAdd&NormAdd&NormAdd&NormFeed ForwardCross AttentionCausal Self-AttentionEncoderDecoderRen,Yi,et al.Popmag:Pop music accompaniment generation.Proceedings of the 28th ACM International Conference on Multimedia.2020.PopMAG设计并使用了Mu-MIDI表示，将多音轨的MIDI信号编码为单个序列，使得模型能够直接生成多轨混合的伴奏，更好地协调不同音轨的声音。PopMAG将

34、每个音符的多项属性压缩为单步表示，降低了序列长度，并在模型中引入额外的上下文信息记忆，更好地捕获长期依赖。情感控制 Emotional TSS with SERSER DataTTS DataEncoderClassifierFeature of SER dataFeature of TTS dataCE LossMMD LossGST ModuleReferenceAudioInput TextSequenceReferenceEncoderTextEncoderProsodyEmbeddingEmotionEmbeddingTokenWeightsEmotion LossTTS LossP

35、re-trainConditioningAttentionDecoderEncoderPredictorToken BToken ACai,Xiong,et al.Emotion controllable speech synthesis using emotion-unlabeled dataset with the assistance of cross-domain speech emotion recognition.ICASSP 2021-2021 IEEE International Conference on Acoustics,Speech and Signal Process

36、ing(ICASSP).IEEE,2021.该工作能够能够同时利用语音合成和情感识别两类数据，训练情感可控的语音合成模型。模型在训练情感预测模块的同时优化TTS和SER数据在编码空间上的分布相似度，再用训练好的情感预测模块构建辅助任务训练情感语音合成模块。情感控制 EMOVIE&EMSpeechMelDecoderPhonemeSequencePhonemeEmbeddingEncoderVarianceAdaptorEmotionPredictorEmotionLabelCui,Chenye,et al.EMOVIE:A Mandarin Emotion Speech Dataset wit

37、h a Simple Emotional Text-to-Speech Model.arXiv preprint arXiv:2106.09317(2021).EMOVIE 是首个面向情感语音合成的中文语音数据集，全部由高采样率语音数据构成。EMSpeech 是基于 FastSpeech 2 设计的情感语音合成模型，其加入了情感预测模块学习情感表征。合成时不仅可以由用户指定需要生成的情感类型，还可以根据文本自动预测情感标签进行语音合成，产生自然的有情感语音。音频超分辨率-WSRGlowxaxbWNAffineTransformxaXbConcat(HLR,HSTFT)Glow LayerSqu

38、eeze toGroupsxz kInvertible 1x1ConvolutionxprevZhang,Kexun,et al.WSRGlow:A Glow-based Waveform Generative Model for Audio Super-Resolution.arXiv preprint arXiv:2106.08507(2021).WSRGlow 模型从时域和频域两方面提取低分辨率音频，通过生成流模型重建高分辨率音频波形，实音频超分辨率。WSRGlow是首个成功将生成流应用于音频超分辨率任务上的方法，比传统方法更容易训练，且效果更好。语音合成技术发展趋势展望04Neural

39、 Speech Synthesis目前的语音合成框架大多先通过语音模型将输入的文本转化为频谱序列，然后再利用神经声码器将梅尔频谱转化为最终的输出波形。然而，在这种框架下，整个系统必须包含完整的两个模型，对存储空间和计算量均有较高的需求。同时，分别实现的两个模型各自的错误会发生累积，从而影响最终生成的效果。因此，许多研究聚焦于如何结合语音模型和声码器，实现文本到波形的直接合成。语音合成技术发展趋势Wave-TacotronWeiss,Ron J.,et al.Wave-Tacotron:Spectrogram-free end-to-end text-to-speech synthesis.IC

40、ASSP 2021-2021 IEEE International Conference on Acoustics,Speech and Signal Processing(ICASSP).IEEE,2021.Wave-Tacotron 将 Tacotron 与基于标准化流的声码器结构结合，实现了文本-波形的端到端合成。训练时不使用梅尔频谱作为辅助目标，而直接优化目标波形的最大似然。合成质量相比分别训练的语音模型和声码器，具有更高的质量。SqueezeActNormInvertible1x1 ConvAffineCouplingSqueezeActNormUnsqueezeEncoderPre

41、-NetLSTM+AttentionResidualLSTMLinearProj.Stop TokenInputTokenyt-1ytxNxMctLiteTTSZhang,Kexun,et al.WSRGlow:A Glow-based Waveform Generative Model for Audio Super-Resolution.arXiv preprint arXiv:2106.08507(2021).LiteTTS 在训练阶段，利用领域迁移的技巧，使得模型能够直接从文本中提取语音韵律相关特征。在合成时，不产生梅尔频谱的中间表示，直接从文本生成波形。对比语音模型+声码器的组合，参数量减少约50%，运行速度提升5倍。TextTextTextEncoderProsodyEncoderTransferEncoderPitch&EnergyPredictorAlignmentBlockDurationPredictorWaveformGeneratorExpandDiscriminatorLcLe,LpLdurLmtrstftLGAN,LfeatTextTextEncoderTransferEncoderDurationPredictorWaveformGeneratorExpandLdurTrainInference

友情提示

1、下载报告失败解决办法
2、PDF文件下载后，可能会被浏览器默认打开，此种情况可以点击浏览器菜单，保存网页到桌面，就可以正常下载了。
3、本站不支持迅雷下载，请使用电脑自带的IE浏览器，或者360浏览器、谷歌浏览器下载即可。
4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩，下载后原文更清晰。

本文（基于神经网络的语言合成-智能语音科技创新论坛（29页）.pdf）为本站（云闲）主动上传，三个皮匠报告文库仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对上载内容本身不做任何修改或编辑。若此文所含内容侵犯了您的版权或隐私，请立即通知三个皮匠报告文库（点击联系客服），我们立即给予删除！

温馨提示：如果因为网速或其他原因下载失败请重新下载，重复下载不扣分。