《【1】腾讯AI Lab音频与语音前端处理进展——罗艺.pdf》由会员分享,可在线阅读,更多相关《【1】腾讯AI Lab音频与语音前端处理进展——罗艺.pdf(25页珍藏版)》请在三个皮匠报告上搜索。
1、腾讯AI Lab音频与语音前端处理进展罗艺腾讯AI Lab高级研究员全流程优化:数据仿真、模型设计、目标任务音频与语音前端处理Tencent AI Lab数据仿真高效单通道/多通道房间混响仿真:难点:现有房间混响仿真工具均无法满足实时生成的速度要求,且生成的混响相对于真实房间混响存在差距方法:提出针对房间混响的快速随机近似方法(FRAM-RIR)1,2,3,绕过复杂的房间反射声源路径计算过程,采用带限制的采样模块进行快速近似效果:相对于现有房间混响仿真工具,CPU下生成速度快一个数量级且大幅提升仿真结果与真实房间混响的相似性1 Luo,Yi and Yu,Jianwei,“FRA-RIR:Fa
2、st Random Approximation of the Image-source Method.”,arXiv preprint arXiv:2208.04101(2022).2 Luo,Yi and Gu,Rongzhi,“Fast Random Approximation of Multi-channel Room Impulse Response.”,arXiv preprint arXiv:2304.08052(2023).3 https:/ method(ISM)方法一般假设空的矩形房间,而无法考虑房间内部的陈设对声源反射的影响,造成“sweeping echo effect”
3、传统ISM方法一般速度较慢,无法用于在线仿真,而预先离线生成足量仿真数据又需要占用大量存储空间,且数据丰富度受限方案:绕过传统ISM方法中显式进行反射声源路径计算的步骤,使用有约束的随机采样来生成反射路径,同时模拟房间内有不同类型陈设的情况与不规则房间形状的情况FRAM-RIRISM:=10 00+=0 0直达声+所有反射声,其中为反射次数,为总传播距离FRAM-RIR:随机采样与,避免直接计算初始:给定麦克风坐标与声源坐标,计算每个麦克风的直达声随机采样反射声:(1)随机采样一个空间位置距离:相对直达声距离的比值角度:随机(2)计算该位置与所有麦克风位置之间的距离(3)基于当前距离,随机采样
4、反射次数 采样过程对所有反射声而言可以完全并行计算 :同样可以完全并行FRAM-RIR生成速度:FRAM-RIRRIR质量:FRAM-RIR模型训练性能:降噪+分离FRAM-RIR模型训练性能:降噪+分离+去混响模型设计高采样率音频前端处理:难点:音乐、语音、环境声等高采样率音频频带特性复杂,难以有效建模方法:提出细粒度频带切分与交互网络(band-split RNN,BSRNN)、半监督数据增强模块、全采样率处理模块 1-4效果:音乐分离、语音增强等基准测试集均达到SOTA,SDX Challenge 2023电影音效分离比赛第一,DNS 2023语音增强比赛第三1 Luo,Yi,and J
5、ianwei Yu.Music Source Separation with Band-split RNN.IEEE/ACM Transactions on Audio,Speech,and Language Processing(2023).2 Yu,Jianwei,et al.High Fidelity Speech Enhancement with Band-split RNN.arXiv preprint arXiv:2212.00406(2022).3 Yu,Jianwei,and Yi Luo.Efficient Monaural Speech Enhancement with U
6、niversal Sample Rate Band-Split RNN.ICASSP 2023-2023 IEEE International Conference on Acoustics,Speech and Signal Processing(ICASSP).IEEE,2023.4 Yu,Jianwei,et al.TSpeech-AI System Description to the 5th Deep Noise Suppression(DNS)Challenge.ICASSP 2023-2023 IEEE International Conference on Acoustics,
7、Speech and Signal Processing(ICASSP).IEEE,2023.BSRNN出发点:音乐分离任务:现有各类SOTA语音分离模型均难以在音乐数据上获得较好性能与听感方案:进行包含细粒度频带切分与交互模块的时间-频域维度建模BSRNN频带切分:将时频特征切分为(互不重叠)的频带并分别映射为统一维度的特征拼接实部与虚部频带宽度在低频处较小,高频处较大(类似Mel filterbank)频带间特征映射模型(norm+FC)不共享不同的声源(人声、乐器、环境音等)可以有不同的切分模式BSRNN频带维度建模与时间维度建模:双向(dualpath)RNN时间维度RNN建模序列信息
8、频带维度RNN建模频带间关系(谐波关系等)交替进行,增加网络深度BSRNN掩膜估计:复数域掩膜(complex-valued T-F mask)每个频带估计自己的mask,且参数同样不共享输出各个mask的实部与虚部(unbounded)BSRNN半监督数据增强:高质量音乐训练数据难以获取,利用无标签数据进行模型微调:(1)使用相对小规模有标签数据先训练模型(2)模型微调时,每次随机采样一个有标签数据和一个无标签数据(3)对于无标签数据,利用训练好的模型进行分离,得到伪标签(可能带噪与带失真的目标声源)(4)判断伪标签数据是否可用(5)对于可用的伪标签数据,将其与采样的有标签数据随机混合,生成
9、新的训练数据(6)使用同样的损失函数进行模型微调BSRNN音乐分离结果:BSRNN电影音效分离结果:CDX 2023比赛第一针对原始BSRNN模型进行了优化,but just rejected by INTERSPEECH 2023BSRNN语音增强:针对中高频单独处理,加入说话人提取模块与对抗训练频带交互部分,中高频使用从低到高的单向RNN,低频使用双向RNN加入多分辨率判别器(multi-resolution spectrogram discriminator)、MetricGANloss等以提升PESQ指标BSRNN语音增强结果:BSRNN语音增强结果:DNS 2023第三BSRNN全采
10、样率语音增强:单一模型处理8 kHz 48 kHz输入对于给定采样率的输入,统一上采样到最大支持采样率(如48 kHz)频带交互时只扫描当前采样率对应的有效频带部分BSRNN全采样率语音增强:模型性能与计算复杂度(*表示runtime优化后)音乐分离样例影视剧分离样例原声人声多通道分离&去混响样例区域提取:小麦克风阵列下任意区域内人声提取+降噪+去混响基于FRAM-RIR,改良版多通道BSRNN,but also rejected by INTERSPEECH 2023Time stamp Raw audioQuery 45,100Query-30,30Query-90,-309.0-38.0