《快手端到端语音识别技术的探索与实践-李杰.pdf》由会员分享,可在线阅读,更多相关《快手端到端语音识别技术的探索与实践-李杰.pdf(39页珍藏版)》请在三个皮匠报告上搜索。
1、快手快手直播生态中的直播生态中的AIAI语音技术语音技术李杰 博士快手资深语音算法专家2021.11李杰,李杰,博士,快手资深语音识别算法专家。研究方向为基于深度学习的语音识别,在语音领域国际顶会上,包括ICASSP、INTERSPEECH、ASRU等,发表论文十几篇。2016年加入微软(亚洲)互联网工程院,担任语音技术研究员。2017年底加入快手,目前负责快手语音识别组的技术研发和项目落地,四次获得公司研发线-技术突破奖。演讲人介绍演讲人介绍快手快手-国民短视频及直播社区国民短视频及直播社区流量内容粘性3.2043.204亿亿日活用户5.7295.729亿亿月活用户1.81.8亿亿+海外月活
2、用户百百亿量级亿量级短视频库存100min+100min+日均使用时长140140亿亿+对人互相关注渗透率渗透率78%78%直播日活渗透率AIAI语音与直播生态语音与直播生态直播生态中的直播生态中的AIAI语音技术语音技术本次报告主要聚焦在以下技术方向:本次报告主要聚焦在以下技术方向:直播间直播间内容理解内容理解声学事件检测音频分离语种识别语音识别直播智能剪辑直播间直播间内容生产内容生产智能变声音频分离音频分离音频音频事件检测事件检测语种识别语种识别语音识别语音识别直播智能剪辑直播智能剪辑文本文本精彩片段精彩片段音频事件检测音频事件检测游戏直播间:游戏直播间:检测特定音效的起止时间持续时间很短
3、秀场直播间:秀场直播间:检测语音、伴奏、唱歌的起止时间音频事件检测模型改进音频事件检测模型改进萨里大学萨里大学20182018年年GCRNNGCRNN模型:模型:2017年DCASE比赛第一名快手线上测试集音乐起止点检测任务,F1值84.4%FBankFeature Feature SelectionSelection音频分类事件检测Transformer Transformer EncoderEncoderTokenToken提出提出FS-TransformerFS-Transformer模型:模型:改进1:GCNN-Feature Selection模块改进2:RNN-Transforme
4、r编码器F1值92.3%,+7.9pp自研自研FS-TransformerFS-Transformer模型:模型:音频事件检测效果展示音频事件检测效果展示游戏直播间:游戏直播间:视频左侧展示游戏特效起止时间秀场直播间:秀场直播间:视频左上角展示语音、伴奏、唱歌起止时间直播生态中的直播生态中的AIAI语音技术语音技术本次报告主要聚焦在以下技术方向:本次报告主要聚焦在以下技术方向:直播间直播间内容理解内容理解声学事件检测音频分离音频分离语种识别语音识别直播智能剪辑直播间直播间内容生产内容生产智能变声音频分离音频分离音频音频事件检测事件检测语种识别语种识别语音识别语音识别直播智能剪辑直播智能剪辑文本
5、文本精彩片段精彩片段首次提出多任务音频分离首次提出多任务音频分离单任务单任务音频分离音频分离语音增强:从含噪语音中恢复高质量语音语音分离:分离多个说话人声音音乐分离:对音乐分离出人声以及不同乐器歌唱人声分离:分离唱歌的人声和伴奏多任务多任务音频分离音频分离首次提出首次提出MTASSMTASS任务任务MTASSMTASS:Multi-Task Audio Source Separation单系统输出三个音轨:语音、音乐和噪音语音:正常的人说话的声音音乐:唱歌人声(清唱)、伴奏以及两者的组合噪音:以上两种之外的背景声,包含特效音公开MTASS数据集自研多任务音频分离模型:自研多任务音频分离模型:C
6、omplex-MTASSNetComplex-MTASSNet多任务音频分离数据集:多任务音频分离数据集:已公开多任务音频分离模型多任务音频分离模型Complex-Complex-MTASSNetMTASSNet:ASRU 2021已公开和主流音频分离模型效果对比Complex-MTASSNet结构自研多任务音频分离模型:自研多任务音频分离模型:EAD-ConformerEAD-ConformerEAD-ConformerEAD-Conformer超越多种模型超越多种模型MTASSMTASS任务任务SOTASOTA结果结果投稿 ICASSP 2022和主流音频分离模型效果和效率对比EAD-Co
7、nformer结构多任务音频分离效果展示多任务音频分离效果展示语音语音+歌曲:歌曲:原始视频:语音:音乐:噪音:多任务音频分离效果展示多任务音频分离效果展示语音语音+伴奏:伴奏:原始视频:语音:音乐:噪音:多任务音频分离效果展示多任务音频分离效果展示语音语音+清唱:清唱:原始视频:语音:音乐:噪音:直播生态中的直播生态中的AIAI语音技术语音技术本次报告主要聚焦在以下技术方向:本次报告主要聚焦在以下技术方向:直播间直播间内容理解内容理解声学事件检测音频分离语种识别语种识别语音识别直播智能剪辑直播间直播间内容生产内容生产智能变声音频分离音频分离音频音频事件检测事件检测语种识别语种识别语音识别语音
8、识别直播智能剪辑直播智能剪辑文本文本精彩片段精彩片段语种识别语种识别语种识别是指从一段语音中识别出语种或方言的类别,如普通话、日、韩等。应用非常广泛,不仅可以作为语音识别和翻译系统的前端预处理模块,也可以用于定向广告和生物特征验证。汉语:汉语:普通话为主包括10大方言片区除去官话,其余9种约占总人口的32.3%共有129种细分地方话少数民族语言:少数民族语言:藏语安多、卫藏、康巴蒙古语维吾尔语语种识别:动态多尺度卷积模型语种识别:动态多尺度卷积模型TianLong Kong,et al.,“Dynamic Multi-Scale Convolution for Dialect Identifi
9、cation”,Interspeech 2021.三个创新点:三个创新点:首次将动态卷积核引入语种/方言识别领域局部多尺度学习,在更细粒度层面上对多尺度特征进行表征学习全局多尺度池化,能够聚合模型多个层次的特征动态多尺度卷积模型结构动态多尺度卷积模型结构Interspeech 202120202020东方语言识别挑战赛东方语言识别挑战赛SOTASOTA结果结果2020年东方语言识别(OLR)挑战赛,训练数据共有16种语言,包括日、韩、闽南话、四川话、上海话等语种/方言。动态多尺度模型达到动态多尺度模型达到SOTASOTA结果(结果(与2020 OLR挑战赛排名第一的系统相比):):参数量1/1
10、11/11:2.9M vs.33.1M EER相对45%45%提升提升:6.52%vs.11.97%直播生态中的直播生态中的AIAI语音技术语音技术本次报告主要聚焦在以下技术方向:本次报告主要聚焦在以下技术方向:直播间直播间内容理解内容理解声学事件检测音频分离语种识别语音识别语音识别直播智能剪辑直播间直播间内容生产内容生产智能变声音频分离音频分离音频音频事件检测事件检测语种识别语种识别语音识别语音识别直播智能剪辑直播智能剪辑文本文本精彩片段精彩片段语音识别在直播场景中的应用简介语音识别在直播场景中的应用简介(近似)实时将全量直播语音内容转写成文字目标:目标:为直播内容理解提供重要特征价值:价值
11、:广泛用于各业务方,包括直播电商、搜索、推荐、安全等应用:应用:海量高并发声学环境复杂近似实时 特点:特点:直播场景中的语音识别,称为直播语音转写,是直播内容理解的重要基础能力。直播语音转写三次技术方案升级直播语音转写三次技术方案升级三次技术方案升级三次技术方案升级TDNN-FTDNN-F混合框架混合框架TransformerTransformerConformerConformerFast-Fast-Conformer-Conformer-CTCCTC20182018年年Q2Q220202020年年Q1Q120202020年年Q3Q320212021年年Q2Q2语音识别混合框架和端到端框架对
12、比语音识别混合框架和端到端框架对比框架对比:框架对比:混合框架 VS.端到端框架端到端框架的特点端到端框架的特点优势:优势:劣势:劣势:泛化性泛化性信息丰信息丰富度富度鲁棒性鲁棒性精简精简准确准确+20%+20%高效高效+10 x+10 x准确准确+高效高效,特别符合直播语音转写近似实时和高并发的特点。直播语音转写第一次技术方案升级直播语音转写第一次技术方案升级第一次技术方案升级:混合框架第一次技术方案升级:混合框架-Transformer-TransformerTDNN-FTDNN-F混合框架混合框架TransformerTransformerConformerConformerFast-F
13、ast-Conformer-Conformer-CTCCTC20182018年年Q2Q220202020年年Q1Q120202020年年Q3Q320212021年年Q2Q2 TransformerTransformer方案:方案:TransformerTransformer方案优势:方案优势:简洁:全神经端到端,语音到文字映射精度高:+2.75pp速度快:解码速度10 xD.Li et al,“Speech-Transformer:A No-Recurrence Sequence-to-Sequence Model for Speech Recognition.”ICASSP 2018Y.Zh
14、ao et al,The SpeechTransformer for Large-scale Mandarin Chinese Speech Recognition.ICASSP 2019直播语音转写第二次技术方案升级直播语音转写第二次技术方案升级第二次技术方案升级:第二次技术方案升级:Transformer-ConformerTransformer-ConformerTDNN-FTDNN-F混合框架混合框架TransformerTransformerConformerConformerFast-Fast-Conformer-Conformer-CTCCTC20182018年年Q2Q22020
15、2020年年Q1Q120202020年年Q3Q320212021年年Q2Q2 ConformerConformer方案:方案:ConformerConformer方案优势:方案优势:增加了时序可分离卷积机制可捕捉语音特征的短时依赖关系精度高:+2.73ppGulati A,et al.Conformer:Convolution-augmented transformer for speech recognitionJ.arXiv preprint arXiv:2005.08100,2020.直播语音转写第三次技术方案升级直播语音转写第三次技术方案升级第三次技术方案升级:第三次技术方案升级:Co
16、nformer-Conformer-FastC2FastC2 (FastFast-C Conformeronformer-C-CTC)TC)TDNN-FTDNN-F混合框架混合框架TransformerTransformerConformerConformerFast-Fast-Conformer-Conformer-CTCCTC20182018年年Q2Q220202020年年Q1Q120202020年年Q3Q320212021年年Q2Q2 C Conformeronformer-C-CTCTC方案:方案:C Conformeronformer-C-CTCTC方案优势:方案优势:多任务Loss
17、训练,精度+10%可输出置信度、时间戳、文本FastC2FastC2:推理速度深度优化:推理速度深度优化算子融合混合精度量化显存优化输入序列padding移除直播生态中的直播生态中的AIAI语音技术语音技术本次报告主要聚焦在以下技术方向:本次报告主要聚焦在以下技术方向:直播间直播间内容理解内容理解声学事件检测音频分离语种识别语音识别直播智能剪辑直播智能剪辑直播间直播间内容生产内容生产智能变声音频分离音频分离音频音频事件检测事件检测语种识别语种识别语音识别语音识别直播智能剪辑直播智能剪辑文本文本精彩片段精彩片段直播剪辑的简介直播剪辑的简介直播剪辑直播剪辑精彩检测智能集锦促进生产促进生产边播边剪一
18、键发布直播引流直播引流实时分发流量助推提升体验提升体验提升观感辅助涨粉直播剪辑的方案直播剪辑的方案直播拉流直播拉流 才艺表演检测 音效检测 讲解检测 高能片段检测 原唱去除 精彩打分精彩片段识别精彩片段识别 歌曲识别 自动字幕 智能配音 智能集锦 智能视频摘要精彩片段创作精彩片段创作 质量打分 Top K 排序流量分发流量分发 秀场类 颜值类 游戏类 电商类直播智能剪辑效果展示:直播智能剪辑效果展示:游戏:秀场-跳舞:电商:秀场-唱歌直播生态中的直播生态中的AIAI语音技术语音技术本次报告主要聚焦在以下技术方向:本次报告主要聚焦在以下技术方向:直播间直播间内容理解内容理解声学事件检测音频分离语
19、种识别语音识别直播智能剪辑直播间直播间内容生产内容生产智能变声智能变声音频分离音频分离音频音频事件检测事件检测语种识别语种识别语音识别语音识别直播智能剪辑直播智能剪辑文本文本精彩片段精彩片段智能变声智能变声 智能变声是指用深度学习的方法替换一段语音中的说话人音色,而不改变其内容。可以将声音按照多种形式进行再创作,比如跨性别变声、普通话变方言、歌唱变声等,赋能直播、短视频、虚拟人等多个场景。VSVS智能变声智能变声变小姐姐变小姐姐变小哥哥变小哥哥变卡通小新变卡通小新变四川方言变四川方言音素内容提取音素内容提取b ai2 r i4 y i1 sh an1 j in4(白日依山尽白日依山尽)目标音色
20、选取目标音色选取小姐姐小姐姐/小哥哥小哥哥/方言方言语音转换模型语音转换模型变声效果Ying Zhang,Hao Che,Chenxing Li,Xiaorui Wang,“One-shot Voice Conversion Based ON Speaker Aware Module”,in ICASSP 2021,6-11 June 2021,Toronto,Canada.Ying Zhang,Hao Che,Xiaorui Wang,“Non-parallel Sequence-to-Sequence Voice Conversion for Arbitrary Speakers,”in ISCSLP 2021,24-26 January,HongKong,China深度降噪网络声码器变声系统原始语音变声后语音发音单元表征模型语音转换模型 防抖动,实现实时变声 多核并行端上实现 模型压缩,动态下发节省资源智能变声:直播场景实现端上实时变声智能变声:直播场景实现端上实时变声智能变声效果展示智能变声效果展示智能变声效果展示智能变声效果展示THANKSTHANKS