《智能语音在字节跳动内容平台上的应用-殷翔v5.pdf》由会员分享,可在线阅读,更多相关《智能语音在字节跳动内容平台上的应用-殷翔v5.pdf(46页珍藏版)》请在三个皮匠报告上搜索。
1、智能语音在字节跳动内容创作方向上的应用殷翔字节跳动AI-Lab智能语音-语音合成 Leader个人简介学业经历学业经历 中国科学技术大学语音国家工程实验室硕博连读,研究方向是语音合成中的神经网络声学建模方法研究 自读研起进入语音领域,至今已有10年语音产品技术研发经验工作经历工作经历 加入字节前就职于腾讯,负责小微音箱、QQ空间魔音说说等产品的智能配音和歌唱玩法 2018年加入字节跳动人工智能实验室,负责音频生成算法团队智能语音赋能内容创作短视频创作套件有声书生产平台未来展望 团队使命和愿景AI歌曲创作流程团队使命和愿景AI Lab智能语音团队技术框架我们的愿景建立工业界领先的智能语音解决方案
2、和技术平台智能语音赋能内容创作有声书生产平台音频市场调研 字节-番茄小说APP在移动阅读领域活跃度较高 番茄小说文字内容需要有声化 移动阅读在装保持在6亿,MAU约3.2亿 在线音频MAU为4.6亿,25年增长到8.9亿人工审听自动化生产高品质AI音色库成本高周期长音色单一真人有声制作痛点AI有声解决方案质量把控难人工辅助修正解决真人有声制作痛点番茄有声书效果展示多播效果配乐效果方言效果番茄有声书业务提升成熟大叔音、甜美少女音等5个优质单播音色完成了全量书籍的覆盖多人播讲、自动化后期、方言等方向的尝试,均取得了良好的数据反馈,正在扩量中听书功能的业务渗透率逐月提升真人主播真人主播AIAI有声有
3、声AI有声小说技术框架角色分配剧本阅读进棚录制审听修正错误补录后期制作人物库构建对话人物归属文本情感判定音色配置人物提取特征分析指代合并对话切分角色判定情感语音合成后期制作旁白:成熟大叔 清纯少女主角:刚正青叔 坚韧少御配角:反派大叔 慈爱大妈AI编剧:长文本理解1.1.人物库构建人物库构建:这本小说中有哪些角色?2.2.对话人物归属对话人物归属:这句话是谁说的?3.3.文本情感判定:文本情感判定:这句话要用怎样的情感表达?人物库构建对话人物归属文本情感判定音色配置人物提取特征分析指代合并AI情感语音合成后期制作对话切分角色判定*篇章理解:A Chapter-Wise Understandin
4、g System for Text-To-Speech in Chinese Novels,J-J Pan,etc,ICASSP 2021小说原始文本五少奶奶饶景君出生将门,父兄皆是久战沙场的将军。而她本人也是自幼受家庭影响,对武艺也颇有了解。就拿她此时舞的工剑术来看,每一招每一势都是那么形健骨遒,端庄势整。舞剑毕,饶景君深深地吐了一口气,只听得门外有人拍手道好。转身一看,竟是四少奶奶和她的丫鬟翠柳。饶景君面无表情,轻轻行了一礼,道:“见过四少奶奶。”林暮寒面带笑容,眼露惊羡之色,开着玩笑道:“没想到妹妹的剑法竟耍得这样好,平日里,我少见妹妹出来行走,原来是躲在家里练神功啊!”饶景君淡淡一笑,
5、道:“姐姐说笑了,我不过是闲来无事,找找乐子罢了。”饶景君这人向来比较冷漠孤傲,不喜与人打交道。现在见林暮寒站在门口,也不请进门来。林暮寒到很不客气,自已一边说着话,一边就走进门来了。“我向来崇拜能文能武的女子,今日得见妹妹耍得一手好剑法,真是羡慕不已,若是来日妹妹能传授一二,那可真是太好了。”饶景君面无表情地道:“难得姐姐不嫌妹妹粗野,但若说能文能武,实则抬举,妾身万不可当。若论文,妹妹哪敢与大少奶奶相比,大少奶奶出身官宦世家,又乃书香门弟,自是才貌双全。至于武,妾身也不过略懂一些花拳绣腿而已,让姐姐见笑了。”林暮寒拉着饶景君的手,道:“妹妹不必如此谦虚,我是真心觉得妹妹的剑耍得好,我出身寒
6、微,打小没受过什么良好的教育,所以羡慕那些能文能武之人,只可惜如今年岁已大,就算现学来恐怕也迟了。”饶景君见林暮寒似乎真心对武艺有兴趣,于是,便道:“武学与年岁无关,姐姐若是真心想学,妹妹教姐姐便是。”林暮寒惊喜地叫起来,道:“妹妹可当真?”饶景君点点头,道:“嗯。”林暮寒顿时高兴得忘乎所以,竟露出了二十一世纪的女性本色,重重地在饶景君额头上亲了一口,道:“唉哟,我爱死你了!”饶景君被她这一反应搞得有些难为情。这时,翠柳提醒道:“四少奶奶,我们该回去了,等会种花师傅还要送花来呢。”林暮寒拉着饶景君的手,又道:“我还有事就先走了,改日再来向妹妹请教。”饶景君道:“姐姐慢走!”林暮寒和翠柳刚回到西
7、月阁,种花师傅就抬着一盆姚黄牡丹来了。林暮寒吩咐种花师傅把花放在窗前的台桌上。然后,又让翠柳打发他一些赏钱,便退了出去。种花师傅从西月阁出来,便在大门外捡到一把扇子,扇子甚是精致,扇柄上还挂有一块玉坠。心想这是好东西,一时贪心,便藏在了内衣口内。岂料这里面却包藏祸心。人物库构建:人名提取五少奶奶饶景君出生将门,父兄皆是久战沙场的将军。而她本人也是自幼受家庭影响,对武艺也颇有了解。就拿她此时舞的工剑术来看,每一招每一势都是那么形健骨遒,端庄势整。舞剑毕,饶景君深深地吐了一口气,只听得门外有人拍手道好。转身一看,竟是四少奶奶和她的丫鬟翠柳。饶景君面无表情,轻轻行了一礼,道:“见过四少奶奶。”林暮寒
8、面带笑容,眼露惊羡之色,开着玩笑道:“没想到妹妹的剑法竟耍得这样好,平日里,我少见妹妹出来行走,原来是躲在家里练神功啊!”饶景君淡淡一笑,道:“姐姐说笑了,我不过是闲来无事,找找乐子罢了。”饶景君这人向来比较冷漠孤傲,不喜与人打交道。现在见林暮寒站在门口,也不请进门来。林暮寒到很不客气,自已一边说着话,一边就走进门来了。“我向来崇拜能文能武的女子,今日得见妹妹耍得一手好剑法,真是羡慕不已,若是来日妹妹能传授一二,那可真是太好了。”饶景君面无表情地道:“难得姐姐不嫌妹妹粗野,但若说能文能武,实则抬举,妾身万不可当。若论文,妹妹哪敢与大少奶奶相比,大少奶奶出身官宦世家,又乃书香门弟,自是才貌双全。
9、至于武,妾身也不过略懂一些花拳绣腿而已,让姐姐见笑了。”林暮寒拉着饶景君的手,道:“妹妹不必如此谦虚,我是真心觉得妹妹的剑耍得好,我出身寒微,打小没受过什么良好的教育,所以羡慕那些能文能武之人,只可惜如今年岁已大,就算现学来恐怕也迟了。”饶景君见林暮寒似乎真心对武艺有兴趣,于是,便道:“武学与年岁无关,姐姐若是真心想学,妹妹教姐姐便是。”林暮寒惊喜地叫起来,道:“妹妹可当真?”饶景君点点头,道:“嗯。”林暮寒顿时高兴得忘乎所以,竟露出了二十一世纪的女性本色,重重地在饶景君额头上亲了一口,道:“唉哟,我爱死你了!”饶景君被她这一反应搞得有些难为情。这时,翠柳提醒道:“四少奶奶,我们该回去了,等会
10、种花师傅还要送花来呢。”林暮寒拉着饶景君的手,又道:“我还有事就先走了,改日再来向妹妹请教。”饶景君道:“姐姐慢走!”林暮寒和翠柳刚回到西月阁,种花师傅就抬着一盆姚黄牡丹来了。林暮寒吩咐种花师傅把花放在窗前的台桌上。然后,又让翠柳打发他一些赏钱,便退了出去。种花师傅从西月阁出来,便在大门外捡到一把扇子,扇子甚是精致,扇柄上还挂有一块玉坠。心想这是好东西,一时贪心,便藏在了内衣口内。岂料这里面却包藏祸心。人物库构建:人名去重-人名合并-角色分析五少奶奶饶景君四少奶奶翠柳林暮寒种花师傅老夫人崔婉婷二少奶奶花仪侬大少奶奶秦露苔梅枝枝竹大公子三少奶奶苏寒烟五少奶奶-饶景君四少奶奶-林暮寒翠柳种花师傅老
11、夫人崔婉婷二少奶奶-花仪侬大少奶奶-秦露苔梅枝枝竹大公子三少奶奶-苏寒烟五少奶奶-饶景君(女,主角)四少奶奶-林暮寒(女,主角)翠柳(女,配角)种花师傅(男,路人)老夫人(女,配角)崔婉婷(女,配角)二少奶奶-花仪侬(女,配角)大少奶奶-秦露苔(女,配角)梅枝(女,路人)枝竹(女,路人)大公子(男,主角)三少奶奶-苏寒烟(女,主角)对话人物归属:对话切分五少奶奶-饶景君(女)四少奶奶-林暮寒(女)翠柳(女)老夫人(女)崔婉婷(女)种花师傅(男)二少奶奶-花仪侬(女)大少奶奶-秦露苔(女)梅枝(女)枝竹(女)大公子(男)三少奶奶-苏寒烟(女)“难得姐姐不嫌妹妹粗野,但若说能文能武,实则抬举,妾身
12、万不可当。若论文,妹妹哪敢与大少奶奶相比,大少奶奶出身官宦世家,又乃书香门弟,自是才貌双全。至于武,妾身也不过略懂一些花拳绣腿而已,让姐姐见笑了。”“妹妹不必如此谦虚,我是真心觉得妹妹的剑耍得好,我出身寒微,打小没受过什么良好的教育,所以羡慕那些能文能武之人,只可惜如今年岁已大,就算现学来恐怕也迟了。”“武学与年岁无关,姐姐若是真心想学,妹妹教姐姐便是。”“妹妹可当真?”“嗯。”“唉哟,我爱死你了!”“四少奶奶,我们该回去了,等会种花师傅还要送花来呢。”“我还有事就先走了,改日再来向妹妹请教。”“姐姐慢走!”“说吧!”“母亲,林暮寒与种花师有奸情。”对话人物归属:角色判定“难得姐姐不嫌妹妹粗野
13、,但若说能文能武,实则抬举,妾身万不可当。若论文,妹妹哪敢与大少奶奶相比,大少奶奶出身官宦世家,又乃书香门弟,自是才貌双全。至于武,妾身也不过略懂一些花拳绣腿而已,让姐姐见笑了。”“武学与年岁无关,姐姐若是真心想学,妹妹教姐姐便是。”“嗯。”“姐姐慢走!”“没想到妹妹的剑法竟耍得这样好,平日里,我少见妹妹出来行走,原来是躲在家里练神功啊!”“我向来崇拜能文能武的女子,今日得见妹妹耍得一手好剑法,真是羡慕不已,若是来日妹妹能传授一二,那可真是太好了。”“妹妹不必如此谦虚,我是真心觉得妹妹的剑耍得好,我出身寒微,打小没受过什么良好的教育,所以羡慕那些能文能武之人,只可惜如今年岁已大,就算现学来恐怕
14、也迟了。”“妹妹可当真?”“唉哟,我爱死你了!”“我还有事就先走了,改日再来向妹妹请教。”“母亲,林暮寒与种花师有奸情。”“说吧!”“四少奶奶,我们该回去了,等会种花师傅还要送花来呢。”五少奶奶-饶景君(女)四少奶奶-林暮寒(女)翠柳(女)老夫人(女)崔婉婷(女)文本情感判定“难得姐姐不嫌妹妹粗野,但若说能文能武,实则抬举,妾身万不可当。若论文,妹妹哪敢与大少奶奶相比,大少奶奶出身官宦世家,又乃书香门弟,自是才貌双全。至于武,妾身也不过略懂一些花拳绣腿而已,让姐姐见笑了。”“武学与年岁无关,姐姐若是真心想学,妹妹教姐姐便是。”“嗯。”“姐姐慢走!”“没想到妹妹的剑法竟耍得这样好,平日里,我少见
15、妹妹出来行走,原来是躲在家里练神功啊!”“我向来崇拜能文能武的女子,今日得见妹妹耍得一手好剑法,真是羡慕不已,若是来日妹妹能传授一二,那可真是太好了。”“妹妹不必如此谦虚,我是真心觉得妹妹的剑耍得好,我出身寒微,打小没受过什么良好的教育,所以羡慕那些能文能武之人,只可惜如今年岁已大,就算现学来恐怕也迟了。”“妹妹可当真?”“唉哟,我爱死你了!”“我还有事就先走了,改日再来向妹妹请教。”“母亲,林暮寒与种花师有奸情。”“说吧!”“四少奶奶,我们该回去了,等会种花师傅还要送花来呢。”五少奶奶-饶景君(女)四少奶奶-林暮寒(女)翠柳(女)老夫人(女)崔婉婷(女)AI配音:让合成语音表达情感*情感迁移
16、:CROSS-SPEAKER EMOTION TRANSFER BASED ON SPEAKER CONDITION LAYER NORMALIZATION AND SEMI-SUPERVISED TRAINING IN TEXT-TO-SPEECH,P-F Wu,etc,submitted to ICASSP 2022悲伤害怕厌恶惊讶生气开心平静AI配音:让合成语音表达情感AI后期:自动配乐+音效插入古风活泼AIAI音乐生成音乐生成 解决音乐版权问题 解决音乐多样性问题音乐音效的插入和选择音乐音效的插入和选择 结合人物出场、场景切换等,选择插入时机 根据段落情感、人物性格等,选择音乐和音效的
17、类型短视频创作套件用户视频制作痛点选材拍摄剪辑发布排序调色字幕配音转场1.高播放量短视频:通常为制作精良内容,全人工制作耗时到十几小时2.内容创作门槛:剪辑难度AIAI视频创作套件,让视频能视频创作套件,让视频能【听听】会会【说说】视频创作套件一键生成、轻松创作传统视频创作传统视频创作方式方式AIAI视频创作视频创作套件套件视频字幕视频字幕视频视频配音配音智能智能字幕字幕 +智能配音智能配音 10分钟视频需要3小时以上 专业字幕团队需要2000元/视频 声线、风格不适合视频配音 专业配音价钱贵,周期长 智能字幕快速生成、自动对齐 多样语种/方言自动识别 多风格/语种/方言音色自由选择剪映业务效
18、果智能字幕智能配音智能字幕:技术框架视频/音频模型路由切分分段多语言语音识别方言语音识别歌词识别音频事件检测合并分段/分句标点模型说话人/性别模型格式化输出ITN过滤多语言字幕方言字幕歌词字幕 笑声笑声 音乐音乐 智能字幕:端到端语音识别算法LAS-BLSTMALL-TransformerLASLAS Google 2015年提出,字幕第一代模型ALL-TransformerALL-Transformer Google 2017年提出,T4单卡吞吐从200提升到437,单并发RTF从0.03下降到0.0055*RTF:Real Time Factor,实时率。等于系统处理时间/语音时间长度,值
19、越小表示速度越快;智能字幕:歌词特色策略现象现象 语音字幕 vs 歌词字幕=1:2 高热歌数量vs 非高热歌数量=1:1000策略策略 及时跟进对高热歌曲的效果优化智能字幕:语音识别效果对比智能字幕:功能丰富父母要陪孩子看的6个经典6 classic movies that parents have to accompany their children第一部我和狗狗的十个约定The first ten engagement between me and the dogITN、标点、图标、翻译、脏词过滤男/李雷/speaker1:父母要陪孩子看的六个经典电影女/韩梅梅/speaker2:第一部
20、我和狗狗的十个约定 music性别识别、说话人识别、音频事件检测音文对齐00:01:21-00:01:29:父母要陪孩子看的六个经典电影00:01:35-00:01:40:第一部我和狗狗的十个约定文本后处理文本后处理属性事件属性事件自动打轴自动打轴智能配音:语音合成技术框架音库人机标注特征提取声学模型文本语音语言特征声学特征声码器离线训练线上推理文本文本分析语言特征声学模型声学特征声码器语音智能配音:文本分析前端文本前处理断句切分正则化分词/词性字音转换韵律模型语言特征NN+规则Bert-多任务模型 负责可懂度,结合规则平台,可在业务垂类上做到足够准确*前端联合建模:A Unified Seq
21、uence-to-Sequence Front-End Model for Mandarin Text-to-Speech Synthesis,J-J Pan,etc,ICASSP 2020*神经网络正则化:A Hybrid Text Normalization System Using Multi-Head Self-Attention For Mandarin,J-H Zhang,etc,ICASSP 2020*英文ToBI前端:Fine-grained Prosody Modeling in Neural Speech Synthesis using ToBI Representatio
22、n,Y-X Zou,etc,INTERSPEECH 2021智能配音:文本分析前端效果*sAP(Sentence Average Precision,句级平均准确率)衡量文本前端,sAP越高,可懂度越高智能配音:声学模型 负责风格韵律,RTF(GPU)=0.008,正确率99.9%以上Parallel Tacotron(Isaac Elias,etc,Google)智能配音:声码器 负责音质清晰度,RTF(GPU)=0.004,正确率99.95%以上MelGAN(Kundan Kumar,etc,Mila)智能配音:个性表达 声音复刻:开放环境中录制中等质量声音,可用于快速复刻Up主、大V声音
23、等*音色复刻:IMITATOR:TEXT-FREE FEW-SHOT VOICE CLONING WITH LANGUAGE,ACCENT AND STYLE TRANSFER,C-X Zhang,etc,submitted to ICASSP 2022智能配音:声音滤镜 声音转换:开放环境中输入语音,输出指定音色、口音的音频*歌唱转换I:PPG-Based Singing Voice Conversion with Adversarial Representation Learning,Z-H Li,etc,ICASSP 2021 音色转换 风格不变,变音色(柯南变声领结柯南变声领结)口音转
24、换 音色不变,变口音 歌唱转换 唱功不变,变声线AI歌曲创作流程AI歌曲创作流程*歌唱合成:ByteSing:A Chinese Singing Voice Synthesis System Using Duration Allocated Encoder-Decoder Acoustic Models and WaveRNN Vocoders,Y Gu,etc,ISCSLP 2021*歌唱转换II:Towards High-fidelity Singing Voice Conversion with Acoustic Reference and Contrastive Predictive
25、Coding,C Wang,etc,submitted to ICASSP 2022歌词碎片(词语*N)完整歌词音乐风格作品旋律旋律干声歌声(音色*N)作品伴奏歌唱作品必选可选AI输出用户输入编曲混音歌词生成模版理解音乐生成歌唱合成歌唱转换音乐生成 联合BCD studio打造抖音热门AI单曲不想上班未来展望未来展望内容创作方案内容创作方案效果突破效果突破产能突破产能突破 有声书生产平台篇章细腻度合成NLP结果替代人工短视频创作套件个性化声音滤镜通用发音单元的跨语种学习AI歌曲创作流程歌词-音乐-歌唱联合建模AI+人工提效UGC/PUGCUGC/PUGC 音视频创作工具PGCPGC 音视频生产平台 音乐创作工作室