1、主办方: 搜狗多模态合成技术研究及应用 刘恺 搜狗 专家研究员 主办方: 雅妮Demo 主办方主办方: “ 刘恺 中国科学技术大学本硕 2013年毕业后加入科大讯飞研究院,从事语音合成算法研究 2017年加入搜狗,目前担任搜狗AI交互技术部多模态合成团队负责 人,专家研究员。主要研究方向包括语音合成、语音变声、数字音 效、多模态合成等,负责算法研发及产品落地。 ” 个人简介 主办方主办方: 团队简介 围绕有声内容生成和多模态交互场景的围绕有声内容生成和多模态交互场景的多模态多模态合成合成技术技术 方便用户高效的生成“高质量、高表现力“的音、视频 机器与人的交互更加生动自然、多模态化(数字人)
2、主办方主办方: 摘要 本次报告主要介绍搜狗在多模态合成方面的最新研究进展,重点分享其中的语音合成、风格/口音控制合 成、多模态合成(数字人)等技术,以及在不同场景应用的代表性案例 语音合成 1. 有声内容制作之声咖平 台 数字人合成2. 数字人之 AI 合成主播 主办方主办方: 什么是多模态? 每一种信息的来源或形式,都可以称为一种模态,例如文本、语音、图像等 人与人之间的交互通常是文字、语音和图像等多种形式同时进行 多模态技术是指利用机器学习的方法,学习并建立文本、语音、图像、视频等多个模态之间的联系,实 现对信息更好的理解或表达 主办方主办方: 多模态合成多模态合成 随着互联网和人工智能技
3、术发展,人机交互的发展趋势是让信息传递和机器表达更加丰富,接近真实 从单一模态生成的语音/图像合成,走向语音、图像、视频等多个模态联合生成的多模态合成 其中,数字人合成是目前比较热门的多模态合成技术之一,输入文本即可快速生成声音、图像同步的数 字人视频,使机器具备“拟人化”的声音和形象 文本语音/图像视频 主办方主办方: 语音合成 定义:机器将输入的任意文字快速换成清晰自然、富有表现力的音频 基本架构 文本分析文本声学建模声码器音频 文本特征声学特征 文本分析得到发音、韵 律等信息(文本正则、 分词、字转音、韵律预 测等) 规则,词典 ME,CRF DNN/LSTM/BiLSTM Bert/LightBert 文本特征预测声学特征 (mcep+lf0、mel) HMM DNN/LSTM End2end 声学特征恢复成波形 World/Straight Griffin-Lim Neural
1、下载报告失败解决办法 2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。 3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。 4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
1-2 多模态预训练技术及在电商领域的应用.pdf
2-2 AliceMind 纯文本和多模态生成预训练技术及应用.pdf
清华苏研院:面向多场景的智能环境感知技术研究及应用.pdf
钟成—基于电力光纤多参量感知的输电线路安全防护技术研究及应用.pdf
计算机行业:多模态大模型技术演进及研究框架-230318(51页).pdf
多场耦合的污泥脱水及低温热干化技术研究.pdf
冰浆制备技术研究进展及创新应用.pdf
萨南油田注水系统能耗评价及辅助决策技术研究与应用.pdf
1模块化预装式海上升压站设计技术研究及应用.pdf
变电站室内轨道式巡检机器人试验检测技术研究及应用.pdf
三个皮匠报告专业的行业报告下载站,每日更新,欢迎大家关注!
copyright@2008-2013 长沙景略智创信息技术有限公司版权所有 网站备案/许可证号:湘B2-20190120
小程序
专属顾问
机构入驻、侵权投诉、商务合作
三个皮匠报告官方公众号
验证即登录,未注册将自动创建三个皮匠报告账号
使用 微信 扫一扫登陆