《“海河·谛听”言语交互大模型及其在身份认证领域的应用探讨-王龙标.pdf》由会员分享,可在线阅读,更多相关《“海河·谛听”言语交互大模型及其在身份认证领域的应用探讨-王龙标.pdf(18页珍藏版)》请在三个皮匠报告上搜索。
1、数字智慧 言语畅享“海河谛听”言语交互大模型及其在身份认证领域的应用探讨1天津大学/慧言科技 王龙标数字智慧 言语畅享言语交互:人类最自然的交互方式言语是人类最基本和最重要的交流方式它不仅能够传递字面信息,还能够传达言外之意,并影响他人的情绪、态度和行为,从而实现各种社会目的。教育办公健康金融2数字智慧 言语畅享言语交互的主要挑战言语包含语言、韵律、情感和说话人等信息目前的语言大模型只利用语言(文本)信息,导致言语交互系统无法做到意图的深度理解。痛点1语音模型:模型多、维护难、效果差痛点2通用大模型:行业效果差、部署成本高痛点3语音/文本单模态模型:理解能力不足多语言交互困难形简意丰3数字智慧
2、 言语畅享4打造国际领先的言语交互意图理解大模型借鉴神兽“谛听”可听人心的寓意而命名。透过声音洞察内心,透过言语理解意图。始终“以人的机理为蓝本”,将言语信息与语言学、心理学和脑科神经科学相结合,以大模型为基础实现言语意图的深度理解。支持NVIDIA 架构和国产化架构。浅层融合深度融合统一模型数字智慧 言语畅享5研发资源&团队架构总负责人:党建武天大教授/国家人才/慧言CSO技术总监:王龙标天大教授/国家人才/慧言CEO天津市人工智能计算中心算力资源天津市河北区政府研发团队算法:天津大学工程化:慧言科技数据资源海量语音数据海量文本数据国产架构ModelArts:昇腾AI芯片,MindSpore
3、等2022年8月,言语交互意图深度理解大模型及应用领域合作签约仪式基于天津市人工智能计算中心打造自主可控言语交互意图理解大模型数字智慧 言语畅享6通用语音大模型算法团队技术总监:王龙标天大教授/国家人才/慧言CEO总负责人:党建武天大教授/国家人才/慧言CSO团队指导:王晓宝天大助理教授博士学生王天锐 解耦式自监督预训练贡诚/王天锐 语音生成大模型林羽钦 语音识别刘佳星 语音情感识别刘猛 声纹识别硕士学生崔辰瑞 Wav2vec 2.0 框架迁移李津 HuBERT框架迁移舒钰淳 WavLM 框架迁移芦皓宇 语音识别下游任务微调吴晟 语音情感下游任务微调朱晓 电话信道数据模拟顾铭扬 语音特征提取天
4、大算法团队:3位导师、5名博士学生、7名硕士学生慧言科技算法/工程化团队:数名资深算法工程师基于ModelArts的语音预训练框架新型通用语音预训练框架数字智慧 言语畅享7“海河谛听”大模型技术路线打造国内领先的通用语音预训练大模型Time-2-FeatureDomain ConversationSpeaker Info ExtractorEmotion Info ExtractorSemantic Info ExtractorWeighted SumUniversal Feature数字智慧 言语畅享8基于ModelArts的通用语音预训练大模型概要项目资源228Ascend 910(32G
5、B)128T磁盘空间运行环境:云上910训练云上910推理MindSpore1.7遇到并解决的难题Pytorch框架转MindSpore框架语音数据长度不定的问题与MindSpore静态图训练策略友好度较差混合精度训练梯度溢出.少量语音识别数据Self-supervisedLearningUnlabeled DataKnowledge少量语音情感识别数据少量任意语音任务数据言语交互意图理解大模型语音识别模型语音情感模型特定任务专家模型Wav2vec 2.0HuBERTWavLMD-HuBERT数字智慧 言语畅享9T.Wang et al.,“Progressive Decoupling-sty
6、le Pre-training for Speech Representation Learning,”submitted to Interspeech 2024.可以大幅提升声纹识别性能,并在其他任务上保持优越的效果。基于解耦思路的语音预训练大模型结果对于说话人识别任务(SID),只有指定的解耦层(4)起作用。数字智慧 言语畅享10“海河谛听”语音生成大模型技术路线打造国内领先的通用语音生成大模型BOS多语言文本/语音信息编码(Embedding)Transformer Decoder 层预测模块x NEOS解码器文本语音的离散表征语音的离散表征语音输出数字智慧 言语畅享11语音生成大模型语
7、音生成个性化定制,让声音复刻简单快捷。基础大模型数十万小时少量样例音频520秒复刻音色模型可生成多语种内容英文原始英文复刻中文原始中文复刻中文原始英文复刻英文原始中文复刻跨语种跨语种可能被用来恶意伪造声纹数字智慧 言语畅享面向操纵伪造检测的安全说话人确认探讨12数字智慧 言语畅享说话人确认&伪造检测13语音合成技术给人们的生活带来便利的同时,也会被犯罪分子用来伪造目标说话人的语音实施攻击和诈骗,对经济安全、社会安全、国家安全带来一定的风险和威胁。视听多模态有助于实现高精度的说话人与伪造检测结果。基于语音感知大模型的伪造检测基于多模态的说话人确认&伪造检测数字智慧 言语畅享14M.Liu et
8、al.,“Cross-Modal Audio-Visual Co-Learning for Text-Independent Speaker Verification,”Proc.of ICASSP 2023.AVLip 系统利用交叉模态注意力机制来增强特征表示,从而实现有效的模态间对齐和信息融合。AVLip框架采用了音视伪孪生结构,该结构设计用于促进听觉和视觉模态之间的信息交换和相互增强。AVLip:跨模态协同学习驱动的视听说话人确认数字智慧 言语畅享15视听说话人确认结果M.Liu et al.,“Cross-Modal Audio-Visual Co-Learning for Text-
9、Independent Speaker Verification,”Proc.of ICASSP 2023.数字智慧 言语畅享16M.Liu et al.,“Cross-Modal Semantic Consistency Modeling on Speech Tempering Detection,”submitted to IEEE SPL.SyncLip:跨模态语义与身份一致性建模SyncLip:框架通过独立视觉音频编码器和跨模态解码器融合特征,用于语义一致性检测以识别篡改视频。数字智慧 言语畅享17跨模态语义与身份一致性结果M.Liu et al.,“Cross-Modal Semantic Consistency Modeling on Speech Tempering Detection,”submitted to IEEE SPL.18