《多模态同传翻译落地及优化-0.2.pdf》由会员分享,可在线阅读,更多相关《多模态同传翻译落地及优化-0.2.pdf(35页珍藏版)》请在三个皮匠报告上搜索。
1、DataFunSummitDataFunSummit#20232023多模态同传翻译落地及优化郭嘉鑫华为2012/机器翻译实验室华为高级工程师,多模态翻译架构负责人,产品落地华为云、HMS Core、华为手机等本科毕业于西安交通大学,硕士毕业于香港城市大学长期从事机器翻译/多模态翻译领域的研究,在 ACL、ICASSP、INTERSPEECH、INLPG等发表论文 10+篇参加国际机器翻译比赛 IWSLT、WMT、WAT等,获得多项第一个人简介同传翻译技术简介及挑战级联系统 vs 端到端系统语音识别技术/机器翻译技术同传翻译技术的挑战华为同传架构及优化策略同传架构ASR策略MT策略总结面向用户
2、场景忠于用户体验目录 CONTENTDataFunSummitDataFunSummit#2023202301同传翻译技术简介及挑战语音翻译/同传场景Hello,Welcome to.离线语音翻译同传翻译语音翻译/同传技术 语音翻译领域存在两种主流的技术路线:一种是端到端(End-to-End)技术方案,即直接从源语音到目标文本生成;一种是级联(Cascaded)技术方案,即先从源语音识别为源文本,再从源文本翻译生成目标文本。语音翻译/同传技术 目前工业界语音翻译系统以级联语音翻译技术方案为主。ASR技术(a)Transformer(b)Conformer音频特征抽取(b)AED(a)CTC文
3、本生成方式ASR技术流式解码场景 理想状态下:无跳变(a)Transducer(b)Chunk-wise(c)Incremental decoding MT技术模型结构工程策略(a)Deep-Transformer(b)Back TranslationMT技术解码策略HI-CMLMDiformer语音翻译/同传技术的挑战技术的挑战 ASR的准确性 MT的领域风格系统的挑战 级联错误放大问题 上下文一致性问题同传的挑战质量时延跳变DataFunSummitDataFunSummit#2023202302华为同传架构及优化策略华为同传架构ASR服务TE服务MT服务TTS服务语音流语音流文本Noah
4、 预训练 ASR领域 ASR文本顺滑通用纠错实体修正其他后处理(标点等)华为翻译干预服务知识库关键词ASR策略 预训练大模型、领域小模型Pre-trained Model:Data:Mixed Zh/En Large Parallel Data Train Strategy:Distributed trainingMindSpore/GPU&D Arch:Hybrid CTC/AED自监督Domain Model:Data:Limited Domain Data Train Strategy:Continue Training/Fine tuningDomain AdapterSpec Aug
5、mentationASR策略 流式CTC解码、离线AED解码。ASR策略IWSLT 2022语音翻译EN-JA方向第一技术点1.Ensemble-based ASR De-noise2.Context-aware Re-ranking for ASR3.ASR Domain Controlled Training&Decoding 4.Large-Scale Pre-training&Domain Fine-tuning for MTASR策略未来方向 大数据+大模型 多语言+多任务 无监督/自监督的预训练模型MT策略 通用基础模型:大数据+大模型Back TranslationTagged
6、Back TranslationBack Translation&Forward TranslationIterative Back Translation&Forward TranslationSampling Back TranslationText Style Transfer Back-TranslationMT策略Text Style Transfer Back-Translation ACL 2023MT策略MT模型领域迁移的训练流程 针对不同的场景提供不同的领域翻译,如科技场景、医疗场景等R-DropMT策略WMT 2022Biomedical Shared Task 多项第一技
7、术点1.Continue Training under R-Drop2.Data Diversification、Forward Translation、Back Translation3.Data Selection4.Fine-tuning、EnsembleMT策略 针对语音翻译场景,生成与源长度相似的翻译,提高用户体验MT策略IWSLT 2022等长翻译赛道 多个语言方向第一技术点1.Low-resource Enhanced2.Length Token Strategy3.Length Encoding Strategy4.Length-control decoding for NAT
8、5.Length-aware beam and RerankTE服务ASR OutputTE服务DisfluencyCorrectionPunctuation呃 我们 从 一七年 的 事后 呢 就 开始 研究 机器 翻译 嗯 很 有 意思我们 从 一七年 的 事后 就 开始 研究 机器 翻译 很 有 意思我们 从 一七年 的 时候 就 开始 研究 机器 翻译 很 有 意思我们 从 一七年 的 时候,就 开始 研究 机器 翻译,很 有 意思。TE服务UCORRECT:AN UNSUPERVISED FRAMEWORK FOR AUTOMATIC SPEECHRECOGNITION ERROR C
9、ORRECTION ICASSP 2023纠错TE服务Zephyr:Zero-Shot Punctuation Restoration ICASSP 2023标点还原模型推理加速WMT22 Efficiency Task Bolt框架小结ASR Pre-train:Multi-task training Domain Tune Simul CTC/Offline AEDMT Pre-train:BT/FT/TST Domain Tune:R-drop Isometric MTSystem Cascaded:ASR+TE+MT 干预 推理加速DataFunSummitDataFunSummit#2023202303总结总结 面向用户场景 忠于用户体验华为翻译华为翻译感谢观看