《达摩院:2022连续语义增强机器翻译及魔搭社区应用实践(53页).pdf》由会员分享,可在线阅读,更多相关《达摩院:2022连续语义增强机器翻译及魔搭社区应用实践(53页).pdf(53页珍藏版)》请在三个皮匠报告上搜索。
1、连续语义增强机器翻译及魔搭社区应用实践连续语义增强机器翻译及魔搭社区应用实践达摩院-机器智能技术实验室魏相鹏xiangpeng.wxpalibaba-2基于连续语义增强的神经机器翻译技术(基于连续语义增强的神经机器翻译技术(ACL 2022)基于连续语义增强的神经机器翻译技术(基于连续语义增强的神经机器翻译技术(ACL 2022)问题:神经机器翻译技术严重依赖于大规模、高质量的双语平行语料问题:神经机器翻译技术严重依赖于大规模、高质量的双语平行语料整体趋势整体趋势:翻译质量随语料规模增加逐渐上升挑战:在大量的实际应用场景中,平行语料的规模非常有限,人工生产成本高、生产周期长英俄CCMatrix
2、平行语料领域分布基于连续语义增强的神经机器翻译技术(基于连续语义增强的神经机器翻译技术(ACL 2022)为缓解平行语料稀缺的问题,业界通常采用数据增强技术自动产生大规模伪语料,用于优化翻译质量。基于连续语义增强的神经机器翻译技术(基于连续语义增强的神经机器翻译技术(ACL 2022)为缓解平行语料稀缺的问题,业界通常采用数据增强技术自动产生大规模伪语料,用于优化翻译质量。基于连续语义增强的神经机器翻译技术(基于连续语义增强的神经机器翻译技术(ACL 2022)常用技术:回译(Back-Translation),利用逆向的翻译模型,将目标语言端的单语数据翻译成源语言,据此构造大量(机翻源文,人
3、工译文)双语句子对,进一步优化正向的翻译模型基于连续语义增强的神经机器翻译技术(基于连续语义增强的神经机器翻译技术(ACL 2022)常用技术:回译(Back-Translation),利用逆向的翻译模型,将目标语言端的单语数据翻译成源语言,据此构造大量(机翻源文,人工译文)双语句子对,进一步优化正向的翻译模型基于连续语义增强的神经机器翻译技术(基于连续语义增强的神经机器翻译技术(ACL 2022)常用技术:回译(Back-Translation),利用逆向的翻译模型,将目标语言端的单语数据翻译成源语言,据此构造大量(机翻源文,人工译文)双语句子对,进一步优化正向的翻译模型基于连续语义增强的神
4、经机器翻译技术(基于连续语义增强的神经机器翻译技术(ACL 2022)常用技术:对抗样本(Adversarial Examples),概念来源于生成对抗网络,通过对原始句子进行同义词替换、词调序、随机删词等操作,以提升翻译模型对源文扰动的鲁棒性。Wang et al.2018.SwitchOut:an efficient data augmentation algorithm for neural machine translation.基于连续语义增强的神经机器翻译技术(基于连续语义增强的神经机器翻译技术(ACL 2022)上述两类数据增强技术(我们称之为离散式数据增强,顾名思义相关技术均是
5、在离散的自然语言空间中产生增强样本)存在局限性:基于连续语义增强的神经机器翻译技术(基于连续语义增强的神经机器翻译技术(ACL 2022)上述两类数据增强技术(我们称之为离散式数据增强,顾名思义相关技术均是在离散的自然语言空间中产生增强样本)存在局限性:数据多样性差容易发生语义偏移真实数据和伪数据之间的差异导致模型有偏基于连续语义增强的神经机器翻译技术(基于连续语义增强的神经机器翻译技术(ACL 2022)回归本质:从自然语言的固有特性来分析为什么离散式数据增强技术容易快速遇到性能瓶颈离散式数据增强无法覆盖(全部的、分布在整个自然语言空间的)这种即时选择的行为,从而使得机器的求解范围总是限制在
6、局部。Multi-HeadAttentionFeedForwardPositionEncodingAdd&NormMasked Multi-HeadAttentionMulti-HeadAttentionPositionEncodingFeedForwardAdd&NormAdd&NormSoftmaxOuput ProbabilitiesAdd&NormAdd&NormEncoderDecoderBroadcastingIntegrationSemanticEncoder基于连续语义增强的神经机器翻译技术(基于连续语义增强的神经机器翻译技术(ACL 2022)技术方案技术方案突破离散空间,构
7、建连续语义分布基于连续语义增强的神经机器翻译技术(基于连续语义增强的神经机器翻译技术(ACL 2022)技术方案技术方案突破离散空间,构建连续语义分布Multi-HeadAttentionFeedForwardPositionEncodingAdd&NormMasked Multi-HeadAttentionMulti-HeadAttentionPositionEncodingFeedForwardAdd&NormAdd&NormSoftmaxOuput ProbabilitiesAdd&NormAdd&NormEncoderDecoderBroadcastingIntegrationSema
8、nticEncoder优化目标:邻域风险最小化优化目标:邻域风险最小化基于连续语义增强的神经机器翻译技术(基于连续语义增强的神经机器翻译技术(ACL 2022)技术方案技术方案突破离散空间,构建连续语义分布Multi-HeadAttentionFeedForwardPositionEncodingAdd&NormMasked Multi-HeadAttentionMulti-HeadAttentionPositionEncodingFeedForwardAdd&NormAdd&NormSoftmaxOuput ProbabilitiesAdd&NormAdd&NormEncoderDecode
9、rBroadcastingIntegrationSemanticEncoder优化目标:邻域风险最小化优化目标:邻域风险最小化基于连续语义增强的神经机器翻译技术(基于连续语义增强的神经机器翻译技术(ACL 2022)优化语义编码器:优化语义编码器:Tangential Contrastive Learning基于连续语义增强的神经机器翻译技术(基于连续语义增强的神经机器翻译技术(ACL 2022)优化语义编码器:优化语义编码器:Tangential Contrastive Learning基于连续语义增强的神经机器翻译技术(基于连续语义增强的神经机器翻译技术(ACL 2022)优化语义编码器:
10、优化语义编码器:Tangential Contrastive Learning基于连续语义增强的神经机器翻译技术(基于连续语义增强的神经机器翻译技术(ACL 2022)优化语义编码器:优化语义编码器:Tangential Contrastive Learning基于连续语义增强的神经机器翻译技术(基于连续语义增强的神经机器翻译技术(ACL 2022)优化语义编码器:优化语义编码器:Tangential Contrastive Learning基于连续语义增强的神经机器翻译技术(基于连续语义增强的神经机器翻译技术(ACL 2022)优化语义编码器:优化语义编码器:Tangential Contr
11、astive Learning基于连续语义增强的神经机器翻译技术(基于连续语义增强的神经机器翻译技术(ACL 2022)优化语义编码器:优化语义编码器:Tangential Contrastive Learning基于连续语义增强的神经机器翻译技术(基于连续语义增强的神经机器翻译技术(ACL 2022)优化语义编码器:优化语义编码器:Tangential Contrastive Learning基于连续语义增强的神经机器翻译技术(基于连续语义增强的神经机器翻译技术(ACL 2022)优化语义编码器:优化语义编码器:Tangential Contrastive Learning基于连续语义增强的
12、神经机器翻译技术(基于连续语义增强的神经机器翻译技术(ACL 2022)优化语义编码器:优化语义编码器:Tangential Contrastive Learning基于连续语义增强的神经机器翻译技术(基于连续语义增强的神经机器翻译技术(ACL 2022)基于邻域进行采样:基于邻域进行采样:Mixed Gaussian Recurrent Chain Sampling挑战:邻域分布未知挑战:邻域分布未知基于连续语义增强的神经机器翻译技术(基于连续语义增强的神经机器翻译技术(ACL 2022)基于邻域进行采样:基于邻域进行采样:Mixed Gaussian Recurrent Chain Sam
13、pling基于连续语义增强的神经机器翻译技术(基于连续语义增强的神经机器翻译技术(ACL 2022)基于邻域进行采样:基于邻域进行采样:Mixed Gaussian Recurrent Chain Sampling基于连续语义增强的神经机器翻译技术(基于连续语义增强的神经机器翻译技术(ACL 2022)基于邻域进行采样:基于邻域进行采样:Mixed Gaussian Recurrent Chain Sampling基于连续语义增强的神经机器翻译技术(基于连续语义增强的神经机器翻译技术(ACL 2022)基于邻域进行采样:基于邻域进行采样:Mixed Gaussian Recurrent Cha
14、in Sampling基于连续语义增强的神经机器翻译技术(基于连续语义增强的神经机器翻译技术(ACL 2022)基于邻域进行采样:基于邻域进行采样:Mixed Gaussian Recurrent Chain Sampling基于连续语义增强的神经机器翻译技术(基于连续语义增强的神经机器翻译技术(ACL 2022)基于邻域进行采样:基于邻域进行采样:Mixed Gaussian Recurrent Chain Sampling基于连续语义增强的神经机器翻译技术(基于连续语义增强的神经机器翻译技术(ACL 2022)NIST 中英翻译任务(125万平行数据)应用效果:学术公开数据集,性能应用效果
15、:学术公开数据集,性能SOTA,泛化泛化能力强能力强基于连续语义增强的神经机器翻译技术(基于连续语义增强的神经机器翻译技术(ACL 2022)WMT14 英德/法(450万/3600万平行数据)应用效果:学术公开数据集,性能应用效果:学术公开数据集,性能SOTA,泛化泛化能力强能力强基于连续语义增强的神经机器翻译技术(基于连续语义增强的神经机器翻译技术(ACL 2022)模型在噪音和翻译体源文上的鲁棒性模型鲁棒性分析模型鲁棒性分析基于连续语义增强的神经机器翻译技术(基于连续语义增强的神经机器翻译技术(ACL 2022)译文多样性及忠实度对比结果译文质量分析译文质量分析基于连续语义增强的神经机器
16、翻译技术(基于连续语义增强的神经机器翻译技术(ACL 2022)数据利用效率分析数据利用效率分析魔搭社区应用实践魔搭社区应用实践魔搭社区(魔搭社区(ModelScope,官方网站:,官方网站:https:/ Package,统一封装了数百个模型使用的接口,能够有效地降低AI模型的使用、定制、评估和部署门槛。连续语义增强机器翻译(连续语义增强机器翻译(CSANMT,快速访问:,快速访问:https:/ Package,统一封装了数百个模型使用的接口,能够有效地降低AI模型的使用、定制、评估和部署门槛。连续语义增强机器翻译(连续语义增强机器翻译(CSANMT,快速访问:,快速访问:https:/
17、create n modelscope python=3.7conda activate modelscope然后,安装然后,安装Modelscope Library,相关依赖库支持按,相关依赖库支持按NLP、CV、语音等不同领域安装:、语音等不同领域安装:pip install modelscopenlp-f https:/modelscope.oss-cn- install“modelscopenlp”-upgrade-f https:/modelscope.oss-cn- lfs install git clone https:/ configuration.json#|_ src_vo
18、cab.txt#|_ trg_vocab.txt#|_ bpe.zh#|_ bpe.en#|_ train.zh#|_ train.en#|_ tf_ckpts#|_ checkpoint#|_ ckpt-0.data-00000-of-00001#|_ ckpt-0.index#|_ ckpt-0.meta魔搭社区应用实践魔搭社区应用实践准备准备CSANMT模型,以“模型,以“CSANMT连续语义增强模型连续语义增强模型-英中英中-通用领域通用领域-large”为例:”为例:git lfs install git clone https:/ configuration.json#|_ src
19、_vocab.txt#|_ trg_vocab.txt#|_ bpe.zh#|_ bpe.en#|_ train.zh#|_ train.en#|_ tf_ckpts#|_ checkpoint#|_ ckpt-0.data-00000-of-00001#|_ ckpt-0.index#|_ ckpt-0.meta参数配置文件词表文件,源语言为英文、目标语言为中文byte-pair-encoding编码训练样例,已经过tokenize 和 BPE预处理模型存储目录,格式为checkpoint源文件魔搭社区应用实践魔搭社区应用实践#English-to-Chinese Translationfr
20、om modelscope.pipelines import pipeline from modelscope.utils.constant import Tasksinput_sequence=Elon Musk,co-founder and chief executive officer of Tesla Motors.pipeline_ins=pipeline(task=Tasks.translation,model=damo/nlp_csanmt_translation_en2zh)outputs=pipeline_ins(input=input_sequence)print(outp
21、utstranslation)#特斯拉汽车公司联合创始人兼首席执行官埃隆 马斯克。模型推理示例(用户不需要修改任何配置,提供输入源文,仅通过简单的pipeline即可使用):魔搭社区应用实践魔搭社区应用实践#English-to-Chinese Translationfrom modelscope.pipelines import pipeline from modelscope.utils.constant import Tasksinput_sequence=Elon Musk,co-founder and chief executive officer of Tesla Motors.p
22、ipeline_ins=pipeline(task=Tasks.translation,model=damo/nlp_csanmt_translation_en2zh)outputs=pipeline_ins(input=input_sequence)print(outputstranslation)#特斯拉汽车公司联合创始人兼首席执行官埃隆 马斯克。模型推理示例(用户不需要修改任何配置,提供输入源文,仅通过简单的pipeline即可使用):用户提供输入源文指定任务类型和模型id魔搭社区应用实践魔搭社区应用实践#English-to-Chinese Translationfrom models
23、cope.pipelines import pipeline from modelscope.utils.constant import Tasksinput_sequence=Elon Musk,co-founder and chief executive officer of Tesla Motors.pipeline_ins=pipeline(task=Tasks.translation,model=damo/nlp_csanmt_translation_en2zh)outputs=pipeline_ins(input=input_sequence)print(outputstransl
24、ation)#特斯拉汽车公司联合创始人兼首席执行官埃隆 马斯克。模型推理示例(用户不需要修改任何配置,提供输入源文,仅通过简单的pipeline即可使用):用户提供输入源文指定任务类型和模型id修改模型id即可使用其他翻译模型,如:nlp_csanmt_translation_zh2en、nlp_csanmt_translation_en2fr、nlp_csanmt_translation_fr2en等。魔搭社区应用实践魔搭社区应用实践模型推理示例(用户不需要修改任何配置,提供输入源文,仅通过简单的pipeline即可使用):英中翻译在线体验中英翻译在线体验魔搭社区应用实践魔搭社区应用实践定制
25、微调示例(用户需要:准备微调数据 修改相关参数 模型微调):魔搭社区应用实践魔搭社区应用实践第一步:准备两个文件train.zh.raw和train.en.raw,其中每一行是一一对应的平行数据,例如:#train.zh.raw这只是一个例子。今天天气怎么样?#train.en.rawThis is just an example.Whats the weather like today?定制微调示例(用户需要:准备微调数据 修改相关参数 模型微调):魔搭社区应用实践魔搭社区应用实践第一步:准备两个文件train.zh.raw和train.en.raw,其中每一行是一一对应的平行数据,例如:#
26、train.zh.raw这只是一个例子。今天天气怎么样?#train.en.rawThis is just an example.Whats the weather like today?第二步:预处理,英文进行tokenization,中文进行中文分词;然后,分别进行BPE#英文使用英文使用mosesdecoder进行进行tokenizationgit clone https:/ mosesdecoder/scripts/tokenizer/tokenizer.perl-l en train.en.tok#中文使用结巴分词中文使用结巴分词pip install jiebapython m j
27、ieba train.zh.raw train.zh.tok定制微调示例(用户需要:准备微调数据 修改相关参数 模型微调):#分别进行分别进行BPEpip install subword-nmtsubword-nmt apply-bpe-c bpe.en train.ensubword-nmt apply-bpe-c bpe.zh train.zh魔搭社区应用实践魔搭社区应用实践“model”:“attention_dropout”:0.1,“residual _dropout”:0.1,“relu _dropout”:0.1,“train”:“num_gpus”:8,“update_cycl
28、e”:1,“num_of_epochs”:10,“learning_rate”:1e-5,“learning_rate_decay”:none,“dataset”:“train_src”:“train.en”,“train_trg”:“train.zh”定制微调示例(用户需要:准备微调数据 修改相关参数 模型微调):魔搭社区应用实践魔搭社区应用实践“model”:“attention_dropout”:0.1,“residual _dropout”:0.1,“relu _dropout”:0.1,“train”:“num_gpus”:8,“update_cycle”:1,“num_of_epo
29、chs”:10,“learning_rate”:1e-5,“learning_rate_decay”:none,“dataset”:“train_src”:“train.en”,“train_trg”:“train.zh”定制微调示例(用户需要:准备微调数据 修改相关参数 模型微调):模型结构相关的参数(如编码器/解码器层数、模型宽度等)无需调整,只需要根据定制数据规模调整dropout比例指定GPU数量,0表示CPU运行定制数据规模小(百万级以内)的情况下,推荐使用较小的学习率,同时关闭学习率衰减器将预处理好的数据传入即可,其他参数无需修改魔搭社区应用实践魔搭社区应用实践定制微调示例(用户需
30、要:准备微调数据 修改相关参数 模型微调):#English-to-Chinese Finetunefrom modelscope.trainers.nlp import CsanmtTranslationTrainertrainer=CsanmtTranslationTrainer(model=damo/nlp_csanmt_translation_en2zh)trainer.train()指定模型id魔搭社区应用实践魔搭社区应用实践我们将陆续发布经过我们将陆续发布经过AliExpress、Lazada、阿里巴巴国际站、阿里云、阿里巴巴国际站、阿里云等等场景验证、业内领先场景验证、业内领先的机器翻的机器翻译技术模型译技术模型,为用户提供高质量、多场景、多语言翻译服务为用户提供高质量、多场景、多语言翻译服务。