《基于 Glancing Transformer 的并行文本生成技术-封江涛.pdf》由会员分享,可在线阅读,更多相关《基于 Glancing Transformer 的并行文本生成技术-封江涛.pdf(55页珍藏版)》请在三个皮匠报告上搜索。
1、并本成的原理与实践封江涛字节跳动AI Lab研究员2.为什么要探索并本成3.并本成的研究发展4.Glancing Transformer为并成建模词之间的依赖关系5.并成的应前景1.什么是并本成Part1:什么是并行文本生成什么是并行文本生成本成任务标题生成Headline Generation文本摘要Text SummarizationYang Qian also became the third Chinese female rifle player to win the first Olympic gold.机器翻译Machine Translation编码器编码器-解码器框架解码器框架
2、深度学习时代的本成模型般都使编码器-解码器的框架EncoderDecoder输入输出编码器编码器-解码器框架解码器框架根据不同的解码式可以分为:左向右的本成(autoregressive)并本成(non-autoregressive)EncoderDecoder输入输出自左向右or并行编码器编码器-解码器框架解码器框架回归模型采左向右的式按顺序逐词成本EncoderDecoder多很树alotofalotoftrees自回归文本生成模型自回归文本生成模型前常的本成模型使左向右的成式TransformerLSTM编码器编码器-解码器框架解码器框架回归模型采并的式同时成本EncoderDecode
3、r多很树alotoftreesPart2:为什么要探索并行文本生成为什么要探索并行文本生成并行解码速度更快并行解码速度更快GPU可以同时并执多个计算并解码的速度左向右解码的速度更快同时进行计算SPSPSPSPGPUDecoderalotoftree并行生成是否在生成质量上可以取得显著优势?并行生成是否在生成质量上可以取得显著优势?没有确定的答案并成的潜在优势左向右的解码每次只使左边的信息进局部的预测,但是每步意义明确并解码需要同时确定所有的词,但是可以同时利左右两边的上下信息并行生成是否在生成质量上可以取得显著优势?并行生成是否在生成质量上可以取得显著优势?发展的眼光看问题Aim for th
4、e highest机器翻译的发展历程机器翻译的发展历程Source credit:Christopher D.Manning机器翻译的发展历程机器翻译的发展历程在深度学习时代,自回归模型一直都是主要研究对象,但对于并行生成的研究相对欠缺自左向右的神经网络机器翻译经过不断地改进后才显著超越统计机器翻译并行生成是否在生成质量上可以取得显著优势?并行生成是否在生成质量上可以取得显著优势?前途是光明的!Part3:并行文本生成的研究发展并行文本生成的研究发展基础的并行生成模型基础的并行生成模型Gu J,Bradbury J,Xiong C,et al.Non-Autoregressive Neural
5、 Machine Translation.ICLR2018.模型结构:Transformer的编码器与解码器输出长度:在解码前先预测输出长度解码器输入:待解码词的初步表示模型结构对比模型结构对比并行生成模型的输出长度并行生成模型的输出长度1.在解码之前先预测度可以预测多种度下的输出结果2.预先设定最度需要去除解码结果中多余的部分很多树a lot of treesmany treesmany many treesmany trees并行生成模型的解码器输入并行生成模型的解码器输入1.复制编码器的表示到解码器2.直接使统的占位符并行生成模型和自回归模型的区别并行生成模型和自回归模型的区别自回归模型
6、并行生成模型解码器输入之前的部分输出序列来自编码器上下文信息单向的双向的输出长度输出作为终止先预测长度或指定最大长度并行文本生成的挑战并行文本生成的挑战同个输可以有多个不同输出并成会出现词不致的问题很多树a lot of treesmany trees很多树a great of treesgreat manylot of引入隐变量引入隐变量可能是解码器输入不够好预测额外的隐变量来帮助模型建模输出之间的关系-fertility,FlowSeq,PNAT etc.隐变量的设计存在困难-简单的隐变量,性能较弱-复杂的隐变量,难以预测并且预测速度慢迭代式解码迭代式解码Iter 1 a of trees
7、 treesIter 2 a great of treesIter N a lot of trees翻译“很多树”只做一次并行解码过于困难使用多轮并行解码修改输出-Levenshtein Transformer,Mask-Predict etc.多轮解码减慢了生成速度 只解码一次时的生成质量差单次并行文本生成单次并行文本生成如何只进次并解码就达到不错的成质量?在训练中建模词之间的依赖关系Part4:为并行生成建模词之间的依赖关系为并行生成建模词之间的依赖关系词之间的依赖关系词之间的依赖关系语句中的词通过依赖关系形成正确的语法结构和搭配,并成存在多模态的问题快 乐/兴快 兴/乐并本成模型缺乏种学
8、习依赖关系的有效式并行生成模型的常规训练方式并行生成模型的常规训练方式最似然估计学习词之间的依赖关系需要目标词作为输入单次并行生成在输出之前得不到任何目标词为并行生成建模词之间的依赖关系为并行生成建模词之间的依赖关系如何为单次并行生成建模词之间的依赖关系?Glancing Language Model(GLM)一种渐进式的训练方法Glancing Language Model(GLM)从学习并成段开始 逐渐学习整个句的并成Glancing Language Model(GLM)在训练中进行两次解码1.根据第一次解码的结果,采样目标词并替换部分解码器输入2.使用被替换过的解码器输入预测剩余的目标
9、词在生成中只进行一次解码渐进式的训练方式渐进式的训练方式1.计算第一次解码结果和目标语句的距离2.计算目标词的采样数量=$,!#$%,并将采样词替换到解码器输入中3.第二次解码学习剩余词的并行生成渐进式的训练方式渐进式的训练方式在训练中,目标词的采样数量逐渐减少,模型随之学习更长片段的并行生成和目标语句更加相似GLAT在机器翻译上的效果在机器翻译上的效果NAT-base:使用常规MLE训练的模型Glancing Transformer(GLAT):使用GLM训练的模型GLAT显著提升翻译质量显著提升翻译质量GLAT相比于Transformer可以有815倍的解码加速大规模并行生成系统大规模并行
10、生成系统并本成在之前基本只限于学术研究数据和模型的规模较训练式简单:仅平语料(输+对应输出)并本成的实际应效果究竟如何?基于基于GLAT的系统在的系统在WMT2021上取得第一名上取得第一名WMT2021中的并行翻译系统中的并行翻译系统从“数据、模型、训练和生成”四个维度探索实践WMT2021中的并行翻译系统中的并行翻译系统数据处理:数据过滤、预处理、知识蒸馏数据不是越多越好,质量也很重要WMT2021中的并行翻译系统中的并行翻译系统模型改进:加强深层模型的能力,缩小训练和生成过程之间的差异增加神经网络层数的同时改进结构和训练WMT2021中的并行翻译系统中的并行翻译系统多阶段训练:发挥多种数
11、据的作用,加快迭代WMT2021中的并行翻译系统中的并行翻译系统生成结果重排序:挑选最佳翻译Qian L,Zhou Y,Zheng Z,et al.The Volctrans GLAT System:Non-autoregressive Translation Meets WMT21.arXiv preprint arXiv:2109.11247,2021.待解决的问题待解决的问题不使知识蒸馏数据训练并本成模型简化训练过程,避免受限于回归模型Part5:并行生成的应用前景并行生成的应用前景并行生成的应用前景并行生成的应用前景 从数据到文本在2019年8月9日,华为在东莞正式发布操作系统鸿蒙OS
12、。对话系统想找个地方吃饭请问想吃什么类型的菜?中餐推荐XXX饭店并行生成的应用前景并行生成的应用前景 语法纠错并行的神经网络计算+串行的解码Li P,Shi S.Tail-to-Tail Non-Autoregressive Sequence Prediction for Chinese Grammatical Error Correction.ACL-IJCNLP2021.并行生成的应用前景并行生成的应用前景意图识别和槽位填充意图识别和槽位填充Qin L,Wei F,Xie T,et al.GL-GIN:Fast and Accurate Non-Autoregressive Model f
13、or Joint Multiple Intent Detection and Slot Filling.ACL-IJCNLP2021.我想打个车去虹桥机场 地点意图:打车 双向的上下文信息建模 达到目前最佳效果并行生成的应用前景并行生成的应用前景计算机视觉任务计算机视觉任务人体运动预测Pose-Transformer(Mart nez-Gonzalez et al.)Hand-Transformer3Fig.1.Left:Overview of our proposed NARHT model composed of 3 components.The encoder computes poin
14、t-wise features cifor each input point pi.The structured-reference extractor will feed a reference pose?jinto decoder.Then decoder furthermodels the dependencies among reference joints and correlate this information withpoint-wise features cifor each joint generation?j.Right:An illustration of our n
15、on-autoregressive structured decoding strategy.Each joint generation is conditioned onthe reference pose dependencies and relevant input points.N,J,L1,and L2is thenumber of input points,hand joints,encoder layers,and decoder layers,respectively.tokens as decoder input,representative NART models dire
16、ctly feed a modifiedcopy of input tokens to decoder,aiming to generate all output tokens simultane-ously.Obviously,it provides drastic inference speedup but comes at the cost ofperformance degradation due to the removal of information from output tokens.To preserve the parallelism while feeding nece
17、ssary pose-related information tothe decoder,we design a structured-reference extractor,aiming to provide areference hand pose in the form of joint-wise features and use its inherent corre-lations to approximate that of output pose.Thus,given the reference pose to thedecoder,we adopt a non-causal se
18、lf-attention layer 19 to capture its inherentdependencies towards each output joint generation.By exposing the extractedreference pose to the decoder,our model is able to generate all joints in parallel,conditioned on pose-related information.Beyond drawing the dependencies from structured input and
19、 output data,respectively,the Transformer network further models the correlations betweenthe input and output to explore the relevant input information.By modelingthe correlations,what each output token generation can access is not only itsrelation with previously generated tokens but also the infor
20、mative input fea-tures.Motivated by this strategy,our Transformer-based model also correlateseach output joint generation with the input points via an multi-head attentionmechanism.Specifically,for certain joint estimation,we utilize the dependen-cies among reference hand joints as queries to attend
21、 over input points.Thegoal is to adaptively discover informative points that contribute towards each手势估计Hand-Transformer(Huang et al.)计算实时性上有优势并行生成的应用前景并行生成的应用前景并成应场景本成任务然语处理任务(例如 语法纠错、槽位填充)然语处理以外的任务(例如 计算机视觉)在部分任务上可以取得效果提升总结总结并行文本生成的解码速度更快,是一种有潜力的新生成方式GLAT只进行一次并行解码就可以达到接近Transformer的生成质量并行生成的应用可以拓展到更多任务上