上海品茶

2020年终大会-自然语言处理:6-5.pdf

编号:29866 PDF 28页 2.13MB 下载积分:VIP专享
下载报告请您先登录!

2020年终大会-自然语言处理:6-5.pdf

1、LightSeq:高性能NLP序列推理实践王晓晖ByteDance AI LabLightfeqA#page#010302CUDA压缩量化TVM#page#01CUDA#page#项目介绍基于CUDAToolkit,聚焦NLP序列模型推理支持Bert/GPT/Transformer及VAE支持Beam Search/Diverse Beam Search/sampling2019.7上线FP32,2019.09上线FP16,2019.12开源#page#项目背景模型应用广泛,例如机器翻译、智能写作、自动问答等原生深度学习框架,如TensorFlow、PyTorch,秒级延退模型结构收敛,复用性

2、高,研发成本可控#page#优化方法算子多运算融合动态显存复用层级式解码计算#page#算子多运算融合TF和LightSeg中的Layer Normalization1mean=tf.reduce_mean(x,axis=-1)b:and rolumean)2variance=tf.reducemean(tf.square(xFFNmean)*tf.rsqrt(varianceepsilon)3norm=(x-Y=Y.Wscale+bias4result=normLNandntemplate ctypenTbias)Y=Y.W+binti=blockIdx.adIdx.xpeubrsu*bLo

3、ckDfloat vaatrixi;odwuso/step8.shared_float s_meanfloat reduce_ref(threadIdxx=0)5sofma_syncthreads(;S=QK/pshared_foat s_var;Custom kernroshap0.KVif(threadIdx.x=)O.KV=X.(WoWxW)+CUBLAS GEMMsvar=rsgrtf(reduce_res/float(blocki.e0sf1onsyncthreads;LNandresldual/step 2.layer norsmatrixi=X=X+XAS*1EA#page#动态

4、内存复用对动态维度限定最大值,如序列长度模型加载时分配所有张量显存,对动态维度,按最大值分配计算图优化,无依赖张量复用显存模型服务期间无内存申请释放,单T4GPU可部署8个Transformer Big#page#层级式解码计算TensorFlow1#1.计算以每个token为结尾的序列的Logprobability2 og_token_prob=tf.nn.log_softmax(logit)#batch_size,beam_size,vocab_size3 log_seq_prob += log_token_prob #fbatch_size,beam_size,vocab_size4 L

5、og_seq_prob = tf.reshape(log_seq_prob,-l,beam_size vocab_size)5#2.为每个序列(batchelement)找出排名topk的token0-0S0S152sn6 topk_log_probs,topk_indices=tf.nn.top_k(log_seq_prob,k=K)S20-1S0S1sn7#3,根据beamid,刷新decoder中的seifattention模块中的key和value的缓存1-0S1S2SnS08refresh_cache(cache,topk_indices)S1S21-1S0snlogitsBatch

6、size=2存在元余计算,难以并行化,占一次推理延退的30%+beam=2nisvocab sizeA#page#层级式解码计算LightSeq粗选+精排。粗选过程,遍历logit矩阵两次:1.对每个beam,将其logit值随机分成k组,每组求最大值,然后对k个最大值求最小值,作为一个粗略的topk值,记为Rtopk2.对每个beam,将每个大于Rtopk的logit值,写入精排队列24243512粗选-第一次遍历51137415865粗选-第二次遍历直接排序55678441578精排#page#性能分析1.矩阵乘法占比80%+,已成推理效率主要矛

7、盾(对比TF仅有25%)。2.缓存刷新在FP32和FP16中分别占比10%和6%,可尝试降低decoder层数,降低缓存精度等,继续提升。3.其他运算总计在FP32和FP16中分别占比8%和6%,计算融合收益明显已逼近优化上界#page#优势分析:功能丰富模型解码方法功能支持DiverseVAEGPTBeamSearchTransformerSamplingBeamSearchXXFaster TransformerXTurbo TransformersLightSeqhttps:/ en-deModelBLEU Param/mATransformer参数分布(M)28.58245Transf

8、ormerbig120Depth-wise27.732200.8510090Convolutional28.37244-0.21Light-weight81seq2seq7560Dynamic28.48249-0.103027.97214-0.61Depth-wise0LSRA227Light-weight28.35-0.23EmbeddingAttentionFFNDynamic28.49230600-16#page#序列模型压缩ModelBLEU Param/m258Transformerbig30.6941.2729.42ls+ed(128)+dp01文5030.48-0.215030.

9、50-0.19W=ww+b层参数共享+变换4029.91-0.78emb sharels+ed(256)27.4233emb(6k)-3.27词向量分解+ap0129.5742-1.12fin(2048)12e3d30.3350-0.3612e6d+dm(768)30.0941-0.60+head(12)30ls+hierarchical emb+dp01252-51#page#量化流程预训练Fine-tune CQAT )BLEUAModel1Transformer-big30.84-0.09fixedrangeclip30.7530.75-0.09percentageclipQAT30.7

10、2-0.12asymmetrical30.75-0.09symmetrical-0.41fixed range clip30.4330.41-0.43percentage clipPTQ30.25-0.59asymmetrical30.41-0.43symmetricalhttps:/arxiv.org/abs/1511.00363https:/arxiv.org/abs/1712.05877#page#量化:裁剪+对称AsymmetricalSymmetrical0.08127Asymmetrical quantization:bound= maxIWeminlIwemaxlqq2=(i-z

11、)S.(i2-z2).22%-1=5.S2.(i.i2-iz2-i2.z+z.)Wnn=-bound.2n-1-1Symmetrical quantization:Wemaxboudqq2=(iS).(i22)=SS2.(i.i)9#page#高效局部量化Training量化所有weights仅量化计算密集型运算Inference#page#结论LightFastAccurateFLOPs1/4(1019Score-1%(BLEU)Modelsize1/20(MB)2.8120030.930.842.39842.39002.130.830.676001.430.70.63000.730.530

12、.50190470.030.4CompressionCompressionTransformer-big+Quantization21#page#03TVM22#page#背景提升计算密集型运算的性能具备多端部署能力https:/yyapache/incubator-#page#方法引入TVM代码自动生成与参数搜索Dynamicshape量化序列模型定制图优化24#page#案例:Bertbatch_size, seq_lenl - batch_token num J移除paddingtoken填充一定数量paddingtoken,离散化batch_token_num(例如至8整数倍)buildtime,对运行环境+model+量化后dynamicshape,搜索参数并生成执行代码runtime,执行对应shape代码近期开源,欢迎关注25#page#LightSeg应用案例火山翻译http:/ NeurSThttps:/ paper: https:/arxiv.org/abs/2010.1388727#page#Q&AThank you28

友情提示

1、下载报告失败解决办法
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。

本文(2020年终大会-自然语言处理:6-5.pdf)为本站 (X-iao) 主动上传,三个皮匠报告文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三个皮匠报告文库(点击联系客服),我们立即给予删除!

温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。
客服
商务合作
小程序
服务号
会员动态
会员动态 会员动态:

wei**n_... 升级为标准VIP   137**18...  升级为至尊VIP

 wei**n_...  升级为至尊VIP wei**n_...  升级为标准VIP

139**24...  升级为标准VIP  158**25...  升级为标准VIP

wei**n_...  升级为高级VIP  188**60... 升级为高级VIP 

Fly**g ... 升级为至尊VIP wei**n_...  升级为标准VIP 

 186**52... 升级为至尊VIP  布**  升级为至尊VIP

186**69... 升级为高级VIP  wei**n_...  升级为标准VIP

139**98... 升级为至尊VIP    152**90... 升级为标准VIP

 138**98... 升级为标准VIP 181**96... 升级为标准VIP

185**10... 升级为标准VIP   wei**n_... 升级为至尊VIP

  高兴 升级为至尊VIP  wei**n_...  升级为高级VIP

wei**n_...  升级为高级VIP  阿**...  升级为标准VIP

 wei**n_... 升级为高级VIP  lin**fe... 升级为高级VIP

wei**n_...  升级为标准VIP wei**n_... 升级为高级VIP 

wei**n_... 升级为标准VIP  wei**n_...  升级为高级VIP 

wei**n_...  升级为高级VIP  wei**n_... 升级为至尊VIP 

wei**n_...  升级为高级VIP wei**n_...  升级为高级VIP

180**21... 升级为标准VIP  183**36...  升级为标准VIP

wei**n_...  升级为标准VIP wei**n_... 升级为标准VIP  

xie**.g... 升级为至尊VIP 王**  升级为标准VIP

 172**75...  升级为标准VIP wei**n_... 升级为标准VIP 

wei**n_... 升级为标准VIP  wei**n_...  升级为高级VIP

135**82... 升级为至尊VIP  130**18...  升级为至尊VIP

wei**n_... 升级为标准VIP   wei**n_... 升级为至尊VIP

wei**n_...  升级为高级VIP   130**88...  升级为标准VIP

  张川 升级为标准VIP wei**n_...  升级为高级VIP 

叶**  升级为标准VIP wei**n_... 升级为高级VIP 

138**78...  升级为标准VIP wu**i 升级为高级VIP

  wei**n_... 升级为高级VIP  wei**n_...  升级为标准VIP

wei**n_...  升级为高级VIP  185**35...  升级为至尊VIP

wei**n_... 升级为标准VIP  186**30... 升级为至尊VIP 

156**61...  升级为高级VIP 130**32... 升级为高级VIP

136**02...  升级为标准VIP  wei**n_... 升级为标准VIP

 133**46... 升级为至尊VIP  wei**n_... 升级为高级VIP

180**01... 升级为高级VIP 130**31...  升级为至尊VIP

 wei**n_...  升级为至尊VIP 微**... 升级为至尊VIP 

wei**n_... 升级为高级VIP  wei**n_...  升级为标准VIP

刘磊  升级为至尊VIP  wei**n_... 升级为高级VIP 

班长  升级为至尊VIP wei**n_...  升级为标准VIP

  176**40... 升级为高级VIP 136**01...  升级为高级VIP 

159**10... 升级为高级VIP   君君**i... 升级为至尊VIP

wei**n_... 升级为高级VIP    wei**n_... 升级为标准VIP

158**78... 升级为至尊VIP   微**...  升级为至尊VIP

 185**94... 升级为至尊VIP  wei**n_... 升级为高级VIP

139**90...  升级为标准VIP 131**37...  升级为标准VIP

 钟** 升级为至尊VIP  wei**n_...  升级为至尊VIP

 139**46...  升级为标准VIP  wei**n_... 升级为标准VIP

wei**n_... 升级为高级VIP   150**80... 升级为标准VIP

 wei**n_...  升级为标准VIP GT  升级为至尊VIP

186**25... 升级为标准VIP wei**n_...   升级为至尊VIP