Lightseq：GPU 高性能序列推理实践.pdf

编号：29526

PDF 28页 2.05MB 下载积分：VIP专享

下载报告请您先登录！

Lightseq：GPU 高性能序列推理实践.pdf

1、王晓晖 ByteDance AI Lab LightSeq: GPU高性能序列推理实践 2 01 CUDA 02 压缩量化 03 TVM 3 01 CUDA 项目介绍 4 基于CUDA Toolkit，聚焦NLP序列模型推理支持Bert/GPT/Transformer及VAE 支持Beam Search/Diverse Beam Search/Sampling 2019.7上线FP32，2019.09上线FP16，2019.12开源项目背景 5 模型应用广泛，例如机器翻译、智能写作、自动问答等原生深度学习框架，如TensorFlow、PyTorch，秒级延迟模型结构收敛，复用性高，研

2、发成本可控简单易用的CUDA多线程范式、社区成熟 NVIDIA Team of Four团队的专业支持优化方法 6 算子多运算融合动态显存复用层级式解码计算算子多运算融合 7 TF和LightSeq中的Layer Normalization 动态内存复用 8 对动态维度限定最大值，如序列长度模型加载时分配所有张量显存，对动态维度，按最大值分配计算图优化，无依赖张量复用显存模型服务期间无内存申请释放，单T4 GPU可部署8个 Transformer Big 层级式解码计算 9 TensorFlow 存在冗余计算，难以并行化，占一次推理延迟的30%+ 层级式解码计算 10 Ligh

3、tSeq 粗选 + 精排。粗选过程，遍历logit矩阵两次： 1.对每个beam，将其logit值随机分成k组，每组求最大值，然后对k个最大值求最小值，作为一个粗略的topk值，记为Rtopk 2.对每个beam，将每个大于Rtopk的logit值，写入精排队列性能分析 11 1.矩阵乘法占比80%+，已成推理效率主要矛盾（对比TF仅有25%）。 2.缓存刷新在FP32和FP16中分别占比 10%和6%，可尝试降低decoder层数，降低缓存精度等，继续提升。 3.其他运算总计在FP32和FP16中分别占比8%和6%，计算融合收益明显已逼近优化上界优势分析：性能高 12 https:/ https:/ 优势分析：功能丰富 13 https:/ https:/ 14 更快更轻？ 15 02 压缩量化 16 ModelBLEU Param/m Transformer-big28

友情提示

1、下载报告失败解决办法
2、PDF文件下载后，可能会被浏览器默认打开，此种情况可以点击浏览器菜单，保存网页到桌面，就可以正常下载了。
3、本站不支持迅雷下载，请使用电脑自带的IE浏览器，或者360浏览器、谷歌浏览器下载即可。
4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩，下载后原文更清晰。

本文（Lightseq：GPU 高性能序列推理实践.pdf）为本站（X-iao）主动上传，三个皮匠报告文库仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对上载内容本身不做任何修改或编辑。若此文所含内容侵犯了您的版权或隐私，请立即通知三个皮匠报告文库（点击联系客服），我们立即给予删除！

温馨提示：如果因为网速或其他原因下载失败请重新下载，重复下载不扣分。