1、王晓晖 ByteDance AI Lab LightSeq: GPU高性能序列 推理实践 2 01 CUDA 02 压缩量化 03 TVM 3 01 CUDA 项目介绍 4 基于CUDA Toolkit,聚焦NLP序列模型推理 支持Bert/GPT/Transformer及VAE 支持Beam Search/Diverse Beam Search/Sampling 2019.7上线FP32,2019.09上线FP16,2019.12开源 项目背景 5 模型应用广泛,例如机器翻译、智能写作、自动问答等 原生深度学习框架,如TensorFlow、PyTorch,秒级延迟 模型结构收敛,复用性高,研
2、发成本可控 简单易用的CUDA多线程范式、社区成熟 NVIDIA Team of Four团队的专业支持 优化方法 6 算子多运算融合 动态显存复用 层级式解码计算 算子多运算融合 7 TF和LightSeq中的Layer Normalization 动态内存复用 8 对动态维度限定最大值,如序列长度 模型加载时分配所有张量显存,对动态维度,按最大值分配 计算图优化,无依赖张量复用显存 模型服务期间无内存申请释放,单T4 GPU可部署8个 Transformer Big 层级式解码计算 9 TensorFlow 存在冗余计算,难以并行化,占一次推理延迟的30%+ 层级式解码计算 10 Ligh
3、tSeq 粗选 + 精排。粗选过程,遍历logit矩阵两次: 1.对每个beam,将其logit值随机分成k组,每组求最大值,然后对k个最大值求 最小值,作为一个粗略的topk值,记为Rtopk 2.对每个beam,将每个大于Rtopk的logit值,写入精排队列 性能分析 11 1.矩阵乘法占比80%+,已成推理效率 主要矛盾(对比TF仅有25%)。 2.缓存刷新在FP32和FP16中分别占比 10%和6%,可尝试降低decoder层 数,降低缓存精度等,继续提升。 3.其他运算总计在FP32和FP16中分别 占比8%和6%,计算融合收益明显 已逼近优化上界 优势分析:性能高 12 https:/ https:/ 优势分析:功能丰富 13 https:/ https:/ 14 更快更轻? 15 02 压缩量化 16 ModelBLEU Param/m Transformer-big28
1、下载报告失败解决办法 2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。 3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。 4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
基于 GPU 的机器翻译推理性能优化.pdf
2018年为物联网而生-高性能时间序列数据库.pdf
性能提升 7 倍 + 的高性能 GPU 广告推荐加速系统的落地实现.pdf
腾讯 GPU 云服务器打造云端高性能 AI 解决方案.pdf
中国移动九天人工智能平台 GPU 推理实践.pdf
为物联网而生:高性能时间序列数据库-企业级互联网架构专场(24页).pdf
基于 CPU-GPU 异构平台的第一性原理密度泛函理论高性能计算.pdf
科技行业先锋系列报告:沐曦国产高性能GPU芯片解决方案领先公司-220615(34页).pdf
2017年爱奇艺高可用高性能服务器编程架构实践.pdf
跨容器高性能的离线化方案在美团的实践和探索.pdf
三个皮匠报告专业的行业报告下载站,每日更新,欢迎大家关注!
copyright@2008-2013 长沙景略智创信息技术有限公司版权所有 网站备案/许可证号:湘B2-20190120
专属顾问
机构入驻、侵权投诉、商务合作
三个皮匠报告官方公众号
验证即登录,未注册将自动创建三个皮匠报告账号
使用 微信 扫一扫登陆