模型量化训练 TensorRT 部署实践.pdf

编号：29467

PDF 41页 2.06MB 下载积分：VIP专享

下载报告请您先登录！

模型量化训练 TensorRT 部署实践.pdf

1、腾讯优图实验室模型量化训练TensorRT部署实践主讲人：郭晨阳、姚佳杰联系方式： 1. 量化训练方法概述 2. 量化训练解决方案 3. TensorRT模型部署低比特量化(quantization)是一种常用的模型压缩方法。目前神经网络普遍存在模型较大，参数较多等问题，不适合直接部署在终端设备中。低比特量化可以通过减少原始模型的比特数来实现对内存和计算要求的降低。是一种牺牲数值精度换取时间/空间部署效率提升的方法。主流的终端部署设备都已支持并极致优化了INT8计算性能，以Nvidia GPU为例： NVDIA GPU支持int8计算，峰值性能提升416x 常见模型的加速效果和

2、模型效果(imagenet数据集, Nvidia T4 测速)： Resnet50-v1fp32Int8(Calibration)Int8(QAT) Top1(%)76.55%76.17%76.61% GPU latency(bs=64)122.59ms13.27ms14.06ms Mobilenet-v2fp32Int8(Calibration)Int8(QAT) Top1(%)71.58%68.73%71.04% GPU latency(bs=64)24.9733 ms5.247ms5.655ms 1. 直接量化(Post-training quantization or Calibrat

3、ion)：常见前向框架，如TensorRT等，均支持直接量化方法，fp32模型权重直接转成INT8权重，并通过测试集校准确定activation 输出区间 - weight区间：from fp32 model，直接校准 - activation output区间：from test dataset，由KL距离计算量化区间问题：测试集样本较小，量化区间无法代表整体分布，导致模型效果下降 2. 量化训练(Quantization-aware training)：量化训练是指在训练过程中插入“伪量化节点”，来模拟前向量化带来的误差。目前，业界主流训练框架都已支持伪量化训练 2.1 量化训练精度保持方法：量化区间：浮点数到int8整型映射的范围区间外截取，区间内8bit量化量化区间的大小反映int8计算的精度：大区间能表达更大范围，但精度差小区间精度高，但表达范围小若量化区间-c

友情提示

1、下载报告失败解决办法
2、PDF文件下载后，可能会被浏览器默认打开，此种情况可以点击浏览器菜单，保存网页到桌面，就可以正常下载了。
3、本站不支持迅雷下载，请使用电脑自带的IE浏览器，或者360浏览器、谷歌浏览器下载即可。
4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩，下载后原文更清晰。

本文（模型量化训练 TensorRT 部署实践.pdf）为本站（X-iao）主动上传，三个皮匠报告文库仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对上载内容本身不做任何修改或编辑。若此文所含内容侵犯了您的版权或隐私，请立即通知三个皮匠报告文库（点击联系客服），我们立即给予删除！

温馨提示：如果因为网速或其他原因下载失败请重新下载，重复下载不扣分。