上海品茶

您的当前位置:上海品茶 > 报告分类 > PDF报告下载

模型量化训练 TensorRT 部署实践.pdf

编号:29467 PDF 41页 2.06MB 下载积分:VIP专享
下载报告请您先登录!

模型量化训练 TensorRT 部署实践.pdf

1、腾讯优图实验室 模型量化训练TensorRT部署实践 主讲人:郭晨阳、姚佳杰 联系方式: 1. 量化训练方法概述 2. 量化训练解决方案 3. TensorRT模型部署 低比特量化(quantization)是一种常用的模型压缩方法。 目前神经网络普遍存在模型较大,参数较多等问题,不适合直接部署在终端设备中。低比特量化可 以通过减少原始模型的比特数来实现对内存和计算要求的降低。是一种牺牲数值精度换取时间/空 间部署效率提升的方法。 主流的终端部署设备都已支持并极致优化了INT8计算性能,以Nvidia GPU为例: NVDIA GPU支持int8计算,峰值性能提升416x 常见模型的加速效果和

2、模型效果(imagenet数据集, Nvidia T4 测速): Resnet50-v1fp32Int8(Calibration)Int8(QAT) Top1(%)76.55%76.17%76.61% GPU latency(bs=64)122.59ms13.27ms14.06ms Mobilenet-v2fp32Int8(Calibration)Int8(QAT) Top1(%)71.58%68.73%71.04% GPU latency(bs=64)24.9733 ms5.247ms5.655ms 1. 直接量化(Post-training quantization or Calibrat

3、ion): 常见前向框架,如TensorRT等,均支持直接量化方法,fp32模型权重直接转成INT8权重,并通过测试集校准确定activation 输出区间 - weight区间:from fp32 model,直接校准 - activation output区间:from test dataset,由KL距离计算量化区间 问题: 测试集样本较小,量化区间无法代表整体分布,导致模型效果下降 2. 量化训练(Quantization-aware training): 量化训练是指在训练过程中插入“伪量化节点”,来模拟前向量化带来的误差。目前,业界主流训练框架都已支持伪量化训练 2.1 量化训练精度保持方法: 量化区间:浮点数到int8整型映射的范围区间外截取,区间内8bit量化 量化区间的大小反映int8计算的精度: 大区间能表达更大范围,但精度差 小区间精度高,但表达范围小 若量化区间-c

友情提示

1、下载报告失败解决办法
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。

本文(模型量化训练 TensorRT 部署实践.pdf)为本站 (X-iao) 主动上传,三个皮匠报告文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三个皮匠报告文库(点击联系客服),我们立即给予删除!

温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。
会员购买
客服

专属顾问

商务合作

机构入驻、侵权投诉、商务合作

服务号

三个皮匠报告官方公众号

回到顶部