1、腾讯优图实验室 模型量化训练TensorRT部署实践 主讲人:郭晨阳、姚佳杰 联系方式: 1. 量化训练方法概述 2. 量化训练解决方案 3. TensorRT模型部署 低比特量化(quantization)是一种常用的模型压缩方法。 目前神经网络普遍存在模型较大,参数较多等问题,不适合直接部署在终端设备中。低比特量化可 以通过减少原始模型的比特数来实现对内存和计算要求的降低。是一种牺牲数值精度换取时间/空 间部署效率提升的方法。 主流的终端部署设备都已支持并极致优化了INT8计算性能,以Nvidia GPU为例: NVDIA GPU支持int8计算,峰值性能提升416x 常见模型的加速效果和
2、模型效果(imagenet数据集, Nvidia T4 测速): Resnet50-v1fp32Int8(Calibration)Int8(QAT) Top1(%)76.55%76.17%76.61% GPU latency(bs=64)122.59ms13.27ms14.06ms Mobilenet-v2fp32Int8(Calibration)Int8(QAT) Top1(%)71.58%68.73%71.04% GPU latency(bs=64)24.9733 ms5.247ms5.655ms 1. 直接量化(Post-training quantization or Calibrat
3、ion): 常见前向框架,如TensorRT等,均支持直接量化方法,fp32模型权重直接转成INT8权重,并通过测试集校准确定activation 输出区间 - weight区间:from fp32 model,直接校准 - activation output区间:from test dataset,由KL距离计算量化区间 问题: 测试集样本较小,量化区间无法代表整体分布,导致模型效果下降 2. 量化训练(Quantization-aware training): 量化训练是指在训练过程中插入“伪量化节点”,来模拟前向量化带来的误差。目前,业界主流训练框架都已支持伪量化训练 2.1 量化训练精度保持方法: 量化区间:浮点数到int8整型映射的范围区间外截取,区间内8bit量化 量化区间的大小反映int8计算的精度: 大区间能表达更大范围,但精度差 小区间精度高,但表达范围小 若量化区间-c
1、下载报告失败解决办法 2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。 3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。 4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
大规模预训练模型高效训练的构架实践-张杰.pdf
爱奇艺使用 GPU 加速 CTR 模型训练的实践.pdf
内容安全中的多模态模型训练实践-陈德健.pdf
阿里云:MetaApp:基于DeepRec的稀疏模型训练实践(12页).pdf
1-5 预训练语言模型压缩及美团落地实践.pdf
02-华为机器翻译模型训练推理加速实践-魏代猛.pdf
基于资产健康度量化模型的小米数据治理实践.pdf
CLIP 模型在线上大规模部署的最佳实践-王峰.pdf
陈争胜-在边缘DC部署大模型:实践和加速 陈争胜.pdf
超大规模多模态预训练模型M6实践-林俊旸.pdf
三个皮匠报告专业的行业报告下载站,每日更新,欢迎大家关注!
copyright@2008-2013 长沙景略智创信息技术有限公司版权所有 网站备案/许可证号:湘B2-20190120
专属顾问
机构入驻、侵权投诉、商务合作
三个皮匠报告官方公众号
验证即登录,未注册将自动创建三个皮匠报告账号
使用 微信 扫一扫登陆