上海品茶

您的当前位置:上海品茶 > 报告分类 > PDF报告下载

基于 Tensor Core 的 CNN INT8 定点训练加速.pdf

编号:29536 PDF 24页 849.08KB 下载积分:VIP专享
下载报告请您先登录!

基于 Tensor Core 的 CNN INT8 定点训练加速.pdf

1、李英晗 赵康 顾震宇 张迎亚 潘攀 基于 Tensor Core 的 CNN INT8 定点训练加速 Contents 1. 2. 3. 4. 工作背景与目的 CNN INT8 训练量化与反量化 Tensor Core INT8 Implicit GEMM 卷积实现方法 实验结果 工作背景与目的 01 工作背景与目的 INT8 训练有助于解决浮点训练的某些模型在INT8推理中的精度下降 考虑数据隐私,有些训练要在用户侧的推理机上进行 Turing GPU INT8 Tensor Core 算力是 FP16 的两倍 下一代训练用 GPU(A100) Tensor Core 支持 INT8 Tes

2、la V100 PCIeTesla T4Tesla A100 FP16 Tensor Core 112 TFlops65 TFlops312 TFlops INT8 Tensor Core N/A130 Tops624 Tops CNN INT8 训练量化与反量化 02 CNN INT8 训练量化与反量化 -127127 -|max|max| 0 INT8 量化训练 -1270127 -|max * scale|max * scale| INT8 量化推理 FP16_to_INT8Conv_INT8INT32_to_FP16BN_FP16Relu_FP16 03 CNN INT8 训练量化与反

3、量化 Tensor Core INT8 Implicit GEMM 卷积实现方法 04 Tensor Core INT8 Implicit GEMM 卷积实现方法 not aligned! 卷积转矩阵乘法 (Forward) R S H W C C K K C*R*S P*Q C*R*S P*Q K Filter Feature Map R*S*C N*P*Q K R*S*C K N*P*Q Filter (NHWC) matrixB col-major Feature Map (NHWC) matrixA row-major img2col 16B/8B packed access 05 Tensor Core INT8 Implicit GEMM 卷积实现方法 INT8 NCHW to NHWC int32_t s8_44; / 4x4 int8 asm (.reg .u32 r_a,

友情提示

1、下载报告失败解决办法
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。

本文(基于 Tensor Core 的 CNN INT8 定点训练加速.pdf)为本站 (X-iao) 主动上传,三个皮匠报告文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三个皮匠报告文库(点击联系客服),我们立即给予删除!

温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。
会员购买
客服

专属顾问

商务合作

机构入驻、侵权投诉、商务合作

服务号

三个皮匠报告官方公众号

回到顶部