1、李英晗 赵康 顾震宇 张迎亚 潘攀 基于 Tensor Core 的 CNN INT8 定点训练加速 Contents 1. 2. 3. 4. 工作背景与目的 CNN INT8 训练量化与反量化 Tensor Core INT8 Implicit GEMM 卷积实现方法 实验结果 工作背景与目的 01 工作背景与目的 INT8 训练有助于解决浮点训练的某些模型在INT8推理中的精度下降 考虑数据隐私,有些训练要在用户侧的推理机上进行 Turing GPU INT8 Tensor Core 算力是 FP16 的两倍 下一代训练用 GPU(A100) Tensor Core 支持 INT8 Tes
2、la V100 PCIeTesla T4Tesla A100 FP16 Tensor Core 112 TFlops65 TFlops312 TFlops INT8 Tensor Core N/A130 Tops624 Tops CNN INT8 训练量化与反量化 02 CNN INT8 训练量化与反量化 -127127 -|max|max| 0 INT8 量化训练 -1270127 -|max * scale|max * scale| INT8 量化推理 FP16_to_INT8Conv_INT8INT32_to_FP16BN_FP16Relu_FP16 03 CNN INT8 训练量化与反
3、量化 Tensor Core INT8 Implicit GEMM 卷积实现方法 04 Tensor Core INT8 Implicit GEMM 卷积实现方法 not aligned! 卷积转矩阵乘法 (Forward) R S H W C C K K C*R*S P*Q C*R*S P*Q K Filter Feature Map R*S*C N*P*Q K R*S*C K N*P*Q Filter (NHWC) matrixB col-major Feature Map (NHWC) matrixA row-major img2col 16B/8B packed access 05 Tensor Core INT8 Implicit GEMM 卷积实现方法 INT8 NCHW to NHWC int32_t s8_44; / 4x4 int8 asm (.reg .u32 r_a,
1、下载报告失败解决办法 2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。 3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。 4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
电信网络中的图学习性能优化-曾立.pdf
GraphGPT_汤嘉斌_hku.pdf
朱雀图计算平台与大模型-0908.pdf
240127腾讯游戏大规模图学习研究与落地 .pdf
图机器学习在京东内容推荐中的应用-京东-姚翔宇.pdf
图在金融反欺诈中的应用.pdf
张梦玫datafun分享_final_zmm.pdf
大语言模型对汽车行业的影响和实践探索_分享版.pdf
三七互娱AI客服分享-datafun.pdf
任旭滨LLMs Enhanced Rec.pdf
动态推荐场景下的图学习.pdf
旅行经营决策中的时序预测应用.pdf
用户画像的分类及应用介绍.pdf
AnalyticDB PostgreSQL实时物化视图在飔合科技实时数仓的实践.pdf
【微软】A Unified Database for Scalar-Vector Data.pdf
NIO-段全盛-应用大模型打造企业级信息引擎.pdf
三个皮匠报告专业的行业报告下载站,每日更新,欢迎大家关注!
copyright@2008-2013 长沙景略智创信息技术有限公司版权所有 网站备案/许可证号:湘B2-20190120
专属顾问
机构入驻、侵权投诉、商务合作
三个皮匠报告官方公众号
验证即登录,未注册将自动创建三个皮匠报告账号
使用 微信 扫一扫登陆