上海品茶

GPU 推理中的数据格式全局优化算法.pdf

编号:29465 PDF 25页 431.72KB 下载积分:VIP专享
下载报告请您先登录!

GPU 推理中的数据格式全局优化算法.pdf

1、GPU推理中Tensor数据格式的全局优化Alibaba达摩院机器智能陈元凯11/12/2020#page#咨日01问题背景02数据格式优化算法03数据展示/未来工作#page#数据格式数据格式(memorylayout):tensor数据可以按照不同顺序排列N:Batch sizeC: Channel sizeHW:Feature map size5378951624NCHW7651310119NC/4HW4c主流框架(TF,onnxetc):NCHW为什么需要不同的数据格式不同的计算流程,多样的数据读写pattern新一代的GPU硬件:tenss

2、orcore#page#数据格式的影响10.4.5.Conversion Between NCHWAndNHWCNHWCTensor Cores require that the tensors be in thata layout.Conversion between NCHWand NHWC isperformed when the user requests Tensor Op mat.However,as stated in Basics,a request to use Tensor Coresis just that,a request and Tensor Cores may n

3、ot be used in some cases.The CuDNN library converts betweenNCHW and NHWC if and only if Tensor Cores are requested and are actually usedfyour input (and output)are NCHW,then expecta layout changehttps:/ NCHWINT8 NC4HW4自研计INT8 NC16HW16算库sINT8 NHWC推理引擎 FP16 NCHWFP16 NHWC3 party计算库?TVM#page#数据格式选择,数据格式

4、和算子性能:Workload的影响(device V100,kernel source CUDNN):Float16卷积13224224*64377NHWC: 0.29ms,NCHW:0.058msFloat16卷积11282828*12812833NHWC:0.045ms,NCHW:0.091ms,如果选择数据格式?选择单个算子最快!=模型整体最快数据格式之间转换需要额外的开销#page#1例子数据格式转换时间可能很耗时0.3msconv1最好的组合不见得对单个op最快0.3msconv1全局统筹的算法问题NCHWNCHW0.2msConvertTotal=1.0msTotal=NHWC0.

5、6msconv2conv20.5ms#page#问题综述问题描述输入:深度学习模型算子不同实现(cudnn,TVMetc),输出:模型中每个tensor的数据格式,优化目标:模型整体推理性能最快#page#2算法背景Optimizing CNN Model Inference on CPUsYhi LiuYaoWangRuofeiYMuLVn Sharma.YdaWangAmazon Web Servicesfyihiliwayao,Abstractsisting ofopcrations.In practice.pcople normally use highThe popularity o

6、f Convolutional Neural Network(CNN) mod-performance kernel ibraries(e.g.IntelMKL-DNN127andcls and the ubiquity of CPUs imply that bettcr performanceofOpenBlas S1J) to obtain high performance for CNN operaCNN model inference on CpUs can deliver significant gaintions.While these libraries tune very ca

7、refully for commotoa large number of uscrs.To improve the performance ofon CPUs.cures like MXNet最早来自TVM社区:动态规划优化CPUtensor数据格式算法很慢,占用大量内存,几乎没法用#page#2我们的工作近似线性复杂度的实现剪枝优化,进一步缩短算法运行时间提升推理性能首先运用在fp16,int8模型GPU推理上,#page#2动态规划将大的优化问题划分成小的优化问题小的优化问题之间互不影响,独立优化e.g.最短路径问题,假设路过某个中间点:超市家到公司最短路=家到超市最短路+超市到公司最短路

8、子问题2子问题1家公司#page#2数据格式优化算法Graphcut:模型切分成两个子图考虑其中一个子图:给定输入输出数据格式Subgraph G1它的优化不影响另外一个子图。不停地分而治之,直至单个opOutput layoutL。枚举切割处的数据格式(L,L)Input layout Lopt(G)= minlopt(G1)+ opt(G2)+ convert(L-L)1Subgraph G2#page#2数据格式优化算法实现难点Graphcuts数量指数增长,无法枚举拓扑排序,降维到1D按照拓扑顺序考虑N个cut,可以证明:排序顺序不影响最优解1-11+2#page#2数据格式优化算法,

9、每个cut定义一组状态:cutli有两个输出tensor,数据格式分别为t1,t2状态opt(it1,t2)表示cut左边子图输出为t1,t2时的最优解假设每个tensor有M种数据格式选择,状态总数=M个2cuti+1输出一个tensor,状态为opt(i+1,t3),总数Mcutficuti+1t111i+12#page#数据格式优化算法状态转移方程cuti+1看到输入数据格式为t1t2。从cuti状态达到cuti+1状态:t1.t2数据转换nodeli+1计算opt(i+1,t3)=minopt(it1,t2)+convert(t1,t1)+convert(t2,t2)+node(t1t

10、2t3)。枚举t1,t2,t1t2cutficuti+1t1t11-1i+11+22t2#page#2数据格式优化算法opt(i+1,t3)=minopt(i,t1,t2)+convert(tl,t1)+convert(t2,t2)+node(t1t2t3)node(t1t2t3)通过profiling得到最优的kernelprofile格式转换时间记录profile历史记录,避免重复profilecuti+1cutfit1t11-12#page#2数据格式优化算法回:全局最优解为opt(n,graph_outputs),记录每个状态最优解对应的之前状态:prev(i+1,t3)=(t1,t2

11、,t1t2)从最后一个算子往前,确定每个tensor的数据格式cuti+1cutfit1t11-12#page#2数据格式优化算法#layouts=M初始化cutfo的状态(模型输入格式)fori=1 toN doEll:cut上的边的集合anscutli+1Sli:cutli的状态集合,size(S)=MAIEIforsin Sti do:for kin kernels doL:nodei的输入数据格式组合forsinSi-1:L:nodelij输入tensor在s中对应的数据格式组合if(opt(i-1,s)+node(i,)+convert(L,)opt(i,s)1-1opt(i,s)=

12、opt(i-1,s)+node(i,)+convert(L,L)prev(i,s)=sS= min_indexlopt(n,SIn)fori= N-1 to 1 do:S=prev(i,s)根据s设置EU的数据格式#page#page#2数据格式优化算法opt(i+1,t3)=minlopt(i,t1,t2)+convert(tl,t1”)+convert(t2,t22)+node(t1t2t3)剪枝加速方法1:opt(i,t1,t2.tc)并不是所有的M个C组合都需要保留不同数据格式下,算子性能往往有数倍差距差距不断累积,最差的组合不会被后面使用到只保留minopt(i,t1,.tc)*th

13、reshold#page#2数据格式优化算法opt(i+1,t3)=minlopt(i,t1,t2)+convert(tl,t1”)+convert(t2,t22)+node(t1t2t3)剪枝加速方法2:帕累托原理opt(i,t1,t2)+convert(t2,t2”)opt(i,t1,t2”)opt(i,t1,t2为次优状态,可以删除#page#page#3性能数据测试环境:V100;数据类型:float16,平均性能提升1.75x算法运行时间(包括kernelprofiling)20s)Normalized Inference Time120.80.60.40.20resnet101resnet50mobilenetsqueezenetshuffenetw/layoutoptwolayout opt#page#3未来扩展业界趋势:多元化的计算方案广义上的数据格式混合精度计算:A100带来了更多的选择int8/fp16/TF32/BF16/sparse/etc.异构计算:GPU/CPU/otheraccelerator数据格式选择+硬件类型选择格式转换时间+异构数据传输时间#page#谢谢!#page#

友情提示

1、下载报告失败解决办法
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。

本文(GPU 推理中的数据格式全局优化算法.pdf)为本站 (X-iao) 主动上传,三个皮匠报告文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三个皮匠报告文库(点击联系客服),我们立即给予删除!

温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。
客服
商务合作
小程序
服务号
会员动态
会员动态 会员动态:

wei**n_...  升级为标准VIP  wei**n_... 升级为至尊VIP

 189**10...  升级为至尊VIP wei**n_... 升级为至尊VIP

準**... 升级为至尊VIP  151**04... 升级为高级VIP  

155**04...  升级为高级VIP  wei**n_... 升级为高级VIP

  sha**dx... 升级为至尊VIP 186**26...  升级为高级VIP 

 136**38... 升级为标准VIP 182**73... 升级为至尊VIP

136**71...  升级为高级VIP  139**05...  升级为至尊VIP 

wei**n_... 升级为标准VIP  wei**n_... 升级为高级VIP

 wei**n_... 升级为标准VIP 微**...  升级为标准VIP

 Bru**Cu... 升级为高级VIP   155**29... 升级为标准VIP 

 wei**n_... 升级为高级VIP 爱**...   升级为至尊VIP

wei**n_...  升级为标准VIP wei**n_...  升级为至尊VIP

 150**02...  升级为高级VIP wei**n_... 升级为标准VIP

138**72...  升级为至尊VIP wei**n_... 升级为高级VIP 

153**21... 升级为标准VIP   wei**n_... 升级为高级VIP 

wei**n_...  升级为高级VIP ji**yl 升级为高级VIP 

 DAN**ZD... 升级为高级VIP  wei**n_... 升级为至尊VIP 

wei**n_...  升级为高级VIP wei**n_...   升级为至尊VIP

186**81... 升级为高级VIP wei**n_... 升级为高级VIP

wei**n_... 升级为高级VIP  wei**n_...  升级为至尊VIP

 wei**n_...  升级为标准VIP wei**n_... 升级为高级VIP 

升级为至尊VIP  msl**ng 升级为高级VIP

 刷** 升级为至尊VIP 186**12...  升级为高级VIP

186**00...   升级为至尊VIP 182**12...  升级为高级VIP

185**05... 升级为至尊VIP   Za**ry 升级为标准VIP 

wei**n_... 升级为高级VIP  183**46...  升级为高级VIP 

 孙** 升级为标准VIP  wei**n_... 升级为至尊VIP

 wei**n_...  升级为高级VIP wei**n_...  升级为至尊VIP

微**...  升级为至尊VIP   180**79... 升级为标准VIP

 Nik**us 升级为至尊VIP  138**86... 升级为高级VIP 

wei**n_...  升级为标准VIP  183**37... 升级为高级VIP  

wei**n_... 升级为标准VIP   wei**n_... 升级为标准VIP

159**85... 升级为至尊VIP    137**52... 升级为高级VIP

138**81... 升级为至尊VIP   wei**n_... 升级为高级VIP

 wei**n_... 升级为标准VIP   微**... 升级为至尊VIP 

136**16... 升级为标准VIP  186**15...  升级为高级VIP

 139**87...  升级为至尊VIP wei**n_...  升级为至尊VIP

137**01... 升级为标准VIP  182**85...  升级为至尊VIP

158**05... 升级为标准VIP    180**51... 升级为高级VIP 

wei**n_...  升级为高级VIP wei**n_...  升级为高级VIP 

wei**n_...  升级为至尊VIP  h**a  升级为高级VIP 

wei**n_...  升级为高级VIP Ani** Y... 升级为标准VIP 

wei**n_...  升级为高级VIP wei**n_...   升级为高级VIP

微**...  升级为高级VIP 137**22...   升级为至尊VIP

138**95...  升级为标准VIP  159**87... 升级为高级VIP

 Mic**el...  升级为至尊VIP  wei**n_...  升级为至尊VIP

 wei**n_...  升级为高级VIP  wei**n_... 升级为高级VIP

 胖**... 升级为至尊VIP  185**93... 升级为至尊VIP 

186**45...  升级为高级VIP  156**81...  升级为高级VIP

wei**n_... 升级为高级VIP  180**85... 升级为高级VIP