上海品茶

您的当前位置:上海品茶 > 报告分类 > PDF报告下载

英特尔+阿里云机器学习PAI:全栈赋能AI生态加速应用落地-AI工程化技术峰会(12页).pdf

编号:84552 PDF 12页 36.75MB 下载积分:VIP专享
下载报告请您先登录!

英特尔+阿里云机器学习PAI:全栈赋能AI生态加速应用落地-AI工程化技术峰会(12页).pdf

1、英特尔+阿里云机器学习PAI魏彬英特尔公司中国区超大云计算软件架构总监全栈赋能AI生态,加速应用落地Contents目录01英特尔AI技术02Alibaba大规模稀疏模型训练引擎03合作历程04DeepRec 优化05案例分享英特尔AI技术Simplicity,Productivity&PerformanceIntel Solutions MarketplaceSolutionsToolsScikit-LearnTechnologyPandasNumPy/SciPyXGBoost&MoreCPUGPUFPGAAIStorageMemoryConnectivityPush to Start AI

2、200+turnkey solutions&providers to choose fromBuild Smarter,Faster150+containers to streamline end-to-end data scienceAccelerate Your AI,TodayHigh Speedup across 20 top AI workloadsSee claims 43,44 at for workloads and configurations.Results may vary.Alibaba大规模稀疏模型训练引擎DeepRec 阿里巴巴集团稀疏场景的统一训练引擎,由集团多个

3、团队合作共建;2016年深耕至今,支持了淘宝搜索、推荐、广告等核心业务;同时为阿里云客户的推荐业务提供服务;沉淀了大量算子优化、图优化、Runtime优化、编译优化,并基于硬件实现深度定制优化,支持高性能分布式训练,在稀疏模型的训练方面有着优异的性能;支持召回/排序/多任务等常见场景和主流模型,包括EasyRec模型集,DLRM,DIEN,DIN,WDL,DSSM等Internal(Non-Cloud)External(Cloud)Alimama RecoAlibaba SearchAlibaba Recommendation services/productsEasyRec ModelsDL

4、RMModel ZooDIENDeepFMWDLDSSMDeepRecAI toolsCPU(CLX/ICX/CPX/SPR)PMEMHardwareFPGA合作历程2019/07Alibaba AI Workshop2020/01ResNet_v2_50VNNI 量化+1.5X2020/05PAI-TF enablingoneDNN+1.2X2020/05BertTextCNNCPX launch2020/06探索融合矩阵连乘2020/06BladeCPU Bert+4.3X2020/07统一TF线程池2020/09Intel-TFBF16 enabling+1.6X2020/09稀疏模型典

5、型OP优化+1.5X2020/09MobileNetCPX ramp up2020/09模型权重全链路Packing 2020/09TVM enable oneDNN+1.5X2020/10Attention子图优化2021/03阿里云客户模型1.25x2021/04阿里云客户模型:1.5x2x2021/4DeepRec联合开发2021/06ICX into PAI-EAS2021/08EasyRec 开源2021/8DeepRecPMEM 优化2020/10Attention子图优化2021/9Model zooDeepRecBF16 优化推理:训练:DeepRec 优化针对稀疏模型的典型算

6、子优化(Select,Transpose,BiasAddGrad,SparseSegmentMean,ConcatV2),充分利用AVX512,BF16指令加速将大矩阵进行分块,提升cache命中率,减少访存开销2x算子优化Attention 模型的图优化:QKV MatMul融合,MatMul循环合并模型权重全链路 Packing 的优化,提升数据局部性,降低cache miss融合矩阵连乘的优化融合Embedding Column 子图,加速比可达1.6x2x子图优化整合最新的Intel oneDNN加速库,实现线程池调度优化,获取最好性能基于PMEM实现内存优化2x框架及库优化建立推荐系

7、统的预训练模型集合(WDL,EasyRec,DIEN,DLRM,DeepFM等等)使用BF16优化推荐模型,保持精度不变,模型训练性能加速比可达1.5x使用AVX512指令,算子融合等优化提升推荐模型推理速度1.5x模型优化稀疏模型典型算子优化背景:Top6 Ops 广泛应用于搜索、推荐、广告的稀疏模型DeepRec 中部分Op已经进行了并行化、分块的优化,但在大尺寸下的Op运算上存在明显的性能瓶颈性能优化方法:AVX512:16 x FP32 数据批量处理或计算,利用AVX512指令的运算特点,如提供的向量化mask,div,add,reduce等Block:将大矩阵拆分成多个小矩阵,并且小

8、矩阵对更Cache友好,减少内存访问次数Parallelization:将算子进行并行化计算或操作Op NameAVX512Selectcondition:(1024,64)x:(1024,64)y:(1024,64)indices:(40,2500)data:(40,2500,64)input:(512,50)multiples:(2,50)data:(1024,64)DynamicStitchTransposeTile AVX512,ParallelAVX512,Blocked,ParallelAVX512,Parallel1+2.63X+3.68X+3.31X+13.44X+4.11X+

9、1.52X+4.01Xdata:(51200,128)indices:(51200)seg index:(51200)data:(51200,512)BiasAddGradSparseSegmentMean AVX512,ParallelAVX512,Parallel+4.34X+16.07X+5.52X23456Input TensorShapeOptimizedMethodSpeedupSpeedup(online)子图优化Attention QKV MatMul ops28.6010.24OriginalFusion w/oneDNNbaseline+2.78xLatency(ms)案例

10、1:融合Attention QKV MatMul案例2:融合Select,Tile=AttSelectthreads18.06110.066.765.43Original(ms)35.722468Select5.422.531.681.1911.97Tile 11.090.570.3990.3592.38Tile 224.5713.168.8396.97950.07sumOpt(ms)11.666.434.563.8122.7AttSelectSpeedUp+2.10+2.04+1.93+1.83+2.20子图优化OneDNN 对计算密集型算子进行大量优化:SIMD、Block(大矩阵拆分成小

11、矩阵后,优化缓存访问效率)、Pack(优化数据访问的连续性)、Parallelization(高性能并行库openmp)等。为了避免线程间切换带来的Context Switch的开销和对CPU的资源竞争,统一OneDNN的OMP线程池为DeepRec的计算线程池。模型优化DeepRec ModelZoo提升模型端到端训练+1.2x-1.5xBFloat 16提升MatMul计算速度AMX单机可训练更大的模型持久化存储模型Intel 傲腾 持久内存加速hash计算FPGAWDLDIENDINDeepFMDLRMMulti-Tower优化案例模型训练案例:基于DeepRec引擎,阿里云平台vs.内部IDC集群,加速 10-60 x模型推理案例1:WDL模型,优化特征处理模块,在线端到端延迟降低33%,QPS提升25%案例2:ESMM模型,优化特征处理模块,在线端到端延迟降低了41.6%,QPS提升73.9%案例3:算子融合优化,全连接层和激活层融合,模型子图加速1.5x2x.案例4:DBMTL模型;融合优化特征处理模块,相同QPS情况下,延迟降低57.5%,端到端延迟降低20%.Intel oneDNN深度学习数学库和统一线程池优化,可实现端到端训练加速比1.2x稀疏算子优化,算子加速 2-6x子图优化,加速比2x所有优化都基于AVX512实现,BF16会带来更大加速

友情提示

1、下载报告失败解决办法
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。

本文(英特尔+阿里云机器学习PAI:全栈赋能AI生态加速应用落地-AI工程化技术峰会(12页).pdf)为本站 (云闲) 主动上传,三个皮匠报告文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三个皮匠报告文库(点击联系客服),我们立即给予删除!

温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。
会员购买
客服

专属顾问

商务合作

机构入驻、侵权投诉、商务合作

服务号

三个皮匠报告官方公众号

回到顶部