报告预览

如何快速搭建全 GPU 加速的 AI 应用.pdf

编号：29530

PDF 19页 1.20MB 下载积分：VIP专享

下载报告请您先登录！

如何快速搭建全 GPU 加速的 AI 应用.pdf

1、MachineIntelligenceOf DamoGPU加速的AI应用如何快速搭建全在GPU上搭建复杂AI应用的最佳实践青神阿里巴巴达摩院一机器智能技术MD#page#01AI应用服务趋势和挑战Contents02全GPUAI应用服务举例目录03Hummingbird框架介绍#page#01一级标题AI应用服务趋势和挑战#page#超势AI应用服务趋势和挑战119硬件多样化编程语言多模型多模态复杂计算图异构硬件发展迅速，各种加速单元Python社区视频能解码Python训练快速实现多个模型配合完成一个任务C+推理在线离线视频图片，音频，NLP等多领域预处理（Resize，CSC）配合Nvid

2、iaXavier（DLA等）其他硬件加速器Mit#page#挑战AI应用服务趋势和挑战硬件利用效率低多模型组织与并行O11GPU使用率无法达到100%单个模型无法完成复杂任务0-0单Batch推理+多进程实现压满GPU而不是多Batch推理多模型配合整体延时高无法完成实时性应用存在大量CPUGPU内存烤贝，速度低性能分析困难开发效率和开发者找到应用和系统瓶颈困难训练G线上性能准以追踪-100%Python推理-Python:性能低，并行度（GIL）低开发效率高-C+：性能高，并行度高，开发难度高大量Python开发者，C+开发者较少MiD#page#全GPUAI应用服务举例实时视频处理不止推理

3、#page#流程图常见实时视频处理应用流程跟踪数据源视频解码一级模型二级模型三级模型其他业务模块行人属性行人特征抽取后处理行人机动车跟踪业务相关内容预处理招图视频（流）解码检测模型预处理车牌识别车牌检测模型推理后处理预处理常见问题编解码问题3：预处理成为性能瓶颈问题2：HostDevice传输速度低问题1：多模型下实时性难保证使用CPU进行预处理，比如大量CPU和GPU之间的数据搬加入跟踪需要10FPS的速度，只Resize等成为瓶颈运，PCI-E带宽不够，传输数据低有100ms的时间给解码到跟踪之间的处理问题4:性能分析困难问题6:视频解码成为瓶颈问题5：多模型并行推理性能低CPU解码会占用

4、太多的CPU资源多模型并行，性嫩瓶颈分析困难多个模型并行推理，速度下降严解码速度不够造成推理模块等待时间Log无法找到真正原因重#page#Tracker之间延时实时性同步执行流水线问题1:多模型下实时性难保证H264解码H264解码实时跟踪Tracker之间延时检测预处理检测预处理检测模型延时来自两次调用Tracker的时间间隔检测模型行人截图预处理例如10FPS意味着100ms延时行人截图预处理Feature提取模型顺序执行：所有相加小于100msFeature提取模型Tracker更新流水线：两个模块之间小于100msTracker更新H264解码时间（100ms）检测预处理流水线检测模

5、型参考CPU多级流水线设计，CPU多线程并行行人截图预处理-GPU计算。Reactive架构：节点之间message发送Feature提取模型CPU计算可以灵活增加更多的处理节点Tracker更新一视频解码DAG逻辑上并行处理节点可以进一步升级成DAGMi#page#传输问题2：HostDevice传输速度低实际应用中的NsigntSystems截图Profile到带宽测试机PCI-E带宽最差情况7.2GB13GB0.027GBmemcpyDt.Me.Begins:105.117sBogins:45.71468Ends:105.118s（+858.617us）Ends:45.94255DtoH

6、memcpy6，220,800bytesSource memory kind:Dein细：DPageablekimDestination memorykincPagcableThroughput:27.3021MiThroughput:7.24514GitonID:344524CorrelCorrelation ID：985048Host:Pageable内存MiD#page#Pinned Data TransferPageable Data Transfer传输问题2：HostDevice传输速度低（2）DRAMDRAMPinned MemoryPageable Memory Vs Pinn

7、ed MemoryPageable内存需要在Driver（Kernel）中进行多次搬运有限的copyengineMemCpMC.MemCp.GPU只有非常少的copyengine，导致计算kerne排队Begins:104.924sDefault streamEnds:104.925s（+475.675us）Pinned Memory观察是否在defaultstream上排队DtoHmemcpy6,220,800bytesSource memory kind:Device13GBDestination memory kind:PinnedAvoid memory copyThroughput:

8、13.0778GiB/s尽量避免在Host和Device之间的CopyCorrelation ID:957926MiD10#page#预处理问题3：预处理成为性能瓶颈预处理时间减少使用GPU做全部预处理，而不是调用OpencV进行CPU预处理41NPPICSC: YUV - RGBNPPIResize:1080P-224（eg）MeanNorm:0-255-1.0f1.0fCustomize Kernel280整体处理能力提升240ODZ371601208040预处理检测模型U频处理M11#page#100m性能分析问题4:性能分析困难传统的打日志方式很难得到系统颈173.548Nsight

9、Systems72.112Fetch.可视化profilingNVTX自定义Tag自定义Tag来和应用的执行联系起来CUDA(TeslaT4,0000:D8:00.037.3%Otherstreams（615）10.2%Stream2295寻找瓶颈10.1%Stream2296性能瓶颈可能来自任何地方，￥100.0%Al Streams结合NsightSystems提供的信H47.8%Kernels息分析IMo.McmMO.MomMo.84.1%Memory21 streams hidden.MiD12#page#问题5：多模型并行推理性能低多模型并行推理会对GPU内显存带宽，以及计算SM带来

10、压力，需要在计算和传输上面都做做优化。多个同样类型的模型在算法层面可以进行backbone合并节约计算量另外一方面需要关注在CopyEngine排队现象，以及CUDAStream上的排队现象模型合井减少计算量多个相同类型模型可以训练相同的backbone，节约计算提高GPU效率多Batch推理尽量使用多Batch进行推理，在多模型情况下，极限性能和batch的数量有关系减少计算量低精度量化使用intBint4，利用TensorCores提升计算效率GhN13#page#问题6：视频解码成为瓶颈使用GPU的NVDEC模块进行硬件解码可One Thread pre Camera Channel以大

11、幅offloadCPU的解码提算量口FFmpeg， NVIDIA Video Codec NPPIandinoCopyDemuxCSC5Decode口支持GPU硬件解码QueueCplil口支持CPU软件解码FFmpegd&PNPPIMemAllc口可配置抽锁，自适应码流卡顿口可配置输出GPU、CPUBufferOutputCopy5CSCDemuxDecodeQueue口可配置输出格式，RGB24，BGR24，NV12口循环队列管理GPU、CPU内存OutputSCopyCSCDecode口JPEG编解码加速：nvJPEGQueueMiD14#page#总结优化总结并行推理优化实时计算图低精

12、度量化，多batch，模型合并实时流水线，计算图全GPU传输优化可视化性能分析应用服务PinnedMemory更容易分析出系统瓶颈结合应用自定义NVTXtag硬件加速解码GPU预处理GPU加速视频，图片编解码，避免传输避免传输，提高处理速度也加速处理15MiD#page#Hummingbird框架介绍快速搭建全GPU的AI应用服务#page#03逻辑图样式Hummingbird框架图MobileWeb推理平台桌面训练应用层Linux DockerTraningPyforch TensorflowC+PyhonHtp目标：APIAPAPIServicePython APlHummingbird应

13、用框架支持达摩院内部复杂的多模预处理后处DAG&视频输繁码模型推理Tenso组件层态AI应用和服务的在GPU理加速PipelineCPU，其他硬件上的快速开发和高效运行，和生产级别的GPU硬编解码ResizeGPU加速Runtime/ DAGTensor(DlPack功能层稳定性模型推理CSCGPUProflerBFCAlocator-支持Python，C+应用开发其他推理引章CameliaDAG Schedule-Open Source In Future第三方FMoeoIVPEGPromatheJsPyoind11&BinderSDKIntel lppNdia NPNVMLARM CPUN

14、idia GPU其他XBS CPU推理硬件MiyD17#page#MachineIntelligencemo高性能GPU视频编解码，多batch推理DAG，GPU预处理，CPU+GPU并行计算图（DAG）沉淀A推理应用最佳实践快速搭建全GPU的应用服务易用，易集成工程效率&运算效率兼顾SDK形式而非系统，依赖少，侵入性低，可以被集成文档：Python help，tutorial Ct+ SDK Doc,Markdown Doc易定制满足达摩院内部A推理&训练需求开发可以Python+CUDAGPU运行的扩展可以兼容CuPy.PyTorch，TensorFlow等Python框架MID#page#谢谢观看Thanks工作为达摩院SAIL实验室HCI团队成员共同完成异构计算，分布式系统，训练/推理引擎，长期招聘Zhenyu.Gualibaba-MID

友情提示

1、下载报告失败解决办法
2、PDF文件下载后，可能会被浏览器默认打开，此种情况可以点击浏览器菜单，保存网页到桌面，就可以正常下载了。
3、本站不支持迅雷下载，请使用电脑自带的IE浏览器，或者360浏览器、谷歌浏览器下载即可。
4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩，下载后原文更清晰。

本文（如何快速搭建全 GPU 加速的 AI 应用.pdf）为本站（X-iao）主动上传，三个皮匠报告文库仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对上载内容本身不做任何修改或编辑。若此文所含内容侵犯了您的版权或隐私，请立即通知三个皮匠报告文库（点击联系客服），我们立即给予删除！

温馨提示：如果因为网速或其他原因下载失败请重新下载，重复下载不扣分。

上海品茶

如何快速搭建全 GPU 加速的 AI 应用.pdf

如何快速搭建全 GPU 加速的 AI 应用.pdf