《李建军-基于机器学习的自动化AI编译技术.pdf》由会员分享,可在线阅读,更多相关《李建军-基于机器学习的自动化AI编译技术.pdf(42页珍藏版)》请在三个皮匠报告上搜索。
1、基于机器学习的自动化AI芯片编译技术李建军 地平线演讲嘉宾李建军地平线 编译器研发部负责人2012年博士毕业于中国科学院计算技术研究所,2012年至2016年在计算所任副研究员,主要研究方向为动静态程序分析、编译优化、软件安全等。2016年底加入地平线,负责AI芯片的编译器及Runtime相关的研发工作,并直接参与AI芯片的软硬件协同设计开发。在AI芯片编译优化,基于机器学习的编译优化技术等方面做了大量的研究和实践。在CGO,ICSE,ASE,TACO,TPDS等国际会议和期刊上发表论文10余篇,AI芯片、编译器相关授权专利30余项。目 录CONTENTS1.AI算法和应用的演进2.AI芯片架
2、构3.AI编译优化4.AI时代的软硬件协同设计AI算法和应用的演进PART 01-从ResNet 到 Transformer-从CPU+BPU到复杂异构-Software 1.0-2.0AI芯片上的神经网络算法ResNetAI芯片上的神经网络算法MobileNetAI芯片上的神经网络算法EfficientNetAI芯片上的神经网络算法TransformerAI芯片上的神经网络算法 AI 模型越来越复杂Convolution-Conv/Matmul/Reshape/Layernorm/Transpose/模型越来越大模型结构越来越复杂 细粒度异构计算能力的需求异构计算部件之间的高速数据共享通路灵
3、活的控制、调度并行Transformer模型不只是Tensor计算Vector:ElementwiseSoftmax,LayerNormReshape,Transpose计算访存比GPT大语言模型:一个让人崩溃的计算访存比GPGPU:将大量连续的计算(主要是vector)融合成一个大的kernelNPU:异构计算,利用SRAM等片内高速缓存Reshape/Transpose图优化很难完全消除AI芯片上的应用软件Software 1.0Software 2.0Software 1.0-2.0AI芯片上的应用软件From Tesla AI DayAI芯片上的应用软件 基于规则的代码-数据驱动的神经
4、网络规划控制模型前后处理模型串联 异构计算的需求高效执行整个应用流程模型LTO优化-Task Graph Compiler&RuntimeAI芯片架构PART 02Tensor-Tensor+Vector+Scalar地平线车载智能芯片架构Horizon Journey3(BPU Bernoulli)Instruction set with complete toolchain:Multi-Instruction Multi-data processor Compiler,Linker,Simulator Efficient performanceAchieving much higher F
5、PS than competitors on efficient networks:MobileNet v1/v2,EfficientNet lite Optimized DDR bandwidth High SRAM utilizationCo-optimization from hardware and software Saving 5080%DDR bandwidth relative to a competitor Performance profiler and debug systemBPU Bernoulli 2.0 Core地平线车载智能芯片架构Horizon Journey
6、5(BPU Bayes)High PerformanceAchieving higher FPS than a competitor(Orin-X)on object detectionAbout 1025x performance boost compare with BPU Bernoulli 2.0 on typical modelsNew design for MAC array and memory hierarchyReduce the requirement of DDR bandwidth and increase efficiencyImproved flexibility
7、at hardware levelFlexible element-wise unitData reshape unitDomain Specific Unit,Pooling,Warping,ResizingBPU Bayes 1.0 CoreParallel Compute UnitsUltra-high memory interconnect for parallel data accessx2地平线车载智能芯片架构Horizon Journey5(BPU Bayes)地平线车载智能芯片架构Next Generation-BPU Nash高效加速不同类型数据处理 三级存储架构极致优化大参
8、数下的带宽瓶颈多脉动立方加速引擎灵活的引擎间数据流动高能效、低宽带占用紧耦合异构计算核间高效协同透明式提升多任务并行处理能力虚拟化Virtualization数据变换引擎灵活支持Transformer细小算子浮点向量加速单元通用、灵活关键算子精度需求多向数据流动核内、核间、片间高效灵活的数据流动 动态调度,灵活调优数据驱动功耗优化针对神经网络数据动态范围特性,降低功耗30%地平线车载智能芯片架构Next Generation-BPU NashAI芯片架构的演进Tensor+Vector+Scalar 异构计算架构将绝大部分模型的计算在芯片内完成高速数据共享通路,异构调度协作Tensor Cor
9、eConvolution,Matmul,以及少部分其它OPVector CoreElementwise,各种激活函数,Attention结构等Scalar Core控制逻辑,非Tensor/Vector的OP,用户自定义OP等特定计算部件高频激活函数,影响关键性能的复杂OPNoC:高速互联AI编译优化PART 03规则驱动-数据驱动AI编译优化Tiling通过对特征图和卷积kernel的计算拆分,编译器可以用更小的粒度描述计算,避免引入不必要的依赖,提升数据并行性,创造潜在的调度机会。编译器优化计算自动拆分AI编译优化Scheduler编译器实现的针对张量的软件流水线调度优化,缓解指令间依赖,
10、提升了指令并行度,通过将多个拆分后的动作拼接成无依赖的软件流水线步骤,辅以面向张量计算的指令调度算法,可以充分的利用芯片中的访存和计算单元,并行执行。编译器优化指令自动并行调度LDi_0CONVi_0Sti_0LDi_1CONVi_1Sti_1LDi_2LDi_0CONVi_0Sti_0LDi_1CONVi_1LDi_2Sti_3CONVi_4Sti_1CONVi_2LDi_3Sti_2CONVi_3LDi_4AI编译优化Fusion编译器自动地通过全局分析整个神经网络,配合大算子计算拆分和指令并行优化,进行全局的计算拆分和融合,减少访存操作。编译器优化计算融合On-Chip Computat
11、ionSpill-To DDRAI编译优化Tiling+Fusion+Schedule计算融合模型运行过程中仅3次DDR访问计算拆分通过Tiling将中间数据缓存在片内,省带宽计算并行与指令调度较高的CONV计算阵列利用率ResNet101 with 720P Input Inference TimeLineAI模型编译模型&芯片复杂度-搜索时间变长传统的AI模型编译优化:本质上是一个基于规则的优化搜索问题。DP+启发式搜索的方法基于硬件平台的Cost Model 模型&芯片复杂度-编译时间模型输入变大:Fusion&Tiling&Schedule的选择空间模型结构复杂:数据对齐,调度优化芯片
12、异构复杂度:调度优化的搜索空间 搜索空间剪枝不同的优化级别O2,O3,Ofast在探索空间和编译速度之间均衡Compiling 编译器的进化规则实现-数据驱动(监督学习)-强化学习编译器的进化规则实现-数据驱动(监督学习)-强化学习编译器的进化规则实现-数据驱动(监督学习)-强化学习编译器的进化规则实现-数据驱动(监督学习)-强化学习基于ML的编译优化From Google DeepMind-History Optimization Data-Compiler Optimization Strategy-Hardware Specification基于RL的编译优化编译器的进化问题规模Name
13、搜索空间动作空间AlphaZero(Chess)10120242AlphaZero(围棋)10700361AlphaStar(星际2)AlphaDev(排序)10200300-1000HBDK codegen102000103-105编译器的进化规则实现-数据驱动(监督学习)-强化学习编译速度提升预期模型推理性能提升10 x20%Policy NetworkDynamic ProgrammingHeuristicDynamic ProgrammingPolicy NetworkMonte-Carlo Tree SearchValue NetworkPolicy NetworkDynamic ProgrammingAI时代的软硬件协同PART 04数据驱动的软硬件协同设计基于ML的BPU架构探索基于RL的编译优化NAS:特定芯片上最优的模型结构软硬件协同、数据驱动的AI系统设计感 谢 聆 听