上海品茶

您的当前位置:上海品茶 > 报告分类 > PDF报告下载

人工智能芯片技术白皮书(2018)(48页).pdf

编号:26461 PDF 48页 4.09MB 下载积分:VIP专享
下载报告请您先登录!

人工智能芯片技术白皮书(2018)(48页).pdf

1、人工智能芯片技术白皮书 (2018) White Paper on AI Chip Technologies 01 01 02 03 03 04 05 05 06 06 06 07 08 09 10 11 12 13 15 15 17 18 19 20 20 21 22 目录 北京未来芯片技术高精尖创新中心 1 前言 1.1 背景与意义 1.2 内容与目的 2 AI 芯片的关键特征 2.1 技术总述 2.2 新型计算范式 2.3 训练和推断 2.4 大数据处理能力 2.5 数据精度 2.6 可重构能力 2.7 软件工具 3 AI 芯片发展现状 3.1 云端 AI 计算 3.2 边缘 AI 计算

2、 3.3 云和端的配合 4 AI 芯片的技术挑战 4.1 冯诺伊曼瓶颈 4.2 CMOS 工艺和器件瓶颈 5 AI 芯片架构设计趋势 5.1 云端训练和推断:大存储、高性能、可伸缩 5.2 边缘设备:把效率推向极致 5.3 软件定义芯片 6 AI 芯片中的存储技术 6.1 AI 友好型存储器 6.2 片外存储器 6.3 片上(嵌入型)存储器 6.4 新兴的存储器 7 新兴计算技术 7.1 近内存计算 7.2 存内计算(In-memory Computing) 7.3 基于新型存储器的人工神经网络 7.4 生物神经网络 7.5 对电路设计的影响 8 神经形态芯片 8.1 神经形态芯片的算法模型

3、8.2 神经形态芯片的特性 8.2.1 可缩放、高并行的神经网络互联 8.2.2 众核结构 8.2.3 事件驱动 8.2.4 数据流计算 8.3 机遇与挑战 9 AI 芯片基准测试和发展路线图 10 展望未来 参考文献 索引 23 23 24 24 25 26 27 28 29 29 30 31 31 32 33 35 37 40 编写委员会主席 尤 政 中国工程院院士 清华大学 魏少军 IEEE Fellow 清华大学 编写委员会副主席 吴华强 清华大学 邓 宁 清华大学 编写委员会成员(按姓氏笔划排序) 尹首一 清华大学 王 玲 清华大学 朱 晶 北京半导体行业协会 刘勇攀 清华大学 杨建

4、华 马萨诸塞大学 杨美基 IEEE Fellow 香港应用科技研究院 吴臻志 清华大学 汪 玉 清华大学 张孟凡 IEEE Fellow 台湾新竹清华大学 陈 安 半导体研究联盟 陈怡然 IEEE Fellow 杜克大学 郑光廷 IEEE Fellow 香港科技大学 胡晓波 IEEE Fellow 圣母大学 唐 杉 新思科技 黄汉森 IEEE Fellow 斯坦福大学 凡德斯皮格尔 IEEE Fellow 宾夕法尼亚大学 谢 源 IEEE Fellow 加利福尼亚大学圣巴巴拉分校 人工智能芯片技术白皮书(2018) 北京未来芯片技术高精尖创新中心成立于 2015 年 10 月,是北京 市教委首

5、批认定的“北京高等学校高精尖创新中心”之一。中心充分发 挥清华大学的学科、科研和人才优势,联合校内多个院系资源,组建了 微电子、光电子及柔性集成、微系统、类脑计算、基础前沿、综合应用 六个分中心以及微纳技术支撑平台。中心主任由清华大学副校长尤政院 士担任。中心以服务国家创新驱动发展战略和北京市全国科技创新中心 建设为出发点,致力于打造国家高层次人才梯队、全球开放型微纳技术 支撑平台,聚焦具有颠覆性创新的关键器件、芯片及微系统技术,推动 未来芯片产业实现跨越式发展。 中心介绍 北京未来芯片技术高精尖创新中心1 前言 1 1.1 背景与意义 人工智能 (Artificial Intelligenc

6、e, 英文缩写为 AI), 是研究、 开发用于模拟、 延伸和扩展人类智能的理论、 方法、技术及应用系统的一门科学技术。人工智能的本质是对人类思维过程的模拟。从 1956 年正式提出 “人工智能”概念算起,在半个多世纪的发展历程中,人们一直在这一领域进行长期的科学探索和技术攻坚, 试图了解智能的实质。和任何曾经处于发展过程中的新兴学科一样,人工智能早期发展并非一帆风顺,它 曾受到多方质疑,不断经历起伏。近些年,大数据的积聚、理论算法的革新、计算能力的提升及网络设施 的演进,使得持续积累了半个多世纪的人工智能产业又一次迎来革命性的进步,人工智能的研究和应用进 入全新的发展阶段。 当前, 人工智能正

7、逐渐发展为新一代通用技术, 加快与经济社会各领域渗透融合, 已在医疗、 金融、 安防、 教育、交通、物流等多个领域实现新业态、新模式和新产品的突破式应用,带动生产流程、产品、信息消 费和服务业的智能化、高附加值转型发展。人工智能已处于新科技革命和产业变革的核心前沿,成为推动 经济社会发展的新引擎。 实际上,人工智能产业得以快速发展,无论是算法的实现、海量数据的获取和存储还是计算能力的体 现都离不开目前唯一的物理基础芯片。可以说, “无芯片不 AI” ,能否开发出具有超高运算能力、符合 市场需求的芯片,已成为人工智能领域可持续发展的重要因素。 北京未来芯片技术高精尖创新中心2 尽管全球人工智能产

8、业还处于初 期发展阶段,但随着政府和产业界的 积极推动, 人工智能技术在大规模产业 化应用方面突飞猛进,在算法和芯片 等人工智能基础技术层面积累了强大 的技术创新,这些成果未必能即时商 业化,但对未来科技的影响深远。 为了更好地厘清当前 AI 芯片领域 的发展态势,进一步明确 AI 芯片在新 技术形势下的路线框架、关键环节及 应用前景,北京未来芯片技术高精尖 创新中心根据学术界和工业界的最新 实践,邀请国内外 AI 芯片领域的顶尖 研究力量,共同开展人工智能芯片 技术白皮书的编制工作。 ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?

9、? 图表 1-1 AI 产业结构和技术栈 1.2 内容与目的 本文主要包括九方面内容 : 第 1 章为发展 AI 芯片产业的战略意义以及白皮书基本内容概述。第 2 章综 述了 AI 芯片的技术背景,从多个维度提出了满足不同场景条件下 AI 芯片和硬件平台的关键特征。第 3 章 介绍近几年的 AI 芯片在云侧、边缘和终端设备等不同场景中的发展状况,总结了云侧和边缘设备需要解决 的不同问题,以及云侧和边缘设备如何协作支撑 AI 应用。第 4 章在 CMOS 工艺特征尺寸逐渐逼近极限的 大背景下,结合 AI 芯片面临的架构挑战,分析 AI 芯片的技术趋势。第 5 章讨论了建立在当前 CMOS 技 术

10、集成上的云端和终端 AI 芯片架构创新。第 6 章主要介绍对 AI 芯片至关重要的存储技术,包括传统存储 技术的改进和基于新兴非易失存储(NVM)的存储器解决方案。第 7 章重点讨论在工艺、器件、电路和存 储器方面的前沿研究工作,和以此为基础的存内计算、生物神经网络等新技术趋势。第 8 章介绍神经形态 计算技术和芯片的算法、模型以及关键技术特征,并分析该技术面临的机遇和挑战。第 9 章主要讨论 AI 芯 片的基准测试和技术路线图的相关问题。第 10 章展望 AI 芯片的未来。 在人工智能热潮面前,本文一方面希望与全球学术和工业界分享 AI 芯片领域的创新成果 ; 另一方面希 望通过对 AI 芯

11、片的技术认知和需求的深入洞察,帮助相关人士更加清晰地了解 AI 芯片所处的产业地位、发 展机遇与需求现状,通过对 AI 芯片产业现状及各种技术路线的梳理,增进对未来风险的预判。目前人工智 能技术整体发展仍处于初级阶段,未来还有很多技术和商业层面的挑战。我们要去除在产业发展过程中一窝 蜂“逐热而上”的虚火,在充满信心、怀抱希望的同时,保持冷静和客观,推动 AI 芯片产业可持续发展。 1. 前言 北京未来芯片技术高精尖创新中心3 2 AI 芯片的关键特征 2.1 技术总述 目前,关于 AI 芯片的定义并没有一个严格和公认的标准。比较宽泛的看法是,面向人工智能应用的芯 片都可以称为 AI 芯片。时下

12、,一些基于传统计算架构的芯片和各种软硬件加速方案相结合,在一些 AI 应 用场景下取得了巨大成功。但由于需求的多样性, 很难有任何单一的设计和方法能够很好地适用于各类情况。 因此,学界和业界涌现出多种专门针对人工智能应用的新颖设计和方法,覆盖了从半导体材料、器件、电 路到体系结构的各个层次。 本文探讨的 AI 芯片主要包括三类,一是经过软硬件优化可以高效支持 AI 应用的通用芯片,例如 GPU ; 二是侧重加速机器学习(尤其是神经网络、深度学习)算法的芯片,这也是目前 AI 芯片中最多的形 式 ; 三是受生物脑启发设计的神经形态计算芯片。 AI 技术是多层面的,贯穿了应用、算法机理、芯片、工具

13、链、器件、工艺和材料等技术层级。各个层 级环环紧扣形成 AI 的技术链,如图表 2-1 所示。AI 芯片本身处于整个链条的中部,向上为应用和算法提 供高效支持,向下对器件和电路、工艺和材料提出需求。一方面,应用和算法的快速发展,尤其是深度学习、 卷积神经网络对 AI 芯片提出了 2-3 个数量级的性能优化需求,引发了近年来 AI 片研发的热潮。另一方面, 北京未来芯片技术高精尖创新中心4 视频图像类:人脸识别、目标检测、图像生成、视频分析、视频审核、图像美化、以图搜图、AR 声音语音类:语音识别、语音合成、语音唤醒、声纹识别、乐曲生成、智能音箱、智能导航 文本类:文本分析、语言翻译、人机对话、

14、阅读理解、推荐系统 控制类:自动驾驶、无人机、机器人、工业自动化 神经网络互联结构:多层感知机(MLP) 、卷积神经网络(CNN) 、循环神经网络(RNN) 、长短时记忆(LSTM) 网络、脉冲神经网络(SNN) 深度神经网络系统结构: AlexNet、ResNet、VGGNet、GoogLeNet 神经网络算法:反向传播算法、迁移学习、强化学习、One-shot learning、对抗学习、神经图灵机、脉冲时间依 赖可塑(STDP) 机器学习算法:支持向量机(SVM) 、K 近邻、贝叶斯、决策树、马尔可夫链、Adaboost、WordEmbedding 算法优化芯片: 效能优化,低功耗优化,

15、高速优化,灵活度优化,如深度学习加速器,人脸识别芯片 神经形态芯片:仿生类脑,生物脑启发,脑机制模拟 可编程芯片:考量灵活度,可编程性,算法兼容性,通用软件兼容,如 DSP、GPU、FPGA 芯片系统级结构:多核、众核、SIMD、运算阵列结构、存储器结构、片上网络结构、多片互联结构、内存接口、 通信结构、多级缓存 开发工具链 : 编程框架(Tensorflow,caffe)衔接、编译器、仿真器、优化器(量化、裁剪) 、原子操作(网络)库 高带宽片外存储器:HBM、DRAM、高速 GDDR、LPDDR、STT-MRAM 高速互联:SerDes,光互联通信 仿生器件(人工突触,人工神经元) :忆阻

16、器 新型计算器件:模拟计算,内存计算(in-memory computing) 片上存储器(突触阵列) :分布式 SRAM、ReRAM、PCRAM 等 CMOS 工艺:工艺节点(16, 7, 5 nm) CMOS 多层集成:2.5D IC/SiP、3D-stack 技术、monolithic 3D 等 新型工艺:3D NAND, Flash Tunneling FETs、FeFET、FinFET 应用 算法 芯片 器件 工艺 应用需求驱动理论创新驱动 新型材料、工艺和器件的迅速发展,例如 3D 堆叠内存,工艺演进等也为 AI 芯片提供了显著提升性能和降 低功耗的可行性,这个推动力来源于基础研究

17、的突破。总体而言,这两类动力共同促进了 AI 芯片技术近年 来的快速发展。 2.2 新型计算范式 AI 计算既不脱离传统计算,也具有新的计算特质,包括 : 1. 处理的内容往往是非结构化数据,例如视频、图像及语音等,这类数据很难通过预编程的方法得到 满意的结果。因此,需要通过样本训练、拟合及环境交互等方式,利用大量数据来训练模型,再用训练好 的模型处理数据。 2. 处理的过程通常需要很大的计算量,基本的计算主要是线性代数运算,典型的如张量处理,而控制 流程则相对简单。对于这类运算,大规模并行计算硬件较传统通用处理器更为适合。 3. 处理的过程参数量大,需要巨大的存储容量,高带宽、低延时的访存能

18、力,以及计算单元和存储器 件间丰富且灵活的连接。数据本地化特征较强,适合数据复用和近内存计算。 图表 2-1 AI 芯片相关技术概览 2. AI 芯片的关键特征 北京未来芯片技术高精尖创新中心5 2.3 训练和推断 AI 系统通常涉及训练(Training)和推断(Inference)过程。简单来说,训练过程是指在已有数据中 学习, 获得某些能力的过程; 而推断过程则是指对新的数据, 使用这些能力完成特定任务(比如分类、 识别等) 。 对神经网络而言,训练过程就是通过不断更新网络参数,使推断(或者预测)误差最小化的过程 ; 推断过程 则是直接将数据输入神经网络并评估结果的正向计算过程。虽然训练

19、和推断有很多类似的基本运算,都需要 具有大量的并行处理,高内存带宽和低延迟操作,但是两者在计算和存储资源方面的需求方面存在显著的差 异。 训练 : 首先,对于训练来说,计算精度非常重要,因为它直接影响推断的准确度。支持训练的硬件必 须支持具有较长字长的浮点数或定点数。其次, 训练中通常同时包括正向和反向的计算过程, 需要多次迭代, 计算量要求非常高。这就需要支持训练的芯片不仅要具有强大的单芯片计算能力,还要具备很好的扩展性, 可以通过多芯片系统提供更强大的计算能力。再次,训练过程,特别是离线训练,必须处理大量的数据(高 达 1015到 1018字节) ,因此,它对内存数量、访问内存的带宽和内存

20、管理方法的要求都非常高。第四,由 于训练需要更新(写入)和使用(读取)神经网络中的参数(权重) , 因而需要更复杂的数据同步技术。最后, 重要参数的频繁写入也要求存储器能支持更快速的写入(特别是对于在线训练) ,这对于一些存储器技术来 说是很大的挑战。 推断 : 对推断来说,运算和存储的需求都远远低于训练。但由于推断的应用场景多种多样,部署在从 云到端的各种设备, 如数据中心、 自动驾驶汽车、 智慧家庭和 IoT 设备等, 其需求和约束呈现出多样化的特点。 对于多数应用来说,速度、能效、安全和硬件成本等是最重要的考虑因素,而模型的准确度和数据精度则 可以依具体情况适当降低。 虽然目前大部分机器

21、学习方法都可以比较清晰地划分为训练和推断的过程,但还有一些领域,比如增 强学习(Reinforcement Learning)和在线学习(On-line Learning)则处于持续学习和改进模型的进 程中。因此,在未来的 AI 应用当中,训练(学习)和推断在更多场景下会是交织在一起的。 2.4 大数据处理能力 人工智能的发展高度依赖海量的数据。满足高效能机器学习的数据处理要求是 AI 芯片需要考虑的最重 要因素。一个无法回避的现实是,运算单元与内存之间的性能差距越来越大,内存子系统成为芯片整体处理 能力提高的障碍,也就是通常所说的“内存墙” 。人工智能工作负载多是数据密集型,需要大量的存储和

22、各 层次存储器间的数据搬移,导致 “内存墙”问题更加突出。为了弥补计算单元和存储器之间的差距,学术界 和工业界正在两个方向上进行探索:(1)富内存的处理单元。增加片上存储器的容量并使其更靠近计算单元, 使得数据计算单元和内存之间的数据移动成本(时间和功耗)大大减少。 (2)具备计算能力的新型存储器。 直接在存储器内部(或更近)实现计算。这种方法也被称为存内计算(Process-in-Memory PIM)或近 数据计算(Near Data Computing NDC) 。 2.3 训练和推断 2.4 大数据处理能力 北京未来芯片技术高精尖创新中心6 2.5 数据精度 低精度设计是 AI 芯片的

23、一个趋势,在针对推断的芯片中更加明显。对一些应用来说,降低精度的设计 不仅加速了机器学习算法的推断(也可能是训练) ,甚至可能更符合神经形态计算的特征。近期已经证明, 对于学习算法和神经网络的某些部分,使用尽可能低的精度(例如二进制数据)就足以达到预期效果,同 时可以节省大量内存和降低能量消耗。通过对数据上下文数据精度的分析和对精度的舍入误差敏感性,来 动态地进行精度的设置和调整,将是 AI 芯片设计优化的必要策略。 2.6 可重构能力 人工智能各领域的算法和应用还处在高速发展和快速迭代的阶段,考虑到芯片的研发成本和周期,针 对特定应用、算法或场景的定制化设计很难适应变化。针对特定领域(包括具

24、有类似需求的多种应用)而 不针对特定应用的设计,将是 AI 芯片设计的一个指导原则,具有可重构能力的 AI 芯片可以在更多应用中 大显身手,并且可以通过重新配置,适应新的 AI 算法、架构和任务。 2.7 软件工具 就像传统的 CPU 需要编译工具的支持, AI 芯片也需要软件工具链的支持,才能将不同的机器学习任 务和神经网络转换为可以在 AI 芯片上高效执行的指令代码,如 NVIDIA GPU 通过 CUDA 工具获得成功。 基本处理、内存访问及任务的正确分配和调度将是工具链中需要重点考虑的因素。当工具链将神经网络或 其它模型映射到 AI 芯片上时,也有很多优化代码的机会,比如神经网络剪枝、

25、权重压缩和动态量化等。目 前,AI 算法开发框架如 TensorFlow、Caffe 和 PyTorch 等,在 AI 应用研发中已经起到了至关重要的作 用。对 AI 芯片来说,构建一个集成化的流程,将 AI 模型的开发和训练,硬件无关和硬件相关的代码优化, 自动化指令翻译等功能无缝的结合在一起,将是成功部署的关键要求。 2. AI 芯片的关键特征 北京未来芯片技术高精尖创新中心7 3 AI 芯片发展现状 从 2015 年开始,AI 芯片的相关研发逐渐成为学术界和工业界研发的热点。到目前为止,在云端和终 端已经有很多专门为 AI 应用设计的芯片和硬件系统。同时,针对目标应用是 “训练”还是“推

26、断” ,我们可 以把 AI 芯片的目标领域分成 4 个象限,如图表 3-1 所示。其中,在边缘 / 嵌入设备中以推断应用为主,训 练的需求还不是很明确。有些高性能的边缘设备虽然也会进行训练,但从硬件本身来说,它们更类似于云 端设备。未来的边缘和嵌入设备可能都需要具备一定的学习能力,以支持在线学习功能。其他几个象限都 有自身实现的需求和约束,目前也都有针对性的芯片和硬件系统。 图表 3-1 AI 芯片的目标领域 多种不同的需求和约束 (从 ADAS 到可穿戴设备) 低时耗 能耗效率 低成本 高吞吐率 低时延 可伸缩 可扩展 能耗效率 高性能 高精度 高灵活度 可伸缩 扩展能力 能耗效率 ASIC

27、/FPGAGPU/ASIC/FPGA 推 断 训 练 边缘 / 嵌入式云 / HPC/ 数据中心 北京未来芯片技术高精尖创新中心8 3.1 云端 AI 计算 在云端,通用 GPU,特别是 NVIDIA 系列 GPU 芯片,被广泛应用于深度神经网络训练和推理。与 CPU 相比,拥有数千个计算内核的 GPU 可以实现 10-100 倍的吞吐量。其最新的 Tesla V100 除了 GPU 核之外,还专门针对深度学习设计了张量核(Tensor Cores) ,能够提供 120 TFLOPS(每秒 120 万亿次浮点指令)的处理能力。同时,NVIDIA GPU 还有比较完善的软件开发环境,同时,NVI

28、DIA GPU 还有比较完善的软件开发环境,是目前 AI 训练领域使用最广泛的平台。 面向云端 AI 应用,很多公司开始尝试设计专用芯片以达到更高的效率,其中最著名的例子是 Google TPU,可以支持搜索查询、翻译等应用,也是 AlphaGo 的幕后英雄。由于使用了专用架构,TPU 实现 了比同时期 CPU 和 GPU 更高的效率(如图表 3-2 所示) 。第一代的 TPU 仅能用于推断,面对目前被 NVIDIA GPU 赚得盆满钵满的深度学习训练市场,Google 随后又发布了第二版 TPU(TPU2) ,除了推 断以外,还能高效支持训练环节的加速。Google 最近还通过云服务把 TP

29、U 开放商用,处理能力达到 180 TFLOP,提供 64GB 的高带宽内存(HBM) ,2400GB/s 的存储带宽。 3. AI 芯片发展现状 图表 3-2 Google TPU 性能(Hot Chips 2017) 200X incremental perf/W of Haswell CPU GPU/CPU 2.12.9 16 86 83 196 29 68 41 34 Total Performance/Watt (including host CPU) 200 100 150 50 0 TPU/CPUTPU/GPUTPU/CPUTPU/GPU 70X incremental perf

30、/W of K80 GPU 68 196 Incremental Performance/Watt (no host CPU) 北京未来芯片技术高精尖创新中心9 针对云端的训练和推断市场,从芯片巨头到初创公司都高度重视。英特尔宣布推出 NervanaTM神经网 络处理器 (NNP),该系列架构还可以优化 32GB HBM2、1TB/s 带宽和 8Tb/s 访问速度的神经网络计算。 初创公司,如 Graphcore、Cerebras、Wave Computing、寒武纪及比特大陆等也加入了竞争的行列。 此外,FPGA 在云端的推断也逐渐在应用中占有一席之地。一方面,FPGA 可以支持大规模并行的

31、硬 件设计,和 GPU 相比可以降低推断的延时和功耗。微软的 Brainwave 项目和百度 XPU 都显示,在处理 批量小的情况下,FPGA 具有出色的推断性能。另一方面,FPGA 可以很好地支持不同的数值精度,非常 适合低精度推断的实现。进一步地, FPGA 的可编程能力也使它可以相对更快地支持新的算法和应用。目前, FPGA 的主要厂商如 Xilinx、Intel 都推出了专门针对 AI 应用的 FPGA 硬件(支持更高的存储带宽)和软 件工具 ; 主要的云服务厂商,比如亚马逊、微软及阿里云等推出了专门的云端 FPGA 实例来支持 AI 应用。 一些初创公司,比如深鉴科技等也在开发专门支

32、持 FPGA 的 AI 开发工具。 3.2 边缘 AI 计算 随着人工智能应用生态的爆发,越来越多的 AI 应用开始在端设备上开发和部署。对于某些应用,由 于各种原因(如延迟,带宽和隐私问题) ,必须在边缘节点上执行推断。比如,自动驾驶汽车的推断就不能 交由云端完成,否则如果出现网络延时,则会发生灾难性后果。再比如,大型城市动辄百万的高清摄像头, 其人脸识别如果全交由云端完成,高清录像的数据传输会让通信网络不堪重负。 边缘设备实际上覆盖了一个很大的范围,其应用场景也五花八门。比如自动驾驶汽车可能就需要一个 很强的计算设备,而在可穿戴领域,则要在严格的功耗和成本约束下实现一定的智能 。在未来相当

33、一部分 人工智能应用场景中,边缘设备主要执行推断计算,这就要求边缘处的终端设备本身具备足够的推断计算 能力。而目前边缘处理器芯片的计算能力并不能满足在本地实现深度神经网络推断的需求。因此,业界需 要专门设计的AI芯片, 赋予设备足够的能力去应对越来越多的人工智能应用场景。 除了计算性能的要求之外, 功耗和成本也是在边缘节点工作的 AI 芯片必须面对的重要约束。 智能手机是目前应用最为广泛的边缘计算设备,包括苹果、华为、高通、联发科和三星在内的手机芯 片厂商纷纷推出或者正在研发专门适应 AI 应用的芯片产品。另外,也有很多初创公司加入这个领域,为边 缘计算设备提供芯片和系统方案,比如地平线机器人

34、、寒武纪、深鉴科技、元鼎音讯等。传统的 IP 厂商, 包括 ARM、Synopsys 等公司也都为包括手机、智能摄像头、无人机、工业和服务机器人、智能音箱以及 各种物联网设备等边缘计算设备开发专用 IP 产品。 自动驾驶是未来边缘 AI 计算的最重要应用之一,MobileEye SOC 和 NVIDIA Drive PX 系列提供神 经网络的处理能力可以支持半自动驾驶和完全自动驾驶,处理来自多路视频摄像头、雷达、激光雷达以及 超声传感器的输入,并将这些数据相融合以确定汽车所处的精确位置,判断汽车周围的环境,并为安全行 驶计算最佳路径和操作。 3.2 边缘 AI 计算 北京未来芯片技术高精尖创新

35、中心10 3.3 云和端的配合 总的来说,云侧 AI 处理主要强调精度、处理能力、内存容量和带宽,同时追求低延时和低功耗 ; 边缘 设备中的 AI 处理则主要关注功耗、响应时间、体积、成本和隐私安全等问题。 目前云和边缘设备在各种 AI 应用中往往是配合工作。最普遍的方式是在云端训练神经网络,然后在云 端(由边缘设备采集数据)或者边缘设备进行推断。随着边缘设备能力的不断增强,越来越多的计算工作 负载将在边缘设备上执行,甚至可能会有训练或者学习的功能在边缘设备上执行。另一方面,云的边界也 逐渐向数据的源头推进,未来很可能在传统的终端设备和云端设备直接出现更多的边缘设备,它们会把 AI 处理分布在

36、各种网络设备(比如 5G 的基站)中,让数据尽量实现本地处理。从这个角度看,未来云和边缘 设备以及连接他们的网络可能会构成一个巨大的 AI 处理网络,它们之间的协作训练和推断也是一个有待探 索的方向。 3. AI 芯片发展现状 北京未来芯片技术高精尖创新中心11 4 AI 芯片的技术挑战 当我们讨论一个新的技术趋势时,首先需要清楚它背后的成因。很多大的技术创新都是需求驱动和技 术瓶颈同时存在的情况下产生的。AI 芯片和它背后的各种技术也不例外。首先是巨大需求,一方面体现在 AI 应用的需求,也体现在 AI 特别是深度学习所要求的新的计算范式(这一点在上文已有介绍) 。需求的驱 动要求能够更加高

37、效地处理 AI 运算的硬件,而在目前的技术框架下我们也遇到一些瓶颈问题,特别是冯 诺 伊曼瓶颈和 CMOS 工艺和器件瓶颈。在详细介绍各种 AI 芯片的技术创新和未来的发展趋势之前,本节先 简单介绍讨论一下这两个问题。 北京未来芯片技术高精尖创新中心12 4.1 冯诺伊曼瓶颈 4. AI 芯片的技术挑战 图表 4-1 (a)AI 芯片中的冯诺伊曼“瓶颈”(b) 内存层级结构 如前所述, 提高AI芯片性能和能效的关键之一在于支持高效的数据访问。 如图表4-1所示, 在传统冯 诺 伊曼体系结构中, 数据从处理单元外的存储器提取, 处理完之后在写回存储器。在 AI 芯片实现中, 基于冯 诺 伊曼体系

38、结构,提供运算能力相对是比较简单易行的,但由于运算部件和存储部件存在速度差异,当运算 能力达到一定程度,由于访问存储器的速度无法跟上运算部件消耗数据的速度,再增加运算部件也无法得 到充分利用,即形成所谓的冯诺伊曼“瓶颈” ,或“内存墙”问题,是长期困扰计算机体系结构的难题。 目前常见的方法是利用高速缓存(Cache)等层次化存储技术尽量缓解运算和存储的速度差异。 AI BUS (a) (b) Von Neumann “Bottleneck” Processor Accessing Time NAND HDD SRAM DRAM Storage Class Memory STT-MRAM ReR

39、AM/ STT-MRAM/ PCRAM PCRAM/ReRAM 3D-ReRAM 3D-NAND Storage Gap Working Mem. 10-9s 10-7s 10-5s Memory CAPACITY On-chip NVM 性能指标AlexNet VGG 16 GoogLeNet V1 ResNet 50 Top-5 错误率16.47.46.75.3 卷积层数量5135753 权重值数量2.3M14.7M6.0M23.5M MAC 数量666M15.3G1.43G3.86G 全连接层数量3311 权重值数量58.6M124M1M2M MAC 数量58.6M124M1M2M 总权

40、重值数量61M138M7M25.5M 总 MAC 数量724M15.5G1.43G3.9G 图表 4-2 常见神经网络的基本参数(source:Vivienne17) 北京未来芯片技术高精尖创新中心13 然而,AI 芯片中需要存储和处理的数据量远远大于之前常见的应用。图表 4-2 列出了一些常见的深度 神经网络的主要参数,其中 VGG16 网络需要 138M 个权重参数,一次推断过程需要 15.5G 次乘累加运算。 这都使得冯诺伊曼“瓶颈”问题在 AI 应用中愈发严重。可以不夸张地说,大部分针对 AI,特别是加速神 经网络处理而提出的硬件架构创新都是在和这个问题做斗争。概括来说,在架构层面解决

41、这一问题的基本 思路有二 : 1)减少访问存储器的数量,比如减少神经网络的存储需求(参数数量,数据精度,中间结果) 、 数据压缩和以运算换存储等 ; 2)降低访问存储器的代价,尽量拉近存储设备和运算单元的“距离” ,甚至 直接在存储设备中进行运算。 4.2 CMOS 工艺和器件瓶颈 现今的计算机可以达到每秒千万亿次 (1015 FLOPS) 的处理速度。这些系统在先进科技的研究 (生物学, 气候分析,基因组学,脑基因组学,材料开发等)中扮演着重要角色。在许多方面,计算能力驱动着现代 社会的发展。人工智能,特别是机器学习的发展将需要更加强有力的,超过每秒百亿次 (1018) 运算能力的 计算系统

42、。 当前,构建这些系统的基础是 CMOS 技术的芯片,而 CMOS 工艺能够不断提高系统性能主要得益于 集成尺寸的缩小。过去 30 年,摩尔定律很好地预测了这种计算进步。2018 年,10 纳米工艺的芯片已经大 规模量产,7 纳米开始量产,5 纳米节点的技术定义已经完成。然而,由于基础物理原理限制和经济的原因, 持续提高集成密度将变得越来越困难 Theis16。目前,CMOS 器件的横向尺寸接近几纳米,层厚度只有 几个原子层,这会导致显著的电流泄漏,降低工艺尺寸缩小的效果。此外,这些纳米级晶体管的能量消耗 非常高,很难实现密集封装。 4.2 CMOS 工艺和器件瓶颈 图表 4-4 逻辑器件的最

43、小翻转能耗趋势(Source: Theis16) 1E-03 1988 extrapolation Rapid v reduction Slower v reduction Clock freq. plateaus Switching energy(J) 1E-05 1E-07 1E-09 1E-11 1E-13 1E-15 1E-17 1E-19 1E-21 0 Year 200020202040 Landauer 1988 kT (300) IBM Intel ITRS 北京未来芯片技术高精尖创新中心14 另外,物联网(IoT) 、社交媒体和安全设备产生了大量的数据,

44、存储、交换和处理这些数据都需要大 量的存储器。目前 DRAM 技术已经接近极限,DRAM 性能和存储器容量的进步主要通过封装技术来实现, 即堆叠多个 DRAM 芯片并通过硅通孔(TSV)将其连接到存储器控制器芯片上。增加数据带宽则是通过 更宽的数据总线来实现的。非易失存储技术的主力是 NAND 闪存,最先进的 3D NAND 具有多达 64 层和 256 Gb 的容量,预计于 2018 年进入市场。由于 DRAM 和 NAND 闪存都是独立于计算核心的,和计算 核心进行数据交换的代价(包括时间和能耗)非常大,而目前能够和计算核心紧耦合的片上存储器的唯一 方案是 SRAM,其容量为兆级。即使采用

45、最小的 SRAM 单元填充 1 平方厘米芯片面积的一半,也只有约 128 兆的片上存储容量。因此,我们有充足的理由开发提供大量存储空间的片上存储器技术,并探索利用 片上存储器去构建未来的智能芯片架构 Aly15。 在计算架构和器件层面,我们也需要一种新的方法。大脑可以看作一个可以处理大量(通常是模糊 的)信息,且具有超高密度、错误恢复能力和高能效的计算模型。神经元和大脑突触的能量消耗比最先进 的 CMOS 器件还低几个数量级。另外,大脑可以处理模式识别和特征提取的问题,这对传统架构来说非 常困难, 甚至不可能实时实现。理想情况下, 我们需要具有生物系统优点而规避速度慢等缺点的器件和材料。 近年

46、来,可以存储模拟数值的非易失性存储器发展迅猛,它可以同时具有存储和处理数据能力,可以破解 传统计算体系结构的一些基本限制,有望实现类脑突触功能。 4. AI 芯片的技术挑战 北京未来芯片技术高精尖创新中心15 5 AI 芯片架构设计趋势 5.1 云端训练和推断:大存储、高性能、可伸缩 之前我们分析了云端训练和推断的基本需求,虽然训练和推断在数据精度、架构灵活和实时性要求上 有一定的差别,但它们在处理能力(吞吐率) 、可伸缩可扩展能力以及功耗效率上具有类似的需求。因此, 针对云端的训练和推断而开发的专用芯片和技术创新,基本都是围绕这几个需求。 NVIDIA 的 V100 GPU 和 Google

47、 包括四颗芯片的 Cloud TPU Google,是目前云端商用 AI 芯片 的标杆。在深度学习计算的处理能力方面,V100 达到 120TFLOPS, Cloud TPU 则达到 180TFLOPS。 值得一提的是,这种处理能力都是由专门针对深度学习需求而设计的运算单元提供。在存储和访存能力上, V100 有 16 GB HBM2 存储器,支持 900 GB/s 的带宽; 而 Cloud TPU 单颗芯片有 16GB HBM 存储器, 支持 600GB/s 的带宽。另外,它们共同的特点是支持多芯片的扩展能力,V100 支持 NVIDIA 的 NvLink 互连方式,可以扩展到 8 芯片的系

48、统 ; 而 Cloud TPU 也支持高速的芯片间互连接口和板级互连接口,非 常适合在云端和数据中心部署。图表 5-1 是 Cloud TPU 的机柜,包括 64 个 TPU2,能够为机器学习的训 练任务提供 11.5 PFLOPS 的处理能力和 4 TB 的 HBM 存储器。同时,这些运算资源还可以灵活地分配和 伸缩,能够有效支持不同的应用需求。 北京未来芯片技术高精尖创新中心16 从 NVIDIA 和 Goolge 的设计实践我们可以看出云端 AI 芯片在架构层面, 技术发展的几个特点和趋势: 1. 存储的需求(容量和访问速度)越来越高。一方面,由于处理大量数据的要求,需要更大容量的存 储

49、器。另一方面,限制运算能力提高的主要因素是访问存储器的速度,因此,未来云端 AI 芯片会有越来越 多的片上存储器(比如 Graphcore 公司就在芯片上实现的 300MB 的 SRAM)和能够提供高带宽的片外 存储器(HBM2 和其它新型封装形式) 。 2. 处理能力推向每秒千万亿次(PetaFLOPS) ,并支持灵活伸缩和部署。对云端 AI 芯片来说,单芯 片的处理能力可能会达到 PetaFLOPS 的水平。实现这一目标除了要依靠 CMOS 工艺的进步,也需要靠 架构的创新。比如在 Google 第一代 TPU 中,使用了脉动阵列(Systolic Array)架构,而在 NVIDIA 的 V100GPU 中,专门增加了张量核来处理矩阵运算。为了将 GPU 扩展为更大的系统,NVIDIA 专门开发了 的 NVSwitch 交换芯片,可以为多个 GPU 提供高带宽互连。在最新发布的 DGX-2 系统中,16 颗 V100 GP

友情提示

1、下载报告失败解决办法
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。

本文(人工智能芯片技术白皮书(2018)(48页).pdf)为本站 (菜菜呀) 主动上传,三个皮匠报告文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三个皮匠报告文库(点击联系客服),我们立即给予删除!

温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。
会员购买
客服

专属顾问

商务合作

机构入驻、侵权投诉、商务合作

服务号

三个皮匠报告官方公众号

回到顶部