《矩向科技:新一代计算架构:超异构计算(2022)(38页).pdf》由会员分享,可在线阅读,更多相关《矩向科技:新一代计算架构:超异构计算(2022)(38页).pdf(38页珍藏版)》请在三个皮匠报告上搜索。
1、超 异 构 计 算新一代计算架构黄 朝 波目录1.微观计算和宏观算力2.计算架构的发展现状和面临的挑战3.计算从异构走向超异构4.Intel、NVIDIA以及高通的超异构布局5.为什么是现在?1.1冯 诺 依 曼 架 构一切系统的运行,可以归一到计算:系统由输入、计算、输出三部分组成。冯诺依曼架构是计算机系统经典模型,由控制器、运算器、存储器、输入设备和输出设备五部分组成。所有各类处理引擎,都依然遵循冯诺依曼架构的指导思想;所谓打破冯诺依曼架构,是无的放矢。输入设备输出设备内存中央处理单元控制器运算器冯诺依曼架构数据暂存控制单元计算/数据单元处理引擎模型输入输出1.2 摩尔定律 基于CPU的摩
2、尔定律已经失效:2015年后,CPU性能提升,每年只有不到3%,要想性能翻倍,需要20年。2021年12月,Intel SVP Raja Koduri表示:要想实现雪崩和头号玩家中天马行空的体验,需将现在的算力至少再提升1000倍。业务需求驱动:层出不穷的新应用,以及蓬勃发展的已有应用,都需要不断增强的算力来支撑。摩尔定律是行业KPI:一个公司或产品,如果能达到或超过摩尔定律,就能够生存;如果达不到,就只能走向消亡。对计算性能的追求,永无止境!元宇宙,也不例外!摩尔定律一直有效,驱赶着行业持续前进!摩尔定律:每18个月,CPU性能就会增加一倍。1.3软 件 和 硬 件 指令是软件和硬件的媒介,
3、指令的复杂度(单位计算密度)决定了系统的软硬件解耦程度。按照指令的复杂度,典型的处理器平台大致分为CPU、协处理器、GPU、FPGA、DSA、ASIC。从左往右,单位计算越来越复杂,性能越来越好,而灵活性越来越低。任务在CPU运行,则定义为软件运行;任务在协处理器、GPU、FPGA、DSA或ASIC运行,则定义为硬件加速运行。CPUGPUFPGACo-ProcessorASICDSA更高的灵活性更低的性能更低的灵活性更高的性能软件硬件100%软件100%硬件1.4性 能 和 算 力1.指令复杂度:单位指令中计算的密度。想提升性能,就需要把任务的运行平台从CPU切换到其他加速引擎。但这样,会损失
4、通用灵活性。2.运行频率:电路在1秒钟的时钟周期变化数量,跟电路的关键路径和工艺相关。想提升频率,需要优化电路设计,并选择更先进的工艺。3.并行度:多个并行的处理。需要更高的集成度,并行更多的处理引擎。4.输入/输出:不成为性能瓶颈,提高I/O与计算的匹配程度。5.处理器数量:实现处理器的更大规模落地。均衡性能和灵活性,实现总算力最大。6.利用率:优化宏观算力利用率。通过云/边缘计算、超云、云网边端融合等手段,优化算力利用率,降低算力成本。“性能”和“算力”两个概念是一致的,区别在于“性能”是微观的概念,而“算力”是宏观的概念。公式公式1 1:(单处理器)性能=指令复杂度(单位计算密度)x 频
5、率 x 并行度公式2:实际总算力=总算力 x 利用率=指令复杂度(单位计算密度)x 频率 x 并行度 x 处理器数量 x 利用率1.5万 物 互 联互联网由终端、云端及边缘端组成。边缘端是代理层,代理云端为终端提供服务。终端是现实世界(包括我们人类)的接入层:终端是互联网大系统的I/O,负责现实世界和虚拟世界的交互。1.6计 算 节 点1.7汽车芯片:从小系统到复杂大系统从 分 布 到 集 中ECU阶段:分布式的小系统。数量众多(100+个,高端汽车甚至超过300个)的MCU小系统组成,每个ECU无OS或RTOS。DCU阶段:把相近的功能整合,形成功能域,采用域控制器DCU,一辆汽车大约需要1
6、0颗左右DCU芯片。DCU通常支持Linux等智慧型OS,是典型的SOC系统。集中式超级终端阶段:完全高度集成的芯片,一辆汽车2颗左右芯片。更高性能、更高集成度。不仅仅需要支持智慧型OS,还需要支持虚拟化和微服务,需要通过虚拟化进行功能域划分和隔离,传统SOC架构无法满足需求。2.1计算从串行走向并行所有系统的活动,可以归一到计算。系统由输入、计算、输出三部分组成。计算从串行走向并行,处理器从单核走向多核。2.2再 从 同 构 并 行 到 异 构 并 行云计算异构加速主要用于业务应用,权衡1:既要保证加速的性能,还要考虑加速的弹性。权衡2:独立或集成。CPUsCPUsCPUsCPUCPUsCP
7、UsCPUsCPUCPUsCPUsCPUsGPU/FPGA/DSA同构并行异构并行GPGPU+CUDA,GPU异构加速本质是众多并行的高效能通用处理器,CUDA编程友好性。01 基于GPU的异构并行硬件弹性,加速框架Shell/引擎Kernel,运行时RT,开发Stack等;FaaS、ISV等方式。02 基于FPGA的异构并行DSA是从ASIC回调,相比ASIC具有一定通用性,可以覆盖较多的场景。如谷歌TPU。03 基于DSA的异构并行2.3 异构并行案例:HPC-天河1A 2010年,国防科大研发的巨型机TH-1A,峰值性能4700万亿次,2010年11月全球超算500强排行榜第一名。TH-
8、1A计算节点7168个,每个节点2个Intel CPU(Xeon X5670 2.93 GHz,六核)和1个NVIDIAGPU(Tesla M2050 1.15 GHz,14核/448 CUDA核)组成。单节点655.64 GFlops的峰值计算性能。CPU的职责是运行操作系统、管理系统资源以及执行通用计算;GPU的主要职责是执行大规模并行计算。通过两者协作,计算节点可以有效加速许多典型的并行应用程序。天河率先采用CPU+GPU的异构计算架构,第一次从工程上证明GPU可以被用于超算。这种架构能耗低、成本低、集成度高,很快国际上就掀起了一股异构超级计算机的热潮。2.4 异构并行案例:GPU服务器
9、CPU+GPU的异构计算服务器通常用于机器学习训练/推理、高性能计算等场景。优势:GPU 并行计算性能效率比CPU高,并且场景覆盖较多,CUDA生态成熟。AI的兴起,让GPU成为最佳的平台。也推高NVIDIA股价,成为全球市值最高的IC公司。劣势:性能效率比ASIC/DSA仍有很大差距;对一些轻量级异构加速场景,独立GPU显得太重。2.5异构并行案例:谷歌TPU 全球第一个DSA架构处理器。TPUv1是独立加速卡形态;从TPUv2开始,集成CPU成为单芯片。TPU和CPU(Haswell)、GPU(K80)的性能对比:TPUv1相比CPU性能提升196倍,相比GPU性能提升68倍。TPUv2性
10、能是TPUv1的大约2倍,TPUv3性能是TPUv2的大约2.3倍。TPU落地不算成功,主要矛盾:底层硬件平台和上层AI应用算法的通用灵活性不匹配。谷歌目前的AI计算平台在重新转向NVIDIA GPU。2.6异 构 计 算 存 在 的 问 题复杂计算的挑战:系统越复杂,需要选择越灵活的处理器;性能挑战越大,需要选择越偏向定制的加速处理器。本质矛盾是:单一处理器无法兼顾性能和灵活性;即使我们拼尽全力平衡,也只“治标不治本”。CPU+xPU异构计算中的xPU,决定了整个系统的性能/灵活性特征:GPU灵活性较好,但性能效率不够极致;DSA性能好,但灵活性差,难以适应复杂计算场景对灵活性的要求。案例:
11、AI落地困难。FPGA功耗和成本高,需要一些定制开发,落地案例不多。ASIC功能完全固定,难以适应灵活多变的复杂计算场景。计算孤岛问题:加速计算面向某个领域或场景,领域之间的交互困难。服务器物理空间有限,无法多个物理加速卡,需要把这些加速方案整合;整合,不是简单的拼凑,而是要架构重构。CPUXPUXPUXPUXPUDPUCPUXPUXPUXPUGPUCPUGPUXPUGPUCPUCPUXPUXPU2.7 CPU、GPU、DPU及AI等算力芯片的共同挑战复杂计算场景,对灵活性的要求,高于对性能的要求。如果不是摩尔定律失效,数据中心依然会是CPU的天下。1.算力需求数量级提升:AI是算力吞金兽,自
12、动驾驶需要算力提升10-100倍,元宇宙需要算力提升1000-10000倍。2.性能和灵活性的矛盾:CPU灵活但性能不够,ASIC性能极致但灵活性不够。3.不同用户的业务差异以及用户的业务迭代:目前主要做法是针对场景定制芯片,但定制芯片场景碎片化。4.宏观算力要求芯片能够支撑大规模部署:但各类性能提升的方案可编程性很低,难以大规模部署。5.芯片的一次性成本过高:需要芯片的大规模落地,需要芯片足够“通用”。6.生态建设的门槛:大芯片需要框架和生态,门槛高且需要长期积累,小公司难以长期大量投入。7.计算平台的融合:云网边端融合,如何构建统一的硬件平台和系统堆栈。8.(用户视角)宏观跨平台的挑战:超
13、大规模的软件跨硬件迁移,需要不同厂家硬件的开放标准化。2.8云 网 边 端 融 合 的 挑 战云网边端,算力需求不断提高,系统复杂度不断提高,对硬件的灵活可编程性要求也越来越高。微服务可自适应的在云、网、边、端运行,需要云数据中心内部,以及跨云边端的硬件平台一致性。需要芯片、系统、框架和库、以及上层应用的多方协同。终端设备(超异构SOC)边缘服务器(超异构SOC)云端服务器(CPU+GPU+DPU或超异构SOC)软件硬件硬件抽象层硬件抽象层硬件抽象层可编程+高性能(超异构交换芯片)网络节点计算节点软硬件OS+虚拟化微服务OS+虚拟化OS/+虚拟化客户端及其他软件微服务微服务微服务微服务微服务微
14、服务微服务微服务微服务OS+虚拟化微服务OS+虚拟化微服务3.1两 个 基 础 特 征 使 得 超 异 构 成 为 可 能基础特征一:复杂系统,是由分层分块的各个组件组成。这些组件通常称为工作任务(Workload)。基础特征二:“二八定律”。超大规模的云和边缘计算,使得系统中的工作任务开始沉淀:相对确定的任务沉淀到基础设施层,相对弹性的沉淀到弹性加速部分,其他继续放在CPU,CPU负责兜底。应用层不可加速部分(适合CPU、Co-processor)应用层可加速部分(适合GPU、FPGA)基础设施层(适合DSA、ASIC)3.2从异构并行到超异构并行超异构并行3+个类型引擎第一阶段第二阶段第三
15、阶段第四阶段性能串行单个引擎同构并行单类型引擎异构并行两个类型引擎单核CPU/ASIC多核CPU/GPUCPU+GPU/FPGA/DSA/etc.1101001000CPU+GPU+FPGA+DSA+etc.3.3 DPU/IPU,超异构计算的起点DPU/IPU是计算架构从异构向超异构演进的重要标志,可以认为DPU/IPU是超异构计算的起点。传统观点:DPU/IPU是CPU的任务卸载;新观点:DPU/IPU是超异构,独立CPU、GPU是嵌入式CPU、GPU的扩展。CPUGPUDPUCPUGPU网络CPUGPUFPGADSAASICHPU(DPU)重量场景:独立三芯片网络CPUGPUFPGADS
16、AASICHPU轻量场景:集成单芯片服务器或其他大算力场景的三大处理器网络3.4超 异 构 计 算 架 构不是简单集成,而是把更多的异构计算整合重构,各类型处理器间充分的、灵活的数据交互,形成超异构计算。CPUsCPUsCPUsCPUCPUsCPUsCPUsGPUCPUsCPUsCPUsDSACPUsCPUsCPUsOther ProcessorsCPUsCPUsCPUsASICCPUsCPUsCPUsFPGACPUsCPUsCPUsCPUCPUsCPUsCPUsCPUCPUsCPUsCPUsGPUCPUsCPUsCPUsCPUCPUsCPUsCPUsFPGACPUsCPUsCPUsCPUCP
17、UsCPUsCPUsDSACPUsCPUsCPUsCPUCPUsCPUsCPUsOthers4.1I n t e l:提 出 超 异 构 计 算 概 念4.2Intel:XPU和oneAPI XPU不是一个新的处理器或产品,而是一个架构组合,包括CPU、GPU、FPGA 和其他加速器。oneAPI是Intel构建的一套开源的跨平台编程框架,底层可以运行CPU、GPU、FPGA或其他DSA加速器,通过OneAPI为应用提供一致性的编程接口,使得应用能够轻松实现跨平台复用。4.3 Intel:IPU和基于IPU的数据中心网络架构Intel IPU关键特征:16核ARM N1,P4可编程网络包处理D
18、SA,RDMA/RoCEv2。4.4 Intel:IPDK和OPIIPDK是一个社区驱动的、目标无关的用于基础设施层的编程框架,可以运行在CPU、IPU、DPU或交换机。2022年6月21日,Linux基金会宣布了开放可编程基础设施(OPI)项目。OPI的目标:为基于 DPU/IPU 类技术的下一代架构和框架培育一个社区驱动的基于标准的开放生态系统。不谋全局者,不足谋一域;不谋万世者,不足谋一时。不谋全局者,不足谋一域;不谋万世者,不足谋一时。4.5I n t e l:完 全 可 编 程 的 网 络Intel观点:从云数据中心、核心网、接入网、边缘计算甚至终端设备,都会演化成完全“软件定义的可
19、编程网络”。在此基础上扩展,对数量更多的计算节点来说,对用户来说:完全可编程的计算(网络、存储等处理都可以归一到计算)才是更本质的,数据中心逐渐进入完全可编程时代。4.6 Intel MobilEye自动驾驶通过多样化的加速器的独特架构提高效率,EyeQ 在低功耗范围内实现了最先进的计算机视觉性能。异构计算:每个任务使用最合适的引擎;可扩展架构:多种加速器协同完成不同EyeQ模型的需求。4.6 Intel MobilEye自动驾驶4.7I n t e l 超 异 构 分 析编号架构/特征用途分析1CPU应用不可加速部分,以及其他没有实现加速引擎的任务,兜底。CPU是Intel的优势领域,CPU
20、生态最强大。2GPU应用层可加速部分,以及其他相对变化较大任务的加速。Intel Xe GPU:软件第一、并行第二,适应全新的工作负载。没有历史包袱,OneAPI跨平台优势。Intel FPGA是全球第二大FPGA平台,相关生态成熟。3FPGA4DSA类适合基础设施层任务。Intel IPU(处理器)+IPDK(框架)+OPI(开源生态联盟)。5ASIC类6跨平台任务可运行在云端、边缘甚至终端,运行在不同厂家的硬件平台的不同类型处理引擎。XPU战略和OneAPI框架。7超异构CPU、GPU、DPU、AI芯片等,融合+重构到超异构计算架构。待整合,Intel大棋的最终目标。8可编程完全通用的计算
21、平台从完全可编程网络,扩展到完全可编程的超异构计算。4.8 NVIDIA数据中心布局NVIDIA GPU从Ampere到Hopper,CPU为基于ARM Neoverse架构的Grace芯片,DPU代号为Bluefield。NVIDIA计划从Bluefield第四代开始,把DPU和GPU两者集成一个单芯片。Chiplet技术已经成熟,如果再把CPU集成进来,即可以构成CPU+GPU+DPU的超异构芯片。4.9 NVIDIA自动驾驶Atlan从燃油汽车到电动+自动驾驶汽车,从分布式系统到集中式超级计算机。NVIDIA下一代自动驾驶Atlan芯片由数据中心架构的CPU+GPU+DPU三部分组成的算
22、力强劲的超异构计算芯片。4.10 NVIDIA观点:未来一切处理器都是DPU计算和网络在不断融合:计算的很多挑战,需要网络的协同;网络设备也加入到计算集群中,成为计算的一部分。数据在网络中流动,计算节点依靠数据的流动来驱动计算,所有系统的本质是数据处理,那么所有的设备就都是DPU。以DPU为基础,不断的融合CPU和GPU的功能,DPU会逐渐演化成数据中心统一的超异构处理器。大型计算设备(CPU、GPU、DPU独立芯片)CPUGPUDPU(网络接入设备)DPU(网络核心设备)小型计算设备(单芯片SOC,CPU、GPU、DPU整合重构)CPUGPUDPU(网络接入)4.11 高通骁龙Ride Pl
23、atformL4/L5级别的自动驾驶芯片,ADAS 60 AP SOC x2+AD 300 ACC,总计700+TOPS。4.12 高通骁龙ADAS SOC和自动驾驶加速器5nm ADAS SOC芯片。自动驾驶加速器芯片:300+TOPS,高效率高性能的传感器感知、融合和规划;跨ADAS SOC和AD加速器的通用软件和工具链。5.1新 应 用 层 出 不 穷软件新应用层出不穷,两年一个新热点;并且,已有的热点技术仍在快速演进。01 01 云计算云计算云计算成为整个IT的新基础设施02 02 大数据大数据大数据对数据的传输、处理、分析和存储都提出了更高的要求03 03 人工智能人工智能AI是核心
24、,训练需要大数据,数据价值挖掘需要AI,AI促使云计算更多场景,AI使得自动驾驶成为可能04 04 5 5G G通信通信5G包含三种模式:高带宽/低延迟/海量连接;5G是催化剂,催生了更多的应用和数据05 05 自动驾驶自动驾驶自动驾驶对服务的实时性和可靠性提出了更加苛刻的要求元宇宙可能是继互联网和移动互联网之后的下一个互联网形态,即Web3.0。即使没有元宇宙,也会有其他场景。硬件的性能,永远无法满足软件的需要。对算力的追求,永无止境!要想实现元宇宙级别的体验,需将算力提升1000+倍。例如:要达到沉浸感所需的16K效果,需要280.7Gbps的数据带宽。如此大量数据的输入/输出、传输、处理
25、、分析、存储等,都对计算和网络基础设施提出了非常高的要求。5.2算 力 需 求 永 无 止 境5.3工 艺 和 封 装 进 步Chiplet标准UCIe公布,使得:在单芯片层次,可以构建规模数量级提升的超大系统。从宏观视角看,80%计算在DSA,整个系统接近于DSA/ASIC的极致性能;用户应用占计算的20%,依然运行在CPU。超异构,可以实现极致灵活性的同时,实现极致的性能。CPUGPUFPGADSAOther ProcessorsASIC5.4软 硬 件 融 合 驾 驭 超 异 构超异构难以驾驭:异构编程很难,超异构编程更是难上加难。如何提高灵活性、易用性?该如何更好的驾驭超异构?从以下几个方面入手:性能和灵活性。系统任务从CPU往硬件下沉,如何选择最合适的处理引擎,达到性能和灵活性平衡。单引擎要平衡,多引擎协同则要兼顾。编程及易用性。系统逐渐从硬件定义软件,转向了软件定义硬件。如何利用这些特征,实现“软件定义一切,硬件加速一切”。产品。用户需求,除了需求本身,还要考虑不同用户需求的差异性,和单个用户需求的迭代。软硬件融合,为解决上述问题,提供了成体系化的理念、方法、技术和解决方案,为轻松驾驭超异构提供了切实可行的路径。硬件(CPU、GPU、FPGA、DSA、etc.)硬件软件L1L2L3L4软件(CPU)L2L3L4L2L3L4L1