上海品茶

您的当前位置:上海品茶 > 报告分类 > PDF报告下载

【研报】电子行业深度报告:CPU研究框架-210106(107页).pdf

编号:27604 PDF 107页 5.07MB 下载积分:VIP专享
下载报告请您先登录!

【研报】电子行业深度报告:CPU研究框架-210106(107页).pdf

1、证券研究报告 电子行业 2021年1月6日 CPU研究框架 行业深度报告 目录 一、CPU投资逻辑框架 CPU产业链:先进制程数字芯片产业链 我们如何看待国产CPU未来格局 当前国产CPU发展的三大路线 从指令集架构看CPU市场格局 二、详解CPU:IC产业中的“珠穆朗玛峰” 三、知己知彼:CPU的全球格局与行业龙头 四、国产CPU自主之路:详解六大国产CPU 从指令集架构看CPU市场格局 RISC CISC Alpha X86 RISC-V Power PC MIPS ARM 嵌入式、桌 面、服务器 服务器、桌面 服务器 IOT、手机 服务器、桌面 嵌入式、服 务器、桌面 90% RISC

2、90% CISC CPU按指令集架构分类国外企业国内企业应用领域 国产CPU产业链先进制程数字芯片产业链 CPU是数字芯片,基于制程越小,性能越好的规律,CPU产业链是先进制程数字芯片产业链。 当前国产CPU产业链进口替代:设计环节,华为鲲鹏,飞腾等龙头已经跻身世界一流水平,封测环节,通 富承接AMD7nmCPU封测,14nm及以下结点的先进制程,设备、材料、EDA/IP、制造等环节与国外领先 龙头差距较大,目前仍采用“外循环为主+内循环为辅”的模式。 北方 华创 华海 清科 华峰 测控 屹唐 盛美中微 万业 企业 至纯 科技 精测 电子 设备材料EDA/IP 沪硅 产业 江丰 电子 神工 股

3、份 安集 鼎龙 金宏 气体 雅克 科技 寒 武纪 芯原 股份 芯 华章 芯动 科技 制造封测 中芯 国际 长电 科技 通富 微电 设计 华为 飞腾 兆芯 申威 龙芯 海光 华天 科技 CPU产业链的巨头大多集中在海外,它们位居产业链各个环节核心,对全球CPU行业起着决定性的作用。 设计环节:英特尔和AMD几乎垄断通用型CPU的市场;设备、材料、EDA/IP等环节国内龙头与国外龙头差 距较大,国产化率较低;制造环节:目前只有台积电和三星有5nm制程生产能力,但均需使用美国设备; 封测环节:目前中国台湾、中国大陆、美国三分天下。 海外CPU产业链先进制程数字芯片产业链 设备材料EDA/IP 信越

4、化学 SUM CO 卡 博特 陶氏 住友 化学 新思 科技 铿腾 电子 明导 国际 ARM 制造封测 台 积电 日 月光 安靠 设计 英特尔 AMD 苹果 三星 IBM 高通 联发科 英 特尔 三星 格罗 方德 矽品 精密 英特尔 三星 应用 材料 阿 斯麦 东京 电子 LAM 科天 爱德万 泰瑞达 国产CPU发展的三大路线 IP内核授权 指令集架构授权 授权+自主研制指令集 指令集授权方式 技术路线核心代表厂商自主化程度 自主化程度:极高,申威 已基本实现完全自主可控 缺点:生态构建极其困难 自主化程度:较高,安全 基础相对牢靠、拥有自主 发展权 缺点:生态构建较为困难 自主化程度:低,未来

5、扩 充指令集难度较大,但生 态迁移成本小、性能高 缺点:安全基础不牢靠 基于指令系统进 行SOC集成设计 X86内核授权 基于指令集架构 授权自主设计 CPU核心 ARM指令集授权 自主研制指令集 MIPS架构+自研 Alpha架构+自研 我们如何看待国产CPU未来格局 除了先进制程某些环节缺失以外,国产CPU还存在一个严重的短板,即来自于国内CPU生态建设的落后。 生态对于CPU产业影响极大。上世纪90年代,以复杂指令集为代表的英特尔凭借着与微软的Wintel体系,在通 用CPU领域占据了绝大多数份额,至今仍牢不可破。精简指令集则被逐渐挤压到嵌入式市场,后来智能手机兴 起后才获得新生:ARM

6、通过构筑与Android的生态合作(AA体系),占据了全球95%的移动芯片授权市场。 对于X86内核授权的厂商:生态最为完善,但发展存在安全可控和技术授权两大壁垒,海光自去年被美国政府 列入实体清单后,AMD表示最新的架构不再进行授权,兆芯使用威盛电子的x86早期授权,性能相对落后。 对于Arm指令集授权厂商:生态体系与安全可控最为平衡,且通过架构授权把握主动权,随着Arm生态愈发繁 荣,若不考虑美国实体清单的负面影响,前景最为光明。 对于自研架构厂商:完全自主可控的引领者,厚积而薄发,其最大的瓶颈在于生态壁垒。 总结:目前国产CPU主要需求来自服务器、政企、工业等市场,鲜少出现在消费级市场。

7、我们认为基于安全的 自主可控是推动国产CPU成长的主要力量,且基于架构的差异性带来的应用不同,我们认为指令集架构不会直 接消亡,不同架构都会衍生出行业龙头,考虑通用CPU等格局极为稳固,可关注物联网以及汽车等新兴领域。 芯 片 及 网 络 应 用 软 件 终 端 企 业 中 间 件 及 数 据 库 目录 一、CPU投资逻辑框架 CPU的指令集与微架构 CPU的需求侧与供给侧分析 CPU发展历程与未来趋势剖析 CPU的定义及内部结构 二、详解CPU:IC产业中的“珠穆朗玛峰” 三、知己知彼:CPU的全球格局与行业龙头 四、国产CPU自主之路:详解六大国产CPU 中央处理器(Central Pro

8、cessing Unit)作为计算机系统的运算和控制核心,是信息处理、程序运行的最 终执行单元。CPU核心主要是由大量的运算器、控制器、寄存器组成。 运算器负责算术运算和逻辑运算。控制器负责应对所有的信息情况,调度运算器把计算做好。寄存器既要 承接控制器的命令,传达命令给运算器;还要帮运算器记录已处理或者将要处理的数据。 几乎所有的CPU的运作可以简要概括为“取”,“解码”和“执行”三大步骤,此三个步骤统称为指令周期 。通常,CPU核心从存储单元或内存中提取指令。然后,根据指令集由指令解码器执行解码,将指令转换 为控制CPU其他部份的信号。最后通过运算器中的微架构进行运算得到结果。 CPU内核

9、的基础就是指令集和微架构。 CPU定义和内部结构 代 码 段 数 据 段 进程 指令1 指令2 指令3 指令n 数据1 数据2 数据n 内存CPU 指令计数器 指令寄存器 控 制 单 元 指令 指令地址 存储单元运算单元 控制指令 数据 操作数地址 PCWORLD,方正证券研究所整理 CPU的内部组成部份和工作原理 英特尔CPU内核图 内 核 数据 CPU指令集概述 CPU指令集(Instruction Set)是CPU中计算和控制计算机系统所有指令的集合。 指令集包含了基本数据类型,指令集,寄存器,寻址模式,存储体系,中断,异常处理以及外部 I/O,一系列的opcode即操作码(机器语言),

10、以及由特定处理器执行的基本命令。 指令集一般被整合在操作系统内核最底层的硬件抽象层中。指令集属于计算机中硬件与软件的接 口,它向操作系统定义了CPU的基本功能。 现阶段的指令集可以被划分为复杂指令集(CISC)与精简指令集(RISC)两类。 主流CPU指令集划分及设计机构 CISC RISC SPARC Power PC ALPHA MIPS RISC-V ARM X86 英特尔X86指令集 PA-RISC CSDN,方正证券研究所整理 CPU指令集:CISC剖析 复杂指令集诞生于1960年代,在精简指令集之前,被用来解决语义鸿沟。当时的复杂指令集经过高度编 码,支持汇编语言,拥有很高的代码密

11、度,有助于缩小程序,减少主存储器的访问次数,极大地节省了 计算机存储器和磁盘存储成本,并且速度更快。 复杂指令集是相对精简指令集而言的,所有除了精简指令集之外的都可以划归到复杂指令集之中。复杂 指令集和精简指令集的显著差异是大多数的精简指令集采用等长结构,并且严格区分存储和读取。 复杂指令集通常出现在读取和存储通过算法相连的计算机中,如服务器和个人电脑中的X86指令集。 复杂指令集的单一指令可以执行数个低阶操作程序,例如存储读取,算法运行和记忆存储,或者可以用 单一指令来实现多步操作或寻址。 随着个人计算机的普及和计算机分工的细化,复杂指令集在低算力需求的计算机中出现了“过度设计” 的现象,造

12、成了寄存器一定程度上的浪费,精简指令集由此孕育而生,二者并行发展了近50年。 嵌入式CISC模拟机英特尔X86指令集和相关专利发展史 WORD,中科微知,方正证券研究所整理 CPU指令集:RISC剖析 精简指令集采用小型,高度优化的指令集而非更复杂和特定化的指令。 精简指令集的主要特点是通过大量寄存器和高度规则的指令流水线优化了指令集,从而使每条指令的时钟 周期数减少。精简指令集的另一个特点是读取/存储结构,在该指令集中存储访问必须通过完整的特定指令 ,而不是特定指令中的一部分。 精简指令集的思想成立于1970年代,成熟于1980年代。斯坦福大学的MIPS指令集和伯克利分校的SPARC 指令集

13、是当时的先驱。随着2010年RISC-V的推出,精简指令集进入了开源的第五世代。 目前,精简指令集被广泛地运用于各个领域。以ARM为代表的精简指令集被广泛地运用于手机、平板等移 动终端。日本富岳超算也运用精简指令集,登顶2020年6月的超算排行榜。 基于RISC技术的8位微控制器设计RISC发展历程 1981 1983 1984 1988 2010 2013 2014 2017 2015 2018 2019首个RISC-V峰会、红帽采用RISC-V RISC-V首个商业许可 RISC-V商业软件、英伟达采用RISC-V RISC-V基金会和SiFive公司成立 首个Linux移植 EOS14

14、45nm RISC-1 RISC-3 RISC-4 RISC-5 RISC-2 CPU指令集:CISC与RISC特点的对比 CISC与RISC无论哪一方都没有绝对的优势或劣势。 从硬件角度分析:CISC采用的是不等长指令集,因此在执行单条指令时需要较多的处理工作,但是它的 优势往往在于部份特定专业领域的应用。而RISC执行的是等长精简指令集,CPU在执行指令的时候速度 较快且性能稳定,因此RISC适合采用流水线方式运作,且在并行处理方面明显优于CISC。 从性能角度分析:CISC阵营的Intel和AMD在提升芯片性能上做出了持续的努力,CISC芯片的功耗被放 在了性能后的第二位;而RISC-A

15、RM本身出现时间较CISC-X86晚十年左右(ARM诞生于1985年,X86 诞生于1978年),ARM、MIPS在创始初期缺乏与Intel产品对抗的实力,专注于以低功耗为前提的高性 能芯片。 ,方正证券研究所整理 CISC与RISC特点对比 CISC复杂指令集RISC精简指令集 指令系统使用频率差别大,可变长格式 使用频率接近,定长格式,大部分为单周期指令,操 作寄存器,只有Load、Store操作内存 指令数目一般大于200条一般小于100条 通用寄存器数量较少多 寻址方式支持多种,一般大于4支持方式少,一般小于4 实现方式微程序控制技术 增加了通用寄存器;硬布线逻辑控制为主;适合采用 流

16、水线 控制方式主要为微程序控制主要为硬布线控制 应用场景95%以上的PC和服务器市场95%以上的移动计算市场 其他研制周期长优化编译,有效支持高级语言 CPU指令集:CISC与RISC发展趋势与阵营对比 CISC与RISC从上世纪后期已经在逐步走向融合,并且该趋势持续至今。例如2005年苹果通过引入 Rosetta将原先IBM的Power PC指令集转译为英特尔处理器接受的X86指令集。2020年苹果发布基于 ARM指令集的M1处理器后,将Rosetta更新为Rosetta2以便将原英特尔的X86指令集快速转译为M1的 ARM指令集。 整体来看,以高通骁龙,联发科,三星Exynos,苹果A系列

17、为代表的ARM架构RISC处理器占据了移动 处理器的市场。而在个人电脑领域以Wintel联盟为基础的X86架构CISC处理器占据了该市场。MIPS, Power,Alpha等架构虽然已经不是市场的主流,但在特定领域内仍然在被使用。 ,方正证券研究所整理 CPU 类型 优势劣势海外公司中国大陆公司 X86 高性能 个人计算 机市场产 业规模大 高功耗 ARM 低功耗、 低费用、 小体积、 高性能 定位精准, 聚焦移动 端市场 授权模式 早,配套 IP完善 早期芯 片性能 无法与 X86抗 衡 X86与ARM对比 苹果Rosetta2指令集转译 X86 ARM CPU指令集的软件生态对比 软件生态

18、方面,X86运行的主要为DOS,非ARM版Windows,旧版MacOS等操作系统,起步早,基 于Wintel联盟,生态完善。全世界有65%以上的软件开发商都为X86提供生态服务。 ARM方面运行的主要有安卓,iOS,iPadOS,Windows10移动版,MacOS Big Sur等。原先适应 X86指令集的软件需要经过翻译后才可运行,如苹果的Rosetta2可以将X86指令转换为ARM指令,所以 运行速度会减慢。 ARM成本低,迭代快,其软件生态正在加速追赶X86的软件生态。苹果应用商店软件数量从2008年7月 的5万个发展到2020年的342万个。同年Google Play商店有270万

19、款可供下载的软件。 ,Statcounter,方正证券研究所整理 苹果APP商店应用软件数量X86与ARM操作系统对比 指令集操作系统各操作系统占比 X86 ARM CPU微架构定义 Extreme Tech,方正证券研究所整理 微架构是(Micro Architecture)一种给定的指令集架构在处理器中执行的方法。相同的指令集可以在 不同的微架构中执行,但实施的目的和效果可能不同。优秀的微架构对CPU性能和效能提升发挥着至关重 要的作用。计算机体系是微架构和指令集的结合。 众多的算数单元、逻辑单元和寄存器文件在三态总线和单向总线,以及各个控制线的连接下组成了CPU的 微架构。计算机的总线组

20、织由CPU的复杂程度决定,二者常同向变化。 CPU微架构中常见的单元有执行端口、缓冲单元、整数运算单元、矢量运算单元等。 英特尔Core 2微架构IBM Power 8微架构 ,方正证券研究所整理 CPU微架构工作流程概述 CPU的每个核心有独占的L1指令缓存、 L1数据缓存和L2缓存,多数核心共享L3 缓存。所有缓存中L1缓存通过虚拟地址空 间寻址,L2/L3通过线性地址空间寻址。 CPU非核心部分主要是System Agent( 系统代理):包含PCU(电源控制单元) 、DMI控制器与ICH连接、QPI控制器与 其他CPU连接、内存控制器。 微架构工作流程概述:以英特尔的Sandy Bri

21、dge(右图)为例,CPU先使用取指令 单元(右图紫色部份),将代码段从内存 中取出;通过解码单元(右图橘色部份) ,将机器码按序转化为定长的uop(微操 作),发射到uop Decoder Queue(微 操作解密等候区);乱序单元(右图黄色 部份)从微操作解密等候区中取出微操作 ,根据执行条件,依赖关系,重新排序后 ,发送到Scheduler(调度器);调度器 将计算指令发送到计算单元(右图蓝色部 份),得到计算结果;将内存读写指令发 送给访存单元(右图绿色部份),完成内 存读写。 英特尔 Sandy Bridge 处理器核心部份 ,Stackoverflow,方正证券研究所整理 CPU微

22、架构:取指单元 英特尔 Sandy Bridge 的编译过程 英特尔 Sandy Bridge 的取指优化 微架构通过执行指令“exec ()“,执行某个二进制数 时 , 该 二 进 制 数 首 先 被 kernel(核心)从硬盘加载 到内存。 Instruction Fetch Unit( 执行获取单元)会按照执行 顺序将bin的代码段,从内存 中读入到CPU。当遇到分支 代 码 时 , 需 要 查 询 Branch Predictors(分支预测)。执 行获取单元增加访问电路, 可以并发地访问内存、寄存 器,解决流水线气泡问题。 在Precoded(预解码)中解 码的X86指令集,会被保存

23、到 Instruction Queue(指令等 候区),等待解码。 现在的CPU均使用超标量的 结构。例如Sandy Bridge是 16条。每个CPU cycle有16 个操作在并行执行,需要一 系列设计来保证流水线不被 中断。 ,方正证券研究所整理 CPU微架构:译指单元和乱序执行单元 英特尔 Sandy Bridge 的译指单元 英特尔 Sandy Bridge 的乱序执行单元 Instruction Queue(执行等候区) 中取指单元获得的x86 CISC指令,会 通过译指单元翻译,以提高CPU流水 的整体能力。 一个周期有4条指令进入译指单元不同 的模块,Complex Decod

24、e(复杂解 码器)翻译单指令多数据流指令,一 个周期最大可以产生4个uops(微操 作),Simple Decode(简单解码器 )翻译普通指令,一个周期产生1个微 操作,得到的微操作会保存到uop Decoder Queue(微操作解码等候区 )中。 微架构的乱序执行会选择当前可执行 的指令优先执行,减少处理器闲置。 译指单元每个周期发送4个微操作到乱 序 执 行 单 元 。 乱 序 执 行 单 元 使 用 Register Alias Table(虚拟寄存器到 物理寄存器的映射表)修改微指令, 把修改后的指令部分保存。 Scheduler(调度器)会将整数操作 数和浮点操作数分别保存,把映

25、射表 存入Reorder Buffer(重新编序缓存 )。最后统一调度器选择有执行条件 的微操作发送给执行单元,没有执行 能力的微操作先缓存,待条件具备后 发送。 ,方正证券研究所整理 CPU微架构:计算单元和访存单元 英特尔 Sandy Bridge 的计算单元英特尔 Sandy Bridge 的访存单元 乱序执行单元每个周期发送4个微操作到计算单元。port0、port5可以执行整数、浮点数、整数SIMD (单指令多数据流)所有指令,port1只能执行整数、整数SIMD乘法、移位指令,每个周期最多执行3 条指令。port2,port3,port4每个周期可以执行2个load(读取),1个s

26、tore(存储)指令。 Sandy Bridge在运算单元上,通过AVX指令,大幅提升了浮点数以及SIMD的效率。 Address Generation Unit(地址产生单元)产生读写内存的虚拟地址;Load Store Unit(存取单元 )通过地址,实现读取、存储。 存取单元包含Load buffer(读取缓冲)、Store buffer(存储缓冲)、prefetch(预读逻辑)、一 致性的逻辑。存取单元读内存时,先要查询缓冲中的是否有缓存,如果命中,直接返回。当不命中时, 需要发起对内存的读取,由于读取内存大概需要200周期,代价很高,存取单元实现了预读逻辑。 CPU核心是指控制和信息

27、处理功能的核心电路,把一个CPU核心和相关辅助电路封装在一个芯片中,即 为传统的单核心CPU芯片,简称单核CPU。把多个CPU核心和相关辅助电路封装在一个芯片中,为多核 心CPU芯片,简称多核CPU。 下图即为ARM的单核心CPU和多核心CPU。图中红色虚线框标出的部分为CPU核心,分别为基于 ARMv7微架构的单核心CPU芯片以及ARM Cortex-A9 MPCore用2个和4个Cortex-A9构成的2核心和 4核心CPU芯片。 目前我们能见到的4核心CPU大多都是属于Cortex-A9系列。ARM Cortex-A9的应用案例有联发科 MT6577、三星Exynos 4210、华为K3

28、V2等,另外高通APQ8064、MSM8960、苹果A6、A6X等都可 以看作是在A9架构基础上的改良版本。 单核CPU与多核CPU Arm单核CPUArm双核CPU Arm四核CPU 1个CPU核心(Core)2个CPU核心 4个CPU核心 ARM单核心与多核心CPU芯片 “考古”CPU:CPU发展历程 CPU发展史简单来说就是Intel、IBM、ARM的发展历史,CPU已经有四十多年的发展历史。 CPU的发展史,按照其处理信息的字长,可以分为:四位微处理器、八位微处理器、十六位微处理器、 三十二位微处理器以及六十四位微处理器等等。英特尔在大部分时间处于领先地位 CPU发展史 “史前时代”

29、(1971年以前) 1904年电子管被发明 1946年人类第一台计算机“ENIAC” 1947年晶体管被发明 英特尔(X86)IBM(Power PC)ARM(ARM) 4位CPU(1971-1972) Intel 4004 Intel 4040 8位CPU(1972-1978) Intel 8008 Intel 8080 Intel 8085 16位CPU(1978-1994) Intel 80386 Intel 80486 32位CPU(1985-2014) 奔腾 奔腾2 奔腾3 奔腾4 酷睿 Power 2 Power 3 Cortex A5 Cortex A7 Cortex A8 Co

30、rtex A9 64位CPU(1998至今) 奔腾4 酷睿2 酷睿i系列 Power 4 Power 5 Power 6 Power 7 Power 8 Power 9 Cortex A34 Cortex A35 Cortex A53 Cortex A57 Cortex A72 Cortex A73 Cortex A55 Cortex A75 Cortex A76 Cortex A77 Cortex A78 Cortex X1 Cortex A12 Cortex A15 Cortex A17 CPU发展史:英特尔微架构回顾 2004-2020英特尔CPU微架构进化 时间 Sandy Bridg

31、e Core Prescott Haswell Skylake Nehalem Sunny Cove Willow Cove 200420062008200192020 性能 末代奔腾4 微架构 31级流水 线 超线程技 术 800MT/S 前端总线 基于奔腾 M架构 取消超线 程技术 精简流水 线级数 1333MT/ S前端总线 初代Core i 超线程技术 回归 Turbo Boost 三级缓存 QPI总线 第二代 Core i 集成核显 Turbo Boost 2.0 256位环 形总线 第四代Core i 1.5K微操作缓 存 原生支持DDR 3内存 16条PCI

32、E 3.0 第六代Core i DDR4内存支 持 MPX技术 SGX技术 第十代 Core i 18% IPC 提升 4K核显输 出 L2缓存翻 倍 第11代 Core i L2/L3缓 存加大 全RAM 加密 50%核 显升级 随着2005年以Prescott为内核的奔腾4处理器在性能和效能上被AMD的K8速龙超越,英特尔采取了 “Tick-Tock”的钟摆模式,“Tick”年升级处理器的制程,“Tock”年升级处理器的微架构。以两年为 周期的钟摆模式,从“Nehalem”开始让CPU交替发展,一方面避免了同时革新可能带来的失败风险, 同时持续的发展也可以降低研发的周期,并可以对市场造成持

33、续的刺激,并最终提升产品的竞争力。 2008-2015年的钟摆模式使英特尔CPU年均有15%左右的提升,维护了英特尔X86领域的霸主地位,并 诞生了诸如Skylake这样经典的架构,沿用至今。 CPU发展史:英特尔指令集回顾 ,Notebookcheck,方正证券研究所整理 过去23年,英特尔X86指令集中的单指令多数据流指令集可以划分为MMX、SSE、AVX三块。英特尔的指令集采用叠加的方 式向前发展,从奔腾的MMX到Skylake的AVX512,指令集的位数从64位升级至了512位。单次指令的负载能力提升了8倍。 MMX指令集是多媒体拓展、多数学拓展和矩阵数学拓展的简称。初代的MMX仅提供

34、整数运算,而不兼容浮点运算,而且当 年MMX的软件支持进展缓慢。 SSE是流式单指令多数据流的简称,该指令集创建了新的128位宽的寄存器文件(XMM0XMM7)和新的单指令多数据流指 令,解决了MMX的核心缺点(无法将整数SIMD操作与任何浮点操作混合使用)。 AVX是高级矢量拓展指令集的简称,该指令集使用16个YMM寄存器对多条数据执行单个指令。 1997-2015英特尔CPU指令集进化2020年Tigerlake中的指令集 CPU发展史:英特尔制程回顾 英特尔的创始人戈登摩尔是摩尔定律的提出者。摩尔定律的核心内容为:集成电路芯片上所集成的电路的数 目,每隔18个月就翻一番;微处理器的性能每

35、隔18个月提高一倍,而价格下降一半;用一美元所能买到的计 算机性能,每隔18个月翻两番。 CPU的制程通常表示晶体管或栅极长度等特征尺寸。在门间距(CPP)和最小金属间距(MMP)都缩小30%的 情况下,晶体管的面积就能减小一半,那么就能放入2倍数量的晶体管,摩尔定律也随之成立。 在过去的40多年的摩尔定律时代,英特尔通过将CPU的制程由4004的10微米提升至了Skylake的14纳米, 运用FinFET等先进技术,遵守“钟摆战略”,在CPU Die中放入更多的晶体管,提升处理器性能。 1971-2015英特尔CPU的摩尔定律演化英特尔Tick-Tock战略下CPU的制程进化 pcbuild

36、ersclub,方正证券研究所整理 CPU的发展趋势:微架构升级概述 CPU微架构的提升往往伴随着指令集的更新与优化。微架构的提升可以分为两部分的改进,一个是通用性能的提 升,往往称其为IPC(Instruction Per Clock,即CPU每一时钟周期内所执行指令的多少);另一个是专用性能的 提升,往往需要优化代码,进行改写和重新编译才能获得收益。 CPU的通用计算性能是由IPC、主频、指令数三者共同决定。IPC的提升是CPU通用性能提升的必要条件。主频的 提升通常由CPU制程的进步产生。 微架构通用性能的提升的宏观思路是“更宽,更深,更智能”。“更深”:为平行计算找出更大的机会;“更宽

37、 ”:在平行计算中执行更多的操作;“更智能”:用更新和更好的算法来减少延迟。IPC的提升就发生在处理器的 前端(取指译码)、缓冲区(调度和暂存乱序执行下的微操作)和后端(执行指令、获取操作数、记录结果)。 IceLake处理器的SunnyCove微架构是英特尔2015年以来首次使用的全新微架构,它的IPC相较于上代Skylake 提升了18%。 CPU的通用性能计算公式SunnyCove相较于Skylake的IPC提升 pcbuildersclub,方正证券研究所整理 CPU微架构的通用性能发展:更深、更宽、更智能 Sunny Cove的概述和“更智能”升级 Sunny Cove的“更深”升级

38、 Sunny Cove的“更宽”升级 微架构的“更深”方面:SunnyCove相较 于Skylake在乱序重排缓冲区、下载缓冲区 、存储缓冲区、保留站、一级数据缓存、二 级缓存、微指令缓存、二级转译后备缓冲区 缓存等关键结构进行了扩充。 微架构的“更智能”方面:SunnyCove相 较于Skylake提高了分支预测的准确性、减 小了有效读取的延迟、以客户使用为导向。 微架构的“更宽”方面:SunnyCove相较 于Skylake在宽分配、执行端口、一级存储 位宽、每个执行端口的处理能力(例如 SIMD shuffle,LEA)都得到了提升。 Jaist,方正证券研究所整理 CPU微架构的专用性

39、能提升 CPU微架构专用性能的提升通常涉及新的指令集(二者不可完全割裂),需要优化代码,进行改写和 重新编译才能获得收益,往往是一些专用计算单元或SIMD指令和执行单元的改进。 SIMD(单指令多数据流)是代码现代化中的重要组成部分矢量化的标志性指令,SunnyCove微架 构继承并改进了Skylake的半吞吐的AVX512处理器,SIMD的支持从256位的AVX2 FMA来到512位 的AVX512 FMA。 同时,SunnyCove后端新增的Shuffle(洗牌)单元可以快速地洗牌矢量寄存器中的数据,为下一次 的矢量运算做好准备,有效减小延迟。 Sunny Cove的Skylake的微架构

40、的矢量单元对比SunnyCove洗牌单元的洗牌指令 X3X2X1X0 Y3Y2Y1Y0 Y3Y0Y3Y0X3X0X3X0 ,Techpowerup,方正证券研究所整理 CPU指令集的发展趋势:更多、更全 指令集升级的“更多”:指令集总数的 上升以及指令集的二进制位数上升。 纵观CPU指令集的发展史,新指令集的 产生不会废除原有的指令集。指令集的 发展是采用叠加的方式进行的,以保证 整个系统的兼容性。例如第11代酷睿 Tigerlake比上代的Icelake,多了虚拟 化的VT-X指令集。 指令集升级的“更全”:新CPU相较于 旧CPU对单一大类下的指令集子类支持 更全面。 英特尔AVX512(

41、512位高级矢量指令 集)指令集相较于上代AVX2(256位 高级矢量指令集)指令集,理论每周期 的单精度和双精度浮点运算翻倍,在保 持功耗下将的前提下,综合性能有80% 以上的提升,效能也大幅升级。 英特尔第十代Icelake酷睿在第六代 Skylake酷睿的基础上,支持IFMA(整 数融合乘加)、VBMI(矢量位操作) 、4FMAPS(包装单精度融合乘法累 加)、VNNI(矢量神经网络指导)。 这些指令集加强了Icelake在人工智能 神经网络方面的算力。 英特尔AVX512指令集的支持范围 英特尔AVX512指令集的性能和效能提升 CPU指令集的发展趋势:ARM奋起直追X86 ,21ic

42、中国电子网,方正证券研究所整理 英特尔与苹果处理器性能对比 微架构是指令集在CPU中的执行方法。指令集和微架构共同构成了CPU内核,它们决定了CPU每个周期内的指令数,并最终影 响CPU的性能。所以指令集从根部支撑CPU的运作,处于核心的地位。 ARM于2011年进入64位时代,比X86-64晚了十年。但是ARM凭借开源、异构运算、可定制化等一系列优势,在苹果、高通 、三星、华为、英伟达等方面的努力下,ARM架构立足于低功耗的移动市场,紧抓云化和移动计算的时代红利,不断向高性能 台式和服务器领域冲击。 在移动计算领域,苹果A系列和M1处理器逐步赶超英特尔的X86处理器。苹果A13在晶体管密度与

43、1165g7相近,线程数少于 对方1/4,主频低于对方1/2的情况下,在性能方面领先英特尔1年,我们强烈看好Arm未来前景。并且苹果在软件生态上通过 Rosetta 2和Universal 2,使原先基于X86的软件可以无缝地运行在M1芯片中,软件生态已经不再成为ARM的阻碍了。 在服务器领域,ARM的新星架构“Neoverse”,在单核心方面追平AMD和Intel的服务器CPU的同时,凭借ARM并行计算、 能耗控制、易拓展性的优势,在多核性能方面超过对手60%以上。ARM的性能已经不再成为短板。 服务器领域的X86与ARM多核性能对比 CPU制程的发展趋势:先进制程为导向 eetimes ,

44、CNX,方正证券研究所整理 CPU性能的三大决定因素为主频、IPC、指令数。这些因素中主频通常是由CPU的制程决定的。 制程在过去通常表示晶体管或栅极长度等特征尺寸,不过出于营销的需要,现在的制程已经偏离了本意,因此单纯 比较纳米数没有意义。按英特尔的观点,每平方毫米内的晶体管数(百万)更能衡量制程。据此,台积电和三星的 7nm工艺更接近英特尔的10nm工艺。 先进的制程可以降低每一个晶体管的成本,提升晶体管密度,在CPU体积不变下实现更高的性能;先进制程可以提 升处理器的效能,在性能不变的情况下,减少发热或在发热不变的情况下,通过提升主频来拉高性能。 先进制程的主要目的是降低平面结构带来的漏

45、电率问题,提升方案可以通过改变工艺,如采用FinFET(鳍式场效应 晶体管)或GAA(环绕式栅极);或采用特殊材料,如FD-SOI(基于SOI的超薄绝缘层上硅体技术)。 先进制程工艺之FinFET英特尔10nm先进制程带来的性能和效能提升 ,只谈科技,方正证券研究所整理 CPU制造的发展趋势:Fab+Fabless为导向 CPU制造可分为IDM和Fab+Fabless。 IDM集芯片设计、芯片制造、芯片封装和测试等多个产业链环节于一身。英特尔为IDM的代表。 Fabless只负责芯片的电路设计与销售,将生产、测试、封装等环节外包。苹果和AMD为Fabless的代表。Foundry只 负责制造,

46、不负责芯片设计,可以同时为多家设计公司服务,但受制于公司间的竞争关系。台积电为Foundry的代表。 目前英特尔CPU落后的主要原因是CPU制程的落后,根本原因是英特尔受困于IDM运作模式。随着28纳米以下先进制 程的发展,芯片的制造成本和设计成本成指数级上升。同时,一条12英寸晶圆的生产线从建设到生产的周期约2年,投 资至少30-50亿美元,资本支出占比80%,整体风险非常大。英特尔以有限的资源不支持它持续的设计和生产的的两线 作战。 Fab+Fabless的模式通过充分发挥比较优势,分散了CPU设计和制造的风险,符合半导体分工的大趋势。 CPU制造优势劣势海外公司中国大陆公司 IDM 设计

47、和 制造协 同优化 规模过 大 成本高 回报率 低 Fab+Fa bless 设计和 制造分 开,发 挥比较 优势 多样化 制造和 设计组 合,风 险分散 沟通成 本大 协作难 度大 IDM与Fab+Fabless对比芯片设计费用趋势(亿美元) CPU需求概述 冯诺依曼计算机体系 冯诺依曼于1945年发表了First Draft of a Report on the EDVAC (EDVAC初稿),在这篇报告中, 冯诺依曼提出了“冯诺依曼体系结构 ”,明确指出了计算机必须具备的5大 部件:运算器、控制器、存储器、输 入设备、输出设备。 CPU作为控制器、运算器、存储器的 结合体,提供通用算力,

48、能处理不同 的数据类型,成为了计算机的刚需。 CPU作为硬件层,支撑着Windows、 IOS、安卓等系统软件层的启动,进而 推进汽车电子、服务器、PC等应用层 的发展,所以CPU的价值不可取代。 各个应用领域的CPU标准是不同的。 例如,在一些高可靠性应用场景,如 汽车电子的CPU需要满足AEC-Q100 车规认证;服务器的CPU特别看重多 核表现和并行处理的能力;个人电脑 的CPU注重单核表现,同时需要平衡 体积、性能、效能表现;移动设备和 智能穿戴的CPU把便携和节能放在第 一位。 CPU对行业的底层支撑 硬件层 系统软件 应用层 CPU Windows、安卓、IOS、Linux等 汽车

49、 手机 电脑 游戏主机 服务器 智能手表 输 入 设 备 输 出 设 备 外存储器 运算器 内存储器 控制器 CPU CPU供给概述 CPU产业链 全球CPU设计厂商全球CPU制造厂商全球CPU封测厂商 CPU的供给涉及设计、制造、封测三个主要环节,整体供给模式有IDM和Fab+Fabless两种。 IDM模式将设计、制造和封测集中在一起,代表厂商有X86阵营的英特尔,ARM阵营的三星。Fab+Fabless模式的代表有 X86阵营的AMD设计,台积电制造,通富微电封测;ARM阵营的苹果设计,台积电制造,日月光封测。 目前CPU的先进设计、先进制造主要被美系、韩系和中国台湾所控制。中国大陆企业

50、华为和中芯国际遭到美国实体清单限制 ,未来发展艰难。封测方面,长电科技和通富微电已经掌握先进封测技术,已经有能力为苹果、AMD提供封测技术支持。 Cypress官网,方正证券研究所整理 CPU的需求侧推动:汽车CPU概述 汽车电子工程中心化 随着汽车的含硅量上升、功能的多样化,汽车的电子工程架构也将随之从分布式向中心化发展。同 时,由于自动驾驶需要对整车进行控制,因此计算资源势必要集中化,自动驾驶芯片应运而生。 以新能源车的标杆特斯拉为例,下代HW4.0将同时集成ADAS(先进辅助驾驶)、电动汽车动力 传动、车载信息娱乐系统和车身电子四大功能。由此可见,自动驾驶芯片不仅是自动驾驶领域的计 算中

友情提示

1、下载报告失败解决办法
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。

本文(【研报】电子行业深度报告:CPU研究框架-210106(107页).pdf)为本站 (X-iao) 主动上传,三个皮匠报告文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三个皮匠报告文库(点击联系客服),我们立即给予删除!

温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。
会员购买
客服

专属顾问

商务合作

机构入驻、侵权投诉、商务合作

服务号

三个皮匠报告官方公众号

回到顶部