上海品茶

您的当前位置:上海品茶 > 报告分类 > PDF报告下载

半导体行业专题报告:存算一体继CPU、GPU架构之后的算力架构“第三极”-230414(20页).pdf

编号:122502 PDF 20页 3.51MB 下载积分:VIP专享
下载报告请您先登录!

半导体行业专题报告:存算一体继CPU、GPU架构之后的算力架构“第三极”-230414(20页).pdf

1、1 敬请关注文后特别声明与免责条款 存算一体:继存算一体:继 CPUCPU、GPUGPU 架构之后的算力架架构之后的算力架构“第三极”构“第三极”方正证券研究所证券研究报告方正证券研究所证券研究报告 行业专题报告 行业研究 半导体行业半导体行业 2023.04.14/推荐 TABLE_ANALYSISINFO 分析师:分析师:吴文吉 登记编号:S03 Table_Author 联 系联 系 人人人:人:万玮 重要数据:重要数据:Table_IndustryInfo 上市公司总家数上市公司总家数 114 总股本总股本(亿亿股股)790.23 销售收入销售收入(亿元亿元)36

2、37.16 利润总额利润总额(亿亿元元)581.86 行业平均行业平均 PEPE -80.13 平均股价平均股价(元元)72.28 行业相对指数表现行业相对指数表现:TABLE_QUOTEINFO-19%-12%-5%2%9%16%2022/42022/72022/102023/1半导体沪深300 数据来源:wind 方正证券研究所 相关研究相关研究 TABLE_REPORTINFO 北京君正:营收逆势实现增长,车规存储巨头有望下半年业绩回升2023.04.11 瑞芯微:旗舰芯片放量拓宽应用领域,静待 SoC 龙头复苏2023.04.11 斯达半导:高歌猛进新能源,研发突破业绩辉2023.04

3、.10 国芯科技:RAID 晋新程,助力 AI 锐意进取2023.04.09 存算一体:解决冯存算一体:解决冯诺依曼计算架构瓶颈。诺依曼计算架构瓶颈。算力需求的指数级增长驱动大算力与大模型计算的瓶颈(带宽低、时延长、功耗高)亟待解决。在深度学习中,数据移动大量且频繁地存在于计算单元与存储单元之间,由于数据在 CPU 或 GPU 中频繁高速传递,整个过程的无用能耗大概在 60%-90%;同时由于外部 DRAM 的运行速度远远小于 CPU 或 GPU 的运算速度,冯诺依曼架构也受到传输带宽瓶颈的限制(常称:存储墙瓶颈),因此系统的运算效率大打折扣。计算架构演进道阻且长,存算一体呼之欲出。存算一体:

4、继存算一体:继 CPU、GPU 架构之后的算力架构“第三极”。架构之后的算力架构“第三极”。提升算力的传统思路(ASIC/CPU/GPU/NPU)有待完善,存算一体的优势包括:1)具有更大算力(1000TOPS 以上);2)具有更高能效(超过 10-100TOPS/W),超越传统 ASIC 算力芯片;3)降本增效(可超过一个数量级)。存算一体:在云存算一体:在云、边边、端大有可为。端大有可为。端侧单设备算力需求约为 0.164 TOPS;端侧设备对运行时间、功耗、便携性等有较高要求。边侧单设备算力需求约为64256 TOPS;边侧设备对时延、功耗、成本以及通用性等有较高要求。云侧大算力、高带宽

5、、低功耗需求催涨 AI 芯片,存内计算或将成为智算中心下一代关键 AI芯片技术。存算一体技术三大驱动因素:存算一体技术三大驱动因素:新型存储器的发展+来自应用侧的需求+产业侧的配合 存算一体技术三大应用方向:存算一体技术三大应用方向:AI和大数据计算、感存算一体、类脑计算 存算一体公司竞争格局:存算一体公司竞争格局:国外存算一体产业比国内起步早 3-5年左右。存算一体芯片存算一体芯片市场规模:市场规模:基于存算一体技术的小算力芯片 2025 年约 125 亿人民币远期市场空间。2030 年,基于存算一体技术的中小算力芯片市场规模约为 1069 亿人民币,基于存算一体技术的大算力芯片市场规模约为

6、 67亿人民币,总市场规模约为 1136 亿人民币。建议关注建议关注:恒烁股份,知存科技(非上市)风险提示风险提示:1)半导体下游需求不及预期;2)技术发展不及预期;3)行业竞争加剧。2 半导体-行业专题报告 敬请关注文后特别声明与免责条款 目录目录 1 存算一体:解决冯诺依曼计算架构瓶颈.4 1.1 算力需求的指数级增长驱动大算力与大模型计算的瓶颈(带宽低、时延长、功耗高)亟待解决 4 1.2 优良的能效比为提升算力的关键.4 1.3 提升算力的传统思路(ASIC/CPU/GPU/NPU)有待完善.5 1.4 计算架构演进道阻且长,存算一体呼之欲出.5 2 存算一体:继 CPU、GPU 架构

7、之后的算力架构“第三极”.6 2.1 存算一体三大优势.6 2.2 存算一体技术三大底层特征.7 2.3 存算一体行业趋势.7 2.4 存算一体技术分类.8 2.4.1 近存计算(PNM).8 2.4.2 存内处理(PIM).8 2.4.3 存内计算(CIM).9 2.5 存内计算存储器件.9 3 存算一体:在云、边、端大有可为.11 3.1 端侧应用场景.12 3.1.1 端侧单设备算力需求约为 0.164 TOPS.12 3.1.2 端侧设备对运行时间、功耗、便携性等有较高要求.12 3.1.3 存内计算在功耗与计算效率等方面具备明显优势.12 3.2 边侧应用场景.12 3.2.1 边侧

8、单设备算力需求约为 64256 TOPS.12 3.2.2 边侧设备对时延、功耗、成本以及通用性等有较高要求.12 3.2.3 存算一体在深度学习等领域具备独特优势.12 3.3 云侧应用场景.13 3.3.1 云侧大算力、高带宽、低功耗需求催涨 AI 芯片.13 3.3.2 存内计算智算中心下一代关键 AI 芯片技术.13 4 存算一体技术三大驱动因素.13 4.1 新型存储器的发展.13 4.2 应用侧需求.14 4.3 产业侧配合.14 5 存算一体技术三大应用方向.14 5.1 AI 和大数据计算.15 5.2 感存算一体.15 5.3 类脑计算.15 6 存算一体公司竞争格局:国外存

9、算一体产业比国内起步早 3-5年左右.15 7 基于存算一体技术的小算力芯片 2025年约 125 亿人民币远期市场空间.18 8 相关厂商.18 8.1 恒烁股份:CINOR 存算一体 AI 推理芯片方兴未艾.18 8.2 知存科技(非上市):深耕存内计算芯片领域,引领存内计算产业化.19 PWkYlYRUjXhUpMpMtR6McM9PoMoOpNnOjMrRsOfQrQtP6MmNyQMYmNwONZoOnO 3 半导体-行业专题报告 敬请关注文后特别声明与免责条款 图表目图表目录录 图表 1:冯 诺伊曼计算架构.4 图表 2:数据搬运占 AI 计算的主要功耗.4 图表 3:存储计算性能

10、“剪刀差”:算力发展速度远超存储器.4 图表 4:提升算力的传统思路(ASIC/CPU/GPU/NPU).5 图表 5:SOTA TRANSFORMER 模型参数量(红点)和 AI 硬件内存大小(绿点)增长趋势对比.5 图表 6:GPU 中数据传输引发功耗损失超过 60%.6 图表 7:CPU、GPU 等处理数据的能效表现.6 图表 8:计算架构演进图示.6 图表 9:CPU、GPU 与存算一体结构比较.7 图表 10:存算一体行业趋势.7 图表 11:高带宽内存方案.8 图表 12:可计算存储方案.8 图表 13:基于 DRAM 的 PIM 方案实例.9 图表 14:五种主流存内计算器件性能

11、对比分析.10 图表 15:五种主流存内计算器件的研究与应用进展.10 图表 16:存算一体技术应用.11 图表 17:端侧、边侧、云侧设备各指标需求强度分析.11 图表 18:端侧小算力企业概览.12 图表 19:云和边缘大算力企业概览.13 图表 20:先进计算技术产业体系框架.14 图表 21:中国存算一体芯片公司.16 图表 22:海外存算一体芯片公司.17 图表 23:中国存算一体芯片市场规模估计.18 4 半导体-行业专题报告 敬请关注文后特别声明与免责条款 1 存算一体:存算一体:解决解决冯冯诺依曼计算架构瓶颈诺依曼计算架构瓶颈 1.1 算力需求的指数级增长算力需求的指数级增长驱

12、动驱动大算力与大模型计算的瓶颈(带宽大算力与大模型计算的瓶颈(带宽低、低、时延时延长、功耗高)长、功耗高)亟待解亟待解决决 传统的人工推理芯片解决方案将训练好的权重值存储在外部的存储器 DRAM 中,CPU 或 GPU 做推理运算时不停地调用 DRAM 中的数据,并将中间数据实时存回。这种架构被称为传统冯诺伊曼架冯诺伊曼架构构,冯氏架构以计算为中心,计算和存储分离,二者配合完成数据的存取与运算。图表1:冯诺伊曼计算架构 图表2:数据搬运占 AI 计算的主要功耗 资料来源:存算一体白皮书(2022 年)-中国移动研究院,方正证券研究所 资料来源:知乎,陈巍谈芯,先进存算一体芯片设计(陈巍、耿云川

13、等),方正证券研究所 1.2 优良优良的的能效能效比比为为提升算力的关提升算力的关键键 正如正如 CMOS 工艺凭借优良的能效比成为主流工艺的关键,工艺凭借优良的能效比成为主流工艺的关键,优良优良的的能能效效比比亦是提升算力的关键。亦是提升算力的关键。在深度学习中,数据移动大量且频繁地存在于计算单元与存储单元之间,由于数据在 CPU 或 GPU 中频繁高速传递,整个过程的无用能耗大概在无用能耗大概在 60%-90%;同时由于外部 DRAM 的运行速度远远小于 CPU 或 GPU 的运算速度,冯诺依曼架构也受到传输带宽瓶颈的限制(常称:存储墙瓶颈存储墙瓶颈),因此系统的运算效率大打折扣。图表3:

14、存储计算性能“剪刀差”:算力发展速度远超存储器 资料来源:知乎,陈巍谈芯,先进存算一体芯片设计(陈巍、耿云川等),github,方正证券研究所 5 半导体-行业专题报告 敬请关注文后特别声明与免责条款 1.3 提升提升算力算力的的传统思路(传统思路(ASIC/CPU/GPU/NPU)有待完善有待完善 目前集成电路的发展进入后摩尔时代,业界除了从“More Moore(深度摩尔)”、“More than Moore(超越摩尔)”与“Beyond CMOS(新器件)”这三大方向探索提升算力的技术路径,也在通过通过变革变革当当前前的的计算架构计算架构来实现来实现算力算力的的突破突破。目前,目前,主流

15、芯片主流芯片如如 CPU、GPU 以以及及 DPU 均均按照按照冯冯诺依曼诺依曼架构架构设计设计。图表4:提升算力的传统思路(ASIC/CPU/GPU/NPU)资料来源:知乎,陈巍谈芯,方正证券研究所 1.4 计算架构计算架构演进演进道阻且长,道阻且长,存算一体存算一体呼之欲出呼之欲出 虽然多核(如 CPU)/众核(如 GPU)并行加速技术可以提升算力,但在后摩尔时代,存储带宽制约了计算系统的有效带宽,系统算力增长步履维艰。GPU 的的架构架构演进演进并未并未解决解决大算力大算力和和大模大模型型的的挑挑战战。图表5:SOTA Transformer 模型参数量(红点)和 AI 硬件内存大小(绿

16、点)增长趋势对比 资料来源:英特尔官网,github,方正证券研究所 6 半导体-行业专题报告 敬请关注文后特别声明与免责条款 图表6:GPU中数据传输引发功耗损失超过 60%图表7:CPU、GPU 等处理数据的能效表现 资料来源:知乎,陈巍谈芯,方正证券研究所 资料来源:知乎,陈巍谈芯,方正证券研究所 2 存算一体存算一体:继继 CPU、GPU 架构之后架构之后的算力架构的算力架构“第三极第三极”作为一种新的计算架构,存算一体被认为是最具有潜力的革命性技术,其核心是将存储与计算完全融合,存储器中叠加计算能力,以新的高效运算架构进行二维和三维矩阵计算,结合后摩尔时代先进封装、新型存储器件等技术

17、,能有效克服冯诺依曼架构瓶颈,实现计算能效的数量级提升。图表8:计算架构演进图示 资料来源:知乎,陈巍谈芯,方正证券研究所 2.1 存算一体存算一体三大优势三大优势 存算一体的优势包括 1)具有更大算力(1000TOPS 以上);2)具有 7 半导体-行业专题报告 敬请关注文后特别声明与免责条款 更高能效(超过 10-100TOPS/W),超越传统 ASIC 算力芯片;3)降本增效(可超过一个数量级)。2.2 存算一体存算一体技术技术三大三大底层特征底层特征 存算一体技术的技术底层特征包括:1)减少数据搬运(降低能耗至1/101/100);2)存储单元具备计算能力(等效于在面积不变的情况下规模

18、化增加计算核心数,或者等效于提升工艺代);3)单个存算单元替代“计算逻辑+寄存器”更小更快。图表9:CPU、GPU 与存算一体结构比较 资料来源:知乎,陈巍谈芯,先进存算一体芯片设计(陈巍、耿云川等),方正证券研究所 2.3 存算一体存算一体行业行业趋势趋势 图表10:存算一体行业趋势 资料来源:存算一体芯片深度产业报告量子位智库,方正证券研究所 8 半导体-行业专题报告 敬请关注文后特别声明与免责条款 2.4 存算一体存算一体技术分类技术分类 2.4.1 近存计算(近存计算(PNM)近存计算通过芯片封装和板卡组装等方式,将存储单元和计算单元集成,增加访存带宽、减少数据搬移,提升整体计算效率。

19、近存计算仍是存算分离架构,本质上计算操作由位于存储外部、独立的计算单元完成其技术成熟度较高,主要包括存储上移、计算下移两种方式。近存计算已应用于人工智能、大数据、边缘计算等场景因其基本保持原有计算架构,产品化方案可较快投入使用。1)存储存储上上移移:采用先进封装技术将存储器向处理器(如 CPU、GPU)靠近,增加计算和存储间的链路数量,提供更高访存带宽。典型的产品形态为高带宽内存(High Bandwidth Memory,HBM),将内存颗粒通过硅通孔(Through Silicon Via,TSV)多层堆叠实现存储容量提升,同时基于硅中介板的高速接口与计算单元互联提供高带宽存储服务。图表1

20、1:高带宽内存方案 资料来源:存算一体白皮书(2022 年)-中国移动研究院,方正证券研究所 2)计算计算下移:下移:采用板卡集成技术将数据处理能力卸载到存储器,由近端处理器进行数据处理,有效减少存储器与远端处理器的数据搬移开销。典型的方案为可计算存储(Computational Storage Drives,CSD),通过在存储设备引入计算引擎承担如数据压缩、搜索、视频文件转码等本地处理,减少远端处理器(如 CPU)的负载。图表12:可计算存储方案 资料来源:存算一体白皮书(2022 年)-中国移动研究院,方正证券研究所 2.4.2 存存内内处理(处理(PIM)存内处理是在芯片制造的过程中,

21、将存和算集成在同一个晶粒 9 半导体-行业专题报告 敬请关注文后特别声明与免责条款(Die)中,使存储器本身具备了一定算的能力。存内处理本质上仍是存算分离相比于近存计算,“存”与“算”距离更近。当前存内处理方案大多在内存(DRAM)芯片中实现部分数据处理,较为典型的产品形态为 HBM-PIM 和 PIM-DIMM,在 DRAM Die 中内置处理单元,提供大吞吐低延迟片上处理能力,可应用于语音识别、数据库索引搜索、基因匹配等场景。图表13:基于 DRAM的 PIM方案实例 资料来源:存算一体白皮书(2022 年)-中国移动研究院,方正证券研究所 2.4.3 存内存内计算(计算(CIM)存内计存

22、内计算算即狭义的即狭义的存算一体存算一体。在芯片设计过程中,不再区分存储单元和计算单元,真正实现存算融合。存内计算是计算新范式的研究热点,其本质是利用不同存储介质的物理特性,对存储电路进行重新设计使其同时具备计算和存储能力,直接消除“存”“算”界限,使计算能效达到数量级提升的目标。存内计算最典型的场景是为存内计算最典型的场景是为 AI算法提供向量矩阵乘的算子加速算法提供向量矩阵乘的算子加速,目前已经在神经网络领域开展大量研究,如卷积神经网络(Convolutional Neural Network,CNN)、循环神经网络(Recurrent Neural Network,RNN)等。存内计算主

23、要包含数字和模拟两种实现方式,二者适用于不用的应用场景。1)模拟模拟存内计存内计算算:适用于适用于低精低精度、度、低功耗计算低功耗计算 模拟存算一体通常使用 FLASH/RRAM、PRAM 等非易失性存储截至作为存储器件,存储密度大,并行度高,但是对环境噪声和温度非常敏感,适用于低精度、低功耗计算场景,如端侧可穿戴设备等。2)数字数字存内存内计算计算:适用于适用于高精度、高精度、功耗不敏感功耗不敏感计算计算 数字存算一体主要以 SRAM/RRAM/DRAM 作为存储器件,采用先进逻辑工艺,具有高性能高精度的优势,且具备良好的抗噪声能力和可靠性,适用于高精度、功耗不敏感计算场景,未来可应用于云边

24、AI 场景。一直以来,主流的存内计算大多采用模拟计算实现,近两年数字存内计算的研究热度飞速提升。2.5 存内计算存内计算存储器件存储器件 存内计算电路可基于易失性存储器和非易失存储器件实现。易失性存储器在设备掉电之后数据丢失,如 SRAM 等;非易失性存储器在 10 半导体-行业专题报告 敬请关注文后特别声明与免责条款 设备掉电后数据可保持不变,如 NOR Flash、阻变随机存储器(Resistive Random Access Memory,RRAM))、磁性随机存储器(Magnetoresistive Random Access Memory,MRAM))、相变存储器(Phase Cha

25、nge Memory,PCM)等。图表14:五种主流存内计算器件性能对比分析 资料来源:存算一体白皮书(2022 年)-中国移动研究院,方正证券研究所 图表15:五种主流存内计算器件的研究与应用进展 资料来源:存算一体芯片深度产业报告量子位智库,方正证券研究所 11 半导体-行业专题报告 敬请关注文后特别声明与免责条款 3 存算一体:存算一体:在在云云、边边、端端大有可为大有可为 图表16:存算一体技术应用 资料来源:存算一体芯片深度产业报告量子位智库,方正证券研究所 根据陈巍谈芯,按算力大小划分:1)针对端侧的可穿戴等小设备,对算力的要求远低于智能驾驶和云计算设备,但对成本、功耗、时延、开发

26、难度很敏感。端侧竞品众多,应用场景碎片化,面临成本与功效的难题。存算一体技术在端侧的竞争力影响约占 30%。(例如 arm占 30%,降噪或 ISP占 40%,AI加速能力只占 30%);2)针对云计算和边缘计算的大算力设备是存算一体芯片的优势领域。存算一体在云和边缘的大算力领域的竞争力影响约占 90%。边缘端存算一体芯片具有高算力、低功耗、高性价比的优势。图表17:端侧、边侧、云侧设备各指标需求强度分析 资料来源:存算一体白皮书(2022 年)-中国移动研究院,方正证券研究所 12 半导体-行业专题报告 敬请关注文后特别声明与免责条款 3.1 端侧应用场景端侧应用场景 3.1.1 端侧端侧单

27、设备算力需求单设备算力需求约为约为 0.164 TOPS 据 IDC 预测,2025 年全球物联网设备数将超过 400 亿台,产生的数据量接近 80ZB,智慧城市、智能家居、自动驾驶等诸多场景中超过一半的数据需依赖终端本地处理,单设备算力需求约在 0.164 TOPS之间。3.1.2 端端侧侧设备设备对运行时间、功耗、便携性等有较高要求对运行时间、功耗、便携性等有较高要求 如智能眼镜/耳机需保证满负荷待机时间超 16 小时,手机的最高运行功耗则不超 8W。端侧设备的未来发展将更加注重时延、功耗、成本和隐私性等需求特征。3.1.3 存内计算存内计算在在功耗功耗与与计算效率计算效率等方面等方面具备

28、具备明显优势明显优势 在相同制程工艺下,存内计算芯片可在单位面积下提供更高算力与更低功耗,进而延长设备工作时间。目前存内计算产品已成功在端侧初步商用,提供语音、视频等 AI 处理能力,并获得十倍以上的能效提升,有效降低端侧成本。图表18:端侧小算力企业概览 资料来源:陈巍谈芯,创业芯睿,方正证券研究所 3.2 边边侧应用侧应用场景场景 3.2.1 边侧边侧单单设备算力需求设备算力需求约为约为 64256 TOPS 随着车联网等边缘计算应用的快速兴起,海量数据将在边缘侧进行处理,流量模型逐渐从云侧扩展到边侧。3.2.2 边边侧侧设备设备对对时延、时延、功耗、功耗、成本成本以及以及通用性通用性等有

29、较高要求等有较高要求 比如智慧港口要求端到端时延 1020ms,车联网场景要求端到端时延 3100ms。此外,由于边侧设备通常部署在等靠近数据生产或使用的场所,对散热要求也比较高。3.2.3 存算一体存算一体在深度学习在深度学习等领域等领域具备具备独特优势独特优势 13 半导体-行业专题报告 敬请关注文后特别声明与免责条款 与传统方案相比,存算一体在深度学习等领域可以提供比传统设备高几十倍的算效比,此外存内计算芯片通过架构创新能提供综合性能全面兼顾的芯片及板卡,预计将为广泛的边缘 AI业务提供服务。3.3 云云侧应用场景侧应用场景 3.3.1 云侧云侧大大算力、算力、高带宽、高带宽、低功耗低功

30、耗需求需求催涨催涨 AI 芯片芯片 以图像、语音、视频为主的非结构化数据呈现高速增长趋势,根据IDC 预测,到 2030 年将带动智能算力需求增长 500倍,以 AI算力为核心的智算中心将成为算力基础设施主流,大规模的 AI 芯片集约化建设带来高功耗挑战,每机架平均功耗将由 35kw 逐渐升至710kw。未来智算中心呼唤新型 AI 芯片,以满足云侧大算力、高带宽、低功耗等特性。3.3.2 存内存内计算计算智算中心下一代关键智算中心下一代关键 AI 芯片技术芯片技术 存内计算可通过多核协同集成大算力芯片,结合可重构设计打造通用计算架构,正面向大算力、通用性、高计算精度等方面持续演进,有望为智算中

31、心提供绿色节能的大规模 AI算力。针对智能驾驶、数据中心等大算力应用场景,在可靠性、算力方面有较高要求,云计算市场厂商相对集中,存算一体芯片以其高能效大算力优势有望另辟蹊径抢占云计算市场。图表19:云和边缘大算力企业概览 资料来源:陈巍谈芯,创业芯睿,方正证券研究所 4 存算一体存算一体技术技术三大三大驱动因素驱动因素 4.1 新型存储器新型存储器的的发展发展 新型存储器件的物理性新型存储器件的物理性能更能更适合开发存内计算,在适合开发存内计算,在实现更高计算实现更高计算密密度度的同时的同时具备成本优势。具备成本优势。在新型存储器件上发展存算一体技术,能够带来更大的算力优势,从而开拓更多的人工

32、智能应用场景。此外,新型存储器件的发展上限更高,现有存储器件再过 3-4 年将走向技术极限,而新型存储器件还可以往前发展新型存储器件还可以往前发展 10-20 年年。根据量子位智库,基于 RRAM 的新型存储器件有望在 5 年内在产品化上取得突破。新型存储器件的特点是在其开发过程中需要在传统 CMOS 工艺里增加特殊材料或工艺,这些特殊材料或工艺的开发需要经过大量实验及测试验证,而传统的 CMOS 代工厂在开发进度上相对缓慢。14 半导体-行业专题报告 敬请关注文后特别声明与免责条款 因此,新型器件工艺的突破点主要是工艺的迭代速度,如果没有标准的 12 寸量产产线,新型存储器件很难走向量产。如

33、果新型存储器发展受限,在传统存储器件走到成熟尽头后,开拓新应用场景的难度会极大。4.2 应用侧应用侧需求需求 后摩智能认为存算一体的发展逻辑是由外向内后摩智能认为存算一体的发展逻辑是由外向内的的,当大量需求出现,当大量需求出现后,一项能够满足客户需求的新技术将迅速发后,一项能够满足客户需求的新技术将迅速发展。展。在存算一体领域,AI、大数据分析这类数据密集型应用的出现,对能效比的需要迅速上升,推动了存算一体的发展。存算一体的底层逻辑是让很大一部分数据不需要搬出存储器便可参与计算,以此大幅提升计算效率。同时,随着深度学习被广泛应用,对算力的需求不仅仅是大算力,有效算力也成为企业关注的焦点。在传统

34、的冯诺依曼架构下,存储单元和计算单元分离,存储器读写速度慢产生的时延,在一定程度上造成算力浪费。尽管处理器的性能再优,依然需要平衡存储器的特性,存储器运行速度慢导致实际运算效率不及理论上所呈现的指标。而存算一体架构通过使存储器具备计算能力,实现在相同芯片面积下规模化增加计算核心数。4.3 产业产业侧侧配合配合 存算一体技术在存算一体技术在 0 到到 1 的阶段已初步形成的阶段已初步形成 IP 授权,定制开发授权,定制开发,自定,自定义产品多种商业模式,能够在特定应用场景中义产品多种商业模式,能够在特定应用场景中实现小规模量产。实现小规模量产。一旦产品出现可大规模量产的趋势或能够产生足够的收益,

35、整个产业链便会积极加入,在生产制造的各个环节都将有相应公司专门基于存算一体做研发,共同推动整个产业发展。根据根据量子位量子位智库智库,从,从目前小规模量产到实现大规模量产大概有目前小规模量产到实现大规模量产大概有 10 年年的时间,其中前的时间,其中前 5 年存内计算将以年存内计算将以 AI 计算为主,后计算为主,后 5 年将覆盖更多年将覆盖更多应用场景。应用场景。在底层技术上,选择正确的方向和适配的场景决定了技术在未来是否有足够的潜力走向产业化。5 存算一体存算一体技术技术三大应用方向三大应用方向 图表20:先进计算技术产业体系框架 资料来源:中国算力发展指数白皮书(2022 年),方正证券

36、研究所 15 半导体-行业专题报告 敬请关注文后特别声明与免责条款 5.1 AI 和和大数据大数据计算计算 存内计算存内计算适用于适用于 AI 的深度神经网络应的深度神经网络应用和基于用和基于 AI 的的大数据技术大数据技术。通过存算一体技术,可将带 AI 计算的大量乘加计算的权重部分存在存储单元中。对此,在电路设计方面,通过在存储单元的核心电路上做修改,从而在读取的同时进行数据输入和计算处理,在存储阵列中完成卷积运算,再加上大量乘加的卷积运算是深度学习算法中的核心组成部分,存内计算助力基于 AI 的大数据技术。5.2 感存算一体感存算一体 存算一体存算一体助力助力含含 AI 存算一体存算一体

37、芯片芯片的的传感器传感器实现实现零延时零延时和和超低功耗超低功耗的的智能智能视觉视觉处理处理能力能力。集传感、储存和运算为一体构建感存算一体架构,在解决冯诺依曼架构的存储墙瓶颈的同时,与传感结合提高整体效率。1)在传感器自身包含的 AI 存算一体芯片上运算,可实现零延时和超低功耗的智能视觉处理能力;2)基于 SRAM 模数混合的视觉应用存内计算神经拟态芯片仅在检测到有意义的时间才会进行处理,大幅降低能耗。5.3 类类脑计算脑计算 存算一体存算一体为为类脑计算类脑计算的的关键技术基石关键技术基石。类脑计算又被称为神经形态计算,是借鉴生物神经系统信息处理模式和结构的计算理论、体系结构、芯片设计以及

38、应用模型与算法的总称。本质与存算一体类似,类脑计算旨在使计算机像人脑一样将存储和计算合二为一,从而高速处理信息。由于类脑计算属于大算力高能效领域,因此针对云计算和边缘计算的存算一体技术,是未来类脑计算的首选和产品快速落地的关键。6 存存算一体算一体公司公司竞争格局:竞争格局:国外存算一体产业比国外存算一体产业比国内起步国内起步早早 3-5 年年左右左右 从发展进程上讲,国外存算一体产业比国内起步早 3-5 年左右,并且基于存算一体的技术已普遍实现产品化。目前来看,SST,Syntiant和和 Mythic 走在商业化前列走在商业化前列;SST的 IP 授权数量最多,且许多芯片大厂愿意为其买单。

39、从芯片营收上讲,经量子位智库统计,美国超过 100 亿美元营收的芯片公司有 10 家左右,欧洲有 5 家左右,而中国只有 1-2 家(中国公司数量远超国外)。从技术得到验证到产品化过程的前期,存算一体配套工具(如 EDA软件)的研发公司尚处在探索阶段。缺乏成熟的配套工具导致基于存算一体技术的产品在短期内(5年左右)以小规模量产为主。16 半导体-行业专题报告 敬请关注文后特别声明与免责条款 图表21:中国存算一体芯片公司 资料来源:存算一体芯片深度产业报告量子位智库,方正证券研究所 17 半导体-行业专题报告 敬请关注文后特别声明与免责条款 图表22:海外存算一体芯片公司 资料来源:存算一体芯

40、片深度产业报告量子位智库,方正证券研究所 18 半导体-行业专题报告 敬请关注文后特别声明与免责条款 7 基于存算一体技术的小算力芯片基于存算一体技术的小算力芯片 2025 年年约约 125 亿亿人民币人民币远期市场空远期市场空间间 根据量子位智库测算,2025 年,基于存算一体技术的小算力芯片市年,基于存算一体技术的小算力芯片市场规模约为场规模约为 125 亿人民币亿人民币。存算一体技术从实验室的研究成果到实现初步量产需要 5 年左右的时间,从初步量产到大规模量产则需要10 年左右时间。国内存算一体公司从成立时间上看,集中在 2017-2020 年,其中实现量产的公司有 4 家左右,其余公司

41、中进入测试阶段的有 2-3 家。量子位量子位智库智库预计,预计,2025 年存算一体将迎来商业化转年存算一体将迎来商业化转折点,应用场景折点,应用场景从麦克风、智能手表和从麦克风、智能手表和 TWS 耳机拓展到智能安防、耳机拓展到智能安防、移动终端和移动终端和 AR/VR 等(从语音识别、唤醒到等(从语音识别、唤醒到视觉处理)。视觉处理)。2030 年,基于存算一体技术的中小算力中小算力芯片市场规模约为 1069 亿人亿人民币民币,基于存算一体技术的大算力大算力芯片市场规模约为 67 亿人民币亿人民币,总市场规模约为 1136 亿人民币。大算力芯片和小算力芯片在底层的存算一体单元基本可以复用,

42、但 NPU 架构和编译器需要做一定修改以支持更通用的场景。除了提升芯片设计能力,使用新型存储器也能够增加单个芯片的算力。RRAM 新型存储器技术具有高速、结构简单 的优点,有望成为未来发展最快的新型存储器,目前距离工艺成熟还有 2-5 年的时间。考虑到从技术突破到产品化还需要 2-3 年的时间,量子位量子位智库智库预计在预计在 2030 年,基于存算年,基于存算一体的大算一体的大算力芯片将实力芯片将实现规模现规模量产量产,应用场景覆盖大数据检索、蛋白质/基因分析、数据加密、图像处理等。图表23:中国存算一体芯片市场规模估计 资料来源:存算一体芯片深度产业报告量子位智库,方正证券研究所 8 相关

43、厂商相关厂商 8.1 恒烁股份:恒烁股份:CiNOR 存算存算一体一体 AI 推理芯片推理芯片方兴未艾方兴未艾 高并行度和高能效计算催涨存算一体需求,高并行度和高能效计算催涨存算一体需求,CiNOR 存算存算一体一体 AI 推推理芯片理芯片方兴未艾。方兴未艾。2019 年公司研发的存算一体 AI 推理芯片(恒芯 1号)流片和系统演示成功,目前在研 CiNOR V2 芯片(恒芯 2 号)。随着存算一体技术的深化应用,公司的 CiNOR 存算一体 AI 推理芯片前景可期。估估值:值:Wind 一致预期 23、24 年摊薄 EPS分别为 1.00、1.77,对应76X、43X PE。19 半导体-行

44、业专题报告 敬请关注文后特别声明与免责条款 8.2 知存科技(知存科技(非上市非上市):深耕深耕存内计算芯片领域,引领存内计算产存内计算芯片领域,引领存内计算产业化业化 知存科技创立于知存科技创立于 2017 年,专注存内计算芯片领域,创新使用年,专注存内计算芯片领域,创新使用 Flash存储器完成神经网络的储存和运算,解决存储器完成神经网络的储存和运算,解决 AI 的存储墙问题,提高运的存储墙问题,提高运算效率,降低成本。算效率,降低成本。研发团队由王绍迪博士与郭昕婕博士联合多位学者、产业从业者组建,平均拥有 10 年以上产业工作经验。公司旗下 WTM2101 芯片适配低功耗 AIoT 应用

45、,可使用微瓦到毫瓦级功耗完成大规模深度学习运算,可应用于智能语音、智能健康等市场领域,目前已完成批量生产和市场应用。WTM8 系列芯片面向 6-48Tops算力产品,应用于 4K-8K视频的实时处理。2023 年 1 月,知存科技完成 2 亿元 B2轮融资,累计融资近 8亿元。未来,公司将继续专注存内计算芯片领域,引领存内计算产业化。20 半导体-行业专题报告 分析师声明分析师声明 作者具有中国证券业协会授予的证券投资咨询执业资格,保证报告所采用的数据和信息均来自公开合规渠道,分析逻辑基于作者的职业理解,本报告清晰准确地反映了作者的研究观点,力求独立、客观和公正,结论不受任何第三方的授意或影响

46、。研究报告对所涉及的证券或发行人的评价是分析师本人通过财务分析预测、数量化方法、或行业比较分析所得出的结论,但使用以上信息和分析方法存在局限性。特此声明。免责声明免责声明 本研究报告由方正证券制作及在中国(香港和澳门特别行政区、台湾省除外)发布。根据证券期货投资者适当性管理办法,本报告内容仅供我公司适当性评级为C3及以上等级的投资者使用,本公司不会因接收人收到本报告而视其为本公司的当然客户。若您并非前述等级的投资者,为保证服务质量、控制风险,请勿订阅本报告中的信息,本资料难以设置访问权限,若给您造成不便,敬请谅解。在任何情况下,本报告的内容不构成对任何人的投资建议,也没有考虑到个别客户特殊的投

47、资目标、财务状况或需求,方正证券不对任何人因使用本报告所载任何内容所引致的任何损失负任何责任,投资者需自行承担风险。本报告版权仅为方正证券所有,本公司对本报告保留一切法律权利。未经本公司事先书面授权,任何机构或个人不得以任何形式复制、转发或公开传播本报告的全部或部分内容,不得将报告内容作为诉讼、仲裁、传媒所引用之证明或依据,不得用于营利或用于未经允许的其它用途。如需引用、刊发或转载本报告,需注明出处且不得进行任何有悖原意的引用、删节和修改。公司公司投资评级的说明:投资评级的说明:强烈推荐:分析师预测未来半年公司股价有20%以上的涨幅;推荐:分析师预测未来半年公司股价有10%以上的涨幅;中性:分

48、析师预测未来半年公司股价在-10%和10%之间波动;减持:分析师预测未来半年公司股价有10%以上的跌幅。行业投资评级的说明:行业投资评级的说明:推荐:分析师预测未来半年行业表现强于沪深300指数;中性:分析师预测未来半年行业表现与沪深300指数持平;减持:分析师预测未来半年行业表现弱于沪深300指数。地址地址 E-mail:北京北京 西城区展览馆路 48 号新联写字楼 6 层 上海上海 静安区延平路 71 号延平大厦 2 楼 深圳深圳 福田区竹子林紫竹七道光大银行大厦 31 层 广广州州 天河区兴盛路 12 号楼 隽峰苑 2 期 3 层方正证券 长沙长沙 天心区湘江中路二段 36 号华远国际中心 37 层

友情提示

1、下载报告失败解决办法
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。

本文(半导体行业专题报告:存算一体继CPU、GPU架构之后的算力架构“第三极”-230414(20页).pdf)为本站 (明日何其多) 主动上传,三个皮匠报告文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三个皮匠报告文库(点击联系客服),我们立即给予删除!

温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。
相关报告
会员购买
客服

专属顾问

商务合作

机构入驻、侵权投诉、商务合作

服务号

三个皮匠报告官方公众号

回到顶部