上海品茶

您的当前位置:上海品茶 > 报告分类 > PDF报告下载

瀚博半导体:45家国产AI芯片厂商调研分析报告(2022)(24页).pdf

编号:79894 PDF 24页 1.49MB 下载积分:VIP专享
下载报告请您先登录!

瀚博半导体:45家国产AI芯片厂商调研分析报告(2022)(24页).pdf

1、45 家国产 AI 芯片厂商调研分析报告 作者:顾正书,AspenCore 资深产业分析师 AspenCore 声明: 感谢安谋科技、 合见工软与瀚博半导体在本报告的调研和撰写过程中提供专业的技术指导、应用案例分析和行业洞察。 我们将邀请来自这三家公司的技术专家参与 EE 直播间在线讲座:Fabless 技术和应用系列-AI 芯片的设计挑战与应用市场分析。 国内外调研机构、行业专业人士和媒体对 AI 及 AI 芯片的技术发展趋势和应用场景都已经做了全面和深入的分析,本报告就不再赘述了。AspenCore 分析师团队主要从以下几个方面对 AI 芯片产品及国产 AI 芯片厂商进行深入分析(每个部分

2、单独成篇,请点击浏览相应内容)。 1. AI 芯片的设计流程和挑战 2. 全球 AI 芯片 Top 10 3. 国产 AI 芯片 Top 10 4. 15 家国产边缘/端侧 AI 芯片厂商及其代表产品 5. AI 芯片价值链 6. 45 家国产 AI 芯片厂商信息汇总 AI 芯片的设计流程和挑战 芯片是一个产品,同时也是一个服务于商业客户的行业,AI 芯片自然也不例外。一个芯片从无到有通常需要经过定义、设计、制造和流通几个重要环节,除了制造环节会外包给Foundry 和封测厂之外,一个芯片设计公司需要做好芯片定义、设计(包含芯片、系统和软件)、寻找客户(渠道建设)几个环节。简单地说,就是要明确

3、:做什么芯片?怎么做出来?怎么卖出去?无论拥有成熟品牌的大型公司,还是初创公司,同时做好上述三点都是一个很大的挑战。 那么,在 AI 芯片的不同阶段(规划、设计、验证、流片、板卡/系统集成、应用方案)分别面临什么挑战呢? 1. 规划阶段。最大的挑战是如何明确市场定位,规划出最有竞争力的方向。对于 AI 芯片设计初创公司来说,在早期阶段就引入战略合作伙伴能更好地理解市场需求,确保开发的 AI 芯片符合客户需要。同时,在规划阶段就要软件和硬件协同开发,因为 AI 芯片设计在很大程度上是软件定义硬件。如果硬件对软件和应用需求不友好,单纯从性能指标上看起来可能很好,但却很难实现产品化。 2. 设计及验

4、证阶段。这是整个芯片开发流程中非常核心的部分,也是非常考验工程团队研发能力的阶段。怎么按计划做出符合规划目标的 AI 芯片是最大的挑战。 3. 板卡/系统集成。这是产品化的另外一个关键阶段,再好的芯片如果没有一个稳定可靠的硬件平台,也没有办法交付给客户使用。在保证稳定性及可靠性的前提下,实现最佳的性能和效率比是最主要的追求目标。面向云端 AI 的高性能芯片大都以加速卡的形式集成到服务器中,整体能耗和使用成本也是客户考虑的一个重要指标。 4. 应用方案。这是连接客户与研发团队的桥梁,要确保研发符合客户的使用习惯,让客户能够以最小的代价导入到其系统设计中。 下面以面向视频处理应用的瀚博半导体为例,

5、来看国内 AI 芯片初创公司是如何应对这些挑战的。 从算力高低的角度来看,AI 芯片的应用领域依次为数据中心(云)、边缘网关或服务器(边)、终端设备(端)。瀚博开发的是面向云端 AI 推理的大芯片,主要面临以下三大挑战: 1. 随着摩尔定律的放缓,综合利用各种架构优势的异构运算(heterogeneous computing, DSA 架构)成为推动算力增长的新趋势, 但随之而来的是系统架构和软件的复杂性; 2. 算力越高,通常芯片面积就越大,需要堆积的晶体管数量越多, 这对达成最佳 PPA(性能、功耗和面积)带来了额外的挑战; 3. 芯片越大越复杂,开发周期、研发成本和制造成本都随之增高,如

6、何精准地定位一个有足够大体量的应用市场是 AI 芯片公司在运营层面的挑战。 据瀚博半导体联合创始人兼 CTO 张磊介绍,其创始团队在 GPU 领域拥有非常丰富的经验,但公司并没有首选做 GPU,而是选择通过 DSA 架构来做面向 AI+视频市场的芯片,从而在 PPA 和成本上具有明显市场优势。同时,相比于很多公司临时招募组建的研发团队,瀚博的创始团队有着多年相互配合的默契,以及大芯片研发和量产的管理经验和实战经验。该公司的第一颗芯片开始测试 8 分钟即点亮,这是通过完美执行而应对以上三大挑战的一个最好佐证。 为什么选择 AI 芯片而不是 GPGPU? PC 时代随着图形操作系统的出现,大量需要

7、 3D 图形运算的工具软件和游戏对于浮点运算的要求急剧升高,传统的 X86 CPU 处理器并不擅长这类任务,于是诞生了更擅长浮点运算的 GPU。在这类应用中,系统会把图形渲染等任务 offload 到 GPU 上去。随着神经网络研究和应用的发展,GPU 中的浮点运算能力在这些领域的应用逐渐发展起来,英伟达敏感地抓住了市场机会,将其 GPU 在保留传统渲染能力的同时增加了对于通用计算和神经网络运算的能力,并称之为 GPGPU。 英伟达的 GPGPU 是包含渲染以及神经网络(“NN”)运算的。这种架构在同时需要两个能力的应用上会有一定的优势,但很显然对于技术积累要求也非常高。目前一些 AI 芯片初

8、创公司所自称的 GPGPU 架构是指没有渲染的 NN 运算,而有一些声称做 GPU 的公司则是狭义的渲染 GPU,二者都不是通常英伟达所指的 GPGPU。英伟达由于有长年渲染 GPU 的技术积累,同时基于先发优势通过 CUDA 积累了生态优势,因此选择了 GPGPU 路线。但是,其他公司在这条路线上与其正面竞争是胜算很小的,即使国际知名公司(像英特尔和AMD)在 GPGPU 市场与其竞争都有相当的难度。 然而,没有一个技术是完美的,由于 GPGPU 保留了大量神经网络运算所不需要的单元,在单纯的神经网络运算上并不是最高效的,因此谷歌基于特定域架构(DSA)为自己的特定应用做了 TPU。DSA

9、架构给其他芯片公司带来了希望,包括 Intel、特斯拉等知名公司都开始在这条路线上发力。 芯片设计是一个国际化的产业,知识产权在其中扮演着很重要的角色。渲染 GPU 由于发展历史久远,专利壁垒较高,即使与之相关的不带渲染的 GPGPU 也容易踩雷。相反,DSA由于出现较新,国际大企业和创业公司在知识产权上的差距并不大。选择针对 AI+视频市场来做 DSA 架构的 AI 芯片,这对瀚博来说也是最明智的选择,其研发团队在视频领域的经验和对于大芯片的驾驭能力也得到了充分发挥。 项目研发团队是如何分工协作的? 瀚博 SV100 研发团队成员主要来自 AMD、Cisco、意法半导体、华为、高通和 Mic

10、rochip等公司,其核心团队都有超过十年的开发协作经验。具体来说,瀚博有架构/IP 开发、芯片验证、SoC 实现、硅后验证,以及软件 5 大部门。 架构/IP 团队负责芯片的整体架构规划以及核心 IP 的设计开发,某种程度来说架构和 IP 直接决定了一个产品的成败;芯片验证团队负责 IP 以及 SoC 验证,确保功能和性能符合设计要求;SoC 实现团队基于架构设计,将各种 IP 集成到 SoC,并且以尽量小的面积和尽量低的功耗来实现最大的性能;硅后验证团队主要负责芯片的功能性能验证,以及验证板和系统板的开发,同时也负责芯片产品化的各个方面;软件团队负责固件、驱动和编译器等软件方面的开发,可以

11、说硬件定义产品的“身体”,而软件赋予产品的“灵魂”。 国内 AI 芯片公司相比国际巨头有什么优势和劣势? 与大多数科技行业的企业一样,国内 AI 芯片公司的最大优势就是贴近市场和客户,近水楼台先得月。中国市场对于 AI 芯片的发展有如下几个优势: 1. AI 应用本身就是一个新兴市场,很多应用场景都是在摸索中成长的。国内企业在近 20年的迅速发展中耳濡目染,对于新鲜事物的尝试意愿是很高的。 2. 中国近年的数字化基础设施建设带来的红利,比如中国拥有世界上最大规模的宽带及4G/5G 通信网络;中国的互联网企业迅速成长为全球巨头,这些都为 AI 应用创造了良好的发展土壤。 3. 中国很多传统行业处

12、在转型期,比如中国的工业升级是天然建立在数字化前提上的,这给 AI 带来了巨大的发展空间。 4. 国家政策鼓励芯片创业,新基建和“东数西算”等重大工程都为 AI 芯片公司提供了坚强的后盾。 国内 AI 芯片企业的劣势在于技术和 IP 积累不足,具体体现在:软硬件生态、知识产权和人才等方面。 AI 芯片价值链 自从上世纪 50 年代人工智能(AI)出现以来,AI 的发展已经取得了极大的进步,但真正的技术突破和 AI 应用爆发还是最近 10 年的事。从 2012 年开始,AI 开发者开发出复杂的机器学习(ML)算法,尤其是深度学习(DL)算法,借助 GPU 及 AI 硬件来处理大量的数据集,处理效

13、率和准确度都得到了极大提升。 根据麦肯锡的一份有关 AI 技术及半导体价值的报告,要实现高效而准确的 AI 训练和推理,需要九层 AI 技术堆栈(见下图),其中最底层的硬件加速器可以实现高能效的并行处理,涉及处理器、内存、储存和网络方面的芯片。目前,执行 AI 加速的处理器仍然以 GPU为主,虽然 CPU、FPGA 和 ASIC 也有各自特定的 AI 应用优势。 九层 AI 技术堆栈,其中硬件加速器提供 AI 训练和推理所需要的算力。(来源:McKinsey) 据麦肯锡研究报告预测,AI 芯片将是半导体产业在未来 20 年内最佳的应用市场机遇。在其它科技领域,芯片通常只占整个技术价值链 10%

14、的价值。但在 AI 领域,芯片将从整体人工智能的技术价值链中获得 4050%的价值。AI 芯片已经成为半导体增速最快的细分市场之一,预计到 2025 年全球 AI 芯片市场将达到 100 亿美元的规模,现已成为国际芯片厂商、互联网巨头和初创公司争相角逐的前沿阵地。 作为一个新兴的半导体市场,AI 芯片的产业链涉及多个价值节点,其中有一些是高性能处理器芯片所共用的,但也有 AI 芯片所独有的价值链节点。从半导体产业的角度来看,AI 芯片价值链包括风险投资(VC)、技术人才(Talent)、芯片设计工具(EDA)、晶圆代工(Foundry),以及封装测试(OSAT)。下面我们将逐一阐述每个环节的价

15、值。 VC 从 AI 爆发中获益最大的当数英伟达,其 GPU 至今仍是全世界绝大多数数据中心 AI 加速的首选。英特尔和并购赛灵思之后的 AMD 也都在加大数据中心 AI 训练/推理及边缘计算 AI推理方面的资源投入。作为云端 AI 加速最大的应用场合,云计算平台服务商都在开发和部署各自的 AI 芯片和 AI 加速器。Google 基于特定域(DSA)架构的 TPU 已经发展到第四代,据称其第五代 TPU 将能够利用 AI 自动进行芯片布局设计。AWS 自研的高性能机器学习推理 AI 芯片 Inferentia 也已经批量部署到 AWS EC2 中。 再看国内 AI 芯片市场,阿里平头哥于 2

16、019 年发布的数据中心 AI 推理芯片含光 800 基于自研架构,采用 12nm 工艺,集成 170 亿晶体管,性能峰值算力达 820 TOPS,主要应用于阿里云服务平台。从百度独立出来的昆仑芯科技开发的 R 系列昆仑芯 2 代芯片是第二代云端通用 AI 推理处理器,基于 Arm 处理器平台,采用 XPU-R 架构和 7nm 先进工艺,算力达到256 TOPSINT8;128 TFLOPS XFP16/FP16。该芯片及加速卡已经在百度搜索引擎等广告等业务平台中部署超过 2 万片。 除了半导体和互联网巨头外,风险投资也纷纷在 AI 芯片赛道布局。据统计,截止 2022 年1 月,2021 年

17、国内 AI 芯片相关领域的融资共计 92 起,总金额约 300 亿人民币。下表列出了 2021 年国产 AI 芯片初创公司的融资情况。 2021 年中国 AI 芯片公司 VC 投资情况。(来源:亿欧智库) 获得融资的 AI 芯片公司超过 25 家,其中多家公司获得多轮融资,比如专注于云端 AI 推理芯片的瀚博半导体分别在 4 月和 12 月完成 A 轮和 B 轮融资,累积融资金额超过 21 亿元;地平线从 1 月到 6 月完成从 C1 轮到 C7 轮的融资,总额高达 15 亿美元;昆仑芯融资金额20 亿元;燧原科技融资金额 18 亿元;芯驰科技融资金额近 10 亿元。 技术人才 工信部人才交流

18、中心发布的数据显示,人工智能不同技术方向岗位的人才供需比均低于 0.4(人才供需比=进入该岗位的人才意向数量/岗位需求数量),其中 AI 芯片岗位人才供需比为 0.32;机器学习、自然语言处理等技术人才供需仅 0.2;而更为专业细分的智能语音、计算机视觉的人才供需比低至 0.09。 AI 领域和半导体领域的人才都比较短缺,而融合 AI 和芯片设计的分支领域更是急缺技术和设计人才。我们以“中国 AI 芯片第一股寒武纪”为例,来看一下 AI 芯片设计公司都需要哪类技术人才。 1. 芯片类:芯片设计工程师、芯片验证工程师、智能芯片(架构/设计)研究员、数字芯片设计工程师(DFT/综合/时序)、数字芯

19、片设计工程师(逻辑设计/SOC 设计)、芯片后端工程师、逻辑验证工程师、ESL 建模工程师、处理器开发工程师、前端 CAD 工程师、SRAM 版图工程师 2. 硬件类:SPICE Model 工程师、工艺工程师、固件开发工程师、芯片应用工程师、封装设计工程师、自动化测试开发工程师、SIPI 工程师 3. 软件类:分布式训练研发工程师、深度学习图编译器工程师、AI 平台研发工程师、高性能机器视觉库软件开发工程师、AI 高性能计算库研发工程师、AI 应用工程师、工程效率研发工程师、编译器研发工程师、计算机视觉软件工程师、虚拟化研发工程师、软件测试开发工程师、系统软件开发工程师、深度学习框架研发工程

20、师、性能优化工程师 4. 算法类:高性能深度学习库开发工程师、媒体算法工程师、深度学习算法研究员、AI/算法技术研究员(博士后) 5. 智能驾驶类:芯片、软件和算法方面的工程师。 国内 AI 芯片设计初创公司的创始团队大都拥有英伟达、AMD 和英特尔等全球高性能处理芯片巨头的工作经历,而一家融资过亿元的 AI 芯片公司的钱主要就是花费在技术研发人才的工资和福利待遇上,虽然芯片流片也花费不菲。经常有媒体报道芯片设计工程师的工资高达百万元,就连刚出校门的毕业生工资都达到 40 多万。这么高的工资待遇是不正常的,但市场供需就是这样也不得不接受。 国内大学开始设立集成电路学院和学科,但从头培养需要时间

21、,有经验的研发工程师更需要实际设计的实践才行。芯片设计公司融资难,但拿到钱后招人更难。国内 AI 芯片公司去台湾、美国和欧洲招人,去国际芯片公司挖人,以及相互之间挖墙脚,自然也就不足为怪了。 EDA 芯片的前端设计、验证和仿真,以及后端的工艺设计,都离不开 EDA 工具。据 Global Industry Analysts(GIA)最新发布的 EDA 工具报告统计预测,全球 EDA 工具市场规模2020 年约有 91 亿美元,2021 年约为 99 亿美元,预计到 2026 年将增长到 149 亿美元,从2020 到 2026 的年复合增长率(CAGR)为 8.7%。2021 年,美国市场约有

22、 18 亿美元,占全球EDA 市场的 19.5%。中国市场的增长率为 9.8%,预计到 2026 年将达到 28 亿美元。 多年来,全球 EDA 市场一直被 EDA 三巨头所统治,中国市场也不例外。EDA 可谓是半导体这个皇冠上的明珠,只有 100 亿美元规模的 EDA 却驱动着 5000 亿美元规模的全球半导体产业。鉴于其高度集中的技术和智力含量,以及其重要的“咽喉要塞”地位,EDA 也成了美国限制中国先进半导体发展的“卡脖子”武器。 半导体业界人士都知道 EDA 全流程的重要性,但国内 EDA 公司很少能够覆盖设计和验证全流程,大部分还是在“点工具”上突破,然后再往外拓展。像华大九天、概伦

23、电子、国微思尔芯,以及芯和半导体等国产 EDA 厂商都在各自擅长的 EDA 流程上深耕多年,同时开始借助资本市场融资或上市,以便为快速增长和长远发展奠定坚实的基础。 最近几年有 50 多家本土 EDA 初创公司进入市场,我们以“合见工软”为例来看一下国产EDA 的技术水平、解决棘手问题的能力及未来发展潜力。2021 年 3 月投入运营的合见工软由武岳峰资本创始人潘建岳担任董事长,原 Cadence 副总裁、中国及东南亚区总经理徐昀和原 Synopsys Fellow、研发副总裁郭立阜担任联席总裁,员工超过 400 人。合见工软拥有强大的投资人团队,除了武岳峰科创、国家集成电路产业投资基金(“国

24、家大基金”)、红杉资本、中国互联网投资基金外,合见工软的股东还包括联发科、韦尔股份、闻泰科技、澜起科技、瑞芯微、卓胜微、中兴通讯、华勤通讯等领先的芯片设计公司及其关联基金。到目前为止,合见工软融资近 20 亿元。 AI 芯片大都采用先进工艺节点(16nm 以下至 5nm,甚至 3nm)。随着芯片规模、集成度及设计复杂度的大幅提升,芯片设计、封装设计到系统设计的各个环节都对 EDA 工具提出了更高的要求。因此,先进的 EDA 解决方案是确保并加速 AI 芯片成功实现的强大支撑。合见工软着眼于数字验证全流程覆盖和系统级电子设计的 EDA 解决方案布局,已经陆续发布和规划了多款 EDA 产品以满足

25、AI 芯片的开发需求,其中包含原型验证系统、数字仿真器、验证效率提升平台、协同设计环境,以及设计数据管理平台等。 原型验证系统是 AI 芯片数字验证必不可少的 EDA 工具。合见工软的原型验证系统除了具备超大容量、高性能和缩短芯片开发周期等特点,还可以支持不同场景下不同硬件平台的自由切换,可以执行应用软件驱动的系统级验证、性能和调试并重的软硬件系统验证、仿真加速、虚拟原型、混合仿真验证等任务。已经发布的 UVAPS-VU19P 还提供了丰富的接口子卡,以适配各种接口验证,提供充足的互联通道;同时, 它还能够配合深度调试方案, 缩短测试周期, 加快 AI 芯片上市。 该产品采用 Xilinx V

26、U19P FPGA,适用于大规模 ASIC 原型验证及 SoC 开发,容量高达 46 亿门,可灵活堆叠,以满足超大规模原型验证需求。 数字仿真器是数字验证解决方案的核心引擎。合见工软已发布的数字仿真器产品(UVS)利用业界领先的编译及运行性能提升技术,可为客户设计提供可靠的数字验证运行环境。该产品支持业界标准的 Verilog、System Verilog 以及 UVM 验证方法,且支持通过 DPI 进行混合协同仿真。为便于产品快速升级迭代,该仿真器基于组件式设计,支持用户需求定制化,也可以分布式实施与云部署。此外,UVS 采用处理器架构原生目标代码生成方式和高性能约束求解引擎等先进技术,可将

27、仿真容量提升到数亿门级的设计规模。 合见工软正在逐步建立完善的数字验证生态体系,其中“验证效率提升平台”是一套完整的方法学、工具与解决方案的有机集成,可帮助 AI 芯片设计公司有效缩短产品开发周期。该平台可帮助用户精确对齐项目实施需求,从初期的验证计划制定、对所有验证任务的整体规划,到计算资源的高效分配与管理,再到对项目进度及覆盖率目标的精确追踪管理,并最终提供直观有效的分析报告,实现对验证计划的闭环迭代,进而从不同维度提升整体验证效率。另外,在验证过程中还可以对问题进行快速定位,这也是保证验证效率的必备组件。 众所周知,AI 芯片大都采用先进封装技术。先进封装设计与传统封装设计存在较大差异,

28、除电磁场、热、应力等问题以外,使用传统设计工具或方法无法应对协同设计上的挑战。合见工软针对这一痛点发布的协同设计环境(UVI)采用了业界首创的系统级网络连接检查技术,可在同一设计环境中导入各种格式的 IC、Interposer、Package 和 PCB 数据,并支持设计数据的灵活操作。UVI 能够基于物理、图形和数据等信息,根据不同应用需求,自动产生系统级互连关系网表、互连错误信息、网络断开类型及互连叠层信息等关键报告。此外,UVI 在处理大规模互连管脚数据时非常迅速,无论是命名一致性检查、链路通断检查还是管脚缺失互连检查,对于 100 万 Pin 的规模都可以在 8 秒内完成,并且可以支持

29、一对多 Pin 的基于面积算法的互连检查。开发人员利用 UVI 工具可以简化设计流程、提升工作效率、提高设计质量、精准定位设计错误,并覆盖所有节点和网络的检查。 除了合见工软外,很多国产 EDA 公司的产品也都获得了市场认可和客户验证,比如杭州行芯的 Signoff 工具链,鸿芯微纳的布局布线工具软件。EDA 这一利基市场的本土厂商将对中国半导体产业的长远发展创造巨大价值。 IP/Chiplet 现在的高性能 AI 芯片大都是采用异构集成、芯粒(Chiplet)和先进封装的系统级芯片。除了微处理器内核、GPU、高速网络互联 NiC 和 eFPGA 等高性能 IP 外,AI 芯片设计越来越多开始

30、集成类似乐高积木的 Chiplet。英特尔、AMD、TSMC、三星、Arm 等最近联合发布统一的 Chiplet 接口标准 Universal Chiplet Interconnect Express (UCIe)。 UCIe 是一种开放的行业标准互连,可在芯粒(Chiplet)之间提供高带宽、低延迟、高能效且具有成本效益的封装连接,它解决了跨越云端、边缘、企业、5G、汽车、高性能计算和移动设备的整个计算领域对计算、内存、存储和连接的增长需求。UCIe 可支持来自不同厂家芯片的集成,包括不同的晶圆厂、不同的设计和不同的封装技术。 芯粒的封装集成能够以快速且经济高效的方式提供定制解决方案。例如,

31、不同的应用可能需要不同的算力,但却采用相同的内核、内存和 I/O,如上图所示。芯粒技术还可以根据功能需求选择最适合的芯粒进行封装,比如内存、逻辑、模拟和一起封装的光学器件都需要不同的工艺,这些不同工艺的芯粒可以封装在一起。由于封装走线较短并可以提供密集布线,高带宽存储器(HBM)访问等应用就可以实现封装集成。 Chiplet 对于 AI 芯片的发展会有积极的影响,主要体现在以下几个方面: 1. 工艺选择灵活性 Chiplet 封装模式的最大优势之一就是在一个系统里可以集成多个工艺节点的芯片,因此可以支持 AI 芯片的快速开发,并降低设计实现成本。在目前的单芯片设计模式下,系统只能在一个工艺节点

32、上实现。而对于很多功能来说,使用成本高、风险大的最新工艺即没有必要又非常困难,比如一些专用加速功能和模拟设计。采用 Chiplet 模式,AI 芯片开发商在做整体系统设计的时候则有了更多的选择。对于追求性能极致的功能模块,比如高性能CPU,可以使用最新工艺。而其它特殊的功能模块,比如存储器、模拟接口和一些专用加速器,则可以按照需求选择性价比最高的方案。 Chiplet 对于 AI 芯片初创公司的快速发展尤其有利。AI 加速本身就是一个 DSA(专用域架构),其架构本身就是专门为特定运算定制的,具有很高的效率,即使选择差一两代的工艺也可以满足很多应用场景的要求。但目前大多初创公司都面临工艺选择的

33、困境,如果选择先进工艺,可能一次投片就需要数千万元。如果不选最新工艺,好像就输在了起跑线上。如果 Chiplet 模式可行,工艺选择就会更加理性,工艺虽不是最新但性价比最好的Chiplet 会让所开发的 AI 芯片更有竞争力。 2. 架构设计灵活性 以 Chiplet 构成的系统可以说是一个“超级”异构系统,可以为传统异构集成 SoC 增加新的维度,至少包括空间维度和工艺选择的维度。首先,先进的集成技术在 3D 空间的扩展可以极大提高芯片规模,这对 AI 算力的扩展和成本的降低有很大好处。第二,结合工艺灵活性,可以在架构设计上有更合理的功能/工艺权衡,有利于 AI SoC 或者 AIoT 芯片

34、更好的适应特定应用场景的需求。第三,系统的架构设计,特别是功能模块间的互联,有更多优化的空间。在当前的 AI 芯片架构中,数据流动是主要瓶颈。虽然 HBM 可以在一定程度上解决处理器和 DRAM 之间的数据流动问题,但价格过于昂贵。对于云端 AI 加速,Host CPU和 AI 加速芯片之间,以及多片加速芯片之间的互联,目前主要通过 PCIe、NvLink 或者直接用 SerDes 等。如果采用 Chiplet 方式,则是裸片之间的互联,带宽、延时和功耗都会有很大的改善。最后,目前的片上网络 NoC 是在一个硅片(2D)上的,而未来的 NoC 则可以扩展到硅片之间,特别是和 Active In

35、terposer 结合,就可能构成一个 3D 网络,其路由、拓扑及 QoS 都可以有更大优化空间。 3. 商业模式灵活性 在传统的 IP 供应商和芯片开发商之外,Chiplet 提供了一个新的选择。对于目前的 AI 芯片厂商来说,要么聚焦在 AI 加速部分,以 IP 形式或者外接硬件加速芯片的形式提供产品,要么走垂直领域,做集成 AI 加速功能的 SoC。对于前者来说,Chiplet 可以提供一个新的产品形式,增加潜在的市场应用,或者拉长一代产品(工艺)的生命周期。对后者来说,可以直接集成合适的 AI chiplet 而不是 IP,从而大大节省项目开发的时间。因此,可以预见,AI Chiple

36、t 会成为 AI 硬件复用和集成的重要形式。 采用芯片设计平台即服务(Silicon Platform as a Service, SiPaaS)模式的芯原微电子提出芯粒平台服务(Chiplet as a Platform)的理念,从实现 IP 芯粒化 (IP as a Chiplet)进一步提升至实现芯粒平台化 (Chiplet as a Platform),将为客户提供更加完备的基于 Chiplet 的平台化芯片定制解决方案。该公司去年开发的高端应用处理器平台采用 Chiplet 架构设计,从定义到流片返回仅用了 12 个月的时间。此外,这个高端应用处理器平台还集成了芯原的很多IP,包括神

37、经网络处理器 NPU、图像信号处理器 ISP、视频处理器 VPU、音频数字信号处理器和显示控制器等。芯原计划今年在其高端应用处理器平台的基础上,进一步推进Chiplet 技术和项目的产业化,主要面向手机、平板电脑、笔记本电脑等应用,同时还适用于自动驾驶应用。 在微处理器内核 IP 方面,AI 芯片大都采用高性能的 Arm Cortex A 系列处理器内核,最近两年基于 RSIC-V 内核的 AI 芯片设计也开始多起来(特别是边缘 AI)。针对中国市场和客户,安谋科技除了继续提供 Arm 微处理器系列 IP 外,还自主研发推出了 XPU 系列智能数据流计算平台,包括“周易”NPU、“星辰”CPU

38、、“山海”SPU 以及“玲珑”ISP 和 VPU 处理器产品线。安谋科技董事长兼总经理吴雄昂表示,该公司将采用兼容 Arm 架构 CPU +自研架构XPU 的双轮驱动战略,继续在自研架构智能数据流处理器和自主高性能处理器上充分发力,在智能汽车、边缘计算、数据中心、智能物联网、移动设备等各个领域全面支持中国半导体和科技产业的未来发展。这些应用领域都跟 AI 息息相关,自然 AI 芯片的设计也离不开 XPU 系列 IP。 晶圆代工(Foundry)和封装测试(ATP) AI 芯片大都采用 16nm 或更为先进的晶圆工艺。2021 年有多家国产 AI 芯片公司发布了采用 7nm 工艺的 AI 芯片,

39、其中包括:昆仑芯 2、寒武纪思元 290、天数智芯 GPGPU 芯片BI、芯擎科技“龍鹰一号”智能座舱芯片 SE1000,以及瀚博半导体 SV102 等。7nm 工艺芯片的流片成本高达数亿元,而芯片能否量产及未来应用前景尚不明确,为什么这些 AI 芯片初创公司仍趋之若鹜呢?难道只是拿着投资人的钱玩竞跑游戏吗? 美国乔治城大学发布的一份 AI 芯片研究报告对采用不同工艺节点的 AI 芯片进行了经济效益分析,通过量化模型揭示出先进工艺芯片相比旧的工艺节点的性能、效率和成本收益。 具有 5nm 芯片相对数量晶体管的不同工艺节点芯片的成本对比。(来源:CSET at Georgetown Univer

40、sity) 该分析模型基于这样的假设:一颗跟英伟达 16nm Tesla P100 GPU 裸片尺寸类似的服务器级别 5nm 芯片包含约 907 亿个晶体管(P100 裸片面积为 610 平方毫米,集成了 150 亿个晶体管)。假如从 7nm 往前直到 90nm 工艺节点的芯片都包含跟 5nm 芯片同样的晶体管数量,每个工艺节点的芯片在设计、晶圆代工、封装测试和工作运行阶段的不同成本有什么差别呢? 1. 晶圆代工厂给 IC 设计公司的价格(折合到每颗裸片):5nm 为 238 美元;7nm 为 233美元;16/12nm 为 311 美元 2. IC 设计公司的设计成本(假设芯片出货量为 50

41、0 万颗):5nm 为 108 美元;7nm 为110 美元;16/12nm 为 136 美元 3. 装配、测试和封装成本(折合到每颗芯片):5nm 为 80 美元;7nm 为 78 美元;16/12nm 为 92 美元 4. 总生产成本(折合到每颗芯片):5nm 为 426 美元;7nm 为 421 美元;16/12nm 为487 美元 5. 每年运营能耗成本(折合到每颗芯片):5nm 为 194 美元;7nm 为 242 美元;16/12nm 为 404 美元 研究人员从该成本分析模型得出两个结论:第一,在正常运营两年内,先进工艺(7/5nm)芯片的能耗成本就超过了其生产成本,采用旧工艺的

42、芯片(10nm 及以上)能耗成本增长更快。若综合考虑生产成本和运营成本,先进工艺芯片的成本效益是旧工艺芯片的 33 倍。 第二,对比 7nm 和 5nm 芯片,当正常运营使用 8.8 年时,二者的成本相当。这意味着,如果在 8.8 年以内更换芯片,7nm 更划算。鉴于数据中心 AI 训练和推理所用的 AI 加速器大都是 3 年更换一次,单从成本效益来看 7nm 芯片比 5nm 更划算。 以上分析也许适用于面向数据中心 AI 训练和推理的高性能 AI 芯片,但对面向边缘计算和终端设备的 AI 芯片来说,未必合适。针对高性能计算和云端 AI 的国产 AI 芯片设计公司为数不多,大部分 AI 芯片公

43、司都是面向边缘和终端应用市场,尤其是 AIoT 和智能安防应用场景。 45 家 AI 芯片厂商详细信息 下面我们将从核心技术、代表产品、典型应用场景和竞争优势等方面对这 45 家公司逐一分析。 公司简称公司简称中文名称中文名称英文名称英文名称公司总部公司总部 董事长/CEO董事长/CEO主要产品主要产品产品类别产品类别寒武纪寒武纪中科寒武纪科技股份有限公司Cambricon Technology北京陈天石思元290/270/370云端训练和推理燧原科技燧原科技上海燧原科技有限公司Enflame Technology上海赵立东邃思AI训练和推理芯片云端训练和推理鲲云科技鲲云科技深圳鲲云信息科技有

44、限公司Corerain Technologies深圳牛昕宇CAISA芯片云端训练和推理昆仑芯昆仑芯昆仑芯(北京)科技有限公司Kunlunxin北京欧阳剑昆仑芯1代和2代芯片云端训练和推理平头哥平头哥平头哥半导体有限公司T-Head杭州刘湘雯含光800 NPU云端训练和推理瀚博半导体瀚博半导体瀚博半导体(上海)有限公司Vastai Tech上海钱军SV100云端训练和推理华夏芯华夏芯华夏芯(北京)通用处理器技术有限公司Hua Xia GPT北京侯凤琴GP8300云端训练和推理墨芯墨芯墨芯人工智能科技(深圳)有限公司MOFFETT深圳王维ANTOUM AI芯片云端训练和推理沐曦集成电路沐曦集成电路

45、沐曦集成电路(上海)有限公司MetaX Integrated Circuits上海陈维良GPU/AI芯片云端训练和推理全志科技全志科技珠海全志科技股份有限公司Allwinner Technology珠海唐立华R329语音AI探境科技探境科技北京探境科技有限公司Intengine Technology北京鲁勇Voitist 611/612语音AI云知声云知声云知声智能科技股份有限公司Unisound北京梁家恩/黄伟蜂鸟语音AI芯片语音AI启英泰伦启英泰伦成都启英泰伦科技有限公司ChipIntelli成都何云鹏CI1122语音AI深聪智能深聪智能上海深聪半导体有限责任公司ShenSilicon上海

46、周伟达太行一代TH1520语音AI时擎科技时擎科技时擎智能科技(上海)有限公司Timesintelli Technology上海蒋寿美AT1611语音AI聆思智能聆思智能安徽聆思智能科技有限公司LISTENAI 合肥胡郁CSK3000/CSK4000语音AI酷芯微酷芯微上海酷芯微电子有限公司Artosyn上海沈泊/姚海平AR9341 视觉AI中星微中星微中星微技术股份有限公司Vimicro北京邓中翰星光智能系列芯片视觉AI瑞芯微瑞芯微瑞芯微电子股份有限公司Rockchip福州励民RK3588视觉AI肇观电子肇观电子上海肇观电子科技有限公司NextVPU (Shanghai) Co., Ltd.

47、上海冯歆鹏D163A视觉AI北京君正北京君正北京君正集成电路股份有限公司Ingenic北京刘强AI协处理器T02视觉AI清微智能清微智能北京清微智能科技有限公司Tsing Micro北京王博TX510视觉AI锐思智芯锐思智芯北京锐思智芯科技有限公司Alpsentek北京邓坚DVS芯片视觉AI埃瓦智能埃瓦智能上海埃瓦智能科技有限公司AIVA Tech上海王赟3D AI处理器视觉AI知存科技知存科技北京知存科技有限公司WitinMEM北京王绍迪WTM2101感存算AI时识科技时识科技成都时识科技有限公司SynSense成都乔宁Speck感存算AI九天睿芯九天睿芯深圳市九天睿芯科技有限公司REEXE

48、N深圳刘洪杰ADA 100/200/300感存算AI灵汐科技灵汐科技北京灵汐科技有限公司Lynxi Tech北京施路平/祝夭龙类脑芯片KA200感存算AI千芯科技千芯科技千芯半导体科技(北京)有限公司TensorChip北京陈巍可重构存算AI芯片感存算AI后摩智能后摩智能南京后摩智能科技有限公司HOUMO.AI南京吴强存算一体AI芯片感存算AI深思创芯深思创芯成都市深思创芯科技有限公司Deep Creatic成都刘洋神经形态芯片感存算AI华为海思华为海思深圳市海思半导体有限公司HiSilicon深圳何庭波Ascend 310/910边缘计算AI紫光展锐紫光展锐紫光展锐(上海)科技有限公司Uni

49、SoC上海任奇伟虎贲T710边缘计算AI杭州国芯杭州国芯杭州国芯科技股份有限公司Hangzhou Nationalchip杭州黄智杰GX8010边缘计算AI爱芯元智爱芯元智爱芯元智半导体(上海)有限公司AXERA Semiconductor上海仇肖莘AX620A/630A边缘计算AI嘉楠科技嘉楠科技北京嘉楠捷思信息技术有限公司Canaan Inc.北京张楠庚K210边缘计算AI比特大陆比特大陆算丰科技(北京)有限公司Sophon Technology 北京詹克团智算BM1684/1882边缘AI推理云天励飞云天励飞深圳云天励飞技术股份有限公司Intellifusion深圳陈宁DeepEye 2

50、000安防/人脸识别AI亿智电子亿智电子亿智电子科技有限公司Eeasy Technology 珠海陈峰SV/SA/SH系列安防/人脸识别AI依图科技依图科技上海依图网络科技有限公司YITU Tech上海朱珑QuestCore安防/人脸识别AI物奇微物奇微重庆物奇微电子有限公司WuQi Micro重庆郑建生3D人脸识别芯片安防/人脸识别AI地平线地平线北京地平线机器人技术研发有限公司Horizon Robotics北京余凯旭日3/征程5ADAS/自动驾驶AI黑芝麻智能黑芝麻智能黑芝麻智能科技有限公司Black Sesame Technologies上海单记章/刘卫红华山二号A1000/LADAS

51、/自动驾驶AI芯驰科技芯驰科技南京芯驰半导体科技有限公司SemiDrive南京仇雨菁X9/G9/V9/E3ADAS/自动驾驶AI芯擎科技芯擎科技湖北芯擎科技有限公司Siengine武汉汪凯智能座舱芯片SE1000ADAS/自动驾驶AI数据来源: 调查问卷、各公司官网、网络汇编制作: AspenCoreAspenCore瀚博半导体 核心技术:高性能通用 AI 处理架构 代表产品:SV100 系列 AI 推理芯片、VA 系列通用 AI 推理加速卡 应用场景:计算机视觉、智能视频处理应用、自然语言处理、云端和边缘计算应用 竞争优势:引入阿里巴巴和快手两家战略投资,在云端和边缘 AI 推理和视频处理方

52、面已经落地。目前拥有超过 400 人的研发团队。 燧原科技 核心技术:面向数据中心的云端 AI 训练和推理计算芯片、原始创新的“驭算”计算及编程平台 代表产品: 邃思 2.0 云端 AI 训练芯片、 邃思 2.5 云端 AI 推理芯片、 云燧 T20 AI 训练加速卡、云燧 T21 AI 训练加速模组、云燧 i20 云端推理加速卡 应用场景:面向数据中心的高性能云端训练和云端推理,针对泛互联网、传统行业如金融,交通,能源,医疗,以及智慧城市新基建等三大业务方向和应用场景。 竞争优势:2021 年 1 月获 18 亿人民币 C 轮融资,国内首家同时拥有第二代高性能云端训练和云端推理产品线的公司。

53、 灵汐科技 核心技术:类脑芯片领启 KA200 采用异构融合、众核并行、存算一体的架构技术,支持计算机科学和神经科学的神经网络模型,并支持两者融合的混合神经网络计算模型。 代表产品:类脑芯片领启 KA200、基于 KA200 的类脑计算板卡和服务器、软件工具链和系统软件。 应用场景:脑科学及脑仿真领域、拓展新的人工智能应用市场。 竞争优势:集成 30 个类脑计算核,各核可独立运行,支持矢量图计算。大规模片上分布式存储, 计算存储融合, 高带宽, 算传并行。 支持深度学习模型 (DNN) 、 类脑计算模型 (SNN)以及二者融合的异构模型, 融合计算机科学的高精度和类脑计算的高能效优点。 采用众

54、核预编译模式,支持数据驱动的众核控制模式和自动化物理映射,支持条件跳转、分支合并、事件触发等流水调度模式。 墨芯 核心技术:双稀疏算法技术 代表产品:ANTOUM 英腾处理器及疏云 AI 计算卡 应用场景:加速计算机视觉、自然语言处理、智能推荐、语音识别与合成、知识图谱等诸多云端推理场景。 竞争优势:ANTOUM 可以支持高达 32X 稀疏率。相比于目前的行业旗舰产品,英腾处理器(ANTOUM)能效比提高了 1 个数量级,单卡算力提高了 5-10 倍。同时它支持目前市场主流的开发框架及广泛的 AI 算子库和模型,可编译通过的神经网络模型超 200 个。 时擎科技 核心技术:RISC-V 端侧智

55、能处理器 Timesformer 代表产品:AT1611 端侧智能处理芯片 应用场景:全向麦克风,如会议宝、拾音器;语音对讲,如无线门铃、对讲机;语音识别和控制等。 竞争优势:时擎科技 AT1611 端侧智能处理芯片是一款全部基于 RISC-V 指令集的人工智能语音芯片,基于自研创新的 TIMESFORMER 智能计算架构和 DSA 处理器,从落地场景出发进行芯片架构层面的定制与优化,具有待机功耗低(约 10uA) 、唤醒时间短 (百 ms 级别)的特点,芯片能效比、性价比突出,能以接近 MCU 的成本、功耗完成应用处理器级别的应用性能。 深聪智能 核心技术:人工智能语音专用芯片 代表产品:“

56、算法+芯片”一体化解决方案。其中,太行一代芯片 TH1520 是公司第一代人工智能语音芯片产品,高性能、全链路语音算法以及低功耗的优势,可满足各种 IOT 产品多设备协同的场景需求。 应用场景:智能家居,智能车载,智能办公等。主要客户包括美的,海信,小米,松下,海尔,华为盯盯拍,雅迪集团等。 竞争优势:软硬一体化,即“算法+芯片”软硬融合解决方案。 埃瓦科技 核心技术:3D 视觉技术、AI 芯片 代表产品:追萤 3D AI 芯片、3D 人脸识别模组、深度相机 应用场景:机器人、扫地机、3D 人脸识别门锁、刷脸支付、AR/VR 等 竞争优势:自主研发 3D+AI 融合芯片,为客户提供高性价比的

57、3D 人脸识别和 3D 机器视觉解决方案。 沐曦集成电路 核心技术:高性能通用计算 GPU 芯片架构 主要产品:高性能 GPU 芯片及解决方案 关键应用:AI 训练、AI 推理、数据中心、科学计算、云游戏和元宇宙等多个前沿领域 竞争力:沐曦拥有顶配全建制团队,丰富 GPU 量产经验,完整软件生态能力和大量自主创新专利等四大核心竞争优势。 锐思智芯 核心技术:融合传统 CIS 和仿生传感器的 Hybrid Vision 技术 主要产品:机器视觉传感芯片 ALPIX 目标市场:汽车、机器人、AR/VR、工业监测、消费电子等。 深思创芯 核心技术:神经元状态共享技术、多模态感知和神经拟态计算、智能无

58、线技术 代表产品:神经拟态芯片 DeepBrain SS3301、深度学习芯片 Abacus Vi SS6500F、AI Analog系列芯片 应用场景:图像识别、智能控制、机器人等领域 竞争优势: 该公司在计算机视觉、 智能无线以及神经形态芯片等多个领域均有完备的技术积累和成熟的定制方案。 千芯科技 核心技术:可重构存算一体计算技术 代表产品:存算一体 AI 芯片、AI 计算 IP 核、CloudCard AI 推断/训练计算卡、EdgeCard 边缘 AI 计算板卡 应用场景:自然语言处理、医药计算、工业视觉、自动驾驶、智慧城市等 竞争优势:千芯科技通过自研存算一体技术,可提供能效比超过

59、10-100TOPS/W,优于其他类型 AI 芯片 10-40 倍的算力支持。 芯擎科技 核心技术:智能座舱核心自研技术 代表产品:“龍鹰一号”智能座舱芯片 SE1000 应用场景:智能驾驶、智能座舱 竞争优势:吉利汽车和一汽战略投资,从智能座舱芯片切入智能驾驶市场,产品线将覆盖智能汽车应用全场景, 包括“智能座舱芯片、 自动驾驶芯片、 车载中央处理器芯片”三条产品线。 芯驰科技 核心技术:智能驾驶、域控制器网关和微处理器 代表产品:智能座舱芯片 X9;域控制器网关芯片 G9;自动驾驶芯片 V9;车规级 MCU E3 应用场景:智能驾驶、汽车电子 竞争优势:产品覆盖智能座舱、自动驾驶、网关和

60、MCU,涵盖了未来汽车电子电气架构最核心的芯片类别。获得 ISO 26262 功能安全流程认证、AEC-Q100 可靠性认证、ISO26262 功能安全产品认证以及国密认证。 后摩智能 核心技术:SRAM-CIM 技术 代表产品:存算一体大算力 AI 芯片 应用场景:智能驾驶、泛机器人、无人车等边缘 AI 应用场景 竞争优势: 与传统冯诺依曼架构下的大算力芯片相比, 后摩智能的存算一体芯片在算力、 能效比和成本等方面, 都能体现出显著的优势。 该公司最近又完成数亿人民币 Pre-A+轮融资。 物奇微 核心技术:人脸识别和 3D 深度成像技术 代表产品:AI 能效管理 SoC 芯片、3D 人脸识

61、别 SoC 芯片 应用场景:可穿戴设备、智能安防终端应用 竞争优势:融合有线和无线通信技术,面向物联网和智能终端产品。 中星微 核心技术:边缘多维智能协同感知技术 代表产品:星光智能一号 VC0718、星光智能二号 VC0718P、星光智能三号 VC0768 应用场景:智能安防摄像机、机器视觉 AIOT 应用 竞争优势:主导开发公共安全 SVAC 国家标准,针对边缘智能的协同感知机器视觉编解码标准,参与星光中国芯工程及一系列智能安防视频应用方案。 聆思智能 核心技术: MCU+DSP+NPU 的多核异构芯片架构、 BT+BLE+WIFI 三合一无线通讯单元设计、多级感知音频处理专用芯片电路设计

62、 代表产品:CSK 系列芯片 已推出 CSK3000、CSK4000 两款芯片;CSK6000 系列芯片将于今年 Q2 正式发售 应用场景:围绕家电家居、办公教育、车载等多领域定制化研发配套算法库,打造软硬一体解决方案。目前已有空调、冰箱、扫描笔、会议宝、头盔、车载等数十种解决方案。 竞争优势: 软硬协同的智能算法库设计, 与行业领先的科大讯飞深度合作, 实现“芯片+算法”集成优化,为芯片提供配套的智能算法库。 爱芯元智 核心技术:混和精度 NPU、AI-ISP 代表产品:AX630A、AX620A。其中 AX620A 是一款高算力、高能效比、低功耗的 AI SoC 芯片,集成了四核 Cort

63、ex A7 CPU,14.4TOPsINT4 或 3.6TOPsINT8 的高算力 NPU,支持4K30fps 的 ISP,以及支持 H.264、H.265 编码的 VPU。 应用场景: 智慧城市、 智能家居等领域, 尤其在智能网络摄像机、 智能工业相机、 门禁设备、运动相机、快速唤醒类产品范畴 竞争优势:拥有混和精度 NPU 和 AI-ISP 两大自研核心技术,具备高算力、高能效比的技术特点,可有效提高芯片产品的能效比,获得更优的画质效果。 九天睿芯 核心技术:模拟预处理与模数混合信号存内计算技术 代表产品: ADA200 是基于感存算一体芯片架构的多传感器芯片融合处理芯片, 可在超低功耗下

64、(低于 1mW)下进行声音、视觉,以及其他时序信号类传感器的融合处理,可广泛应用于智能手机,可穿戴,智能家居,工业,医疗等一系列对低功耗、高能效比有需求的应用场景。 应用场景:工业领域 - AON 唤醒下的声音异常触发;安防领域 - AON 下的人形检测触发;消费类领域 - 个人设备(手机,手表)的人脸唤醒,图像识别;XR 眼动追踪,视觉辨识;机器人、自动驾驶领域:视觉辅助系统。 竞争优势:九天睿芯自主创新的“感存算一体”芯片架构是由 ASP(模拟特征预处理)+ADA(基于 6T SRAM 的模数混合信号存内计算)两部分组成。ASP 类似 DSP(数字信号处理)模拟版本,可以在模拟信号端直接进

65、行信号的特征分析和提取;这样可以在 ADC 之前,有效提取有效信号,去除掉冗余信号;大大降低 ADC 的工作负载,从而实现低功耗,高效率的计算工作。ADA 基于 6T SRAM 的模数混合信号存内计算 AI 加速器,可实现超高能效比。 时识科技 核心技术:事件驱动的神经形态动态视觉处理、基于脉冲神经网络(SNN)的低功耗语音信号处理、身体信号实时检测处理,横跨类脑感知与计算 代表产品:SynSense 时识科技“感算一体”动态视觉智能 SoCSpeck,以单 SoC 芯片集成独有的 DYNAP-CNN 动态视觉专用处理器+DVS 传感器阵列, 基于类脑感知及计算、 纯异步数字电路设计,对像素级

66、大规模动态数据流实时处理,为针对设备端应用的亚毫瓦级、实时视觉边缘运算解决方案。 应用场景: 针对端侧感知及计算, 适用于手势控制、 行为检测、 跌倒检测、 高速避障等场景,主要可应用于智能家居、智能玩具、智慧交通、智能座舱、无人机等领域。 竞争优势:SynSense 时识科技仿生类脑智能,实现架构与算法的双重突破,视觉、语音类产品矩阵基于仿生神经网络优势,将响应延迟降低 10-100 倍,功耗降低 100-1000 倍,成本降低 10 倍。 清微智能 核心技术:可重构计算(CGRA) 代表产品:TX510 面向边缘计算的超低功耗视觉处理芯片,以可重构计算架构实现高性能计算,低功率消耗,能效比

67、达国际知名企业同类芯片的 3-5 倍,灵活支持多种目标识别、人脸识别、 3D 视觉等算法, 支持丰富的扩展应用 (在一些垂直领域, 市场占有率达到 60%以上) 。 应用场景:智能安防、智能家居、机器人、航空航天等。 竞争优势: 清微智能的可重构智能芯片是基于可重构数据流/控制流计算架构的AI芯片类型,具有按需即时重构、高能效、低功耗、通用性特点,可重构计算是后摩尔时代的颠覆性技术之一,清微是第一家将该技术大规模商用的公司。 华夏芯 核心技术:Unity 指令集架构 代表产品:GPTX1/GPTX2 CPU 内核 IP、GP3600 DSP 芯片、GP8300 AI 处理器 应用场景:嵌入式应

68、用、辅助驾驶(ADAS) 、智能监控、机器人、边缘计算等应用。 竞争优势:多核异构计算处理器 IP。 平头哥 核心技术:自研 NPU 架构 代表产品:含光 800 AI 芯片 应用场景:阿里云平台、电商智能搜索 竞争优势:依托阿里平台,为阿里云提供 AI 计算能力。 昆仑芯科技 核心技术:自研 XPU-R 架构 代表产品:昆仑芯 1 代和 2 代芯片、K100/K200 AI 加速卡、R200 AI 加速卡、R480 -X8 AI 加速器组 应用场景:互联网、智慧城市、智算中心、智慧工业、智慧应急、智慧交通、智慧金融等“智慧+”产业。 竞争优势:大规模落地验证、工程化经验积累;深刻的场景理解、

69、全方位的产品视角;稳定的核心团队、全面的技术沉淀;自研核心架构、顶尖互联网公司软件栈水准。 华为海思 核心技术:自研华为达芬奇架构 NPU、3D Cube 技术; 代表产品:昇腾(Ascend)310 是一款高能效、灵活可编程的人工智能处理器,在典型配置下可以输出 16TOPSINT8、8TOPSFP16,功耗仅为 8W。昇腾 310 采用华为自研达芬奇架构 NPU,以高性能 3D Cube 计算引擎为基础,大幅提高单位功耗下的 AI 算力。全 AI 业务流程加速,大幅提高 AI 全系统的性能,有效降低部署成本。 昇腾 (Ascend) 910 是海思系列中算力最强的 AI 处理器, 基于自研

70、华为达芬奇架构 3D Cube技术,实现最佳 AI 性能与能效平衡,架构灵活伸缩,支持云边端全栈全场景应用。在算力方面,昇腾 910 在八位整数精度(INT8)下的算力达到 640 TOPS,16 位浮点数(FP16)下的算力达到 320 TFLOPS,最大功耗仅为 310W。 应用场景:海思以全场景 AI 芯片昇腾系列助力 AI 从中心侧向边缘侧延伸,面向数字中心、边缘、消费终端和 IoT 场景,可为平安城市、自动驾驶、云业务和 IT 智能、智能制造、机器人等应用场景提供完整的 AI 解决方案。 紫光展锐 核心技术:异构双核 NPU 架构、自研 API 代表产品:虎贲 T710 采用异构双核

71、 NPU 架构,支持业界主流 AI 训练框架,自研 API 可提高算法效率。性能:4 x A75 2.0GHz + 4 x A55 1.8GHz;影像:4800 万(4in1)摄像头、4K30fps 编解码、超级夜景、防抖等功能。 应用场景:适用工业、商业、医疗、家居、教育等场景。 地平线 核心技术:人工智能专用计算架构 BPU 代表产品:车规级 AI 芯片征程 2/3/5;AIoT 边缘 AI 芯片平台旭日 2/3。 应用场景:汽车 ADAS/自动驾驶、AIoT 边缘计算。地平线自主研发兼具极致效能与高效灵活的边缘人工智能芯片及解决方案, 可面向智能驾驶以及更广泛的智能物联网领域, 提供包括

72、边缘 AI 芯片、丰富算法 IP、开放工具链等在内的全方位赋能服务。 竞争优势:中国唯一实现车规级 AI 芯片前装量产的企业。地平线第三代车规级产品征程 5是遵循 ISO 26262 功能安全认证流程开发,并通过 ASIL-B 认证的车规级 AI 芯片;征程系列 AI 芯片出货量已经超过百万,与众多主机厂实现前装量产合作。 寒武纪 核心技术:智能处理器架构MLUarch03和MLUv02架构、Cambricon NeuWare、推理加速引擎 MagicMind 代表产品:思元 290/270/370/220 系列 AI 芯片;终端智能处理器 IP、云端智能芯片及加速卡、边缘智能芯片及加速卡以及

73、基础系统软件平台。 应用场景:通用型云端训练和边缘/终端推理 AI 方案。 竞争优势:AI 核心技术和人才团队优势;同时为云端、边缘端、终端提供全品类系列化智能芯片和处理器产品的能力。 比特大陆 核心技术:自主研发 TPU 架构 代表产品:智算边缘 AI 芯片 BM1682 和 BM1684,终端 AI 视觉处理器;智算卡和服务器 应用场景:视频分析、机器视觉、高性能计算环境 竞争优势:硬件和软件生态。 云天励飞 核心技术:算法+芯片+大数据,构建全栈 AI 代表产品:DeepEye 2000、DeepEdge 10/50/100 应用场景:智能安防、新商业、智慧交通、智能制造、智慧仓储、智能

74、家居、机器人、智能超算等多个行业及领域应用。 全志科技 核心技术:高清音视频编解码技术、高清数字电视信号解调技术 代表产品:V535 是全志科技研发的新一代智能行车专用处理器,是集图像视频处理和 AI 视觉于一体的高性能、高集成度、高稳定性的工业级芯片;V535 针对客户需求实现多项突破性创新设计及优化,可在多路图像实时编解码同时具备 AI(如:车、人)检测识别等功能。 应用场景:智能行车记录和驾驶行为检测类产品,包括车载全盲区 AI 监测预警仪、驾驶员行为检测仪等。 瑞芯微 核心技术:应用处理器技术 代表产品: RK3588 是瑞芯微新一代旗舰级高端处理器, 具有高算力、 低功耗、 超强多媒

75、体、丰富数据接口等特点。搭载四核 A76+四核 A55 的八核 CPU 和 ARM G610MP4 GPU,内置 6 TOPs 算力的 NPU。其它产品还包括智能应用处理器芯片、智能物联应用处理器芯片、电源管理芯片等。 应用场景:平板/笔记本、智能物联硬件、AIoT 行业类应用。 鲲云科技 核心技术:自主研发推出定制数据流 CAISA 架构和编译工具链 RainBuilder 代表产品:数据流 AI 芯片 CAISA 搭载了四个 CAISA 3.0 引擎,峰值性能可达 10.9TOPs,具有超过 1.6 万个 MAC(乘累加)单元以及所有辅助逻辑。为支持较高的硬件资源利用率,同时设计了分布式数

76、据流缓存, 为每个CAISA引擎提供超过340Gbps的带宽, 可实现最高95.4%的芯片利用率;CAISA 引擎本身基于对常用神经网络模型的计算量统计进行优化,其不仅为常见的神经网络计算(如 Pooling,ReLU 等)实现了专用的硬件计算模块,且与卷积计算的比例经过平衡, 可在常用 AI 算法中实现最佳性能, 满足不断增长的边缘侧和 IDC 算力需求,为客户提供更高的算力性价比。 应用场景:基于 CAISA 芯片,鲲云科技推出面向边缘端、数据中心进行深度学习推断的 AI专用计算加速的星空加速卡 X3,定位于高性能 AI 推断加速,星空加速卡兼容 TensorFlow、PyTorch、Ca

77、ffe、ONNX(MXNet) 等主流框架,可简单快速实现 AI 算法模型到硬件上的无缝迁移,充分体现其高算力性价比、高通用性和高软件易用性。目前星空加速卡 X3 已应用于航空航天、智慧城市、安防、安全生产、电力、工业等领域。 依图科技 核心技术:计算机视觉技术、语音识别技术、自然语言理解技术 代表产品:求索 AI 芯片,以及基于求索芯片的原石系列服务器、前沿系列边缘计算设备。 应用场景:人脸识别、语音识别、医疗等。 竞争优势: 以人工智能芯片技术和算法技术为核心, 研发及销售包含人工智能算力硬件和软件在内的人工智能解决方案。解决方案的形态主要包括软件、硬件、软硬件组合以及 SaaS 服务等。

78、 启英泰伦 核心技术:脑神经网络处理器核(BNPU) 、语音识别、声纹识别、自然语言处理、麦克风降噪增强技术 代表产品: CI100X系列、 CI110X系列、 CI112X系列。 二代语音芯片CI110X系列 (CI1102/CI1103)性能较一代芯片有了很大提升,增加了声纹识别、波束形成、语音定向、离在线识别、本地命令词学习等更丰富的功能,成本也下降了很多,功耗甚至降到 1/3。成本更低的升级版语音芯片 CI1122,在算法方面,5dB 信噪比噪声环境下识别率可以达到 85%以上,意味着像油烟机这种高噪声设备都可以轻松进行语音控制。 应用场景:智能语音、智能家居。 知存科技 核心技术:

79、存算一体中最高效的存内计算技术, 具备高算力、 多应用、 全面领先的优势特点。代表产品:WTM2101 国际首个存算一体 SoC 芯片,基于存算一体技术,高算力与低功耗可兼得,50Gops 8-bit AI 算力,5uA-3mA,同时实现 NN VAD、上百条命令词连续识别、AI 通话降噪、实时健康监测,WLCSP(2.6mmx3.2mm) 极小封装尺寸 应用场景:智能语音、智能视觉、可穿戴设备、移动设备等。 竞争优势:WTM2101 的存内计算单元可以运行几十 Mops 到几 Gops 的不同类型深度学习算法,功耗低至亚毫安。可同时运行多个深度学习算法,应用在语音识别、语音增强、健康监测、环

80、境识别、远场唤醒、事件检测等多个应用场景。与主流数字 NPU、DSP 相比,WTM2101 可提高算力数十倍。2022 年 3 月,WTM2101 已正式量产并推向市场。 亿智电子 核心技术:NPU、多场景 AI 算法、数模混合类 IP 设计、操作系统及软件技术 代表产品:SV823 系列 AI 芯片集成自研 NPU、具备高性能的图像处理和编解码能力,主要应用于智能安防场景。该系列芯片采用智能 H.265+编码技术,可降低编码码率,有效节省硬盘空间;并集成专业安防级别的 ISP,支持 23 帧宽动态融合技术和自适应降噪技术,在逆光和低照度环境下表现出色,让摄像机看清丰富细节。 主要应用:SV

81、系列芯片主要应用于视像安防领域,如:如前端智能摄像机、智慧门禁机等产品;SA 系列芯片主要应用于汽车电子,如:DMS+BSD,智能 DVR 等;SH 系列芯片主要应用于智能硬件,如:智能家电,教育类智能硬件等。 竞争优势:以 SoC 级的芯片整合设计和 AI 算法为核心的整体交付服务。IP 高度自主研发,面向端侧 AI 场景可精准设计 SoC 芯片产品矩阵。 黑芝麻智能 核心技术:两大核心自研 IPNeuralIQISP 图像信号处理器及高性能深度神经网络算法平台 DynamAI NN 引擎。 代表产品:黑芝麻智能基于两大自研 IP 发布了多款芯片产品。华山二号 A1000 自动驾驶计算芯片算

82、力达 58-116TOPS,处于量产状态,今年量产上车,A1000 已经完成所有车规级认证,是算力最大、性能最强的自动驾驶芯片,同时也将是首个量产的符合车规、单芯片支持行泊一体域控制器的国产芯片平台。 应用场景: 黑芝麻智能能够提供完整的自动驾驶、 车路协同解决方案, 包括基于车规级设计、学习型图像处理、 低功耗精准感知的自动驾驶感知计算芯片和自动驾驶计算平台, 支撑自动驾驶产业链相关产品方案的快速产业化落地。 竞争优势:黑芝麻智能已经建立起完善的客户赋能体系,包含芯片、算法、数据、软件和工具,全维度赋能车厂安全、快速地实现产品落地。 肇观电子 核心技术:人工智能计算机视觉处理技术 代表产品:

83、N 系列、D 系列、V 系列芯片。N 系列芯片是针对超高清 AI 智能摄像头产品开发的低功耗高性能 SoC 芯片,分别提供 8M/4M/2M 像素级别图像采集处理能力,最高算力可达到 2.4TOPS。支持高质量的 ISP 处理,内置 3D 降噪和动态对比度提升模块,并集成了HDR 专利技术。D163A 芯片是针对机器人和 3D 视觉智能摄像头产品开发的一款低功耗高性能 SoC 芯片。 在 N163 芯片的基础上, 增加了高性能的双目深度视觉处理的独立硬件 IP,能够实时输出深度图像。同时,提供了更加丰富的外围接口,以适用机器人等智能终端的开发需求。 V163A 芯片在 D163 的基础上, 性

84、能更进一步, 已通过 AEC-Q100 Grade 2 标准。 可用于 ADAS 辅助驾驶等专业车载应用。 应用场景:专业安防、辅助驾驶、机器人、家用摄像、人脸识别等领域。 探境科技 核心技术:存储优先的芯片架构 SFA (Storage First Architecture ),以存储驱动计算打破存储墙针对 AI 计算“高差异、高并发、高耦合”特性。 代表产品:语音芯片第一代产品 VOI611,具备识别好、功耗低、易集成等特点 语音芯片第二代产品,在集成度、功耗和低 BOM 成本都实现了新的突破,并支持离在线一体化设计,共包括经典版 VOI311(可实现 20 字以内的语音命令) 、升级版

85、VOI621(第一代的继承版,可做更多的语音前端处理)和增强版 VOI721(算力大幅提升,可进行动态的数据压缩,并支持高端的自然语义理解算法)三款芯片。 应用场景: 边缘计算、智能家居。 嘉楠科技 核心技术:基于 RISC-V 架构的边缘智能计算、神经网络加速器 代表产品:第一代 AI 芯片勘智 K210,基于 RISC-V 架构自主知识产权商用边缘 AI 芯片;第二代芯片勘智 K510 比一代芯片提升了 3 倍的算力, 主要针对端侧进行多路高清视频的处理。应用场景:AI STEAM 教育、机器人、智能家居和辅助驾驶等领域。 云知声 核心技术: 语音感知、 认知和表达、 超算平台与图像、 机

86、器翻译等多模态人工智能硬核技术。 代表产品: 蜂鸟芯片是专为智能家居设计的异构 SoC, 是最新一代专门为离在线远场语音交互场景设计的高性能、 高集成度、 低成本的语音智能 IoT 芯片, 主要面对智能家电、 小家电、灯具、智能插座等产品领域。其特性如下:VAD+DSP+NPU+CPU 异步低功耗架构;前端信号处理 DSP,性能是 HiFi4 的两倍;提供更好的降噪,增强,BF 等功能;高效神经网络处理器提供更快速和准确语音识别;内置 1.5MB SRAM;支持安全启动;支持 100 条本地离线指令识别;RTOS 轻量系统;丰富的外围接口;芯片正常工作功耗 100mW。 应用场景:提供跨硬件平

87、台、跨应用场景,端云一体的人工智能整体解决方案,广泛应用于家居、医疗、金融、教育、交通、汽车、地产等领域。 酷芯微 核心技术:智能感知、智能计算、智能传输三大核心技术 代表产品: AR9341 采用 CPU+DSP+NPU 的异构运算, 集成了酷芯微电子自研的第二代 HiFi-ISP 技术,在 2D 降噪、3D 降噪、HDR、去雾、边缘增强等各方面达到行业极高的水平,同时内部集成红外热成像图像增强的技术,具有更加广泛的适应性。 应用场景:高端智能 IPC、车载辅助驾驶、边缘计算盒子、智能机器人等。 杭州国芯 核心技术:神经网络处理器 gxNPU 技术、数字电视、IoT AI 代表产品:GX80

88、02 超低功耗 AI 语音芯片;GX8010 物联网人工智能芯片;GX8009 AI 语音SoC 芯片;GX8008 AI 语音处理芯片;GX8001 YOC 芯片。AI 产品采用多核异构,有 NPU、ARM、C-Sky、DSP 等架构,低功耗语音唤醒算法,双麦阵列降噪算法,VAD 检测算法,离线 ASR 算法,神经网络压缩算法。 应用场景:智能车载、智能音箱、智能家居、智能穿戴等多个应用领域。已和阿里巴巴、京东、百度、360、Rokid、出门问问、科大讯飞、声智、思必驰、创维、TCL、海尔等公司达成深入合作。 北京君正 专业级视觉AI应用协处理器T02拥有高达8T的计算能力, 全速运行情况下

89、功耗仅需1.5W,可以搭配各大平台实现视频结构化车牌、 车型、 人脸、 人形, 一颗芯片完成人形、 车辆、非机动车检测及人脸识别、车牌识别、人车属性分析。搭载 T02 协处理器的产品已经广泛应用于平安城市、电力、学校等多种安防项目中。 最新一代智能视频 SoC 芯片 T31 系列采用 22 纳米工艺,拥有高达 1.8G 的主频,最高支持500 万 25 帧,并有 BGA 和 QFN 两种封装方式。T31 系列芯片包括 T31L 和 T31A,可在设备端集成北京君正的系列深度学习算法,包括深度学习的人形、人脸、车牌的检测和识别。相较于传统的 CV 算法,北京君正深度学习算法更高效,在复杂环境如遮

90、挡、大角度等场景下更准确,解决了 CV 算法的痛点,从容赋能端级 AI。 结语 AI 在数据中心和云计算、边缘计算,以及各种智能终端领域的应用为 AI 芯片带来了巨大的发展机会。在新兴的 AI 芯片细分市场,国产厂商与国际芯片巨头几乎在同一起跑线上,尤其是边缘和端侧应用场景。 尽管国产 AI 芯片公司在高性能和先进工艺 AI 芯片的设计方面还面临诸多挑战,而且在 AI 芯片价值链的 EDA 和 IP 环节上还有不小的差距,但中国 AI 市场的体量和快速迭代发展仍然为众多国产 AI 芯片厂商提供了丰富的试验基地和应用设计机会,接下来的 3-5 年将是国产 AI 芯片厂商加速 AI 应用落地和大规模部署的快速发展时期。

友情提示

1、下载报告失败解决办法
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。

本文(瀚博半导体:45家国产AI芯片厂商调研分析报告(2022)(24页).pdf)为本站 (淡然如水) 主动上传,三个皮匠报告文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三个皮匠报告文库(点击联系客服),我们立即给予删除!

温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。
会员购买
客服

专属顾问

商务合作

机构入驻、侵权投诉、商务合作

服务号

三个皮匠报告官方公众号

回到顶部