《安谋科技:车载智能计算芯片白皮书(2023版)(48页).pdf》由会员分享,可在线阅读,更多相关《安谋科技:车载智能计算芯片白皮书(2023版)(48页).pdf(48页珍藏版)》请在三个皮匠报告上搜索。
1、 车载智能计算芯片白皮书(2023)编写单位(排名不分先后)安谋科技(中国)有限公司 北京地平线机器人技术研发有限公司 湖北芯擎科技有限公司 南京芯驰半导体科技有限公司 智协慧同(北京)科技有限公司 撰写名单(排名不分先后)赵永超、李星宇、曾霖、陈江杉、吴彤、马飞、柯庆华、史博、叶斌、耿建华、舒杰、陶宇、程浩、鲍鹏、牛国浩、胡勇、黄伟伟、徐鹤等 版权声明:本白皮书版权属于安谋科技(中国)有限公司、北京地平线机器人技术研发有限公司、湖北芯擎科技有限公司、南京芯驰半导体科技有限公司和智协慧同(北京)科技有限公司,并受法律保护。车载智能计算芯片白皮书(2023)目录 一、背景.4 二、车载智能计算趋
2、势与挑战.5 1.传感器及控制单元复杂繁多.5 2.环境感知融合带来实时数据处理挑战.6 3.算法模型尚不能很好应对长尾场景.7 4.AI 算法演进周期快于智能芯片设计周期.8 5.大算力低功耗的车载智能计算芯片方案缺乏.8 6.功能安全是底线.9 三、软件定义汽车.10 1.软件定义汽车的驱动力.11 2.系统架构革新.12 3.云原生技术极大提升研发效率.15 4.边缘算力预埋与车云协同计算提升汽车长期价值.17 四、异构计算芯片.19 1.车载智能计算 SoC 架构.21 2.能耗与性能.22 3.功能安全.24 4.信息安全.27 五、车载智能计算软硬协同优化.29 1.自动驾驶算法向
3、端到端大模型演进.29 2.软硬协同优化的难点.30 3.NPU 软硬协同设计创新.35 4.异构感知计算流水线优化.36 5.辅助驾驶、自动驾驶案例.37 6.智能座舱案例.43 六、总结与展望.47 车载智能计算芯片白皮书(2023)4 一、背景 智能化、面向服务的基础架构、软件定义汽车等已经成为各大汽车厂商竞相追逐的热点和差异化的焦点。高算力域控制器、智能座舱、辅助驾驶、自动驾驶等人工智能算法应用越来越受到各大汽车制造商、汽车零部件供应商、算法和系统集成商的重视和关注,并迅速成为投资和竞争的重点。软件和算法在智能驾驶汽车中越来越重要而且成为了差异化竞争的关键。软件价值的提升意味着未来汽车
4、更多的创新将集中在电子和软件部分。领先的底层架构、出色的软件迭代、持续优化和不断进化的硬件技术,将加速整个汽车行业的转型与变革。随着芯片技术、硬件技术、软件技术、人工智能、深度学习算法等迅猛发展,智能计算已是大势所趋,车载智能计算软硬件平台和服务的竞争在汽车行业中将会越来越激烈。据 IHS 调研的数据显示,中国购车消费者对于智能座舱科技的关注度要高于美国、日本、英国等多个国家,对于座舱智能科技水平的关注仅次于安全配置,甚至超过动力、价格、能耗等指标。据HIS调研预测,到 2030年,汽车智能座舱的全球市场规模将达到 681亿美元,而中国市场规模将超过1600 亿元;全球占比将超过 37%,成为
5、全球主要的智能座舱消费市场。另据 Tractica 预测,2025 年汽车人工智能硬件、软件和服务市场将达到 265 亿美元。麦肯锡的一份调研也显示,2030 年全自动驾驶汽车可能占全球乘用车销量的 15%,2040 年时,将上升到 80%。自动驾驶目前是一个相对新生的市场,相信随着人工智能技术、法律监管的完善以及消费者接受度的提升,自动驾驶市场会进一步扩大。当然,人工智能技术是实现汽车智能化的最核心要素之一,它包括机器学习、深度学习、自然语言处理、计算机视觉等软件工程、算法的演化。其中算法模型的演化需求,以及纷繁复杂的应用场景,极大驱动了车载智能计算芯片创新。今年以来,ChatGPT 的惊人
6、效果标志着人工智能领域的又一次重大里程碑,同时还掀起了一场深刻的软件开发变革,这就是大数据和大模型驱动的软件开发 2.0 新范式,将在未来的数年内深刻影响车载智能计算的发展路径。车载智能计算芯片白皮书(2023)5 与PC、手机的发展历史所展现的规律一样,智能计算芯片演进速度在极大程度上决定了整车智能化的演进速度,是产业发展的风向标,今天,在智能汽车百年巨变的时代背景下,车载智能计算芯片迎来了高速发展的机遇期。智能汽车未来将有机会在实现“零事故”、“零排放”和“零拥堵”的宏伟愿景中发挥重要作用。本报告将从车载智能计算趋势与挑战、软件定义汽车趋势、车载异构计算芯片,以及软硬协同设计角度,阐述车载
7、智能计算软硬件平台的发展机遇与创新实践。二、车载智能计算趋势与挑战 辅助驾驶、自动驾驶以及智能座舱是跨越人工智能、高性能芯片、通信技术、传感器技术、车辆控制技术、操作系统等基础软硬件以及功能安全要求等多领域的系统工程,落地技术难度大,主要体现在如下几点:1.传感器及控制单元复杂繁多 车辆中的传感器与各种电子电气系统的信息传输与控制都由汽车电子控制器(ECU)完成,ECU 在制动系统、变速系统、悬架系统、安全系统、驱动系统,以及自动驾驶、辅助驾驶、智能座舱等都有广泛应用,据统计 2019 年中国汽车单车 ECU 数量大约为 20 30 个,目前的智能化较高的车型,主要 ECU 数量可能超过 10
8、0 个。车载智能计算芯片白皮书(2023)6 图一:自动驾驶传感器及软件 如图一所示,自动驾驶主要分为感知层、决策层和执行层。感知层主要通过激光、摄像头、GPS、陀螺仪等传感器获取车辆所处环境和车辆状态信息,比如:行人检测、车辆检测、车道线检测、红绿灯识别、交通标识牌识别、障碍物识别和车辆定位等;决策层根据路线规划、所处的环境以及车辆自身状态等规划下一步具体行驶任务(车道保持、换道、跟车、超车、避撞等)、行为(加速、减速、转向等)和路径(行驶轨迹);执行层则基于车辆动力控制系统对车辆进行转向、制动、驱动等控制,使车辆按照既定行驶策略行驶。智能化汽车带来了更加纷繁复杂的电子零部件 ECU 通过软
9、件与通信协议协调工作,给车身电子电气架构、开发成本、车身重量等带来极大挑战。2.环境感知融合带来实时数据处理挑战 智能汽车需要处理传感器(摄像头、激光雷达、雷达和超声波)捕获的海量数据,它必须提供实时反馈,例如交通状况、事件、天气状况、路标、交通信号等。需要每秒数万亿次计算操作(TOPS)车载智能计算芯片白皮书(2023)7 来同时处理多个具有挑战性的任务(例如,对象提取、检测、分割、跟踪等)。根据 Lucid Motors 的研究人员测算,智能汽车每小时各种传感器累计产生的数据量大约为 1.4TB-19TB。来源:Stephan Heinrich,Lucid Motors,Flash Mem
10、ory Summit 2017 图二:车载传感器数量及带宽 L2 级别及以下的驾驶辅助系统所需处理的数据量小且算法模型简单,因此小算力芯片与算法的强耦合即可满足系统需求。随着激光雷达等高性能传感器的量产上车以及智能驾驶系统算法的泛化性提升,面向量产乘用车的全场景自动驾驶点到点通行链路正逐步打通。对于 L3 级别及以上的智能驾驶系统而言,传感器数量的增加及多路高分辨率摄像头带来海量实时环境感知数据,外加算法模型的复杂程度不断增加,计算平台的处理能力面临巨大挑战。3.算法模型尚不能很好应对长尾场景 超过 95%的车祸是由于各种人为错误造成的,但是对于完全自动驾驶技术量产而言,在伦理、法律要求下,A
11、I 技术不成熟导致车祸是不能容忍的。使用更先进的 AI 模型算法,采用更为完备的训练标注数据,虽然可以提高自动驾驶的安全性和准确性,然而,极端情况仍然是需要人类驾驶者来干预,至少目前为止还没有算法可以解决所有的极端场景。车载智能计算芯片白皮书(2023)8 即便随着自动驾驶汽车不断的里程突破,很多时候在人类看来是非常低级错误的自动驾驶事故案例也时有发生。从自动驾驶算法角度来看,每一个低级失误导致的事故案例,都反映了 AI 算法或者模型的不完备性,我们是无法接受自动驾驶算法犯低级错误,哪怕错误概率低至 0.01%。模型的泛化性不佳是其中的重要原因之一,突破点在于通用人工智能(AGI,Artifi
12、cial General Intelligence)理论和算法的进展,以及与之适配的计算平台架构。4.AI 算法演进周期快于智能芯片设计周期 当前,AI 算法演进周期跟智能芯片设计周期之间的矛盾非常突出。AI 算法演进速度非常快,在过去 10 年时间里,差不多每年都有会新的深度学习算法模型出现。据统计,大概每 14 个月,新的模型就能将计算效率提升一倍,但典型的车载芯片开发周期需要三年。算法优化会对计算平台架构带来巨大的挑战,计算平台架构必须根据算法的特点进行特定优化,才能保持足够的计算效率和性能。这种进化速度上的不匹配,对芯片公司的算法能力提出更高要求,需要对算法的发展趋势进行预判,前瞻性地
13、将其计算特点融入到芯片架构设计当中,使得芯片经过三年的研发,在推出市场的时候,仍然能够很好地适应最新的主流算法,同时保证能满足关键应用需求。通过软硬结合,能保持很高的硬件利用率,达到真正意义上向后兼容软件算法创新,这是非常难的。5.大算力低功耗的车载智能计算芯片方案缺乏 不断迭代的算法和模型,都对 AI 基础硬件计算平台提出更为苛刻的计算要求。当下,多数自动驾驶技术都在基于 GPU(图形处理芯片)进行 AI(深度神经网络)计算。但 GPU 不像定制芯片(ASIC)那样高能效比或具有成本效益。最大的问题之一是功耗,要使 L3 以上的工作完美无缺,我们需要1000 瓦以上的功耗来处理来自多个摄像头
14、、雷达、激光雷达等的实时海量数据。巨大的能耗需求,对电动汽车的电量存储发起巨大挑战。车载智能计算芯片白皮书(2023)9 自动驾驶等级 传感器数量 算力需求(TOPS)L2 15+2+L3 20+20+L4 25+300+L5 30+4000+来源:智能汽车算力平台方案解析 表一:自动驾驶等级与算力需求 6.功能安全是底线 功能安全指电子电器及其相关软件本身,通过其内置的安全机制,将伤害人类或损坏物品的潜在风险降低到可容忍的范围。在航空、工业、公共交通等领域中功能安全标准已经存在很多年,但是道路上行驶的汽车在功能安全上面临更多的挑战:成本 汽车作为非常重要的交通工具,早已走入千家万户,汽车作为
15、日常消费品,市场竞争非常充分,用户对于价格非常敏感。航空、工业以及公共交通等领域可靠性要求更高,涉及功能安全可以通过更多的冗余设计达到,而各大汽车制造商在成本控制上则要苛刻得多,在成本可控的前提下,达到功能安全标准则面临更多的权衡和挑战。使用场景 汽车使用场景和范围非常宽泛,作为全天候高频使用,且不同驾驶人员使用习惯不同,外加一般车辆的使用周期 8-10 年,在此期间关键零部件需要能始终保持正常运转,可靠性测试验证的周期长、复杂度高。车载智能计算芯片白皮书(2023)10 市场新需求 伴随着软件技术、硬件技术以及人工智能等数字化技术日益完善成熟在多个领域,特别是在移动互联网领域取得了的巨大成功
16、,当代人们对于汽车的需求已经不满足于传统交通工具属性,转而对舒适性、安全性、可靠性、娱乐性等提出了更多要求,新技术突破与市场新需求共同推动着汽车技术革新,但功能安全仍然是汽车产业的最核心、最重要的关切点。数字化、新能源等技术在汽车功能安全维度,还缺乏相应的测试及验证方案,这也让新技术导入到汽车工业面临更多的挑战。预期功能安全 汽车产业功能安全标准 ISO 26262 推荐对随机硬件失效采用定量分析,而最新的自动驾驶 AI 算法虽然已经提出了许多数据驱动设计的方法,不过深度神经网络的可解释性、稳定性以及鲁棒性方面仍然存在很多未解决的技术问题,因此 ISO 26262 并不适合机器学习特别是深度神
17、经网络的应用,预期功能安全 SOTIF(Safety of the Intended Functionality)ISO 21448 也是在这一背景下诞生,SOTIF关注系统运行时发生的超出预期设计的场景或者超出部件性能限制的情形,以及人为因素对于系统的影响,适用于辅助驾驶、自动驾驶、人机交互等。但是对于未知的不安全场景,我们没有办法穷举或者消除,只有通过不断验证和迭代系统开发,直到系统满足选定的指标。ISO 21448 也提供了一套完整的流程方法(verification&validation)来减小这部分的风险。三、软件定义汽车 软件定义汽车(Software Defined Vehicl
18、e,简写:SDV)随着 2012 年特斯拉电动汽车的推出而广为人知,它主要基于特定的汽车硬件平台上,通过软件来实现相关功能和特性,其周期贯穿汽车生产、制造、销售以及后续服务等阶段,软件定义汽车可以提供越来越复杂的安全和保护功能、更高级别的系统自主性以及接受各种功能和安全机制相关的软件更新能力,除此之外,还将提供例如防盗、在发生索赔时支持保险公司的信息、警报或紧急情况通知等高级服务和应用。软件定义汽车代表了汽车从硬件平台逐渐迈向智能化、可扩展、可不断升级的移动物联网终端的转变。车载智能计算芯片白皮书(2023)11 在过去,汽车消费者往往通过马力、扭矩、外观等特性来区分不同汽车。如今的消费者越来
19、越多期待软件定义的新功能,例如驾驶辅助系统、自动驾驶、车载娱乐和智能网联等。这些需求的演变催生了新的商业模式和新的工程研发协作方式。1.软件定义汽车的驱动力 1.1 用户习惯与预期需求 据东吴证券数据显示,2021Q1,全球智能手机的渗透率高达 90%,智能手机与移动互联网在过去 15 年左右时间的兴起与繁荣,硬件的性能持续提升,新技术层出不穷,软件生态、软件应用的价值都获得了巨大的市场回报。虽然手机生产厂商通常每半年到一年推出新款手机设备,但是消费者无需购买最新款手机硬件,仅通过系统升级和软件更新,也可以体验性能提升和更多功能。消费者在智能手机和移动互联的使用习惯和意愿上,成功延伸至汽车领域
20、,比如车载信息娱乐、智能网联、人机交互等产品形态。1.2 提升用户体验,降低服务成本需要 车辆信息娱乐、远程信息处理或车辆诊断系统的软件升级不再需要前往经销商或者 4S 店。SDV能够接收无线(OTA)更新,其中包括安全补丁、信息娱乐改进、自动驾驶、辅助驾驶等车辆核心功能的调整,甚至也包括动力总成和车辆动力学的调较和监控。除此之外,ECU、传感器、执行器以及用户行为等都会产生大量数据,这些数据有机会完成本地实时分析或者发送到云端处理,使主机厂能够深入了解汽车状态和用户使用习惯,并改进汽车软件生命周期管理、开发个性化功能,与消费者建立更深入、更紧密的服务关系。1.3 软件、算法是汽车工业“四化”
21、的重要根基 汽车产业朝着电动化、智能化、网联化以及共享化发展,汽车作为一个包含机械动力的数字化信息终端,许多重要的功能特性需要借助软件和算法来完成,比如智能语音控制车内空调温度,检测驾驶员是否疲劳驾驶等。除此之外,汽车全身通常都有超过 100 个 ECU,甚至多个摄像头、毫米波雷达、车载智能计算芯片白皮书(2023)12 激光雷达、超声波雷达等各种传感器,这些传感器数据都会实时汇总,辅助驾驶员安全驾驶,其中大量的实时数据处理,需要有相应的软件系统收集、分析、处理并形成实时的决策控制信号。据统计,相比波音 787 飞机代码行约为 650 万行,目前中高端汽车的软件代码超过 1.5 亿行,软件占汽
22、车生产总成本约 10%,相信随着更多软件、算法、应用的部署,软件占总成本将逐步提高,甚至超过总车成本 50%。1.4 价值链迁移,软件将成为新的业务增长点 伴随汽车电子的兴起,汽车行业迎来了技术革新潮流,汽车零部件竞争激烈,价值和利润率越来越低,传统汽车销售模式在汽车交付给终端消费者的时候,销售即完成。相较于特斯拉汽车的销售模式,在汽车交付之后,通过 FOTA(Firmware Over-The-Air)或者 SOTA(Software Over-The-Air)等方式完成汽车软件更新升级,持续收取用户服务费用,例如预装特斯拉 FSD 硬件的汽车消费者,可以以每月 199 美元的费用订阅 Au
23、topilot 自动驾驶服务,软件订阅模式意味着已售车辆在将来还会持续为特斯拉公司贡献收入,也为软件定义汽车带来新的营收价值。2.系统架构革新 电子电气架构(简称 EEA),指汽车上所有的电子和电气部件,以及这些部件之间的拓扑结构和连接线束。当下汽车以分布式 EEA 为主,一个 ECU 对应一个或者少数几个功能,每个 ECU 包含嵌入式软件,并通过 CAN、FlexRay 等总线技术连接。通常主机厂只是根据市场需求不断增加 ECU 和调整线束拓扑,车载线束已经变得非常冗余且拓扑结构复杂,智能车引入三电系统(动力电池、驱动电机和电控系统)则进一步加剧了 EEA 的复杂程度,特别是智能座舱、自动驾
24、驶需要更多的 ECU 和传感器,但传统分布式 EEA 已经碰到传输瓶颈,算力和总线信号传输速度远远落后于电动化和智能化需求,继续沿用现有分布式 EEA 来完成不断演变的智能汽车功能需求,成为了不太可能完成的任务。2.1 电子电气架构革新是硬件基础 车载智能计算芯片白皮书(2023)13 当下,大多数量产汽车都是采用分布式电子电气架构,一辆汽车有多个小型固定功能电子控制单元(ECU),它们由许多不同的供应商设计,软硬件高度耦合,如果需要新增功能,相应的ECU和软件需要改动,车内线束等可能也需要改变,带来更多系统集成、验证等工作,成本极高,因此在功能升级方面,不具备灵活性。域集中式电子电气架构则将
25、同一功能域下的多个 ECU 整合到域控制器中,降低链接的复杂性,也同时缩短线束长度,降低成本和重量,典型域控制器是车载信息娱乐系统(IVI)、数字驾驶舱、ADAS/AD 和电源、底盘和车身。未来,随着功能更强大的异构、专用 SoC 的出现,中央集成式电子电气架构(车轮上的数据中心)将进一步整合域控制器,高性能服务器芯片将取代多个域控制器系统,传感器终端仅包含低功耗、实时计算 ECU,这些 ECU 将进行边缘预处理,然后将数据转发到高性能中央计算单元进行高速处理。随着电子电气架构的不断演进变革,计算硬件单元更加集中,ECU 芯片的数量也会大幅减少,软件不再基于特定的 ECU 来开发,而是具备可移
26、植性、可扩展性,也更容易迭代更新,当然对计算芯片的性能要求也会越来越高,由于计算趋于集中,支持不同工作负载的高性能异构计算芯片(System on Chip)和标准化的编程接口,将会是软件定义汽车功能的硬件基础。图三:电子电气架构演进 车载智能计算芯片白皮书(2023)14 2.2 面向服务架构是软件基础 2.2.1 面向信号架构(Signal Oriented Architecture)面向信号架构是分布式电子电气架构中汽车软件的常用开发架构,由于 ECU 的功能是固定的,彼此通过 LIN/CAN 等总线进行点对点通信,软件提前编写并固化在 ECU 内运行,随着汽车功能越来越多越来越复杂,E
27、CU 的数量也急剧增多,微小的功能改动都可能会引起整车通信甚至其它 ECU 软件的更新,这种架构不具备灵活性和扩展性,开发和验证的成本非常高。2.2.2 面向服务架构(Service Oriented Architecture)面向服务架构(Service Oriented Architecture,简称 SOA)在软件、信息通信领域是非常成熟、常见的软件架构设计理念,它鼓励提供抽象访问接口和模块化软件组件的方式,让软件模块很容易在不同场景下复用,通常以 Software Development Kits(SDK)、软件库、以及远程调用的方式提供,上层系统通过复用和自由组合既有软件模块,可以实
28、现快速开发特定的功能,并能降低测试验证成本和开发周期。高内聚、松耦合、可扩展性强是 SOA 架构的核心特点。图四:智能汽车 SOA 架构示意图 车载智能计算芯片白皮书(2023)15 2.2.3 异构计算硬件与系统软件 硬件定义了 SOA 的能力边界,底层硬件通常包括核心的 AI 计算单元,通用计算单元以及控制单元(包括各种传感器、执行器 ECU 等)。系统软件则提供了丰富的硬件访问抽象接口、虚拟化、应用操作系统、实时操作系统以及各种通信协议封装等功能。异构计算硬件与系统软件的接口标准化以及它们的软件开发者生态,决定了应用开发者的准入门槛。采用 Arm CPU 计算核心的车载 SoC 平台,很
29、容易实现虚拟化并与 Linux、Android、RTOS、GCC编译器、Java虚拟机等系统软件完美集成,为上层应用开发者提供与手机、桌面、数据中心等应用几乎相同的开发、调试体验,让移动互联网的开发者近乎无缝将大量功能代码模块迁移到车载应用软件中。3.云原生技术极大提升研发效率 随着汽车系统软件的复杂性越来越高,特别是自动驾驶、辅助驾驶等新型应用的诞生,应用程序代码变得日益复杂,为了快速满足各种不断变化的消费者需求,由此产生的软件开发、部署和管理方式也有别于传统车载嵌入式系统开发。云原生开发模式降低了整个云基础设施行业的成本、时间和复杂性,非常适用于汽车应用开发,其中基于微服务容器架构,可以大
30、量复用工作负载的基础技术代码,以及模块化部署方式,这些都在传统的智能手机和企业应用中已经得到了大量的验证。云原生技术有利于企业在公有云、私有云和混合云等新型动态环境中,构建和运行可弹性扩展的应用,能够构建容错性高、易于管理和便于观察的松耦合系统。结合自动化手段,云原生技术使工程师很容易对系统进行频繁的代码变更。云原生技术对于汽车应用开发而言,意味着转向基于云的开发模式,实现在云端开发软件并直接部署于边缘端的汽车上。开发者随时随地部署和测试汽车软件应用,极大缩短车载系统应用的开发和部署周期。车载智能计算芯片白皮书(2023)16 图五:云原生的虚拟仿真与真实部署 3.1.1 云原生技术与车载研发
31、融合 关键应用与常规应用混合编排简化部署复杂度:车载软件在本质上可以是同时部署运行关键应用和常规应用微服务的。关键应用对安全性和实时性的要求更高,相应的微服务从硬件资源调度和依赖的软件库必须得到相应的优先级部署。比如某些微服务可能需要满足 ISO 26262 规范定义的 ASIL-B/ASIL-D的完整性级别,引入经过安全认证的编译器、运行框架或者SDK,这些编译器和工具将作为基于微服务容器的一部分进行集成。另外,现有的云原生基础设施及容器编排技术,可以感知软硬件特征,特别是嵌入式车载硬件系统的功能特性,按照需求把相应的微服务部署到最合适的节点上,并以最佳方式运行。快速云端仿真验证测试:车载系
32、统开发人员可以在云端运行模拟运行软件系统。弹性可扩展是云计算非常重要的特性,作为 DevOps 基础架构的一部分,云可以提供大量的硬件资源,方便开发者提供大量的数据输入,模拟成百上千的真实使用场景,甚至可以同时在数千个云端服务器节点上启动执行。这种大规模的仿真测试,如果在实际的车载嵌入式系统中来完成,需要的时间会极其漫长。根据Arm 对客户的初步调查,大约 70%的车载软件系统模拟测试,是完全可以基于弹性云环境执行的。车载智能计算芯片白皮书(2023)17 车载硬件计算平台与软件系统同步开发:从软件开发人员的角度看,基于云的执行环境和汽车边缘计算环境之间,实现指令集架构(ISA)和 CPU 架
33、构对等,意味着可以进一步降低开发成本和周期。以基于 Arm 的车载计算平台为例,开发者可以在 AWS 的 Graviton(Arm CPU)实例上编写、测试和运行应用,实现完整的端到端基于 Arm CPU 技术的云到汽车边缘计算,开发人员甚至可以不用交叉编译代码,在车载硬件计算平台没有量产前,就可以在非常贴近实际场景中完成验证。编译器和模拟器也可以最大效率利用硬件计算资源,避免因最终部署环境的不一致,导致大量程序代码异常在与车载计算硬件平台集成时才暴露。3.1.2 SOAFEE 云原生开发框架 SOAFEE 是车厂、一级供应商、半导体、软件和云技术头部企业等携手合作,为软件定义汽车开发了基于开
34、放标准的新架构,它用经过验证的云原生增强技术,与汽车应用中必需的实时和安全功能一起运作,快速无缝地满足软件定义汽车的应用需求开发。此外,由这些企业组成的特别兴趣小组(SIG,Special Interest Group)还为 SOAFEE 定义了参考实现,通过开源软件的形式免费发布,以实现广泛的原型设计、工作负载探索和早期开发。Arm 与头部商用解决方案供应商携手合作,最大限度地提高兼容性,也为功能安全设计提供更快的途径。4.边缘算力预埋与车云协同计算提升汽车长期价值 随着 SOA 的域集中式 EEA 的逐步应用普及,以及车端算力的快速增长,智能汽车将成为一个移动的超级计算机,车端软件复杂度也
35、将不断提升,并逐渐形成多个分层:OS/Middleware 层,AI 与大数据层,数据智能的应用层。凭借算力、软件和通信的能力、智能汽车具备可持续迭代的能力,也将有越来越多的数据驱动智能应用在智能汽车上出现,包括智能座舱、辅助驾驶、智能诊断、用户行为模型、智能热管理、智能底盘等。而在车端数据的采集和智能应用的运行均依托车载智能计算,大数据开发则集中在云端,为了提高数据采集、算法部署的效率,需要通过中间件软件来封装车云异构。车载智能计算芯片白皮书(2023)18 案例一:智协慧同的车云协同计算方案 智协慧同的 EXCEEDDATA 车云计算解决方案采用了 Codeless+Serverless+
36、Middleware 的技术理念打造了一套跨车云的计算架构,不仅封装了车云异构,同时封装了车端的复杂度和车型异构,帮车企实现了数据采集数据加工数据闭环数据生态的全栈数据驱动能力。案例二:智协慧同的车云同构计算 车载智能计算芯片白皮书(2023)19 智能场景的实现需要车载智能计算与云计算的协同,为了让汽车产品保持量产后的可持续迭代能力,往往需要预置足够的算力确保智能汽车的持续进化。车载计算模块通常会部署在采用 Arm 架构的域控制器或者中央网关上,EXCEEDDATA 边缘计算的中间件软件(边缘计算引擎和时序数据库)往往部署在 Arm Cortex-A 系列的 CPU 上运行,实现对车端海量数
37、据的解析、计算、压缩和存储。计算引擎能够调用一些复杂的算子,在车端进行窗口识别、特征提取乃至机器学习等运算。这也就意味着,一旦有较为充足的算力可以被调用,那么在车端实现一些复杂多样的计算场景,不仅可以有效的将算力转变为业务和商业价值,而且可以持续的提升用户移动出行体验。但在智能汽车初期,车企在车端缺乏冗余算力的规划,导致产品后续迭代空间有限,这一点有望随着算力的增长和边缘计算的发展而得到新的突破。四、异构计算芯片 不同于手机、桌面、数据中心或者一般边缘计算场景对于智能计算芯片的需求,从软件定义汽车的角度,汽车终端智能计算芯片必须承载几乎所有的关键核心计算任务如实时响应、神经网络计算、图像处理、
38、通用计算等异构计算等。安谋科技的 IP 产品基本覆盖各种计算场景,如图六所示,SoC 芯片开发商可以根据计算类型和密集程度,选择相应的 IP 计算核心组合,加速车载芯片研发周期。图六:安谋科技车载芯片不同场景算力 IP 方案示意 车载智能计算芯片白皮书(2023)20 不同场景的计算任务对于性能和功能需求很不一样。比如 AI 计算的数据源包括视频、图像、音频、传感器数据等。安谋科技的计算 IP 核心产品主要分类如下:CPU(中央处理单元)是一种通用任务处理器,非常适合运行复杂的逻辑串行任务,安谋科技 CPU 产品根据系统复杂度和场景,划分 3 个大系列:o Cortex-A:高性能、高吞吐流水
39、线作业,支持多核并行运行、软件管理中断、现代操作系统支持(如 Linux),并提供高级编程模型接口,常见于高性能应用程序运行场景,比如海量信号数据格式转换;o Cortex-R:实时数据处理,软件管理中断,快速中断响应以及多核支持,常见于需要实时性要求非常苛刻的场景,比如汽车制动和转向控制器;o Cortex-M:为面积、功耗以及实时操作系统(RTOS)特别优化的处理器,提供简单编程模型接口,由硬件管理中断,适用于功耗要求非常高的场景,比如蓝牙钥匙、胎压监测等;GPU(图形处理单元)是用于高速图形渲染的处理器,因其有多个高度并行内核(可以多达数百甚至上千个微内核)处理数学矩阵运算,通常用于图形
40、渲染操作,也可以完成部分 AI算子并行计算加速。NPU(神经网络处理单元)是为深度神经网络推理而定制的逻辑电路实现,具有低功耗、速度快和占用硅片面积小的优点,支持多种神经网络算子,支持运行时编程动态支持不同深度神经网络模型的高效推理。ISP(图像信号处理器)是将图像传感器(比如一个或者多个摄像头信号数据)实时转化成多种格式的数据输出,方便人类观看或者其它机器视觉应用进一步处理。Security(信息安全)是一个包含硬件、软件、工具包,支持应用程序不可知的安全子系统,跨多样化系统提供安全服务的方案。车载智能计算芯片白皮书(2023)21 车辆控制、智能座舱、辅助驾驶、自动驾驶等场景和通常的边缘计
41、算场景相比,需要更高的性能,更低的功耗,更及时的响应,更可靠稳定,更保密安全,且成本可控,以满足安全驾驶的苛刻需求。车载应用开发往往需要同时使用上述多种异构计算单元提供算力保障,不同计算单元协同工作,平衡工作负载,构建最具成本效益和高性能的芯片配置,需要芯片设计厂商针对场景优化。1.车载智能计算 SoC 架构 辅助驾驶和自动驾驶运行时软件与芯片硬件是紧密耦合的,从汽车行业发展趋势看,域集中式电子电气架构和更为激进的中央集中式电子电气架构是产业发展方向,无论是哪一类电子电气架构,车载 SoC 都会更加复杂,需同时具有多路传感器接口(包括摄像头、雷达、超声波雷达、激光雷达等)、通信、GPU、VPU
42、、ISP、NPU、高性能 AP CPU 等功能模块,以及应对车载环境对于信息安全和功能安全的特殊需求,这些都需要完整无缝衔接运行,并且可以支撑上层各种特定虚拟化软件应用。如图七所示,安谋科技提供了车载智能计算 SoC 所需要的几乎全部核心 IP,以及底层硬件计算单元配套的驱动、编译器、工具链等系统软件集等,以满足虚拟化和上层应用开发所需的仿真、调试等快速开发、测试和部署运行需求。图七:安谋科技车载智能 SoC 概念设计方案 车载智能计算芯片白皮书(2023)22 2.能耗与性能 2020 年 6 月,权威杂志科学发表 MIT、英伟达和微软研究人员的联合论文,论文指出:随着,随着摩尔定律放缓,A
43、I 计算性能提升在于软件工程,算法,硬件架构联合优化,行业正在迎来顶层设计的黄金时代。来源:Charles E.Leiserson,etc.Science 368,1079(2020)5 June 2020,MIT、Nvidia、Microsoft 图八:后摩尔时代的计算效能提升 该论文从侧面揭示了一个重要趋势:随着AI计算的兴起,计算规模扩大了23个数量级,算法、软件和架构开始引领芯片创新,行业进入了软件定义智能计算芯片时代。车载智能计算芯片上,AI 计算加速器(深度神经网络加速器)的能耗通常较大,灵活可配置的系统架构,可以极大降低功耗,提高性能,降低晶体管数量,让 PPA(Performa
44、nce、Power、Area)达到最优,但达到这个目的,通常有如下技术难点:车载智能计算芯片白皮书(2023)23 2.1 突破冯诺伊曼“瓶颈”传统冯诺伊曼计算架构,程序和数据保存在内存中,处理器和内存是分开的,数据在两者之间移动。这种计算架构导致数据在内存和处理器间的传输延迟不可避免。例如 DDR 最高带宽理论值约为30-80GB/s,且随机数据访问时的带宽要远低于理论值。而一次深度神经网络的推理过程涉及的计算中间数据量远高于此,比如:VGG16 网络有 138.36M 个权重参数,一次推理过程需要 154.7G 次乘累加运算。深度神经网络加速器(NPU)最重要的优化手段之一是降低对内存访问
45、的频率,有利于降低系统功耗,并缩短推理计算的延迟。比如根据不同类型场景需求中的神经网络模型特性,设定 NPU 内SRAM 大小,降低 DDR 内存访问的概率。甚至当模型无法全部一次性加载到 NPU 中时,也可以通过灵活的数据替换策略和对稀疏矩阵数据优化压缩等手段,大大降低内存访问频率和带宽延迟。2.2 灵活性与性能的平衡 基于深度神经网络推理的 NPU,包含大量乘加操作以及标量数学运算单元,由于神经网络算法不同,其网络结构也会有较大差异,因此在定制相应的 AI 加速器单元时,往往操作粒度越细灵活度越高,NPU 内部实现也更加复杂,反之灵活度低,甚至只支持特定网络模型,但是 NPU 内部实现则相
46、对简单。安谋科技“周易”NPU 内部包含标量处理单元(Scalar Unit)、张量处理单元(Tensor Processing Cluster)以特定 AI 操作(Fix Function)硬件加速单元实现,并定义了一套完备的 AI 推理计算的指令集,并通过上层系统软件驱动以上模块协同交互,完成基于各种深度神经网络类型的推理计算任务,实现运行效率和通用性的兼顾。2.3 通用性和专用性兼顾 通用型 AI 推理处理器,由于内部复杂且有部分冗余设计,与特定神经网络模型加速的处理器相比,性能很难做到绝对优势,一些 NPU 厂商会通过固化部分常用运算算子,确保针对特定模型算法也有显著加速效果。安谋科技
47、“周易”NPU 本身配合专有工具链和编译器,能支持数百个各类音视频及其它数据类型的神经网络应用,并在架构设计上已经特别优化支持 Vision Transformer、3D 神经网络等,对处理像素级别处理应用等均有很好的性能优化。车载智能计算芯片白皮书(2023)24 2.4 可变推理量化比特精度 在推理准确率允许范围内,降低推理时的量化比特精度,既可以大大降低运算单元的计算量,又能减少存储容量需求,还可以降低存储器读写频次。安谋科技“周易”NPU 的基本计算单元设计成可配置的权重精度,支持 INT4、INT8、INT12、INT16、FP16等。多种推理数据类型支持,兼顾了推理精度和效率,比如
48、在推理精度满足需求的前提下,用户可以选用INT4的权重值;创新性的INT12支持,既可以满足像素级别处理的神经网络推理精度要求,同时带宽、存储低于 INT16,从而提高能效比。2.5 多核调度 虽然 NPU 单核内部运算已经是并行计算,但是同一时间只会有一个推理计算任务进行。先进的多核方案,能够使单块 SoC 硅片充分发挥硬件的算力,每个计算核心可以完成不同的推理计算或者多个计算核心共同完成同一个推理计算任务,理论上算力可以做到并行叠加,甚至可满足数千 TOPS 算力需求。不过多核设计中,系统软件对于多核任务的调度优化十分重要,需要合理将任务分配到不同计算核心并监控其运行状态,随着并行任务的增
49、多,任务调度器本身也会成为性能瓶颈。安谋科技“周易”NPU 多核架构则采用先进的硬件任务调度管理器,相比使用控制处理器(如 CPU、DSP 等)来调度多核任务的架构设计,能够克服随着算力增加而产生调度瓶颈的问题,并且可以使 Host CPU 软件设计和维护更加简化和高效。3.功能安全 涉及到安全应用的汽车芯片必须满足系统的 ISO26262 要求,其中包括半导体 IP,处理子系统、嵌入式存储器等。功能安全强调应对两类失效:系统性失效和随机硬件失效。对于前者除了公司层级需要具备合规的功能安全流程外,更需在产品研发的生命周期下严格遵循功能安全流程,从而将系统性失效的风险控制在对应汽车安全完整性等级
50、(ASIL)要求的范围内。对于后者可用失效模式影响和诊断分析进行定量证明,芯片内的功能安全机制是可以保证诊断覆盖率,达到或者超过 ISO26262 相应的 ASIL 要求。车载智能计算芯片白皮书(2023)25 图九:功能安全两类失效类型 针对随机硬件失效的各种失效模式,需要有相应的功能安全机制进行应对。包括用于保护内部 SRAM 和传输中数据的纠错码(ECC)、探测硬件死锁(deadlock)的 watchdog timer、探测寄存器内容故障的 Parity、针对复杂逻辑的硬件冗余和锁步、以及探测门级随机硬件失效所需运行的软件自测库等等。由此可见,为了应对随机硬件失效,额外的硬件及软件安全
51、机制的设计均是不可或缺的。在具体的产品开发实践中,以安谋科技开发的 STAR-MC2 为例,该处理器使用了以下机制来实现错误的检测和处理:处理器设计了内存保护单元,安全态标记单元等进行软件访问权限管理,保护软件系统的正确运行;处理器设计了异常处理单元,允许对包含硬件错误、指令执行错误、内存访问异常、取指令异常等错误行为进行相应的处理和纠正;处理器的存储器和总线接口上,引入 ECC(错误数据纠正)或者 Flop parity(校验)设计,对存储数据读写错误进行检测和纠正;处理器设计了一个可编程的内建存储自测试模块,可以对存储单元进行测试;处理器设计了一个可编程的内建软件自测试模块,可以通过软件对
52、处理器自身进行覆盖性测试。车载智能计算芯片白皮书(2023)26 双核异步互锁(参考)设计,通过两个完全一致的处理器运行同时运行同样的程序代码,并对结果进行实时比较,用冗余的方式实现硬件运行错误的实时发现和处理,实现超过 99%的随机错误检测覆盖率,达到 ISO 26262 ASIL-D 要求;作为硬件安全机制的补充,同时为了优化 PPA,安谋科技软件自测库(Software Test Library)被广泛用于芯片产品中。从功能安全的角度来看,STL 的设计开发与使用需要从以下几个维度进行综合考虑:3.1 运行阶段 一般来说 STL 可以在启动和运行两个阶段为芯片提供安全保障。在启动阶段,S
53、TL 可以检测硬件安全机制的有效性,从而有效避免潜在故障。在运行阶段,STL 可以通过不同的激励和测试向量支持芯片故障的实时在线检测。根据不同的系统上下文,STL 可以有不同的触发模式。3.2 运行平台 STL 作为一种软件安全机制,其安全运行除了需要在软件开发过程中所采用的各种系统性的方法论来保证安全外,还需要安全的硬件运行平台。从 STL 运行环境来看这个问题,STL 的指令需要能够安全的执行,并且 STL 软件栈需要被保护以避免其他无安全要求的软件栈的干扰。3.3 诊断能力 作为安全机制,STL 需要为硬件提供足够的诊断能力。STL 诊断能力通常会以 ASIL B 级别的随机硬件失效诊断
54、能力为目标。对于十分复杂的设计,有时候往往需要 STL 与各种硬件安全机制相互配合来实现最终目标。3.4 系统能力 软件系统能力是由开发过程决定的,无法在项目完成后提升。虽然,STL 提供的诊断能力只有ASIL B,但是,有时 STL 往往会与 ASIL D 的软件栈同步运行。所以,有的 STL 虽然为硬件提供的是车载智能计算芯片白皮书(2023)27 ASIL B 的诊断能力,但是,往往有 ASIL D 的系统能力要求。这主要是为了方便用户在集成过程中减少免干扰分析方面的工作量。3.5 系统集成 STL一般独立于 HAL并专属于特定硬件,STL根据会应用或 RTOS的指令有选择的执行硬件测试
55、并且通过特定的 API 反馈测试结果。STL 可以通过调度器支持用户配置不同的测试组。用户还可以通过特定 API来改变 STL行为模拟硬件故障的进行系统集成测试。不过 STL调用期间一般需要屏蔽外部中断。4.信息安全 智能汽车的信息安全,是确保自动驾驶边缘计算系统免受外部非法入侵或者攻击的核心基础。自动驾驶汽车的安全性应涵盖自动驾驶边缘计算堆栈的不同层。这些安全措施包括传感器安全、操作系统安全、控制系统安全和通信安全。汽车安全要求 HSM(Hardware Security Module 硬件安全模块)已经成为智能汽车的安全基础,也是行业的默认标准。“山海”SPU是安谋科技自主研发的专门应用于
56、汽车行业的 HSM解决方案,能够广泛应用于自动驾驶芯片,智能座舱、域控制器、中央网关等不同的应用场景,“山海”SPU 还支持功能安全为智能汽车芯片提供可靠的安全基础能力。车载智能计算芯片白皮书(2023)28 图十:“山海”SPU 架构 在安全子系统“山海”SPU 内部,有专用的 CPU 负责处理 HSM 内部的安全请求,加解密引擎是安全子系统的核心,提供安全算法加速器的功能,支持国密算法 SM2、SM3、SM4以及国际通用算法RSA、ECC、SHA、AES 等,并通过配置可以满足 Evita HSM 不同级别(Full、Medium、Light)的要求。虚拟化是智能汽车中的重要需求,“山海”
57、SPU 能够提供多达 16 个虚拟机同时访问,为隔离的不同应用提供安全保障。除硬件安全能力外,“山海”SPU 提供了丰富的软件库支持智能汽车安全能力的建立,支持系统厂商构建符合行业要求的启动方案,使车载系统安全快速进入 Runtime 状态,启动 TEE OS 基础操作系统,并通过 STL 周期性校验 HSM 的健康状态,确保系统的可靠性。从软件定义汽车角度来看,信息安全应该是各类软件包括操作系统,系统软件、应用软件等的重要组成部分,只有能够在各类型软件中把信息安全放在首位考虑建立系统性的信息安全方案,整车系统的安全性才能得到保证。随着强安全性要求的软件越来越多,比如智能车钥匙、FOTA、身份
58、认证,数据的安全存储和传输等,HSM 在汽车软件系统中的地位越发关键,“山海”SPU 为这些强安全场景的车载智能计算芯片白皮书(2023)29 软件及整车的软件安全提供基础安全能力,包括提供运行态的安全根,加解密能力以及密钥和机密信息的存储等能力,是建立系统信息安全的核心安全部件。五、车载智能计算软硬协同优化 车载智能计算场景中,人工智能推理技术对应的软件、硬件和算法是非常重要的。无论智能座舱,辅助驾驶或是自动驾驶,包含 CPU、NPU、GPU 等功能模块芯片(SoC)是承载计算的核心基础硬件平台,基于硬件基础平台,与软件、算法适配协同,才能充分挖掘算力,使芯片在实际应用中发挥出性能优势。1.
59、自动驾驶算法向端到端大模型演进 案例三:自动驾驶端到端大模型行业研究案例 自动驾驶算法正在向感知决策一体化大模型的方向发展。2023年6月22日,在计算机视觉领域顶级会议CVPR上,来自上海人工智能实验室、武汉大学等学者的论文 Planning-oriented Autonomous Driving 获得最佳论文,这是CVPR 历史上首篇以自动驾驶为主题的最佳论文。论文中提出“感知决策一体化”的自动驾驶通用大模型UniAD,该算法直接使用传感器输入,通过对学习人类驾驶行为,采用完整的端到端系统,实现完整的全场景自动驾驶。该系统最大优势在于:其行驶范围几乎等同人类驾驶范围 ODD(Operati
60、onal Design Domain,即运行设计域,指自动驾驶系统被设计起作用的条件及适用范围)场景,不需依赖高精地图,只需依赖导航地图,即可实现。UniAD 建立了以全局任务为目标的自动驾驶大模型架构。第一次将检测、跟踪、建图、轨迹预测,占据栅格预测以及规划,整合到一个基于 Transformer的端到端网络框架下,并将各项任务通过 token的形式在特征层面,按照感知-预测-决策的流程进行深度融合,实现了自动驾驶系统算法性能的全面提升。UniAD 在 nuScenes 数据集中的所有任务表现均达到 State-of-the-art,并且在预测和规划中的效果表现远超其他模型。车载智能计算芯片
61、白皮书(2023)30 UniAD 端到端模型构架 基于 BEV+Transformer 的端到端自动驾驶大模型实现感知决策一体化 面对自动驾驶海量长尾场景的挑战,大模型已经表现出巨大的潜力,目前这一“BEV+Transformer”的模型需要上亿级别的参数量。在未来十年,端到端的模型需要更大参数规模,甚至到千亿级、万亿级以上,从而提高自动驾驶系统的自适应性、稳定性、准确性和持续进化能力。同时,随着算法的日益复杂,原先简单的大规模并行计算架构也难以为继,智能计算与逻辑计算开始深度耦合,例如,为了实现更高效率的稀疏化等优化手段,通过 CPU 对数据进行调度,可以实现更好的 NPU 计算利用率,因
62、此,NPU 算力的增长会同步带动对于 CPU 算力的需求。2.软硬协同优化的难点 芯片设计、生产与场景落地往往是不同的厂商参与,芯片设计和生产由于其一次性投入非常大,特别是针对汽车的智能计算芯片而言,只有足够的场景覆盖才会有较大出货量,所以车载芯片在其设计之初就会保留一定通用性。对于特定场景的软件开发团队而言,一方面需要与芯片及基础软件开发团队通力合作,通过软件优化的方式充分发挥芯片及硬件的计算效能;另外一方面,通用芯片很难针车载智能计算芯片白皮书(2023)31 对所有场景都实现特别优化。因此,实际场景中的计算性能发挥往往与芯片最佳性能差距较大,其中的难点主要体现在如下几个方面:2.1 AI
63、 算法迭代创新周期很快 人工智能领域软件迭代的速度非常快,据斯坦福大学以人为本人工智能研究所发布的2022 年人工智能指数报告指出,2021 年全球人工智能相关的公开专利数量超过 14 万件,是 2015 年的 30倍,年复合增长率高达 76.9%。因此,固化的硬件设计难以满足日益增长的算力需求和日新月异的算法演化需求,特别是在车载计算硬件平台,一旦发布,则存在于汽车的完整周期,要满足未来 8-10 年的软件和算法迭代,选定合适的硬件计算平台,甚至预埋部分额外算力,可以与未来的软件、算法升级适配的是非常重要的。图十一:全球人工智能专利数统计 2.2 AI 模型计算模式差异性大 车载智能计算芯片
64、白皮书(2023)32 车载 AI 应用目前以推理为主,算法模型是在云端提前训练好,下载部署到车端,但是目前不存在一个统一的深度神经网络模型,适用于所有的 AI 场景,往往不同具体场景有多种类型的算法模型适用,这些不同类型的模型共同驱动 AI 推理芯片的架构演进。比如早期 CNN 模型采用若干个卷积层作用于输入图像以生成低维特征,然后再将几个全连接层用作分类器产生识别结果的输出;ResNet 则主要基于稠密矩阵,使用了多分支和并行层,以实现多尺度采样和避免梯度消失;而对于推荐系统而言,可能需要非常大的甚至跨越节点才可以存放下的稀疏矩阵模型;还有近年关注度较高的 Transformer 模型等等
65、,他们的并行性、网络结构、计算依赖性、网络层数、模型大小、以及数据访问模式都不尽相同,这给都 AI 加速器设计增加不少挑战。2.3 端到端异构计算流水线设计与参数调优复杂 异构计算是车载高性能 AI 应用的典型流水线作业计算方式,既复用了传统 CPU 的成熟软件生态,也可以结合场景,用特定硬件加速器完成 AI 推理、前处理和后处理,真正做到兼顾性能延迟、功耗、成本等。从软件与算法角度,需要对 AI 任务进行分割,确认相应的硬件加速器使用,建立合理的计算流水线以及设定相应的处理参数和调度策略,确保环境感知数据通过不同步骤(硬件加速单元)不会出现明显的瓶颈,这都需要建立在大量的实验数据分析上,才能
66、得到最佳的优化配置。案例四:地平线真实计算效能计算公式 车载智能计算芯片白皮书(2023)33 地平线的技术专家提出,智能计算芯片的性能通过 FPS(Frames Per Second)更能够反映 AI 芯片的真实计算性能。2.4 指令集定义兼顾灵活性和性能 指令集架构(ISA)是对计算机计算模型的明确规范,它定义了软件如何控制芯片。ISA充当硬件和软件的接口,并明确了处理器单元能够做什么以及如何完成,也是用户能够与硬件交互的唯一方式。它是汇编语言程序员、编译器编写者和应用程序程序员可以看到的机器编程手册。ISA 定义了支持的数据类型、寄存器、硬件如何管理主内存、微处理器可以执行的指令以及输入
67、/输出模型等。硬件加速算子粒度是确保架构可编程性、实现软件优化、适应未来算法演进需求的关键,在此基础上,定义完备且稳定的指令集,在软件和硬件迭代不同步的情况下,仍然可以通过微架构和芯片制造工艺的改进提升,实现应用整体性能的朝高吞吐量、低功耗、小面积和低带宽方向优化。“周易”NPU 指令集是专门为 AI 处理器设计的一套异构指令集,以传统 VLIW 为基础,包含可编程标量,矢量处理器指令集和 AI 专用计算处理指令集,兼顾了灵活性和 AI 处理的高效性,并以此拓展成可支持静态形(Static Shape)和动态形(Dynamic Shape)模型输入数据。“周易”指令集的设计思想是面向通用 AI
68、 数据处理,尽可能把 AI 相关的计算转移到 NPU 上面执行,并且提供编程友好的接口来支持开发者进行自定义开发。指令集对开发者开放,开发者除了使用内建优化算子库之外,更可实现整个 NPU 的灵活编程,以满足用户日益增长的定制化、差异化的神经网络算法部署需求。2.5 统一编程模型 AI 推理计算是非常复杂的过程,对于延迟要求非常高,采用多核并行架构可以有效提高性能是高性能 SoC 上的常见做法,并行架构在数据访问延迟、计算核心作业调度、计算核心控制、多层次缓存结构、虚拟化以及进程间切换等方面,涉及到编译器、多核编程,数据压缩、量化等众多细节,这些对 AI 应用开发者而言并非完全透明,甚至需要开
69、发者对性能数据进行调试、跟踪、分析。这一整套代码编写、调试涉及的 SDK/API 调用规范,可以简单理解为编程模型。深入理解编程模型,需要对硬件车载智能计算芯片白皮书(2023)34 架构有一定理解,也是充分发挥应用程序计算性能的前置条件,但是对于很多 AI 应用开发者而言,理解硬件架构并非易事,因此统一的编程模型至少带来如下好处:编程学习曲线:对于应用开发者而言,熟练使用同一套编程 API 和编程方式,有助于降低开发人员学习成本和团队沟通成本,提高日常开发工作效率,也有助于保持软硬件平台演化的一致性。比如深度学习主流框架之一的 Keras,代码简单很容易扩展,非常直观的定义神经网络,初学者非
70、常容易入门,最初 Keras 为了训练自定义的神经网络,采用了 Theano 作为默认的后端实现来完成 AI 训练,随着 TensorFlow 训练框架的兴起,Keras 也支持 TensorFlow 以及其它多个 AI 训练框架为其后端执行器,影响了大量的 AI 开发者。简单、易用、完备、高度抽象、兼容性强的 API 定义,对于吸引 AI开发者非常重要。简化调试部署:同一个系列不同版本的芯片,功能或者性能可能有所不同,芯片厂商提供统一的 SDK,可以屏蔽芯片实现细节和硬件差异,可以避免用户代码的改动甚至可以避免用户代码重新编译。对于 AI 应用开发者而言,可以做到开发环境调试和目标设备运行基
71、本保持一致,特别是目标设备不完全一致时,也会极大简化开发、调试和部署的工作量,降低成本。比如 Apache TVM 项目两个主要功能为:将深度学习模型编译成最小可部署的与硬件无关模块;根据后端执行加速器硬件特性,自动生成和优化模型,提高性能;Apache TVM 目前可以支持的后端比如生成 CPU、GPU、浏览器 WASM VM 以及部分自定义的 NPU 代码和模型,极大简化开发者的调试部署时间。2.6 编译器技术 硬件执行体设计者,会根据计算特征,将计算瓶颈相关运算固化成硬件指令,采用硬件加速单元来完成,而编译器开发者则需要制定规则,将软件代码翻译成相应的硬件加速指令。通常软件和算法会针对不
72、同场景,使用不同的算法模型,完成相应的计算任务,即便是同一类型的算法模型,也会根据能效和性能需要,进行必要的参数调整。编译器技术虽然可以帮助软件开发者将高级语言翻译成机器可执行机器语言,但是编译器通常都是基于规则来完成机器语言的翻译和优化,在实际运行中,由车载智能计算芯片白皮书(2023)35 于输入条件和场景不同,编译器无法针对运行时的场景进行优化,此时则需要软件工程师对芯片硬件架构体系有一定了解,针对场景编写出硬件优化的代码,并指导编译器优化编译。3.NPU 软硬协同设计创新 对于 AI 芯片而言,能够通过软件在运行时重新配置、实时动态改变功能,以运行不同计算任务,满足不同场景需求至关重要
73、。AI 芯片的运行时实时动态重新配置称为可重构计算技术,可重构计算技术允许硬件架构不变,通过软件来完成计算任务设定,同时具备 CPU 的灵活性和 ASIC 的高性能和低功耗,被认为是突破性的下一代集成电路技术,为 AI 芯片带来了极高的灵活度和适用范围。可重构技术与系统软件紧密耦合,普通 AI 应用软件开发并不能直接针对 AI 芯片进行编程。“周易”NPU 是典型的可重构 AI 芯片技术,通过 Compass SDK 可以完成典型 AI 模型的转化和代码编译,使得 AI 模型可以运行在包含“周易”NPU IP 的芯片之上。最新发布的 X2 系列 NPU 产品针对自动驾驶领域计算芯片,单核 MA
74、C 阵列,在配置成 INT8*INT8 或者 INT8*INT12 时,可以提供 10TOPS 的算力,INT16*INT16 时可以提供 2.5 TOPS 的算力,并支持混合精度神经网络推理部署。除了精度的动态配置外,“周易”NPU 还可以在运行时配置,以支持各种 AI 模型的动态切换。图十二:“周易”NPU 软件技术栈 如图十二蓝色部分所示,“周易”NPU 工具链可以把典型的 AI 训练框架生成的模型,转化成“周易”NPU可执行文件,并在转化编译过程中,针对目标平台芯片进行诸如低精度量化等优化执行码操作,车载智能计算芯片白皮书(2023)36 极大方便 AI 算法和软件工程师部署模型推理和
75、性能调优。目前已支持 160 多个常用的 AI 模型算子,其开放的软件技术架构,也方便 AI 开发者自定义算子。随着“周易”NPU 技术的不断演化,更多新的 AI芯片将不断量产,软件与算法开发者均可以借助“周易”NPU 工具链,完成代码模型对 AI 芯片产品的适配、调试或者仿真测试,实现软件算法开发对芯片的解耦,提高车载自动驾驶软件的研发效率。AI 编译器可以将机器学习模型转换为对应 AI 芯片上的运行代码(通常作为某种形式的深度神经网络执行),甚至针对特定模型和目标芯片特性进行优化。一方面软件屏蔽了 AI 芯片的底层技术细节,降低自动驾驶算法落地的工程开发难度,另外一方面,随着算法和模型的不
76、断演进,对于未来出现的新算法和模型支持也能做到一定程度上的支持,确保硬件平台向后兼容性。4.异构感知计算流水线优化 车载智能计算平台在辅助驾驶或者自动驾驶场景中,对于环境数据感知有着非常苛刻的延迟要求,其中数据传输及处理涉及到多个功能模块。在 SoC 设计时,不同功能 IP 模块往往由不同厂商提供,针对特定场景优化,需要这些模块间形成可以直接通信的系统方案。比如:多路摄像头及其它传感器输入的环境感知数据,会实时输入给 NPU 模块。高性能的车载智能计算 SoC 内部,让 NPU 模块与GPU、ISP、VPU 等模块协同工作以达到最佳的效率是非常重要的。安谋科技推出的 DFC(Direct Fr
77、ame Connection)技术,避免 ISP(Image Signal Processor)输出数据写入 DRAM(延迟通常在 50 100ns)内存,然后 NPU 再从 DRAM 内存读取数据并处理的过程,在芯片设计时,工程师可以根据场景需求,灵活配置 DFC 内部 SRAM(延迟通常在 1-2ns)大小,桥接诸如标准的“玲珑”ISP 和“周易”NPU 模块,极大降低数据延迟和功耗,提高数据处理吞吐率,避免因数据访问 DRAM 造成性能抖动。车载智能计算芯片白皮书(2023)37 图十三:DFC 技术示意图 5.辅助驾驶、自动驾驶案例 案例五:地平线智驾系列产品 地平线是中国智能驾驶计算
78、解决方案的头部厂商,到目前为止,已经推出了四代车载智能计算芯片,并开发对应的 BPU 智能计算引擎,在产品开发的理念上充分体现了前文所提到的方法论。2018 年,地平线提出了智能计算的新摩尔定律,这个定律的核心概念是端到端的计算性能优化,而不只是理论的峰值算力。其中包含三方面的关键要素:第一是在设计、工程实现方面的极致优化;第二是对最先进算法的采纳,结合整个算法大发展趋势,预判最合适自动驾驶应用场景的最佳算法;第三是软硬件计算架构的联合优化。通过将这三方面结合在一起,设计出端到端的计算最优解。总体来看,设计理念就是既支持好算法,又使得它物理硬件实现最有效。这个过程中,需要软件和硬件在算法、在工
79、程技术上进行很多探索。自动驾驶芯片执行的是“从感知到定位到规控”的完整闭环,并遵循严格的安全标准,将车规体系对可靠性和安全性的最高要求和最佳实践,注入到了历代的芯片设计和解决方案的工程实践中。车载计算架构从以逻辑为主的 1.0 走向以智能为主的 2.0 时代,本质是从规则化设计方式走向数据化设计方式。数据驱动的方法不仅仅用于算法本身,还应用于编译器,通过优化提升编译器的算法和性能,可以将算法转换成计算架构上准确执行的长序列,将其部署在芯片上,在 BPU 的计算核上进行高效的计算。地平线还在进一步尝试 DFC(SRAM)ISP NPU 数据总线(DRAM)车载智能计算芯片白皮书(2023)38
80、用更智能的数据驱动方法,进行 BPU 架构的设计和选择。通过将算法、软件和芯片三方面的设计从规则方式转向数据驱动方式,完成了以数据驱动为代表的计算架构 2.0 的迭代更新。回顾过去数代产品的开发,软硬结合、极致优化的 BPU 计算架构是一个持续演进的过程,它的原动力来自于应用场景的拓展和深入新问题、新挑战需要新的算法,再加上编译器以及整个硬件系统架构持续往前演进,通过实践、验证,持续寻找计算方案的最优解。受益于软硬结合的理念,通过在算法和编译器方面的持续优化,在征程 5 芯片推出后,其数据处理性能在原先1283 FPS 的基础上进一步提升为 1718 FPS,超 30%的性能提升幅度。车载智能
81、计算芯片白皮书(2023)39 征程 5 在设计理念上,不仅注重 AI 计算效率的优化,更重要的是考虑了数据全流程的优化,从数据的预处理,到中间的 AI 计算,以及数据后处理,都有对应的硬件加速单元,并且充分保证了处理环节的衔接性,最终获得了60ms 的业界最低延迟记录。在征程 5 的贝叶斯架构 BPU 的诸多亮点中,高度的并行化是其核心,包括硬件和软件的并行化:在硬件层面有三层并行化:车载智能计算芯片白皮书(2023)40 1.数据并行:跨多个单元计算多个数据;2.Kernel 并行:在 MAC 脉动卷积单元中,在多个 Kernel 上计算相同的输入数据,并行生成多个特征图;3.单元并行:单
82、元独立或同时工作,并以最佳方式消耗内部数据。在软件层面也有三层并行化:1.算子并行:编译器可以在同一时间跨计算单元调度不同的计算;2.Layer 并行:神经网络模型中的 Layer Binning 并行地在多个层级上执行,在数据可用时消耗数据以提高吞吐量;3.模型并行:两个 BPU 内核可以独立工作,也可以在同一神经网络模型上一起工作。地平线推出的下一代智能计算架构 Nash 引擎,拥有超异构的计算核心、极强的计算能力和丰富的算子支持。纳什架构 BPU 的很多关键技术突破都跟存储、计算、数据的总线带宽相关,其中包括:1.第一次引入浮点向量加速单元,使得可编程性包括对于算法的支持变得更好,而且使
83、得用户可以在更细颗粒度上进行开发。车载智能计算芯片白皮书(2023)41 2.虚拟化:一个物理的BPU核能够在应用过程中表现出多个虚拟化的核,这使得多任务的执行完全透明化。对于自动驾驶应用端而言,透明化是对于复杂场景应用非常必要的一个特性。3.根据数据分布特点,设计了非常精巧的计算微架构,使其在计算过程中的动态功耗能够降低 30%以上。案例六:芯驰科技智驾产品系列 芯驰科技是全场景智能车芯引领者,专注于为未来智慧出行提供高性能、高可靠的车规芯片,产品和解决方案覆盖智能座舱 X9、智能驾驶 V9、中央网关 G9和高性能 MCU E3四大业务,涵盖了未来汽车电子电气架构最核心的芯片类别,从而实现“
84、四芯合一,赋车以魂”。芯驰四个系列芯片均已量产,2022 年出货量超百万片。芯驰目前拥有近 200 个定点项目,服务超过 260 家客户,覆盖国内 90%以上主机厂及部分国际主流车企,包括上汽、奇瑞、长安、东风、一汽、日产、本田、大众、理想等。芯驰 V9P 典型解决方案框图 芯驰科技的智能驾驶芯片 V9P 是针对行泊一体 ADAS 域控制器专门设计的新一代车规处理器,具有高性能和高集成特点。CPU性能高达70KDMIPS,整体AI性能高达20TOPS,在单个芯片上即可实现AEB(自动紧急刹车)、ACC(自适应巡航)、LKA(车道保持)等主流 L2+ADAS 的各项功能和辅助泊车、记忆泊车功能,
85、并能集成行车记录仪和高清 360 环视。V9P 处理器针对 ADAS 应用,采用-与安谋科技联合定制高性能“周易”X1 NPU,整体算力高达 20TOPS,提供更高的性能和运行效率,支持算子数量达到 100 多个,远高于同类产品,不仅能够支持经典的网络,还可以支持车载智能计算芯片白皮书(2023)42 Swin-Transformer 等较新的网络模型,并具有通过定制算子持续升级的能力。在 ADAS 应用中,CPU 的性能同样非常关键,V9P 配备了 8 个 Arm Cortex-A55 CPU 内核,提供高达 70KDIMPS 的计算性能,CPU 与 NPU 共同实现感知融合、定位融合、路径
86、规划等功能。此外,V9P 还集成了高性能 GPU,FP32 性能达到 200GFLOPS,不仅可以实现高清 360 环视的图像处理和拼接,还可以用于支持 OpenCL 的运算加速。V9P 处理器集成车规级 ISP 模块,性能高达 1Gpixel/s,可以用于支持 800 万像素摄像头的图像预处理,实现AE(自动曝光)、AWB(自动白平衡)、图像降噪、WDR(宽动态范围)等一系列图像处理和优化,并且支持多种输入输出格式,像素级错误检测以及多种输入输出格式等,摄像头无需再外置 ISP。V9P处理器采用16nm车规工艺,遵从严苛的车规标准设计和生产,满足AEC-Q100 Grade 2可靠性要求。V
87、9P内置的独立安全岛,集成可靠双核锁步 Cortex-R5F CPU,主频高达 800MHz,诊断覆盖率满足 ISO26262 ASIL D功能安全要求,可以用于传感器接入、CAN网络通信,车辆控制以及系统安全监控等功能,从而在不需要外置MCU的情况下,实现真正的单芯片行泊一体方案,有效地节约系统成本。为满足车辆信息安全需求,V9P 内置高性能 HSM,提供主频达到 800MHz 的可编程的安全处理器内核,和高性能的硬件加解密引擎,不仅支持经典公钥、哈希、对称加密和随机数生成算法,同时还支持符合国密标准的SM2/3/4/9 算法,可以很好的满足国内外车厂对于数字签名、加密通信等各项信息安全要求
88、。V9P支持MIPI-CSI、MIPI-DSI、CANFD、千兆以太网、PCIe3.0和USB3.0等高速接口以及丰富的PWM、SPI等外设接口,可以支持多达 9 路摄像头、12 路超声波雷达以及毫米波雷达、激光雷达等传感器输入,能够完全满足5V5R12U 等常见的 ADAS 域控系统设计需求。基于 V9 处理器,芯驰还构建了全开放自动驾驶平台 UniDrive,具有低延迟、高效率和高安全的特性。该平台是一个模块化全开放的软硬件及生态平台,提供算力支持、硬件及传感器参考、可供评估的传感器及实车组合套件、系统框架、参考算法、工具链等底层支撑,可以灵活适配主机厂不同需求。与此同时,芯驰其他系列产品
89、也以不同的方式参与到了智能驾驶的应用中,由天准推出了基于地平线双征程 5+芯驰 X9U+芯驰 E3 平台的 TADC-D52 高配域控制器方案,面向城市 NOA 和记忆泊车、自动泊车、360 环视等高阶自动驾驶场景;以及基于地平线单征程 5+芯驰 G9H+芯驰 E3 平台的 TADC-D51 中配域控制器方案,面向高速NOA和记忆泊车、自动泊车、360环视等自动驾驶场景。两款产品已于2022年8月实现全部功能的一次性点亮,并于 2023 年 3 月份完成全部的 DV 测试并顺利通过,将在 2023 年下半年完成 PV 测试达到量产状态。而东软睿驰自动驾驶域控制器X-Box4.0是基于芯驰X9系
90、列以及地平线征程5系列人工智能芯片打造的L2+级别域控制器标准品。车载智能计算芯片白皮书(2023)43 6.智能座舱案例 案例七:芯驰科技座舱产品 智能座舱在汽车上占据越来越重要的地位。随着车辆的硬件配置、性能逐渐趋同,智能座舱成为新的衡量一辆车产品力的重要组成部分,对高制程,高算力,低功耗的智能座舱 SOC 需求也越来越明确。芯驰科技智能座舱芯片产品达到国际一流水平,是国内创新型车芯厂商中座舱芯片量产进度最快的企业之一,拥有几十个重磅定点车型。上汽、奇瑞、长安等车企旗下搭载芯驰智能座舱 X9 系列芯片的车型已量产上市;同时,芯驰与斑马智行联合发布智能座舱生态化平台,推进舱行泊一体落地。芯驰
91、 X9SP 典型解决方案框图 芯驰最新推出面向未来主流智能座舱应用的新一代 12 核高性能高可靠座舱处理器 X9SP,针对“一芯多屏”,在单个芯片上可以支持液晶仪表、中控导航、副驾娱乐、HUD 和智能后视镜等多个高清屏幕的显示,以及 360 环视、辅助泊车、DMS、语音识别、手势识别、游戏互动、高清电影等丰富的应用场景。X9SP内置12个高性能Arm CPU内核,性能达到100KDMIPS,其中一组4核CPU Cluster用于运行QNX/Linux操作系统,实现高安全的仪表功能,另一组 8 核 CPU Cluster 运行 Android 操作系统,用于中控娱乐导航和副驾娱乐。X9SP 在无
92、需使用 Hypervisor 的情况下,即可支持两个操作系统的独立运行,大大降低了开发难度,提升了系统资源的运行效率。车载智能计算芯片白皮书(2023)44 X9SP内置高达1Gpixel/s的ISP模块,支持800万像素摄像头输入,可以用于图像传感器预处理,实现AE(自动曝光)、AWB(自动白平衡)、图像降噪、WDR(宽动态范围)、像素级错误检测以及多种输入输出格式等,摄像头无需再外置 ISP。X9SP以严苛的车规标准设计,满足 AEC-Q100 Grade 2可靠性要求和 ISO 26262 ASIL B功能安全要求。X9SP内置的独立安全岛,集成双核锁步 Cortex-R5F CPU,主
93、频高达 800MHz,无需外置 MCU 的情况,即可以单芯片的方式实现整个座舱功能,有效地节约系统成本。为满足车辆信息安全需求,X9SP 内置高性能 HSM,提供主频达到 800MHz 的可编程的安全处理器内核,和高性能的硬件加解密引擎,不仅支持经典公钥、哈希、对称加密和随机数生成算法,同时还支持符合国密标准的SM2/3/4/9 算法,可以很好的满足国内外车厂对于数字签名、加密通信等各项信息安全要求。在性能显著提升的同时,X9SP 和芯驰的上一代 X9HP 保持了硬件 Pin-To-Pin 兼容和软件兼容,方便客户从现在的 X9HP 量产设计平滑升级到 X9SP 上,并可以实现在同一套软硬件设
94、计上通过贴装 X9SP 和 X9HP 两种不同的芯片,实现针对不同车型性能需求的配置,最大程度的优化成本,并同时大大降低研发投入。案例八:芯擎科技座舱产品 SE1000 接口框图 车载智能计算芯片白皮书(2023)45 芯擎科技致力于提供智能座舱、自动驾驶、边缘计算等高端汽车芯片整体解决方案,芯擎科技领先的智能座舱国产化解决方案 SE1000(“龍鷹一号”),SE1000 是采用业界领先的 7 纳米工艺制程设计的新一代高性能、低功耗车规级智能座舱芯片,赋能日益丰富的车载信息娱乐系统。高性能定制 CPU 集群,通过面向异构计算而精心设计的SOC 系统,可以为用户提供卓越的性能体验。SE1000
95、同时具有强大 GPU 渲染能力,算力达 900GFLOPS,内含多种图形硬件加速单元,在高清视频流畅播放同时,支持3D游戏平滑操作;内置高性能嵌入式AI神经网络处理单元,提供更多个性化的智能语音、机器视觉及辅助自动驾驶体验。新一代多核心的图形处理单元,可以动态根据负载进行资源分配;SE100可以支持全数字仪表盘支持 7屏 4K/2K 60HZ不同源独立显示,对比友商产品,SE1000的强大的高清屏的支持能力和不同源独立显示可以适用于目前车内多个高清屏应用的需求,这个对于智能座舱的多屏化非常友好;同时支持高带宽、低延迟的 LPDDR5 内存带宽,可保证多屏交互;内置高性能音频信号处理单元及丰富的
96、音频接口,为用户提供丰富超凡的音视频娱乐体验。具备高安全等级的“安全岛”设计,满足 ISO26262 车规认证,确保汽车功能安全;专业的硬件加/解密引擎为车载应用提供了安全性保证。同时,提供丰富的高性能通信及外围接口支持能力。芯擎 SE1000 支持 12 路 2MP/3MP/8MP 60 帧原始摄像头数据输入;通过内置 ISP,针对目前在主动安全领域应用越来越多的前视 8M 像素摄像头,SE1000 也能够适配和支持;同时,安谋科技自研“周易”NPU 也为 SE1000 提供AI 助力,结合片上 8 TOPS NPU 可以支持 ADAS,APA 算法来实现舱行一体或者舱泊一体的 SoC 方案
97、。芯擎 SE1000 同时开发了 STR(Suspend To RAM)功能,SE1000 是一种高端异构处理器包含(R52 M4 A76 A55)以及各种复杂 IP,使得 STR 的整体的设计复杂度很高,从 SOC 设计,各个 IP 都需要考虑 STR 兼容需求,从硬件设计考虑则需要兼容 STR 上电时序,从 MCU 角度考虑需配合 STR 的上电时序,从软件角度考虑则整个数据的保存以及 SOC 各个 IP 状态的恢复进入 STR 后只需要保持 SOC DDR PHY 以及 DDR 颗粒的供电,整个 SOC 的功耗只有 0.11mw,2s 级别的唤醒,唤醒后可以继续对 APK 进行操作。同时
98、芯擎 SE1000摸索出一套简单可行的电源管理方案,成功的开发出一套系统级的功耗控制方案,对 SE1000进行精确的功耗控制。这个系统级的功耗控制方案包括 Android 层、Linux 层、MCU 层以及硬件功能模块层等各个层次的从粗到细的控制策略;同时 SE1000 最大支持到芯片工作结温 110C,常温下可以发挥出芯片的最大工作性能,高温下可以通过温控机制满足用户的基础使用要求且不会影响到用户体验。芯擎 SE1000 的另外一大特色是采取了硬件隔离的设计,硬件隔离式是指在统一的计算平台上采用虚拟化方案,同时运行多个操作系统,但是各个系统依然在硬件上进行隔离,每个系统都有自己的专属硬件资源
99、。相对应的车载智能计算芯片白皮书(2023)46 是软件虚拟式,是指在统一的计算平台上采用虚拟化方案,同时运行多个操作系统,每个操作系统所使用的硬件资源,由 Hypervisor 层动态调配,每个系统并没有专属的硬件资源。硬隔离相对于软件虚拟的好处:1、复杂度降低,不需要加入第三方的虚拟软件,从而软件复杂度降低;2、成本优势:不需要加入第三方虚拟软件包,成本下降非常多;3、安全性更高:在同一个 SOC 中,做功能安全的应用,基本上都需要硬隔离,这样才能保障仪表等高要求的设备的安全运行。芯擎 SE1000 在硬隔离的机制下帮助用户节省了虚拟机的 费用,同时芯片内部的 GPU、ISP、VPU、NP
100、U 等资源可以在两个域之间灵活配置,满足 AP 和 CP 域的资源灵活划分;对于用户来说,大大降低了软件开发门槛以及后续升级的难度。芯擎 SE1000 独创的双片极连技术 SE-LINK,使双 SE1000 方案具备 200KDMIPS、1800GFLOPS、16 TOPS的算力和性能,可支持多个高清 4K 屏和大型 3D 游戏,进一步提供沉浸式座舱体验,并提供包括 APA 辅助泊车、RPA 远程泊车等全场景泊车在内的 L0-L2 辅助驾驶功能,显著提升智驾时代的安全性与便利性。智能汽车时代,技术迭代速度和用户体验的创新是核心竞争力,车载电子电气架构正走向域控制器架构甚至是中央集中架构,快速迭
101、代演进的软件和各种 AI 算法模型与车载硬件平台形成解耦是必然趋势,前者往往几个月甚至几周,便可以通过 OTA(Over-the-Air Technology 空中下载技术)进行升级,而后者,在消费者购买电动车后的 5-10 年间都会长期持有。软件与算法固然起着非常重要的作用,不过由于基础硬件平台相对比较标准且演化缓慢,头部主机厂之间并无法真正拉开竞争差距。从芯片、硬件平台、基础软件、算法和应用软件完整的技术栈来整体优化,为算法或者场景定制化方案,短期而言投入巨大,但也有利于形成的核心竞争壁垒。智能计算大芯片软硬件平台级研发,投入巨大,风险系数高,是对企业研发、融资、供应商管理、客户渠道、生态
102、建设的综合实力考验。主机厂商、一级供应商、二级供应商在发展自主可控技术的背景下如何根据商业回报、风险管理来抉择投入需慎重考虑。车载智能计算芯片白皮书(2023)47 六、总结与展望 高性能芯片、人工智能、移动互联网、大数据、云计算、5G 等信息技术的发展,推动汽车朝向智能化、网联化、电动化、共享化发展,逐渐转变为新型移动智能终端,用户提供更多智能化、个性化和场景化的应用服务。安全可靠、专用、低功耗的车载智能计算 SoC 是实现智能座舱、辅助驾驶和自动驾驶的核心技术之一,也是汽车从“传统汽车”向“智能汽车”进化的关键。优秀的芯片可以实时处理和融合来自摄像头、传感器以及其它数据源实时数据,更准确地
103、感知环境并执行人工智能算法决策,实现安全、可靠、人性化的驾驶体验。伴随车载智能计算平台持续演进,智能网联汽车电子电气架构也在不断朝向中央计算平台的架构发展,硬件逐步标准化,而软件则可以快速更新迭代。以智能汽车为代表的人工智能时代恢弘序幕已经拉开,这是自上世纪八十年代信息技术革命以来最大的科技机遇之一,是未来二十年全球科技竞争的主赛道,智能计算在其中扮演了产业基石的作用,通过车企、供应商与科技企业之间联系合作,必将共同推动全社会迈自动驾驶的新时代、推动世界迈入智能经济时代。车载智能计算芯片白皮书(2023)48 参考资料:(1)清华大学、北京未来芯片技术高精尖创新中心:2018 人工智能芯片技术
104、白皮书(2)亿欧智库:2022 中国 AI 芯片行业研究报告(3)全国汽车标准化技术委员会智能网联汽车分技术委员会:车载计算平台标准化需求研究报告(4)艾瑞咨询:2021 中国智能驾驶行业研究报告(5)Roland Berger:ADAS and autonomous driving market trends to 2030(6)东吴证券研究所:软件定义汽车,AI 芯片黄金赛道(7)亿欧智库:算力驱动汽车2021 中国智能汽车算力发展研究报告(8)东莞证券:2022 智能座舱专题报告(9)汽标委智能网联汽车分标委:2021.7 智能网联汽车半导体单元标准调研报告(10)平安证券:2022.6
105、 电子电气架构演进,海平面下的冰山(11)KPMG:2022.4 角逐升级:中国速度引领自动驾驶崭新未来(12)头豹:2022.6 汽车软件行业概览:软件定义汽车(13)东吴证券:2022.2 智能手机深度复盘对整车格局启示(14)Deloitte:2020 Software-Defined Vehicles A Forthcoming Industrial Evolution(15)David Yu,Xinhua Xiao:2022.3 The Digital Foundation Platform-A Multi-Layered SOA Architecture for Intellige
106、nt Connected Vehicle Operating System(16)白玉兰开源:2022.9 白玉兰开源人工智能软件基础设施高质量发展报告(17)中国软件评测中心:2021.12 车载人工智能计算芯片白皮书(18)全国汽车标准化委员会:2020.8 车载感知融合标准化需求研究报告(19)华西证券:2020.12 智能汽车算力平台方案解析(20)Science:2020.6 Theres plenty of room at the Top:What will drive computer performance after Moores law?(21)CVPR:2023.6 Planning-oriented Autonomous Driving