上海品茶

传媒行业AI专题报告之十二:人形机器人的AI算法如何借力于自动驾驶FSD-230820(42页).pdf

编号:137355 PDF    DOCX 42页 3.81MB 下载积分:VIP专享
下载报告请您先登录!

传媒行业AI专题报告之十二:人形机器人的AI算法如何借力于自动驾驶FSD-230820(42页).pdf

1、 本报告版权属于安信证券股份有限公司,各项声明请参见报告尾页。1 20232023 年年 0808 月月 2020 日日 传媒传媒 行业专题行业专题 人形机器人的人形机器人的 AIAI 算法,如何借力于自算法,如何借力于自动驾驶动驾驶 FSDFSDAIAI 专题报告之十二专题报告之十二 证券研究报告证券研究报告 投资评级投资评级 领先大市领先大市-A A 维持维持评级评级 首选股票首选股票 目标价(元)目标价(元)评级评级 行业表现行业表现 资料来源:Wind 资讯 升幅升幅%1M1M 3M3M 12M12M 相对收益相对收益 -5.6-8.6 35.1 绝对收益绝对收益 -7.5-12.9

2、25.6 焦娟焦娟 分析师分析师 SAC 执业证书编号:S01 相关报告相关报告 影视行业 2023 年迎多重利好,暑期档超预期将加速行业修复 2023-08-19 欧盟人工智能法案草案通过,关注优质 IP 方的两条受益逻辑 2023-06-15 新 IPAIGCNFT:交互大繁荣、内容新模式、变现新空间从“上网”到“上算”,由“网络世界”至“虚拟现实”AI 专题报告之十一 2023-06-11 从“上网”到“上算”,由“网络世界”至“虚拟现实”AI 专题报告之十:四层投资逻辑中,主线是“大模型”大模型携生态合作伙伴衍生出爆款落地应用 2023-05-23 在我们的研究框

3、架中,在我们的研究框架中,AGIAGI、混合混合虚拟现实、元宇宙均描述的是虚拟现实、元宇宙均描述的是未来成型的生态。未来成型的生态。AGI/AGI/虚拟现实的真正实现,首先依托于智能科虚拟现实的真正实现,首先依托于智能科技视角下的两条技术路径技视角下的两条技术路径混合平台、重构时空,人形机器人混合平台、重构时空,人形机器人即混合平台的一种工程方案。智能科技视角下,即混合平台的一种工程方案。智能科技视角下,chatGPTchatGPT 是生产是生产力范畴、力范畴、MRMR 眼镜与人形机器人是不同的计算平台眼镜与人形机器人是不同的计算平台/新空间,新空间,我们我们预计预计其中其中 MRMR 眼镜将

4、于眼镜将于 20242024 年进入年进入 C C 端,人形机器人预计将于端,人形机器人预计将于20262026 年进入家庭年进入家庭 C C 端。端。国内外市场对人形机器人产业进程的分歧巨大(落脚于能否国内外市场对人形机器人产业进程的分歧巨大(落脚于能否20262026 年进家庭年进家庭 C C 端),源于硬件的诸多关键部位均需端),源于硬件的诸多关键部位均需 0 0-1 1 的定制的定制化研发,软件(主要是化研发,软件(主要是 AIAI 算法)部分则较车端自动驾驶更具挑算法)部分则较车端自动驾驶更具挑战。我们本篇报告聚焦于软件部位的战。我们本篇报告聚焦于软件部位的 AIAI 算法部分:算法

5、部分:AIAI 算法部分算法部分为何至关重要?自动驾驶为何至关重要?自动驾驶 FSDFSD 详细分析及最新进展、人形机器人详细分析及最新进展、人形机器人的的 AIAI 算法部分如何借力于算法部分如何借力于 FSDFSD?软件算法的迭代速度、技术高度对人形机器人的导入速度、产软件算法的迭代速度、技术高度对人形机器人的导入速度、产品高度起到决定性的作用,且随着硬件体系成熟,软件算法的重品高度起到决定性的作用,且随着硬件体系成熟,软件算法的重要性会愈加凸显:要性会愈加凸显:1)人形机器人与传统机器人的突破在和物理世界的实时感知交互,决定其实现的关键在于软件算法;2)算法能力的提升在一定范围内会降低对

6、硬件的依赖与精度要求,参考自动驾驶方案逐步降低对雷达的依赖走向纯视觉方案;3)当产品的成熟度达到一定高度后,硬件趋向同质化,很难体现出产品的差异性,在一定范围内所体现出的重要性或将逐步降低,而软件的成熟度、稳定性等因素将日益成为影响产品差异性竞争力的重要因素。特斯拉自动驾驶自研方案经历四次重要迭代,当前形成了“特斯拉自动驾驶自研方案经历四次重要迭代,当前形成了“4 4D D空间空间+占用网络”的核心架构。占用网络”的核心架构。自动驾驶方案主要有感知、决策规划、运动控制三个模块,其中感知层相当于自动驾驶的“眼睛”,帮助汽车理解所处的外部环境,感知模型的输出是基础;建立在准确、可靠的感知输出结果上

7、,决策规划模型相当于“大脑”,对自车及周边环境轨迹进行预测,通过打分机制筛选出最优运动轨迹输出给运动控制模块;获得行动轨迹后,运动控制模块将其分解为方向转向、行车速度等操作指令,将其传输给方向盘、油门、刹车等执行器进行操作,最终实现对汽车的控制。我们对特斯拉我们对特斯拉 FSDFSD 算法进行详细拆解,并对比了人形机器人与算法进行详细拆解,并对比了人形机器人与自动驾驶方案的异同:自动驾驶方案的异同:我们认为人形机器人建立在 FSD 的基础上有算法能力及供应链的加持,导入速度更快;但考虑到自由度更-18%-8%2%12%22%32%42%52%--

8、08传媒传媒沪深沪深300300 本报告版权属于安信证券股份有限公司,各项声明请参见报告尾页。2 行业专题行业专题/传媒传媒 多,规控算法难度较大,因此达到成熟需要一定周期,预计未来会类似于自动驾驶一样,呈现产品智能等级逐步提升的过程。相较市场对硬件部分的关注,我们本篇报告特别关注软件算法相较市场对硬件部分的关注,我们本篇报告特别关注软件算法平台的机会:平台的机会:1 1.市场认为机器人最终会类似于自动驾驶一样走向自研。我们则市场认为机器人最终会类似于自动驾驶一样走向自研。我们则认为:认为:1)短期内对于希望升级至人工智能方向的制造商,可能会借助软件算法公司的积累而进行业务迭代;2)长期来看机

9、器人与自动驾驶的场域更加开放,为了提高用户体验,可能会走向更多长尾功能及场景的优化,体现为种类繁复的执行器及规控操作。如若每个公司都在感知等基础平台上重复造轮子,可能会带来产业资源的浪费。因此若最终指向通用人形机器人,我们判断感知、决策被模型化后或许会成为类似今天基础大模型一样的存在,在这类能力上具备强大实力的公司可能成为平台型的公司,而在其之上,不同应用场景的机器人公司可以部署垂类小模型,基于相应的执行器进行调整,这种模式或许是更经济的方案。由此推演,我们认为或许不排除未来特斯拉会成为 AI 公司提供基础能力,将上层执行器及运动控制的方案开放给更多的第三方合作伙伴。2 2.有观点认为国内技术

10、创新能力不足,不具备提供平台型能力的有观点认为国内技术创新能力不足,不具备提供平台型能力的实力。我们反而认为:实力。我们反而认为:从算法能力方面,中国车企在自动驾驶方案上已经有一定积累,特别是新势力如理想、小鹏、华为、地平线等在感知、决策规划上已经具备相应的能力,且地平线已经宣布将进军机器人领域。此次大模型的火爆也在很大程度上推动了对技术创新、工程化落地重要性的认知,量变的积累可能引起质变,推动国内技术方案及工程能力整体水平的提升,因此我们认为国内的新势力公司仍值得关注。关注关注人形机器人产业链人形机器人产业链:特斯拉及其产业链上生态合作伙伴:特斯拉及其产业链上生态合作伙伴:其中软件部分系特斯

11、拉自研,国内在产业链上的参与方式主要在零部件;传统机器人向智能化升级:传统机器人向智能化升级:传统人形机器人做智能化升级,比如波士顿动力引入 ChatGPT 做交互;非人形机器人向智能人形机器人迭代,如傅利叶智能;互联网大厂向机器人方向拓展:互联网大厂向机器人方向拓展:谷歌、腾讯、字节跳动等;自动驾驶新势力:自动驾驶新势力:地平线等。芯片、算力、数据等也非常重要:芯片、算力、数据等也非常重要:云端算力如超算中心的芯片及服务器;边缘、端算力,关注云天励飞;仿真模拟数据等。风险提示:风险提示:技术迭代进展不及预期、算力投产速度不及预期、安全、隐私法规等政策风险、测算不及预期。大模型及其应用的海外跟

12、踪从“上网”到“上算”,由“网络世界”至“虚拟现实”AI 专题报告之九 2023-04-10 YYoZ0UUUmWyX9PaO6MoMqQmOpMiNnNuMfQmOnP6MrQoOuOoNoOvPtOqQ行业专题行业专题/传媒传媒 本报告版权属于安信证券股份有限公司,各项声明请参见报告尾页。3 内容目录内容目录 1.安信智能科技研究框架.6 2.产业趋势:机器智能“模型”系统迎来拐点,“行动”系统蓄势待发.6 3.自动驾驶 FSD 有望迎来量产落地.12 3.1.感知层:进入“4D 重建+占用网路”阶段,感知体系已较为成熟.14 3.2.决策规划:系高维非凸问题,引入神经网络求解效率提升.1

13、8 3.3.运动控制:仅执行决策指令,在工业上较为成熟.20 3.4.数据及标注:特斯拉领先之关键,已建立强大自迭代体系.20 3.5.算力:自研芯片性能可期,投产 Dojo 应对潜在增长需求.24 4.人形机器人产业链.26 4.1.Optimus:以 FSD 体系为基础,指向人形对软硬件适配调整.26 4.2.建立在智能驾驶体系之上,人形机器人导入速度预计很快.31 4.2.1.硬件架构无须破旧立新,共享汽车零部件供应体系.31 4.2.2.与智能汽车本质均为智能交互硬件,复用算法模型及数据体系.31 4.2.3.大模型加速智能驾驶方案迭代,机器人大模型领域成果频出.32 4.3.开放场景

14、人形机器人相较于自动驾驶面对更多挑战.34 4.3.1.特斯拉缺乏语言大模型能力,需要补齐语料数据.34 4.3.2.人形机器人运动控制具有极大难度.35 4.3.3.对特斯拉自研算力提出更高的要求.35 5.预测:人形机器人落地节奏及市场规模.36 6.投资建议.38 7.风险提示.39 图表目录图表目录 图 1.安信传媒团队智能科技研究框架.6 图 2.陆奇提出的“三位一体结构演化模式”.7 图 3.全球互联网用户及对应渗透率.7 图 4.中国互联网用户及对应渗透率.7 图 5.2016-2020 年全球产生的数据量规模.8 图 6.从 GPT-1 到 GPT-4 的对比.9 图 7.商汤

15、科技模型进化历程.10 图 8.视觉、语言神经网络架构进化.10 图 9.具身智能指机器智能与物理世界交互反馈.11 图 10.特斯拉人形机器人的关键时间点.12 图 11.特斯拉自动驾驶架构.13 图 12.特斯拉算法迭代进程.14 图 13.特斯拉采用 8 颗摄像头采集车周围信息.15 图 14.特斯拉 FSD 感知算法流程图.15 图 15.特斯拉多头处理任务架构 HydraNets.16 图 16.特斯拉针对尘雾场景进行模型训练.16 图 17.Transformer 架构技术原理.16 图 18.早期 BEV 鸟瞰图为 2D 俯视角.16 图 19.特斯拉感知架构的演进.17 图 2

16、0.占用网络之体素分割.17 行业专题行业专题/传媒传媒 本报告版权属于安信证券股份有限公司,各项声明请参见报告尾页。4 图 21.占用网络构建步骤及输出.17 图 22.感知输出之动态障碍物.18 图 23.感知输出之车道线及路网.18 图 24.非凸问题优化.18 图 25.特斯拉采用交互搜索树进行决策规划.19 图 26.占用网络构建步骤及输出.19 图 27.特斯拉决策树剪枝方案.19 图 28.决策规划的输出轨迹.19 图 29.每个 Clip 数据集将通过算法标注输出空间信息.20 图 30.2018-2023H1 特斯拉车辆年度销量.21 图 31.2018-2023H1 特斯拉

17、车辆累计销量.21 图 32.特斯拉 FSD Beta 版本覆盖的里程数据.21 图 33.仿真模拟的场景.22 图 34.Wayve 利用 AIGC 生成仿真模拟环境.22 图 35.特斯拉数据流图.23 图 36.特斯拉数据仓库中包含大量、多元数据.24 图 37.自动驾驶云、端主要工作及关系.24 图 38.特斯拉 D1 芯片参数.25 图 39.特斯拉云端机柜 DOJO POD.25 图 40.特斯拉 Dojo 投产计划.25 图 41.智能机器人软硬件构成.26 图 42.特斯拉人形机器人外形参数.27 图 43.特斯拉人形机器人芯片及电池等参数.27 图 44.特斯拉人形机器人视觉

18、传感器及感知占用网络.27 图 45.特斯拉人形机器人视觉导航系统.28 图 46.人形机器人采集运动控制数据.28 图 47.人形机器人的影子模式.28 图 48.人形机器人运动轨迹预测.28 图 49.人形机器人推倒测试.29 图 50.特斯拉人形机器人外形参数.29 图 51.特斯拉人形机器人芯片及电池等参数.29 图 52.特斯拉人形机器人外形参数.30 图 53.特斯拉人形机器人芯片及电池等参数.30 图 54.人形机器人与自动驾驶动力系统比对.30 图 55.特斯拉列举 28 种人类常见活动.30 图 56.特斯拉设计了 6 款执行器.30 图 57.汽车电子电气架构逐步从分布式走

19、向集中.31 图 58.2022 年 AI Day 发布的特斯拉人形机器.32 图 59.为人形机器人编写跌倒测试软件.32 图 60.马斯克称将 FSDv12.0 版本将实现端到端.33 图 61.马斯克表示运动控制模块正在 AI 模型化.33 图 62.道路语义拓扑图.33 图 63.RT-2 模型实现视觉-语言-动作三种模态对齐.34 图 64.中美自动驾驶分级标准.36 行业专题行业专题/传媒传媒 本报告版权属于安信证券股份有限公司,各项声明请参见报告尾页。5 图 65.智能机器人产业链.39 表 1:2021-2022 年中国各类互联网应用用户规模和网民使用率.8 表 2:CNN、R

20、NN、Transformer 优缺点对比.9 表 3:目前自动驾驶方案中主要的传感器对比.14 表 4:特斯拉历代 FSD 硬件版本.26 表 5:特斯拉汽车智能化发展阶段梳理.36 表 6:全球机器人销量.37 表 7:2023-2030 年人形机器人落地节奏及市场规模预测.38 行业专题行业专题/传媒传媒 本报告版权属于安信证券股份有限公司,各项声明请参见报告尾页。6 1.1.安信智能科技研究框架安信智能科技研究框架 当下,我们正处于下一代计算平台构建成型的起点上,以“智能”的真正实现为总纲,技术维度的要素创新,包括混合虚拟现实(MR)、人机共生/协同(AI)两个方向,其中 MR 本质上是

21、重构时空,人机共生/协同本质上是混合平台,混合平台又包括不同的工程方案人形机器人(以机器为智能载体)、脑机接口(以人为智能载体)。工程方案理论上会有无穷多,具象的工程方案探索,严格意义上仍在初期(目前仅基于视觉的技术探索),但所有的工程方案都可以收拢到具体的技术路径中,任何技术路径的目标是实现虚拟现实,即模糊掉虚拟与现实之间的边界。目前主流的技术路径为,一是以 AR 的技术路径去实现,但现阶段 AR 相关技术仍待攻克;二是先 VR 再迭代至 MR,以 VR 作为过渡。混合平台是智能实现的另一条技术路径。如果将人的身体看作“硬件”,智能的实现过程,也是新智能交互硬件层出不穷、旧硬件迭代甚至是重塑

22、的过程。因此,未来的智能硬件不仅包括冷冰冰的电子器件本身,也包括人类和电子器件之间不同程度的耦合,即指向人机共生/协同。在这条技术路径上,脑机接口与人形机器人是不同的工程方案,即智能的实现分别以人、机器人为载体。图图1.1.安信传媒团队智能科技研究框架安信传媒团队智能科技研究框架 资料来源:安信证券研究中心 2.2.产业趋势产业趋势:机器智能“模型”系统迎来拐点,“行动”系统蓄势待发:机器智能“模型”系统迎来拐点,“行动”系统蓄势待发 根据陆奇对于人工智能进化路径的理解,人作为最成熟的通用智能体,在处理外部环境时依次用到了“信息”系统、“模型”系统、“行动”系统,分别获取数据信息、分析处理信息

23、并做出决策、基于决策目标做出行动。机器如果想要发展成为像人一样的通用智能体,则也需要有这三个系统,其演进的过程可以简单的概括为机器感知世界、理解世界、参与世界。而前沿科技研究转化为生产力有一定的过程,引发生产力大变革的拐点在于当应用这项技术的边际成本转化为某些特定公司固定成本时,产业浪潮出现。(资料来源:奇绩创坛)我们认为我们认为这背后原因是当应用技术的边际成本转化为固定成本的时候,行业可以发挥规模效应分摊技这背后原因是当应用技术的边际成本转化为固定成本的时候,行业可以发挥规模效应分摊技术成本,且减少了重复资源浪费。术成本,且减少了重复资源浪费。行业专题行业专题/传媒传媒 本报告版权属于安信证

24、券股份有限公司,各项声明请参见报告尾页。7 图图2.2.陆奇提出的“三位一体结构演化模式”陆奇提出的“三位一体结构演化模式”资料来源:奇绩创坛、安信证券研究中心 回溯机器智能的进化史进行梳理,互联网时代推动“信息”系统成熟化,使得今天信息获取回溯机器智能的进化史进行梳理,互联网时代推动“信息”系统成熟化,使得今天信息获取的成本极低;“模型”系统正走过拐点,大模型所带来的泛化能力使模型生产的边际成本下的成本极低;“模型”系统正走过拐点,大模型所带来的泛化能力使模型生产的边际成本下降,转化为特定大公司如降,转化为特定大公司如 OpenAIOpenAI 背后的算力、人才、数据成本;仍有待突破、充满挑

25、战的背后的算力、人才、数据成本;仍有待突破、充满挑战的是“行动”系统的智能化:是“行动”系统的智能化:1 1)互联网时代推动“信息”系统成熟化)互联网时代推动“信息”系统成熟化机机器能够感知人类世界器能够感知人类世界 现实物理世界的信息以各种形式存在,如纸质的文字、对话、图像等,机器如果需要和物理世界进行交互,识别信息是第一步。1995 年进入互联网时代,PC、互联网的普及加速了信息的线上化,使物理世界能够转化为机器可读取的信息,目前物理世界的线上化率已经达到较高的水平,体现为:过去十年移动互联网发展进一步加速了用户上网率的提升,截止 2022 年,全球互联网用户规模为 53.9 亿,相较于

26、2013 年增长 92.5%,上网用户的渗透率达到 67.9%;2022 年中国互联网用户为 10.67 亿,较 2013 年增长 72.65%,中国上网用户的渗透率高于全球水平,达到75.6%。图图3.3.全球互联网用户及对应渗透率全球互联网用户及对应渗透率 图图4.4.中国互联网用户及对应渗透率中国互联网用户及对应渗透率 资料来源:IWS、安信证券研究中心 资料来源:CNNIC、安信证券研究中心 28.030.833.737.041.643.145.446.551.753.939.0%42.4%46.4%49.5%54.4%55.6%58.8%59.6%65.6%67.9%0%0%20%2

27、0%40%40%60%60%80%80%0 0040405050606020132013 20142014 20152015 20162016 20172017 20182018 20192019 20202020 20212021 20222022全球互联网用户规模(亿人)全球互联网用户规模(亿人)渗透率(渗透率(%)6.186.496.887.317.728.299.049.8910.3210.6745.8%47.9%50.3%53.2%55.8%59.6%64.5%70.4%73.0%75.6%0%0%20%20%40%40%60%60%80%80%0 02 24

28、46 68 832013 20142014 20152015 20162016 20172017 20182018 20192019 20202020 20212021 20222022中国互联网用户规模(亿人)中国互联网用户规模(亿人)渗透率(渗透率(%)行业专题行业专题/传媒传媒 本报告版权属于安信证券股份有限公司,各项声明请参见报告尾页。8 互联网上覆盖了丰富多元的用户场景,以中国互联网应用为例,2022 年网民使用率排名前五大的应用类别为即时通信、网络视频、短视频、网络支付、网络购物,分别为 97.2%、96.5%、94.8%、85.4%、79.2%,涵盖了通讯、

29、娱乐、购物的用户需求。此外线上办公、网约车、互联网医疗场景应用的网民使用率也分别达到了 50.6%、40.9%、39.6%,也体现出用户生活的全面线上化趋势。表表1 1:2 2 年中国各类互联网应用用户规模和网民使用率年中国各类互联网应用用户规模和网民使用率 应用应用 2 2021021 2 2022022 用户规模用户规模 同比增长率同比增长率 用户规模(万)用户规模(万)网民使用率网民使用率 用户规模(万)用户规模(万)网民使用率网民使用率 即时通信即时通信 100666 97.5%103807 97.2%3.1%网络视频网络视频 (含短视频)(含短视频)97

30、471 94.5%103057 96.5%5.7%短视频短视频 93415 90.5%101185 94.8%8.3%网络支付网络支付 90363 87.6%91144 85.4%0.9%网络购物网络购物 84210 81.6%84529 79.2%0.4%网络新闻网络新闻 77109 74.7%78325 73.4%1.6%网络音乐网络音乐 72946 70.7%68420 64.1%-6.2%网络直播网络直播 70337 68.2%75065 70.3%6.7%网络游戏网络游戏 55354 53.6%52168 48.9%-5.8%网络文学网络文学 50159 48.6%49233 46.

31、1%-1.8%网上外卖网上外卖 54416 52.7%52116 48.8%-4.2%线上办公线上办公 46884 45.4%53962 50.6%15.1%网约车网约车 45261 43.9%43708 40.9%-3.4%在线旅行预订在线旅行预订 39710 38.5%42272 39.6%6.5%互联网医疗互联网医疗 29788 28.9%36254 34.0%21.7%线上健身线上健身 -37990 35.6%-资料来源:CNNIC、安信证券研究中心 用户规模增长及线上用户场景的多元化也在推动数据量的快速增长,从而提供了海量的信息用户规模增长及线上用户场景的多元化也在推动数据量的快速增

32、长,从而提供了海量的信息供机器进行学习。供机器进行学习。根据 Statista 给出的数据,2016-2020 年全球产生的数据量依次是 18ZB、26ZB、33ZB、41ZB、47ZB,数据量增长的复合增速是 27.11%。我们认为随着各类应用的用户使用率提升,未来全球产生的数据量规模也将加速增长。图图5.5.2016-2020 年全球产生的数据量规模年全球产生的数据量规模 资料来源:Statista、安信证券研究中心 2 2)大模型展示出泛化能力,“模型”系统正走过拐点)大模型展示出泛化能力,“模型”系统正走过拐点机机器能够理解人类世界器能够理解人类世界 得益于数据、算力滋养,神经网络模型

33、能力逐步显现,行业主流模型从得益于数据、算力滋养,神经网络模型能力逐步显现,行业主流模型从 CNNCNN、RNNRNN 走向走向TransformerTransformer。2006 年提出深度学习算法后,神经网络结构经历了 RNN、CNN 等几代的进化,在视觉领域取得了非常显著的突破,2014 年 3 月,香港中文大学多媒体实验室自主研发的DeepID 系列面部识别算法准确率达到 98.52%,在全球范围内首次超过人眼识别准确率,突破工业应用的红线。因为语序对于语义理解很重要,而不同语言间语序的重心又有所不同,因此在小模型阶段 CNN、RNN 算法在语言模型并未取得显著进步,因此这一阶段人工

34、智能技 00404050502000020全球产生的数据量规模(全球产生的数据量规模(ZBZB)行业专题行业专题/传媒传媒 本报告版权属于安信证券股份有限公司,各项声明请参见报告尾页。9 术的突破主要体现在计算机视觉领域。2016 年 AlphaGo 打败世界围棋冠军李世石,进一步引爆了人工智能的浪潮,推动人工智能应用在金融、安防等场景的渗透率提升及全球人工智能创业热潮。但这一阶段均为小模型,需要针对不同场景重新标注数据对模型进行训练,人工标注成本较高且模型泛化能力较差,导致拓展项目边

35、际成本较高而收入增长速度缓慢。2017年谷歌在论文AttentionIsAllYouNeed中提出了 Transformer 架构,Transformer 架构基于自注意力机制,通过赋予权重能够并行化处理序列间关联关系,在自然语言处理领域中得到了广泛的应用,如机器翻译、文本分类和生成模型等。表表2 2:CNNCNN、RNNRNN、TransformerTransformer 优缺点对比优缺点对比 CNN RNN Transformer 模型结构 局部连接、权值共享的卷积结构 具有循环连接的结构,如LSTM、GRU 等 基于自注意力机制的结构 特征表示能力 对局部特征提取能力强,适用于图像、语音

36、等领域 适用于处理序列数据,能够捕捉序列信息的演化过程 具有较强的建模能力,适用于处理序列、图像等多种数据形式 训练效率 训练效率高,可并行化处理 训练效率相对较低,难以并行化 训练效率较高,可并行化处理 模型复杂度 模型结构相对简单,参数较少,不适用于处理序列数据 模型结构相对复杂,参数较多 模型结构较为复杂,参数较多 鲁棒性 对数据噪声、变形等鲁棒性一般 对数据噪声、变形等具有一定的鲁棒性 对数据噪声、变形等具有较强的鲁棒性 应用场景 图像识别、视觉任务 语音识别、自然语言处理 自然语言处理、图像处理 长序列建模 不适用 适用,但难以处理非常长的序列 适用,能够高效地处理非常长的序列 并行

37、计算 适用 不适用 适用 参数量 较少 较少 较多 训练数据需求 高 较高 高 对位置信息敏感 不敏感 敏感 敏感 泛化能力 一般 一般 良好 资料来源:智东西、陈巍团队、安信证券研究中心 GPTGPT 系列模型提出“预训练系列模型提出“预训练-微调”的模式,表明训练模型具备规模效应。微调”的模式,表明训练模型具备规模效应。OpenAI 在Transformer 架构的基础上又进一步提出 GPT 模型,其突破在于训练时采用“预训练-微调”的模式,先采用大量无标注的语料预训练语言模型,然后对预训练好的语言模型进行微调,将其迁移到有监督学习的任务上。我们认为这种模式所产生的价值在于提供了将训练模型

38、的我们认为这种模式所产生的价值在于提供了将训练模型的边际成本转化为固定成本的模型架构,针对更底层通用的能力抽取出来训练大模型共担成本,边际成本转化为固定成本的模型架构,针对更底层通用的能力抽取出来训练大模型共担成本,而针对特定场景的部署只需要少量数据就能够进行训练,从而体现出规模效应的可行性。而针对特定场景的部署只需要少量数据就能够进行训练,从而体现出规模效应的可行性。图图6.6.从从 GPT-1 到到 GPT-4 的对比的对比 资料来源:智东西、陈巍团队、安信证券研究中心 行业专题行业专题/传媒传媒 本报告版权属于安信证券股份有限公司,各项声明请参见报告尾页。10 从从 GPTGPT-3 3

39、 开始表现出涌现能力,大模型不仅具备规模效应,还产生了能力跃迁。开始表现出涌现能力,大模型不仅具备规模效应,还产生了能力跃迁。随着模型参数增加及语料库的丰富,到 GPT-3 上模型参数达到 1750 亿,模型开始体现出涌现能力,即不仅体现出训练成本的规模效应,还带来模型能力的增加,这推动了学术界、产业界对于大模型的追捧,比如谷歌的 BERT、智源悟道、百度文心、华为盘古、阿里达摩院 M6 等大模型。GPT 系列模型取得的成果给计算机视觉模型也带来了很多启发,被用于图像分类、图像切割等领域,例如商汤目前拥有 320 亿参数的视觉大模型,是亚洲最大的视觉大模型之一。(数据来源:商汤公司公众号)图图

40、7.7.商汤科技模型进化历程商汤科技模型进化历程 资料来源:商汤公众号、安信证券研究中心 GPTGPT-4 4 实现多模态能力,感知能力极大提升。实现多模态能力,感知能力极大提升。GPT-1 到 GPT-3.5 均为语言大模型,GPT-4 增加了视觉模型,并实现了语言与视觉跨模态信息的对齐,类似于人类认知世界时,眼睛看到的图像信息会帮助我们加深对事物的认知,而反过来因为具备认知能力,看到不认识的事物时也能知道其功能,会提升视觉识别信息的能力,因此多模态能力的建立帮助机器提高了感知能力,并为复杂场景中的决策规划打好了基础,进而机器能够发挥计算优势,给出更好的行动方案。图图8.8.视觉、语言神经网

41、络架构进化视觉、语言神经网络架构进化 资料来源:智东西、陈巍团队、安信证券研究中心 3 3)基于“信息)基于“信息-模型“模型“系统,“行动”系统到来有望加速系统,“行动”系统到来有望加速机机器智能参与人类世界器智能参与人类世界 指向“行动”系统,我们把执行操作的场景分解为物理世界与数字世界:指向“行动”系统,我们把执行操作的场景分解为物理世界与数字世界:行业专题行业专题/传媒传媒 本报告版权属于安信证券股份有限公司,各项声明请参见报告尾页。11 在数字世界:在数字世界:体现为机器基于特定目标,自主完成任务并且自我迭代,对应于当前研究热度较高人工智能代理 Agent,目前已经出现的产品包括 A

42、uto-GPT、Baby AGI、Agent GPT、Microsoft Jarvis、ChaosGPT 等;在物理世界:在物理世界:交互需要借助相应的躯体,由此引出具身智能的概念。具身智能指智能体(可以是生物或机械),通过与环境产生交互后,通过自身的学习,产生对于客观世界的理解和改造能力,自动驾驶、智能机器人等即为典型的智能硬件产品。在实际生活中已经出现了很多机器人,如工业场景的码垛机器人、搬运机器人,商业服务场景的送餐机器人等,我们认为其与智能硬件的区别在于,传统机器人是基于固定坐标系进行特定执行操作的机器人,并不具备实时感知能力。传统机器人若想要向智能机器人升级,其优势在于执行控制模块具

43、有优势积累,需要补足感知及决策模块。图图9.9.具身智能指机器智能与物理世界交互反馈具身智能指机器智能与物理世界交互反馈 资料来源:奇绩创坛、安信证券研究中心 特斯拉人形机器人是目前最激进的智能硬件,且产品迭代速度很快。特斯拉人形机器人是目前最激进的智能硬件,且产品迭代速度很快。与现有机器人不同,特斯拉人形机器人以自动驾驶 FSD 为支撑,实时获得环境信息并进行决策规划,最终输出行动指令,形成了“感知-决策规划-运动控制”的实时交互反馈机制。为了增强机器人的普适性,将其设置为人形,是因为现实物理世界是基于人的视角、交互习惯所设置的,采用人形能够用第一视角理解环境场景。从 2021 年 8 月特

44、斯拉在其首届 AIDay 上首次公开展示人形机器人的概念机 TeslaBot 至今,其研发迭代速度非常快:2021 年 8 月,首届 AIDay 公开展示人形机器人概念机 TeslaBot;2022 年 2 月,推出人形机器人原型机,并作为开发平台进行深度研发;2022 年 8 月,第二届 AIDay,展示实体版本人形机器人,可以直立行走、浇花、搬运东西等,但灵活度相对较低,上下舞台时需要一定的人员协助;2023 年 5 月,特斯拉 2023 年投资者大会发布人形机器人最新研发进展,其已经学会了缓慢前行。行业专题行业专题/传媒传媒 本报告版权属于安信证券股份有限公司,各项声明请参见报告尾页。1

45、2 图图10.10.特斯拉人形机器人的关键时间点特斯拉人形机器人的关键时间点 资料来源:特斯拉官网,安信证券研究中心 机器人潜在应用场景空间广阔。机器人潜在应用场景空间广阔。在 2022 年特斯拉的 AIDay 上,马斯克提出特斯拉机器人最初的定位是替代人们从事重复枯燥、具有危险性的工作,但远景目标是让其服务于千家万户,比如做饭、修剪草坪、照顾老人等。随着硬件成本下降,有望推动用户需求增长,我们认为推驱动用户买单的主要原因包括但不限于劳动力成本上涨、劳动力短缺、安全考虑等。此外,由于涉及的场景较为广泛,我们判断除了人形机器人外,未来可能还会衍生出更多不同形状的智能硬件,其核心在于实时感知与交互

46、性,而外在躯体的样式可以根据所处场景进行适配,采用不同的执行器,可以预见机器人未来的市场空间非常广阔。一旦人形机器人落地,“行动”智能一旦人形机器人落地,“行动”智能系统产业化拐点或将加速到来。系统产业化拐点或将加速到来。从软件层面看,参考人是目前最强大的通用智能体,人形机器人的算法难度最高,若算法能在人形机器人上实现,向其他场景泛化本质上是降维;其次从硬件层面,执行器等零部件若能共用产线,会因为量产规模的增加而带来单个零部件的成本下降。因此综上,我们认为人形机器人达到一定成熟度后,面向不同场景需求而研发具有“行动“系统的智能交互硬件的边际成本也将显著下降,从而推动产业化浪潮的加速来临。3.3

47、.自动驾驶自动驾驶 FSDFSD 有望迎来量产落地有望迎来量产落地 特斯拉人形机器人的软件算法建立在自动驾驶所积累的数据、算法架构基础之上,由于特斯拉人形机器人的软件算法建立在自动驾驶所积累的数据、算法架构基础之上,由于目前目前官方披露人形机器人的算法相关数据相对较少,我们将先以自动驾驶官方披露人形机器人的算法相关数据相对较少,我们将先以自动驾驶FSDFSD 算法为算法为基础基础进行原进行原理的解释,进而说明人形机器人与整车算法的不同来帮助理解人形机器人算法研发所处阶段。理的解释,进而说明人形机器人与整车算法的不同来帮助理解人形机器人算法研发所处阶段。参考前述“三位一体结构化模式”,自动驾驶方

48、案主要有感知、决策规划、运动控制三个模块,其中感知层相当于自动驾驶的“眼睛”,帮助汽车理解所处的外部环境,感知模型的输出是基础;建立在准确、可靠的感知输出结果上,决策规划模型相当于“大脑”,对自车及周边环境轨迹进行预测,通过打分机制筛选出最优运动轨迹输出给运动控制模块;获得行动轨迹后,运动控制模块将其分解为方向转向、行车速度等操作指令,将其传输给方向盘、油门、刹车等执行器进行操作,最终实现对汽车的控制。而运动控制一旦发生,必然产生空间位移,这需要感知模型实时获取空间位移信息变化,重新评估决策形成正向反馈。在上述处理流程中,数据、算力发挥重要支撑作用。行业专题行业专题/传媒传媒 本报告版权属于安

49、信证券股份有限公司,各项声明请参见报告尾页。13 图图11.11.特斯拉自动驾驶架构特斯拉自动驾驶架构 资料来源:特斯拉2022 AI Day、安信证券研究中心 特斯拉自动驾驶自研方案经历四次重要迭代,当前形成了“特斯拉自动驾驶自研方案经历四次重要迭代,当前形成了“BEVBEV+TransformerTransformer+时序信息时序信息+占占用网络”的核心架构。用网络”的核心架构。特斯拉自动驾驶方案早期由供应商 Mobileye 提供,2016 年双方终止合作后,特斯拉经历了与英伟达短暂合作后,转向全栈自研,从技术落后到引领行业发展,特斯拉的技术方案主要经历了以下四次关键的技术迭代升级:2

50、018 年构建了多任务学习神经网络架构 HydraNet,相较于此前单一目标检测遵循一个通用的网络结构,HydraNet 能够完成多头共用的任务,减少重复计算;2020 年特斯拉团队对底层代码进行重写及网络重构,引入了 Transformer 的架构,将 2D图像复原至3D视角,使得自动驾驶方案环境感知的能力有了质的飞跃,BEV+Transformer的架构解决了行车过程中大多数共通的场景,但驾驶的安全性仍受到很多长尾场景的挑战;2021 年至今特斯拉 BEV+Transformer 架构输出的 3D 空间基础上使用视频信息作为训练模型的数据集,引入了时序信息,使 3D 空间转化为 4D 空间

51、,这样能够很好的解决物体、行人被遮挡的场景;2022 年 AIDay 上特斯拉引入了占用网络,环境中的物体无法用模型穷举实现识别,占用网络通过将空间分割为体积不等的体素,预测其是否被占用,从而解决通用障碍物的识别的问题。行业专题行业专题/传媒传媒 本报告版权属于安信证券股份有限公司,各项声明请参见报告尾页。14 图图12.12.特斯拉算法迭代进程特斯拉算法迭代进程 资料来源:汽车之心、36Kr、安信证券研究中心 3.1.3.1.感知层:进入“感知层:进入“4D4D 重建重建+占用网路”阶段,感知体系已较为成熟占用网路”阶段,感知体系已较为成熟 在自动驾驶传感器领域,一直分为视觉派和雷达派两大派

52、系,最简单的区别就是:前者主张使用高清摄像头+视觉识别算法,后者主张除摄像头外,再加入激光雷达、超声波雷达、毫米波雷达等感知硬件提高信息冗余以保证系统稳定。表表3 3:目前自动驾驶方案中主要的传感器对比目前自动驾驶方案中主要的传感器对比 摄像头摄像头 毫米波雷达毫米波雷达 激光雷达激光雷达 超声波雷达超声波雷达 原理原理 通过摄像头拍摄车辆周边场景,并以此来识别车辆、行人、行车线等的传感器。从拍摄到的影像可以检测出车辆及车灯、行车道的白线及标识、行人及自行车等。把无线电波(雷达波/电磁波)发射出去,根据接收回波与发送之间的时间差测得目标位置距离数据 向目标发射探测信号(激光束),然后将接收到的

53、从目标反射回来的信号与发射信号进行比较,作适当处理后,就可获得距离、方位、高度、速度、姿态、甚至形状等参数。超声波雷达是通过超声波发射装置向外发出超声波,再利用接收器接收反射回来的超声波时间差来测算距离。探测距离探测距离 0-200m 0.1-3m 优点优点 成本较低 雾、烟、灰尘穿透能力强,具有全天候全天时的特点;抗干扰、反隐身能力更优 分辨率高,隐蔽性好、抗干扰能力更强等 容易受天气情况影响,不同天气的传播速度不同,车速较快时误差较大 缺点缺点 依赖算法能力 高潮湿环境产生衰减、成本高、加工精度相对要求高、单片收发集成电路的开发相对迟缓 车规级产品难度高、成本高、寿命短 成本低、穿透性强、

54、防水、防尘等优势。资料来源:维科网、安信证券研究中心 特斯拉坚持第一性原理,是视觉派的坚定拥护者。特斯拉坚持第一性原理,是视觉派的坚定拥护者。特斯拉认为就像人只需要眼睛和大脑就可以完成对周围环境的感知一样,自动驾驶也只需要借助摄像头和算法就能够实现这样的能力。早期由于算法能力不足,特斯拉传感器套件中除了八个摄像头外,还包括一个前置雷达和车辆周围的几个超声波传感器。2021 年特斯拉宣布向 TeslaVision 方案过渡,从 2022 年 10 月上旬开始,特斯拉为北美、欧洲、中东和中国台湾制造的所有 Model3 和 ModelY 不再使用超声波传感器,而是完全依赖 TeslaVision

55、来实现自动驾驶功能。当前特斯拉车上共有 8 颗摄像头,分别分布在左右前翼子板各 1 个,左右 B 柱各 1 个,后牌照上方各 1 个,前挡风玻璃后各 3 个,8 颗摄像头视野范围达到 360 度,对周围环境的监测距离最远可达 250 米。每个摄像头采集分辨率为 1280960、12-Bit、36Hz 的 RAW 格式图像作为信息输入。行业专题行业专题/传媒传媒 本报告版权属于安信证券股份有限公司,各项声明请参见报告尾页。15 图图13.13.特斯拉采用特斯拉采用 8 颗摄像头采集车周围信息颗摄像头采集车周围信息 资料来源:特斯拉官网、公众号智能车参考、安信证券研究中心 上述摄像头捕捉到的视觉信

56、息作为感知层的输入,经过一系列神经网络的处理将输出上述摄像头捕捉到的视觉信息作为感知层的输入,经过一系列神经网络的处理将输出 4D4D 向向量空间,其操作步骤依次如下:量空间,其操作步骤依次如下:1)相机校准:对摄像头采集信息进行色温、位移的校准,调整为标准虚拟相机数据,做校正变换后,之前模糊的图像会变得清晰;2)通过 RegNet、BiFPN两个神经网络结构提取单视角图像特征;3)利用 Transformer 架构及占用网络对单视角特征进行转换及三维重建,包括先将为每个相机对应的图像特征转换为 Key 和 value,再进行表搜索找到关联关系进行空间拼接,之后根据摄像头、IMU 等传感器采集

57、的时序特征进行时空联合对齐,最终转化 4D 空间(包含空间中的 x、y、z 坐标及时间 t),之后会采用反卷积的方式将其对应到 8 个摄像头中,若存在偏差则继续修正重建效果。图图14.14.特斯拉特斯拉 FSD 感知算法流程图感知算法流程图 资料来源:特斯拉 2022 AI Day、安信证券研究中心 在上述感知操作的流程中,我们强调三个关键的技术:在上述感知操作的流程中,我们强调三个关键的技术:1 1)HydraNetsHydraNets:共用主干网络,模型训练边际成本低使业务拓展性强:共用主干网络,模型训练边际成本低使业务拓展性强 特斯拉视觉感知网络的基础结构是由主干(Backbone)、颈

58、部(Neck)与头部(Head)共同组成,早期在图像检测任务中,特斯拉针对每个任务都设计了一套神经感知网络,分别由各自的 backbone-neck-head 构成。2019 年对架构进行调整,提出多头任务处理架构HydraNets,简称九头蛇网络,这种架构是将主干网络合并,由一个共同共享的主干并分支成多个头。与与行业专题行业专题/传媒传媒 本报告版权属于安信证券股份有限公司,各项声明请参见报告尾页。16 此前的架构相比,其好处在于:此前的架构相比,其好处在于:可以避免不同任务间重复计算,提高运行效率;拓展性极强,当需要优化的新场景出现,只需要针对其特定的需求进行单独微调,既不影响现有任务运行

59、,同时也能有效降低新业务研发的边际成本。比如针对大车开过会带起尘雾的场景,特斯拉会用自己的车队采集特殊场景数据,进行训练后加载 Head 部分即可。图图15.15.特斯拉多头处理任务架构特斯拉多头处理任务架构 HydraNets 图图16.16.特斯拉针对尘雾场景进特斯拉针对尘雾场景进行模型训练行模型训练 资料来源:特斯拉 2022 AI Day、安信证券研究中心 资料来源:特斯拉2022 AI Day、安信证券研究中心 2 2)TransformerTransformer 架构:推动感知从架构:推动感知从 2D2D 视角走向视角走向 4D4D 重建,提高感知效率与可靠性重建,提高感知效率与可

60、靠性 Transformer 架构优势是使用注意力机制处理输入和输出之间的依赖关系,通过赋予权重找到关联关系。特斯拉 2020 年将 Transformer 引入感知模型,2020 年特斯拉 AIday 上介绍展示了如何将检测到的物体、可驾驶空间和其他物体放入 BEV 鸟瞰图中,实现了环境感知从局部到整体的统一对齐,早期受限于数据质量、算力等诸多因素,BEV 的输出仍为 2D 俯视图,与车所面临的 3D 物理空间中还是存在很大的不同,进而产生很多问题,比如无法估计物体的高度,以及在高度方向上如有多个障碍物可能检测不到等。随着数据、算力等综合能力的提升,Transformer 架构能够处理参数量

61、及数据量增加,帮助 BEV 鸟瞰图从 2D 俯视图升级为3D 空间,更进一步地,由于坐标系相同,还可以进行时序融合形成 4D 空间。图图17.17.Transformer 架构技术原理架构技术原理 图图18.18.早期早期 BEV 鸟瞰图为鸟瞰图为 2D 俯视角俯视角 资料来源:论文Attention Is All You Need安信证券研究中心 资料来源:特斯拉 2020 AI day、安信证券研究中心 TransformerTransformer 架构完成了从摄像头捕捉的架构完成了从摄像头捕捉的 2 2D D 信息向信息向 4D4D 向量空间的转换,使感知可靠性、标向量空间的转换,使感知

62、可靠性、标注效率大幅提升。注效率大幅提升。早期特斯拉在感知层做标注时是基于单张 2D 图片进行标注,这种情况下标注误差很大,比如在图片中标注远处车道线时可能会出现位置偏移,从而导致汽车行驶过程转弯时间预估不准确或者压线等情况出现。在依托 Transformer 重建的 4D 空间下所带来的好处是:1)降低标注误差,4D 空间相较于 2D 单视角图像对空间的认知更加全面,而且在被数学表示的空间,对于长度、速度等环境信息的认知更具体;2)提高标注效率,在 4D 向量空间中可以对建模后的场景进行拖拽、旋转等数字化的操作,为自动标注打好了基础。从而提高标注效率,根据特斯拉披露信息,2021 年后在重建

63、好场景中对单个 clip 进行标注的行业专题行业专题/传媒传媒 本报告版权属于安信证券股份有限公司,各项声明请参见报告尾页。17 平均时间小于 0.1hrs,对单个 clip 计算的平均时间为 0.5hrs,相较于早期的图像标注效率有了大幅提高。图图19.19.特斯拉感知架构的演进特斯拉感知架构的演进 资料来源:特斯拉 2022 AI Day、安信证券研究中心 3 3)占用网络:解决通用障碍物识别问题,为安全兜底)占用网络:解决通用障碍物识别问题,为安全兜底 特斯拉在 2020-2022 年围绕 4D 空间重建取得的进步,为占用网络的实现带来了可能性,只用网络指预测汽车周围所有物体的体积占用率

64、,即将世界划分为一系列 3D 网格单元(也被称为体素)后,预计 3D 空间中的每个体素或连续点都有被占用的概率以及它的未来运动。2022CVPR 及 AIday 上,特斯拉对占用网络 OccupancyNetwork 进行了详细的介绍,其实现的关键包括:在提取图像特征后利用 transformer 机制计算得出 3D 空间的占据体积概率,定义哪个单元被占用,哪个单元是空闲的;在获得空间占用情况后,再结合里程计信息融合时序信息,构建 4D 向量空间;对于单个物体而言,网格单元的大小可以被调整,以保证尽可能多地包裹到所有的物体;4D 空间中除了反映空间占用情况外,还用不同的颜色表示物体的速度、方向

65、等信息;若物体之间若存在关系,还有一条有语义信息的边;基于 4D 空间所描述的特征及预测的轨迹方向,最终输出 occupancy Volume 及动态的occupancy flow。图图20.20.占用网络之体素分割占用网络之体素分割 图图21.21.占用网络构建步骤及输出占用网络构建步骤及输出 资料来源:特斯拉 2022 AI day、安信证券研究中心 资料来源:极术社区、安信证券研究中心 占用网络帮助特斯拉解决了通用障碍物识别的问题,增强了自动驾驶的安全性。占用网络帮助特斯拉解决了通用障碍物识别的问题,增强了自动驾驶的安全性。在行驶的道路上,会遇到许多 cornercase,其中可能包含很

66、多数据库中并不存在的物体,比如侧翻的大行业专题行业专题/传媒传媒 本报告版权属于安信证券股份有限公司,各项声明请参见报告尾页。18 卡车等,基于视觉感知的方案因无法获取其信息而决策失误发生事故。在占用网络下,类似情况会将其标注为空间占用,并根据感知信息为其赋予速度等值,根据以上信息车便能进行做出避让等操作,因此我们认为占用网络是对数据库之外的信息识别的有效补充,进而为安全兜底。经过上述感知过程,特斯拉感知模块最终有三个输出,分别是占用网络、车道线经过上述感知过程,特斯拉感知模块最终有三个输出,分别是占用网络、车道线 LaneLane 及障及障碍物信息碍物信息 objectsobjects,得益

67、于特斯拉大量的细节工作,输出的结果质量好、精度高,其将作为,得益于特斯拉大量的细节工作,输出的结果质量好、精度高,其将作为决策规划的输入,决决策规划的输入,决定了后续工作的高度。定了后续工作的高度。图图22.22.感知输出之动态障碍物感知输出之动态障碍物 图图23.23.感知输出之车道线及路网感知输出之车道线及路网 资料来源:特斯拉 2022 AI Day、安信证券研究中心 资料来源:特斯拉 2022 AI day、安信证券研究中心 3.2.3.2.决策规划:系高维非凸问题,引入神经网络求解效率提升决策规划:系高维非凸问题,引入神经网络求解效率提升 自动驾驶问题是高维度空间中的非凸问题,求解最

68、优路径挑战很大。自动驾驶问题是高维度空间中的非凸问题,求解最优路径挑战很大。自动驾驶决策规划模块需要解决的问题是在接收到感知模块输出后,在其所重建好的空间中找到一条轨迹可以最大限度地提高汽车的安全性、舒适性和效率,将车辆规划至目的地,因此其本质是找到一条满足约束的最优路径,如果用数学方法求解,自动驾驶的规划求解是在高维空间中解非凸问题,求解后得出的最优解可能只是局部最优,但考虑到安全问题,自动驾驶决策规划必须要尽可能达到全局最优。(资料来源:42 号车库详解特斯拉是如何做决策规划算法的?)图图24.24.非凸问题优化非凸问题优化 资料来源:42 号车库、安信证券研究中心 特斯拉决策规划的工作可

69、以简单的理解为两部分工作,一是通过决策树生成潜在路径,二是特斯拉决策规划的工作可以简单的理解为两部分工作,一是通过决策树生成潜在路径,二是通过打分机制对决策树剪枝,找到最优路径。通过打分机制对决策树剪枝,找到最优路径。在决策树生成时,特斯拉参考蒙特卡洛模拟生成了交互树,其生成是由粗到细的:在决策树生成时,特斯拉参考蒙特卡洛模拟生成了交互树,其生成是由粗到细的:1)在感知输出的占用网络、车道线、车道拓扑关系基础上粗生成行驶目标,给出车可能到达的车道线行业专题行业专题/传媒传媒 本报告版权属于安信证券股份有限公司,各项声明请参见报告尾页。19 及行驶区域;2)利用传统优化算法,生成可能到达目标的行

70、驶路径;3)动态博弈,考虑 t+1、t+2 等时间内与周边障碍物的交互博弈,继续生成新的轨迹。模型被引入决策树生成,显著缩短规划路径生成时间。模型被引入决策树生成,显著缩短规划路径生成时间。在决策树生成的过程中,特斯拉以数学优化为主,特斯拉针对优化求解进行了诸多工程上的优化以缩短决策规划时间,能够在 1-5ms 内完成计算,但是如若面对更复杂的城市场景中可能仍无法满足需求,2022 年 AIDay 特斯拉介绍在生成网络时使用了轻量化的神经网络帮助快速生成规划路径,标志着模型被引入了决策规划中,在模型助力下,目前可以在 100us 内生成一个候选规划路径。图图25.25.特斯拉采用交互搜索树进行

71、决策规划特斯拉采用交互搜索树进行决策规划 图图26.26.占用网络构建步骤及输出占用网络构建步骤及输出 资料来源:特斯拉 2022 AI day、知乎石桥、安信证券研究中心 资料来源:特斯拉2022 AI Day、安信证券研究中心 决策树剪枝是第二步,在有限的时间内完成响应需要拒绝掉一些偏差较大的方案。决策树剪枝是第二步,在有限的时间内完成响应需要拒绝掉一些偏差较大的方案。特斯拉也同样运用了传统优化方法及数据驱动下的神经网络模型结合的方式,其评价的维度主要包括了碰撞可能性、舒适度分析、类人程度、被接管的概率等。基于这些评分维度,最终筛选出最优的规划轨迹,作为决策规划的输出。综上,特斯拉的决策规

72、划方案在解决自动驾驶高维非凸问题上是结合了优化与神经网络的算综上,特斯拉的决策规划方案在解决自动驾驶高维非凸问题上是结合了优化与神经网络的算法,如何平衡决策效率与安全性是当前决策规划任务的关键挑战。法,如何平衡决策效率与安全性是当前决策规划任务的关键挑战。其中采用优化求解是建立在工程师可解释的人类驾驶规则上进行编码,保证了算法的可解释性,相对更安全可控;而结合神经网络计算是为了提高生成及筛选最优轨迹的效率,同时也能对不可建模的驾驶经验进行建模,从而推动自动驾驶走向更类人化的步骤,但由于模型是黑盒,具有不可解释性,在安全失误率容忍度极低的驾驶场景的应用仍较为谨慎。决策规划输出的轨迹体现在特斯拉中

73、控屏幕上为长度、方向变化的指示线,其本质上包含了决策规划输出的轨迹体现在特斯拉中控屏幕上为长度、方向变化的指示线,其本质上包含了目标位置、方向、速度及加速度等信息,这些信息被拆解为执行指令,作为运动控制模块的目标位置、方向、速度及加速度等信息,这些信息被拆解为执行指令,作为运动控制模块的输入,进一步给到执行器。输入,进一步给到执行器。图图27.27.特斯拉决策树剪枝方案特斯拉决策树剪枝方案 图图28.28.决策规划的输出轨迹决策规划的输出轨迹 资料来源:特斯拉 2022 AI Day、安信证券研究中心 资料来源:特斯拉官网、安信证券研究中心 行业专题行业专题/传媒传媒 本报告版权属于安信证券股

74、份有限公司,各项声明请参见报告尾页。20 3.3.3.3.运动控制:仅执行决策指令,在工业上较为成熟运动控制:仅执行决策指令,在工业上较为成熟 当决策规划模块输出轨迹后,由于其本身包含了方向、速度、加速度等信息,进一步地分解为具体的指令,会交给域控制器 MCU 调用执行器进行操作。在运动控制方面,其承担的主要角色是做执行操作,这里主要是传统的工控软件,在行业内都比较成熟,并不涉及特别多 AI算法,因此本文在此不做展开。3.4.3.4.数据数据及标注:特斯拉领先之关键,已建立强大自迭代体系及标注:特斯拉领先之关键,已建立强大自迭代体系 从上述“感知从上述“感知-决策规划决策规划-运动控制”三个模

75、块的方案介绍中,我们可以看到数据是重要的原运动控制”三个模块的方案介绍中,我们可以看到数据是重要的原料,如何得到大量、便宜且优质的数据对模型训练和结果输出都起料,如何得到大量、便宜且优质的数据对模型训练和结果输出都起到关键作用。到关键作用。特斯拉自动驾驶方案的数据源包括车辆采集数据、仿真数据、影子模式三种,其中:特斯拉自动驾驶方案的数据源包括车辆采集数据、仿真数据、影子模式三种,其中:1)自车辆采集数据是特斯拉自有车队及量产出售给用户的车辆上的摄像头实时采集的数据,是特斯拉训练模型的主要数据来源;2)仿真模拟数据是为了补充通过车端摄像头所无法采集到的长尾数据,以尽可能补全模型训练时所可能遇到的

76、场景;3)影子模式,指特斯拉的自动驾驶模型部署到车端后在后台运行,其执行输出与驾驶员操作时的不一致数据,这部分数据作为很珍贵的异常数据用于为模型纠偏,帮助模型训练结果更加类人。数据来源一:车辆采集数据数据来源一:车辆采集数据 车辆车辆采集数据以采集数据以 ClipClip 作为最小标注单元。作为最小标注单元。在感知部分,我们详细介绍了特斯拉车上的 8 颗摄像头所采集的视觉数据,该数据通常为一段 45-60s 的视频格式的路段数据。除了摄像头视觉传感器之外,车上还包括惯性测量单元(IMU)、GPS、里程计等传感器,其中 IMU 是负责測量物体在三維空間中的角速度和加速度,並以此解算出物体的姿态,

77、主要用以保持平衡;GPS 用于导航定位;里程计是用于测量汽车的速度、加速度信息。综上摄像头、IMU、GPS、里程计等传感器采集的数据会构成一个最小标注单元,被成为 Clip。每个 Clip 数据都经过 RegNet、BiFPN 提取图像特征进行特征融合,结合位置、速度、加速度以及时序特征等信息,用于实现将自身所处的物理世界转化至 4D 空间中,进而通过标注分解出静态路网与动态障碍物等感知任务的结果,用于后续输出。图图29.29.每个每个 Clip 数据集将通过算法标注输出空间信息数据集将通过算法标注输出空间信息 资料来源:特斯拉官网、安信证券研究中心 与需要自建车队,装配昂贵的激光雷达,雇佣工

78、程师驾驶车辆采集数据的自动驾驶团队不同,Tesla 依靠实际卖出的车辆采集数据,不但获取车辆销售利润,还能依靠特斯拉车主来采集数据。2018 年至今特斯拉每年车的销量持续提升,其中 2022 年、2023H1 的销量分别为 124.71台、85.91 万台,分别同比增长 40.34%、57.42%。截止 2023 年 6 月底,特斯拉售出的车辆累计达到 435.51 万辆。行业专题行业专题/传媒传媒 本报告版权属于安信证券股份有限公司,各项声明请参见报告尾页。21 图图30.30.2018-2023H1 特斯拉车辆年度销量特斯拉车辆年度销量 图图31.31.2018-2023H1 特斯拉车辆累

79、计销量特斯拉车辆累计销量 资料来源:特斯拉公司公告、安信证券研究中心 资料来源:特斯拉公司公告、安信证券研究中心 上百万辆车在路上行驶帮助特斯拉产生了源源不断便宜的数据,特斯拉 FSDbeta 版本从上车部署至 2022 年已经累计采集超过 20 亿英里的数据,而且预计随着 FSD 用户渗透率提升,所能够采集的里程数将呈现加速增长。从数据的质量来看,由于数据来自于不同区域、不同驾驶风格车主真实环境决策有关的感知数据,数据多元且价值也极高。图图32.32.特斯拉特斯拉 FSD Beta 版本覆盖的里程数据版本覆盖的里程数据 资料来源:智东西、安信证券研究中心 数据来源二:仿真模拟数据数据来源二:

80、仿真模拟数据 仿真模拟数据在自动驾驶方案中非常重要:仿真模拟数据在自动驾驶方案中非常重要:1)模拟现实中无法采集到的长尾场景、极端场景,提高数据的多元性;2)对于长尾场景而言,实车采集与标注成本太高,可以通过仿真模拟降低成本;3)除了直接在虚拟场景中进行仿真训练,特斯拉还希望可以在仿真环境中重现真实世界场景,以便可以复现 FSD 失败的场景,实现在仿真环境下的优化迭代后再反哺汽车算法模型,实现“数据闭环”。9.95 6.68 5.71 2.50 6.67 2.99 14.61 30.09 44.26 91.12 124.71 85.91 0 050500201820182

81、0020202222023H12023H1Model S/X Model S/X 年度销量(万)年度销量(万)Model 3/Y Model 3/Y 年度销量(万)年度销量(万)年度总销量(万)年度总销量(万)9.95 16.62 22.33 24.83 31.50 34.49 34.8771.64121.60215.22346.61435.510.000.00100.00100.00200.00200.00300.00300.00400.00400.00500.00500.0020002120212022

82、20222023H12023H1Model S/X Model S/X 累计销量(万)累计销量(万)Model 3/Y Model 3/Y 累计销量(万)累计销量(万)累计总销量(万)累计总销量(万)行业专题行业专题/传媒传媒 本报告版权属于安信证券股份有限公司,各项声明请参见报告尾页。22 图图33.33.仿真模拟的场景仿真模拟的场景 资料来源:特斯拉官网、安信证券研究中心 在仿真环节,最核心的工作是对环境进行充分建模,特斯拉采用的是游戏领域非常成熟的渲染引擎工具 UnrealEngine(简称 UE),其生成的物体非常逼真。特斯拉会在离线大模型上构建的 4D 空间,先用 UE 生成静态物体

83、,如车道线、建筑物、树木等,然后在上面增加车流或者行人等动态流,以模拟所需要训练的场景数据。生成的仿真模拟数据作为重要的数据元之一,用以训练云端大模型,以帮助特斯拉提高自动驾驶能力。根据根据 2 2021021 年年 TeslaAIDayTeslaAIDay 公开公开的信息,特斯拉总共已经绘制了的信息,特斯拉总共已经绘制了 2000+2000+公里的道路环境公里的道路环境,通过仿真获得的虚拟数据规模已达,通过仿真获得的虚拟数据规模已达到到 37.137.1 亿张图片及亿张图片及 4.84.8 亿标注,且已实际融入车端模型中亿标注,且已实际融入车端模型中。AIGCAIGC 兴起也在推动仿真模拟能

84、力提升。兴起也在推动仿真模拟能力提升。自动驾驶方案供应商 Wayve 目前正在尝试利用ChatGPT 等语言大模型结合生成环境指令,在虚拟环境中实现环境感知与模型训练,这能够帮助降低采集数据的成本。我们认为基于此,仿真模拟的重要性或将被大幅提升,帮助完善我们认为基于此,仿真模拟的重要性或将被大幅提升,帮助完善训练工具。训练工具。图图34.34.Wayve 利用利用 AIGC 生成仿真模拟环境生成仿真模拟环境 资料来源:Wayve 官网、安信证券研究中心 数据来源三:影子模式数据来源三:影子模式 影子模式是运行在特斯拉车辆上的后台程序,用户接触不到影子模式,但是在每台特斯拉车辆上,影子模式“如影

85、随形”,随时为数据采集做着准备。在影子模式下,特斯拉关注的是 FSD版本运行时所作出的决策与人类驾驶员操作间的差异,会对产生偏差前后的数据进行重点采行业专题行业专题/传媒传媒 本报告版权属于安信证券股份有限公司,各项声明请参见报告尾页。23 集并回传至云端,将这段异常数据作为输入,对训练好的感知、规控模型进行纠偏。影子模式的引入及持续迭代下,推动了特斯拉的自动驾驶操作更加类人化。得益对这三类数据的处理,特斯拉形成了持续正反馈迭代的数据引擎及强大的自动标注工具。得益对这三类数据的处理,特斯拉形成了持续正反馈迭代的数据引擎及强大的自动标注工具。车辆采集数据、影子模式、仿真模拟数据有两个方面的作用:

86、1)用于训练云端在线的感知、决策、控制模型,训练好的模型会通过定期 OTA 的方式将新的版本推送至车端进行部署,车端会基于新的软件版本处理,从而回传给云端更有价值的数据,形成迭代反馈;2)用于训练离线大模型,离线大模型也在对感知的世界进行了 4D 重建,随着模型能力不断提升,模型对于真实世界重建的准确度、精度持续提升,不断趋近于真值时,其可以被用作特斯拉自动标注的工具,其本质是“对照标尺”,当新的数据流进入到大模型后,只要通过与“标尺”比对就能快速完成特征识别,从而提高标注效率。如前文所述,2020 年引入 BEV 视图时进入了自动标注的时代,针对每一个 Clip 标注时间由 2019 年的

87、3.5hrs 缩短至 0.1hrs。图图35.35.特斯拉数据流图特斯拉数据流图 资料来源:特斯拉官网、安信证券研究中心 同时特斯拉做了许多数据安全的工作:同时特斯拉做了许多数据安全的工作:1)来自于车端的数据一部分作为训练数据进入模型,还有一部分将验证数据集被保留,作为真值数据用于评判模型的能力;2)特斯拉在自动标注的基础上也保留了手工标注。对于自动标注的数据,工程师会不断进行数据抽检,对于被标记错的数据集,通过手工标注的方式进行修正。总结来看,我们认为特斯拉的数据满足以下特点:大量、便宜、质量高且具备多样性,构成总结来看,我们认为特斯拉的数据满足以下特点:大量、便宜、质量高且具备多样性,构

88、成其最核心竞争壁垒:其最核心竞争壁垒:大量:大量:如前所述,累积售出 450 多万辆车在路上行驶为特斯拉贡献了持续不断的数据;其次随着算法能力升级,目前摄像头采集数据格式已经升级为视频,其中包含的信息量将较之前更加丰富;便宜:便宜:特斯拉车主相当于特斯拉“免费外包车队”,帮助其采集路网等真实世界的数据,随着车辆的增加,获取某个长尾场景数据的概率变得更高,从逻辑上讲边际成本更低;其次特斯拉数据-模型训练的正反馈机制也在推动仿真能力的提升,进一步降低数据获取成本;质量高:质量高:相较于手动在 2D 图像中标注,自动标注工具在 4D 空间中标注数据产生的质量更高;其次安全校验及手动标注的工作也在持续

89、提高数据质量;多元性:多元性:销量背后意味着用户多元性,保证了数据集的差异性;特斯拉只关注有价值的数据信息,比如在行程过程中大量顺利通过的道路数据对提高模型训练并不意义,可能还会产生一定回传成本,特斯拉可能会直接丢弃;仿真能力使特斯拉具备主动生产长尾数据的能力,从而补全数据种类。行业专题行业专题/传媒传媒 本报告版权属于安信证券股份有限公司,各项声明请参见报告尾页。24 根据特斯拉 2022 AI Day 上披露数据,特斯拉将这些有价值数据按照场景种类进行存储,训练数据集达到 23.2 万帧,验证数据集达到 0.38 万帧。图图36.36.特斯拉数据仓库中包含大量、多元数据特斯拉数据仓库中包含

90、大量、多元数据 资料来源:特斯拉官网、安信证券研究中心 3.5.3.5.算力:自研芯片性能可期,投产算力:自研芯片性能可期,投产 DojoDojo 应对潜在增长需求应对潜在增长需求 处理如此庞大的数据,强大的算力支撑也非常重要。处理如此庞大的数据,强大的算力支撑也非常重要。在自动驾驶方案中涉及云端与车端算力,其中云端算力主要用于训练大模型,包括感知、决策规划及控制算法模块,同时还需要训练离线大模型作为标注数据的工具以及进行仿真模拟训练,在训练模型时因为需要不断调整参数导致算力的需求非常大,而且对于并行算力的要求会较高;车端模型是对已经在云端完成训练的模型进行部署,模型参数已经固定,仅对摄像头等

91、传感器采集的数据进行运算即可,对算力的消耗相对较小。图图37.37.自动驾驶云、端主要工作及关系自动驾驶云、端主要工作及关系 资料来源:车东西、安信证券研究中心 特斯拉芯片从采购转向自研,增强对硬件性能掌控力。特斯拉芯片从采购转向自研,增强对硬件性能掌控力。在 HW1.0 时代,特斯拉采用了来自Mobileye 的 EyeQ 系列芯片。进入 HW2.0 时代,特斯拉找到了英伟达作为 Mobileye 的替代,采用定制版的英伟达 Drive PX2 自动驾驶计算平台(由 1 颗 Tegra Parker 芯片和 1 颗 Pascal架构GPU芯片构成)。后来又升级为HW2.5,增加了一颗Tegr

92、a Parker芯片。但无论是Mobileye还是英伟达,都无法满足特斯拉对于性能、研发进度、成本、功率方面的要求。而且随着硬件量产出货所推动的算力需求增长,芯片供应链安全对于特斯拉的重要性愈发凸显,2016 年前 AMD 首席架构师 Jim Keller 加入特斯拉,任职 Autopilot 硬件工程师总裁,特斯拉开始走上芯片自研之路。行业专题行业专题/传媒传媒 本报告版权属于安信证券股份有限公司,各项声明请参见报告尾页。25 特斯拉特斯拉 2 2021021 年发布年发布 D D1 1 芯片及芯片及 DojoDojo 超级计算机:超级计算机:1 1)D D1 1 芯片:芯片:制程工艺是 7

93、nm,由台积电代工,设计参数为 645 平方毫米面积、500 亿个晶体管、11 英里的内部走线、400W TDP(Thermal Design Power 热设计功耗,指正常工作环境的负载功耗),单颗芯片有 354 个节点,实现了超强算力和超高带宽;2 2)DOJO PODDOJO POD 云端机柜:云端机柜:每个 Dojo 都集成了 120 个训练模块,单个训练模块包含 25 个 D1 芯片内置 3000 个 D1 芯片,拥有超过 100 万个训练节点,算力达到 1.1EFLOP,相邻芯片之间延迟较低,配合特斯拉自创高宽带、低延迟的连接器,是世界上首屈一指的超级计算机。整体来看整体来看,特斯

94、拉的芯片虽然距离英伟达仍有一定差距,但得,特斯拉的芯片虽然距离英伟达仍有一定差距,但得益于自身业务体系对益于自身业务体系对 AIAI 需求经验,其产品在需求经验,其产品在 AIAI 训练应用上仍极具竞争力。训练应用上仍极具竞争力。图图38.38.特斯拉特斯拉 D1 芯片参数芯片参数 图图39.39.特斯拉云端机柜特斯拉云端机柜 DOJO POD 资料来源:特斯拉2022 AI day、安信证券研究中心 资料来源:特斯拉2022 AI day、安信证券研究中心 云端算力占用率较高,云端算力占用率较高,2 2023023 年年 7 7 月正式投产月正式投产 DojoDojo。特斯拉目前使用的是基于

95、英伟达芯片的超算集群,相当于 14000 块 A100 的算力。根据特斯拉首席工程师 TimZaman 对外表示,他们的计算集群仅有 0.3%的空闲时间,其中 84%的时间都在处理高优先级的任务,因此急需更多计算资源。2023 年 7 月特斯拉 Dojo 正式投产,预计 2024 年 10 月特斯拉的算力总规模将达到 dato 投入资金规模为 56 亿。(资料来源:Tesla AI day、商汤公司公告)图图40.40.特斯拉特斯拉 Dojo 投产计划投产计划 资料来源:特斯拉2023 CVPR、安信证券研究中心 在车端,以在车端,以 HWHW3.03.0 提供提供 1 14444TOPsTO

96、Ps 为主,预计未来将进一步提高算力。为主,预计未来将进一步提高算力。特斯拉硬件体系至今迭代四版,从 2019 年发布的 HW 3.0 使用的是特斯拉自研的 FSD 车端芯片,2019 年上线的第一代 FSD 芯片由三星代工,制程为 14nm,2023 年已经升级为 7nm 芯片。算力方面,单颗芯片72TOPs,2 颗芯片算力共 144TOPS。对比国内自动驾驶车企的算力芯片,目前较为主流的是NVIDIA Orin 芯片,其单芯片算力已经达到 250TOPS,而且如果未来决策规划模型化,可能占行业专题行业专题/传媒传媒 本报告版权属于安信证券股份有限公司,各项声明请参见报告尾页。26 用更多的

97、算力,因此硬件版本升级可能会给到更多的算力,来保证一定的硬件性能冗余以支持后续模型能力的迭代升级。表表4 4:特斯拉历代特斯拉历代 FSDFSD 硬件版本硬件版本 HW1.0 HW2.0 HW2.5 HW3.0 发布时间 2014 2016 2017 2019 核心处理器 Mobileye EyeQ3*1 Nvidia Parker Soc*1;Nvidia Parker GPU*1;英飞凌 TriCore MCU*1 Nvidia Parker Soc*2;Nvidia Parker GPU*1;英飞凌 TriCore MCU*1 FSD 芯片*2 ROM 256M 6G 8G 8G*2 F

98、lash-4G*2 处理能力 1 倍 40 倍 40 倍带冗余 420 倍带冗余 每秒处理帧数 36 110 110 2300 资料来源:特斯拉官网、安信证券研究中心 4.4.人形机器人产业链人形机器人产业链 4.1.4.1.OptimusOptimus:以:以 FSDFSD 体系为基础,指向人形对软硬件适配调整体系为基础,指向人形对软硬件适配调整 与自动驾驶算法方案类似,智能机器人的软硬件构成上主要包括五大组成部分,分别是:与自动驾驶算法方案类似,智能机器人的软硬件构成上主要包括五大组成部分,分别是:感知系统,包括摄像头、麦克风、距离感应器、压力感应器等,产品较为成熟,需要解决精度等问题;运

99、算系统及其软件:理解及感知环境、拆解任务和路径规划、执行任务,难度在于数据少、虚拟世界与物理世界存在适配问题 驱动系统:分为液压驱动、电机驱动两种,要求轻便、灵活、体积小,抗摔、耐撞等 末端执行系统:如关节执行器,如谐波减速器、无框力矩电机等,难点在于控制抓握力度、灵活性等方面 能源供应系统:主要是电池供应。图图41.41.智能机器人软硬件构成智能机器人软硬件构成 资料来源:硅谷101、安信证券研究中心 依据上述的模块,我们对特斯拉依据上述的模块,我们对特斯拉 2 2022022 年年 AIAI DayDay 及及 2 2023023 年投资者大会上公布的关于人形机年投资者大会上公布的关于人形

100、机器人器人 OptimusOptimus 的参数进行汇总梳理如下:的参数进行汇总梳理如下:人形机器人重量为 73kg,几乎与成年人重量相当,在静坐时的功率为 100W,快走时的功耗为 500W;能源供应依靠电池,电池容量 2.3kWh 容量,支持 52V 电压,内置电子电行业专题行业专题/传媒传媒 本报告版权属于安信证券股份有限公司,各项声明请参见报告尾页。27 气元件的一体单元。Optimus 的大脑由单块 FSD Chip 组成,若参照自动驾驶 HW 3.0 芯片则预计算力为 72TOPS。图图42.42.特斯拉人形机器人外形参数特斯拉人形机器人外形参数 图图43.43.特斯拉人形机器人芯

101、片及电池等参数特斯拉人形机器人芯片及电池等参数 资料来源:特斯拉 2022 AI Day、安信证券研究中心 资料来源:特斯拉 2022 AI Day、安信证券研究中心 在感知算法层面,在感知算法层面,人形机器人依赖于自动驾驶 FSD 算法,也采用了纯视觉感知方案纯视觉感知方案,共配置有 3 颗摄像头,分别是左右眼各一个以及一颗鱼眼广角,同样也是提取图像特征后进行 3D3D 重建重建,对于空间中的物体通过占用网络通过占用网络进行识别输出。对比自动驾驶中占用网络,因为室内环境小目标比较多,我们可以看出机器人场景的单元格更加稠密。图图44.44.特斯拉人形机器人视觉传感器及感知占用网络特斯拉人形机器

102、人视觉传感器及感知占用网络 资料来源:特斯拉 2022 AI Day、安信证券研究中心 视觉导航方面:视觉导航方面:与车一样,人形机器人也是基于关键点的视觉导航,但是不同于车在户外有车道线,室内没有车道线,机器人对可通行空间也是通过矢量图描述的。行业专题行业专题/传媒传媒 本报告版权属于安信证券股份有限公司,各项声明请参见报告尾页。28 图图45.45.特斯拉人形机器人视觉导航系统特斯拉人形机器人视觉导航系统 资料来源:特斯拉 2022 AI Day、安信证券研究中心 影子模式:与车类似,人形机器人也采用类似于影子模式的方法,一种模式是采集人在执行操作时的发力大小、发力方向等信息,模拟人的执行

103、动作;另一种方式是类似于比下方右图,由工程师头戴摄像头将其所看到的桌面拍摄传输给机器人,其在仿真环境下做出动作决策,与人的动作进行对比,从而获得差异数据用于训练机器人模型更类人。图图46.46.人形机器人采集运动控制数据人形机器人采集运动控制数据 图图47.47.人形机器人的影子模式人形机器人的影子模式 资料来源:特斯拉 2022 AI Day、安信证券研究中心 资料来源:特斯拉 2023 股东大会、安信证券研究中心 运动控制:运动控制:与自动驾驶类似,人形机器人的规划控制输出也是双足的运动轨迹,但不同点在于,机器人给出运动轨迹之后,还需要根据轨迹预测脚掌的落地位置。图图48.48.人形机器人

104、运动轨迹预测人形机器人运动轨迹预测 资料来源:特斯拉 2022 AI Day、安信证券研究中心 行业专题行业专题/传媒传媒 本报告版权属于安信证券股份有限公司,各项声明请参见报告尾页。29 平衡控制:平衡控制:在波士顿动力的双足机器人中,推倒测试是常见的一种测试平衡的机制。类似地,特斯拉人形机器人也做了相关测试,以测试机器人对外界环境的躲避及运动平衡等。图图49.49.人形机器人推倒测试人形机器人推倒测试 资料来源:特斯拉 2022 AI Day、安信证券研究中心 硬件方面,人形机器人做了诸多仿生设计及针对算法的优化调整。硬件方面,人形机器人做了诸多仿生设计及针对算法的优化调整。Tesla B

105、ot 基于特斯拉汽车的工程技术,并且针对人形机器人做了针对性的调整,例如减少零部件的复杂度等。特斯拉在参考生物学结构的同时,还通过软硬件配合的方式,让机器人进行多模态的学习,对机械结构进行扭矩等力学方面的进行微调。(资料来源:特斯拉、新出行)目前整个躯干拥有200+DoF 自由度,手部自由度达到 27DoF。灵巧手:灵巧手:2022 年 AI Day 上公布的 Optimus 光手掌区域就用了 6 个驱动执行器,具有 11档的自由度,拥有自适应的抓握角度、20 磅(9 公斤)负荷、工具使用能力、小物件精准抓握能力等等。图图50.50.特斯拉人形机器人外形参数特斯拉人形机器人外形参数 图图51.

106、51.特斯拉人形机器人芯片及电池等参数特斯拉人形机器人芯片及电池等参数 资料来源:特斯拉 2022 AI Day、安信证券研究中心 资料来源:特斯拉 2022 AI Day、安信证券研究中心 膝关节:膝关节:特斯拉希望 Optimus 的关节希望尽量复刻生物学上的非线性逻辑,也就是贴合膝关节直立到完全弯曲时的受力曲线。为此,Optimus 的膝关节使用了类似于平面四杆机构的设计,最终发力效果会更接近人类。行业专题行业专题/传媒传媒 本报告版权属于安信证券股份有限公司,各项声明请参见报告尾页。30 图图52.52.特斯拉人形机器人外形参数特斯拉人形机器人外形参数 图图53.53.特斯拉人形机器人

107、芯片及电池等参数特斯拉人形机器人芯片及电池等参数 资料来源:特斯拉 2022 AI Day、安信证券研究中心 资料来源:特斯拉 2022 AI Day、安信证券研究中心 电机驱动:电机驱动:下图橙色部分均为 Optimus 的电机驱动器,相当于人的“肌肉“,也都是特斯拉完全自研的。考虑到机器人运动的灵活度,Optimus 具有较多的自由度,因此其单独的电机数量远远超过车的电机。图图54.54.人形机器人与自动驾驶动力系统比对人形机器人与自动驾驶动力系统比对 资料来源:特斯拉 2022 AI Day、安信证券研究中心 特斯拉希望尽可能地减少执行器的种类,降低软件标定难度,因此特斯拉举了 28 种

108、人类常见活动,比如抬举手臂、弯曲右膝等,通过分析这些活动反馈的云数据,找出各类运动的相对共同点,然后就可以尽量减少专门设计执行器的种类,基于以上原因最终设计了 6 种各自独特的执行器。图图55.55.特斯拉列举特斯拉列举 28 种人类常见活动种人类常见活动 图图56.56.特斯拉设计了特斯拉设计了 6 款执行器款执行器 资料来源:特斯拉官网、安信证券研究中心 资料来源:特斯拉官网、安信证券研究中心 行业专题行业专题/传媒传媒 本报告版权属于安信证券股份有限公司,各项声明请参见报告尾页。31 4.2.4.2.建立在智能驾驶体系之上,人形机器人导入速度预计很快建立在智能驾驶体系之上,人形机器人导入

109、速度预计很快 4.2.1.4.2.1.硬件架构无须破旧立新,共享汽车零部件供应体系硬件架构无须破旧立新,共享汽车零部件供应体系 在硬件本体上,人形机器人无须破旧再立新,可以直接采用中央式架构。在硬件本体上,人形机器人无须破旧再立新,可以直接采用中央式架构。车的电子电器架构经历了从分布式走向集中式的架构。汽车作为百年工业,已经形成了非常标准的零部件体系,但是其是分布式架构,相当于零部件的控制“各自为政”,但是到智能化阶段,分布式架构使信号传输有很多的问题,使模型计算的能力无法快速下达到执行器,因此逐步走向集中式架构,特斯拉 2012 年开始交付 Model S,至 2017 年交付 Model

110、3 才全面开启电子电气架构的变革。不同于整车成熟的产品体现,人形机器人是过去并不存在产品,无须破旧再立新,这使得特斯拉可以完全根据自身对产品的定义进行零部件设计及选型,对产品的形态、研发量产节奏有了更强的掌控力。图图57.57.汽车电子电气架构逐步从分布式走向集中汽车电子电气架构逐步从分布式走向集中 资料来源:佐思汽车研究、安信证券研究中心 得益于汽车供应链的积累及大规模零件的生产经验,特斯拉能够为得益于汽车供应链的积累及大规模零件的生产经验,特斯拉能够为 OptimusOptimus 挑选尽可能保证挑选尽可能保证成本成本、效率的原材料效率的原材料。根据我们对产业的调研,特斯拉在选择人形机器人

111、零部件的供应商时会优先选择整车供应商,因为彼此具备更扎实的合作信任关系,而且在同种零部件上,由于车与机器人共用同一种零部件,会因为零部件量产规模的上升而带来硬件成本的下降。三花智控系特斯拉整车供应商,根据公司公告,公司已经在对机器人机电执行器方面展开持续研究和产品开发工作。4.2.2.4.2.2.与智能汽车本质均为智能交互硬件,复用算法模型及数据体系与智能汽车本质均为智能交互硬件,复用算法模型及数据体系 人形机器人与智能汽车本质上都是具备实时感知能力的智能交互硬件,可以直接复用自动驾人形机器人与智能汽车本质上都是具备实时感知能力的智能交互硬件,可以直接复用自动驾驶模型及数据体系。驶模型及数据体

112、系。我们认为自动驾驶为人形机器人搭好了“场”,人形机器人可以复用的部分包括:1)感知模块的 4D 重建、占用网络;2)数据及自动标注工具;3)仿真模拟环境;4)共享强大的云端算力设施及芯片能力。在以上可复用的部分,只需要针对人形机器人场景采集相应的数据训练即可,不存在技术性的难度,难度在于工作量的积累。两款产品的不同是因为所处的场景及面对的任务不同导致规控体系差异,特别是机器人高达 200 多个自由度导致其规控更加复杂,但是自动驾驶所积累的工作是地基,0-1 的工作很难,而扎实的基础将使 1-10 的工作加速迭代。根据根据 2023 年股东大会上马斯克透露信息,特年股东大会上马斯克透露信息,特

113、斯拉斯拉已经打通了已经打通了FSD 和机器人的底层模块,实现了一定程度的算法复用和机器人的底层模块,实现了一定程度的算法复用。(数据来源:(数据来源:36Kr)行业专题行业专题/传媒传媒 本报告版权属于安信证券股份有限公司,各项声明请参见报告尾页。32 图图58.58.特斯拉人形机器特斯拉人形机器与自动驾驶方案关系与自动驾驶方案关系 资料来源:特斯拉官网、安信证券研究中心 自动驾驶积累的工程化经验有利于加速机器人正向研发。自动驾驶积累的工程化经验有利于加速机器人正向研发。自动驾驶方案使特斯拉已经积累了智能硬件开发中所需要的“发现问题、采集数据、标注数据、训练模型、解决问题”的工程化经验,能够加

114、速机器人正向研发过程。体现在:1)如前文所述的九头网络架构,在一定程度上,人形机器人与自动驾驶可以共用感知的 backbone,所处理的任务主要体现在 neck、head 层的差异,而在处理尘雾等场景时积累的经验能够帮助机器人迭代;2)在规控、安全性等方面,两款硬件也具备一定的借鉴经验,比如基于汽车的碰撞模拟软件,能够为 Optimus编写跌倒测试软件。图图59.59.为人形机器人编写为人形机器人编写跌倒测试软件跌倒测试软件 资料来源:特斯拉官网、安信证券研究中心 4.2.3.4.2.3.大模型加速智能驾驶方案迭代,机器人大模型大模型加速智能驾驶方案迭代,机器人大模型领域成果频出领域成果频出

115、以以 ChatGPTChatGPT、AIGCAIGC 为代表的大模型热潮对自动驾驶行业掀起了新一轮变革。为代表的大模型热潮对自动驾驶行业掀起了新一轮变革。马斯克此前在社交网络称将推出 FSDv12.0 端到端版本,并于近日透露团队已经在对规控模块进行 AI 化,其是完全自动驾驶的最后一块拼图,一旦完成,将推动自动驾驶方案迎来下一阶段的质的飞跃。得益于大模型能力,国内车企也在积极推动 BEV+Transformer 这套无图方案在量产车上的落地,并给出了无图方案扩城的规划,比如小鹏提出 XNGP 将在下半年拓展到全国 50 城。可以预见。自动驾驶方案的突破将大大推动人形机器人方案的实现。行业专题

116、行业专题/传媒传媒 本报告版权属于安信证券股份有限公司,各项声明请参见报告尾页。33 图图60.60.马斯克称将马斯克称将 FSDv12.0 版本将实现端到端版本将实现端到端 图图61.61.马斯克表示运动控制模块正在马斯克表示运动控制模块正在 AI 模型化模型化 资料来源:特斯拉公司公告、安信证券研究中心 资料来源:特斯拉公司公告、安信证券研究中心 以李飞飞具身智能研究、谷歌以李飞飞具身智能研究、谷歌 RTRT-2 2 为代表,机器人大模型领域成果频出。为代表,机器人大模型领域成果频出。李飞飞团队研究实现了零样本的日常操作任务轨迹合成,也就是机器人从没见过的任务也能一次执行,连给他做个示范都

117、不需要。可操作的物体也是开放的,不用事先划定范围,开瓶子、按开关、拔充电线都能完成。7 月 29 日,纽约时报记者在谷歌实验室看到新推出的 Rt-2 模型驱动的机器人,桌子上放着狮子、鲸鱼和恐龙三个塑料雕像,当工程师给机器人发出指令“捡起灭绝的动物”,机器人抓起了恐龙。以上的突破主要来自于语言大模型的助力,具体来看体现在:以上的突破主要来自于语言大模型的助力,具体来看体现在:增强对于环境感知的能力增强对于环境感知的能力 首先,语言大模型能够帮助机器人更好的理解人类指令。在大模型时代到来之前,人们训练机器人,通常针对每个任务进行优化,比如抓取某种玩具,需要足量的数据,机器人才能准确地从各个角度、

118、各个光线下识别这种玩具,抓取成功。而让机器人意识到自己有抓取玩具的任务,也需要对机器人进行编程才能解决。其次,基于语义理解物体,人形机器人面临更多开放的场景,涉及到不同的物体,如果只依赖于数据标注的方式识别物体效率较低,能基于语义对应该物体的属性、特征,能够提高对环境感知的效率,快速做出决策。比如,为了更准确高效应对车道线,特斯拉借用语言模型编写了一套车道语义拓扑图,对于车道线的连通性,用一个时序模型建模(自然语言模型)将整个路口用若干格子表示;自车在起始点坐标为其赋任务指示 tokenstart,路标检测信息、移动轨迹矩阵作为特征,将不同路口间的连接关系储存为节点的配对,从而建立语义网络。图

119、图62.62.道路语义拓扑图道路语义拓扑图 资料来源:特斯拉官网、安信证券研究中心 行业专题行业专题/传媒传媒 本报告版权属于安信证券股份有限公司,各项声明请参见报告尾页。34 多模态对齐推动端到端方案落地多模态对齐推动端到端方案落地 加速自动驾驶与人形机器人方案端到端的实现。加速自动驾驶与人形机器人方案端到端的实现。基于前述介绍,我们把“感知、决策规划、运动控制”划分为三个相对独立的模块,前者的输出作为后者的输入,依次完成操作,但是参考人在开车时的模式,我们看到外界环境做出反应时并不会反映静态路网、运动轨迹,而是直接输出转方向盘,加速或者减速的操作,其本质是三个相对独立的模块融合成为一整个大

120、模型,我们认为它其实也体现了不同模态数据的对齐。我们认为特斯拉提出的端到端的方案是本质上就是在完成视觉图像输入到方向盘转向及加减速之间的对齐。类似的,谷歌的类似的,谷歌的 RTRT-2 2 模型本质上实现“语言模型本质上实现“语言-视觉视觉-动作”三个模态的对齐。动作”三个模态的对齐。谷歌 RT-1 是个视觉-语言模型(VLMs),实现的功能是将一个或多个图像作为输入,并生成一系列通常表示自然语言文本的标记。而 RT-2 通过将 VLM 预训练与机器人数据相结合,直接控制机器人,形成强大的视觉-语言-动作(VLA)模型,使机器人可以进行推理、问题解决并解释信息,以在真实世界中执行各种任务,其或

121、将成为构建通用机器人的一把钥匙。图图63.63.RT-2 模型实现模型实现视觉视觉-语言语言-动作动作三种模态对齐三种模态对齐 资料来源:谷歌 Deepmind 官网、安信证券研究中心 因此,综合上述软硬件的积累及优势,我们认为人形机器人的产业链导入速度可能会比此前因此,综合上述软硬件的积累及优势,我们认为人形机器人的产业链导入速度可能会比此前自动驾驶的产业导入速度更快。自动驾驶的产业导入速度更快。4.3.4.3.开放场景人形机器人相较于自动驾驶面对更多挑战开放场景人形机器人相较于自动驾驶面对更多挑战 4.3.1.4.3.1.特斯拉缺乏语言大模型能力,需要补齐语料数据特斯拉缺乏语言大模型能力,

122、需要补齐语料数据 如前所述,李飞飞具身智能、谷歌 RT-2 的成果依赖于语言大模型的推动,包括理解人机交互指令,以及基于语义理解识别家庭场景中种类繁多的物体,还需要对不同物体背后的功能、重量、硬度等属性进行了解,才能做出决策规划,比如是否需要避障等。而语言大模型的训练需要大规模的语料数据,谷歌得益于搜索引擎积累了大量优质的语料数据,而特斯拉在过去缺乏相关语料资源的积累,因此仍需要一定的时间对其进行补充。我们认为特斯拉收购Twitter 的原因与之有关,将获得大量的语料数据帮助提升人形机器人的能力。行业专题行业专题/传媒传媒 本报告版权属于安信证券股份有限公司,各项声明请参见报告尾页。35 4.

123、3.2.4.3.2.人形机器人人形机器人运动控制运动控制具有极大难度具有极大难度 首先,机器人首先,机器人 2 20000 多个自由度,规划求解可能会导致计算量暴增。多个自由度,规划求解可能会导致计算量暴增。根据莫拉维克悖论,对计算机而言实现逻辑推理等人类高级智慧只需要相对很少的计算能力,而实现感知、运动等低等级智慧却需要巨大的计算资源,其背后的原因是求解难度非常大。我们在前面介绍自动驾驶决策控制时解释了车的算法是高维的非凸问题,其实车上只有 6 个自由度,分别是表示位置坐标的 x、y、z、时间 t、速度、加速度,而人形机器人所对应的机械原理会更加复杂和精细,全身有 200 多个自由度,这意味

124、着在优化求解时计算量将暴增。而且机器人在更开放的场域,可能面对更强的安全约束条件,所以如何在计算时能够使其收敛至最优解也会面临较多的挑战。假设决策规划通过模型化实现,我们认为如果采用影子模式进行模型训练,则还需要进行人体运动控制的数据,比如握力方向、握力大小等,因此为了训练人形机器人达到更加类人的效果,特斯拉还需要做大量的数据采集工作或者在仿真环境下进行模拟仿真。第二,第二,灵活性要求动态计算,对软硬件响应速度及配合提出较高要求。灵活性要求动态计算,对软硬件响应速度及配合提出较高要求。人形机器人如果想要达到人类操作的灵活性,所需要做出的运动控制都是实时且连续的,这就意味着在极短的时间内发生了位

125、移,就需要感知算法在动态的情况下进行连续计算,计算时间差缩短对硬件的灵敏度、软件计算速度都提出很高的要求。第三,硬件降本产生的零部件调整,与软件算法稳定性之间存在平衡。第三,硬件降本产生的零部件调整,与软件算法稳定性之间存在平衡。2022 年 AI day 上马斯克提出人形机器人未来的售价将为 2 万美金,我们预计仍需要一段时间完成硬件的降本,因此目前部分结构件仍处于正向研发阶段,以保证达到降本的需求。但由于软硬件方案是相互耦合的,硬件降本导致零部件方案变化,会导致人形机器人算法跟着调整,影响软件方案的开发节奏;其次,由于软件算法与硬件的稳定性与精度有很高的要求,这在一定程度上会推高硬件成本,

126、因此研发的过程就需要不断在算法稳定性与硬件降本间进行平衡,对工程师团队带来一定的挑战。4.3.3.4.3.3.对特斯拉自研算力提出更高的要求对特斯拉自研算力提出更高的要求 如前所述,自动驾驶汽车出货量增长使得当前特斯拉超算中心达到了较高的占用,而人形机器人的感知、规控模型均比自动驾驶更复杂,可能在训练期间消耗更多的算力,因此对特斯拉目前的超算中心的算力提出了更多要求。在各业务均处于算力需求快速增长的情况下,若一旦出现机器人业务与自动驾驶业务的算力冲突,考虑到自动驾驶业务更成熟,存在量产出货需求,优先自动驾驶业务对算力资源的需求,则可能影响人形机器人算法能力的迭代,进而拖慢整体开发进展。目前 D

127、ojo 处于投产建设中,我们判断其投入使用的时间节点也对人形机器人业务有较重要的影响。总结以上对于特斯拉人形机器人所面临的挑总结以上对于特斯拉人形机器人所面临的挑战,我们判断人形机器人的难度更高,距离产品战,我们判断人形机器人的难度更高,距离产品成熟仍需要一定的周期,因此我们认为人形机器人的产业链导入也将经历智能度逐步升级的成熟仍需要一定的周期,因此我们认为人形机器人的产业链导入也将经历智能度逐步升级的过程。过程。自动驾驶通常分成 6 个级别,从 L0、L1 一直到最高 L5,等级越高智能化程度越高。L0 只提供部分预警,L5 则是完全状态下的汽车自动驾驶。质的变化的出现在 L3 级别,在这个

128、状态下,驾驶员在驾驶位上可以聊天看视频,但是不能睡着,车辆遇到问题报警,驾驶员需要在规定时间内接管车辆。目前自动驾驶行业正处于从 L2 向 L3 迈进的阶段。类似于自动驾驶,我们认为人形机器人可能会先在一些相对标准、简单、狭窄的场景中落地,逐步推向通用型的人形机器人。行业专题行业专题/传媒传媒 本报告版权属于安信证券股份有限公司,各项声明请参见报告尾页。36 图图64.64.中美自动驾驶分级标准中美自动驾驶分级标准 资料来源:CSDN、安信证券研究中心 5.5.预测:人形机器人落地节奏及市场规模预测:人形机器人落地节奏及市场规模 站在人形机器人发展早期,去推演其后续的发展节奏,可以自动驾驶汽车

129、智能化迭代的节奏作为参考:APAP1.01.0 时期(约时期(约 2 24 4 个月):个月):特斯拉 2014 年 9 月发布 Autopilot,并在 Model S 上使用。这一阶段特斯拉选择 Mobileye 作为供应商,为其提供 ADAS 服务,而当时的方案能够在车上进行自适应巡航等功能;APAP2.0 2.0 时期(约时期(约 1 10 0 个月):个月):2016 年特斯拉转向自研算法模型,发布了 AP2.0,并推出配备 AP2.0 的车型,所有车辆都将支持自动驾驶硬件,期间激活 FSD 的智能汽车的渗透率达到 10.86%;APAP2.52.5 时期(约时期(约 1 19 9

130、个月):个月):2017 年 7 月中旬发布 AP2 硬件的更新,该版本变化并不大,较之前没有明显的功能优势;这个阶段主要是小规模的迭代、版本的细化,但体现出明显的 FSD 渗透率提升,期间激活 FSD 的智能汽车占比达到 19.02%APAP 3.03.0 时期:时期:2019 年 3-4 月份开始在车上发布 AP 3.0 硬件,支持完全自研的 FSD,将原有的 Autopolit 整合为一个体系,但这一阶段由于出货量的增加,特别是 Model 3 等相对低端车型的推出,使得 FSD 的渗透率又有一定下降。造成这一指标下降的原因一方面与用户群体的扩散有关,另一方面也与自动驾驶功能展现出一定阶

131、段的瓶颈有关。表表5 5:特斯拉汽车智能化发展阶段梳理特斯拉汽车智能化发展阶段梳理 无自动驾驶版本无自动驾驶版本 AP1.0AP1.0 AP2.0AP2.0 AP2.5AP2.5 AP3.0AP3.0 开始时间开始时间 2012/7/1 2014/9/19 2016/10/16 2017/8/9 2019/3/28 结束时间结束时间 2014/9/18 2016/10/15 2017/8/8 2019/3/27 2022/10/29 迭代周期迭代周期 约 24 个月 约 10 个月 约 19 个月-对应硬件版本对应硬件版本 -Mobileye 英伟达 英伟达 特斯拉自研 典型功能典型功能 -主

132、动巡航控制/自动变道/自动泊车 高速公路NOA,拥堵复杂路段 城市和高速公路NOA,各种复杂路口,停车标志等 应用场景应用场景 -高速公路和普通行车环境 车库召唤/自动调整车道/车道保持 可自动识别红绿灯、路标、环岛等复杂路况并自动控制 行业专题行业专题/传媒传媒 本报告版权属于安信证券股份有限公司,各项声明请参见报告尾页。37 期间交付量期间交付量 45,624 111,485 84,607 350,945 2,490,376 装有装有 FSDFSD 车辆车辆 -9,192 66,761 387,704 FSDFSD 渗透率渗透率 0 0 0 0 10.86%10.86%1 19.02%9.

133、02%1 15.57%5.57%资料来源:TroyTeslike、投中网、安信证券研究中心(注:数据统计时间截止至 2022.10.29)结合汽车智能化发展阶段、人形机器人的需求场景、人形机器人算法进展以及我们前述观点人形机器人导入速度更快,但是难度更高,距离产品成熟仍需要一定的周期人形机器人导入速度更快,但是难度更高,距离产品成熟仍需要一定的周期,我们基于以下假设对人形机器人 2023-2030 年间的市场规模做出测算:1 1)潜在场景及对应需求)潜在场景及对应需求 从当前时间点看,推动机器人发展的根本原因在于劳动力替代,发生概率较大的两大场景,一方面是工厂场景下的劳动力替代,主要系人口老龄

134、化、劳动力成本上涨等因素造成的劳动力短缺;另一方面是家庭场景下的家人陪伴、养老需求。在这两类机器人中,此前工业型机器人的发展较为成熟,而服务型机器人仍处于相对高增长的阶段,我们预计未来服务型机器人仍有望维持较高增速,而工业型机器人的增速有所放缓,假设 2021-2030 年服务型机器人销量的复合增速为 25%,工业型机器人销量的复合增速为 5%。表表6 6:全球机器人销量全球机器人销量 2 2011011 年销量年销量 (万台)(万台)2 2021021 年销量年销量 (万台)(万台)2 2 年年 复合增速复合增速 假设假设 2 2年

135、复合增速年复合增速 服务型机器人服务型机器人 1.6 17.3 26.56%25%工业型机器人工业型机器人 16.6 51.7 12.04%5%资料来源:国际机器人联合会、安信证券研究中心(注:服务型机器人数据自 2019 年后不再公布,我们假设其没有增长,保守进行测算)2 2)量产节奏及对应市场规模分析)量产节奏及对应市场规模分析 结合对智能驾驶汽车历史回溯及前述对人形机器人、自动驾驶技术难度的分析,我们对人形结合对智能驾驶汽车历史回溯及前述对人形机器人、自动驾驶技术难度的分析,我们对人形机器人未来市场空间及量产节奏进行预测:机器人未来市场空间及量产节奏进行预测:研发阶段(研发阶段(2 20

136、 年):年):这一阶段需要完成软硬件方案的固化,包括软件算法成熟度提升以及硬件降本,由于人形机器人建立在自动驾驶的软硬件体系之上,我们预计该阶段时间将较自动驾驶缩短,假设经历 2 年时间至 2024 年底;产业链导入期(产业链导入期(2 2 年):年):当软件算法达到一定高度且成本下降到一定水平时,假设特斯拉先启动小规模试生产,这一阶段由于“尝鲜心理”可能会带来短时间内渗透率的快速提升;但系早期产品价格会相对较高;预计需要 2 年时间。渗透率逐步提升(渗透率逐步提升(2 2 年):年):随着软硬件成熟度提升

137、,人形机器人无论是用于服务型还是工业型场景都将进入业务落地阶段,这一阶段产品的渗透率与软件迭代速度有关,我们认为人形机器人是更开放的场景,且自由度更多,因此产品达到成熟阶段需要较长的时间,因此预计2027-2030年人形机器人渗透率将小幅提升。相较于服务型场景而言,工业型场景相对标准,对人形机器人的要求相对较低,其渗透率的提升幅度会相对更快。从价格端看,硬件的降本推动销售价格逐步下降。基于以上关键假设,我们对 2023-2030 年人形机器人的发展节奏及市场规模进行预测如下,得出,预计 2025 年市场规模为 119.1 亿,至 2030 年市场规模为 1134.9 亿,市场空间广阔。行业专题

138、行业专题/传媒传媒 本报告版权属于安信证券股份有限公司,各项声明请参见报告尾页。38 表表7 7:2 2 年人形机器人落地节奏及市场规模预测年人形机器人落地节奏及市场规模预测 阶段一:研发阶段阶段一:研发阶段 阶段二:导入期阶段二:导入期 阶段三:渗透率提升阶段阶段三:渗透率提升阶段 对应时间周期对应时间周期 20232023 20242024 20252025 20262026 20272027 20282028 20292029 20302030 场景一:家庭场景养老、陪护需求场景一:家庭场景养老、陪护需求 服务型机器人销服务型机器人销量(万台)量(万台)27

139、.0 33.8 42.2 52.8 66.0 82.5 103.1 128.9 人形机器人人形机器人 渗透率(渗透率(%)0 0 0.5%2.5%3.0%3.5%4.0%5.0%人形机器人数量人形机器人数量(万台)(万台)0.0 0.0 0.2 1.3 2.0 2.9 4.1 6.4 平均售价平均售价 (万元)(万元)0 0 50 45 40 35 35 35 市场规模(亿)市场规模(亿)0.00 0.00 10.6 59.4 79.2 101.1 144.4 225.6 场景二:工业场景劳动力替代场景二:工业场景劳动力替代 工业型机器人安工业型机器人安装量(万台)装量(万台)68.4 78.

140、6 90.4 104.0 119.6 137.5 158.2 181.9 人形机器人人形机器人 渗透率(渗透率(%)0 0 2.0%6.0%6.5%7.0%8.0%10.0%人形机器人数量人形机器人数量(万台)(万台)0.0 0.0 1.8 6.2 7.8 9.6 12.7 18.2 平均售价平均售价 (万元)(万元)0 0 60 50 50 50 50 50 市场规模市场规模 (亿元)(亿元)0 0 108.5 312.0 388.7 481.3 632.6 909.4 人形机器人总规人形机器人总规模(亿元)模(亿元)0.00 0.00 119.1 371.4 467.8 582.4 777

141、.0 1134.9 同比增速(同比增速(%)211.89%25.98%24.48%33.41%46.07%资料来源:TroyTeslike、国际机器人联合会、36Kr、安信证券研究中心 6.6.投资建议投资建议 软件算法的迭代速度、技术高度对人形机器人的导入速度、产品高度起到决定性的作用,且软件算法的迭代速度、技术高度对人形机器人的导入速度、产品高度起到决定性的作用,且随着硬件体系成熟,软件算法的重要性会愈加凸显:随着硬件体系成熟,软件算法的重要性会愈加凸显:1 1)人形机器人与传统机器人的突破在和物理世界的实时感知交互,决定其实现的关键在于软件算法;2)算法能力的提升在一定范围内会降低对硬件

142、的依赖与精度要求,参考自动驾驶方案逐步降低对雷达的依赖走向纯视觉方案;3)当产品的成熟度达到一定高度后,硬件趋向同质化,很难体现出产品的差异性,在一定范围内所体现出的重要性或将逐步降低,而软件的成熟度、稳定性等因素将日益成为影响产品差异性竞争力的重要因素。相较市场对硬件部分的关注,我们本篇报告特别关注软件算法平台的机会:相较市场对硬件部分的关注,我们本篇报告特别关注软件算法平台的机会:市场认为机器人最终会类似于自动驾驶一样走向自研。我们则认市场认为机器人最终会类似于自动驾驶一样走向自研。我们则认为:为:1)短期内对于希望升级至人工智能方向的制造商,可能会借助软件算法公司的积累而进行业务迭代;2

143、)长期来看机器人与自动驾驶相比场域更加开放,为了提高用户体验,可能会走向更多长尾功能及场景的优化,体现为种类繁复的执行器及规控操作。如若每个公司都在感知等基础平台上重复造轮子,可能会带来产业资源的浪费。因此若最终指向通用人形机器人,我们判断感知、决策被模型化后或许会成为类似今天基础大模型一样的存在,在这类能力上具备强大实力的公司可能成为平台型的公司,而在其之上,不同应用场景的机器人公司可以部署垂类小模型,基于相应的执行器进行调整,这种模式或许是更经济的方案。由此推演,我们认为或许不排除未来特斯拉会成为 AI 公司提供基础能力,将上层执行器及运动控制的方案开放给更多的第三方合作伙伴。行业专题行业

144、专题/传媒传媒 本报告版权属于安信证券股份有限公司,各项声明请参见报告尾页。39 有观点认为国内技术创新能力不足,不具备提供平台型能力的实力。我们反而认为:有观点认为国内技术创新能力不足,不具备提供平台型能力的实力。我们反而认为:从算法能力方面,中国车企在自动驾驶方案上已经有一定积累,特别是新势力如理想、小鹏、华为、地平线等在感知、决策规划上已经具备相应的能力,而且地平线宣布进军机器人领域。此次大模型的火爆也在很大程度上推动了对技术创新、工程化落地重要性的认知,量变的积累可能引起质变,推动国内技术方案及工程能力整体水平的提升,因此我们认为国内的新势力公司仍值得关注。关注人形机器人产业链:关注人

145、形机器人产业链:1)特斯拉及其产业链上生态合作伙伴:特斯拉及其产业链上生态合作伙伴:其中软件部分系特斯拉自研,国内在产业链上的参与方式主要在零部件;2)传统机器人向智能化升级:传统机器人向智能化升级:传统人形机器人做智能化升级,比如波士顿动力引入ChatGPT做交互;非人形机器人向智能人形机器人迭代,如傅利叶智能;3)互联网大厂向机器人方向的业务拓展:互联网大厂向机器人方向的业务拓展:谷歌、腾讯、字节跳动等;4)自动驾驶新势力:自动驾驶新势力:地平线等。芯片、算力、数据也非常重要:芯片、算力、数据也非常重要:云端算力如超算中心的芯片及服务器;边缘、端算力,关注云天励飞;仿真模拟数据等。图图65

146、.65.智能机器人产业链智能机器人产业链 资料来源:艾瑞咨询、安信证券研究中心 7.7.风险提示风险提示 技术迭代进展不及预期:技术迭代进展不及预期:人形机器人在算法主模型的构建上还有比较大的挑战,特别是在决策规划上遇到因自由度增加而产生计算量增加,而无法进行优化求解。若后续没有一些突破性的方案被提出,可能会因此导致产品成熟度增长提升较为缓慢。算力投产速度不及预期:算力投产速度不及预期:特斯拉当前用于自动驾驶的算力已较为紧张,根据其规划预计 2024 年底达到 100EFlops,若算力投产速度不及预期,可能影响人形机器人正向研发进度。行业专题行业专题/传媒传媒 本报告版权属于安信证券股份有限

147、公司,各项声明请参见报告尾页。40 安全、隐私法规等政策风险:安全、隐私法规等政策风险:人形机器人还处于产业导入的阶段,类似于自动驾驶导入历程,若机器人发生一旦发生伤人事故等或者隐私泄漏等,可能会触发相应的监管政策,从而放缓产业链发展的节奏。测算不及预期:测算不及预期:人形机器人仍处于早期阶段,产品的方案仍在孕育中,且产业链的竞争格局仍有变数,从而可能导致市场空间测算及产品推进节奏与实际存在差异,导致测算数据不及预期。行业专题行业专题/传媒传媒 本报告版权属于安信证券股份有限公司,各项声明请参见报告尾页。41 1.1.行业评级体系行业评级体系 收益评级:领先大市 未来 6 个月的投资收益率领先

148、沪深 300 指数 10%及以上;同步大市 未来 6 个月的投资收益率与沪深 300 指数的变动幅度相差-10%至 10%;落后大市 未来 6 个月的投资收益率落后沪深 300 指数 10%及以上;风险评级:A 正常风险,未来 6 个月的投资收益率的波动小于等于沪深 300 指数波动;B 较高风险,未来 6 个月的投资收益率的波动大于沪深 300 指数波动;2.2.分析师声明分析师声明 本报告署名分析师声明,本人具有中国证券业协会授予的证券投资咨询执业资格,勤勉尽责、诚实守信。本人对本报告的内容和观点负责,保证信息来源合法合规、研究方法专业审慎、研究观点独立公正、分析结论具有合理依据,特此声明

149、。3.3.本公司具备证券投资咨询业务资格的说明本公司具备证券投资咨询业务资格的说明 安信证券股份有限公司(以下简称“本公司”)经中国证券监督管理委员会核准,取得证券投资咨询业务许可。本公司及其投资咨询人员可以为证券投资人或客户提供证券投资分析、预测或者建议等直接或间接的有偿咨询服务。发布证券研究报告,是证券投资咨询业务的一种基本形式,本公司可以对证券及证券相关产品的价值、市场走势或者相关影响因素进行分析,形成证券估值、投资评级等投资分析意见,制作证券研究报告,并向本公司的客户发布。行业专题行业专题/传媒传媒 本报告版权属于安信证券股份有限公司,各项声明请参见报告尾页。42 免责声明免责声明 何

150、机构或个人接收到本报告而视其为本公司的当然客户。本报告基于已公开的资料或信息撰写,但本公司不保证该等信息及资料的完整性、准确性。本报告所载的信息、资料、建议及推测仅反映本公司于本报告发布当日的判断,本报告中的证券或投资标的价格、价值及投资带来的收入可能会波动。在不同时期,本公司可能撰写并发布与本报告所载资料、建议及推测不一致的报告。本公司不保证本报告所含信息及资料保持在最新状态,本公司将随时补充、更新和修订有关信息及资料,但不保证及时公开发布。同时,本公司有权对本报告所含信息在不发出通知的情形下做出修改,投资者应当自行关注相应的更新或修改。任何有关本报告的摘要或节选都不代表本报告正式完整的观点

151、,一切须以本公司向客户发布的本报告完整版本为准,如有需要,客户可以向本公司投资顾问进一步咨询。在法律许可的情况下,本公司及所属关联机构可能会持有报告中提到的公司所发行的证券或期权并进行证券或期权交易,也可能为这些公司提供或者争取提供投资银行、财务顾问或者金融产品等相关服务,提请客户充分注意。客户不应将本报告为作出其投资决策的惟一参考因素,亦不应认为本报告可以取代客户自身的投资判断与决策。在任何情况下,本报告中的信息或所表述的意见均不构成对任何人的投资建议,无论是否已经明示或暗示,本报告不能作为道义的、责任的和法律的依据或者凭证。在任何情况下,本公司亦不对任何人因使用本报告中的任何内容所引致的任

152、何损失负任何责任。本报告版权仅为本公司所有,未经事先书面许可,任何机构和个人不得以任何形式翻版、复制、发表、转发或引用本报告的任何部分。如征得本公司同意进行引用、刊发的,需在允许的范围内使用,并注明出处为“安信证券股份有限公司研究中心”,且不得对本报告进行任何有悖原意的引用、删节和修改。本报告的估值结果和分析结论是基于所预定的假设,并采用适当的估值方法和模型得出的,由于假设、估值方法和模型均存在一定的局限性,估值结果和分析结论也存在局限性,请谨慎使用。安信证券股份有限公司对本声明条款具有惟一修改权和最终解释权。安信证券研究中心安信证券研究中心 深圳市深圳市 地地 址:址:深圳市福田区福田街道福华一路深圳市福田区福田街道福华一路 1919 号安信金融大厦号安信金融大厦 3333 楼楼 邮邮 编:编:5 上海市上海市 地地 址:址:上海市虹口区东大名路上海市虹口区东大名路 638638 号国投大厦号国投大厦 3 3 层层 邮邮 编:编:200080200080 北京市北京市 地地 址:址:北京市西城区阜成门北大街北京市西城区阜成门北大街 2 2 号楼国投金融大厦号楼国投金融大厦 1515 层层 邮邮 编:编:4

友情提示

1、下载报告失败解决办法
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。

本文(传媒行业AI专题报告之十二:人形机器人的AI算法如何借力于自动驾驶FSD-230820(42页).pdf)为本站 (面朝大海) 主动上传,三个皮匠报告文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三个皮匠报告文库(点击联系客服),我们立即给予删除!

温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。
相关报告
客服
商务合作
小程序
服务号
会员动态
会员动态 会员动态:

188**48...  升级为标准VIP  wei**n_...  升级为高级VIP 

iam**in... 升级为至尊VIP  wei**n_... 升级为标准VIP

 135**70... 升级为至尊VIP   199**28... 升级为高级VIP

wei**n_...  升级为至尊VIP  wei**n_...  升级为标准VIP

 wei**n_... 升级为至尊VIP  火星**r... 升级为至尊VIP

139**13...  升级为至尊VIP 186**69... 升级为高级VIP  

  157**87... 升级为至尊VIP 鸿**...  升级为至尊VIP

wei**n_...   升级为标准VIP 137**18...   升级为至尊VIP

 wei**n_...  升级为至尊VIP  wei**n_... 升级为标准VIP 

 139**24... 升级为标准VIP  158**25... 升级为标准VIP 

wei**n_...   升级为高级VIP  188**60... 升级为高级VIP

 Fly**g ... 升级为至尊VIP wei**n_...   升级为标准VIP

186**52... 升级为至尊VIP 布**  升级为至尊VIP

 186**69... 升级为高级VIP   wei**n_... 升级为标准VIP 

139**98... 升级为至尊VIP 152**90...   升级为标准VIP

138**98... 升级为标准VIP 181**96... 升级为标准VIP

185**10... 升级为标准VIP  wei**n_...  升级为至尊VIP

 高兴 升级为至尊VIP  wei**n_... 升级为高级VIP 

  wei**n_... 升级为高级VIP 阿**...  升级为标准VIP

wei**n_... 升级为高级VIP  lin**fe...  升级为高级VIP

wei**n_... 升级为标准VIP  wei**n_... 升级为高级VIP 

wei**n_... 升级为标准VIP   wei**n_... 升级为高级VIP

wei**n_... 升级为高级VIP  wei**n_...   升级为至尊VIP

 wei**n_...  升级为高级VIP wei**n_...  升级为高级VIP 

180**21... 升级为标准VIP 183**36... 升级为标准VIP

wei**n_... 升级为标准VIP   wei**n_... 升级为标准VIP

xie**.g... 升级为至尊VIP  王**   升级为标准VIP

 172**75...  升级为标准VIP wei**n_...  升级为标准VIP

 wei**n_...  升级为标准VIP wei**n_...  升级为高级VIP

 135**82... 升级为至尊VIP  130**18...   升级为至尊VIP

wei**n_... 升级为标准VIP   wei**n_... 升级为至尊VIP

wei**n_...  升级为高级VIP 130**88... 升级为标准VIP

 张川  升级为标准VIP wei**n_... 升级为高级VIP 

 叶**  升级为标准VIP wei**n_... 升级为高级VIP  

 138**78...  升级为标准VIP wu**i  升级为高级VIP

wei**n_... 升级为高级VIP   wei**n_... 升级为标准VIP

 wei**n_... 升级为高级VIP  185**35...  升级为至尊VIP

wei**n_... 升级为标准VIP 186**30...   升级为至尊VIP

156**61... 升级为高级VIP  130**32... 升级为高级VIP 

 136**02... 升级为标准VIP  wei**n_... 升级为标准VIP 

 133**46... 升级为至尊VIP  wei**n_... 升级为高级VIP

 180**01...  升级为高级VIP   130**31... 升级为至尊VIP

wei**n_... 升级为至尊VIP  微**... 升级为至尊VIP 

wei**n_... 升级为高级VIP  wei**n_...  升级为标准VIP

 刘磊 升级为至尊VIP wei**n_... 升级为高级VIP 

 班长 升级为至尊VIP   wei**n_...  升级为标准VIP

176**40... 升级为高级VIP   136**01... 升级为高级VIP 

 159**10... 升级为高级VIP  君君**i... 升级为至尊VIP 

 wei**n_...  升级为高级VIP wei**n_... 升级为标准VIP 

 158**78...  升级为至尊VIP  微**... 升级为至尊VIP