您的当前位置：上海品茶 > 报告分类 > PDF报告下载

报告预览

机器人行业系列深度研究之12：大模型迭代智能驾驶、机器人算法进化-230919（35页）.pdf

编号：141237

PDF 35页 2.39MB 下载积分：VIP专享

下载报告请您先登录！

机器人行业系列深度研究之12：大模型迭代智能驾驶、机器人算法进化-230919（35页）.pdf

1、大模型迭代，智能驾驶、机器人算法进化机器人系列深度研究之12证券分析师：洪依真 A0230519060003 施鑫展 A0230519080002 刘洋 A0230513050006王珂A0230521120002 戴文杰A0230522100006 黄忠煌A0230519110001 胡雪飞A0230522120002屠亦婷A023053.9.192模型模型AIAI小结：理解不同参与者的环节小结：理解不同参与者的环节检测跟踪Tracking映射地图Mapping运动预测Motion占用预测Occupancy路径规划（含防碰撞）Planner控制执行尝试视觉+4D成像为主

2、的传感器大模型：谷歌/微软/Tesla/Meta等发力尝试人车互动/人机互动/自动行走局部尝试大模型AI的端对端自动驾驶传感器摄像头视觉激光雷达毫米波雷达超声波雷达传动部件减速器/丝杠/其他等控制器电机伺服/步进/空心杯传感器电流环控制/力矩/被动力控制/视觉GPUDSA(Tesla DOJO为例）ASIC/边缘计算处理器MCU高速连接器高压传感器光芯片定位导航IMU等其他连接器电子和半导体范畴通信范畴大机械范畴大汽车范畴软件互联网AI范畴图例大机器人具身智能大智联汽车3XgVnXgVaXnVnRqMrM7NcM7NsQqQoMoNkPqQwPlOmOrM7NrQoOuOnOtNNZnMqM

3、3大模型大模型AIAI小结：理解不同参与者的环节小结：理解不同参与者的环节检测跟踪Tracking映射地图Mapping运动预测Motion占用预测Occupancy路径规划（含防碰撞）Planner控制执行尝试视觉+4D成像为主的传感器推理+理解：例如谷歌PaLM-E传感器摄像头视觉激光雷达毫米波雷达超声波雷达传动部件减速器/丝杠/其他等控制器电机伺服/步进/空心杯传感器电流环控制/力矩/被动力控制/视觉GPUDSA(Tesla DOJO为例）ASIC/边缘计算处理器MCU高速连接器高压传感器光芯片定位导航IMU等其他连接器电子和半导体范畴通信范畴大机械范畴大汽车范畴软件互联网AI范畴图例大

4、机器人具身智能大智联汽车2020-2022年硬件预埋理解+运动。如UCLA两篇机器人相关论文Design of a Highly Dynamic Humanoid Robot、Development and Real-Time Optimization-based Control of a Full-sized Humanoid for Dynamic Walking and RunningAI端到端（CVPR 2023最佳论文为代表）：局部尝试大模型AI的端对端自动驾驶谷歌/微软/Tesla/Meta等发力，尝试人车互动/人机互动/自动行走2022年机器人硬件AI 视觉的3D化：Nerf/

5、BEV/占用网络AI视觉大模型：脸书：SAM/dinoV2ViT/MAE/Swin视觉+理解+运动：泛化+零样本例如谷歌RT-1/RT-2，例如李飞飞VoxPoser主要内容主要内容1.智能驾驶：端到端的算法新范式2.视觉泛化：大模型带来何种改变3.机器人：从google看算法迭代4.投资机会和标的选择451.11.1 AIAI感知：机器人感知：机器人+驾驶驾驶+具身智能的智能化曾都卡在这里具身智能的智能化曾都卡在这里检测跟踪Tracking映射地图Mapping运动预测Motion占用预测Occupancy路径规划（含防碰撞）Planner检测-激光雷达检测-毫米波雷达检测-摄像头雷达感知算

6、法毫米波雷达感知算法摄像头感知算法原始数据Raw data原始数据Raw data原始数据Raw data识别结果1识别结果2识别结果3融合算法预测&决策算法控制执行控制执行检测-激光雷达检测-毫米波雷达检测-摄像头端到端融合算法原始数据Raw data原始数据Raw data原始数据Raw data数据融合预测&决策算法控制执行检测跟踪预测L1-L2时代，大约2018年以前后融合ADAS算法L2+L3时代多种传感器崛起ADAS域控制器崛起前融合ADAS算法传感器感知算法尝试视觉+4D成像为主的传感器L3-L4时代尝试人车互动局部尝试大模型AI的端对端自动驾驶61.21.2 AIAI感知：以

7、毫末智行为例，中美简单对比感知：以毫末智行为例，中美简单对比表：截至2022中美主要自动驾驶公司全栈AI技术对比公司对比维度特斯拉毫末智行整体战路发展路线大模型、大数据、大算力核心产品智能辅助驾驶发展阶段已经进入3.0阶段的领跑者加速进入3.0阶段的冲刺者大模型发展路线引入Transformer大模型，提升4D时空理解能力数据来源基于自动标注数据基于真实人驾数据算法设计3D占据栅格网络多模态自监督，覆盖感知、认知、自动标注大数据发展路线重感知为主，减少对高精度地图的依赖数据体系建立数据闭环成本控制依靠量产车数据回传和自动标注标注方式人工标注团队+自动标注能力4D自动标注+人工纠偏感知方式纯视觉

8、感知视觉+LIDAR等多模态融合感知大算力发展路线重视算力建设，数据计算中心+车端计算平台车端硬件平台144TOPS车端FSD计算平台高中低计算平台并举，最高算力360TOPS云端计算中心自研云端超算中心Dojo毫末智算中心资料来源：毫末智行、申万宏源研究71.31.3 自动驾驶：大模型自动驾驶：大模型AIAI对感知和标注的改造对感知和标注的改造强化感知：空间-时序维度，多模态数据融合在2021 TESLA AI DAY将引入Transformer进行大规模的无监督学习。2022年后国内公司跟进。特斯拉从安装在汽车周围的八个摄像头的视频中用传统的ResNet提取图像特征，并使用Transfor

9、mer、CNN、3D卷积中的一种或者多种组合完成跨时间的图像融合，实现基于2D图像形成具有3D信息输出。毫末智行的AI团队正在逐步将基于Transformer的感知算法应用到实际的道路感知问题，如车道线检测、障碍物检测、可行驶区域分割、红绿灯检测&识别、道路交通标志检测、点云检测&分割等。数据标注升级：大模型无标注自监督学习先统一所有感知任务的backbone，再使用以无标注数据为主的数据，对大模型进行预训练，使大模型获得能够使用无标注数据训练的能力。这里同样使用了大模型并行计算的能力。资料来源：Tesla AI Day，毫末智行官网，申万宏源研究图：特斯拉的多模态数据融合图：毫末智行MANA

10、基于十亿级未标注数据的自监督学习81.31.3 自动驾驶：大模型的自动驾驶：大模型的BEV transformerBEV transformer重要重要BEV的通俗理解：把不同视角的观察合成一个“天眼模式”整体图，了解全局传统驾驶算法下，时序信息很难与已有3D目标检测融合3D BEV优势：1)将不同视角在 BEV 下统一，方便后续规划控制模块任务；2)BEV 下的物体没有图像视角下的尺度（scale）和遮挡（occlusion）问题；时序信息：自动驾驶感知任务重要，但现阶段基于视觉的 3D 目标检测方法并没有很好的利用；BEVformer：基于Transformer的自动驾驶BEV纯视觉感知B

11、EVFormer的两大核心任务：mutil-camera（多视角相机）和 bird-eye-view（鸟瞰图）BEVBEVFormer利用了Transformer的特征提取能力以及Timestamp结构的时序特征的查询映射能力，在时间维度和空间维度对两个模态的特征信息进行聚合，增强整体感知系统的检测效果。资料来源：nullmax，BEVFormer:Learning Birds-Eye-View Representation from Multi-Camera Images via Spatiotemporal Transformers（中文可翻译为通过时空变换器，从多摄像机图像中学习鸟瞰图表

12、示），申万宏源研究图：使用Transformer进行BEV数据融合相比CNN更加便捷图：BEVFormer 在目标检测和地图分割的视觉结果BEV-CNNBEV-Transformer91.31.3 自动驾驶：自动驾驶：BEV transformerBEV transformerBEV的通俗理解：把不同视角的观察合成一个“天眼模式”整体图，了解全局。Pre-BEV特征提取(如果输入特征提取的是3D信息,得到3D BEV，压缩到2D BEV)。3D坐标离散化到体素空间(高效率）+3D卷积提取特征+3D特征高度压缩变成2D BEV特征；体素稀疏、不规则、3D卷积计算量大，落地困难。Post-BEV特

13、征提取（如果输入特征提取数据是BEV信息）。先将3D的点云转化为BEV表示，然后再使用2D卷积等方式提取BEV特征。资料来源：nullmax，BEVFormer:Learning Birds-Eye-View Representation from Multi-Camera Images via Spatiotemporal Transformers（中文可翻译为通过时空变换器，从多摄像机图像中学习鸟瞰图表示），申万宏源研究图：2D到3D BEV层的转化，包括两维特征提取/视角转化/三维解码图：雷达是点云数据，上半部分点云到三维（提高精度），下半部分把BEV转化到两维（提高效率）图：融合的视角

14、融合图：融合的BEV融合101.4 AI1.4 AI感知：感知：NeRFNeRF（神经辐射场）（神经辐射场）-大模型和自动驾驶的交集大模型和自动驾驶的交集NeRF，即Neural Radiance Fields（神经辐射场)。其通俗理解：给予海量不同视角的二维图，合成同一场景不同视角下的图像。还可以通俗理解为X-Y-Z到三维极坐标的转化，第三视角到第一视角的转化。辐射场：如果我们从一个角度向一个静态空间发射一条射线，我们可以查询到这条射线在空间中每个点（x,y,z）的密度，以及该位置在射线角度(,)下呈现出来的颜色 c（c=(R,G,B)）。即 F(x,y,z,)(R,G,B,)。密度是用来计

15、算权重的，对点上的颜色做加权求和就可以呈现像素颜色。给定F(x,y,z,)直接查表获得RGB值和密度，给体渲染方法。体渲染：对上述辐射场的密度和颜色做积分，就可以得到像素的颜色。遍历所有像素，这个视角下的图像就渲染出来了。资料来源：NeRF:Representing Scenes as Neural Radiance Fields for View Synthesis，申万宏源研究图：从相机焦点出发，往一个像素连出一条射线，获取射穿过空间中每个点的属性，进行积分得到这个像素的颜色训练：用Tensor输入5D数据（三个位置，两个角度）；得到颜色和密度；端到端训练，把原图和训练结果的损失做梯度回传

16、。图：5维输入，输出颜色和密度，并且做端到端的训练111.4 AI1.4 AI感知感知+预测：预测：Occupancy NetworkOccupancy Network占用网络占用网络Occupancy Network的通俗理解：两维的鸟瞰BEV，变为三维的鸟瞰。而增加运动序列预测。2022CVPR放大的占用网络2022 CVPR中，Tesla FSD新负责人 Ashok Elluswamy 推出了Occupancy Network。借鉴了机器人领域常用的思想，基于occupancy grid mapping，是一种简单形式的在线3D重建。将世界划分为一系列网格单元，然后定义哪个单元被占用，哪

17、个单元是空闲的(考虑速度、预测轨迹等）。通过预测3D空间中的占据概率来获得一种简单的3d空间表示。关键词是3D、使用占据概率而非检测、多视角。对BEV鸟瞰图的加强和改进首先是纯视觉+AI+大模型路线，国内更可能用传感器路线；BEV感知：高水平视觉为主的自动驾驶方案的起点；占用网络Occupancy Network：纯视觉自动驾驶技术的里程碑（CVPR 2022）。优势有哪些？泛化，2D变3D,像素变体素2D BEV栅格变成3D栅格，高度方向又增加了一个维度变成了3D栅格；借鉴了NeRF(输出3D栅格特征和栅格流，增加语义输出和速度信息，可以变分辨率聚焦）；体现了泛化，可以识别之前未知物。体现了

18、语义感知，超过雷达。资料来源：Tesla AI day，申万宏源研究图：多摄像头，稀疏雷达，到3D稀疏占用网络、稠密占用网络121.5 1.5 从从AIAI感知，到端到端（感知感知，到端到端（感知+预测预测+规划规划+控制）：控制）：CVPR2023CVPR20231）在Backbone环节特征提取，其中涉及BEV和多模态等大模型技术。将一系列多相机图像输入特征提取器，并将生成的特征通过 BEVFormer 中的现成 BEV 编码器转换为统一鸟瞰图(BEV)特征。UniAD 可利用其他替代方案通过长期时间融合或多模态融合。2）在感知环节目标检测与跟踪模块可以实现对动态元素的特征提取、帧间物体跟

19、踪。MapFormer 将map queries作为道路元素（例如，车道和分隔线）的语义抽象(semantic abstractions)，并对地图进行全景分割。图：自动驾驶大模型尝试多种子任务（目标检测、目标跟踪、场景建图、轨迹预测、栅格预测和路径规划）整合到统一的端到端网络框架资料来源：Yihan Hu等Planning-oriented Autonomous Driving（中文翻译为以路径规划为导向的自动驾驶），CVPR2023，申万宏源研究131.5 AI1.5 AI端到端：端到端：CVPR2023CVPR2023的启发的启发3）预测模块，实现动静态元素交互与长时序轨迹预测，而且已经

20、有“联合训练AI”。由于每个单元的动作都会显着影响场景中的其他，因此该模块对所有考虑的单元进行联合预测。4）在规划模块，基于轨迹预测，做防碰撞，其中涉及占用网络（Occupancy network）等大模型技术。基于自身的轨迹预测和基于占据栅格的碰撞优化并使自己远离 OccFormer 预测的占用区域(occupied regions)以避免碰撞。图：论文指出每个环节的重要指标，且指出“联合训练AI”的作用，例如两个识别子任务大大帮助了运动预测资料来源：Yihan Hu等Planning-oriented Autonomous Driving（中文翻译为以路径规划为导向的自动驾驶），CVPR2

21、023，申万宏源研究主要内容主要内容1.智能驾驶：端到端的算法新范式2.视觉泛化：大模型带来何种改变3.机器人：从google看算法迭代4.投资机会和标的选择14152.1 2.1 大模型能带来视觉底层能力怎样的迭代？大模型能带来视觉底层能力怎样的迭代？大模型+自动驾驶，实际并未使用到视觉泛化能力3D占据栅格网络：主要预测了空间中点被占据的概率，并未识别出三维物体是什么；大模型主要改变了自动驾驶工作范式。然而在机器人工作中，需要识别出具体物体是什么小模型时代，特征提取+梯度下降训练；在特定领域已经非常成熟，如：人脸识别；但是，区分物体是什么有难度，泛化能力欠缺。视觉大模型相对于传统的小型模型，

22、具有以下的优缺点更高的准确性：视觉大模型一般具有千万级别或更多参数，相比小型模型具有更强大的表示能力，因此可以更好地捕捉图像中的细节和特征，从而提高模型的准确性。更强的泛化能力：视觉大模型在训练过程中可以学习到更多的特征，因此具有更好的泛化能力，可以适应更多的场景和数据分布。Few shot/Zero shot下的CV能力：图像分类、语义分割、目标检测、实例分割、物体追踪。最终可能通过跨模态，实现Zero shot。2.2 AI2.2 AI感知的“泛化”理解：感知的“泛化”理解：VITVIT将将TransformerTransformer引入引入CVCV任务任务16在CV领域，为何基于传统CN

23、N+大参数的思路遇到瓶颈？从算子层面看，传统的 CNNs 算子缺乏长距离依赖和自适应空间聚合能力；从结构层面看，传统 CNNs 结构缺乏先进组件。Transformer+CV，提升了视觉模型参数上限2021年后，随着vit、Swin transformer、MAE等论文推出，transformer在CV和跨模态等应用增加。2021年3月，google将尝试将自注意力机制和transformer直接应用在图像领域。基于ViT 和 Swin Transformer 等方法，首次将CV模型扩大到20亿和30亿参数级别。其单模型在 ImageNet 数据集的分类准确率也都突破了 90%，远超传统 CN

24、N 网络和小规模模型，突破了技术瓶颈。Google的Vision Transformer的核心思路资料来源：AN IMAGE IS WORTH 16X16 WORDS:TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE，（中文可翻译为一张图像就像16X16个单词：Transformer架构用在大规模图像识别），申万宏源研究微软的Swin Transformer的核心思路2.3 AI2.3 AI感知的“泛化”理解：感知的“泛化”理解：META SAMMETA SAM17提出Segment Anything(SAM)项目用一个基础大模型，可以实现Zero-sho

25、t下的通用分割能力，基本涵盖了分割的各个子领域。即，CV中某个重要领域的通用模型出现了。零样本（zero-shot）或者简单prompt（比如一个点，下图中绿点、线框，或者一小段文字）下，就对任意图片进行分割。一个用于图像分割的新任务、模型和数据集。1)10亿+掩码：在数据收集循环中使用高效模型，构建了迄今为止(到目前为止)最大的分割数据集，在1100万张授权和尊重隐私的图像上有超过10亿个掩码。2）将发布SAM模型和数据集。数据集(SA-1B)，其中包含1B个掩码和1100万张图像，以促进对计算机视觉基础模型的研究。SAM的任务模型数据综述资料来源：Segment Anything（中文名为

26、分割一切），申万宏源研究通过一个绿点的提示（Prompt）选择分割范围2.4 AI2.4 AI感知的“泛化”理解：感知的“泛化”理解：META dinoV2META dinoV218Dino V2的三个重要功能深度估计、语义分割、目标检索；暂时无法做到实例分割，实例分割=目标检测+语义分割。数据集：1.42亿，没有文字标签，但是图片特征相似模型参数量是 10 亿级，也仍然是视觉Transformer 架构（ViT），但与 DINO 不太一样的是，这次 DINOv2 在数据集上经过了精心挑选。DINOv2 构建了一个数据筛选 pipeline，将内容相似的图片筛选出来，同时排除掉相同的图片。Di

27、no V2视觉任务上的表现橙色dino是自监督方法的效果，深粉色是弱监督方法的效果图像分类：判别图中物体是什么，比如是猫还是狗；语义分割：对图像进行像素级分类，预测每个像素属于的类别；目标检测：寻找图像中的物体并进行定位；实例分割：定位图中每个物体，进行像素级标注，区分不同个体；资料来源：DINOv2:A Self-supervised Vision Transformer Model，申万宏源研究2.5 2.5 什么是泛化？尤其什么是泛化？尤其CVCV视觉和感知方面视觉和感知方面19视觉的Zero-shot一个案例：如何在没有见过斑马的情况下认出斑马？我们期待的通用视觉大模型应做到什么？用同

28、一个模型，完成分割、识别、检测、追踪等各种类型的常见CV任务。可以是单目标，也可以是多目标。同时在Zero-shot、Few-shot下也可以获得较好的效果。视觉zero-shot 示意图资料来源：中国专业IT社区CSDN，申万宏源研究主要内容主要内容1.智能驾驶：端到端的算法新范式2.视觉泛化：大模型带来何种改变3.机器人：从google看算法迭代4.投资机会和标的选择20213.1 3.1 具身智能：大模型增加推理具身智能：大模型增加推理+理解理解+运动控制运动控制Embodied AI（具身AI）主要涉及robotics的感知、规划、控制、导航等上层部分。具身AI不再像传统AI仅从图像、

29、视频、文本等数据库中学习，而是基于自身传感器（多是视觉传感器）感知环境并通过与环境交互进行学习。具身智能所需要的AI能力：基础VQA能力（视觉）、导航和操作能力（跨模态）大语言模型与机器人结合，产生了不错的效果。视觉-操作、视觉-导航任务。具身智能基础AI能力：Visual Question Answering(VQA)，例如，输入一张图片问AI图片中有什么。更进一步的AI能力：视觉语言导航和视觉语言操作这类长时间、连续性的任务。视觉语言导航指通过自然语言让智能体（agent）到环境中的某个位置，视觉语言操作指通过自然语言让智能体进行某些操作（一般是取放物体）。大模型对于具身智能的提升：1、L

30、anguage：通过抽象的自然语言直接对机械智能控制。2、Vision：Zero shot下的CV能力。3、Action：同一底层进行运动控制能力。3.2 AI NLP+3.2 AI NLP+运动控制：谷歌大模型帮助运动控制：谷歌大模型帮助NLPNLP和决策和决策22目的：抽象自然语言到自动完成任务试图将LLM当中的语义知识用在真实世界的决策问题当中；让机器人可以基于人类给定的较为抽象的自然语言去规划具体步骤并且最终完成指定的任务。自动拆解用户任务，相比其他语言模型更好的帮助用户例如：在面对用户的“我的饮料洒了，可以帮忙吗？”这一指令时；GPT3 的回复是“你需要一个吸尘器”，LaMDA 的回

31、复是“需要我帮您找一个吸尘器吗？”。SayCan 的反应则是，将会“1.找到一块抹布，2.拿起抹布，3.将其带给用户，4.完成”。相比其他模型，可以让机器人更好地帮助用户。SayCan模型处理用户自然语言要求资料来源：Do As I Can,Not As I Say:Grounding Language in Robotic Affordances(中文翻译为尽我所能，而非尽我所说：机器人供能的基础语言）,申万宏源研究3.3 AI NLP+3.3 AI NLP+运动控制：谷歌运动控制：谷歌PaLMPaLM-E E 的的ZeroZero-shotshot 跨模态能力跨模态能力23资料来源：PaL

32、M-E:An Embodied Multimodal Language Model,（中文名可翻译为PaLM-E：一个具身智能的多模态语言模型），申万宏源研究数据集中只有3个咖啡杯的训练集数据集中没有乌龟的训练集机械臂对自然语言理解，拆解为n个步骤3.3 AI NLP+3.3 AI NLP+运动控制：谷歌运动控制：谷歌PaLMPaLM-E E 的的ZeroZero-shotshot 跨模态能力跨模态能力24PaLM-E(562 Billion parameters)=PalM(540B)+ViT(Vision Transformer,22B)PaLM-E本身是个多模态的大模型，不仅能理解文本，

33、还能理解图片（因为加了ViT），可以理解图片中的语义信息。Few-shot prompt可以看懂笑话（左上角），zero-shot可以具有图文思维链。资料来源：PaLM-E:An Embodied Multimodal Language Model,（中文名可翻译为PaLM-E：一个具身智能的多模态语言模型），申万宏源研究图像分割、语义分割、目标检测、实例分割四种任务3.4 AI NLP+3.4 AI NLP+运动控制：谷歌帮助具身智能运动控制：谷歌帮助具身智能RTRT-1 125资料来源：RT-1:Robotics Transformer for real-world control at

34、scale（RT1：用于真实世界大规模控制的机器人transformer）,申万宏源研究PaLM-SayCan-RT1 在真实厨房环境中执行长流程任务3.4 AI NLP+3.4 AI NLP+运动控制：谷歌帮助具身智能运动控制：谷歌帮助具身智能RTRT-1 126此前AI+机器控制两大难点1）难点是可扩展和大容量；2）难点是机器人的多任务模型。Robotics Transformer 1(RT-1）一种多任务模型，可以 tokenize 机器人的输入和输出动作，从而在运行时实现高效推理，使实时控制成为可能。图像、动作 tokenization。Token 压缩。RT-1 的高性能和泛化能力可

35、以通过 SayCan 实现远距离、移动操作任务。资料来源：RT-1:Robotics Transformer for real-world control at scale（RT1：用于真实世界大规模控制的机器人transformer）,申万宏源研究RT-1的核心思路RT-1相比原模任务成功率提升3.5 AI NLP+3.5 AI NLP+运动控制：谷歌帮助具身智能运动控制：谷歌帮助具身智能RTRT-2 227包含数学逻辑推理的命令，“将香蕉放到2+1的总和的位置”资料来源：RT-2:Vision-Language-Action Models（RT2：视觉-语言-动作模型）,申万宏源研究视觉推

36、理，像是“将草莓放进正确的碗中”多语言+推理理解，用西班牙语命令它“从一堆物品中挑出最与众不同的那个”泛化能力体现在物品、背景、环境都是未见的3.5 AI NLP+3.5 AI NLP+运动控制：谷歌帮助具身智能运动控制：谷歌帮助具身智能RTRT-2 228三大能力符号理解（Symbol understanding）、推理（Reasoning）和人类识别（Human recognition）增加互联网学习能力，利于扩展将基于互联网规模数据训练的视觉语言模型直接纳入端到端机器人控制中。这利于解释机器人训练数据中不存在的命令的能力，以及响应用户命令执行基本推理的能力。VLA增加有效率的“泛化“能力

37、为了将自然语言响应和机器人动作都适应相同的格式，将动作表示为文本标记，并以与自然语言标记相同的方式将其直接合并到模型的训练集中。视觉语言动作模型（VLA）相比李飞飞定义的VLM，VLA更强调动作action。强调了动作微调为了使视觉语言模型能够控制机器人，必须训练它们输出动作。RT-2将动作表示为模型输出中的标记（类似语言标记）。动作空间主要包括机器人末端执行器的六自由度（6DoF）位置和旋转位移。用同一个transformer提取文字和图像信息资料来源：RT-2:Vision-Language-Action Models（RT2：视觉-语言-动作模型）,申万宏源研究RT-2涌现成功率提升主要

38、内容主要内容1.智能驾驶：端到端的算法新范式2.视觉泛化：大模型带来何种改变3.机器人：从google看算法迭代4.投资机会和标的选择29304.1 4.1 标的：原本对应几大未来趋势标的：原本对应几大未来趋势计算机：德赛西威、中科创达，关注经纬恒润德赛西威：a通过压力测试/b国产芯/d出海+c预计尝试大模型+管理治理Alpha中科创达：c大模型/d出海+b预计国产芯经纬恒润：a渗透率提升通过压力测试+b国产芯汽车&机械：精锻科技、双环传动（机械&汽车）、保隆科技、华阳集团、继峰股份、爱柯迪精锻科技：c大模型（机器人产业能力外溢）双环传动：c大模型（机器人产业能力外溢）+管理治理Alpha保隆

39、科技+华阳集团+继峰股份：a压力测试下渗透率提升爱柯迪：d出海电子：裕太微、北京君正、国芯科技、瑞芯微裕太微+北京君正+国芯科技+瑞芯微：a国产模拟/存储/MCU尝试渗透率提升通过压力测试+b国产芯通信：华测导航、维峰电子、电连技术、瑞可达、永贵电器、鼎通科技华测导航：a压力测试下有knowhow+管理治理Alpha电连技术（高频高速稀缺+消费电子复苏）+华测导航（业绩稳健且确定性强）+瑞可达（高压+高频高速+机器人可能突破）+永贵电器（高压+充电枪连接器）+维峰电子（高毛利率、机器人可能突破）+鼎通科技（光通信+汽车高压）：a尝试渗透率提升通过压力测试a通过压力测试b 国产芯c 大模型d出海

40、节流开源314.1 4.1 考虑弹性标的考虑弹性标的标的：计算机：德赛西威、萤石网络（2C机器人+工程化+治理）、虹软科技（bev和占用网络分为软BEV到硬件一体化BEV五个阶段，目前虹软在第4阶段，汽车大模型又深又早）、中科创达、经纬恒润，弹性标的为豪恩汽电（新股,汽车&tmt，可能是小德赛西威）、光庭(类似中科创达）德赛西威：a通过压力测试/b国产芯/d出海+c预计尝试大模型+管理治理Alpha虹软科技：c大模型（BEV已经很深，算法底层能力强）/d出海萤石网络：a通过压力测试/c大模型/d出海中科创达：c大模型/d出海+b预计国产芯经纬恒润：a渗透率提升通过压力测试+b国产芯汽车&机械：

41、柏楚电子（机械，壁垒+AI软件+机器人+优秀的波特五力格局）、双环传动（机械&汽车）、伯特利、华阳集团、保隆科技、弹性为精锻科技、浙江世宝、（预计域控制器突破）精锻科技：c大模型（机器人产业能力外溢）双环传动：c大模型（机器人产业能力外溢）+管理治理Alpha保隆科技+华阳集团+继峰股份：a压力测试下渗透率提升电子：立讯精密，裕太微、北京君正、国芯科技、瑞芯微，弹性为联创电子、腾景科技、炬光科技、奥比中光、长光华芯裕太微+北京君正+国芯科技+瑞芯微：a国产模拟/存储/MCU尝试渗透率提升通过压力测试+b国产芯通信：华测导航、维峰电子、电连技术、瑞可达、永贵电器、鼎通科技华测导航：a压力测试下有

42、knowhow+管理治理Alpha电连技术（高频高速稀缺+消费电子复苏）+华测导航（业绩稳健且确定性强）+瑞可达（高压+高频高速+机器人可能突破）+永贵电器（高压+充电枪连接器）+维峰电子（高毛利率、机器人可能突破）+鼎通科技（光通信+汽车高压）：a尝试渗透率提升通过压力测试324.2 4.2 估值表与风险估值表与风险风险：1）智联汽车的竞争和外部政策，有时候会带来波动。2）毕竟行业仍然面临价格变化的可能，公司的相对竞争优势需要跟踪。3）国产方案推广后，对行业价格和竞争格局的跟踪需要持续性。表:机器人和自动驾驶重点公司估值表证券代码公司名称2023/9/18Wind一致预期归母净利润（亿元）P

43、EPB(LF)总市值2022A2023E2024E2025E2022A2023E2024E2025E（亿元）002920.SZ德赛西威77711.8415.4021.4828.206650362811.31688088.SH虹软科技1420.581.482.172.972469665485.40688475.SH萤石网络2713.335.427.269.63815037285.48300496.SZ中科创达3567.698.9711.8215.93464030223.79688326.SH经纬恒润-W1762.352.513.725.31757047333.43300258.SZ精锻科技712

44、.472.883.604.53292520162.07002472.SZ双环传动2795.827.9810.5113.48483527213.76603197.SH保隆科技1252.144.025.447.05583123184.70002906.SZ华阳集团1663.804.996.848.98443324192.93603997.SH继峰股份165-14.173.277.3111.75-5023144.17600933.SH爱柯迪2176.498.3310.8014.04332620153.82688515.SH裕太微-U980.00-0.280.270.90-3661085.193002

45、23.SZ北京君正3587.898.1311.1614..09688262.SH国芯科技990.771.773.184.751295631213.77603893.SH瑞芯微2612.973.365.367.49887849359.38300627.SZ华测导航1603.614.716.168.04443426205.91301328.SZ维峰电子561.121.722.343.09503324183.01300679.SZ电连技术1454.433.735.316.78333927213.43688800.SH瑞可达632.532.894.205.85252215113.

46、30资料来源：Wind、申万宏源研究33信息披露证券分析师承诺本报告署名分析师具有中国证券业协会授予的证券投资咨询执业资格并注册为证券分析师，以勤勉的职业态度、专业审慎的研究方法，使用合法合规的信息，独立、客观地出具本报告,并对本报告的内容和观点负责。本人不曾因，不因，也将不会因本报告中的具体推荐意见或观点而直接或间接收到任何形式的补偿。与公司有关的信息披露本公司隶属于申万宏源证券有限公司。本公司经中国证券监督管理委员会核准，取得证券投资咨询业务许可。本公司关联机构在法律许可情况下可能持有或交易本报告提到的投资标的，还可能为或争取为这些标的提供投资银行服务。本公司在知晓范围内依法合规地履行披露

47、义务。客户可通过索取有关披露资料或登录信息披露栏目查询从业人员资质情况、静默期安排及其他有关的信息披露。机构销售团队联系人华东A组茅炯021-华东B组李庆华北组肖霞华南组李昇A股投资评级说明证券的投资评级：以报告日后的6个月内，证券相对于市场基准指数的涨跌幅为标准，定义如下：买入（Buy）：相对强于市场表现20以上；增持（Outperform）：相对强于市场表现520；中性(Neutral)：相对市场表现在55之间波动；减持(Underperform)：相对弱于市场表现5以下。行业的投资评级：以报告日后的6个月内，行业相对于市场基准指数的涨跌幅为标准，定义如下：看好（Overweight）：行

48、业超越整体市场表现；中性(Neutral)：行业与整体市场表现基本持平；看淡(Underweight)：行业弱于整体市场表现。本报告采用的基准指数：沪深300指数港股投资评级说明证券的投资评级：以报告日后的6个月内，证券相对于市场基准指数的涨跌幅为标准，定义如下：买入（BUY）：股价预计将上涨20%以上；增持（Outperform）：股价预计将上涨10-20%；持有（Hold）：股价变动幅度预计在-10%和+10%之间；减持（Underperform）：股价预计将下跌10-20%；卖出（SELL）：股价预计将下跌20%以上。行业的投资评级：以报告日后的6个月内，行业相对于市场基准指数的涨跌幅为

49、标准，定义如下：看好（Overweight）：行业超越整体市场表现；中性(Neutral)：行业与整体市场表现基本持平；看淡（Underweight）：行业弱于整体市场表现。本报告采用的基准指数：恒生中国企业指数（HSCEI）我们在此提醒您，不同证券研究机构采用不同的评级术语及评级标准。我们采用的是相对评级体系，表示投资的相对比重建议；投资者买入或者卖出证券的决定取决于个人的实际情况，比如当前的持仓结构以及其他需要考虑的因素。投资者应阅读整篇报告，以获取比较完整的观点与信息，不应仅仅依靠投资评级来推断结论。申银万国使用自己的行业分类体系，如果您对我们的行业分类有兴趣，可以向我们的销售员索取。3

50、4法律声明本报告由上海申银万国证券研究所有限公司（隶属于申万宏源证券有限公司，以下简称“本公司”）在中华人民共和国内地（香港、澳门、台湾除外）发布，仅供本公司的客户（包括合格的境外机构投资者等合法合规的客户）使用。本公司不会因接收人收到本报告而视其为客户。有关本报告的短信提示、电话推荐等只是研究观点的简要沟通，需以本公司http:/网站刊载的完整报告为准，本公司并接受客户的后续问询。本报告是基于已公开信息撰写，但本公司不保证该等信息的准确性或完整性。本报告所载的资料、工具、意见及推测只提供给客户作参考之用，并非作为或被视为出售或购买证券或其他投资标的的邀请或向人作出邀请。本报告所载的资料、意见

51、及推测仅反映本公司于发布本报告当日的判断，本报告所指的证券或投资标的的价格、价值及投资收入可能会波动。在不同时期，本公司可发出与本报告所载资料、意见及推测不一致的报告。客户应当考虑到本公司可能存在可能影响本报告客观性的利益冲突，不应视本报告为作出投资决策的惟一因素。客户应自主作出投资决策并自行承担投资风险。本公司特别提示,本公司不会与任何客户以任何形式分享证券投资收益或分担证券投资损失，任何形式的分享证券投资收益或者分担证券投资损失的书面或口头承诺均为无效。本报告中所指的投资及服务可能不适合个别客户，不构成客户私人咨询建议。本公司未确保本报告充分考虑到个别客户特殊的投资目标、财务状况或需要。本

52、公司建议客户应考虑本报告的任何意见或建议是否符合其特定状况，以及（若有必要）咨询独立投资顾问。在任何情况下，本报告中的信息或所表述的意见并不构成对任何人的投资建议。在任何情况下，本公司不对任何人因使用本报告中的任何内容所引致的任何损失负任何责任。市场有风险，投资需谨慎。若本报告的接收人非本公司的客户，应在基于本报告作出任何投资决定或就本报告要求任何解释前咨询独立投资顾问。本报告的版权归本公司所有，属于非公开资料。本公司对本报告保留一切权利。除非另有书面显示，否则本报告中的所有材料的版权均属本公司。未经本公司事先书面授权，本报告的任何部分均不得以任何方式制作任何形式的拷贝、复印件或复制品，或再次分发给任何其他人，或以任何侵犯本公司版权的其他方式使用。所有本报告中使用的商标、服务标记及标记均为本公司的商标、服务标记及标记，未获本公司同意，任何人均无权在任何情况下使用他们。简单金融成就梦想A Virtue of Simple Finance35上海申银万国证券研究所有限公司(隶属于申万宏源证券有限公司）

友情提示

1、下载报告失败解决办法
2、PDF文件下载后，可能会被浏览器默认打开，此种情况可以点击浏览器菜单，保存网页到桌面，就可以正常下载了。
3、本站不支持迅雷下载，请使用电脑自带的IE浏览器，或者360浏览器、谷歌浏览器下载即可。
4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩，下载后原文更清晰。

本文（机器人行业系列深度研究之12：大模型迭代智能驾驶、机器人算法进化-230919（35页）.pdf）为本站（散文诗）主动上传，三个皮匠报告文库仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对上载内容本身不做任何修改或编辑。若此文所含内容侵犯了您的版权或隐私，请立即通知三个皮匠报告文库（点击联系客服），我们立即给予删除！

温馨提示：如果因为网速或其他原因下载失败请重新下载，重复下载不扣分。