常平喝茶微信(喝茶文化在常平：探索一个深厚的茶文化背后的故事)

《机械设备行业：机器人如何进行复杂操作和自主移动-240121（21页）.pdf》由会员分享，可在线阅读，更多相关《机械设备行业：机器人如何进行复杂操作和自主移动-240121（21页）.pdf（21页珍藏版）》请在三个皮匠报告上搜索。

1、证券研究报告：机械设备|深度报告 2024 年 1 月 21 日市场有风险，投资需谨慎请务必阅读正文之后的免责条款部分行业投资评级行业投资评级强于大市强于大市|维持维持行业基本情况行业基本情况收盘点位 1301.16 52 周最高 1606.0 52 周最低 1301.16 行业相对指数表现行业相对指数表现（相对值）（相对值）资料来源：聚源，中邮证券研究所研究所研究所分析师:刘卓 SAC 登记编号:S01 Email: 研究助理:傅昌鑫 SAC 登记编号:S06 Email: 近期研究报告近期研究报告挖掘机专题：国内市场静待回暖，国

2、际化持续推进-2024.01.14 机器人如何进行复杂操作和自主移动机器人如何进行复杂操作和自主移动投资要点投资要点 20242024 年年 1 1 月，斯坦福大学团队在社交媒体上发布了与谷歌月，斯坦福大学团队在社交媒体上发布了与谷歌DeepMindDeepMind 团队合作研发的能炒菜、能做家务的双臂机器人团队合作研发的能炒菜、能做家务的双臂机器人 Mobile Mobile ALOHAALOHA。时隔不久，特斯拉也发布了关于机器人执行折叠衣物等复杂。时隔不久，特斯拉也发布了关于机器人执行折叠衣物等复杂操作的演示视频，这些事件引发了人们对于人形通用机器人时代的遐操作的演示视频，这些事件引发

3、了人们对于人形通用机器人时代的遐想。想。Mobile ALOHA 依托系统收集的数据，通过人类示教动作学习模仿操作技巧与身体控制。其硬件配置并不高，整套价格仅需 3.2 万美元，且解决方案为开源。上述成本和配置就能打造出在家庭环境下能够实现诸多功能的 Mobile ALOHA，其关键在于机器人的运动控制及交互，和自主移动两方面。目前人形机器人表现出的决策执行能力已经逐步向过往的设想靠拢，今年或将成为人形机器人应用的元年，下文中将讨论机器人是怎样完成复杂操作及自主移动的。机器人如何进行复杂操作？多种机器人如何进行复杂操作？多种 AIAI 训练路径实现运动控制及环训练路径实现运动控制及环境交互。境

4、交互。ChatGPT 引起浪潮后，以谷歌 PaLM-E 为代表的多模态具身VLM 不断面世，人形机器人领域也出现了许多不同的 AI 训练方法。目前比较主流的五种 AI 训练思路：虚拟仿真、动作捕捉或遥操作、模仿学习、VLM+小模型和 VLA。每种方式都有其优劣之处，各家公司会通过尝试及融合多种训练方式，以寻找最为适合的 AI 路径。虚拟仿真指在虚拟环境中构建智能体并进行强化学习算法训练，代表为英伟达的 VIMA；动捕或遥操作指将真人动作通过传感器等设备精准复制给机器人，机器人接收并收集训练信息从而学会技能，代表为特斯拉等人形厂商；模仿学习指机器人通过观察人类现场演示或端到端学习人类示教视频，理

5、解行动中的底层逻辑，进而复现人类演示的技能，代表为斯坦福 MimicPlay；VLM+小模型是由 VLM 大模型负责高层规划，小模型做低层运动控制，代表为谷歌 PaLM-E 和 MetaImage Bind；VLA是从 VLM 中演化出来的，直接输出运动控制指令，构成感知-决策-动作的闭环过程，代表为谷歌 DeepMind RT-2。机器人如何实现自主移动？机器人如何实现自主移动？SLAMSLAM 技术应用推进技术应用推进其其发展。发展。SLAM 是实现机器人自主导航和后续交互的关键技术之一，是以定位和建图两大技术为目标的算法。根据传感器的不同，机器人用的 SLAM 算法可以分为二维激光 SL

6、AM、三维激光 SLAM 以及视觉 SLAM。不同的 SLAM算法，实现的具体细节会有所不同，一般通用架构会包含数据预处理、前端、后端、闭环检测、地图构建等。不同方案的 SLAM 均有其应用空间，三维激光、视觉 SLAM 更适合于人形机器人应用场景。国内多家人形机器人厂商已经在自主移动领域应用了 SLAM 技术，未来随着移动机器人、自动驾驶等领域 SLAM 技术的迁移，应用范围将更为广阔。风险提示：风险提示：-23%-20%-17%-14%-11%-8%-5%-2%1%4%---01机械设备沪深300 请务必阅读正文之后

7、的免责条款部分 2 人形机器人下游发展不及预期风险；算法及算力更新迭代不及预期风险；机器人自主移动技术竞争加剧风险；技术落地不达预期风险。8YNAyWiUjYeYrU9PdN7NpNmMtRrNiNqQrQkPmOmP9PoPpMvPpOvMxNmNtR 请务必阅读正文之后的免责条款部分 3 目录 1 1 斯坦福推出擅长家务的斯坦福推出擅长家务的 Mobile ALOHAMobile ALOHA，特斯拉，特斯拉 OptimusOptimus 能叠衣服能叠衣服 .5 5 2 2 机器人如何进行复杂操作：多种机器人如何进行复杂操作：多种 AIAI 训练路径实现运动控制及环境交互训练路径实现运动控制

8、及环境交互 .8 8 2.1 2.1 虚拟仿真（虚拟仿真（Sim2RealSim2Real）.8 8 2.2 2.2 动作捕捉或遥操作（动作捕捉或遥操作（TeleTele-operationoperation）.9 9 2.3 2.3 模仿学习（模仿学习（Mimic PlayMimic Play）.1010 2.4 VLM2.4 VLM（Vision Language ModelsVision Language Models）+小模型小模型 .1212 2.5 VLA2.5 VLA（Vision Language ActionVision Language Action）.1313 3 3 机

9、器人如何实现自主移动：机器人如何实现自主移动：SLAMSLAM 技术的应用技术的应用 .1414 4 4 风险提示风险提示 .1818 请务必阅读正文之后的免责条款部分 4 图表目录图表目录图表图表 1 1：Mobile ALOHAMobile ALOHA 自主控制炒虾仁自主控制炒虾仁 .5 5 图表图表 2 2：研发人员遥操作研发人员遥操作 Mobile ALOHAMobile ALOHA 训练并掌握技能训练并掌握技能 .6 6 图表图表 3 3：Mobile ALOHAMobile ALOHA 机器人硬件情况机器人硬件情况 .6 6 图表图表 4 4：特斯拉人形机器人特斯拉人形机器人 O

10、ptimusOptimus 叠衣服叠衣服 .7 7 图表图表 5 5：主流主流 AIAI 训练思路优劣对比及代表团队训练思路优劣对比及代表团队 .8 8 图表图表 6 6：VIMAVIMA 接收多模态接收多模态 promptsprompts 并执行指定任务并执行指定任务 .9 9 图表图表 7 7：OptimusOptimus 工程人员穿戴设备为工程人员穿戴设备为 AIAI 训练做演示训练做演示 .1010 图表图表 8 8：基于基于 MimicPlayMimicPlay 框架的模仿学习的三阶段框架的模仿学习的三阶段 .1111 图表图表 9 9：通过模仿学习后机器人执行任务的成功率显著提升通

11、过模仿学习后机器人执行任务的成功率显著提升 .1111 图表图表 1010：Figure01Figure01 操作咖啡机（左）及自我纠错（右）操作咖啡机（左）及自我纠错（右）.1212 图表图表 1111：PaLMPaLM-E E 为机器人决策并抵抗任务期间的干扰为机器人决策并抵抗任务期间的干扰 .1313 图表图表 1212：VLMVLM 从网络和从网络和 RTRT-1 1 机器人数据中学习从而演化成新的机器人数据中学习从而演化成新的 VLAVLA .1414 图表图表 1313：VLAVLA 模型控制机器人抓取灭绝动物模型控制机器人抓取灭绝动物 .1414 图表图表 1414：涌现能力成功

12、率对比涌现能力成功率对比 .1414 图表图表 1515：SLAMSLAM 与构成自主移动导航的各领域关系图与构成自主移动导航的各领域关系图 .1515 图表图表 1616：SLAMSLAM 根据传感器不同的分类情况根据传感器不同的分类情况 .1616 图表图表 1717：6 6 种代表性种代表性 SLAMSLAM 算法的综合比较算法的综合比较 .1717 图表图表 1818：20222022-2029E2029E 全球全球 SLAMSLAM 市场规模（亿美元）市场规模（亿美元）.1717 图表图表 1919：SLAMSLAM 技术的其他应用场景及国内代表公司技术的其他应用场景及国内代表公司

13、.1818 请务必阅读正文之后的免责条款部分 5 1 1 斯坦福斯坦福推出推出擅长家务的擅长家务的 M Mobile ALOHAobile ALOHA，特斯拉，特斯拉 OptimusOptimus 能能叠衣服叠衣服 20242024 年首周，斯坦福大学团队在社交媒体上发布了与谷歌年首周，斯坦福大学团队在社交媒体上发布了与谷歌 DeepMindDeepMind 团队合团队合作研发的能炒菜、能做家务的双臂机器人作研发的能炒菜、能做家务的双臂机器人 MobileMobile ALOHAALOHA，引发了人们对于人形，引发了人们对于人形通用机器人时代的遐想。通用机器人时代的遐想。图表图表1 1：Mob

14、ileMobile ALOHAALOHA 自主控制炒虾仁自主控制炒虾仁资料来源：斯坦福 Mobile ALOHA 项目开源网页，中邮证券研究所斯坦福大学团队斯坦福大学团队重心在于机器人通过人类示教动作学习模仿操作技巧与身重心在于机器人通过人类示教动作学习模仿操作技巧与身体控制体控制，即依托，即依托 MobileMobile ALOHAALOHA 系统收集的数据进行模拟学习的训练系统收集的数据进行模拟学习的训练。其论文中对于 Mobile ALOHA 的定义是一种用于收集双臂运动数据的低成本全身遥操作系统。在视频演示中，Mobile ALOHA 迅速且流畅地完成了包括炒虾、清理桌面、水洗盘子

15、、整理桌椅等多个非标准化的动作。根据项目团队的描述，为了实现相关功能，实验人员会首先操作机器人对每个任务的流程进行 50 次学习。经过协同训练后的机器人在自主完成炒虾、存放锅具、呼叫电梯等复杂移动和操作任务时成功率可以达到 90%。同时，团队还设计了远程操作系统，让用户可以通过远程控制的方式控制机器人作业。请务必阅读正文之后的免责条款部分 6 图表图表2 2：研发人员遥操作研发人员遥操作 MobileMobile ALOHAALOHA 训练训练并并掌握技能掌握技能资料来源：Mobile ALOHA:Learning Bimanual Mobile Manipulation with Low-

16、Cost Whole-Body Teleoperation（Zipeng Fu et al.），中邮证券研究所 M Mobileobile ALOHAALOHA 的硬件配置并不高，整套价格仅需的硬件配置并不高，整套价格仅需 3 3.2.2 万美元，且解决方案万美元，且解决方案为开源。为开源。机器人的整套系统主要由以下几个部分组成：移动底座一台 AgileX Tracer AGV 运动系统两个 Viperx 300 6dof 机械臂视觉系统3 个 480640 分辨率、50Hz 的罗技 C922x RGB 摄像头控制系统一台配备 Nvidia 3070 Ti GPU（8GB VRAM）和 I

17、ntel i7-12800H的消费级笔记本电脑供电系统1.26kWh、重 14kg 的电池作为一种轻型机器人，Mobile ALOHA 全重只有 75kg，在 1.5m 的高度可以施加 100N 的拉力，移动速度可达 1.6m/s，类似于人类的平均步行速度，最多可承重 100kg，最长工作 12h。图表图表3 3：MobileMobile ALOHAALOHA 机器人硬件情况机器人硬件情况资料来源：Mobile ALOHA:Learning Bimanual Mobile Manipulation with Low-Cost Whole-Body Teleoperation（Zipeng

18、 Fu et al.），中邮证券研究所请务必阅读正文之后的免责条款部分 7 上述成本和配置就能打造出在家庭环境下能够实现诸多功能的上述成本和配置就能打造出在家庭环境下能够实现诸多功能的 MobileMobile ALOHAALOHA，其关键在于机器人的运动控制及交互，和自主移动两方面。，其关键在于机器人的运动控制及交互，和自主移动两方面。机械手臂的运动控制及同作业环境的交互，是该项目的技术含量所在。同现阶段通过强化学习、大模型等驱动机器人自主认知环境、执行任务不同，Mobile ALOHA 采用的是更为直接的“模仿学习”，通过人类示范教学，机器人学习并模仿人类行为，从而构成机器人的行为逻辑；

19、机器人的自主移动能力在 Mobile ALOHA 中主要体现在作为移动底座的 AGV 机器人上，该 AGV 机器人配备了一整套传感器，以支持室内 SLAM、导航和基于视觉的应用，实现在定位导航、路径规划方面的能力。时隔不久，特斯拉也发布了关于机器人执行复杂操作的演示视频。时隔不久，特斯拉也发布了关于机器人执行复杂操作的演示视频。1 月 16日，特斯拉 CEO 埃隆马斯克在社交媒体 X 上发布了公司人形机器人 Optimus 叠衣服的演示视频，视频中 Optimus 展示出的操作速度虽然缓慢但十分自然，流畅度令人印象深刻。尽管之后马斯克表示视频中的 Optimus 并非完全自主行动，但该视频仍在

20、互联网上引发热议。目前特斯拉通过远程控制机器人完成越来越复杂的任务，一方面是为了验证现阶段硬件能否灵活完成各项任务，另一方面是为了收集端到端神经网络所需的训练数据，从而让未来的机器人能够自行完成任务。马斯克也表示，未来 Optimus 势必可以在更任意的环境中完全自主执行复杂的任务。图表图表4 4：特斯拉人形机器人特斯拉人形机器人 OptimusOptimus 叠衣服叠衣服资料来源：网易，中邮证券研究所从斯坦福 Mobile ALOHA、特斯拉 Optimus 等人形机器人产品的新进展中，可以看到人形机器人已经能够完成一定程度的复杂任务，以及在特定环境下自主移动。同时，1 月初谷歌 Dee

21、pMind 发布了三项大模型新成果 AutoRT、SARA-RT 和RT-Trajectory 的引入，助力现实世界机器人数据收集、速度及泛化。近期的事近期的事件引发了市场对于人形机器人智能进步的关注件引发了市场对于人形机器人智能进步的关注，目前人形机器人表现出的决策执，目前人形机器人表现出的决策执行能力已经逐步向过往的设想靠拢，今年或将成为人形机器人应用的元年行能力已经逐步向过往的设想靠拢，今年或将成为人形机器人应用的元年，下文中将讨论机器人是怎样完成复杂操作及自主移动的。请务必阅读正文之后的免责条款部分 8 2 2 机器人如何进行复杂操作：多种机器人如何进行复杂操作：多种 A AI I 训

22、练训练路径实现运动控路径实现运动控制及制及环境环境交互交互 ChatGPTChatGPT 引起浪潮后，以谷歌引起浪潮后，以谷歌 P PaLMaLM-E E 为代表的多模态具身为代表的多模态具身 V VLMLM 不断面世，不断面世，人形机器人领域也出现了许多不同的人形机器人领域也出现了许多不同的 A AI I 训练方法。训练方法。通过对机器人进行 AI 训练，提升其“大脑”水平，从而使得机器人能够正确的执行动作及与环境中的被操作对象交互。大致总结下目前比较主流的五种 AI 训练思路：虚拟仿真、动作捕捉或遥操作、模仿学习、VLM+小模型和 VLA。每种方式都有其优劣之处，最终哪种每种方式都有其优劣

23、之处，最终哪种训练方式会成为主流目前不得而知，各家公司可能会通过尝试及融合多种训练方训练方式会成为主流目前不得而知，各家公司可能会通过尝试及融合多种训练方式，以寻找最为适合的式，以寻找最为适合的 A AI I 训练训练路径。路径。图表图表5 5：主流主流 A AI I 训练思路优劣对比及代表团队训练思路优劣对比及代表团队优势优势劣势劣势代表团队代表团队虚拟仿真虚拟仿真训练成本相对较低仿真数据与现实情况偏差较大英伟达动作捕捉动作捕捉/遥操作遥操作过程直接有效，适合实际应用场景，与人形机器人匹配度高数据采集成本高，且核心依赖真人特斯拉等多家人形机器人厂商模仿学习模仿学习可

24、泛化性强，省略繁琐编程科研场景居多，泛化后可靠性存疑斯坦福大学、卡内基梅隆大学、Figure VLMVLM 可以执行复杂指令而无需重新训练，且能形成细分场景数据壁垒决策端和执行端割裂带来的时滞，小模型数据获取难度大谷歌、Meta VLAVLA 感知-决策-动作闭环，避免了复杂的信息转换大模型实时性较差，执行成功率有待提升谷歌 DeepMind 资料来源：中邮证券研究所 2.1 2.1 虚拟仿真（虚拟仿真（SimSim2R2Realeal）虚拟仿真（虚拟仿真（S Sim2Realim2Real），全称全称 Simulation to RealitySimulation to Real

25、ity，是是指在虚拟环境中指在虚拟环境中构建一个智能体并进行强化学习算法的训练，对于构建一个智能体并进行强化学习算法的训练，对于 A AI I 的训练是基于虚拟环境的的训练是基于虚拟环境的结果。结果。其为强化学习的一个分支，同时也属于 transfer learning 的一种，其主要解决的问题是在机器人领域中，直接让机器人或者机械臂在现实环境中与环境进行交互、采样时，会出现以下两个比较严重的问题：一是采样效率太低。一是采样效率太低。在应用强化学习算法解决机器人相关问题时，所需要的样本量一般会达到上千万，现实环境中采集如此数量级的样本要耗费几个月甚至更长的时间；二是安全问题。二是安全问题。由于

26、强化学习需要通过智能体在环境中进行大范围的随机采样来进行试错，因而在某些时刻其做出的行为可能会损伤机器人自身（例如手臂请务必阅读正文之后的免责条款部分 9 转动角度过大或者避障任务中由于碰撞造成的不可逆损伤等）或者周围的环境及生物。在模拟器中进行强化学习算法的训练在模拟器中进行强化学习算法的训练能够解决能够解决上述上述问题问题，但但同时会同时会引引出出一个一个新的新的问题问题（RealityReality G Gapap）。由于模拟器对于物理环境的建模都是存在误差的，因而在模拟环境中学习到的最优策略无法直接在现实环境中应用。此路径中的典型例子为多模态具身此路径中的典型例子为多模态具身 A A

27、I I 系统系统 V VIMAIMA。VIMA 诞生于 2022 年 10月，是一个基于 Transformer 架构的仿真机器人智能体，由来自英伟达、斯坦福大学、加州理工学院等多方的研究者们合作完成。VIMA 智能体能够接受提示（Prompt）输入，且输入可以是文本、图像、视频等多模态混合，然后输出动作并完成指定任务。不过仿真环境下的被操作对象非常清晰，无法保证真实环境中的成功率。图表图表6 6：V VIMAIMA 接收多模态接收多模态 promptsprompts 并执行指定任务并执行指定任务资料来源：VIMA 项目开源网页，中邮证券研究所此外，也有针对如灵巧手等的虚拟仿真训练。此外，

28、也有针对如灵巧手等的虚拟仿真训练。北京大学王鹤课题组与北京通用人工智能研究院合作改进了现有灵巧机械手抓取物体的合成方法，提供了一套高效的程序框架用以合成多样、稳定的抓取姿势数据。通过该框架，团队为ShadowHand 生成了大规模仿真数据集 DexGraspNet，包含 133 类 5355 个物体的132 万抓取数据，在数量和质量上优于现有灵巧机械手抓取数据集。2.2 2.2 动作捕捉或遥操作（动作捕捉或遥操作（TeleTele-operationoperation）请务必阅读正文之后的免责条款部分 10 动作捕捉动作捕捉或遥操作是指或遥操作是指将将真人真人执行执行指令指令的动作的动作通过传

29、感器通过传感器等设备等设备精准精准复制复制给机器人，给机器人，输入输入的信息和行动准确的信息和行动准确且且有有针对性，机器人针对性，机器人接收并接收并同步同步收集训练信息，收集训练信息，从而从而学会技能学会技能，其，其训练需要训练需要依靠依靠真人重复真人重复操作。操作。不论动作捕捉或是遥操作，均是通过专用设备将人类的动作直接迁移到机器不论动作捕捉或是遥操作，均是通过专用设备将人类的动作直接迁移到机器人身上人身上，再由机器人通过传感器收集数据，以达到输入的目的，再由机器人通过传感器收集数据，以达到输入的目的。遥操作在科研技术层面并不是一个十分有潜力的路径，但考虑到机器人更多属于工程应用层面的创新

30、，所以动捕或遥操作在实际应用中较为直接有效，能够解决现实场景的刚需，尤其适合人形机器人使用。除开除开前文中提到前文中提到 MobileMobile ALOHAALOHA 有配置有配置遥操作遥操作的途径的途径，特斯拉等多家机器人，特斯拉等多家机器人厂商都有使用过动捕或遥操作的厂商都有使用过动捕或遥操作的训练训练路径。路径。特斯拉在 2023 年股东大会上展示了Optimus 的进展，视频中工程人员穿戴设备进行演示，可以看到人类抓取木品的动作被 AI 算法精准识别并复制到机器人身上。图表图表7 7：OptimusOptimus 工程人员穿戴设备为工程人员穿戴设备为 A AI I 训练做演示训练做演

31、示资料来源：集微网，中邮证券研究所遥操作相比其他训练路径更为直接有效，且能够解决工业、极端危险等应用遥操作相比其他训练路径更为直接有效，且能够解决工业、极端危险等应用场景的刚需。场景的刚需。比如太空探索、深海检测、核电站维护等。不仅如此，腾讯 Robotics X 在四足机器人领域也有基于真狗的动捕思路。2.3 2.3 模仿学习（模仿学习（MimicMimic P Playlay）模仿学习是模仿学习是指机器人通过观察人类现场演示或端到端学习人类示教视频，理指机器人通过观察人类现场演示或端到端学习人类示教视频，理解行动中的底层逻辑，进而复现人类演示的技能。过程中能够省去繁琐的编程，解行动中的

32、底层逻辑，进而复现人类演示的技能。过程中能够省去繁琐的编程，通过像人类一样从模仿中学习，从而最终达到与人脑类似的决策执行。通过像人类一样从模仿中学习，从而最终达到与人脑类似的决策执行。模仿学习的过程是机器人观察模仿学习的过程是机器人观察人类演示人类演示后迁移到自己本体上去执行任务。后迁移到自己本体上去执行任务。可以说，从人类演示中进行模仿学习，是训练机器人在现实世界中掌握技能的一种朝阳路径，其过程可泛化性强，尤其适合日常生活场景，可以通过迁移掌握人的请务必阅读正文之后的免责条款部分 11 各类零散动作如打开橱柜、拧紧螺丝等，省略原本需要为机器人进行的逐一编程。不过，学习复杂的长期任务通常需要

33、大量的演示，目前多为科研团队应用，量少、任务较简单，未来应用的可靠性无法保证。2 2023023年斯坦福和英伟达合作研究，引入了名为年斯坦福和英伟达合作研究，引入了名为MimicMimicP Playlay的分层学习框架，的分层学习框架，前文提及的前文提及的 MobileMobile ALOHAALOHA 正是通过模仿学习掌握了诸多家务技能。正是通过模仿学习掌握了诸多家务技能。为减少模仿学习对于数据的大量需求，研究团队诉诸于人们用手与环境自由交互的系列视频，认为人类视频中包含丰富而明显的物理交互信息，能够促进机器人的决策学习。MimicPlay 框架从人类交互数据中学习潜在行动逻辑，用以指导基

34、于少量遥操作演示训练的低级视觉运动控制，最终实现在任务成功率、泛化能力和对干扰的鲁棒性上的出色表现。图表图表8 8：基于基于 M MimicimicP Playlay 框架的模仿学习的三阶段框架的模仿学习的三阶段资料来源：MimicPlay:Long-Horizon Imitation Learning by Watching Human Play（Chen Wang et al.），中邮证券研究所图表图表9 9：通过模仿学习后机器人执行任务的成功率显著提升通过模仿学习后机器人执行任务的成功率显著提升资料来源：MimicPlay:Long-Horizon Imitation Learni

35、ng by Watching Human Play（Chen Wang et al.），中邮证券研究所请务必阅读正文之后的免责条款部分 12 卡内基梅隆大学团队也提出了一种高效、一次性机器人学习算法，称为卡内基梅隆大学团队也提出了一种高效、一次性机器人学习算法，称为W WHIRLHIRL（InIn-thethe-Wild Human Imitating Robot LearningWild Human Imitating Robot Learning）。）。模仿学习和强化学习虽然较为有效，但存在样本效率低以及局限于实验室环境等问题，该算法以第三人称视角学习为中心，基于采样做策略优化，以提高样

36、本效率。Figure01Figure01 仅用仅用 1010 小时小时模仿学习模仿学习就学会煮咖啡，并能在过程中自我纠错。就学会煮咖啡，并能在过程中自我纠错。2024 年 1 月 8 日，美国 AI 机器人公司 Figure 创始人和首席执行官 Brett Adcock对外公布了一段 Figure01 使用咖啡机煮咖啡的视频，宣称仅用了 10 小时端到端人工智能训练（神经网络接收人类行为视频并观察学习），就教会了 Figure01 此项技能。图表图表1010：F Figureigure0101 操作咖啡机（左）及自我纠错（右）操作咖啡机（左）及自我纠错（右）资料来源：搜狐，中邮证券研究所 2.

37、4 2.4 V VLMLM（Vision Language ModelsVision Language Models）+小模型小模型 V VLM+LM+小模型是指依托小模型是指依托 V VLMLM 大模型思考解决大模型思考解决高层规划问题，高层规划问题，在末端应用场景中在末端应用场景中调度相对应的小模型以完成运动控制和执行，其本质上是进行通用大模型的训练调度相对应的小模型以完成运动控制和执行，其本质上是进行通用大模型的训练和应用。和应用。V VLMLM 是一种结合视觉和文本理解的模型，能够同时处理图像、语言等多种形是一种结合视觉和文本理解的模型，能够同时处理图像、语言等多种形式的信息式的信息，

38、其优势在于能够理解和生成包含视觉元素的复杂内容，从而在应用中其优势在于能够理解和生成包含视觉元素的复杂内容，从而在应用中表现出色。表现出色。以谷歌为代表的公司将 VLM 应用于机器人领域的训练，通过积累机器人动作库，再使用大模型调度小模型，能够形成细分场景的数据壁垒，而且由于大小模型各司其职，无需反复训练，在标准化场景中效率颇高。其风险和劣势也较为明显，一是执行速度较慢，这主要同大模型是部署在云端还是边缘侧相关，VLM 负责决策而被调度的小模型负责执行，期间存在信息传输转化的时滞；二是小模型数据获取难度较大，数据安全及隐私问题可能成为绊脚石。谷歌的谷歌的 SaySay-C Canan、PaLM

39、PaLM-E E 以及以及 MetaMeta 的的 ImageImageB Bindind 都属于都属于 V VLMLM 路径。路径。以谷歌2023 年 3 月发布的 PaLM-E 模型为例，PaLM-E（Pathways Language Model with Embodied）是 PaLM-540B 语言模型与 ViT-22B 视觉 Transformer 模型的结合。作请务必阅读正文之后的免责条款部分 13 为一种多模态具身 VLM，它不仅可以理解图像，还能理解、生成语言，执行各种复杂的机器人指令而无需重新训练。PaLM-E 还展示出了“正迁移”能力，即将从一项任务中学到的知识和技能迁

40、移到另一项任务中。另外，将 PaLM-E 集成到机器人控制回路中后，它可以抵抗任务期间可能发生的中断。比如研究人员从机器人手中抓取薯片并移动，但它仍可以找到薯片并再次抓取。图表图表1111：PaLMPaLM-E E 为机器人决策并抵抗任务期间的干扰为机器人决策并抵抗任务期间的干扰资料来源：澎湃，中邮证券研究所 V VLMLM 在实际运动控制问题上会出现实时性较差的缺陷，故目前主流方案是在实际运动控制问题上会出现实时性较差的缺陷，故目前主流方案是VLMVLM 大模型大模型+小模型，通过大小模型相互配合，各取所长，推动人形机器人的实小模型，通过大小模型相互配合，各取所长，推动人形机器人的实际应用

41、落地。际应用落地。未来在大小模型耦合的路径上，针对应用场景开发出的小模型动作库可能成为行业壁垒。2.5 2.5 VLAVLA（Vision Language ActionVision Language Action）V VLALA 是从是从 V VLMLM 中演化出来的，两者有诸多相同，其根本差异在于中演化出来的，两者有诸多相同，其根本差异在于 V VLALA 将决策将决策和执行的全过程纳入控制范围，直接输出运动控制指令，构成感知和执行的全过程纳入控制范围，直接输出运动控制指令，构成感知-决策决策-动作的动作的闭环过程。闭环过程。谷歌 DeepMind 于 2023 年 7 月推出的 RT-2

42、就是一种新颖的 VLA 模型，它能够从网络和机器人数据中学习，并将知识转化为机器人控制的通用指令。具体而言，VLM 在网络规模数据上预先训练，再从 RT-1 机器人数据中学习，最终成为 RT-2，一种可以控制机器人的 VLA 模型。请务必阅读正文之后的免责条款部分 14 图表图表1212：VLMVLM 从从网络和网络和 R RT T-1 1 机器人数据中学习从而演化成新的机器人数据中学习从而演化成新的 V VLALA 资料来源：DeepMind，中邮证券研究所通过微调通过微调 V VLMLM 模型生成一系列自然语言文本标记，从而输出动作指令控制机模型生成一系列自然语言文本标记，从而输出动作

43、指令控制机器人。器人。一个或多个图像输入进 VLM 中，然后在模型输出端将操作描述为可由标准自然语言标记器处理的字符串，经过微调预训练的模型接收的是机器人摄像头中的图像，输出的则是机器人要执行的动作。完成后 RT-2 可以控制机器人变得超乎想象，只需要向对话一般下达命令，如“Move coke can to Taylor Swift”，机器人就能够在图片中找到对的目标并送她一罐可乐，甚至可以主动思考，完成从“选择灭绝动物”到抓取桌子上的塑料玩具恐龙这种多阶段推理的飞跃。此类任务要求机器人对数据中从未见过的物体或场景执行操作，过程中需要基于网络预训练知识的转化，也被称为模型的涌现能力。对比可知

44、VLA 模型 RT-2 在泛化性能显著提高，在涌现能力的成功率方面优于此前的 RT-1 和 VC1。图表图表1313：VLAVLA 模型控制机器人抓取灭绝动物模型控制机器人抓取灭绝动物图表图表1414：涌现涌现能力能力成功率对比成功率对比资料来源：DeepMind，中邮证券研究所资料来源：DeepMind，中邮证券研究所 V VLALA 的痛点在于大模型实时性较差，导致执行成功率有待提升。未来若大模的痛点在于大模型实时性较差，导致执行成功率有待提升。未来若大模型的实时性问题能够得到解决，最终运动控制表现改善，届时一体化的型的实时性问题能够得到解决，最终运动控制表现改善，届时一体化的 V

45、VLALA 模型模型有望成为主流有望成为主流 A AI I 训练路径。训练路径。3 3 机器人机器人如何实现如何实现自主移动：自主移动：S SLAMLAM 技术技术的应用的应用请务必阅读正文之后的免责条款部分 15 S SLAMLAM 是实现机器人自主导航和后续交互的关键技术之一。是实现机器人自主导航和后续交互的关键技术之一。SLAM 即Simultaneous Localization and Mapping，是以定位和建图两大技术为目标的算法。目前主流的 SLAM 技术应用为激光 SLAM(基于激光雷达)和视觉 SLAM(基于单/双目摄像头)，也可以分为基于滤波（Filter-Based

46、）的 SLAM 和基于图优化（Graph-Based）的 SLAM。这里需要明确，这里需要明确，S SLAMLAM 并不是自主移动导航，它不解决行动问题，只解决实时并不是自主移动导航，它不解决行动问题，只解决实时定位与地图构建问题。定位与地图构建问题。其核心原理是使用相机、激光雷达、惯性测量单元等传感器来收集环境信息，然后用算法将这些信息融合起来，以确定机器人在未知环境中的位置，并构建一张环境地图。机器人在路径规划时需要以地图作为参考，定位时，也需要消除里程计的累加误差所造成的干扰。通过 SLAM 技术，机器人可以在未知环境中进行探索及实时构建地图。前文中 Mobile ALOHA 的移动底座

47、，就是一个具备较为成熟的室内 SLAM 技术的 AGV 机器人。图表图表1515：S SLAMLAM 与构成自主移动导航的各领域关系图与构成自主移动导航的各领域关系图资料来源：思岚科技，中邮证券研究所根据传感器的不同，机器人用的根据传感器的不同，机器人用的 S SLAMLAM 算法可以分为二维激光算法可以分为二维激光 S SLAMLAM、三维激、三维激光光 SLAMSLAM 以及视觉以及视觉 S SLAMLAM。其中，二维激光 SLAM 常用的有 Cartographer、Karto，三维激光 SLAM 较流行的是 LIO-SAM、LOAM 系列，视觉 SLAM 主流的方案为 ORB-SL

48、AM3、VINS-Fusion 等。请务必阅读正文之后的免责条款部分 16 图表图表1616：S SLAMLAM 根据传感器不同的分类情况根据传感器不同的分类情况资料来源：深圳市众星智能，中邮证券研究所不同的不同的 S SLAMLAM 算法，实现的具体细节会有所不同，一般通用架构算法，实现的具体细节会有所不同，一般通用架构会包含会包含数据数据预处理、前端、后端、闭环检测、地图构建预处理、前端、后端、闭环检测、地图构建等等。数据预处理：数据预处理：传感器数据接收、多传感器数据同步、传感器数据预处理（包括去除无效值、序列检查、去除点云遮挡点与平行点等）、点云去畸变处理；前端：前端：特征提取、数

49、据融合、数据关联、运动估计等，将数据同已有地图相关联，从而确定机器人的轨迹。前端的质量对于 SLAM 系统的准确性和稳定性有着关键的影响；后端：后端：利用前端获取的运动轨迹和地图信息形成位姿图，并通过机器人的状态、地图和传感器误差等进行计算约束，实现位姿图的优化。后端优化是对整个系统的运动轨迹和地图进行全局优化；闭环检测：闭环检测：识别机器人经过的相似位置，避免累积误差的产生。闭环检测可以有效降低机器人的定位误差，提高 SLAM 算法的精度和鲁棒性；地图构建：地图构建：大致可分为语义地图、基于概率更新的占栅格地图（黑白灰三色图）、3D 点云地图（稀疏、稠密）、基于 TSDF 的占栅格地图等。不

50、同方案的不同方案的 S SLAMLAM 均有其应用空间，均有其应用空间，三维激光、三维激光、视觉视觉 S SLAMLAM 更适合于人形机器更适合于人形机器人应用场景。人应用场景。二维激光 SLAM 仅适合在二维平面上运动的机器人，如扫地机器人、迎宾机器人等；三维激光 SLAM 适用于需要在三维空间中进行建模和定位的场景，如机器人在户外环境中进行探索等；视觉 SLAM 通过摄像头等视觉传感器来获取机器人与环境间的相对位置关系，并不需要其他传感器配合，更为轻量化，但对于光照变化、运动模糊等问题仍需进一步优化。针对人形机器人的应用场景，三维激光 SLAM 能够获取到的深度信息更优，精度高，受环境影响

51、不大，能够很方便地得到物体轮廓，实现定位及避障。而视觉 SLAM 的探测更为密集，能够获取到物体的颜色、纹理等信息，还可以与人形机器人的感知识别及交互需求共用传感器。故三维激光、视觉 SLAM 更适合于人形机器人应用场景，根据实际应用场景也可能存在结合。请务必阅读正文之后的免责条款部分 17 图表图表1717：6 6 种代表性种代表性 S SLAMLAM 算法的综合比较算法的综合比较传感器传感器鲁棒鲁棒性性定位精定位精度度建图面建图面积积建图质建图质量量实时性实时性能能可扩展可扩展性性硬件需硬件需求求工程实现工程实现难度难度 CartographCartographer er

52、 2D Lidar 高高大高适中中较高中 KartoKarto 2D Lidar+ROS 适中中中高高适中较高低 LIOLIO-SAMSAM 3D Lidar 中中中高高适中适中较高 LOAMLOAM 3D Lidar，适用慢速移动场景中中小高高较差较高低 ORBORB-SLAM3SLAM3 视觉中高中中高适中较低较高 VINSVINS-FusionFusion 视觉和惯性高高中高中高较高较高资料来源：深圳市众星智能，中邮证券研究所根据根据 M Marketarket M Monitoronitor

53、G Globallobal 调研数据显示，调研数据显示，2 2022022 年全球年全球 S SLAMLAM 即时定位与即时定位与地图构建技术市场规模大约为地图构建技术市场规模大约为 3 3.30.30 亿美元，预计后续六年亿美元，预计后续六年 C CAGRAGR 为为 3 34.7%4.7%，到，到2 2029029 年行业成长至年行业成长至 2 29.239.23 亿美元。亿美元。图表图表1818：20222022-2029E2029E 全球全球 S SLAMLAM 市场规模（亿美元）市场规模（亿美元）资料来源：Market Monitor Global，中邮证券研究所国内多家人形机器人

54、厂商已经在自主移动领域应用了国内多家人形机器人厂商已经在自主移动领域应用了 S SLAMLAM 技术，技术，未来未来随着随着移动机器人、自动驾驶等领域移动机器人、自动驾驶等领域 S SLAMLAM 技术的迁移，技术的迁移，应用应用范围将范围将更更为广阔为广阔。在人形机器人赛道上，特斯拉凭借其自动驾驶领域的深厚积累，将 FSD 平移至 Optimus上以实现自主移动。FSD V12 实现了完全端到端自动驾驶，深度依赖神经网络。V12 把摄像头获取的图像数据输入到神经网络，网络能够直接输出车辆控制指令，其过程更像是人类大脑的分析思考和决策。但除开特斯拉，国产人形机器人厂商国产人形机器人厂商请务必

55、阅读正文之后的免责条款部分 18 如开普勒、追觅、大象等均在产品中应用了如开普勒、追觅、大象等均在产品中应用了 S SLAMLAM 算法。算法。开普勒自研算法搭配100TOPS 高算力主板，令其机器人拥有视觉识别、视觉 SLAM 等功能；追觅在智能清扫机器人上拥有丰富的多传感器感知融合处理、定位导航及地图构建的经验，算法上积累了 SLAM、ToF 激光雷达、结构光等核心技术，在其人形机器人上能够实现技术复用；大象机器人推出的水星 Mercury 采用先进的 RTABMAP 3D 与 2D 配合的 SLAM 导航技术，通过激光雷达感知平面环境，使用 3D 摄像头实时构建地图并同时定位，实现了智能

56、导航、避障，具有高效而精准的移动能力。另外，国内许多公司在移动机器人（AGV、AMR、服务型机器人等）和汽车及无人机自动驾驶领域有着 SLAM 算法技术积累，未来人形机器人不断落地商业化应用，有望通过技术迁移使 SLAM 技术得到更为广泛的应用。图表图表1919：SLAMSLAM 技术的其他应用场景及国内代表公司技术的其他应用场景及国内代表公司资料来源：中邮证券研究所 4 4 风险提示风险提示请务必阅读正文之后的免责条款部分 19 人形机器人下游发展不及预期风险；算法及算力更新迭代不及预期风险；机器人自主移动技术竞争加剧风险；技术落地不达预期风险。请务必阅读正文之后的免责条款部分 20 中

57、邮证券投资评级说明中邮证券投资评级说明投资评级标准类型评级说明报告中投资建议的评级标准：报告发布日后的 6 个月内的相对市场表现，即报告发布日后的 6 个月内的公司股价（或行业指数、可转债价格）的涨跌幅相对同期相关证券市场基准指数的涨跌幅。市场基准指数的选取：A 股市场以沪深 300 指数为基准；新三板市场以三板成指为基准；可转债市场以中信标普可转债指数为基准；香港市场以恒生指数为基准；美国市场以标普500 或纳斯达克综合指数为基准。股票评级买入预期个股相对同期基准指数涨幅在 20%以上增持预期个股相对同期基准指数涨幅在 10%与 20%之间中性预期个股相对同期基准指数涨

58、幅在-10%与 10%之间回避预期个股相对同期基准指数涨幅在-10%以下行业评级强于大市预期行业相对同期基准指数涨幅在 10%以上中性预期行业相对同期基准指数涨幅在-10%与 10%之间弱于大市预期行业相对同期基准指数涨幅在-10%以下可转债评级推荐预期可转债相对同期基准指数涨幅在 10%以上谨慎推荐预期可转债相对同期基准指数涨幅在 5%与 10%之间中性预期可转债相对同期基准指数涨幅在-5%与 5%之间回避预期可转债相对同期基准指数涨幅在-5%以下分析师声明分析师声明撰写此报告的分析师（一人或多人）承诺本机构、本人以及财产利害关系人与所评价或推荐的证

59、券无利害关系。本报告所采用的数据均来自我们认为可靠的目前已公开的信息，并通过独立判断并得出结论，力求独立、客观、公平，报告结论不受本公司其他部门和人员以及证券发行人、上市公司、基金公司、证券资产管理公司、特定客户等利益相关方的干涉和影响，特此声明。免责声明免责声明中邮证券有限责任公司（以下简称“中邮证券”）具备经中国证监会批准的开展证券投资咨询业务的资格。本报告信息均来源于公开资料或者我们认为可靠的资料，我们力求但不保证这些信息的准确性和完整性。报告内容仅供参考，报告中的信息或所表达观点不构成所涉证券买卖的出价或询价，中邮证券不对因使用本报告的内容而导致的损失承担任何责任。客户不应以本报告取

60、代其独立判断或仅根据本报告做出决策。中邮证券可发出其它与本报告所载信息不一致或有不同结论的报告。报告所载资料、意见及推测仅反映研究人员于发出本报告当日的判断，可随时更改且不予通告。中邮证券及其所属关联机构可能会持有报告中提到的公司所发行的证券头寸并进行交易，也可能为这些公司提供或者计划提供投资银行、财务顾问或者其他金融产品等相关服务。证券期货投资者适当性管理办法于 2017 年 7 月 1 日起正式实施，本报告仅供中邮证券客户中的专业投资者使用，若您非中邮证券客户中的专业投资者，为控制投资风险，请取消接收、订阅或使用本报告中的任何信息。本公司不会因接收人收到、阅读或关注本报告中的内容而视其为专

61、业投资者。本报告版权归中邮证券所有，未经书面许可，任何机构或个人不得存在对本报告以任何形式进行翻版、修改、节选、复制、发布，或对本报告进行改编、汇编等侵犯知识产权的行为，亦不得存在其他有损中邮证券商业性权益的任何情形。如经中邮证券授权后引用发布，需注明出处为中邮证券研究所，且不得对本报告进行有悖原意的引用、删节或修改。中邮证券对于本申明具有最终解释权。请务必阅读正文之后的免责条款部分 21 公司简介公司简介中邮证券有限责任公司，2002 年 9 月经中国证券监督管理委员会批准设立，注册资本 50.6 亿元人民币。中邮证券是中国邮政集团有限公司绝对控股的证券类金融子公司。公司经营范围包括：证券

62、经纪；证券自营；证券投资咨询；证券资产管理；融资融券；证券投资基金销售；证券承销与保荐；代理销售金融产品；与证券交易、证券投资活动有关的财务顾问。此外，公司还具有：证券经纪人业务资格；企业债券主承销资格；沪港通；深港通；利率互换；投资管理人受托管理保险资金；全国银行间同业拆借；作为主办券商在全国中小企业股份转让系统从事经纪、做市、推荐业务资格等业务资格。公司目前已经在北京、陕西、深圳、山东、江苏、四川、江西、湖北、湖南、福建、辽宁、吉林、黑龙江、广东、浙江、贵州、新疆、河南、山西、上海、云南、内蒙古、重庆、天津、河北等地设有分支机构，全国多家分支机构正在建设中。中邮证券紧紧依托中国邮政集团有限公司雄厚的实力，坚持诚信经营，践行普惠服务，为社会大众提供全方位专业化的证券投、融资服务，帮助客户实现价值增长，努力成为客户认同、社会尊重、股东满意、员工自豪的优秀企业。中邮证券研究所北京邮箱：地址：北京市东城区前门街道珠市口东大街 17 号邮编：100050 上海邮箱：地址：上海市虹口区东大名路 1080 号邮储银行大厦 3楼邮编：200000 深圳邮箱：地址：深圳市福田区滨河大道 9023 号国通大厦二楼邮编：518048