阿拉爱上海同城论坛(上海同城论坛：见证城市生活的点滴)

《人工智能行业机器人智能化三部曲（二）：Meta及微软篇-231016（26页）.pdf》由会员分享，可在线阅读，更多相关《人工智能行业机器人智能化三部曲（二）：Meta及微软篇-231016（26页）.pdf（26页珍藏版）》请在三个皮匠报告上搜索。

1、机器人智能化三部曲（二）：机器人智能化三部曲（二）：Meta&Meta&微软篇微软篇证券研究报告证券研究报告行业动态报告行业动态报告发布日期：2023年10月16日分析师：于芳博分析师：于芳博SAC编号：S01分析师：分析师：阎贵成阎贵成SAC编号：S02SFC 中央编号：BNS315分析师：金戈分析师：金戈SAC编号：S01SFC 中央编号：BPD352本报告由中信建投证券股份有限公司在中华人民共和国（仅为本报告目的，不包括香港、澳门、台湾）提供。在遵守适用的法律法规情况下，本报告亦可能由中信建投（国际）证券有限公司在香港提

2、供。同时请务必阅读正文之后的免责条款和声明。核心观点：随着各项人工智能技术的不断发展，具备与物理世界交互潜力的智能机器人成为学界和业界的重要研究赛道。核心观点：随着各项人工智能技术的不断发展，具备与物理世界交互潜力的智能机器人成为学界和业界的重要研究赛道。近年来近年来Meta、微、微软均持续完善其机器人模型领域的布局。软均持续完善其机器人模型领域的布局。2023年年8月，月，Meta推出在少量训练数据情况下便能取得优异表现的推出在少量训练数据情况下便能取得优异表现的MT-ACT模型。模型。2023年年2月微软月微软推出基于推出基于ChatGPT的机器人控制框架，将的机器人控制框架，将ChatG

3、PT的“知识储备”落实到现实场景中。机器人模型发展百家争鸣，值得进一步关注。的“知识储备”落实到现实场景中。机器人模型发展百家争鸣，值得进一步关注。从从R3M到到MT-ACT，Meta持续探索如何使用有限的数据集实现更优秀的机器人控制。持续探索如何使用有限的数据集实现更优秀的机器人控制。在2022年3月推出的R3M模型中，Meta首次引入人类视频数据作为机器人控制模型的知识来源，提升机器人模型训练效率。在2022年12月推出的CACTI模型中，使用数据增强技术实现了训练数据规模高效扩充。2023年8月推出的MT-ACT模型将数据增强技术（基于SAM视觉模型）和动作序列生成技术结合，在7500个

4、原始训练数据的情况下，在不同难度的测试中分别实现了81.67%、65.17%、31.33%的成功率，小规模数据表现优于其他可比模型。将强化学习与将强化学习与MoE技术融合，技术融合，Meta推出机器人控制模型新方案推出机器人控制模型新方案ASC。在2023年4月推出的ASC模型中，先通过强化学习分别对单一任务进行训练，再通过MoE技术实现不同技能模块之间的有机协同，在模拟场景和两个现实场景中分别实现了94.9%和96.7%/100%的成功率，并且具备较强的抗干扰能力，能够在环境变化的情况下自动调整完成相关任务的方式。通过将更强的OWL-ViT视觉模型与ASC模型结合，模型可以根据文本描述来识别

5、更为复杂的物体，有望在更广泛的场景中处理更为复杂的任务。Meta：机器人模型与谷歌有所差异。：机器人模型与谷歌有所差异。谷歌的技术路线在本系列第一篇中有详细描述，而Meta目前工作中尚未将大模型与机器人控制所结合，且相较谷歌尝试利用大规模的数据集提升机器人模型的表现，Meta的相关工作更加关注如何基于小规模的数据，结合数据增强、人类视频数据预训练等方式实现通用机器人控制模型的构建，即数据效率方面的提升。微软：结合自然语言能力，微软提出面向机器人控制领域的新框架。微软：结合自然语言能力，微软提出面向机器人控制领域的新框架。2022年8月推出的机器人轨迹控制模型LATTE，可以识别用户的自然语言输

6、入调整机器人的运行轨迹。2023年2月发表文章“ChatGPT for Robotics”，其核心在于通过大语言模型（ChatGPT）来处理用户指令，进而调用相应的机器人控制API来完成具体的任务。在演示中，经过进一步学习的ChatGPT模型在仅有自然语言输入的情况下，可以控制机器人利用不同颜色的方块拼接出微软Logo。核心观点 0UlYmWjWaXnVmQsOnQaQaOaQnPpPtRtQjMqRpPiNoPwObRrQrRMYnQuMuOrMqO1.1 科技巨头加速布局智能机器人，Meta持续推进机器人模型发展资料来源：Meta官网，谷歌学术，中信建投近年来，Meta一直是AI领域不可忽

7、视的力量，前沿研究如CV领域的SAM模型，NLP领域的LLaMa均是相关领域的最前沿技术之一。在机器人模型领域，在机器人模型领域，Meta也已经展开了较为完善的布局，提出了一些卓有成效的改进策略如数据增强、动作序列生成等，相关模型如也已经展开了较为完善的布局，提出了一些卓有成效的改进策略如数据增强、动作序列生成等，相关模型如R3M、CACTI、ASC、MT-ACT等，其他领域的核心突破如等，其他领域的核心突破如SAM模型也应用到了其中。本文将回顾模型也应用到了其中。本文将回顾Meta近年来在机器人模型领域的核心近年来在机器人模型领域的核心进展，梳理其中的发展脉络。进展，梳理其中的发展脉络。图图

8、：MetaMeta机器人模型相关进展时间轴机器人模型相关进展时间轴20222022202320232022.32022.3R3M：引入人类视频数据作为机器人控制模型的知识来源2022.122022.12CACTI：使用数据增强扩充了训练数据规模，并提升了模型的性能表现2023.42023.4ASC：将强化学习与MoE技术融合以处理复杂的多任务场景2023.82023.8MT-ACT：基于小规模的数据集，结合数据增强和动作序列生成实现较高质量的机器人控制2023.42023.4ACT：机器人动作序列生成的Transformer作为预训练基础模型作为预训练基础模型沿用视觉处理部分架构沿用视觉处理部

9、分架构沿用数据增强思路沿用数据增强思路沿用动作序列生成部分沿用动作序列生成部分SegmentAnythingSegmentAnything（SAMSAM）作为数据增强的工具作为数据增强的工具 1.2.1 R3M：基于人类视频数据的预训练机器人模型资料来源：R3M:A Universal Visual Representation for Robot Manipulation，中信建投Meta及及斯坦福大学的研究人员在斯坦福大学的研究人员在2022年年3月推出了基于人类第一视角数据训练的机器人预训练模型月推出了基于人类第一视角数据训练的机器人预训练模型R3M。核心突破：研究了一种在人类视频数据上

10、进行机器人控制模型预训练的方法，提升了机器人控制模型的性能、效率和可用训练数据范围。核心突破：研究了一种在人类视频数据上进行机器人控制模型预训练的方法，提升了机器人控制模型的性能、效率和可用训练数据范围。通过时间对比学习、视频-语言对齐等方法来充分学习视频中的视觉信息，构建出预训练模型作为后续任务的基础。训练数据集：使用了训练数据集：使用了Ego4D的人类第一视角视频数据集，包含共的人类第一视角视频数据集，包含共3500多小时的数据。多小时的数据。数据集中的视频来自全球70多个地方，具体任务包括有烹饪、社交、组装物品等。每个视频片段由参与者一次佩戴头戴式摄像头长达 10 小时，并拍摄无脚本日常

11、活动收集而来，其中还包含视频中人物行为的自然语言注释。图图：Ego4DEgo4D数据集数据集图图：R3MR3M模型架构模型架构对比学习帧之间的变化学习语言指令和视频操作构建出预训练模型，可以用于后续训练 1.2.2 R3M：基于人类视频数据的预训练机器人模型资料来源：R3M:A Universal Visual Representation for Robot Manipulation，中信建投在模拟场景模拟场景中，经过进一步演示的R3M模型能够整体以62%的成功率完成12项不同的操作任务，相较于其他预训练方法实现了10%的提升（如下左图绿色/黄色/蓝色柱形所示），相较于不预训练的方法提升20

12、%，如下图（如下左图粉色柱形所示）。在现实场景现实场景中，在每个任务经过20次演示的条件下，R3M方法的成功率相较于CLIP方法的成功率实现明显提升，整体成功率为56%，高出32%，同时在关抽屉、推杯子等较为简单的任务中具有成功率较高。我们认为，相较于性能提升，我们认为，相较于性能提升，R3M将人类视频数据带入机器人模型训练领域更为重要，可能成为机器人模型数据缺乏的解决方案之一。将人类视频数据带入机器人模型训练领域更为重要，可能成为机器人模型数据缺乏的解决方案之一。图图：模拟场景中：模拟场景中R3MR3M模型的性能表现情况模型的性能表现情况图图：现实场景中：现实场景中R3MR3M的示例及性能表

13、现情况的示例及性能表现情况其他预训练方法不预训练10次尝试中的成功率 1.3.1 CACTI：可扩展的多任务多场景视觉模仿学习框架Meta、哥伦比亚大学及卡耐基梅隆大学的研究人员在、哥伦比亚大学及卡耐基梅隆大学的研究人员在2022年年12月推出了可扩展的多任务多场景视觉模仿学习框架月推出了可扩展的多任务多场景视觉模仿学习框架CACTI。阶段阶段1数据收集数据收集:现实场景，通过人类演示收集了10个任务共1000个片段；模拟场景，通过强化学习智能体收集了18个任务共900个策略。阶段阶段2数据扩充数据扩充:通过不同的策略对专家示范数据进行增强，进而实现数据集的扩充，例如针对模拟的900个策略共生

14、成了45000个片段。阶段阶段3数据压缩数据压缩:将扩充后的数据集中的“视觉”数据压缩成向量。阶段阶段4训练训练:利用上述环节得到的不同任务数据训练出统一的控制策略。图图：CACTICACTI模仿学习框架模仿学习框架资料来源：CACTI:A Framework for Scalable Multi-Task Multi-Scene Visual Imitation Learning，中信建投数据收集阶段：在现实场景数据收集阶段：在现实场景/模拟场景模拟场景中收集相关任务的专家示范数据中收集相关任务的专家示范数据数据增强阶段：通过不同的策略对专家示数据增强阶段：通过不同的策略对专家示范数据进行增

15、强，实现数据集的扩充范数据进行增强，实现数据集的扩充数据压缩阶段：将扩充后的数据集中数据压缩阶段：将扩充后的数据集中的“视觉”数据压缩成向量。的“视觉”数据压缩成向量。训练阶段：利用前置环节得到的任务训练阶段：利用前置环节得到的任务数据训练出统一的多任务控制策略数据训练出统一的多任务控制策略 1.3.2 CACTI：可扩展的多任务多场景视觉模仿学习框架数据扩充环节旨在增强原始专家数据的多样性，主要分为视觉增强视觉增强和语义增强语义增强两种方式。在现实场景中使用了开源的Stable Diffusion模型模型对视觉信息进行增强和扩充，而在虚拟场景中则通过调整渲染过程调整渲染过程的场景属性来实现。

16、视觉增强：视觉增强：改变场景的视觉属性，如物体纹理、照明条件等。语义增强：语义增强：包括改变场景中物体的布局（位置、方向），乃至添加新的人造物体等。图图：CACTICACTI数据扩充环节图示数据扩充环节图示资料来源：CACTI:A Framework for Scalable Multi-Task Multi-Scene Visual Imitation Learning，中信建投语义增强语义增强视觉增强视觉增强 1.3.3 CACTI：可扩展的多任务多场景视觉模仿学习框架训练和推理过程中，训练和推理过程中，CACTI模型结合当前时刻视觉（摄像机输入）、文本（指令输入）、机械臂状态来生成下一时

17、刻的机械臂状态。模型结合当前时刻视觉（摄像机输入）、文本（指令输入）、机械臂状态来生成下一时刻的机械臂状态。其中视觉和文本信息均沿用了了R3M模型模型的架构来实现embedding的转换。图图：CACTICACTI训练和推理架构示意图训练和推理架构示意图资料来源：CACTI:A Framework for Scalable Multi-Task Multi-Scene Visual Imitation Learning，中信建投 1.3.4 CACTI：可扩展的多任务多场景视觉模仿学习框架模型性能表现：模型性能表现：在真实机器人上部署时，总体成功率约为30%；在仿真中，在所有 18 个任务中的

18、成功率约为 62%，且随着训练数据的逐渐丰富，模型在训练集内/训练集外的任务上性能均有所提升。实验结果证明，使用大量的互联网图像数据和人类日常行为数据来对机器人控制模型进行预训练具备较大潜力。实验结果证明，使用大量的互联网图像数据和人类日常行为数据来对机器人控制模型进行预训练具备较大潜力。如左图绿色柱形所示，在大部分场景中均展现出了相当甚至更优秀的效果，对于模拟环境中使用额外互联网数据效果较差的实验结果，研究人员认为这可能是模拟环境中的图像信息与现实场景图像信息差距较大导致的；同时，数据增强方法也对模型表现有着较大贡献，同时，数据增强方法也对模型表现有着较大贡献，如下左图深蓝色柱形与橙色柱形/

19、黄色柱形于浅蓝色柱形的对比所示，在没有经过数据增强的情况下模型能力有较为明显的下降。图图：现实环境结果：现实环境结果资料来源：CACTI:A Framework for Scalable Multi-Task Multi-Scene Visual Imitation Learning，中信建投图图：仿真环境结果：仿真环境结果随着训练数据的增加，模型在处理过的任务上的性能先随着训练数据的增加，模型在处理过的任务上的性能先降后升，在未处理过的任务上的性能持续提升降后升，在未处理过的任务上的性能持续提升在模拟场景中使用额外的互联网数据效果较差，研究人员认为这可在模拟场景中使用额外的互联网数据效果较差

20、，研究人员认为这可能是模拟环境中的图像信息与现实场景图像信息差距较大导致的能是模拟环境中的图像信息与现实场景图像信息差距较大导致的 1.4.1 ASC：具备自适应技能协调能力的机器人模型Meta及及Georgia Institute of Technology的的研究人员在研究人员在2023年年4月推出了具备自适应技能协调能力的机器人模型月推出了具备自适应技能协调能力的机器人模型ASC。训练环境：训练环境：导航任务环境HM3D，包含1000个真实室内环境的高质量3D扫描，使用了其中800个作为本次的训练数据；拾取/放置任务环境ReplicaCAD，包含104中不同布局的公寓，机器人需要将YCB

21、数据集中的13件物品拾取、放置或重新排列到 4 件家具（容器）上。模型原理：模型原理：通过强化学习在模拟环境中训练三种基于视觉的技能（导航、拾取、放置），进一步训练一种技能协调策略（如下右图黄框所示）以及一种纠正策略（如下右图绿框所示），来根据三种不同任务的输入对三种进行进行协调和控制，进而完成较为复杂的下游任务。技能协调策略技能协调策略&纠正策略：纠正策略：技能协调策略实质是混合专家模型中的门控网络，在ASC中，技能协调策略利用Dagger算法进行预训练，在这一过程中，定义好的“教师”策略会逐步指导和技能协调策略的行为，而后技能协调策略和纠正策略均通过深度强化学习进行微调。图图：ASCASC

22、训练的模拟环境数据集训练的模拟环境数据集资料来源：ASC:Adaptive Skill Coordination for Robotic Mobile Manipulation，中信建投图图：ASCASC模型架构模型架构导航技能导航技能拾取技能拾取技能放置技能放置技能 1.4.2 ASC：具备自适应技能协调能力的机器人模型模型性能：模型性能：在公寓和实验室两个现实环境中，ASC模型在30次实验过程中分别实现了96.7%和100.0%的成功率，在模拟环境中，ASC模型在79中不同布局的虚拟公寓中进行了1500次的实验，实现了94.9%的成功率。实验结果表明，协调策略对模型性能影响较为显著，实验结

23、果表明，协调策略对模型性能影响较为显著，如下表中第2、3行所示，在模型中添加协调策略后，模型性能平均提升了12.6%，而纠正策略的增加则如1、2行所示，带来了平均6.4%的性能提升，这是由于三种基础技能都是在较为简单、孤立的场景中训练出来的，纠正策略的引入可以减少复杂的移动拾放过程中表现不佳的情况。同时，微调的方法无法代替纠正策略的作用，同时，微调的方法无法代替纠正策略的作用，如下表2、5列所示，在缺少纠正策略的情况下通过微调并不能带来性能的提升，反而性能还会有较为显著的下降。图图：ASCASC模型在现实环境和模拟环境中的评估结果模型在现实环境和模拟环境中的评估结果资料来源：ASC:Adapt

24、ive Skill Coordination for Robotic Mobile Manipulation，中信建投 1.4.3 ASC：具备自适应技能协调能力的机器人模型ASC模型具备较强的抗干扰能力：模型具备较强的抗干扰能力：ASC模型针对视觉的反馈进行下一步的行动，而不是依赖于地图，因此当环境布局或动态障碍物发生变化是，ASC模型会将机器人重新安排到一条新的无碰撞路径上，如下图所示，当机器人的前进路线被障碍物或人挡住时，机器人会选择新的路线来接近目标；同时，ASC模型对目标物体的变化也具有较强的抗干扰能力，如下图所示，若机器人在搜索过程中目标发生移动机器人会继续搜索目标。图图：ASCA

25、SC模型控制的机器人可以在面临干扰的情况下较好的完成任务模型控制的机器人可以在面临干扰的情况下较好的完成任务资料来源：ASC:Adaptive Skill Coordination for Robotic Mobile Manipulation，中信建投在被障碍物多次阻在被障碍物多次阻挡后机器人仍能找挡后机器人仍能找到正确的路径到正确的路径在被人多次阻挡后在被人多次阻挡后机器人仍能找到正机器人仍能找到正确的路径确的路径在目标物体状态反在目标物体状态反复变化的情况下，复变化的情况下，机器人仍能持续搜机器人仍能持续搜索并完成任务索并完成任务 1.4.4 ASC：具备自适应技能协调能力的机器人模型通

26、过将更强的通过将更强的Owl-ViT视觉模型应用在视觉模型应用在ASC模型中，模型可以根据文本描述来识别更为复杂的物体，进而完成相应的拾取和放置任务。模型中，模型可以根据文本描述来识别更为复杂的物体，进而完成相应的拾取和放置任务。图图：增强后的：增强后的ASCASC模型应用在额外的复杂场景中模型应用在额外的复杂场景中资料来源：ASC:Adaptive Skill Coordination for Robotic Mobile Manipulation，中信建投 1.5 ACT：具备动作序列生成能力的Transformer架构Meta、Standford University、UC Berkel

27、ey的研究人员推出了可以进行动作序列生成的模型的研究人员推出了可以进行动作序列生成的模型ACT。核心原理：针对某一时刻的输入生成接下来的若干时刻的动作预测而不是只生成下一时刻动作预测。核心原理：针对某一时刻的输入生成接下来的若干时刻的动作预测而不是只生成下一时刻动作预测。如下左图所示，来自四个相机的输入经过encoder处理后，通过decoder得到接下来若干个时刻的动作序列。若不采用时序组合的方法（如右上图所示），模型在3、4之间需要重新进行推理得到新的4个动作，且需要为3的动作可能存在一定误差，导致模型的机器人控制出现卡顿和精确度缺乏的情况，而通过时序组合的方式则可以这些来自不同时刻的预测

28、汇总在一起，每一个时刻的输出都是若干个时刻预测的综合，并且考虑了环境的最新变化，进而实现了更为精确而流畅的机器人控制。图图：ACTACT模型架构模型架构资料来源：Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware，中信建投图图：动作分块与时序组合的原理示意图：动作分块与时序组合的原理示意图每个时刻的输出是多每个时刻的输出是多次预测的加权组合次预测的加权组合 1.6.1 RoboAgent：通过语义增强和动作序列生成提升机器人操控的通用性和效率Meta及及Carnegie Mellon University的的研究

29、人员在研究人员在2023年年8月推出了高效的通用机器人模型框架月推出了高效的通用机器人模型框架MC-ACT。模型框架：模型框架：训练过程中，在语义增强阶段利用内绘增强技术使训练数据多样化，在策略学习阶段使用多任务动作分块转化器训练语言条件策略，将多模式多任务数据纳入单一的多任务机器人控制模型中。推理过程中结合用户的文本输入和摄像头的图像输入对机械臂进行控制。图图：MCMC-ACTACT模型框架模型框架资料来源：RoboAgent:Generalization and Efficiency in Robot Manipulation via Semantic Augmentations and

30、Action Chunking，中信建投 1.6.2 RoboAgent：通过语义增强和动作分块提升机器人操控的通用性和效率训练数据：训练数据：包含通过人类远程操作收集的7500个片段，具体任务包括有拾取、放置、开启、关闭等，其中拾取和放置动作的数据量较大，均超过了1000条。相较于此前的机器人数据集如相较于此前的机器人数据集如RT1，RoboAgent数据集的规模更小但覆盖的任务范围更广。数据集的规模更小但覆盖的任务范围更广。图图：MTMT-ACTACT可以执行十二种不同的任务可以执行十二种不同的任务资料来源：RoboAgent:Generalization and Efficiency i

31、n Robot Manipulation via Semantic Augmentations and Action Chunking，中信建投图图：RoboAgentRoboAgent数据集任务种类分布（上）及和其他数据集对比（下）数据集任务种类分布（上）及和其他数据集对比（下）数据量对比数据量对比训练任务种类对比训练任务种类对比不同种类任务训练数据分布不同种类任务训练数据分布 1.6.3 RoboAgent：通过语义增强和动作分块提升机器人操控的通用性和效率语义增强：语义增强：使用了SegmentAnything模型，基于其从海量互联网数据中提炼出的视觉知识，可以自动的检测并分割出视频中的

32、相关物体，再进一步在相关区域中引入由文本提示提供的物体，对背景（如下左图（b）所示）和被操作物体（如下左图（b）所示）进行增强。语义增强为模型性能带来了明显的提升，尤其在更语义增强为模型性能带来了明显的提升，尤其在更为困难的任务中提升更大。为困难的任务中提升更大。如右下图所示，对着对单一图像输入的语义增强数量从1提升到7，L1-L3三种任务的成功率均有提升，其中L3的提升最为明显，成功率从不足10%提升到了50%以上。图图：MTMT-ACTACT借助借助SegmentAnythingSegmentAnything对背景和被操作物体进行语义增强对背景和被操作物体进行语义增强资料来源：RoboAg

33、ent:Generalization and Efficiency in Robot Manipulation via Semantic Augmentations and Action Chunking，中信建投图图：语义增强为模型性能带来了明显提升：语义增强为模型性能带来了明显提升对背景的增强对背景的增强对被操作物体的对被操作物体的增强增强 1.6.4 RoboAgent：通过语义增强和动作分块提升机器人操控的通用性和效率模型性能：模型性能：相较于此前的模型（调整了其他可比模型的训练数据规模），MT-ACT在所有难度的任务中展现出了更强的性能表现，在L1、L2、L3难度的任务中分别实现了8

34、1.67%、65.17%、31.33%的成功率。在其他方法都无法成功的L4难度中，MT-ACT实现了将近25%的成功率。我们认为，我们认为，MT-ACT为有限训练数据情况下的机器人控制模型训练提供了成功案例，有望成为后续机器人模型发展的重要技术路线之一。为有限训练数据情况下的机器人控制模型训练提供了成功案例，有望成为后续机器人模型发展的重要技术路线之一。图图：MTMT-ACTACT性能情况性能情况L4:New kitchen never seen before资料来源：RoboAgent:Generalization and Efficiency in Robot Manipulation v

35、ia Semantic Augmentations and Action Chunking，中信建投L1改变被操作物体的形态及场景灯光L2增加新的干扰物体L3增加新的任务和被操作物体L4新的环境L1场景成功率场景成功率L1/L2/L3场景成功率场景成功率L4场景成功率场景成功率 1.7 Meta机器人模型进展总结资料来源：Meta官网，谷歌学术，中信建投基本基本信息信息模型名字模型名字R3MCACTIASCRoboAgent/MT-ACT发布时间发布时间2022.32022.122023.42023.8研究机构研究机构Meta、Stanford UniversityMeta、Columbia

36、University、CMUMeta FAIR、Georgia Institute of TechnologyMeta FAIR、CMU数据数据整体数据集内容整体数据集内容人类第一视角视频数据集（Ego4D）RL+人类演示模拟环境中强化学习导航模块：HM3D模块操作（拾取、放置）：ReplicaCAD机器人数据集大小数据集大小3500小时人类演示：10个任务，每个5次演示（重复20次）RL：45000个机器人操作片段7500个片段（数据增强前）12种技能数据集收集方式数据集收集方式参与者一次佩戴头戴式摄像头长达 10 小时，并拍摄无脚本日常活动的第一人称视频。并通过自然语言进行注释人类演示：收

37、集后使用stable diffusion进行增强RL：针对单一任务通过RL得到专家策略，增加相应的视觉信息和噪音进行增强人类控制硬件硬件机器人频率机器人频率（单位：（单位：HzHz）12.52（control）/12（sensor）5机器人机器人Franka Emika Panda robotFranka Emika Panda robot（8 action dimension）Boston Dynamics Spot robotFranka Emika Panda arm（8 action dimension）模型模型视觉处理视觉处理R3MR3M（使用互联网数据和本次模型数据预训练）MoCo

38、（仅使用本次的模型数据）Mask R-CNNOwl-ViTFiLM/CNN语言处理语言处理DistilBERTDistilBERT（设置与R3M一致）综合处理模型综合处理模型/MLP协作模块（本质为MoE的门控网络）Transformer/ACT算力算力训练芯片训练芯片Nvidia Titan Xp,or similar2080Ti（训练时长：48hours）推理芯片推理芯片RTX 3070图图：MetaMeta机器人模型梳理机器人模型梳理Meta的机器人模型与谷歌有所差异，目前的工作中尚未尝试将大语言模型与机器人控制所结合。同时相较于谷歌尝试利用大规模的数据集的机器人模型与谷歌有所差异，目前

39、的工作中尚未尝试将大语言模型与机器人控制所结合。同时相较于谷歌尝试利用大规模的数据集提升机器人模型的表现，提升机器人模型的表现，Meta的相关工作更加关注如何使用小规模的数据实现通用机器人控制模型的构建，也即数据效率方面的提升。的相关工作更加关注如何使用小规模的数据实现通用机器人控制模型的构建，也即数据效率方面的提升。Meta在在ASC模型中采用的强化学习与模型中采用的强化学习与MoE的结合也是值得关注的方向，为强化学习在复杂多任务场景中的进一步发展提供可能。的结合也是值得关注的方向，为强化学习在复杂多任务场景中的进一步发展提供可能。2.1.1 LATTE：结合预训练模型的机器人轨迹控制模型M

40、icrosoft及及Technische Universit t M nchen的的研究人员在研究人员在2022年年8月推出了基于自然语言的机器人轨迹控制框架月推出了基于自然语言的机器人轨迹控制框架LATTE模型框架：模型框架：使用Bert模型处理用户文本指令，使用CLIP模型处理图像输入，并且与用户的文本输入相匹配，进而识别出用户指令中的目标对象。上述信息与经过Encoder处理的物体姿态信息和航迹信息相结合，通过Decoder生成全新的航迹。图图：LATTELATTE模型架构模型架构资料来源：LATTE:Language Trajectory Transformer，中信建投对象图像对象图

41、像文本指令文本指令对象状态对象状态使用使用BERT模型和模型和CLIP模型对文本指令和图模型对文本指令和图像输入进行处理像输入进行处理初始轨迹初始轨迹 2.1.2 LATTE：使用预训练模型的机器人轨迹控制模型训练数据：训练数据：每个数据样本都包含基础轨迹和修改后的轨迹（如下左图红色为基础轨迹，蓝色为生成的轨迹）、自然语言输入（包括绝对方向的变化、速度的变化、相对方向的变化三个方面）、对象姿态和对象图像（来自Bing的图片查询）。运行结果：运行结果：航迹可以根据用户指令的要求，实现轨迹、速度方面的变化，如下中图所示，用户要求无人机离“演员”远一些，最终生成的蓝色轨迹相较于初始的红色轨迹离环境左

42、下角中的“演员”更远，在做出速度方面的要求后，生成的新轨迹也有明显的速度下降。模型性能：模型性能：研究人员收集了来自10名参与者的300个数据点，大多数用户都认为数据集中的轨迹及模型中的轨迹正确的反应了语言命令要求的更改，同时缺少语言模型的输入或2D的轨迹修正都会导致模型效果非常糟糕，反向佐证了这一思路的效果。同时，模型继承了大语言模型一定的泛化性能，能够在76%的情况下以相当或更好的效果处理未见过的指令输入。图图：自动生成的训练数据：自动生成的训练数据资料来源：LATTE:Language Trajectory Transformer，中信建投图图：模型性能分析：模型性能分析图图：模拟：模拟

43、/现实场景的运行结果示例现实场景的运行结果示例模型在处理训练集内的指令和训练集外的指令的对比模型在处理训练集内的指令和训练集外的指令的对比大多数用户都认为模型在轨迹控制方面实现了较为优秀的性能大多数用户都认为模型在轨迹控制方面实现了较为优秀的性能 2.2.1 ChatGPT for RoboticsMicrosoft的研究人员在的研究人员在2023年年2月发布文章月发布文章ChatGPT for Robotics，介绍了将，介绍了将ChatGPT应用于机器人控制的一种框架。应用于机器人控制的一种框架。核心思路：通过大语言模型（核心思路：通过大语言模型（ChatGPT）来处理用户指令，进而调用相

44、应的机器人控制）来处理用户指令，进而调用相应的机器人控制API来完成具体的任务。来完成具体的任务。具体步骤：具体步骤：1.定义了一个高级机器人功能库（API），并于机器人平台上的具体实现相匹配，同时其需要具备相应的描述性信息以便ChatGPT理解2.通过提示工程为ChatGPT创建调用相关API的Prompt3.用户通过直接分析或模拟来评估ChatGPT输出的代码质量，并针对输出的代码质量和安全性向ChatGPT提供反馈4.逐步迭代ChatGPT生成的结果，将最终代码部署到机器人上图图：ChatGPTChatGPT forfor RoboticsRobotics框架框架资料来源：ChatGPT

45、 for Robotics:Design Principles and Model Abilities，中信建投定义一个和任务相关的机器人定义一个和任务相关的机器人API库库通过提示工程为通过提示工程为ChatGPT创建创建调用相关调用相关API的的Prompt用户通过直接分析或模拟来用户通过直接分析或模拟来评估评估ChatGPT输出的代码质量，输出的代码质量，并向并向ChatGPT提供反馈提供反馈 2.2.1 ChatGPT for Robotics模型具备将对现实世界的知识理解通过机器模型具备将对现实世界的知识理解通过机器人控制转化为现实世界任务完成的能力。人控制转化为现实世界任务完成的能

46、力。1.为机械臂排列物体设计了一套课程，并要求ChatGPT学习物体拾取和物体放置。2.ChatGPT在用户提问下回答了微软Logo的特征，并生成了能够绘制出相应图像的代码（回答如右图第一、二个蓝框所示）3.ChatGPT在用户的进一步要求下完成了机器人控制的相关代码（具体代码未展示），通过代码控制机器人实现了将颜色方块摆成微软logo的任务（操作流程如右下图所示）图图：ChatGPTChatGPT forfor RoboticsRobotics示例示例资料来源：ChatGPT for Robotics:Design Principles and Model Abilities，中信建投风险

47、提示感谢陈思玥、樊文辉对本报告的贡献。算力发展不及预期：算力发展不及预期：机器人模型的训练和推理对算力有着较高需求，若后续算力发展不及预期则会影响机器人大模型的迭代和发展。机器人模型技术发展不及预期：机器人模型技术发展不及预期：机器人模型属于先进AI算法，若后续机器人模型算法更新迭代效果不及预期，则会影响机器人模型演进及拓展，进而会影响其商业化落地等。数据数量与数据质量不及预期：数据数量与数据质量不及预期：机器人模型需要大量的高质量数据进行训练，若数据数量和质量存在短板，则会影响模型效果。机器人大模型研发竞争激烈：机器人大模型研发竞争激烈：美国科技大厂纷纷入局机器人模型研发，相关产品表现出了很

48、强的竞争力，机器人模型研发竞争越发激烈。分析师介绍分析师介绍阎贵成：阎贵成：中信建投证券通信&计算机行业首席分析师，北京大学学士、硕士，专注于云计算、物联网、信息安全、信创与5G等领域研究。近8年中国移动工作经验，6年多证券研究经验。系2019-2021年新财富、水晶球通信行业最佳分析师第一名，2017-2018年新财富、水晶球通信行业最佳分析师第一名团队核心成员。金戈：金戈：中信建投证券研究发展部计算机行业联席首席分析师，帝国理工学院工科硕士，擅长云计算、金融科技、人工智能等领域。于芳博于芳博：中信建投人工智能组首席分析师，北京大学空间物理学学士、硕士，2019年7月加入中信建投，主要覆盖人

49、工智能等方向，下游重点包括智能汽车、CPU/GPU/FPGA/ASIC、EDA和工业软件等方向。评级说明评级说明投资评级标准评级说明报告中投资建议涉及的评级标准为报告发布日后6个月内的相对市场表现，也即报告发布日后的6个月内公司股价（或行业指数）相对同期相关证券市场代表性指数的涨跌幅作为基准。A股市场以沪深300指数作为基准；新三板市场以三板成指为基准；香港市场以恒生指数作为基准；美国市场以标普 500 指数为基准。股票评级买入相对涨幅15以上增持相对涨幅5%15中性相对涨幅-5%5之间减持相对跌幅5%15卖出相对跌幅15以上行业评级强于大市相对涨幅10%以上中性相对涨幅-10-10%之间弱于

50、大市相对跌幅10%以上分析师声明分析师声明本报告署名分析师在此声明：（i）以勤勉的职业态度、专业审慎的研究方法，使用合法合规的信息，独立、客观地出具本报告,结论不受任何第三方的授意或影响。（ii）本人不曾因，不因，也将不会因本报告中的具体推荐意见或观点而直接或间接收到任何形式的补偿。法律主体说明法律主体说明本报告由中信建投证券股份有限公司及/或其附属机构（以下合称“中信建投”）制作，由中信建投证券股份有限公司在中华人民共和国（仅为本报告目的，不包括香港、澳门、台湾）提供。中信建投证券股份有限公司具有中国证监会许可的投资咨询业务资格，本报告署名分析师所持中国证券业协会授予的证券投资咨询执业资格

51、证书编号已披露在报告上海品茶。在遵守适用的法律法规情况下，本报告亦可能由中信建投（国际）证券有限公司在香港提供。本报告作者所持香港证监会牌照的中央编号已披露在报告上海品茶。一般性声明一般性声明本报告由中信建投制作。发送本报告不构成任何合同或承诺的基础，不因接收者收到本报告而视其为中信建投客户。本报告的信息均来源于中信建投认为可靠的公开资料，但中信建投对这些信息的准确性及完整性不作任何保证。本报告所载观点、评估和预测仅反映本报告出具日该分析师的判断，该等观点、评估和预测可能在不发出通知的情况下有所变更，亦有可能因使用不同假设和标准或者采用不同分析方法而与中信建投其他部门、人员口头或书面表达的意见不同或相

52、反。本报告所引证券或其他金融工具的过往业绩不代表其未来表现。报告中所含任何具有预测性质的内容皆基于相应的假设条件，而任何假设条件都可能随时发生变化并影响实际投资收益。中信建投不承诺、不保证本报告所含具有预测性质的内容必然得以实现。本报告内容的全部或部分均不构成投资建议。本报告所包含的观点、建议并未考虑报告接收人在财务状况、投资目的、风险偏好等方面的具体情况，报告接收者应当独立评估本报告所含信息，基于自身投资目标、需求、市场机会、风险及其他因素自主做出决策并自行承担投资风险。中信建投建议所有投资者应就任何潜在投资向其税务、会计或法律顾问咨询。不论报告接收者是否根据本报告做出投资决策，中信建投都不

53、对该等投资决策提供任何形式的担保，亦不以任何形式分享投资收益或者分担投资损失。中信建投不对使用本报告所产生的任何直接或间接损失承担责任。在法律法规及监管规定允许的范围内，中信建投可能持有并交易本报告中所提公司的股份或其他财产权益，也可能在过去12个月、目前或者将来为本报告中所提公司提供或者争取为其提供投资银行、做市交易、财务顾问或其他金融服务。本报告内容真实、准确、完整地反映了署名分析师的观点，分析师的薪酬无论过去、现在或未来都不会直接或间接与其所撰写报告中的具体观点相联系，分析师亦不会因撰写本报告而获取不当利益。本报告为中信建投所有。未经中信建投事先书面许可，任何机构和/或个人不得以任何形式

54、转发、翻版、复制、发布或引用本报告全部或部分内容，亦不得从未经中信建投书面授权的任何机构、个人或其运营的媒体平台接收、翻版、复制或引用本报告全部或部分内容。版权所有，违者必究。中信建投证券研究发展部中信建投证券研究发展部中信建投（国际）中信建投（国际）北京东城区朝内大街2号凯恒中心B座12层电话：(8610)8513-0588联系人：李祉瑶邮箱：上海浦东新区浦东南路528号南塔2103室电话：(8621)6882-1612联系人：翁起帆邮箱：深圳福田区福中三路与鹏程一路交汇处广电金融中心35楼电话：（86755）8252-1369联系人：曹莹邮箱：香港中环交易广场2期18楼电话：（852）3465-5600联系人：刘泓麟邮箱：charleneliucsci.hk26