您的当前位置：上海品茶 > 报告分类 > PDF报告下载

报告预览

AGI+机器人行业深度报告：AGI赋能人形机器人具身智能时代有望加速到来-231111（32页）.pdf

编号：145713

PDF DOCX 32页 2.61MB 下载积分：VIP专享

下载报告请您先登录！

AGI+机器人行业深度报告：AGI赋能人形机器人具身智能时代有望加速到来-231111（32页）.pdf

1、机械设备/行业深度分析报告/2023.11.11 请阅读最后一页的重要声明！AGI+机器人行业深度报告证券研究报告投资评级投资评级:看好看好(维持维持)最近 12 月市场表现分析师分析师佘炜超 SAC 证书编号：S02 分析师分析师刘俊奇 SAC 证书编号：S02 分析师分析师孟欣 SAC 证书编号：S02 联系人联系人孙瀚栋相关报告 1.工信部印发人形机器人指导意见，产业化加速 2023-11-10 2.力传感器深度研究报告 2023-10-06 3.精密减速器行业深度报告 2023-09

2、-05 AGI 赋能人形赋能人形机器人，具身智能时代有望机器人，具身智能时代有望加加速到来速到来核心观点核心观点 AGI 起于大起于大语言语言模型，终于具身智能模型，终于具身智能。AGI（Artificial General Intelligence），即通用人工智能，也称强人工智能，指的是具备与人类同等甚至超越人类的智能，能表现出正常人类所具有的所有智能行为。AGI 技术实现突破，离不开LLM 大模型和多模态能力，在两者结合下，AI 具备了创造力。具身智能是迈向通用人工智能（AGI）的重要一步，国内外大厂及高等学府均开展了具身智能的相关研究，如微软、谷歌、斯坦福、达闼机器人、智元机器人等。

3、人形机器人是人形机器人是 AGI 最佳载体，业界研究进展加速最佳载体，业界研究进展加速。谷歌的 RT-1 是迈向视觉语言动作（VLA）模型的一个尝试，通过吸收大量的真实数据，提升机器性能和泛化能力；RT-2 是全球首个控制机器人的 VLA 模型，将视觉语言模型（VLM）与机器人操作能力结合，在泛化能力和涌现能力上均有明显提升。GPT-4 是 OpenAI 发布的最新 GPT 系列模型，是一个大规模的多模态模型，已应用在 Ameca 和 Eureka 等机器人上；GPT-4V(ision)新增语言、图像交互功能。Meta 和 CMU 联合打造出 RoboAgent，突破了缺乏足够庞大的数据集来训

4、练通用智能体和缺乏能够生成此类数据的通用智能体的困境。特斯拉链接 FSD和机器人的底层模块，使用端到端的神经网络，助力 Optimus 在任务操作方面展现出先进性。“机器人“机器人+大模型”是迈向大模型”是迈向 AGI 时代的有效途径时代的有效途径：人工智能大模型的语言处理能力可以被看作“大脑”，若想真正发挥通用人工智能的力量，未来的AGI 需要有具身实体。LLM 有助于实现任务级编程/交互，整个过程基本不需要或者仅需少量人类的介入和确认，降低了机器人的使用门槛。多模态大模型使得机器人开始理解如何合理使用多种输出能力来更好的完成任务。但我们离通用人工智能还很遥远，仍然存在许多尚未解决的重大问题

5、，如多模态融合、安全性、高质量训练数据缺乏等。投资投资建议建议：AGI 是人工智能未来发展的方向，LLM 和多模态推动 AGI 实现技术上的突破，“机器人+大模型”为 AGI 走进物理世界提供了更多的可能性。随着谷歌、OpenAI、Meta 和特斯拉等科技大厂以及斯坦福等高等学府纷纷投入 AGI 的研究中，“机器人+大模型”将会进入发展的快车道，带动机器人软件和硬件系统的迭代升级，具有较好的发展前景。建议关注机器人整机领域的公司，如三花智控、拓普集团、埃斯顿、亿嘉和、博实股份、德昌股份等。风险提示：风险提示：特斯拉人形机器人量产进展不及预期；国产化替代进展不及预期；制造业景气度恢复低于预期等。

6、-10%-6%-2%3%7%11%机械设备沪深300上证指数谨请参阅尾页重要声明及财通证券股票和行业评级标准 2 行业深度分析报告/证券研究报告表表 1：重点公司投资评级：重点公司投资评级:代码代码公司公司总市值总市值（亿元）（亿元）收盘价收盘价（11.10）EPS（元）（元）PE 投资评级投资评级 2022A 2023E 2024E 2022A 2023E 2024E 002050 三花智控 1,033.94 27.70 0.72 0.91 1.11 29.47 30.44 24.95 增持 601689 拓普集团 769.23 69.80 1.54 2.14 2.83 38.04

7、32.62 24.66 买入 002747 埃斯顿 174.17 20.03 0.19 0.33 0.56 114.11 60.70 35.77 增持 603666 亿嘉和 66.99 32.44 -0.47 0.47 1.96 -67.49 69.06 16.55 未覆盖 002698 博实股份 144.08 14.09 0.44 0.66 0.87 32.19 21.30 16.24 未覆盖 605555 德昌股份 82.11 22.05 1.12 0.90 1.02 18.08 24.62 21.68 未覆盖数据来源：wind 数据，财通证券研究所（未覆盖公司预测数据来自 wind 一

8、致预期）BXcVpZfWpXFYiXvW7NbP9PnPpPtRmPiNpOmNeRnMnRbRnMqQwMrNsRNZnNsP 谨请参阅尾页重要声明及财通证券股票和行业评级标准 3 行业深度分析报告/证券研究报告 1 AGI 的关键拼图：起于大模型，终于具身智能的关键拼图：起于大模型，终于具身智能.5 1.1 大语言模型百家争鸣，推动弱人工智能向通用人工智能跃升大语言模型百家争鸣，推动弱人工智能向通用人工智能跃升.5 1.2 具身智能助力具身智能助力 AGI 走进现实走进现实.8 2 人形机器人是人形机器人是 AGI 最佳载体，业界研究进展加速最佳载体，业界研究进展加速.9 2.1 从从 R

9、T-1 到到 RT-2，谷歌演进式打造全能机器人大脑，谷歌演进式打造全能机器人大脑.9 2.2 OpenAI 升级迭代升级迭代 GPT，推动机器人，推动机器人“大脑大脑”升级升级.14 2.3 Meta 与与 CMU 联手打造联手打造 RoboAgent，用更少的数据训练更强的具身智能体，用更少的数据训练更强的具身智能体.18 2.4 特斯拉打通自动驾驶的特斯拉打通自动驾驶的 FSD 算法与机器人板块，算法与机器人板块，Optimus 迎来新进展迎来新进展.22 3 机器人拥抱大模型：迈向机器人拥抱大模型：迈向 AGI 的曙光与挑战的曙光与挑战.24 3.1 大模型大模型+机器人：机器人：AG

10、I 如何走向物理世界？如何走向物理世界？.24 3.2 大模型大模型+机器人还在路上，机器人还在路上，AGI 道阻且长道阻且长.26 4 国内核心公司介绍国内核心公司介绍.28 5 投资建议投资建议.30 6 风险提示风险提示.31 图图 1.人工智能历史时间表人工智能历史时间表.5 图图 2.人工智能层次关系人工智能层次关系.6 图图 3.大语言模型（大语言模型（LLM）发展的三个阶段）发展的三个阶段.7 图图 4.AGI 应用场景例举应用场景例举.8 图图 5.国外具身智能相关研究国外具身智能相关研究.9 图图 6.从从 LLM 到到 VLM 到到 VLA.10 图图 7.RT-1 模型架

11、构模型架构.11 图图 8.RT-1 的实验结果的实验结果.11 图图 9.表示机器人动作的文本字符串表示机器人动作的文本字符串.12 图图 10.RT-2 模型架构模型架构.12 图图 11.RT-2 的三大泛化能力：推理、符号理解、人类识别的三大泛化能力：推理、符号理解、人类识别.13 图图 12.RT-2 与基线的泛化能力对比情况与基线的泛化能力对比情况.13 图图 13.RT-2 与基线的涌现能力对比情况与基线的涌现能力对比情况.14 内容目录图表目录谨请参阅尾页重要声明及财通证券股票和行业评级标准 4 行业深度分析报告/证券研究报告图图 14.RT-2 模型具有思维链推理能力模

12、型具有思维链推理能力.14 图图 15.GPT3.5 和和 GPT4 的部分考试成绩的部分考试成绩.15 图图 16.GPT4 进行图像分析示例进行图像分析示例.16 图图 17.ChatGPT 与与 GPT4 逻辑推理能力比较示例逻辑推理能力比较示例.16 图图 18.Ameca 搭载搭载 GPT3 输出愤怒情绪输出愤怒情绪.17 图图 19.Eureka 执行复杂动作示意图执行复杂动作示意图.18 图图 20.AI Agents 架构图架构图.19 图图 21.MT-ACT 指导下指导下 RoboAgent 完成任务图示完成任务图示.19 图图 22.RoboAgent 两阶段学习框架两阶

13、段学习框架.20 图图 23.RoboSet 数据集轨迹的技能分布数据集轨迹的技能分布.21 图图 24.数据增强方法图解数据增强方法图解.21 图图 25.MT-ACT 的策略体系结构的策略体系结构.22 图图 26.FSD 算法利用传感器数据进行环境感知算法利用传感器数据进行环境感知.22 图图 27.Optimus 在在 Occupancy Networks 模型的帮助下识别环境空间模型的帮助下识别环境空间.23 图图 28.Optimus 自主地将物体按颜色进行分类自主地将物体按颜色进行分类.24 图图 29.完整机器人系统构成完整机器人系统构成.25 图图 30.大模型能力与机器人需

14、求的映射关系大模型能力与机器人需求的映射关系.25 图图 31.机器人控制框架机器人控制框架.26 图图 32.机器人多输入输出能力机器人多输入输出能力.26 图图 33.具身机器人四大挑战具身机器人四大挑战.27 图图 34.大模型大模型+机器人还处在快速发展路上机器人还处在快速发展路上.28 表表 1.AGI 存在不同的研究视角存在不同的研究视角.6 表表 2.AGI 的特征的特征.7 表表 3.具身智能核心要素具身智能核心要素.8 表表 4.GPT 的迭代情况的迭代情况.15 表表 5.机器人接入机器人接入 GPT 的三个级别的三个级别.17 表表 6.RoboAgent 模块与要素模块

15、与要素.20 谨请参阅尾页重要声明及财通证券股票和行业评级标准 5 行业深度分析报告/证券研究报告 1 AGI 的关键拼图的关键拼图：起于大模型，终于具身智能：起于大模型，终于具身智能 1.1 大大语言语言模型模型百家争鸣，百家争鸣，推动弱人工智能向推动弱人工智能向通用人工智能通用人工智能跃升跃升 AGI（Artificial General Intelligence），即通用人工智能，也称强人工智能（Strong AI），指的是具备与人类同等甚至超越人类的智能，能表现出正常人类所具有的所具备与人类同等甚至超越人类的智能，能表现出正常人类所具有的所有智能行为有智能行为。这种人工智能系统可以比人

16、类更好更快地学习和执行任何任务，包括人类无法处理的任务。并且由于机器在速度、内存、通信和带宽方面的巨大优势，未来，通用人工智能在几乎所有领域都将远远超过人类的能力。Artificial Intelligence:A Modern Approach给出了人工智能的最新定义，即设计和构建智能体，这些智能体从环境中接收感知并采取影响环境的行动。如果以人类为中心来定义人工智能，即以人类的智能水平执行任务，那么人工智能需要感知、推理、推断、知识构建、决策和规划、学习、沟通以及高效改变和操纵环境的能力。人工智能大致分为三个主要层次弱人工智能（弱人工智能（ANI）、强人工智能）、强人工智能（AGI）和超人工

17、智能（）和超人工智能（ASI）。与 AGI 相比，传统的基于中小模型的弱人工智能聚焦某个相对具体的业务方面，采用相对中小参数规模的模型以及中小规模的数据集，然后实现相对确定、相对简单的人工智能场景应用。图1.人工智能历史时间表数据来源：渊亭防务公众号,财通证券研究所谨请参阅尾页重要声明及财通证券股票和行业评级标准 6 行业深度分析报告/证券研究报告图2.人工智能层次关系数据来源：渊亭防务公众号,客户世界机构公众号，财通证券研究所表1.AGI 存在不同的研究视角研究视角研究视角研究目标研究目标结构尽可能准确地模拟大脑结构行为完全模拟人类行为能力旨在解决人类可以解决的问题

18、功能模拟一系列认知功能原则将智能与理性或最优性联系起来数据来源：集智俱乐部公众号，财通证券研究所 AGI 技术实技术实现突破，现突破，离不开离不开 LLM 大模型和多模态能力大模型和多模态能力，在两者结合下，在两者结合下，AI 具备具备了创造力了创造力。大语言模型（LLM）是一种基于深度学习技术的大型预训练神经网络模型，与传统机器学习相比，LLM 具有更强的具有更强的泛化能力，在复杂任务理解、连续对话、零样泛化能力，在复杂任务理解、连续对话、零样本推理等方向有了突破进展本推理等方向有了突破进展。但大语言模型还不符合通用人工智能的要求：（1）处理任务方面的能力有限，LLM 只能处理文本

19、领域的任务，无法与物理和社会环境进行互动；（2）不具备自主能力，它需要人类来具体定义好每一个任务；（3）不具备理解人类价值或与人类价值保持一致的能力，即缺乏道德指南针。因此，单靠单靠 LLM 是无法实现是无法实现 AGI 的，的，需要让模型接触到更多的模态数据需要让模型接触到更多的模态数据。每一种信息的来源或者形式，都可以称为一种模态，例如人有触觉、听觉、视觉等。多模态，即从多个模态表达或感知事物，而多模态机器学习，指的是从多种模态的数据中学习并且提升自身的算法。基于 Transformer 的 ChatGPT 出现之后，之后的 AI 大模型基本上都逐渐实现了对多模态的支持：首先，可以通过文本

20、、图像、语音、视频等多模态的数据学习；并且，基于其中一个模态学习到的能力，可以谨请参阅尾页重要声明及财通证券股票和行业评级标准 7 行业深度分析报告/证券研究报告应用在另一个模态的推理；此外，不同模态数据学习到的能力还会融合，形成一不同模态数据学习到的能力还会融合，形成一些超出单个模态学习能力的新的能力些超出单个模态学习能力的新的能力。表2.AGI 的特征特征特征简介简介涌现当模型参数突破某个规模时，性能显著提升，并且表现出让人惊艳的、意想不到的能力，比如语言理解能力、生成能力、逻辑推理能力等等。多模态多种模态的数据里包含的信息，都可以被 AGI 统一理解，并转换成模型的能力。通

21、用性早期的 AI 模型非常碎片化的，每个场景都有不同的模型，最理想的 AI 模型是可以输入任何形式、任何场景的训练数据，可以学习到几乎所有的能力，可以做任何需要做的决策。数据来源：中国科学院半导体研究所公众号，财通证券研究所萌芽期是以 CNN 为代表的传统神经网络模型阶段；探索沉淀期是以 Transformer为代表的全新神经网络模型阶段，奠定了大模型的算法架构基础，使大模型技术的性能得到了显著提升；迅猛发展期是以 GPT 为代表的预训练大模型阶段，大数据、大算力和大算法完美结合，大幅提升了大模型的预训练和生成能力以及多模态多场景应用能力。图3.大语言模型（LLM）发展的三个阶段数据来源

22、：天翼智库公众号,财通证券研究所尽管 AGI 仍处于发展早期，但其已在包括文字、代码、图像、语音、视频等诸多领域和场景实现应用。目前，以谷歌、微软为代表的国际科技巨头和以百度、阿里等为典型的国内互联网集团纷纷押注大模型研发，旨在以更广的数据及语料规谨请参阅尾页重要声明及财通证券股票和行业评级标准 8 行业深度分析报告/证券研究报告模驱动 AGI 更广泛的商业化落地。据据红杉资本红杉资本预测，预测，AGI 有望提升有望提升 10%人类生人类生产力，或产生数万亿美元的经济价值产力，或产生数万亿美元的经济价值。图4.AGI 应用场景例举数据来源：36 氪研究院&MokaAGI 时代下的组织变

23、革研究报告：AGI 掀起生产力革命浪潮，组织迎来生产关系变革,财通证券研究所 1.2 具身智能助力具身智能助力 AGI 走进现实走进现实具身智能具身智能是是迈向通用人工智能（迈向通用人工智能（AGI）的重要一步）的重要一步。具身智能(Embodied AI)指的是有身体并支持物理交互的智能体。简单来说，就是让 AGI 从数字世界走向实体世界，落地在机器人、机械臂、无人车、无人机上，让实体世界中的机器人或仿真人具有智能，像人一样与环境交互感知，执行各种各样的任务。表3.具身智能核心要素核心要素核心要素简介简介本体是实际的执行者，是在物理或者虚拟世界进行感知和任务执行的机构，通常是具有物

24、理实体的机器人，可以有多种形态。智能体是具身于本体之上的智能核心，负责感知、理解、决策、控制等的核心工作。数据数据是泛化的关键，但涉及机器人的数据稀缺且昂贵。学习和进化架构智能体通过和物理世界（虚拟的或真实的）的交互，来适应新环境、学习新知识并强化出新的解决问题方法。数据来源：甲子光年公众号，财通证券研究所在基于在基于 Transformer 的大语言模型浪潮带领下，微软、谷歌、英伟达等大厂，以的大语言模型浪潮带领下，微软、谷歌、英伟达等大厂，以及斯坦福、卡耐基梅隆等高等学府均开展了具身智能的相关研究及斯坦福、卡耐基梅隆等高等学府均开展了具身智能的相关研究。微软基于ChatGPT 的强

25、大自然语言理解和推理能力，生成控制机器人的相关代码；英伟达VIMA 基于 T5 模型，将文本和多模态输入交错融合，结合历史信息预测机器人的下一步行动动作；谷歌具身智能路线较多，包括从 PaLM 衍生来的 PaLM-E，从Gato 迭代来的 RoboCat，以及最新基于 RT-1 和 PaLM-E 升级得到的 RT-2；苹果内部已经建立了大语言模型 Ajax，并推出了一个被称为 Apple GPT 的内部聊天机器人来测试其功能。斯坦福大学李飞飞团队研究指出，通过大语言模型加视觉语言模型，AI 能在 3D 空间分析规划，指导机器人行动，其最新研发成果 VoxPoser可以在没有额外数据和训练的情况

26、下，将自然语言指令转化为具体行动规划；加谨请参阅尾页重要声明及财通证券股票和行业评级标准 9 行业深度分析报告/证券研究报告州大学伯克利分校的 LM Nav，则通过视觉模型、语言模型、视觉语言模型 CLIP等三个大模型，让机器人在不看地图的情况下按照语言指令到达目的地。图5.国外具身智能相关研究数据来源：甲子光年公众号,财通证券研究所国内国内具身智能具身智能的的相关相关研究研究也也正持续推进正持续推进。达闼机器人在世界人工智能大会上发布了首个机器人领域的多模态人工智能大模型“RobotGPT”，能使接入云端大脑的机器人基于人工反馈的强化学习而不断提升学习能力，实现机器人理解人类语言，自

27、动分解、规划和执行任务，进行实时交互，完成复杂的场景应用，推动具身智能的自主进化，让云端机器人成为通用人工智能的最佳载体。智元机器人团队实现了自然语言端到端到机器人的映射，可以用自然语言让机器人编排整个任务，还能动态调整任务。2 人形人形机器人是机器人是 AGI 最佳载体，最佳载体，业界研究业界研究进展加速进展加速 2.1 从从 RT-1 到到 RT-2，谷歌演进式打造全能机器人大脑谷歌演进式打造全能机器人大脑 2017 年提出的年提出的 Transformer 架构是大语言模型（架构是大语言模型（LLM）的最底层的基座，但）的最底层的基座，但Transformer 不止可以应用于大语言模型中

28、，也可以用于训练其他类型的数据不止可以应用于大语言模型中，也可以用于训练其他类型的数据。在大语言模型（LLM）中，语言被编码为向量，研究员们为模型提供大量的语料，使其具备上下文学习、指令遵循和推理等能力，借此生成语言回答。而在视觉语言模型（VLM）中，模型可以将图像信息编码为与语言类似的向量，让模型既能理解文字，又能以相同方式理解图像。研究员们为模型提供大量的语料和图像，使其能够执行视觉问答、为图像添加字幕和物品识别等任务。视觉和语言数据属于被动数据，可由人类提供，而机器人的动作数据属于主动数视觉和语言数据属于被动数据，可由人类提供，而机器人的动作数据属于主动数据，来源于机器人自身，获取难度大

29、、成本高据，来源于机器人自身，获取难度大、成本高。RT-1 是迈向视觉语言动作（VLA）谨请参阅尾页重要声明及财通证券股票和行业评级标准 10 行业深度分析报告/证券研究报告模型的一个尝试，它的数据集包含了视觉、语言和机器人动作三个维度，但 RT-1的能力很大程度上由数据集和任务集决定，对新指令的泛化仅限于以前见过的概念的组合，且要进一步扩大数据集规模是一件非常困难的事。图6.从 LLM 到 VLM 到 VLA 数据来源：Aakanksha Chowdhery 等 PaLM:Scaling Language Modeling with Pathways 等 Google 相关论文整理、财通证

30、券研究所通过从大型的、多样化的、与任务无关的数据集中迁移知识，现代机器学习模型能够以较高的性能解决特定的下游任务，但这种能力在机器人领域仍有待进一步的应用考证。主要的挑战有两点：1）缺乏大规模和多样化的机器人数据缺乏大规模和多样化的机器人数据，这限制了模型吸收广泛机器人经验的能力；2）泛化能力不足泛化能力不足，缺乏可从此类数据集中学习并有效泛化的表达力强、可扩展且速度足够快的实时推理模型。2022 年年 12 月，谷歌推出了月，谷歌推出了 RT-1（Robotics Transformer 1）,有效应对以上两点挑有效应对以上两点挑战，推动机器学习在机器人领域的应用战，推动机器学习在机器人领

31、域的应用。RT-1 建立在 Transformer 架构上，它能从机器人的相机中获取图像历史记录同时将以自然语言表达的任务描述作为输入，通过预训练的 FiLM EfficientNet 模型将它们编码为 token，然后通过 TokenLearner将大量标记映射到数量更少的标记中，实现标记压缩，最后经 Transformer 输出动作标记。动作包括手臂运动的 7 个维度（x、y、z、滚动、俯仰、偏航、打开夹具），移动底座的 3 个维度（x、y、偏航），以及在三种模式（控制手臂、底座或终止）之间切换的 1 个离散变量。谨请参阅尾页重要声明及财通证券股票和行业评级标准 11 行业深度分析报告/证

32、券研究报告图7.RT-1 模型架构数据来源：Anthony Brohan 等RT-1:Robotics Transformer For Real-World Control At Scale、财通证券研究所 RT-1 通过吸收大量的真实数据，让机器人胜任不同环境下的多种任务，从而提升通过吸收大量的真实数据，让机器人胜任不同环境下的多种任务，从而提升机器性能和泛化能力机器性能和泛化能力。RT-1 是在一个由 13 台机器人历时 17 个月收集的包含 13万个事件和超过 700 个任务的大型真实世界机器人数据集上训练而成的。RT-1 的性能优于之前发布的基线，能够以 97%的成功率执行 700

33、多条指令，并能有效地泛化到新的任务、对象和环境中。此外，RT-1 可以成功吸收来模拟环境和其他机器人的异构数据，不仅不牺牲在原始任务上性能，还提高了对新场景的泛化能力。图8.RT-1 的实验结果数据来源：Anthony Brohan 等RT-1:Robotics Transformer For Real-World Control At Scale、财通证券研究所 2023 年年 7 月月 28 日，日，Google DeepMind 推出全球首个控制机器人的推出全球首个控制机器人的 VLA 模型模型 RT-2（Robotics Transformer 2），可以从网络和机器人数据中学习，

34、并将这些知识转），可以从网络和机器人数据中学习，并将这些知识转化为机器人控制的通用指令化为机器人控制的通用指令。RT-2 以两个已接受网络规模数据训练的视觉语言模型（VLM）PaLM-E 和 PaLI-X 为支柱，相当于赋予机器人规模足够大的数据库，使其具备识别物体和了解物体相关信息的能力。进一步，RT-2 还使用了 RT-1 的数据集进行联合微调，通过加入机器人动作数据进行训练，使其具备动作执行能力。具体来说，研究人员将机器人的动作表示为另一种语言，可以将其转换为文本标记，并与互联网规模的视觉语言数据集一起进行训练。在推理过程中，文本标记被去标记化为机器人动作，从而实现闭环控制。谨请参阅尾页

35、重要声明及财通证券股票和行业评级标准 12 行业深度分析报告/证券研究报告图9.表示机器人动作的文本字符串数据来源：Google DeepMind、财通证券研究所图10.RT-2 模型架构数据来源：Anthony Brohan 等RT-2:Vision-Language-Action Models Transfer Web Knowledge to Robotic Control、财通证券研究所通过将视觉语言模型与机器人操作能力结合，将网络规模预训练的通过将视觉语言模型与机器人操作能力结合，将网络规模预训练的 VLM 在语义在语义和视觉上的泛化、语义理解和推理等能力有效转移，实现机器

36、人版和视觉上的泛化、语义理解和推理等能力有效转移，实现机器人版 ChatGPT。因而在泛化能力之外，RT-2 还具备三个涌现能力：1）推理（Reasoning）：RT-2 的核心优势，要求机器人掌握数学、视觉推理和多语言理解三大技能；2）符号理解（Symbol understanding）：能将大模型预训练的知识，直接延展到机器人此前没见过的数据上；3）人类识别（Human recognition）：能够准确识别人类。谨请参阅尾页重要声明及财通证券股票和行业评级标准 13 行业深度分析报告/证券研究报告图11.RT-2 的三大泛化能力：推理、符号理解、人类识别数据来源：Anthony Br

37、ohan 等RT-2:Vision-Language-Action Models Transfer Web Knowledge to Robotic Control、财通证券研究所与基线相比，与基线相比，RT-2 在泛化能力和涌现能力上均有明显提升在泛化能力和涌现能力上均有明显提升。在泛化能力上，对于未见过的物体、背景和环境，RT-2 的表现均明显优于基线，平均泛化性能大约为RT-1 的 2 倍；在涌现能力上，从符号理解、推理和人类识别这三个细分能力看，RT-2 的两个变体都比基线好很多，平均性能最高可达 3 倍以上。图12.RT-2 与基线的泛化能力对比情况数据来源：Anthony Br

38、ohan 等RT-2:Vision-Language-Action Models Transfer Web Knowledge to Robotic Control、财通证券研究所谨请参阅尾页重要声明及财通证券股票和行业评级标准 14 行业深度分析报告/证券研究报告图13.RT-2 与基线的涌现能力对比情况数据来源：Anthony Brohan 等RT-2:Vision-Language-Action Models Transfer Web Knowledge to Robotic Control、财通证券研究所具有思维链推理能力的具有思维链推理能力的 RT-2 能够执行更复杂的指令能

39、够执行更复杂的指令。研究人员对 RT-2 的一个变体与 PaLM-E 进行了微调，并对数据进行扩充，增加了“计划（Plan）”步骤，该步骤首先用自然语言描述了机器人将要采取的行动的目的，然后是实际的行动符号。定性结果表明，具有思维链推理能力的 RT-2 能够执行更复杂的指令，因为它可以先用自然语言规划自己的行动。图14.RT-2 模型具有思维链推理能力数据来源：Anthony Brohan 等RT-2:Vision-Language-Action Models Transfer Web Knowledge to Robotic Control、财通证券研究所 2.2 OpenAI 升级迭代升

40、级迭代 GPT，推动推动机器人“大脑”机器人“大脑”升级升级 GPT（Generative Pre-Training）是）是 OpenAI 于于 2018 年推出的第一代生成式预训年推出的第一代生成式预训练模型练模型。此前，NLP 任务需要通过大规模数据集来进行有监督的学习，需要进行成本高昂的数据标注工作。GPT 通过将无监督的预训练和有监督的微调结合，为NLP 任务提供一种普适的半监督学习方式。谨请参阅尾页重要声明及财通证券股票和行业评级标准 15 行业深度分析报告/证券研究报告 GPT-4 是是 OpenAI 发布的最新发布的最新 GPT 系列模型系列模型，是目前最强的文本生成模型是目前最

41、强的文本生成模型。它是一个大规模的多模态模型，可以接受图像和文本输入，产生文本输出。GPT-4 突破纯文字的模态，增加了图像模态的输入，具有强大的图像理解能力，复杂任务处理能力大幅提升，同时改善幻觉、安全等局限性，其能力已在各种专业和学术基准上表现出了人类的水平。表4.GPT 的迭代情况模型模型发布时间发布时间参数量参数量具体内容具体内容 GPT 2018 1.17 亿第一代生成式预训练模型，通过将无监督的预训练和有监督的微调结合，为 NLP 任务提供一种普适的半监督学习方式。GPT-2 2019 15 亿相比 GPT，GPT-2 并没有进行过多的架构创新，只使用了更多的网络参数与

42、更大的数据集，进一步证明了无监督学习在 NLP 领域的潜力。GPT-3 2020 1750 亿较之 GPT-2，GPT-3 在数据量和模型规模上都进行了极大的提升。GPT-3 在执行零样本学习和少样本学习任务时具有惊人表现，它可以通过非常少量的样本数据来完成各种任务，甚至可以完成从未见过的任务。GPT-3.5（ChatGPT）2022 约 1750 亿 GPT-4 发布之前的预热模型，与 GPT-3 的主要区别在于新加入了被称为 RLHF（人类反馈强化学习）的方法，该技术在训练循环中使用人类反馈来最大限度地减少有害、不真实或有偏见的输出。GPT-4 2023 估计 10 万亿100 万亿不

43、仅回答准确性大幅提高，还具备更高水平的识图能力，更强大的高级推理能力，且能够生成歌词、创意文本，实现风格变化。此外，GPT-4 的文字输入限制也提升至 2.5 万字，且对于英语以外的语种支持更多优化。数据来源：天津大学图书馆公众号，腾讯云开发者公众号，财通证券研究所图15.GPT3.5 和 GPT4 的部分考试成绩数据来源：MetaPost 公众号、财通证券研究所谨请参阅尾页重要声明及财通证券股票和行业评级标准 16 行业深度分析报告/证券研究报告 2023 年年 9 月月 25 日，日，OpenAI 宣布推出宣布推出 GPT-4V(ision)，新增语言、图像交互功能，新增语言、图像交

44、互功能。GPT-4V 的开发完成于 2022 年，并在 2023 年 3 月开始提供早期体验。GPT-4V 的训练策略与 GPT-4 保持一致，首先采用大量的文本和图像资料进行初步训练，随后通过人类反馈的强化学习进行细化调整。训练后的 GPT-4V 允许输入图像、子图像、文本、场景文本和视觉指针，展现了指令遵循、思维链和上下文少样本学习等学习能力。同时同时，OpenAI 正式官宣正式官宣 ChatGPT 升级为多模态通用大模型升级为多模态通用大模型。多模态 ChatGPT 的主要更新点包括：（1）图像分析图像分析：升级后的多模态 GPT3.5 和 GPT4 能够解读图片中的内容，并根据图像信息

45、进行响应。（2）语音处理语音处理：增加了语音交互功能。其语音识别采用 OpenAI 的 Whisper 模型。对于语音合成功能，OpenAI 采用新颖的“文本转语音模型”。（3）推理能力推理能力：较之 ChatGPT，GPT-4 能解决逻辑更为复杂的问题。图16.GPT4 进行图像分析示例数据来源：OpenAI，财通证券研究所图17.ChatGPT 与 GPT4 逻辑推理能力比较示例数据来源：OpenAI，财通证券研究所类类 GPT 技术技术为机器人带来最核心进化是对话理解能力为机器人带来最核心进化是对话理解能力。具备了多模态思维链能力的 GPT-4 模型具有一定逻辑分析能力，已经不是

46、传统意义上的词汇概率逼近模型。此外，在机器人研发和制造环节，类 GPT 技术也促进机器人研发制造环节效率提高。机器人接入 GPT 的可以粗略分为 L0L2 三个级别：谨请参阅尾页重要声明及财通证券股票和行业评级标准 17 行业深度分析报告/证券研究报告表5.机器人接入 GPT 的三个级别级别级别具体内容具体内容 L0 仅接入大模型官方 API，几乎没有做二次开发，难度系数较低 L1 在接入大模型的基础上，结合场景理解满足需求做产品开发 L2 接入大模型的机器人企业基于本地知识做二次开发，甚至得到自己的（半）自研大模型（平民化大模型），解决场景问题，产品能做出来、卖出去数据来源：智东西公

47、众号，财通证券研究所 GPT-3、GPT-3.5以及以及 GPT-4 发布之后发布之后，Engineered Arts便将它们接入到了便将它们接入到了 Ameca机器人机器人的“大脑”的“大脑”中中。有了 GPT-3/3.5 的 Ameca 可以像专家一样与工程师们谈笑风生，也能快速对答网友的提问，而不再是此前实验室里只会做 20 多种丰富表情的仿生机器人，它有了自主性。而有了 GPT-4 意识能力加持的的 Ameca 已经可以通过丰富表情来让人类形成多层对话意图的理解，成功从一个快问快答急于表现的“聪明人”，变成了一个深邃娓娓道来的“智者”。图18.Ameca 搭载 GPT3 输出愤怒情绪

48、数据来源：21 世纪英文报公众号，财通证券研究所英伟达英伟达基于基于 GPT-4 打造打造 Eureka，可自动训练实体机器人的动作指令，可自动训练实体机器人的动作指令，具备零样具备零样本生成、编写代码和语境改进等能力，可对强化学习的奖励设计流程、代码进行本生成、编写代码和语境改进等能力，可对强化学习的奖励设计流程、代码进行大幅度优化，达到人类专家级水平大幅度优化，达到人类专家级水平。Eureka 利用 GPT-4 生成出的奖赏设计方案可助力机器人的试错（trial-and-error）学习，并能够起到接替 80%人类专家的任务，从而使机器人平均训练效率提升超过50%。并且，在Eureka生

49、成奖赏设计方案时，谨请参阅尾页重要声明及财通证券股票和行业评级标准 18 行业深度分析报告/证券研究报告开发者不需要额外输入任务提示或撰写预定义的奖赏范本，只需结合人工修正奖赏使机器人动作更符合开发人员的意图。图19.Eureka 执行复杂动作示意图数据来源：中国机器人网公众号，财通证券研究所 2.3 Meta 与与 CMU 联手打造联手打造 RoboAgent，用更少的数据训练更强的具用更少的数据训练更强的具身智能体身智能体 ChatGPT 获得巨大成功后，获得巨大成功后，OpenAI 已然奔向下一个目标已然奔向下一个目标AI Agents（智能（智能体）。体）。无独有偶，Meta也看到

50、了AI Agents的机会。今年3、4月份，Camel、AutoGPT、BabyAGI、西部世界小镇等多个 AI Agents 产品陆续推出。AI Agents 可以定义为基于可以定义为基于 LLM 驱动的驱动的 Agent 实现对通用问题的自动化处理。实现对通用问题的自动化处理。AI Agents 代替人类与 GPT 等大语言模型（Large Language model,LLM）进行反复交互，只要给定目标，它便可以模拟智能行为，自主创建任务、重新确定任务列表优先级、完成首要任务，并循环直到目标达成。LLM 主要是一个被动的工具，但AI Agents 可以在没有人类控制的情况下独立运行。通过

51、接入 API，AI Agents 甚至可以浏览网页、使用应用程序、读写文件、使用信用卡付款等等。从架构来说，从架构来说，AI Agents 就是以就是以 LLM 为大脑，再赋予任务规划能力、长短期记忆为大脑，再赋予任务规划能力、长短期记忆力、工具使用能力，即可实现自动化处理更复杂的任务。力、工具使用能力，即可实现自动化处理更复杂的任务。通过建立思维链来实现模型的连续思考和决策，AI Agents 可以分析复杂问题，并将其拆解成简单、细化的子任务。谨请参阅尾页重要声明及财通证券股票和行业评级标准 19 行业深度分析报告/证券研究报告图20.AI Agents 架构图数据来源：LLM Powe

52、red Autonomous Agents，财通证券研究所“RoboAgent”是被是被来来自自 Meta、CMU 的研究人员用了的研究人员用了 2 年的时间打造出年的时间打造出的的通用机通用机器人智能体器人智能体，突破突破了了缺乏足够庞大的数据集来训练通用智能体缺乏足够庞大的数据集来训练通用智能体和和缺乏能够生成此缺乏能够生成此类数据的通用智能体类数据的通用智能体的的困境困境。研究员们将重点放在开发一种高效的范例上，能够在实际数据有限的情况下训练一个能够获得多种技能的通用智能体，并将这些技能推广应用于多样的未知情境。为实现这一目标，Meta 和 CMU 开发了一个高效的系统MT-ACT，即多

53、任务行动分块转换器（Multi-Task Action Chunking Transformer）用于训练通用机器人。该系统的核心原理是，在现有机器人经验的基础上创建一个多样化的语义增强集合来倍增离线数据集，并采用一种具有高效策略表示的新型策略架构，以在数据预算范围内恢复高性能策略。在 MT-ACT 加持下，RoboAgent 能够在 6 大活动情景，38 个任务中，实现 12 个操作技能，能力泛化可达到 100 种未知场景。图21.MT-ACT 指导下 RoboAgent 完成任务图示数据来源：Homanga Bharadhwaj 等 RoboAgentGeneralization and

54、 Efficiency in Robot Manipulation via Semantic Augmentations and Action Chunking，财通证券研究所具体来看 RoboAgent 的运行原理，RoboAgent 建立在以下模块化和可补偿的要素之上：谨请参阅尾页重要声明及财通证券股票和行业评级标准 20 行业深度分析报告/证券研究报告表6.RoboAgent 模块与要素名称名称介绍介绍 RoboPen 利用商品硬件构建的分布式机器人基础设施，能够长期不间断运行。RoboHive 跨仿真和现实世界操作的机器人学习统一框架。RoboSet 一个高质量的数据集，代表不

55、同场景中日常对象的多种技能。MT-ACT 一种高效的语言条件多任务离线模仿学习框架。它通过在现有机器人经验的基础上创建一个多样化的语义增强集合来倍增离线数据集，并采用一种具有高效动作表示法的新型策略架构，以在数据预算范围内恢复高性能策略。数据来源：RoboAgent 官方介绍网站，财通证券研究所 RoboAgent 基于两个关键的阶段来学习低数据环境下的通用策略。基于两个关键的阶段来学习低数据环境下的通用策略。它利用来自基础模型的世界先验知识来避免模式崩溃，并采用一种能够摄取高度多模式数据的新型高效策略表示法。（1）语义增强（语义增强（Semantic Augmentations）：）：Rob

56、oAgent 通过对 RoboSet（MT-ACT）进行语义增强，将来自现有基础模型的世界先验知识注入其中。由此产生的数据集可在不增加人类/机器人成本的情况下，将机器人的经验与世界先验相乘。（2）高效的策略表示（高效的策略表示（Efficient Policy Representation）：）：由此产生的数据集具有高度的多模态性，包含丰富多样的技能、任务和场景。Meta 和 CMU 将动作分块适应于多任务设置，开发出 MT-ACT一种新颖高效的策略表示，既能摄取高度多模态的数据集，又能在低数据预算设置中避免过度拟合。图22.RoboAgent 两阶段学习框架数据来源：Homanga Bha

57、radhwaj 等 RoboAgentGeneralization and Efficiency in Robot Manipulation via Semantic Augmentations and Action Chunking，财通证券研究所从数据集从数据集 RoboSet 出发，经过数据出发，经过数据/语义增强处理，进而经由语义增强处理，进而经由 MT-ACT 策略处理，策略处理，便是便是 RoboAgent 的核心原理的核心原理。下面对各个部分和步骤进行详细介绍。用于训练用于训练 RoboAgent 的数据集的数据集 RoboSet(MT-ACT)仅包含仅包含 7500 条轨迹，

58、比条轨迹，比 RT-1少少 18 倍。倍。该数据集由在商品机器人硬件（配备 Robotiq 夹具的 Franka-Emika 机器谨请参阅尾页重要声明及财通证券股票和行业评级标准 21 行业深度分析报告/证券研究报告人）上使用人类远程操作收集的高质量轨迹组成，涉及多个任务和场景。RoboSet（MT-ACT）涵盖了几个不同场景中的 12 种独特技能。收集该数据集的方法是将日常厨房活动（如泡茶、烘焙）划分为不同的子任务，每个子任务代表一种独特的技能。该数据集包括常见的拾取-放置技能，也包括擦拭、盖盖子等接触性较强的技能以及涉及铰接物体的技能。图23.RoboSet 数据集轨迹的技能分布数据

59、来源：Homanga Bharadhwaj 等 RoboAgentGeneralization and Efficiency in Robot Manipulation via Semantic Augmentations and Action Chunking，财通证券研究所机器人数据机器人数据+语义增强满足训练场景和数据多样性需求。语义增强满足训练场景和数据多样性需求。一般来说，有用的机器人操纵系统需要能够处理分布以外的场景（例如不同的家庭和办公室）。研究人员使用两种场景增强技术增强交互对象和增强背景，来使数据倍增，泛化到有不同的背景和不同交互对象的场景。同时，基于最近在分割和局部重绘模

60、型方面取得的进展，研究人员从互联网数据中提炼出真实世界的语义先验，以结构化的方式修改场景，进一步满足训练对场景和物体多样性的需求。图24.数据增强方法图解数据来源：Homanga Bharadhwaj 等 RoboAgentGeneralization and Efficiency in Robot Manipulation via Semantic Augmentations and Action Chunking，财通证券研究所 MT-ACT 策略架构设计策略架构设计是是一个有足够容量的一个有足够容量的 Transformer 的模型，可以处理多模的模型，可以处理多模态多任务机器人数据集

61、态多任务机器人数据集，也是，也是 RoboAgent 的核心架构的核心架构。谨请参阅尾页重要声明及财通证券股票和行业评级标准 22 行业深度分析报告/证券研究报告图25.MT-ACT 的策略体系结构数据来源：Homanga Bharadhwaj 等 RoboAgentGeneralization and Efficiency in Robot Manipulation via Semantic Augmentations and Action Chunking，财通证券研究所 2.4 特斯拉特斯拉打通打通自动驾驶的自动驾驶的 FSD 算法与机器人板块算法与机器人板块，Optimus 迎来新

62、迎来新进展进展特斯拉的 FSD 是指全自动驾驶系统，包含多个传感器、计算能力较强的计算机、先进的人工智能技术和算法，以及相应的导航和地图数据等组成部分，使得车辆在各类交通环境中具备感知、决策和控制的能力。而特斯拉机器人特斯拉机器人 Optimus 将使将使用与该公司电动汽车相同的用与该公司电动汽车相同的 FSD 系统，系统，FSD 和机器人的底层模块之间实现了链和机器人的底层模块之间实现了链接接。图26.FSD 算法利用传感器数据进行环境感知数据来源：量子位公众号，财通证券研究所 Occupancy Networks 是特斯拉在自动驾驶汽车上的神经网络模型是特斯拉在自动驾驶汽车上的神经网络

63、模型，这是让Optimus 机器人感知并理解周围环境的重要技术，绿色代表人类，紫色代表地面，而白色则代表不重要的物品但不能碰到，暗红色则代表预设任务目标，蓝色代表的是工具，青色代表的自己身体。从演示的画面来看，在 Occupancy Networks 这谨请参阅尾页重要声明及财通证券股票和行业评级标准 23 行业深度分析报告/证券研究报告套模型下的帮助下 Optimus 对环境空间有着相对精准的识别能力，通过基这套神经网络模型的学习和训练，Optimus 就能清楚的知道自己位置，具备分析与执行的工作能力，包括即将需要去做的工作，如何完成工作等。图27.Optimus 在 Occupancy

64、 Networks 模型的帮助下识别环境空间数据来源：机器人大讲堂公众号，财通证券研究所 2023 年年 9 月月 24 日日，特斯拉，特斯拉 Optimus 迎来迎来了了新的进展新的进展，它可以自主地对物体进行，它可以自主地对物体进行分类了分类了。其中的亮点是神经网络完全端到端训练端到端训练：输入视频，输出控制，这类似于特斯拉自动驾驶 FSD V12 开发中的神经网络训练处理所有输入信号，输出驾驶决策。精确的校准能力使 Optimus 更高效地学习各种任务，并且仅使用视觉，其神经网络完全实现了 on-board 运行。这样一来，Optimus 可以完全自主地将物体按颜色进行分类。团队资深软

65、件工程师 Julian Ibarz 表示只需要收集更多数据，则无需更改任何代码就可以训练新的复杂任务。Optimus 并没有聚焦高爆发力、高动态扭矩这些通用化运动问题，而是在底层逻辑和算法方面，让 Optimus 初步具备了识别环境空间，以及完成标定任务等工作。谨请参阅尾页重要声明及财通证券股票和行业评级标准 24 行业深度分析报告/证券研究报告图28.Optimus 自主地将物体按颜色进行分类数据来源：机器之心公众号，财通证券研究所此外，Optimus 也展示了其基于端到端 AI 学习人类行为的过程，还展示了其从一个容器中拾取物体并将它放入第二个容器中。值得注意的是，操作员只是亲自完操

66、作员只是亲自完成任务，而机器人则从过程中学习，并非直接被操纵成任务，而机器人则从过程中学习，并非直接被操纵，这需要机器人看到物体、绘制出它们的 3D 形状、弄清楚如何更好地接近它们，然后选择合适的电机运动和角度变化抓住并抬起物体。Optimus 端到端训练的神经网络可以最大限度地提升 Optimus 的本地安全性。它需要使用遥控器或手机暂停，而不需要集中式的控制。Optimus 在任务操作方面的先进性已初露锋芒，比起运动神经，它显露出更多“智在任务操作方面的先进性已初露锋芒，比起运动神经，它显露出更多“智慧”慧”。这在很大程度上得益于特斯拉对其自动驾驶技术的复用，它加快了人形机器人的技术迭代速

67、度。马斯克曾表示，机器人所采用视觉算法、计算芯片、电池均与特斯拉汽车产品线共用。他强调现在是推进研发人形机器人的绝佳机会，因为可以共享大量自动驾驶领域的软硬件技术成果，认为自动驾驶的本质其实就是机器人。3 机器人拥抱大模型：机器人拥抱大模型：迈向迈向 AGI 的曙光与挑战的曙光与挑战 3.1 大模型大模型+机器人机器人：AGI 如何走向物理世界如何走向物理世界？大模型之前的 AI 模型多是面向特定领域单独训练的，面对新场景通常需要“数据收集标注训练部署应用”等一系列流程，耗时长且通用性差。大模型的出现让高成本的垂直领域 AI 开发变成“预训练大模型“预训练大模型+特定任务微调特定任务微调”谨请

68、参阅尾页重要声明及财通证券股票和行业评级标准 25 行业深度分析报告/证券研究报告的形式，大幅提高模型的泛化能力和开发速度，在面向各种精度要求不高的场合时具备了一定意义上的通用智能。人工智能大模型的语言处理能力可以被看作“大脑”，若想真正发挥通用人工智能人工智能大模型的语言处理能力可以被看作“大脑”，若想真正发挥通用人工智能的力量，未来的的力量，未来的 AGI 需要有具身实体需要有具身实体，让它能够和真实物理世界交互，完成各种任务，如此才能让技术带来更大价值。据图灵奖获得者姚期智所言，打造一个有泛应用能力的通用机器人，既要让它具备人类这一具身智能体所具备的身体、小脑、大脑三个主要成分，还要让

69、它更适应人类社会环境，人形是最合适的形态。图29.完整机器人系统构成数据来源：脑极体公众号、清华大学人工智能国际治理研究院公众号、财通证券研究所目前进展最大也最有可能跟机器人深度结合的是大语言模型（目前进展最大也最有可能跟机器人深度结合的是大语言模型（LLM），有助于实），有助于实现任务级编程现任务级编程/交互交互。只需要告诉机器人它要做的任务是什么，机器人就会理解需要做的事情，拆分任务动作，生成应用层控制指令，并根据任务过程反馈修正动作，最终完成人类交给的任务。整个过程基本不需要或者仅需少量人类的介入和确认，基本实现了机器人自主化运行，无需掌握机器人专业操作知识的机器人应用工程师介入。图

70、30.大模型能力与机器人需求的映射关系数据来源：数字时氪公众号、财通证券研究所谨请参阅尾页重要声明及财通证券股票和行业评级标准 26 行业深度分析报告/证券研究报告任务级编程或者任务级交互落地之后，任务级编程或者任务级交互落地之后，机器人的使用者从工程师变成了一般用户机器人的使用者从工程师变成了一般用户。在大模型之前，一般只有控制和反馈环节是由计算机自动完成，前面的任务定义、拆解和机器人运动代码生成主要是机器人工程师完成。大模型并不适合做底层精确的控制，更适合做相对模糊的任务级规划，通过大模型直接生成机器人应用级代码是目前看来技术储备最多，最有可能快速落地的方向，这就降低了机器人的使用门

71、槛。当然，靠 AI 完全自主生成的机器人代码可能存在不完备、不安全的问题，这时候就需要人类介入（RLHF）进行确认、修改、调优等工作。图31.机器人控制框架数据来源：数字时氪公众号、财通证券研究所任何一个系统对外界的影响程度取决于它的输出能力，计算机系统的输出都是虚拟的，无法对现实世界产生物理的影响，而机器人的输出包含了虚拟和物理两种能力。多输入多输出能力是通用机器人平台的基础能力，也是机器人具备从事多种多样任务能力的硬件基础，也由此构成了机器人作为物理世界平台的基础。多多模态大模型使得机器人开始理解如何合理使用多种输出能力来更好的完成任务模态大模型使得机器人开始理解如何合理使用多种输出能

72、力来更好的完成任务。但语言大模型和图像大模型以及其他多模态大模型之间的知识如何映射、如何链接仍然是一个未能很好解决的难题。图32.机器人多输入输出能力数据来源：数字时氪公众号、财通证券研究所 3.2 大模型大模型+机器人还在路上，机器人还在路上，AGI 道阻且长道阻且长谨请参阅尾页重要声明及财通证券股票和行业评级标准 27 行业深度分析报告/证券研究报告根据 Stuart Russell 在 2023 北京智源大会上的演讲，我们离通用人工智能还很遥我们离通用人工智能还很遥远，仍然存在许多尚未解决的重大问题远，仍然存在许多尚未解决的重大问题。如果说通用人工智能是一件完整的拼图，大语言模型仅

73、仅只是其中的一块，但我们并不真正了解如何将它与拼图的其他部分连接起来，甚至还有部分缺失的拼图没有被找到。图33.具身机器人四大挑战数据来源：清华大学人工智能国际治理研究院公众号、数字时氪公众号、财通证券研究所操作安全性可分为任务级安全性与操作级安全性操作安全性可分为任务级安全性与操作级安全性。任务生成的安全性指的是大模型生成的任务动作是否能很好的适应新环境和新情境，不会对环境造成破坏或者引发安全性后果，本质上是模型产出的鲁棒性问题。虽然大模型具备很强的通识能力，但是如何保证每一次生成的任务都符合彼时情境的安全规范，仍然是一个需要持续优化的问题。除了需要常识就能解决的任务生成问题，在很多需要

74、专业技能的领域机器人还要关注细微工艺动作是否符合安全规范，这就是操作动作的安全性。此外，机器人的发展需要收集很多数据，其中也面临很多安全隐私等方机器人的发展需要收集很多数据，其中也面临很多安全隐私等方面的问题，即数据安全与信息安全面的问题，即数据安全与信息安全。缺乏高质量训练数据也是大模型和机器人融合需要解决的难题之一缺乏高质量训练数据也是大模型和机器人融合需要解决的难题之一。机器人需要通过多种传感器感知环境状态，然后执行实际动作来完成任务，因此训练用于机器人的大模型需要用到大量机器人在真实世界中与环境进行交互的数据集。相比图像和自然语言处理领域可以从网上大量获取训练数据或者通过人类标注快速低

75、成本的获取数据，可用于训练机器人学会执行新任务新技能的高质量数据非常匮乏。一方面是由于机器人真实数据收集效率低且可能会对周围环境造成影响，另一方面是由于机器人保有量还太少。在欠缺优质数据的大背景下，仿真数据、真实机器人数据、教学视频、自然语言数据都有可能对训练机器人基础大模型有至关重要的作用。谨请参阅尾页重要声明及财通证券股票和行业评级标准 28 行业深度分析报告/证券研究报告图34.大模型+机器人还处在快速发展路上数据来源：数字时氪公众号、财通证券研究所展望未来，展望未来，大模型会给机器人软件系统带来系统性的变革大模型会给机器人软件系统带来系统性的变革。随着 AI 大模型的发展，机器人

76、的功能越来越多，机器人软件化的定义将愈加明显，机器人公司的软件能力和服务将成为新的评价指标。之前面向固定领域的工业机器人、协作机器人、移动机器人的产品形态将无法满足未来更多样任务的需求，多模态大模型必然需要多模态机器人。4 国内核心公司介绍国内核心公司介绍考虑到以 RT-2 为代表的软件模型算法正在不断提升，有望加速提升通用机器人与行业机器人的可能性与迭代速度，带动下游需求的产生，并实现包括软件算法、机械组件、机器人整机等在内的产业链共振。（1）三花智控三花智控三花智控是全球领先的生产和研发制冷空调控件元件和零部件的厂商，有着 30 多年的历史经验，是全球众多车企和空调制冷电器厂家的战略合

77、作伙伴。机器人项目与公司现有业务的核心技术同源，公司积极布局机器人产业，重点聚焦仿生机器人机电执行器业务，机电执行器是仿生机器人的核心部件。机器人主流的两种驱动方式为电机驱动、液压驱动，其中电机驱动是使用最普遍、最成熟的驱动系统，公司机电执行器的技术研发方向就是电机驱动。公司全方面配合客户产品研发、试制、调整，设计出满足仿生机器人需求的机电执行器产品。同时，以配合客户量产为目标，积极筹划机电执行器海外生产布局。（2）拓普集团拓普集团谨请参阅尾页重要声明及财通证券股票和行业评级标准 29 行业深度分析报告/证券研究报告拓普集团自 1983 年创立，总部位于中国宁波，在汽车行业中专注笃行 40

78、年。集团设有动力底盘系统、饰件系统两大事业群，以及一个面向智能驾驶的独立品牌业务单元域想智行。集团主要生产汽车 NVH 减震系统、内外饰系统、车身轻量化、底盘系统、智能座舱部件、热管理系统、空气悬架系统和智能驾驶系统等产品。拓普集团与国内外多家汽车制造商建立了良好的合作关系，主要客户包括国际国内智能电动车企和传统 OEM 车企等。拓普集团研发智能刹车系统 IBS 项目多年，在机械、减速机构、电机、电控、软件等领域形成了深厚的技术积淀，并且横向拓展至热管理系统、智能转向系统、空气悬架系统、座舱舒适系统以及机器人执行器等业务。公司研发的机器人直线执行器和旋转执行器，已经多次向客户送样，项目要求自

79、 2024 年一季度开始进入量产爬坡阶段，初始订单为每周100 台。公司拆分设立机器人事业部并设立电驱事业部，实现智能汽车部件业务与机器人部件业务的协同发展。（3）埃斯顿埃斯顿埃斯顿自动化成立于 1993 年，经过近 30 年公司全体员工持续的努力奋斗，得益于公司专注于自动化完整生态链布局，长期保持年收入 10%左右的研发投入，以及国际化发展构建的全球资源平台的大力支持，公司已经成功培育三大核心业务：工业自动化系列产品，工业机器人系列产品，工业数字化系列产品。作为中国最早自主研发交流伺服系统的公司，工业自动化系列产品线包括全系列交流伺服系统，变频器，PLC，触摸屏，视觉产品和运动控制系统，以

80、及以 Trio 控制系统为核心的运动控制和机器人一体化的智能单元产品，为客户提供从单轴单机单元的个性自动化解决方案；工业机器人产品线在公司自主核心部件的支撑下得到超高速发展，产品已经形成以六轴机器人为主，负载范围覆盖 3kg-700kg，54 种以上的完整规格系列，在新能源，焊接，金属加工、3C 电子、工程机械等细分行业拥有头部客户和较大市场份额。2020 年被福布斯评为“2020 年度福布斯中国最具创新力企业榜工业机器人唯一上榜企业”。（4）亿嘉和亿嘉和亿嘉和科技股份有限公司是机器人智能应用服务商，致力于机器人的研发、生产和推广应用。亿嘉和成立于 1999 年，并于 2018 年登陆 A

81、股主板，现已在中国南京、深圳、松山湖、中国香港以及新加坡、美国等地建立研发中心/分支机构，逐步构建全球化布局。公司主要从事特种机器人产品的研发、生产、销售及智能化服务。公司以电力行业特种机器人为发展核心，通过推进实施“机器人+行业”全面发展战略，成功覆盖商业清洁、新能源充电、轨道交通等新行业领域，帮助更谨请参阅尾页重要声明及财通证券股票和行业评级标准 30 行业深度分析报告/证券研究报告多行业客户实现无人化、智能化、精密化管理。公司产品主要分为操作类机器人、巡检类机器人、商用清洁机器人、智能化系统及解决方案、消防类机器人。（5）博实股份博实股份博实创建于 1997 年，是专业从事化工、冶

82、炼、物流、食品、饲料、建材等领域智能制造装备及工业机器人的研发、生产、销售、服务，并围绕系列产品提供智能工厂整体解决方案的高新技术上市公司。公司拥有国家企业技术中心，是国家先进制造业与现代服务业融合试点单位、国家服务型制造示范企业、中国机器人TOP10 峰会成员、智能制造系统解决方案供应商 TOP10、中国最具投资价值百强企业、智能工厂非标自动化集成商百强企业、中国新经济 500 强企业、品牌认证五星级和全国商品售后服务达标认证五星级企业。博实系列产品覆盖国内除港、澳、台的所有省区，并出口欧、亚、美、非洲多个国家。目前，以面向矿热炉冶炼高温特种作业机器人产品方向为例，公司针对传统电石矿热炉领域

83、迫切的安全生产、替代人工需求，以工业机器人技术为基础，成功研发应用对替代高危恶劣环境人工作业有划时代意义的（高温）炉前作业机器人（“点”），并相继成功研发电石捣炉机器人、巡检机器人、智能锅搬运技术等关键生产作业系统（“线”），直至形成真正颠覆行业传统生产作业的智能车间整体解决方案（“面”）的科技创新能力，实现少人、无人工厂和智能制造。这种由“点”及“线”到“面”的技术、产品研发及产业化进程，创造了由“0”到“1”到“N 倍”的市场空间，打开了行业成长的天花板。（6）德昌股份德昌股份宁波德昌电机股份有限公司，成立于 2002 年 1 月，是一家符合产业发展方向的规模以上企业。10 月 23 日

84、，德昌股份发布公告，公司第二届董事会第六次会议于 2023 年 10 月20 日召开，会议审议通过了关于对外投资设立合资公司的议案。该公司计划与五家产业相关的企业进行战略合作，共同成立名为“深圳人形机器人国创中心有限公司”的合资公司，该合资公司将作为人形机器人创新中心的实际运营平台。合资公司的注册资本为 6500 万元人民币，其中德昌股份出资 500 万元，持股比例为7.69%。5 投资建议投资建议谨请参阅尾页重要声明及财通证券股票和行业评级标准 31 行业深度分析报告/证券研究报告 AGI 是人工智能未来发展的方向，LLM 和多模态推动 AGI 实现技术上的突破，“人形机器人+大模型”为

85、 AGI 走进物理世界提供了更多的可能性。随着谷歌、OpenAI、Meta 和特斯拉等科技大厂以及斯坦福等高等学府纷纷投入 AGI 的研究中，“人形机器人+大模型”将会进入发展的快车道，带动机器人软件和硬件系统的迭代升级，具有较好的发展前景。建议关注机器人整机领域的公司，如三花智控、拓普集团、埃斯顿、亿嘉和、博实股份、德昌股份等。6 风险提示风险提示特斯拉人形机器人量产进展不及预期。特斯拉人形机器人量产进展不及预期。特斯拉在人形机器人上的进展对行业量产具有引领作用，但是特斯拉人形机器人降本仍然有一定压力，量产进展有低于预期的可能性。国产化替代进展不及预期。国产化替代进展不及预期。高端丝杠国产

86、化率较低，国产化替代为主旋律，但高端丝杠产品技术壁垒较高。制造业景气度恢复低于预期。制造业景气度恢复低于预期。丝杠导轨作为自动化设备核心部件，与制造业景气度有较强相关性。谨请参阅尾页重要声明及财通证券股票和行业评级标准 32 行业深度分析报告/证券研究报告分析师承诺分析师承诺作者具有中国证券业协会授予的证券投资咨询执业资格，并注册为证券分析师，具备专业胜任能力，保证报告所采用的数据均来自合规渠道，分析逻辑基于作者的职业理解。本报告清晰地反映了作者的研究观点，力求独立、客观和公正，结论不受任何第三方的授意或影响，作者也不会因本报告中的具体推荐意见或观点而直接或间接收到任何形式的补偿。资质声明

87、资质声明财通证券股份有限公司具备中国证券监督管理委员会许可的证券投资咨询业务资格。公司评级公司评级以报告发布日后 6 个月内，证券相对于市场基准指数的涨跌幅为标准：买入：相对同期相关证券市场代表性指数涨幅大于 10%；增持：相对同期相关证券市场代表性指数涨幅在 5%10%之间；中性：相对同期相关证券市场代表性指数涨幅在-5%5%之间；减持：相对同期相关证券市场代表性指数涨幅小于-5%；无评级：由于我们无法获取必要的资料，或者公司面临无法预见结果的重大不确定性事件，或者其他原因，致使我们无法给出明确的投资评级。A 股市场代表性指数以沪深 300 指数为基准；香港市场代表性指数以恒生指数为基准

88、；美国市场代表性指数以标普 500 指数为基准。行业评级行业评级以报告发布日后 6 个月内，行业相对于市场基准指数的涨跌幅为标准：看好：相对表现优于同期相关证券市场代表性指数；中性：相对表现与同期相关证券市场代表性指数持平；看淡：相对表现弱于同期相关证券市场代表性指数。A 股市场代表性指数以沪深 300 指数为基准；香港市场代表性指数以恒生指数为基准；美国市场代表性指数以标普 500 指数为基准。免责声明免责声明本报告仅供财通证券股份有限公司的客户使用。本公司不会因接收人收到本报告而视其为本公司的当然客户。本报告的信息来源于已公开的资料，本公司不保证该等信息的准确性、完整性。本报告所载的资

89、料、工具、意见及推测只提供给客户作参考之用，并非作为或被视为出售或购买证券或其他投资标的邀请或向他人作出邀请。本报告所载的资料、意见及推测仅反映本公司于发布本报告当日的判断，本报告所指的证券或投资标的价格、价值及投资收入可能会波动。在不同时期，本公司可发出与本报告所载资料、意见及推测不一致的报告。本公司通过信息隔离墙对可能存在利益冲突的业务部门或关联机构之间的信息流动进行控制。因此，客户应注意，在法律许可的情况下，本公司及其所属关联机构可能会持有报告中提到的公司所发行的证券或期权并进行证券或期权交易，也可能为这些公司提供或者争取提供投资银行、财务顾问或者金融产品等相关服务。在法律许可的情况下，

90、本公司的员工可能担任本报告所提到的公司的董事。本报告中所指的投资及服务可能不适合个别客户，不构成客户私人咨询建议。在任何情况下，本报告中的信息或所表述的意见均不构成对任何人的投资建议。在任何情况下，本公司不对任何人使用本报告中的任何内容所引致的任何损失负任何责任。本报告仅作为客户作出投资决策和公司投资顾问为客户提供投资建议的参考。客户应当独立作出投资决策，而基于本报告作出任何投资决定或就本报告要求任何解释前应咨询所在证券机构投资顾问和服务人员的意见；本报告的版权归本公司所有，未经书面许可，任何机构和个人不得以任何形式翻版、复制、发表或引用，或再次分发给任何其他人，或以任何侵犯本公司版权的其他方式使用。信息披露信息披露

友情提示

1、下载报告失败解决办法
2、PDF文件下载后，可能会被浏览器默认打开，此种情况可以点击浏览器菜单，保存网页到桌面，就可以正常下载了。
3、本站不支持迅雷下载，请使用电脑自带的IE浏览器，或者360浏览器、谷歌浏览器下载即可。
4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩，下载后原文更清晰。

本文（AGI+机器人行业深度报告：AGI赋能人形机器人具身智能时代有望加速到来-231111（32页）.pdf）为本站（新征程）主动上传，三个皮匠报告文库仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对上载内容本身不做任何修改或编辑。若此文所含内容侵犯了您的版权或隐私，请立即通知三个皮匠报告文库（点击联系客服），我们立即给予删除！

温馨提示：如果因为网速或其他原因下载失败请重新下载，重复下载不扣分。