《人工智能行业机器人智能化三部曲(一):谷歌篇机器人大模型引领者-230825(24页).pdf》由会员分享,可在线阅读,更多相关《人工智能行业机器人智能化三部曲(一):谷歌篇机器人大模型引领者-230825(24页).pdf(24页珍藏版)》请在三个皮匠报告上搜索。
1、机器人智能化三部曲(一):谷歌篇机器人智能化三部曲(一):谷歌篇-机器人大模型引领者机器人大模型引领者证券研究报告证券研究报告 行业动态报告行业动态报告发布日期:2023年8月25日本报告由中信建投证券股份有限公司在中华人民共和国(仅为本报告目的,不包括香港、澳门、台湾)提供。在遵守适用的法律法规情况下,本报告亦可能由中信建投(国际)证券有限公司在香港提供。同时请务必阅读正文之后的免责条款和声明。分析师:于芳博分析师:于芳博SAC编号:S01分析师:分析师:阎贵成阎贵成SAC编号:S02SFC 中央编号:BNS315分析师:金戈分析师:金戈SAC编号
2、:S01SFC 中央编号:BPD352 核心观点:随着各项人工智能技术的不断发展,具备与物理世界交互的强大潜力的智能机器人成为学界和业界的重要研究赛道。其中核心观点:随着各项人工智能技术的不断发展,具备与物理世界交互的强大潜力的智能机器人成为学界和业界的重要研究赛道。其中Google依托其在依托其在AI领域强大的研究团队,丰厚的多领域研究成果,引领着近年来机器人模型的发展。领域强大的研究团队,丰厚的多领域研究成果,引领着近年来机器人模型的发展。Google Deepmind在在2023年年6月和月和7月发布了其最新研究成果,具月发布了其最新研究成果,具备“自我完善”能力的
3、“备“自我完善”能力的“RoboCat”和融合大语言模型能力的”和融合大语言模型能力的VLA模型“模型“RT-2”,机器人智能化进一步加速,有望掀起新一轮”,机器人智能化进一步加速,有望掀起新一轮AI革命。革命。从从Gato到到RoboCat,更大规模的训练数据集和创新的自我完善方法助力打造更强的机器人智能体。,更大规模的训练数据集和创新的自我完善方法助力打造更强的机器人智能体。在2022年5月提出的Gato模型将智能体扩展到机器人控制领域中,但“通用性”和“智能性”仍有较大提升空间,其模型架构和控制任务数据的序列化方式是后续模型发展的重要基础。2023年7月提出的RoboCat则基于Gato
4、的模型基础,将训练数据集扩充至400万个机器人相关片段,并创新性的提出“自我完善”的方式来进一步丰富训练数据,这两点创新让RoboCat在实现了训练任务的性能提升并具备了一定的泛化性能,并且能够在少量数据微调的情况下处理未见过的任务。从从RT-1到到RT-2,大语言模型带来更强的泛化能力、逻辑推理能力、知识能力,深度赋能机器人智能化。,大语言模型带来更强的泛化能力、逻辑推理能力、知识能力,深度赋能机器人智能化。2022年12月提出的RT-1模型构建起了特定的指令、图像和机器人指令之间的桥梁;2023年3月的PaLM-E模型则能够处理输入的文本和图像信息,将复杂任务转化为RT-1能够接受的指令;
5、2023年7月提出的RT-2是二者的融合,在大语言模型强大能力的赋能下,RT-2能够完成分解复杂任务、简单的计算、识别人脸等现实场景中常见但以往的模型无法完成的任务,智能化程度大幅提升。差异路线引领发展,团队整合协同革新。差异路线引领发展,团队整合协同革新。Google Brain和DeepMind两个团队从两个不同的切入点出发逐步推进AI机器人模型发展,DeepMind团队从智能体(Agent)的角度出发不断提升机器人能力,因此RoboCat中的训练数据大多来自强化学习,模型参数量控制表现更为优秀,能够实现更高频率的机器人控制;而Google Brain则尝试将大语言模型应用到机器人的控制领
6、域,因此RT-2的模型参数量更大,在泛化能力、知识和推理能力方面有更强的表现。随着两个团队进一步合并,深化数据、模型等方面的协同合作,谷歌的机器人模型进展有望进一步加速。核心观点 8XqRzQuNtQeZbR8QaQpNoOpNmPfQqQvNfQmOwO8OpOqRxNmNyQxNnNuM1.1 谷歌AI、Deepmind两条路线 引领机器人模型发展资料来源:谷歌官网,Web of science,中信建投在机器人模型领域,在机器人模型领域,Google自身的自身的AI团队及团队及Deepmind分别沿两条技术路线探索机器人模型,近年来发布过多篇引领性的文章。本文将回顾分别沿两条技术路线探索
7、机器人模型,近年来发布过多篇引领性的文章。本文将回顾Google两大团队近年来在机器人模型领域的核心进展,其技术路线的异同点,梳理其中的发展脉络。两大团队近年来在机器人模型领域的核心进展,其技术路线的异同点,梳理其中的发展脉络。Deepmind:延续Gato的模型架构,2023年6月,Google DeepMind推出可以自我改进的机器人AI智能体,名为“RoboCat”。谷歌谷歌AI团队:团队:从RT-1开始,到可以操作机器人的大语言模型PaLM-E,再到2023年7月融合此前的RT-1和PaLM-E,推出的VLA模型RT-2,真正实现了将视觉、语言、机器人操作融合到一个模型中。图图:谷歌机
8、器人模型相关进展时间轴:谷歌机器人模型相关进展时间轴2022.52022.5Gato:能够处理多种任务,包括少量的现实场景机器人任务2022.122022.12RT-1:能够识别“特定的指令”及相关图像生成对应的机器人操控指令2023.32023.3PaLM-E:能够处理自然语言、图像输入,生成“特定的指令”2023.72023.7RT-2:能够处理自然语言、图像输入,直接生成对应的机器人操控指令2023.62023.6RoboCat:能够处理多种类的现实场景机器人任务2023.4合并Google Brain和Deepmind,成立Google Deepmind2022202220232023
9、作为其基础模型(其中之一)作为其基础模型(其中之一)帮助理解复杂任务帮助理解复杂任务沿用训练数据集和对机械臂动作的编码方式沿用训练数据集和对机械臂动作的编码方式帮助生成具体的操控指令帮助生成具体的操控指令沿用模型结构沿用模型结构谷歌AI路线Deepmind路线 1.2 谷歌AIDeepMind:深度学习浪潮中的引领者资料来源:机器之心,中信建投图图:DeepmindDeepmind发展历程(不含机器人相关部分)发展历程(不含机器人相关部分)图图:AlphaGoAlphaGo与李世石对弈与李世石对弈DeepMind Technologies 是是Alphabet Inc.的英国人工智能子公司和研
10、究实验室。的英国人工智能子公司和研究实验室。DeepMind成立于 2010 年 9 月,于 2014 年被 Google 收购。该公司总部位于伦敦,在加拿大、法国、美国设有研究中心。2015年,它成为谷歌母公司Alphabet Inc.的全资子公司。以发展通用人工智能(以发展通用人工智能(AGI)作为目标,持续研发革命性技术引领人工智能发展。)作为目标,持续研发革命性技术引领人工智能发展。于2016年推出的AlphaGo是DeepMind的第一个代表作,其让全世界的人们第一次直观感受到AI的强大之处,成为AI技术走向新一轮高峰的重要标志,也进一步推动了第三轮AI发展的浪潮。自AlphaGo开
11、始,DeepMind接连推出了AlphaZero(下棋)、AlphaFold(蛋白质结构预测)、AlphaCode(代码写作)等AI领域内的重要技术成果。这些成果不仅发表在顶级的学术期刊上,并且也收到了业界的广泛关注和认可。DeepMind在智能体(在智能体(Agent)方面有着深厚的积累,是谷歌机器人模型研发的中坚力量。)方面有着深厚的积累,是谷歌机器人模型研发的中坚力量。2010.92010.9DeepMind成立,致力于AGI的研究20142014被谷歌以6亿美元价格收购2016.32016.3研发的AlphaGO击败李世石,引发全球关注2017.102017.10推出了AlphaGO的
12、升级版本AlphaZero2018.22018.2推出AlphaFold,根据基因序列预测蛋白质的 3D 结构。此后又推出并开源了 AlphaFold 2、AlphaFold 数据集2020.122020.12推出MuZero,仅使用像素和游戏分数作为输入就可以在 Atari 视频游戏中达到人类的水平。2022.22022.2推出基于Transformer架构的AlphaCode,实现了大规模的代码生成发布了可以对托卡马克装置中的等离子体构型进行磁控制,帮助达到可控核聚变的人工智能。2022.102022.10推出 AlphaTensor,利用强化学习发现矩阵乘法算法。第一个可用于为矩阵乘法等
13、基本任务发现新颖、高效且可证明正确的算法的人工智能系统。2023.42023.4DeepMind与GoogleBrain合并,共同推进突破性AI技术的发展 1.3 谷歌CV:将Transformer引入CV领域资料来源:AN IMAGE IS WORTH 16X16 WORDS:TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE,Scaling Vision Transformers to 22 Billion Parameters,中信建投图图:ViTViT模型架构模型架构图图:ViTViT模型的性能随模型规模的提升或微调而提升模型的性能随模型规模的提升或
14、微调而提升通过通过ViT将将Transformer引入引入CV 领域:领域:尽管Transformer网络结构在NLP领域展现出了强大的性能和能力,但在ViT之前,其在CV领域中的效果仍远不如CNN网络结构。Google在2021年推出了ViT,其通过将图片划分为不同的部分的方式构建出了类似于文本的序列输入,而后构建出相应的部分的向量,进而可以通过Transformer结构对图像特征进行提取和分析。最终在大规模的训练数据集中展现出相较于CNN结构的模型更加强大的性能。其提出标志着Transformer模型在CV领域的应用落地。进一步探索在进一步探索在CV领域中预训练大模型的能力边界:领域中预训
15、练大模型的能力边界:2021年的研究中,其中最大版本的ViT模型(ViT-Huge)参数量为6.32亿。2023年4月,谷歌在模型架构方面进行了升级,推出了ViT的220亿参数量的版本(ViT(22B)。和GPT-2到GPT-3的变化趋势相似,其具备了强大的Zero-shot图像分类泛化能力(如下图所示,在两个下游任务中都比小参数模型更强大)。同时引入了人类反馈来使模型的能力与人类的目标相对齐,并且成功将模型公平性和稳健型控制在了一个合理的范围。Google在在CV领域的强大能力为其机器人模型的视觉理解能力提供了扎实的能力底座。领域的强大能力为其机器人模型的视觉理解能力提供了扎实的能力底座。1
16、.4.1 Gato:具备不同场景能力的多模态通用智能体资料来源:A Generalist Agent,中信建投DeepMind在在2022年年5月月12日推出了多模态通用智能体(日推出了多模态通用智能体(Agent),名为“,名为“Gato”。”。模型参数量:模型参数量:11.8亿亿/3.64亿亿/7900万万模型架构:将控制任务实现序列化,放入到统一的模型框架(模型架构:将控制任务实现序列化,放入到统一的模型框架(Transformer)中进行处理。)中进行处理。如右图黄框所示,紫色和淡黄色的token代表环境情况,深黄色的token代表对与机械臂的相关操作,训练数据中包含了初始环境的情况以
17、及每一次的机械臂操作以及相应的环境变化组成的序列,通过Transformer架构对这一序列的学习实现,让“Gato”具备了解决具体场景中复杂任务的能力。训练数据集:其中包括控制任务和视觉与语言数据集,共训练数据集:其中包括控制任务和视觉与语言数据集,共604个任务。个任务。控制训练数据集占比较高,达85.3%,共596个任务,6300万个片段,15亿个token。控制任务中包括游戏任务和模拟/现实机器人操控任务,其中游戏类任务的占比较高,机器人操控任务,尤其是现实场景中的机器人操控任务占比较低。图图:GatoGato可以实现不同场景的多种任务可以实现不同场景的多种任务图图:GatoGato训练
18、数据构成及处理方式训练数据构成及处理方式1.初始环境(游戏)2.游戏操作3.变化后的环境(游戏)1.初始环境(机械臂)2.机械臂操作3.变化后的环境(机械臂)4.机械臂操控任务电子游戏任务(Atari)Transformer架构 1.4.2 Gato:具备不同场景能力的多模态通用智能体资料来源:A Generalist Agent,中信建投模型能力:能够完成丰富种类的任务,在模拟环境和传统强化学习任务中取得了较好的性能表现,机器人相关任务性能有较大提升模型能力:能够完成丰富种类的任务,在模拟环境和传统强化学习任务中取得了较好的性能表现,机器人相关任务性能有较大提升模拟任务中,有450多项能达到
19、专家水平的50%,其中在DM LAB、BabyAI、Meta-World等经典的强化学习数据集中取得了较为优秀的性能表现,标准化后的分数分别为91.4、93.2、87.0,而在模拟场景的机械臂RGB方块堆叠任务中之取得了58.0的标准化分数,性能有待进一步挖掘。现实任务中(物块堆叠),Gato在训练集覆盖的任务中达到了75.6%的成功率,而在泛化能力测试的任务中达到了50.2%的成功率,相较于前代模型模型性能有所提升。我们认为,我们认为,Gato实现了智能体完成任务广度的提升,并且拓展到了机器人控制领域中,但“通用性”和“智能性”仍有较大提升空间,其模实现了智能体完成任务广度的提升,并且拓展到
20、了机器人控制领域中,但“通用性”和“智能性”仍有较大提升空间,其模型架构和控制任务数据的序列化方式为后续模型的发展奠定了基础。型架构和控制任务数据的序列化方式为后续模型的发展奠定了基础。图图:GatoGato可以实现不同场景的多种任务,在虚拟场景任务中性能表现优异可以实现不同场景的多种任务,在虚拟场景任务中性能表现优异专家水平的50%资料来源:A Generalist Agent,中信建投 1.5.1 RT-1:基于Transformer打造现实世界的多任务机器人控制模型资料来源:RT-1:Robotics Transformer for Real-World Control at Scale
21、,中信建投Google在在2022年年12月推出了适用于机器人领域的月推出了适用于机器人领域的Transformer模型,模型,Robotics Transformer 1(简称(简称RT-1)。)。模型参数量:模型参数量:3500万(万(FiLM部分部分1600万,万,Transformer部分部分1900万)万)模型架构:模型架构:RT-1 将文本指令和对应图像作为输入,通过预训练的FiLM EfficientNet模型将其转化为token,再通过TokenLearner进行压缩,最后通过Transformer层将其输出为三个维度的机器人操作指令(Mode、Arm、Base),其中Mode
22、用于控制机器人不同模式之间的切换,Arm用于控制机器人手臂进行不同的动作,Base用于控制机器人的移动。图图:RTRT-1 1 模型结构模型结构RT-1将文本指令和对应图像组作为输入通过预训练的 FiLM EfficientNet 模型将图像编码为Token通过 TokenLearner 对其进行压缩,然后经Transformer输出动作Token通过Mode、Arm、Base三个维度的输出对机器人的行为进行控制26个卷基层,16M参数量8个自注意力层,19M参数模式切换机械臂控制位置控制 1.5.2 RT-1:基于Transformer打造现实世界的多任务机器人控制模型资料来源:RT-1:R
23、obotics Transformer for Real-World Control at Scale,中信建投训练数据集:训练数据集:7个大类的个大类的744个任务,共个任务,共13万个现实环境中的机器人演示片段。万个现实环境中的机器人演示片段。为了让RT-1得到充分的训练,研究人员利用13个机器人(来自Everyday Robots),历时17个月收集了7大类,744个任务,共13万个片段的机器人相关数据。这一过程中,由研究员对机器人进行操控,将相应的数据进行收集后,对相应的机器人执行指令进行注释而构成了最终的数据集,其中包含了拾取、移动、打开、关闭、放置等多种技能以及相关的方位词(如Ne
24、ar、Upright等)。图图:RTRT-1 1 训练数据集构成训练数据集构成 1.5.3 RT-1:基于Transformer打造现实世界的多任务机器人控制模型资料来源:RT-1:Robotics Transformer for Real-World Control at Scale,中信建投RT-1相较于过去的机器人控制模型实现了显著的性能提升。相较于过去的机器人控制模型实现了显著的性能提升。在训练集包含的任务中,RT-1可以成功执行其中的97%,体现了RT-1的优异性能;在训练集不包含的任务中,RT-1可以成功执行其中的76%;在有干扰或工作背景不同的情况下,RT-1可以成功执行其中的8
25、3%和59%,相较于GATO、BC-Z模型均有显著的提升性。RT-1揭示了模型具备从不同种类的数据中学习的能力,为后续的模型训练提供了理基础。揭示了模型具备从不同种类的数据中学习的能力,为后续的模型训练提供了理基础。RT-1是在现实数据的基础上训练的,但是通过添加模拟数据可以显著提升模拟环境任务的性能(这部分任务仅在模拟环境中存在),同时对于现实环境任务的处理性能并没有显著下降(仅下降2%)(右图1)。在另一组实验中,研究人员将在另一个机器人(Kuka)上训练的另一种任务数据与RT-1相结合也实现了新任务的性能提升(右图2)。RT-1从不同种类的数据中学习的能力让结合不同种类的机器人数据集以增
26、强机器人能力的路径有了实验支撑。我们认为,我们认为,RT-1构建起了特定的指令、图像和机器人指令之间的桥梁,并且具备了一定的泛化能力和抗干扰能力,但是尚不具备处理长构建起了特定的指令、图像和机器人指令之间的桥梁,并且具备了一定的泛化能力和抗干扰能力,但是尚不具备处理长程任务的能力和语言模型的知识与逻辑推理能力。程任务的能力和语言模型的知识与逻辑推理能力。图图:RTRT-1 1相较过去的模型实现了显著的性能提升相较过去的模型实现了显著的性能提升图图:RTRT-1 1结合不同的数据后取得显著性能提升(模拟数据结合不同的数据后取得显著性能提升(模拟数据/Kuka/Kuka机器人数据)机器人数据)1.
27、将模拟数据与RT-1结合2.将不同机器人的数据与RT-1结合 1.6.1 PaLM-E:多模态具身视觉语言模型谷歌和柏林工业大学的团队在谷歌和柏林工业大学的团队在2023年年3月推出多模态具身视觉语言模型月推出多模态具身视觉语言模型(VLM)PaLM-E。模型架构:模型架构:PaLM-E具有5620亿参数量,且将多模态大模型拓展到机器人控制领域。相较于之前的多模态模型,其不仅可以理解和生成图像/语言,如下左图所示,输入可以为文本、图像等不同模态信息,还能够融合不同模态的知识进而生成RT-1中的特定机器人指令(基于自然语言)。模型能力:模型能力:PaLM-E基于丰富的多模态模型知识对任务信息进行
28、理解和处理,并分解成特定的机器人指令,RT-1将特定的机器人指令转化为对应的机器人控制指令,在此合作下,模型可以将较为复杂的任务分解成简单的步骤进行完成,并且具备了更强的抗干扰性和知识能力。我们认为,我们认为,PaLM等语言大模型丰富的知识、强大的逻辑推理能力等优势的成功引入将助力等语言大模型丰富的知识、强大的逻辑推理能力等优势的成功引入将助力Google机器人模型进一步智能化,机器人模型进一步智能化,PaLM-E便是便是在这一思路下的重要里程碑。在这一思路下的重要里程碑。图图:PaLMPaLM-E E将大模型的能力引入到机器人控制领域将大模型的能力引入到机器人控制领域资料来源:PaLM-E:
29、An Embodied Multimodal Language Model,中信建投RTRT-1 1中的控制指令中的控制指令 1.6.2 PaLM-E:多模态具身视觉语言模型资料来源:PaLM-E:An Embodied Multimodal Language Model,中信建投图图:PaLMPaLM-E E引导引导真实机器人完成远程移动任务真实机器人完成远程移动任务 1.7.1 RoboCat:具备自我改进能力的新一代AI智能体资料来源:RoboCat:A Self-Improving Foundation Agent for Robotic Manipulation,中信建投Google
30、 DeepMind在在2023年年6月月20日推出了新一代的机器人日推出了新一代的机器人AI智能体智能体,名为“,名为“RoboCat”。”。模型参数量:模型参数量:11.8亿亿/3.64亿亿训练数据:共训练数据:共130类任务,超过类任务,超过400万个机器人片段。万个机器人片段。从数据生成方式来看,其中大部分来自强化学习智能体,有309.2万个片段,纯人类演示则有77.9万个片段,剩余部分则为三种数据生成方式混合,此外,本次训练数据中还用到了不同的机械臂进行训练。“RoboCat”具备自我改进、自我提升的能力。”具备自我改进、自我提升的能力。在第一轮训练后,“RoboCat”会进入“自我完
31、善”的训练周期,其中包含以下五个步骤:1)使用由人类控制的机械臂收集 100-1000 个新任务或新机器人的演示。2)在这个新任务上微调模型,创建一个专门的衍生智能体(Agent)。3)衍生智能体(Agent)对这个新任务/新机器人进行平均 10,000 次练习,生成更多训练数据。4)将演示数据和自生成数据合并到模型现有的训练数据集中。5)在新的训练数据集上训练新版本的模型。这一自我改进、自我完善的流程为“RoboCat”提供了更为丰富的训练数据。图图:“RoboCatRoboCat”的“自我学习”训练周期的“自我学习”训练周期图图:“:“RoboCatRoboCat”训练数据组成(上:不同生
32、成方式;下:不同机械臂)”训练数据组成(上:不同生成方式;下:不同机械臂)从左至右:1.现实世界2.模拟环境3.自生成数据从左至右:1.模拟的 Sawyer 7-DoF 机械臂2.模拟的 Panda 7-DoF 机械臂3.现实的 Sawyer 7-DoF 机械臂4.现实的 Panda 7-DoF 机械臂 1.7.2 RoboCat:具备自我改进能力的新一代AI智能体资料来源:RoboCat:A Self-Improving Foundation Agent for Robotic Manipulation,中信建投优秀的基础模型和丰富的高质量数据集让“优秀的基础模型和丰富的高质量数据集让“Ro
33、boCat”成为不同场景中的“通才”。成为不同场景中的“通才”。在不同的机械臂的适应方面,尽管“RoboCat”是在带有双指夹具的机械臂上进行训练的,但在观察了短短几个小时内收集到的 1000 次人类控制演示后,“RoboCat”可以足够灵巧地指挥带有三指夹具的新手臂,以86%的正确率成功拾取齿轮。在不同的下游任务的处理方面,通过简单的演示,它便可以解决需要结合精度和理解的新任务,例如选取形状匹配的物体放入对应的位置(如右图1所示)以及从碗中取出正确的水果(如右图2所示),这为更加复杂的机械控制和应用场景的拓展奠定基础。图图:GatoGato可以实现不同场景的多种任务可以实现不同场景的多种任务
34、图图:“RoboCatRoboCat”学会解决新的任务”学会解决新的任务1:选取匹配形状的物体放入对应的位置2:从碗中取出正确的水果 1.7.3 RoboCat:具备自我改进能力的新一代AI智能体资料来源:RoboCat:A Self-Improving Foundation Agent for Robotic Manipulation,中信建投“RoboCat”具备强大的泛化性能。”具备强大的泛化性能。“RoboCat”学习的新任务越多,便可以更好的学习和解决额外的新任务。最初版本的“RoboCat”在对于新任务500次演示后,只有36%的概率能完成新任务,但是经过“自我完善”训练的“Rob
35、oCat”能将成功率提升至74%。相较于过去的训练方式,“RoboCat”的泛化性能也实现了显著的提升(如左图2所示)。“RoboCat”性能超过了传统基于视觉的方案。性能超过了传统基于视觉的方案。“RoboCat”与在每个任务中单独训练的基于视觉的模型相比,在模拟和现实两种环境中的堆叠、建造、移除等大部分任务中都取得了更为优异的表现,其中在现实场景的升降、插入、移除任务中更是展现出了更为明显的优势(如右图所示)。我们认为,训练数据集的提升和自我优化方法的提出让我们认为,训练数据集的提升和自我优化方法的提出让RoboCat在在Gato的基础上实现了明显的性能改进,在经过微调的情况下已经过能够的
36、基础上实现了明显的性能改进,在经过微调的情况下已经过能够较好的处理未见过的任务。较好的处理未见过的任务。图图:“RoboCatRoboCat”具备强大的泛化性能具备强大的泛化性能图图:“RoboCatRoboCat”完成模拟完成模拟/现实世界任务的能力超过传统基于视觉的模型现实世界任务的能力超过传统基于视觉的模型1:“RoboCat”通过“自我完善”实现了泛化性能的显著提升2:“RoboCat”相较于传统基于单一任务训练的视觉模型具有更强的泛化性能1:模拟环境的训练任务2:现实环境的训练任务 1.8.1 RT-2:将互联网图文知识应用于机器人控制的VLA模型Google DeepMind在在2
37、023年年7月月28日推出日推出VLA模型模型RT-2。RT-2是一种结合了视觉、语言和动作来控制机器人的模型,模型从图文数据集中学习认知一个物体和与之相关的事情,同时,模型从机器人数据集中学习如何在具体任务完成机器人控制,总的来说,VLA不仅可以学习相关知识而且可以将这些知识直接转化为机器人控制的指令。模型参数量:模型参数量:550亿亿/120亿亿/50亿亿训练数据集:训练数据集:RT-2的数据集包括两个部分,其一是来自互联网的图像文本数据(Webli数据集),这部分数据有10亿个来自109种语言的图像文本对,其二是机器人控制数据集,这部分数据主要沿用了RT-1中收集的训练数据集,机器人数据
38、在整体数据中的占比为50%(PaLI-X)/66%(PaLM-E)。图图:RTRT-2 2模型架构模型架构资料来源:RT-2:Vision-Language-Action Models Transfer Web Knowledge to Robotic Control,中信建投 1.8.2 RT-2:将互联网图文知识应用于机器人控制的VLA模型资料来源:RT-2:Vision-Language-Action Models Transfer Web Knowledge to Robotic Control,中信建投可进行思维链推理的可进行思维链推理的RT-2能够回答更复杂的命令。能够回答更复杂的
39、命令。思维链推理可以将困难的任务分解成多个小任务来解决。思维链推理的实现是通过引入一个中间状态来实现的。在每个步骤中,模型将当前的观察结果与先前的状态进行连接,并将连接后的结果输入到模型中进行处理。模型可以在处理当前的观察结果时,同时考虑到先前的观察结果,从而实现了思维链推理。通过这种方式,模型可以进行多阶段的语义推理,使其能够更好地理解和解释环境中的信息,并做出更准确的决策和行动。图图:RTRT-2 2通过思维链生成相应的行动计划,并发出指令控制机器人完成相应行动通过思维链生成相应的行动计划,并发出指令控制机器人完成相应行动 1.8.3 RT-2:将互联网图文知识应用于机器人控制的VLA模型
40、资料来源:RT-2:Vision-Language-Action Models Transfer Web Knowledge to Robotic Control,中信建投RT-2具备符号理解、逻辑推理和人脸识别的能力。具备符号理解、逻辑推理和人脸识别的能力。符号理解:符号理解:在演示中,机器人可以将苹果移到掘金队的队标上,也可以将可乐移到字母Y旁边,这都展示了RT-2模型的符号理解能力。逻辑推理:逻辑推理:在演示中,机器人可以在运算2+1=3 后,将香蕉放在写有3这个数字的纸张前面,展示了RT-2的推理能力。人类识别:人类识别:在演示中,机器人可以正确的将可乐给泰勒的图片,这代表了模型可以分
41、析不同人类图像。图图:RTRT-2 2具备符号理解、推理和人类识别能力具备符号理解、推理和人类识别能力 1.8.4 RT-2:将互联网图文知识应用于机器人控制的VLA模型资料来源:RT-2:Vision-Language-Action Models Transfer Web Knowledge to Robotic Control,中信建投RT-2的符号理解、逻辑推理、人脸识别能力相较于过去的模型有明显提升的符号理解、逻辑推理、人脸识别能力相较于过去的模型有明显提升两种不同的RT-2模型(分别是以120亿参数量的PaLM-E和550亿参数量的PaLI-X作为基础模型的RT-2),并将这两种模型
42、与其前任RT-1以及另一种视觉预训练方法VC-1进行了对比。结果显示,与过去的模型相比,RT-2的相关性能提升了约三倍。RT-2的泛化能力相较于过去的模型也有明显提升的泛化能力相较于过去的模型也有明显提升。在已经见过的任务中,RT-2相较于此前的模型提升有限,但是在未见过的物体/未见过的背景/未见过的环境三种不同难度的泛化任务上RT-2的两个模型都实现了较为明显的提升,而在相对简单的任务中参数量较小的RT-2模型有更优秀的表现,其中随着任务难度越大则参数量更大的RT-2模型有这更为突出的表现。我们认为,我们认为,RT-2通过大语言模型和机器人控制模型的融合实现了泛化能力、逻辑推理、符号理解等能
43、力的明显提升,极大地推动了机器通过大语言模型和机器人控制模型的融合实现了泛化能力、逻辑推理、符号理解等能力的明显提升,极大地推动了机器人模型的智能化。人模型的智能化。图图:RTRT-2 2相较于过去的模型实现了显著的性能提升,尤其是泛化性能相较于过去的模型实现了显著的性能提升,尤其是泛化性能图图:RTRT-2 2的符号理解、推理、人类推理能力明显提升的符号理解、推理、人类推理能力明显提升 1.9 差异路线引领发展,团队整合协同革新图图:GoogleGoogle CEOCEO发文宣布将发文宣布将DeepmindDeepmind与与GoogleGoogle BrainBrain合并合并2023年年
44、4月月20日,日,Google宣布将宣布将Google Brain和和DeepMind两大世界级两大世界级AI实验室合并,成立实验室合并,成立Google DeepMind部门,以谷歌的计算资源作部门,以谷歌的计算资源作为后盾,加速人工智能研发和应用的推进。为后盾,加速人工智能研发和应用的推进。回顾谷歌机器人模型在过去两年间的发展,Google Brain和DeepMind两个团队从两个不同的切入点出发逐步推进AI机器人模型发展,DeepMind团队从智能体(Agent)的角度出发不断提升机器人能力,因此RoboCat中的训练数据大多来自强化学习,模型参数量控制表现更为优秀,能够实现更高频率的
45、机器人控制;而Google Brain则尝试将大语言模型应用到机器人的控制领域,因此RT-2的模型参数量更大,在泛化能力、知识和推理能力方面有更强的表现。随着两个团队进一步合并,深化数据、模型等方面的协同合作,谷歌的机器人模型进展有望进一步加速,值得持续跟踪关注。资料来源:Google官网,OpenAI官网,中信建投 1.10 谷歌机器人模型进展总结资料来源:谷歌官网,Web of Science,中信建投基本基本信息信息模型名字模型名字BC-ZGatoRT-1PaLM-ERoboCatRT-2发布时间发布时间2022.12022.52022.122023.32023.62023.7研究机构研
46、究机构(未注明高校)(未注明高校)Robotics at GoogleEveryday RobotsDeepMindRobotics at GoogleEveryday RobotsGoogle BrainRobotics at GoogleGoogle ResearchGoogle DeepmindGoogle Deepmind数据数据整体数据集内容整体数据集内容机器人+人类演示控制环境(包括游戏、机器人等,占比85.3%)文本/图像机器人语言/图像机器人(占比8.9%)机器人图像文本对(Webli)+机器人数据集(RT-1)机器人数据PaLI-X占比50%,PaLM-E占比66%数据集大小
47、数据集大小(机器人部分)(机器人部分)100个任务25877个机器人演示片段18726个人类演示片段控制任务共个596个6300万个片段15亿个Tokens744个任务(7种技能)13万个机器人演示片段/共130类任务,400万个机器人片段其中RL共有309.2万个片段纯人类演示共有77.9万个片段参考RT-1数据集收集方式数据集收集方式(机器人部分)(机器人部分)7个操作员在12个机器人上收集公开的学术数据集,主要为模拟数据在13个机器人上收集了17个月公开的学术数据集RL:在模拟场景中通过强化学习智能体收集人类演示:4个国家100多名参与者收集了4000个小时的数据“自我完善”:通过自我完
48、善的流程生成参考RT-1硬件硬件机器人频率机器人频率(单位:(单位:HzHz)10203/10/20(少部分任务)PaLI-X-55B:1-3PaLI-X-5B:5机器人机器人/Sawyer 3-DoFEDR robot(7 DoF)/Panda 7-DoFSawyer 7-DoF、5-DoFKUKA 14-DoF(只用于微调)7-DoF模型模型总参数量总参数量/11.8亿/3.64亿/7900万3500万5620亿/840亿/120亿11.8亿/3.64亿PaLI-X版本:550亿/50亿PaLM-E版本:120亿视觉处理视觉处理FiLMViTFiLM EfficientNet-B3(160
49、0万参数)ViTVQ-GANPaLI-X/PaLM-E语言处理语言处理USESentencePieceUniversal Sentence EncoderPaLMSentencePiece综合处理模型综合处理模型MLP(多层感知机)TransformerTransformer(1900万参数)Transformer图图:谷歌机器人模型梳理:谷歌机器人模型梳理训练数据呈现出数据量持续扩大,数据来源逐渐丰富,覆盖的任务种类持续扩张的发展趋势;模型算法层面上,训练数据呈现出数据量持续扩大,数据来源逐渐丰富,覆盖的任务种类持续扩张的发展趋势;模型算法层面上,Transformer成为主要成为主要的解决
50、方案。在大语言模型结合的路线中模型参数量有所扩大,但是也面临着计算速度不足导致机器人控制频率较低的问题。的解决方案。在大语言模型结合的路线中模型参数量有所扩大,但是也面临着计算速度不足导致机器人控制频率较低的问题。展望未来,高质量数据集的收集、边缘侧算力的发展和更高效的模型架构创新等都是后续机器人模型发展中需要密切关注的方向。展望未来,高质量数据集的收集、边缘侧算力的发展和更高效的模型架构创新等都是后续机器人模型发展中需要密切关注的方向。风险提示感谢陈思玥对本报告的贡献。算力发展不及预期:算力发展不及预期:机器人模型的训练和推理对算力有着较高需求,若后续算力发展不及预期则会影响机器人大模型的迭
51、代和发展。机器人模型技术发展不及预期:机器人模型技术发展不及预期:机器人模型属于先进AI算法,若后续机器人模型算法更新迭代效果不及预期,则会影响机器人模型演进及拓展,进而会影响其商业化落地等。数据数量与数据质量不及预期:数据数量与数据质量不及预期:机器人模型需要大量的高质量数据进行训练,若数据数量和质量存在短板,则会影响模型效果。机器人大模型研发竞争激烈:机器人大模型研发竞争激烈:美国科技大厂纷纷入局机器人模型研发,相关产品表现出了很强的竞争力,机器人模型研发竞争越发激烈。分析师介绍分析师介绍阎贵成:阎贵成:中信建投证券通信&计算机行业首席分析师,北京大学学士、硕士,专注于云计算、物联网、信息
52、安全、信创与5G等领域研究。近8年中国移动工作经验,6年多证券研究经验。系2019-2021年新财富、水晶球通信行业最佳分析师第一名,2017-2018年新财富、水晶球通信行业最佳分析师第一名团队核心成员。金戈:金戈:中信建投证券研究发展部计算机行业联席首席分析师,帝国理工学院工科硕士,擅长云计算、金融科技、人工智能等领域。于芳博于芳博:中信建投人工智能组首席分析师,北京大学空间物理学学士、硕士,2019年7月加入中信建投,主要覆盖人工智能等方向,下游重点包括智能汽车、CPU/GPU/FPGA/ASIC、EDA和工业软件等方向。评级说明评级说明投资评级标准评级说明报告中投资建议涉及的评级标准为
53、报告发布日后6个月内的相对市场表现,也即报告发布日后的6个月内公司股价(或行业指数)相对同期相关证券市场代表性指数的涨跌幅作为基准。A股市场以沪深300指数作为基准;新三板市场以三板成指为基准;香港市场以恒生指数作为基准;美国市场以标普 500 指数为基准。股票评级买入相对涨幅15以上增持相对涨幅5%15中性相对涨幅-5%5之间减持相对跌幅5%15卖出相对跌幅15以上行业评级强于大市相对涨幅10%以上中性相对涨幅-10-10%之间弱于大市相对跌幅10%以上 分析师声明分析师声明本报告署名分析师在此声明:(i)以勤勉的职业态度、专业审慎的研究方法,使用合法合规的信息,独立、客观地出具本报告,结论
54、不受任何第三方的授意或影响。(ii)本人不曾因,不因,也将不会因本报告中的具体推荐意见或观点而直接或间接收到任何形式的补偿。法律主体说明法律主体说明本报告由中信建投证券股份有限公司及/或其附属机构(以下合称“中信建投”)制作,由中信建投证券股份有限公司在中华人民共和国(仅为本报告目的,不包括香港、澳门、台湾)提供。中信建投证券股份有限公司具有中国证监会许可的投资咨询业务资格,本报告署名分析师所持中国证券业协会授予的证券投资咨询执业资格证书编号已披露在报告上海品茶。在遵守适用的法律法规情况下,本报告亦可能由中信建投(国际)证券有限公司在香港提供。本报告作者所持香港证监会牌照的中央编号已披露在报告上海品茶
55、。一般性声明一般性声明本报告由中信建投制作。发送本报告不构成任何合同或承诺的基础,不因接收者收到本报告而视其为中信建投客户。本报告的信息均来源于中信建投认为可靠的公开资料,但中信建投对这些信息的准确性及完整性不作任何保证。本报告所载观点、评估和预测仅反映本报告出具日该分析师的判断,该等观点、评估和预测可能在不发出通知的情况下有所变更,亦有可能因使用不同假设和标准或者采用不同分析方法而与中信建投其他部门、人员口头或书面表达的意见不同或相反。本报告所引证券或其他金融工具的过往业绩不代表其未来表现。报告中所含任何具有预测性质的内容皆基于相应的假设条件,而任何假设条件都可能随时发生变化并影响实际投资收
56、益。中信建投不承诺、不保证本报告所含具有预测性质的内容必然得以实现。本报告内容的全部或部分均不构成投资建议。本报告所包含的观点、建议并未考虑报告接收人在财务状况、投资目的、风险偏好等方面的具体情况,报告接收者应当独立评估本报告所含信息,基于自身投资目标、需求、市场机会、风险及其他因素自主做出决策并自行承担投资风险。中信建投建议所有投资者应就任何潜在投资向其税务、会计或法律顾问咨询。不论报告接收者是否根据本报告做出投资决策,中信建投都不对该等投资决策提供任何形式的担保,亦不以任何形式分享投资收益或者分担投资损失。中信建投不对使用本报告所产生的任何直接或间接损失承担责任。在法律法规及监管规定允许的
57、范围内,中信建投可能持有并交易本报告中所提公司的股份或其他财产权益,也可能在过去12个月、目前或者将来为本报告中所提公司提供或者争取为其提供投资银行、做市交易、财务顾问或其他金融服务。本报告内容真实、准确、完整地反映了署名分析师的观点,分析师的薪酬无论过去、现在或未来都不会直接或间接与其所撰写报告中的具体观点相联系,分析师亦不会因撰写本报告而获取不当利益。本报告为中信建投所有。未经中信建投事先书面许可,任何机构和/或个人不得以任何形式转发、翻版、复制、发布或引用本报告全部或部分内容,亦不得从未经中信建投书面授权的任何机构、个人或其运营的媒体平台接收、翻版、复制或引用本报告全部或部分内容。版权所有,违者必究。中信建投证券研究发展部中信建投证券研究发展部中信建投(国际)中信建投(国际)北京东城区朝内大街2号凯恒中心B座12层电话:(8610)8513-0588联系人:李祉瑶邮箱:上海浦东新区浦东南路528号南塔2103室电话:(8621)6882-1612联系人:翁起帆邮箱:深圳福田区福中三路与鹏程一路交汇处广电金融中心35楼电话:(86755)8252-1369联系人:曹莹邮箱:香港中环交易广场2期18楼电话:(852)3465-5600联系人:刘泓麟邮箱:charleneliucsci.hk24