《计算机行业:机器人与大模型催化具身智能东风已至-230528(16页).pdf》由会员分享,可在线阅读,更多相关《计算机行业:机器人与大模型催化具身智能东风已至-230528(16页).pdf(16页珍藏版)》请在三个皮匠报告上搜索。
1、请务必阅读正文之后的免责条款部分请务必阅读正文之后的免责条款部分 2023.05.28 机器人机器人与与大模型大模型催化催化,具身智能具身智能东风东风已已至至 李沐华李沐华(分析师分析师)齐佳宏齐佳宏(分析师分析师) 证书编号 S0880519080009 S0880519080007 本报告导读:本报告导读:具身智能概念由来已久,最近随着特斯拉人形机器人的功能性突破以及多模态大模型具身智能概念由来已久,最近随着特斯拉人形机器人的功能性突破以及多模态大模型的的创新创新演化,具身智能的落地应用已见曙光。演化,具身智能的落地应用已见曙光。摘要:摘要
2、:具身智能是具身智能是 AIAI 的终极形态。的终极形态。具身智能最大的特质就是能够以主人公的视角去自主感知物理世界,用拟人化的思维路径去学习,从而做出人类期待的行为反馈,而不是被动的等待数据投喂。这也是人工智能的行为主义学派所坚信的真正智能的代表。具身智能旨在创建机器与环境交互的软硬件结合具身智能旨在创建机器与环境交互的软硬件结合且可自主学习进化且可自主学习进化的的智能体。智能体。“具身智能”的基本假设是,智能行为可以被具有对应形态的智能体通过适应环境的方式学习到,并且具身智能的根本科学立场是,只有通过行为的有效执行才能代表真正理解,反面例子是,即使是可以辨识万物的视觉大模型也不知道如何倒一
3、杯水。因此计算机视觉、NLP 技术以及各类大模型仅仅是具身智能的工具,通用人工智能才是具身智能的终极目标。大模型大模型+机器人成果显著,具身智能机器人成果显著,具身智能落地落地的东风已至的东风已至。特斯拉利用一些技术方法改进了人形机器人的动作和控制,包括电机扭矩控制、环境发现与记忆、基于人类演示训练机器人,人形机器人的成熟也为具身智能的发展提供了重要土壤,并且具身智能带来的 AI 价值远比人形机器人更大;谷歌、微软以及阿里在大模型与机器人的结合上,均作出了效果杰出的探索,其背后意味着大模型为工业机器人的开发打开了新的大门。继续推荐科大讯飞、金山办公、淳中科技、虹软科技。继续推荐科大讯飞、金山办
4、公、淳中科技、虹软科技。科大讯飞:同时拥有 AI 大模型与诸多行业数据的稀缺标的。采用“1+N”架构,将大模型落地于教育、医疗、人机交互、办公等多个行业,5 月 6 日已发布星火大模型。金山办公:国产办公软件龙头,全力发力 AI 战略,加大 AI 人才投入力度,与微软有直接映射关系。淳中科技:视频融合显控厂商;虹软科技:机器视觉算法及应用厂商。风险提示风险提示:产业链不成熟的风险,技术迭代不及预期风险。评级:评级:增持增持 上次评级:增持 细分行业评级 计算机 增持 相关报告 计算机 重点关注 AI大模型原生应用,优选兼具模型与垂直场景的厂商 2023.05.26 计算机 苹果 MR 有望引爆
5、机器视觉的iPhone 时刻 2023.05.18 计算机 北京市促进 AI发展政策出炉,聚焦算力、数据与场景 2023.05.16 计算机 4月订单环比继续回升,医院继续贡献大单 2023.05.04 计算机 美国科技制裁风险强化,信创迎重大催化 2023.04.23 行业专题研究行业专题研究 股票研究股票研究 证券研究报告证券研究报告 计算机计算机 行业专题研究行业专题研究 请务必阅读正文之后的免责条款部分请务必阅读正文之后的免责条款部分 2 of 16 目目 录录 1.具身智能AI 的终极形态.3 1.1.具身智能的行为主义人工智能的第三个流派.3 1.2.具身智能旨在创建机器与环境交互
6、的软硬件结合智能体.3 1.3.“知行合一”具身智能的根本科学立场.4 1.4.具身智能的实现需具备三种基本特性.5 2.具身智能的发展需要围绕“行为理解”解决三个核心科学问题.6 2.1.具身智能首先得实现人类行为的有效克隆.6 2.2.从生物认知角度来看,机器认知具有其合理性.8 2.3.机器能够执行行为才是真正理解行为.9 3.大模型与机器人成果显著,具身智能的东风已至.11 3.1.人形机器人具身智能成长的重要土壤.11 3.2.AIGC 助力具身智能瓶颈突破,智能与泛化能力是关键.12 3.3.巨头纷纷布局,产业融合加速推进.12 4.投资建议.14 5.风险提示.14 BViX0X
7、jZ9Y5XgV3UmUcV9PbPbRmOqQpNtQlOnNrMiNmOzQ8OqQrRuOqRpRuOpPwO 行业专题研究行业专题研究 请务必阅读正文之后的免责条款部分请务必阅读正文之后的免责条款部分 3 of 16 1.具身智能具身智能AI 的的终极形态终极形态 1.1.具身智能具身智能的行为主义的行为主义人工智能的第三个流派人工智能的第三个流派 从符号主义到联结主义,从符号主义到联结主义,智能体与真实世界的交互日益重视智能体与真实世界的交互日益重视。上世纪五十年代的达特茅斯会议之后的一段时期内,对人工智能的研究主要限于符号处理范式(符号主义)。符号主义的局限性很快在实际应用中暴露出
8、来,并催动了联接主义的发展,形成了包括多层感知机、前向神经网络、循环神经网络,直至今日风靡学术界与产业界的深度神经网络等多种方法。这种用人工神经网络模拟认知过程的方法在适应、泛化与学习方面的确取得了很大的进展,但并未真正解决智能体与真实物理世界交互的难题。该难题“莫拉维克悖论”可以通俗地表述为:要让电脑如成人般地下棋是相对容易的,但是要让电脑有如一岁小孩般的感知和行动能力却是相当困难甚至是不可能的。针对以上问题,针对以上问题,“具身智能具身智能”(”(E Embodied AImbodied AI)概念)概念应运而生应运而生。针对智能体的交互问题,明斯基从行为学习的角度提出了“强化学习”的概念
9、。1986年,布鲁克斯从控制论角度出发,强调智能是具身化(Embodied)和情境化(Contextlized)的,传统以表征为核心的经典 AI 进化路径是错误的,而清除表征的方式就是制造基于行为的机器人。Rolf Pfeifer 在其著作How the Body Shapes the Way We Think中通过分析“身体是如何影响智能的”对“智能的具身化”做了清晰的描述,阐明了“具身性”对理解智能本质与研究人工智能系统的深远影响。以上这些工作为人工智能的第三个流派以具身智能为代表的行为主义方法奠定了坚实基础。1.2.具身智能旨在具身智能旨在创建创建机器与机器与环境交互的环境交互的软硬件结
10、合智能体软硬件结合智能体 “具身智能具身智能”的基本假设是”的基本假设是,智能行为可以被具有对应形态的智能体通,智能行为可以被具有对应形态的智能体通过适应环境的方式学习到过适应环境的方式学习到。可以简单理解为各种不同形态的机器人,让它们在真实的物理环境下执行各种各样的任务,来完成人工智能的进化过程。拆分来理解,“具身”的基本含义是认知对身体的依赖性,即身体对于认知具有影响,换句话说,身体参与了认知,影响了思维、判断等心智过程。“具身”意味着认知不能脱离身体单独存在。此外,“具身”相对的概念是“离身”(Disembodiment),指的是认知与身体解 耦(ChatGPT 为代表的大模型就仅仅实现
11、了离身智能);“智能”代表智能体(生物或机械)通过与环境产生交互后,通过自身学习,产生对于客观世界的理解和改造能力。此外,一些通过强化学习训练的机器人,也可以被认为是具身智能的一种形式,如 OpenAI 的单手还原魔方机器人等。因此,具身智能旨在基于机器与物理世界的交互,创建软硬件结合、可自主学习进化的智能体。具身的概念是可检验、可测量的具身的概念是可检验、可测量的。人所理解的世界概念,其中既包括人类独有的责任心、荣誉、感情、欲望等非具身的概念,也包括了杯子、车等实体以及相应行为的具身概念。而具身概念是具备可达性、可检验性以及可解释性的,即具身的概念对应的实体和行为是可以被测量,可以通过任务的
12、完成来验证以及通过具身学习来实现概念的推断。相比之下,非具身概念基本要素不能实现可测量及可检验。24214 行业专题研究行业专题研究 请务必阅读正文之后的免责条款部分请务必阅读正文之后的免责条款部分 4 of 16 图图 1:具身具身的的概念可以形成一个可测量、可检验的闭合集概念可以形成一个可测量、可检验的闭合集 资料来源:卢策吾行为认知与具身智能,国泰君安证券研究 1.3.“知行合一”“知行合一”具身智能的根本具身智能的根本科学科学立场立场 “知行合一”是具身智能的科学立场“知行合一”是具身智能的科学立场。根据具身智能的技术实现逻辑,“知”是建立在“行”之上的,也就是说只有通过“具身”才能理
13、解某个场景。比如有个卧室,其具有睡觉、休息、放衣服等行为特征,这类行为是基于人的身体设计的,因此真正理解卧室的场景,就是要能够直接通过坐上椅子、躺在床上等行为任务去验证。同理,机器人通过理解场景,能够实现以上行为才能代表它真正理解了该场景。因为从本质上,物体和场景的类别大多是由功能和任务来定义的,“我能用来干什么,那它是什么”,比如锤子不能叫木棍,锤子有它独特的行为属性。图图 2:通过行为任务确认才能保证对场景理解的准确性通过行为任务确认才能保证对场景理解的准确性 资料来源:Scene parsing by integrating function,geometry and appearanc
14、e models 具身知识在中国古老汉字中都占据较高比例具身知识在中国古老汉字中都占据较高比例。甲骨文等古老汉字,绝大多数就是通过行为的表征来刻画一个概念,比如“争”的古老写法中,代表两个人的手拔一根绳子,因此,理解行为才是理解概念及场景的关键。图图 3:中国古老汉字中就具备“具身”理念中国古老汉字中就具备“具身”理念 资料来源:北京通用人工智能研究院,国泰君安证券研究 所以,计算机视觉和所以,计算机视觉和 NLPNLP 更多更多是具身智能的是具身智能的工具工具,而而通用人工智能才是通用人工智能才是具身智能的终极目标具身智能的终极目标。具身智能要能够实现使用身体(各个部位)完成物理任务的一些现
15、象,比如外国人不会用筷子,但仍能叉起来吃东西,行业专题研究行业专题研究 请务必阅读正文之后的免责条款部分请务必阅读正文之后的免责条款部分 5 of 16 因此具身智能也要通过物理环境完成任务的过程中,表现出完成之前没有覆盖的场景。所以,根据具身智能的特点可以研判,如同经典力学领域的速度、动量、弹性等概念奠基了物理学领域,驱动了后续科学的发展,同理,具身智能因其实现了知识、概念、可解释以及行为因果关系,其有望成为通用人工智能的驱动力。图图 4:类似于人类,:类似于人类,具身智能具身智能最终最终要能够完成陌生场景的任务实现要能够完成陌生场景的任务实现 资料来源:北京通用人工智能研究院 1.4.具身
16、智能具身智能的实现的实现需具备需具备三种基本特性三种基本特性 具身智能首先要具备可供性具身智能首先要具备可供性。可供性意味着要让机器知道物体和场景能够提供的是什么,比如整个身体、部件怎么和场景进行有效拟合。根据Gendexgrasp:Generalizable dexterous grasping论文中的案例,用两、三、五根手指去握一个柱子,倘若不同的手都能够产生无误的握杆效果,就代表有了可供性,而物理学正是机器理解可供性的关键。图图 5:可供性就是要能理解物体场景提供的是什么可供性就是要能理解物体场景提供的是什么 资料来源:Gendexgrasp:Generalizable dexterou
17、s grasping 具身智能还要具有功能性具身智能还要具有功能性。具身智能在把物体作为工具使用的过程中,要能够以任务执行为导向去理解功能。从智能体来理解世界,核心就在于任务改变实体状态,是任务实现来驱动智能体的。例如,在解决“铲土”任务过程中,需要实现用不同的工具去铲土,比如杯子、铲子、平底锅等,都要能够让智能体实现“铲土”这个任务。因此,具身智能的功能性就是赋予了物体一个功能,用来解决某个特定任务。图图 6:功能性就是智能体赋予一些物体一个功能,从而完成特定任务功能性就是智能体赋予一些物体一个功能,从而完成特定任务 行业专题研究行业专题研究 请务必阅读正文之后的免责条款部分请务必阅读正文之
18、后的免责条款部分 6 of 16 资料 来源:Understanding Tools:Task-Oriented Object Modeling,Learning and Recognition 具身智能需要实现因果链具身智能需要实现因果链。就以上提到的“铲土”例子,智能体能否顺利铲起土来是有因果关系的,例如控制挥动锤子的方式、动量、冲量等指标的改变程度和改变过程,需要用数学和物理的因果链来控制。人工智能研究院朱松纯教授团队介绍了一种学习和规划框架,并证明了所提出的学习和规划框架能够识别对任务成功有重要意义的基本物理量,使智能体能够自主规划有效的工具使用策略,模仿人类使用工具的基本特性。智能体
19、学习如何使用工具涉及到多个认知和智能过程,这个过程即使对智能体学习如何使用工具涉及到多个认知和智能过程,这个过程即使对人类来说也并不容易人类来说也并不容易。让机器人掌握工具使用所涵盖的所有技能是一项有挑战性的难题,这项工作包括三个层面:其一是底层的运动控制。很多研究基于阻抗控制(Impedance control)来跟踪工具使用的运动轨迹,或在不同阶段改变力和运动约束,或使用基于学习的方法来控制机器人运动轨迹。在底层控制中,鲁棒地执行运动轨迹是关注的核心。其二是中间层表征。各种利于下游任务的中间表征被提出,以便更好地理解工具的使用。尽管引入这些表征有利于学习更多不同的工具使用技能,但它们目前仍
20、然局限于工具的形状和任务之间的几何关联。其三是理解在工具使用中的涉及的高层概念,比如物体的功能性(Functionality)和可供性(Affordance),以及工具使用中涉及的因果关系与常识,从而实现更好的泛化能力。图图 7:科学家实现了科学家实现了使机器人以适应其自身的使机器人以适应其自身的方式方式来来使用工具使用工具完成任务完成任务 资料来源:Understanding Physical Effects for Effective Tool-use,国泰君安证券研究 现有的现有的具身智能具身智能工作大多集中在以上工作大多集中在以上三种基本特性三种基本特性中的某一层面。中的某一层面。要么
21、主要关注于机器人的动作轨迹而不去理解任务本身,要么旨在高层次概念理解而过度简化运动规划,都不能够较全面的涵盖所有层面。因此,机器人还远远没有办法基于特定的情境去制定工具使用的策略,并且由于运动学结构的显著差异,机器人观察到的人类使用工具的策略对其来说可能并不是最理想的方式。例如给定一组物体(典型的工具或其他物体),机器人如何判断哪一个会是完成任务的最佳选择?一旦选择了一个物体作为工具,根据机器人和工具特定的运动学结构和动力学限制,机器人该如何有效地使用它?这些问题也正是行业的前沿研究领域。2.具身智能的发展需要围绕“行为理解”解决具身智能的发展需要围绕“行为理解”解决三个核三个核心科学问题心科
22、学问题 2.1.具身智能首先得实现人类行为的有效克隆具身智能首先得实现人类行为的有效克隆 行业专题研究行业专题研究 请务必阅读正文之后的免责条款部分请务必阅读正文之后的免责条款部分 7 of 16 要机器理解实体与行为,就得回答三个核心的科学问题。要机器理解实体与行为,就得回答三个核心的科学问题。首先,从机器认知角度,如何让机器看懂行为?其次,从神经认知角度,机器认知语义与神经认知的内在关联如何?再者,从具身认知的角度,如何将行为理解知识迁移到机器人系统?要实现具身智能,就必须先要实现具身智能,就必须先回答回答机器能否克隆人类的行为机器能否克隆人类的行为这个问题这个问题。行为认知是智能科学中的
23、重要和核心问题,要让机器理解世界代表着:理解实体+理解行为,因为不确定性的世界空间就可以归类为实体与行为两者。图图 8:要实现机器理解行为必须拆分为:要实现机器理解行为必须拆分为“理解实体“理解实体+理解行为本身”理解行为本身”资料来源:国泰君安证券研究 深度学习框架在深度学习框架在行为认知中行为认知中遇到了瓶颈遇到了瓶颈。因为深度学习得到长足发展,计算机视觉领域有两个要素,一个是以物体为中心的感知,一个是以人为中心的感知。配合不断进化的深度学习算法,复杂物体识别可以十分成功,但是要机器明白从人类视角的这个行为的真实语义,却十分困难。市场表现来看也是如此,很多商用产品都是基于物体检测,行为理解
24、的产品都是很少的。之所以人为中心的感知十分困难,是因为深度学习本身达到了瓶颈。根据卢策吾教授的研究结果,行为识别的 SOTA 要远低于物体识别。图图 9:当前的计算机视觉相关技术在行为识别上存在当前的计算机视觉相关技术在行为识别上存在一定一定局限性局限性 资料来源:卢策吾教授(上海交通大学)行为理解行为理解的关键的关键是要在极大语义噪声中提取行为理解要素是要在极大语义噪声中提取行为理解要素。行为是一个抽象概念,因而需要在图像中捕抓行为相关要素。要衡量图像的语义判断区间,可以用语噪比(语噪比=支撑语义判断区间/全图像区间)来刻画,即抹去图像上的某个区域使得其他人无法识别出行为类型的最小区域。卢策
25、吾教授团队通过计算发现,物体识别的语噪比要远大于行为识别,这意味着遮住较大区域仍可以识别物体,但哪怕遮住一小块区域就无法识别行为。因此,可以得出结论,行为理解的关键是要在极大语义噪声中提取行为理解要素,也就是需要在很大干扰情况下,真正挖掘图像的真实语义。而这个工作是无法通过增加深度学习的工作量来达到的。行业专题研究行业专题研究 请务必阅读正文之后的免责条款部分请务必阅读正文之后的免责条款部分 8 of 16 图图 10:行为识别的正确往往取决于区域较小的关键部分行为识别的正确往往取决于区域较小的关键部分 资料来源:卢策吾教授(上海交通大学)将行为认知问题分解为感知到知识、知识到推理融合的两个较
26、为简单的将行为认知问题分解为感知到知识、知识到推理融合的两个较为简单的阶段,是一个较阶段,是一个较优优的科学路径。的科学路径。离散语义符号是被不同行为所共享的,比如吃饭、读书和打扫都有着“手-握-某物”的标签,通过对这些共享标签的迁移、复用和组合,可以形成行为原语,从而构造“中间层知识”,这种组合可以有着一定的泛化能力,即通过原语组合,机器可以做出没见过的行为。图图 11:将行为认知过程分解为两个较为简单的阶段将行为认知过程分解为两个较为简单的阶段 图图12:从构建原语知识到组合为行为的流程如下所述从构建原语知识到组合为行为的流程如下所述 数据来源:卢策吾教授(上海交通大学)数据来源:国泰君安
27、证券研究 因此,构建海量原语知识以及逻辑规则库是首当其冲的工作。因此,构建海量原语知识以及逻辑规则库是首当其冲的工作。人类理解行为的基本原因,约等于人类各个部件在干什么事情,因此首先得构建大量的基于人类局部状态的原语知识,并能识别它们。其次,有了好的原语检测,之后就需要对它们进行编程,实现逻辑规则引导下的数据驱动学习,但这里容易出的问题是,规则是人类自己认为的,如果规则库错了就会有很大的影响,因此规则学习是解决该问题的办法。具体流程是,在行为原语知识库中随机采样,形成对该行为的判断,然后基于人类给的先验起始点去搜索,规则空间采样,若准确率提高就加上规则,不然就删掉该规则,通过调整后的规则分布形
28、成新规则。卢策吾教授发现,以“人骑车”图像为例,经过以上技术流程,机器可以在未见过的“骑车规则”中自动识别出“骑车”这个行为,所以该技术路线可以有效逼近行为识别的人类性能。图图 13:针对行为认知的原语知识库示例如下针对行为认知的原语知识库示例如下 图图 14:逻辑规则学习流程如下所示逻辑规则学习流程如下所示 数据来源:卢策吾教授(上海交通大学)数据来源:卢策吾教授(上海交通大学)2.2.从生物认知角度从生物认知角度来看,来看,机器认知机器认知具有其具有其合理性合理性 行业专题研究行业专题研究 请务必阅读正文之后的免责条款部分请务必阅读正文之后的免责条款部分 9 of 16 机器能够理解人类行
29、为需要有科学依据的支撑。机器能够理解人类行为需要有科学依据的支撑。因此,科学家需要进一步确定机器视觉行为分类特征跟神经特征之间是否存在稳定映射关系。如果有稳定关系,视觉定义行为就是有客观依据的。实验发现行为从模式到脑信号存在映射,且模型稳定实验发现行为从模式到脑信号存在映射,且模型稳定。卢策吾教授联合生物医学团队,搭建了首套大规模视觉理解-神经信号闭环系统,对小鼠的行为模式和神经信号进行了相关性分析。通过实验发现机器学习得出行为从模式到脑信号存在映射,并可以建立一个稳定模型。另外,通过构建一套基于机器学习的行为相关的神经回路发现系统,成功发现解析了“小鼠社会等级”行为的神经回路。综上可以得出结
30、论,通过视觉定义行为是有科学依据的。图图 15:小鼠实验证明了小鼠实验证明了视觉定义行为的科学性和有效性视觉定义行为的科学性和有效性 资料来源:卢策吾教授(上海交通大学)2.3.机器能够执行行为才是真正理解行为机器能够执行行为才是真正理解行为 不仅仅理解行为,更需要能执行行为不仅仅理解行为,更需要能执行行为,机器能够执行行为才是真正理解机器能够执行行为才是真正理解行为。行为。通过计算机视觉以及行为认知识别,让机器能够确认和分辨一个行为仅仅只是第一步,这也只是传统旁观式 AI 学习所达到的功能水平,例如,传统 AI 学习可以让机器学习“盒子”概念并在新的场景中说出“盒子”这个标签,但在具身智能学
31、习模式中,机器通过感知环境实体,通过亲身体验完成具身学习,最终理解场景并形成“打开”这个概念。因此,当机器可以执行该行为才是具身智能的落脚点。图图 16:具身智能学习模式与传统旁观式具身智能学习模式与传统旁观式 AI 学习有着根本不同学习有着根本不同 资料来源:卢策吾行为认知与具身智能,国泰君安证券研究 执行行为需要涉及到形态、行为和学习的体系化交互。执行行为需要涉及到形态、行为和学习的体系化交互。在基于形态的具身智能中,形态、行为与学习之间的关系密切。首先,需要利用形态产生行为,该过程重点强调利用具身智能体的形态特性巧妙地实现特定的行为,从而达到部分取代“计算”的目的。其次,需要利用行为实现
32、学习,重点强调利用具身智能体的探索、操作等行为能力主动获取学习样 行业专题研究行业专题研究 请务必阅读正文之后的免责条款部分请务必阅读正文之后的免责条款部分 10 of 16 本、标注信息,从而达到自主学习的目的,此领域当前属于研究前沿。再者,需要强调利用学习提升行为以及利用行为控制形态,后者有多种实现方法,但当前利用学习手段来提升行为,并进而控制形态的工作是现代人工智能技术发展起来后涌现出来的新型智能控制方法,特别是基于强化学习的技术已成为当前的热点手段。最后,具身智能需要利用学习来优化形态,强调利用先进的学习优化技术实现对具身智能体的形态优化设计。图图 17:基于形态的具身智能的体系架构如
33、下所示基于形态的具身智能的体系架构如下所示 资料来源:刘华平基于形态的具身智能研究:历史回顾与前沿进展“具身感知”“具身感知”是以执行动作为导向的全概念是以执行动作为导向的全概念的交互感知的交互感知。具身智能首先第一步就得解决具身概念学习的问题,即如何定义、获取、表达可以被机器人使用的物理概念。具身感知和传统计算机视觉不同,计算机视觉没有解析全部的知识,而具身感知包含了“全概念感知”和“交互感知”,从而保证机器看到的不是标签,而是怎么利用它。例如,可以从人类认知的角度,构建大规模关节体知识库,该知识库涵盖外形、结构、语义、物理属性,同时标注关节体每个部件的质量、体积、惯性等,记录真实世界物体操
34、作力反馈与仿真操作力反馈,在物理属性知识加持下,物体力反馈曲线可以完全拟合出来,这时候仿真物体操作的时候,不再是去检测标签,而是所有知识全部检测出来,检测出来后,可以通过机器执行的准确率,判断感知的准确率。图图 18:整个具身智能的有效实现需要经历感知整个具身智能的有效实现需要经历感知-想象想象-执行三个步骤执行三个步骤 资料来源:卢策吾行为认知与具身智能,国泰君安证券研究 通过行为的反馈和模式学习的空间压缩,可以实现通过行为的反馈和模式学习的空间压缩,可以实现“具身执行”的“具身执行”的一定一定泛化性泛化性。在交互感知下,机器如果只是看物体,信息量没有增加,但如果交互它,就能迅速减少误差。机
35、器面对物体,初步检测它的知识,但肯定存在知识结构不准的情况,但可以在猜测它是怎么做出这个行为的基础上,指导机械去做,倘若做完之后跟真实不一样,就证明猜测有问题,再反过来优化问题。并且,可以把抓取到的所有特征模式,压缩到可以被学习的空间范围内,通过这种机制,机器在面对没见过的物体时,也能进行相关的行为,因而具备了一定的通用性。行业专题研究行业专题研究 请务必阅读正文之后的免责条款部分请务必阅读正文之后的免责条款部分 11 of 16 3.大模型大模型与与机器人机器人成果显著成果显著,具身智能,具身智能的东风已至的东风已至 3.1.人形机器人人形机器人具身智能具身智能成长成长的的重要重要土壤土壤
36、Tesla BotTesla Bot 功能进展迅速功能进展迅速,商业化商业化前景可期前景可期。2021年,在“特斯拉AI日”上,马斯克发布了特斯拉的通用机器人计划,并用图片展示了人形机器人 Tesla Bot 的大致形态。但当时的 Tesla Bot 只是个概念。一年后在2022 特斯拉 AI 日上,人形机器人擎天柱(Optimus)实体亮相。2023 年5 月中旬的特斯拉股东大会上,马斯克又展示了Tesla Bot 的最新进展,现在 Tesla Bot 已经可以流畅行走,并还能灵活抓取放下物体。马斯克在会上表示“人形机器人将会是今后特斯拉主要的长期价值来源。如果人形机器人和人的比例是 2 比
37、 1,则人们对机器人的需求量可能是 100亿乃至 200 亿个,远超电动车数量”。图图 19:2022 年特斯拉机器人实体首次亮相年特斯拉机器人实体首次亮相 图图 20:Tesla BotTesla Bot 已能够直立行走和抓取物体已能够直立行走和抓取物体 数据来源:特斯拉 数据来源:特斯拉 最近的最近的 Tesla BotTesla Bot功能突破来源于特斯拉改进的电机扭矩控制以及环境功能突破来源于特斯拉改进的电机扭矩控制以及环境建模等技术建模等技术。特斯拉利用一些技术方法改进了人形机器人的动作和控制,包括电机扭矩控制、环境发现与记忆、基于人类演示训练机器人。首先,研究团队使用电机扭矩控制(
38、motor torque control)操纵人形机器人腿部的运动,让机器人落脚力度保持轻缓。对于一个机器人来说,观察或感知周围环境是非常重要的,因此特斯拉为人形机器人添加了环境发现与记忆的能力。现在该人形机器人已经可以对周围环境进行大致建模。特斯拉的人形机器人具备与人类相似的身体结构,特斯拉的研究团队使用大量人类演示训练了机器人,特别是在手部动作方面,旨在让其具备与人类似的物体抓取能力。图图 21:机器人已能够对周边环境进行建模机器人已能够对周边环境进行建模 图图 22:基于基于人类演示人类演示可以可以训练机器人训练机器人 数据来源:特斯拉 数据来源:特斯拉 具身智能带来的具身智能带来的 A
39、IAI 价值远比人形机器人更大。价值远比人形机器人更大。具身智能最大的特质就是能够以主人公的视角去自主感知物理世界,用拟人化的思维路径去学习,从而做出人类期待的行为反馈,而不是被动的等待数据投喂。人形机器人提供了各种基于人类行为的学习和反馈系统,为实现更复杂行为 行业专题研究行业专题研究 请务必阅读正文之后的免责条款部分请务必阅读正文之后的免责条款部分 12 of 16 语义提供了迭代的基础和试验场,因此,人形机器人的逐步完善也为具身智能的落地提供了方向。而面向工业等场景的具身智能应用并非一定要是人形机器人,因此具身智能背后的技术和方法论才是核心,也意味着具身智能所带来的价值要远远高于人形机器
40、人本身。换句话说,人形机器人是具身智能的重要应用场景,也将为具身智能的迭代优化提供方向和空间。3.2.AIGCAIGC 助力助力具身智能具身智能瓶颈瓶颈突破突破,智能与泛化能力是关键,智能与泛化能力是关键 强化学习兴起之后,具身智能受到了更广泛的关注。强化学习兴起之后,具身智能受到了更广泛的关注。之前随着Alpha Go的成功,学术界对于强化学习的兴趣大增,随之很多人开始用 RL 来打通智能体的感知-决策-执行,希望实现具身智能。训练 RL 是一个不断试错的过程,所以从 2017、18 年开始,出现了很多仿真训练平台,能把一个智能体以具身的形式放进去,然后通过与环境的交互中获得 reward,
41、进而学习一个 policy。但是因为仿真环境和现实环境总是有差距的(叫sim2real gap),习得的 policy 不一定能迁移到现实里。当前能实现技能 policy 从仿真迁移到现实环境中的,主要还是像移动导航、单步骤的抓取或者操作这类较为单一的技能,而且很难泛化。最近大语言模型的风头又压过最近大语言模型的风头又压过了强化学习。了强化学习。最近业界希望通过大规模sequence to sequence,用一个模型整合视觉、语言、机器人,也取得了一定效果。但是机器人的执行需要的是 4D 数据(三维环境和机器人运动的时序轨迹),它的数据量和丰富度都远不如图片和文本,采集成本也高的多,因此迭代
42、演化的难度相比于大模型高得多。而而多模态大模型为具身智能的技术瓶颈突破提供了重要驱动力多模态大模型为具身智能的技术瓶颈突破提供了重要驱动力。具身智能是人工智能、机器人等各技术分支融合发展的必然结果,因为计算机视觉为图像的采集和处理打开了窗口,图形学也为物理仿真提供了工具支撑,NLP 也为人类-机器交互提供了便捷性,也为机器从文本中学习知识提供了有效途径,认知科学也为具身智能的行为认知原理提供了科学研究途径。各类机器人构件也为智能体与物理环境交互提供了桥梁。因此,人工智能的技术分支以及机器人功能性的提升,为具身智能的进一步发展带来了可能,而当前 AIGC 时代的大模型可以将之前的技术分支更优地集
43、成和创新,已有不少研究者尝试将多模态的大语言模型作为人类与机器人沟通的桥梁,即通过将图像、文字、具身数据联合训练,并引入多模态输入,增强模型对现实中对象的理解,从而更高效地帮助机器人处理具身推理任务,一定程度提升了具身智能的泛化水平。所以,GPT 等 AI 大模型为具身智能的自我感知和任务处理的优化升级提供了新的研究手段。图图 23:具身智能是人工智能、机器人等各技术分支融合发展的必然结果具身智能是人工智能、机器人等各技术分支融合发展的必然结果 资料来源:国泰君安证券研究 3.3.巨头纷纷布局巨头纷纷布局,产业融合,产业融合加速推进加速推进 行业专题研究行业专题研究 请务必阅读正文之后的免责条
44、款部分请务必阅读正文之后的免责条款部分 13 of 16“算力霸主”英伟达“算力霸主”英伟达高调布局高调布局具身智能。具身智能。在 ITF World 2023 半导体大会上,黄仁勋表示人工智能的下一个浪潮将是具身智能,即能理解、推理、并与物理世界互动的智能系统。同时,他也介绍了英伟达的多模态具身智能系统 Nvidia VIMA,其能在视觉文本提示的指导下,执行复杂任务、获取概念、理解边界、甚至模拟物理学,这也标志着 AI 能力的一大显著进步。融合传感器模态与语言模型融合传感器模态与语言模型,谷歌推出的谷歌推出的视觉语言模型视觉语言模型相较于相较于ChatGPTChatGPT新增了视觉功能新增
45、了视觉功能。2023 年 3 月,谷歌和柏林工业大学 AI 研究团队推出了当时最大视觉语言模型PaLM-E 多模态视觉语言模型(VLM),该模型具有 5620 亿个参数,集成了可控制机器人的视觉和语言能力,将真实世界的连续传感器模态直接纳入语言模型,从而建立单词和感知之间的联系,且该模型能够执行各种任务且无需重新训练,其相较于 ChatGPT新增了视觉功能。PaLM-E 的主要架构思想是将连续的、具体化的观察(如图像、状态估计或其他传感器模态)注入预先训练的语言模型的语言嵌入空间,因此实现了以类似于语言标记的方式将连续信息注入到语言模型中。谷歌谷歌实现实现视觉语言与机器人高水平实时互联视觉语言
46、与机器人高水平实时互联,且,且观察到了类似多模态思观察到了类似多模态思维链推理与多图像推理等涌现能力的出现维链推理与多图像推理等涌现能力的出现。基于语言模型,PaLM-E 会进行连续观察,例如接收图像或传感器数据,并将其编码为一系列与语言令牌大小相同的向量。因此,模型就能继续以处理语言的方式“理解”感官信息。而且,同一套 PaLM-E 模型能够达到实时控制机器人的水准。PaLM-E 还展现出随机应变的能力,例如尽管只接受过单图像提示训练,仍可实现多模态思维链推理(允许模型对包含语言和视觉信息在内的一系列输入进行分析)和多图像推理(同时使用多张输入图像进行推理或预测)。但谷歌展示的 Demo 中
47、的空间范围、物品种类、任务规划复杂度等条件还比较有限,随着深度学习模型愈发复杂,PaLM-E 也将打开更多可行性应用空间。图图 24:PaLMPaLM-E E 可以可以控制机械臂控制机械臂对视觉和语言命令进行对视觉和语言命令进行有效有效执行执行 资料来源:PaLM-E:An Embodied Multimodal Language Model 微软正计划将微软正计划将 ChatGPT ChatGPT 的能力扩展到机器人领域,使得能用语言文字控的能力扩展到机器人领域,使得能用语言文字控制机器人制机器人。目前实验已经能够通过给 ChatGPT 的对话框输入指令,让其控制机器人在房间中找到“健康饮料
48、”、“有糖和红色标志的东西”等。微软研究人员表示,“研究的目标是看 ChatGPT 是否能超越生成文本的范畴,对现实世界状况进行推理,从而帮助机器人完成任务”。微软希望帮助人们更轻松地与机器人互动,而无需学习复杂的编程语言或有关机器人系统的详细信息。行业专题研究行业专题研究 请务必阅读正文之后的免责条款部分请务必阅读正文之后的免责条款部分 14 of 16 阿里采用和微软相似的路径,正在实验将千问大模型接入工业机器人阿里采用和微软相似的路径,正在实验将千问大模型接入工业机器人。在近日举行的第六届数字中国建设峰会上,阿里云发布一个演示视频中展示了千问大模型的实际应用场景。其中,千问大模型接入了工
49、业机器人,工程师通过钉钉对话框向机器人发出指令后,千问大模型在后台自动编写了一组代码发给机器人,机器人开始识别周边环境,从附近的桌上找到一瓶水,并自动完成移动、抓取、配送等一系列动作,递送给工程师。在钉钉对话框输入一句人类语言即可指挥机器人工作,这将为工业机器人的开发和应用带来革命性的变化,其背后意味着大模型为工业机器人的开发打开了新的大门。因为千问等大模型为机器人提供了推理决策的能力,从而有望让机器人的灵活性和智能性大幅提升。图图 25:将千问大模型接入工业机器人将千问大模型接入工业机器人,使机器人可以为人类服务,使机器人可以为人类服务 资料来源:阿里云 4.投资建议投资建议 继续推荐继续推
50、荐科大讯飞科大讯飞、金山办公、金山办公、淳中科技、虹软科技淳中科技、虹软科技。科大讯飞:同时拥有 AI 大模型与诸多行业数据的稀缺标的。采用“1+N”架构,将大模型落地于教育、医疗、人机交互、办公等多个行业,5 月 6 日已发布星火大模型。金山办公:国产办公软件龙头,全力发力 AI 战略,加大 AI人才投入力度,与微软有直接映射关系。淳中科技:视频融合显控厂商;虹软科技:机器视觉算法及应用厂商。表表 1:重点公司估值情况:重点公司估值情况 股票代码股票代码 证券名称证券名称 总市值总市值(亿元)(亿元)营业收入(亿元)营业收入(亿元)PS(倍)(倍)评级评级 20230526 2021A 20
51、22A 2023E 2021A 2022A 2023E 002230 科大讯飞 1,315.56 183.14 188.20 275.68 7.18 6.99 4.77 增持 688111 金山办公 1,905.46 32.80 38.85 52.93 58.09 49.05 36.00 增持 603516 淳中科技 43.24 4.68 3.81 6.84 9.24 11.36 6.32 增持 688088 虹软科技 176.12 5.73 5.32 9.38 30.74 33.13 18.78 增持 数据来源:wind,国泰君安证券研究 5.风险提示风险提示 市场拓展不及预期市场拓展不及预
52、期。在工业领域,功能各异的专业机器人已经占据着大部分使用场景,人形机器人显得十分鸡肋。在服务领域,人形机器人的使用可能也并不如人们想象地智能,市场需求仍待进一步开发。行业专题研究行业专题研究 请务必阅读正文之后的免责条款部分请务必阅读正文之后的免责条款部分 15 of 16 产业链不成熟的风险产业链不成熟的风险。关于机器人的成本问题,尤其是三大核心零部件减速器、伺服电机及控制器的成本,仍需等待产业链进一步发展。技术迭代不及预期技术迭代不及预期。目前具身智能的“感知-想象-决策”的很多案例均局限在实验室场景,在生活、工业等海量场景中的普适性仍需要技术路线以及算法的进一步突破。行业专题研究行业专题
53、研究 请务必阅读正文之后的免责条款部分请务必阅读正文之后的免责条款部分 16 of 16 本公司具有中国证监会核准本公司具有中国证监会核准的证券投资的证券投资咨询咨询业务资格业务资格 分析师声明分析师声明 作者具有中国证券业协会授予的证券投资咨询执业资格或相当的专业胜任能力,保证报告所采用的数据均来自合规渠道,分析逻辑基于作者的职业理解,本报告清晰准确地反映了作者的研究观点,力求独立、客观和公正,结论不受任何第三方的授意或影响,特此声明。免责声明免责声明 本报告仅供国泰君安证券股份有限公司(以下简称“本公司”)的客户使用。本公司不会因接收人收到本报告而视其为本公司的当然客户。本报告仅在相关法律
54、许可的情况下发放,并仅为提供信息而发放,概不构成任何广告。本报告的信息来源于已公开的资料,本公司对该等信息的准确性、完整性或可靠性不作任何保证。本报告所载的资料、意见及推测仅反映本公司于发布本报告当日的判断,本报告所指的证券或投资标的的价格、价值及投资收入可升可跌。过往表现不应作为日后的表现依据。在不同时期,本公司可发出与本报告所载资料、意见及推测不一致的报告。本公司不保证本报告所含信息保持在最新状态。同时,本公司对本报告所含信息可在不发出通知的情形下做出修改,投资者应当自行关注相应的更新或修改。本报告中所指的投资及服务可能不适合个别客户,不构成客户私人咨询建议。在任何情况下,本报告中的信息或
55、所表述的意见均不构成对任何人的投资建议。在任何情况下,本公司、本公司员工或者关联机构不承诺投资者一定获利,不与投资者分享投资收益,也不对任何人因使用本报告中的任何内容所引致的任何损失负任何责任。投资者务必注意,其据此做出的任何投资决策与本公司、本公司员工或者关联机构无关。本公司利用信息隔离墙控制内部一个或多个领域、部门或关联机构之间的信息流动。因此,投资者应注意,在法律许可的情况下,本公司及其所属关联机构可能会持有报告中提到的公司所发行的证券或期权并进行证券或期权交易,也可能为这些公司提供或者争取提供投资银行、财务顾问或者金融产品等相关服务。在法律许可的情况下,本公司的员工可能担任本报告所提到
56、的公司的董事。市场有风险,投资需谨慎。投资者不应将本报告作为作出投资决策的唯一参考因素,亦不应认为本报告可以取代自己的判断。在决定投资前,如有需要,投资者务必向专业人士咨询并谨慎决策。本报告版权仅为本公司所有,未经书面许可,任何机构和个人不得以任何形式翻版、复制、发表或引用。如征得本公司同意进行引用、刊发的,需在允许的范围内使用,并注明出处为“国泰君安证券研究”,且不得对本报告进行任何有悖原意的引用、删节和修改。若本公司以外的其他机构(以下简称“该机构”)发送本报告,则由该机构独自为此发送行为负责。通过此途径获得本报告的投资者应自行联系该机构以要求获悉更详细信息或进而交易本报告中提及的证券。本
57、报告不构成本公司向该机构之客户提供的投资建议,本公司、本公司员工或者关联机构亦不为该机构之客户因使用本报告或报告所载内容引起的任何损失承担任何责任。评级说明评级说明 评级评级 说明说明 1.1.投资建议的比较标准投资建议的比较标准 投资评级分为股票评级和行业评级。以报告发布后的 12 个月内的市场表现为比较标准,报告发布日后的 12 个月内的公司股价(或行业指数)的涨跌幅相对同期的沪深 300 指数涨跌幅为基准。股票投资评级股票投资评级 增持 相对沪深 300 指数涨幅 15%以上 谨慎增持 相对沪深 300 指数涨幅介于 5%15%之间 中性 相对沪深 300 指数涨幅介于-5%5%减持 相
58、对沪深 300 指数下跌 5%以上 2.2.投资建议的评级标准投资建议的评级标准 报告发布日后的 12 个月内的公司股价(或行业指数)的涨跌幅相对同期的沪深300 指数的涨跌幅。行业投资评级行业投资评级 增持 明显强于沪深 300 指数 中性 基本与沪深 300 指数持平 减持 明显弱于沪深 300 指数 国泰君安证券研究国泰君安证券研究所所 上海上海 深圳深圳 北京北京 地址 上海市静安区新闸路 669 号博华广场 20 层 深圳市福田区益田路 6003 号荣超商务中心 B 栋 27 层 北京市西城区金融大街甲 9 号 金融街中心南楼 18 层 邮编 200041 518026 100032 电话(021)38676666(0755)23976888(010)83939888 E-mail: