《计算机行业专题研究:GPT&智能终端大模型定义新入口-230406(18页).pdf》由会员分享,可在线阅读,更多相关《计算机行业专题研究:GPT&智能终端大模型定义新入口-230406(18页).pdf(18页珍藏版)》请在三个皮匠报告上搜索。
1、 免责声明和披露以及分析师声明是报告的一部分,请务必一起阅读。1 证券研究报告 计算机计算机 GPT&智能终端:大模型定义新入口智能终端:大模型定义新入口 华泰研究华泰研究 计算机计算机 增持增持 (维持维持)研究员 谢春生谢春生 SAC No.S0570519080006 SFC No.BQZ938 +(86)21 2987 2036 联系人 袁泽世,袁泽世,PhD SAC No.S0570122080053 +(86)21 2897 2228 联系人 彭钢彭钢 SAC No.S0570121070173 +(86)21 2897 2228 行业行业走势图走势图 资料来源:Wind,华泰研究
2、 2023 年 4 月 06 日中国内地 专题研究专题研究 以机器人为突破口,以机器人为突破口,ChatGPT 等大模型定义等大模型定义智能终端智能终端新新入口入口 2023 年 2 月,微软提出了 ChatGPT for Robotics,利用 ChatGPT 解决机器人应用程序问题。在此过程中,不要求 LLM(大语言模型)输出特定于机器人平台或库的代码,而是创建简单的高级函数库供 ChatGPT 调用,并在后端将高级函数库链接到各平台、场景和工具的现有库和 API。结果表明,ChatGPT 能够以 zero-shot 的方式解决各种与机器人相关的任务,对于zero-shot 无法解决的问题
3、,用户也可以采用交互对话的形式对 ChatGPT 实行进一步指导。以人形、协作机器人为突破口,ChatGPT 等 LLM 将成为智能音箱、车载虚拟助手等智能终端设备新入口。人类人类 on-the-loop 指导指导 ChatGPT 操纵机器人操纵机器人 ChatGPT 的引入,使得人类用户脱离 in-the-loop,转以 on-the-loop 的形式,通过自然语言等高级语言命令与语言模型交互,实现无缝部署各种平台和任务,并对 ChatGPT 输出的质量和安全性进行评估。其中,定义高级函数库与构建提示是关键:前者通过调用机器人平台 API 赋予 ChatGPT 操纵机器人的能力;后者通过描述
4、约束&需求、环境、当前状态、目标、方案示例等,更好的指导 ChatGPT 生成结果。微软还提供专门的 PromptCraft 和 AirSim仿真平台辅助开发者进行机器人方面的研究。ChatGPT 分三个层次解决不同复杂度的机器人问题分三个层次解决不同复杂度的机器人问题 对于简单的机器人任务,例如时空推理、无人机飞行和 AirSim 工业检测等,ChatGPT 能够以 zero-shot 的方式解决,不需要提供额外的代码示例。对于较为复杂的任务,例如课程学习和 AirSim 避障,ChatGPT 无法 zero-shot解决问题,人类用户 on-the-loop 与 ChatGPT 进行交互,
5、可以辅助其完成相关任务。以上两类任务的完成均依赖 ChatGPT 生成的代码,而更高层次地,用户通过文本对话不断将人类的感知信息输入到 ChatGPT,ChatGPT 能够解析观察流并在“对话系统”中输出相关操作,不再需要生成代码。LLM 定义机器人、智能音箱、车载助手等新入口定义机器人、智能音箱、车载助手等新入口 微软的 ChatGPT for robots 开启了 ChatGPT 的设备入口属性。1)机器人入口:谷歌的 PaLM-E 具身多模态模型同样实现了对机器人的控制;OpenAI从 2017 年即开始在机器人领域布局,2023 年 3 月领投挪威的人形机器人制造商 1X techno
6、logies。2)智能音箱&家居:国外智能家居提供商 Josh.ai提供了与 ChatGPT 结合的使用示例,阿里大模型联合项目团队在天猫精灵智能音箱上部署了个性化消费级终端模型。3)车载助手:通用汽车正开发基于 ChatGPT 的虚拟个人 AI 助手,毫末智行预告了 DriveGPT。相关标的相关标的 大模型的“新入口”属性已经从主流的 PC 和手机端,向更广泛的智能设备扩散。我们认为,主要的智能设备包括智能终端和智能音箱,相关标的包括:1)智能终端:科大讯飞,萤石网络,中科创达;2)智能音箱:国光电器,漫步者,惠威科技;3)机器人:石头科技;4)银行超级柜台:新北洋。风险提示:宏观经济波动
7、,技术进步不及预期。本报告内容均基于客观信息整理,不构成投资建议。(15)3213957Apr-22Aug-22Dec-22Apr-23(%)计算机沪深300 免责声明和披露以及分析师声明是报告的一部分,请务必一起阅读。2 计算机计算机 正文目录正文目录 ChatGPT:探索机器人新入口:探索机器人新入口.3 人类 on-the-loop 指导 ChatGPT 操纵机器人.3 定义高级函数库与构建提示是关键.4 微软提供开源 prompt 和仿真平台.5 简单任务:zero-shot 可以直接解决.6 复杂任务:用户 on-the-loop 交互式对话实现.7 感知-动作循环:代码层次与对话层
8、次.7 以机器人为突破口,以机器人为突破口,LLM 定义智能终端新入口定义智能终端新入口.9 入口#1:人形、协作等各类机器人.9 入口#2:以智能音箱为代表的智能家居.11 入口#3:车载虚拟个人 AI 助手.13 相关标的.14 风险提示.15 5X9UgViYeYlWsXvUuV8OdNbRoMoOsQmPeRpPsOkPrRqOaQnMvMvPnRxPxNsQsO 免责声明和披露以及分析师声明是报告的一部分,请务必一起阅读。3 计算机计算机 ChatGPT:探索探索机器人机器人新入口新入口 微软解锁微软解锁 ChatGPT 处理处理机器人应用程序的能力机器人应用程序的能力,构建高级函数
9、库是关键,构建高级函数库是关键。微软提出了ChatGPT for Robotics,利用 ChatGPT 解决机器人应用程序问题。在此过程中,不要求 LLM(大语言模型)输出特定于机器人平台或库的代码,而是创建简单的高级函数库供 ChatGPT调用,并在后端将高级函数库链接到各平台、场景和工具的现有库和 API。此外,基于ChatGPT 良好的推理和理解能力,能够很好的理解用户自然语言形式的意图,将其转换为高级函数调用的逻辑链。ChatGPT 能够以能够以 zero-shot 的方式解决各种与机器人相关的任务的方式解决各种与机器人相关的任务。在微软的演示中,通过自由形式的自然语言对话、代码提示
10、、XML 标记和闭环推理等提示(prompt)技术,ChatGPT指导机器人以 zero-shot(零样本学习)完成了常识性知识推理问答、无人机操控、视觉导航等任务,并实现对话式闭环推理。仿真模拟和人工监督是安全性的重要保障。仿真模拟和人工监督是安全性的重要保障。为确保安全性,在将模型部署到现实世界之前,使用了模拟器评估模型性能。此外,微软在机器人技术中使用 ChatGPT 并不是一个完全自动化的过程,而是作为一种增强人类能力的工具,即在实际执行代码前,会在人工监督下确保代码质量和安全性。ChatGPT 在人类作者提示下完成了在人类作者提示下完成了该该论文创作。论文创作。微软指出,ChatGP
11、T for Robotics 论文主要是在 ChatGPT 的帮助下完成的,其中人类作者提供必要的 prompt,并修改了和调整了ChatGPT 的输出结果,显著地加快了写作过程。人类人类 on-the-loop 指导指导 ChatGPT 操纵操纵机器人机器人 ChatGPT 将人类从机器人流程中的将人类从机器人流程中的 in-the-loop 变为变为 on-the-loop。目前,机器人 pipeline(流程)需要一个专门的工程师 in-the-loop 编写代码来改进流程。而 ChatGPT 的引入,可以替代人类在循环中的位置,人类(技术或非技术均可)用户可以以 on-the-loop
12、 的形式,通过高级语言命令与语言模型交互,实现无缝部署各种平台和任务。图表图表1:ChatGPT 将人类从机器人将人类从机器人 pipeline 中的中的 in-the-loop 变为变为 on-the-loop 资料来源:ChatGPT for Robotics:Design Principles and Model Abilities,微软(2023),华泰研究 人类用户在人类用户在机器人机器人 pipeline 中评估中评估 ChatGPT 输出的质量和安全性输出的质量和安全性。人类在机器人 pipeline中的任务主要包括:1)定义高级机器人函数库定义高级机器人函数库。高级机器人函数库
13、(high-level robot function library)一方面面向机器人平台,能够调用和指导机器人相关动作;另一方面面向 ChatGPT,保证库中函数的命名应能便于 ChatGPT 理解和遵循。2)构建)构建 prompt。Pompt 描述任务目标,并标识允许 ChatGPT 使用的高级函数库中的函数。此外,还可以包括约束信息,或者告知 ChatGPT 如何组织其响应。3)分析评估)分析评估 ChatGPT 输出结果并反馈。输出结果并反馈。用户以on-the-loop 的形式,通过直接分析或模拟来评估 ChatGPT 输出的代码,并就输出代码的质量和安全性向 ChatGPT 提供
14、反馈。4)迭代。)迭代。不断迭代 chatgpt 生成的结果直到符合人类预期,并确保最终的代码可以部署到机器人上执行。免责声明和披露以及分析师声明是报告的一部分,请务必一起阅读。4 计算机计算机 图表图表2:人类用户在机器人人类用户在机器人 pipeline 中评估中评估 ChatGPT 输出的质量和安全性输出的质量和安全性 资料来源:ChatGPT for Robotics:Design Principles and Model Abilities,微软(2023),华泰研究 定义高级函数库与定义高级函数库与构建提示构建提示是关键是关键 定义高级函数库赋予定义高级函数库赋予 ChatGPT
15、操纵机器人的能力。操纵机器人的能力。机器人技术是一个多样化的领域,存在多种平台、场景和工具,以及各种各样现成的库和 API。因此,不需要 LLM 输出特定于平台或库的代码,只需要定义高级函数库,将现有的机器人控制相关的库进行封装,这样通过 prompt 调用高级函数即可实现 ChatGPT 对机器人的操作。此外,基于 ChatGPT 的理解和推理能力,还可以实现基于现有 API 开发新的 API 功能。良好的良好的 prompt 策略是策略是 ChatGPT 输出更好结果的关键。输出更好结果的关键。除了提示 ChatGPT 可调用的 API外,良好的上下文 prompt 应包括:1)约束和需求
16、)约束和需求:指定与任务相关的约束或需求。例如指定任务涉及移动对象的重量、大小和形状。2)环境环境:描述机器人任务所在的环境。例如描述需要避免的障碍物或危险。3 3)当前状态)当前状态:描述机器人系统的当前状态。例如描述机器人和物体的当前位置和方向。4 4)目标和目的)目标和目的:描述任务的目标和目的。例如指出机器人移动方块的个数和预期的完成时间。5 5)解决方案示例)解决方案示例:演示如何解决类似的任务,作为指导LLM 解决方案策略的一种手段。例如对于涉及用户交互的任务,可以提供示例,说明机器人应该如何以及何时要求用户输入。图表图表3:良好的良好的 prompt 示例示例 资料来源:Chat
17、GPT for Robotics:Design Principles and Model Abilities,微软(2023),华泰研究 指明操作对象:一个家务机器人指明操作对象:一个家务机器人指明任务目标:机器人要做煎蛋卷指明任务目标:机器人要做煎蛋卷指明可操作性物指明可操作性物体:冰箱、碗、体:冰箱、碗、煎锅等煎锅等指明指明可调用可调用API向向ChatGPT下下达任务,并要求达任务,并要求ChatGPT根据根据已有的已有的API创建创建更高级的更高级的APIChatGPT执行执行任务,并且根据任务,并且根据已有的已有的API完成完成了对更高级了对更高级API的创建的创建 免责声明和披露以
18、及分析师声明是报告的一部分,请务必一起阅读。5 计算机计算机 图表图表4:在在 prompt 中为中为 ChatGPT 提供解决方案示例提供解决方案示例 资料来源:ChatGPT for Robotics:Design Principles and Model Abilities,微软(2023),华泰研究 用户能够以聊天交互的形式让用户能够以聊天交互的形式让 ChatGPT 自行修改生成结果。自行修改生成结果。即使是设计良好的 prompt 也可能会存在不完备的情况,或者在某些情况下 ChatGPT 不能以 zero-shot 的方式生成正确的响应。此时,用户可以聊天方式向 ChatGPT
19、发送附加指令,并让其自行纠正。图表图表5:用户以聊天交互的形式让用户以聊天交互的形式让 ChatGPT 自行纠正自行纠正 资料来源:ChatGPT for Robotics:Design Principles and Model Abilities,微软(2023),华泰研究 微软提供开源微软提供开源 prompt 和仿真平台和仿真平台 微软提供微软提供 PromptCraft 和和 AirSim 帮助加速模型在机器人应用中的迭代。帮助加速模型在机器人应用中的迭代。PromptCraft 是微软提供的基于 Github 的合作开源平台,允许研究人员分享不同机器人任务中的提示工程(prompt
20、engineering)策略。用户可以上传示例,对其他人的提交进行评分。此外,PromptCraft 还提供了一个带有 ChatGPT 封装的 AirSim 环境,供研究人员在受控的模拟环境中对提示和算法进行原型设计。在在prompt中为中为ChatGPT提供提供解决方案示例解决方案示例告诉告诉ChatGPT必须在每必须在每一步后调整到面向目标一步后调整到面向目标ChatGPT自行更正自行更正ChatGPT自行更正自行更正告诉告诉ChatGPT未使用当前的未使用当前的偏航角偏航角 免责声明和披露以及分析师声明是报告的一部分,请务必一起阅读。6 计算机计算机 图表图表6:微软提供的开源微软提供的
21、开源 PromptCraft 和和 AirSim 平台平台 资料来源:ChatGPT for Robotics:Design Principles and Model Abilities,微软(2023),华泰研究 简单任务:简单任务:zero-shot 可以直接可以直接解决解决 ChatGPT 能够以能够以 zero-shot 的方式解决的方式解决简单的简单的机器人任务机器人任务。对于简单的机器人任务,用户只需提供 prompt 和函数库描述,不需要提供具体的代码示例,ChatGPT 即可 zero-shot解决时空推理、控制真实无人机和无人机工业检测等问题。1)时空推理:)时空推理:要求
22、ChatGPT控制一个平面机器人,用视觉伺服捕捉篮球位置。2)真实世界无人机飞行真实世界无人机飞行:使用 ChatGPT和 API 控制一个真实的无人机,完成物体寻找任务。3)AirSim 工业检测:工业检测:基于 AirSim 模拟器,利用 ChatGPT 控制模拟域无人机进行工业巡检。图表图表7:zero-shot 实现实现控制真实无人机和无人机工业检测控制真实无人机和无人机工业检测 资料来源:ChatGPT for Robotics:Design Principles and Model Abilities,微软(2023),华泰研究 操纵真实的无人机实现物体寻找操纵真实的无人机实现物体
23、寻找操纵虚拟的无人机实现工业巡检操纵虚拟的无人机实现工业巡检 免责声明和披露以及分析师声明是报告的一部分,请务必一起阅读。7 计算机计算机 复杂任务:复杂任务:用户用户 on-the-loop 交互式对话交互式对话实现实现 在人类用户在人类用户 on-the-loop 交互下,交互下,ChatGPT 能够完成更复杂的机器人控制任务。能够完成更复杂的机器人控制任务。对于更复杂的问题,ChatGPT 没法 zero-shot 完成或者完成效果有限,此时人类用户可以以文本反馈交互的方式辅助 ChatGPT,完成课程学习、AirSim 避障等任务。1)课程学习:课程学习:教授ChatGPT 简单的拾取
24、和放置物体技能,并将所学会的技能按逻辑组合用于更复杂的区块排列任务。2)AirSim 避障:避障:ChatGPT 构建了避障算法的大部分关键模块,但仍需要人工反馈无人机朝向等部分信息。人工反馈均是高级的自然语言,但 ChatGPT 能够理解并在适当的位置进行代码修正。图表图表8:教授教授 ChatGPT 简单的拾取和放置物体技能简单的拾取和放置物体技能 资料来源:ChatGPT for Robotics:Design Principles and Model Abilities,微软(2023),华泰研究 感知感知-动作循环动作循环:代码层次与对话层次代码层次与对话层次 ChatGPT 的对话
25、系统的对话系统能够解析观察流并输出相关操作能够解析观察流并输出相关操作。在具身代理任务中,一方面,模型能够使用 API 库在其“代码”输出中构建感知-动作循环,利用图像采集和物体检测等感知功能,生成机器人导航和控制所需的相关信息。另一方面,用户通过文本对话不断将人类的感知信息输入到 ChatGPT,ChatGPT 能够解析观察流并在“对话系统”中输出相关操作,而不依赖代码生成。1)具身代理:具身代理:带带 API 库的闭环对象导航库的闭环对象导航:为 ChatGPT 提供了对计算机视觉模型的访问,作为其函数库的一部分。ChatGPT 在其“代码”输出中构建感知-动作循环,实现估计相对物体角度、
26、探索未知环境,并导航到用户指定对象的功能。教授教授ChatGPT如如何移动物体:首何移动物体:首先移动到目标位先移动到目标位置上方,然后慢置上方,然后慢慢放下,最后松慢放下,最后松开物体开物体ChatGPT用学到的用学到的知识“组合”出更知识“组合”出更复杂的能力复杂的能力 免责声明和披露以及分析师声明是报告的一部分,请务必一起阅读。8 计算机计算机 图表图表9:具身代理:带具身代理:带 API 库的闭环对象导航库的闭环对象导航 资料来源:ChatGPT for Robotics:Design Principles and Model Abilities,微软(2023),华泰研究 2)具身代
27、理:使用具身代理:使用 ChatGPT 的对话进行闭环视觉语言导航的对话进行闭环视觉语言导航 在模拟场景下,人类用户将新的状态观测值(可见对象的相对极坐标)作为对话文本输入,ChatGPT 的输出仅返回向前的运动距离和转弯角度,实现了用“对话系统”指导机器人一步步导航到感兴趣区域。图表图表10:使用使用 ChatGPT 的对话进行闭环视觉语言导航的对话进行闭环视觉语言导航 资料来源:ChatGPT for Robotics:Design Principles and Model Abilities,微软(2023),华泰研究 用代码的方式实现感知用代码的方式实现感知-动作循环动作循环用用对话对
28、话的的方式实现感知方式实现感知-动作循环动作循环 免责声明和披露以及分析师声明是报告的一部分,请务必一起阅读。9 计算机计算机 以机器人为突破口,以机器人为突破口,LLM 定义智能终端新入口定义智能终端新入口 ChatGPT 等等 LLM 将将成为定义智能终端的新入口成为定义智能终端的新入口。ChatGPT 结合了自然语言理解、代码生成等优点,并具有对话方面的自然性和灵活性。目前,ChatGPT 已在个人电脑(PC)和移动端入口上实现了较为全面的布局,包括办公软件(微软 365 Copilt)、协同软件(微软Teams)、移动端搜索引擎(微软 Bing)、创意软件(Adobe Firefly)
29、。微软的研究已经证明,ChatGPT 能够借助机器人这一入口扩展应用场景。未来,ChatGPT 等 LLM 或将依托更多的现实载体,定义智能终端新入口,扩展其设备入口属性。入口入口#1:人形、人形、协作协作等等各类各类机器人机器人 谷歌谷歌的的 PaLM-E 具身多模态模型具身多模态模型同样同样实现了对机器人的控制。实现了对机器人的控制。谷歌于 2023 年 3 月基于其已有的大语言模型 PaLM,提出了能够实现具身化和多模态的新模型 PaLM-E,并实现了对机器人的控制(参考华泰研报:GPT 系列:具身化多模态 PaLM-E,2023 年 3 月 14 日)。在机器人的控制流程中,PaLM-
30、E 模型基于人类用户的目标意图,生成机器人控制指令,并且能够接受机器人的反馈信息以对下一步控制指令进行调整和重规划。与微软的 ChatGPT for robotics 相比,PaLM-E 更注重模型本身的对多模态输入的理解以及推理输出能力,而微软的成果更注重人类在机器人流程中的 on-the-loop 支持。图表图表11:PaLM-E 参与到机器人的控制循环中参与到机器人的控制循环中 资料来源:PaLM-E:An Embodied Multimodal Language Model,Danny Driess 等(2023)、华泰研究 OpenAI 在机器人领域早有布局。在机器人领域早有布局。2
31、017 年 5 月,OpenAI 推出了用于机器人模拟的开源软件 Roboschool。同月,OpenAI 在机器人中部署了新的单样本模仿学习(one-shot imitation learning)算法,通过人类在 VR 中向机器人演示如何执行任务,机器人即可从任意起始配置解决相同的任务。2018 年 2 月,OpenAI 发布了 8 个模拟机器人环境和 Hindsight Experience Replay(事后经验回放,HER)基线实施,并用来训练在物理机器人上工作的模型。2023 年 3 月 23 日,挪威的机器人制造商 1X technologies 宣布完成 2350 万美元的A2
32、 轮融资,领投方是 OpenAI 旗下的启动基金。1X technologies 将利用融资加快其即将推出的双足机器人模型 NEO 的研究进展,并在挪威和北美规模化生产首款商用机器人 EVE。原理图原理图实物示意图实物示意图 免责声明和披露以及分析师声明是报告的一部分,请务必一起阅读。10 计算机计算机 图表图表12:OpenAI 在机器人上的布局情况在机器人上的布局情况 资料来源:OpenAI 官网、1X technologies 官网、华泰研究 节卡机器人实现了节卡机器人实现了 ChatGPT 与产品的结合和应用演示。与产品的结合和应用演示。节卡机器人是新一代协作型机器人提供商,其工程师将
33、 ChatGPT 与节卡机器人本体、编程、二次开发,以及公司客服支持等板块结合,实现了部分实用性的应用演示。原理上看,采用语音识别技术将用户的自然语言实时转换成文本,节卡机器人对转换的文本内容进行理解,进而完成语音指令到运动控制的转换,智能化的实现了目标任务,并且对人类的对抗性干扰具有良好的鲁棒性。图表图表13:节卡机器人节卡机器人与与 ChatGPT 结合结合实现损坏元器件挑选实现损坏元器件挑选 资料来源:节卡机器人官网、华泰研究 开源软件开源软件Roboschool2017年5月,OpenAI推出了用于机器人模拟的开源软件Roboschool2017年5月,OpenAI在机器人中部署了新的
34、单样本模仿学习算法单样本模仿学习算法单样本模仿学习算法发布模拟环境与发布模拟环境与HER领投领投1X technologies2018年2月,OpenAI发布了8个模拟机器人环境和Hindsight Experience Replay(HER)基线实施2023年3月,OpenAI旗下的启动基金领投挪威的机器人制造商1X technologies语音告知机器人手臂,对损坏零件进行拣选机器人手臂执行任务,将损坏元器件挑选出来人类对机器人实行对抗性干扰机器人在人类提示下识别出人类干扰,并重新进行任务处理1234 免责声明和披露以及分析师声明是报告的一部分,请务必一起阅读。11 计算机计算机 入口入口
35、#2:以智能音箱为代表的以智能音箱为代表的智能家居智能家居 智能音箱是重要的家居控制入口智能音箱是重要的家居控制入口,ChatGPT 的理解推理能力将对其赋能的理解推理能力将对其赋能。智能家居通过物联网技术连接家中的各种设备(如音视频设备、照明系统、窗帘控制、空调控制、安防系统、数字影院系统、影音服务器、影柜系统、网络家电等)。其中,智能音箱是重要的家居控制入口。目前的智能音箱等语音产品往往只能实现简单一问一答功能,或者重复咨询、确认、沟通的循环中,交互方式过于“理性”和僵化。而 ChatGPT 具有很好的语义理解和推理能力,能够对用户下达的长指令进行逻辑分析和规划执行,并且支持向用户提供更多
36、建议。因此,ChatGPT 与智能音箱结合后,将赋予其更多“智能”。Josh.ai 公司公司致力于开发致力于开发基于基于 ChatGPT 的的语音集成语音集成。Josh.ai 是国外的智能家居提供商,开发了语音控制家庭自动化系统 Josh 和 Josh Core/Micro/Nano 等智能家居产品。目前,Josh.ai 提供了与 ChatGPT 结合的使用示例,例如控制音乐播放、控制灯具启闭、回答用户问题等,交互过程更加智能和自然。Josh.ai 指出潜在用例还包括:1)根据住家的位置和家庭特质提供个性化的回答;2)提供购物、户外活动、艺术等用户感兴趣的各种服务;3)帮助用户学习和理解新知识
37、;4)为用户制定各种活动列表,并支持添加费用、环境等约束条件;5)帮助用户实现对智能家居的控制。Josh.ai 正在正在与与亚马逊合作,进一步开发亚马逊合作,进一步开发家庭智能系统家庭智能系统潜能。潜能。据亚马逊 CES 2023 大会信息,亚马逊正在与 Josh.ai 合作,开发 Josh.ai 家庭智能系统的多助手集成潜力。当 Josh.ai 助手控制智能家居或连接设备时,用户将能够同时使用 Alexa(亚马逊公司推出的智能助理)处理各种语音请求,例如查看最新的体育赛事比分和管理购物清单。图表图表14:Josh.ai 与与 ChatGPT 结合实现控制与问答功能结合实现控制与问答功能 资料
38、来源:Josh.ai 官网、华泰研究 阿里大模型联合项目团队阿里大模型联合项目团队在天猫精灵智能音箱上部署了个在天猫精灵智能音箱上部署了个性化消费级终端模型。性化消费级终端模型。阿里团队以通义大模型为基础,量身脱口秀演员打造了个性化数字分身“终端模型”,并部署在天猫精灵智能音箱上,实现了:1)不间断自由语音对话;2)个性化音色、语气、表达方式的模拟;3)向用户提供百科、创作灵感等信息和知识。以对话的方式提问以对话的方式提问回答艺术相关的问题回答艺术相关的问题控制智能家居灯开启控制智能家居灯开启控制智能家居灯关闭控制智能家居灯关闭 免责声明和披露以及分析师声明是报告的一部分,请务必一起阅读。12
39、 计算机计算机 个性化个性化应用应用是是大模型研究的重要方向大模型研究的重要方向。智能家居具有“千人千面”的特性,个性化大模型能够更好的实现对智能家居的“智能”加持。阿里指出个性化大模型在对话场景训练中关注的重点包括:1)人设、对话风格、逻辑的一致性;2)对话三观的正确性;3)有偏好的个性化对话实现。通过大规模语言训练、知识和工具增强、个性化对话增强和人类反馈增强等四个步骤,个性化大模型被赋予了相应的共情能力,能够更和谐的融入家庭环境。图表图表15:阿里阿里个性化大模型个性化大模型训练训练步骤步骤 资料来源:阿里官网、华泰研究 通义大模型、通义大模型、TTS 与与 ASR 技术技术实现实现个性
40、化大模型的个性化大模型的知识、情感、记忆和性格四位一体知识、情感、记忆和性格四位一体。阿里团队以通义大模型系列为模型基础,融合了 ASR 猫耳算法、自研的声学模型 KAN-TTS定制方案,实现了个性化模型在知识、情感、记忆和性格上的和谐统一。1)ASR 猫耳算猫耳算法:法:结合深度学习方法与传统 AEC、多通道立体声消除回声,并借助设备中的麦克风阵列实现定向拾音,准确识别说话人位置,将用户语音精确转换成文本,同时利用降噪消除非人声或非主要说话人声。2)KAN-TTS 定制方案定制方案:基于达摩院自研声学模型,只需收集 1个小时的个性化录音,即可在一周内完成录音、训练、模型上线全流程,且呈现出的
41、拟人化声音更自然的接近真实人声。图表图表16:阿里个性化大模型工作流程阿里个性化大模型工作流程 资料来源:阿里官网、华泰研究 01大规模语言训练基于大模型,对公开信息进行融会学习02知识和工具增强能够在恰当时机使用搜索、热点等工具03个性化对话增强通过多轮对话数据和人格标签泛化,形成角色04人类反馈增强即将开放 免责声明和披露以及分析师声明是报告的一部分,请务必一起阅读。13 计算机计算机 图表图表17:阿里阿里 KAN-TTS 人声定制方案技术示意图人声定制方案技术示意图 资料来源:阿里官网、华泰研究 国内多家智能家居公司已宣布接入百度文心一言。国内多家智能家居公司已宣布接入百度文心一言。目
42、前,三大家电巨头美的、海信影像、长虹已经官宣成为百度旗下类 ChatGPT 应用“文心一言”的首批生态合作伙伴,百度自身智能音箱小度也将应用文心一言技术。此外,据各公司年报或招股书,萤石网络、漫步者、国光电器等均在智能家居和人工智能上进行了布局:1)萤石网络萤石网络:公司积累了丰富的视音频 AI 算法技术,能够提供算法生成、算法调度等 AI服务,产品方面,智能中控屏 SP4 支持 AI 语音控制,萤石 AI 扫拖一体机 RS2 支持拖把布自动装卸、干湿分离扫地毯等。2)漫步者)漫步者:针对智能家居日益普及的趋势,2022 年公司在国内外更新多款智能音箱,并协同互联网平台推出搭载 AI 语音助手
43、的 TWS 耳机;推出了全新形态、具备“AI 听损智能补偿”技术的助听设备。3)国光电器:国光电器:2023 年 2 月 10 日,国光电器在投资者互动平台上指出,公司是人工智能语音交互硬件的供应商,与百度在多个项目上开展深度合作,其中以智能音响为代表的 AI+IoT产品是公司重点合作方向之一。入口入口#3:车载虚拟个人车载虚拟个人 AI 助手助手 ChatGPT 等等 LLM 在车载场景下在车载场景下能力优势相较传统能力优势相较传统 AI 助手更明显。助手更明显。语音交互是车内简洁、人性化、安全的交互方式,也是未来主要的车内交互方式,而 ChatGPT 等大模型能够通过上下文理解能力、思维链
44、推理、增强指令等实现持续学习,提供更灵活、更人性化、更精准的车机交互,相比传统的 AI 助手更能快速适应复杂的车载交互环境。通用汽车正开发基于通用汽车正开发基于 ChatGPT 的虚拟个人的虚拟个人 AI 助手。助手。据 2023 年 3 月的 Semafor 数据,通用汽车公司正在开发一款虚拟个人 AI 助手,该助理使用 ChatGPT 人工智能模型和微软的Azure 云服务。通用汽车副总裁 Scott Miller 指出,AI 助手可能会超越简单语音命令,更智能的帮助用户处理汽车相关问题,例如,轮胎损坏时用户可以要求汽车解释如何更换轮胎,或在车内的显示屏上播放教学视频;仪表盘上出现诊断灯,
45、司机可以询问 AI 助理如何处理,或者推荐维修店并进行预约。在此基础上,通用汽车将在 ChatGPT 模型中添加与汽车相关的层(layer),以便更好的处理与汽车相关的问题。国内国内多个车企宣布接入百度文心一言。多个车企宣布接入百度文心一言。除百度自家的 Apollo 自动驾驶平台外,集度汽车宣布旗下产品全面融合百度文心一言能力,支持汽车机器人实现自然交流的再进阶。毫末智行也宣布将其自动驾驶认知大模型正式升级为采用 RLHF(人类反馈强化学习)技术的“人驾自监督认知大模型”DriveGPT,通过引入真实人驾接管数据,对自动驾驶认知决策模型进行持续优化,并计划于 2023 年 4 月第八届 HA
46、OMO AI DAY 上公布进展。此外,长城、吉利、红旗、零跑、东风日产启辰、岚图、爱驰等多家汽车品牌也已官宣接入“文心一言”。免责声明和披露以及分析师声明是报告的一部分,请务必一起阅读。14 计算机计算机 图表图表18:毫末智行的人驾自监督认知大模型将困难场景的通过率提升毫末智行的人驾自监督认知大模型将困难场景的通过率提升 30%+资料来源:毫末智行官网、华泰研究 相关标的相关标的 大模型的大模型的“新入口”“新入口”属性已经从主流的属性已经从主流的 PC 和手机端,向和手机端,向更广泛的智能设备扩散。更广泛的智能设备扩散。我们认为,主要的智能设备包括智能终端和智能音箱,相关标的包括:1)智
47、能终端:智能终端:科大讯飞,萤石网络,中科创达等;2)智能音箱:智能音箱:国光电器,漫步者,惠威科技等。3)机器人:)机器人:石头科技,柏楚电子;4)银行超级柜台:)银行超级柜台:新北洋。免责声明和披露以及分析师声明是报告的一部分,请务必一起阅读。15 计算机计算机 图表图表19:提及公司列表提及公司列表 公司代码公司代码 公司简称公司简称 MSFT US 微软 未上市 OpenAI GOOG US 谷歌 BIDU HK 百度 未上市 Josh.ai BABA US 阿里巴巴 002230 CH 科大讯飞 688475 CH 萤石网络 300496 CH 中科创达 002045 CH 国光电器
48、 002351 CH 漫步者 002888 CH 惠威科技 未上市 毫末智行 688188 CH 柏楚电子 资料来源:Bloomberg、华泰研究 风险提示风险提示 宏观经济波动。宏观经济波动。若宏观经济波动,产业变革及新技术的落地节奏或将受到影响,宏观经济波动还可能对 AI 投入产生负面影响,从而导致整体行业增长不及预期。技术进步技术进步不及预期。不及预期。若 AI 技术和大模型技术进步不及预期,或将对相关的行业落地情况产生不利影响。本报告内容均基于客观信息整理,不构成投资建议。本报告内容均基于客观信息整理,不构成投资建议。免责声明和披露以及分析师声明是报告的一部分,请务必一起阅读。16 计
49、算机计算机 免责免责声明声明 分析师声明分析师声明 本人,谢春生,兹证明本报告所表达的观点准确地反映了分析师对标的证券或发行人的个人意见;彼以往、现在或未来并无就其研究报告所提供的具体建议或所表迖的意见直接或间接收取任何报酬。一般声明及披露一般声明及披露 本报告由华泰证券股份有限公司(已具备中国证监会批准的证券投资咨询业务资格,以下简称“本公司”)制作。本报告所载资料是仅供接收人的严格保密资料。本报告仅供本公司及其客户和其关联机构使用。本公司不因接收人收到本报告而视其为客户。本报告基于本公司认为可靠的、已公开的信息编制,但本公司及其关联机构(以下统称为“华泰”)对该等信息的准确性及完整性不作任
50、何保证。本报告所载的意见、评估及预测仅反映报告发布当日的观点和判断。在不同时期,华泰可能会发出与本报告所载意见、评估及预测不一致的研究报告。同时,本报告所指的证券或投资标的的价格、价值及投资收入可能会波动。以往表现并不能指引未来,未来回报并不能得到保证,并存在损失本金的可能。华泰不保证本报告所含信息保持在最新状态。华泰对本报告所含信息可在不发出通知的情形下做出修改,投资者应当自行关注相应的更新或修改。本公司不是 FINRA 的注册会员,其研究分析师亦没有注册为 FINRA 的研究分析师/不具有 FINRA 分析师的注册资格。华泰力求报告内容客观、公正,但本报告所载的观点、结论和建议仅供参考,不
51、构成购买或出售所述证券的要约或招揽。该等观点、建议并未考虑到个别投资者的具体投资目的、财务状况以及特定需求,在任何时候均不构成对客户私人投资建议。投资者应当充分考虑自身特定状况,并完整理解和使用本报告内容,不应视本报告为做出投资决策的唯一因素。对依据或者使用本报告所造成的一切后果,华泰及作者均不承担任何法律责任。任何形式的分享证券投资收益或者分担证券投资损失的书面或口头承诺均为无效。除非另行说明,本报告中所引用的关于业绩的数据代表过往表现,过往的业绩表现不应作为日后回报的预示。华泰不承诺也不保证任何预示的回报会得以实现,分析中所做的预测可能是基于相应的假设,任何假设的变化可能会显著影响所预测的
52、回报。华泰及作者在自身所知情的范围内,与本报告所指的证券或投资标的不存在法律禁止的利害关系。在法律许可的情况下,华泰可能会持有报告中提到的公司所发行的证券头寸并进行交易,为该公司提供投资银行、财务顾问或者金融产品等相关服务或向该公司招揽业务。华泰的销售人员、交易人员或其他专业人士可能会依据不同假设和标准、采用不同的分析方法而口头或书面发表与本报告意见及建议不一致的市场评论和/或交易观点。华泰没有将此意见及建议向报告所有接收者进行更新的义务。华泰的资产管理部门、自营部门以及其他投资业务部门可能独立做出与本报告中的意见或建议不一致的投资决策。投资者应当考虑到华泰及/或其相关人员可能存在影响本报告观
53、点客观性的潜在利益冲突。投资者请勿将本报告视为投资或其他决定的唯一信赖依据。有关该方面的具体披露请参照本报告尾部。本报告并非意图发送、发布给在当地法律或监管规则下不允许向其发送、发布的机构或人员,也并非意图发送、发布给因可得到、使用本报告的行为而使华泰违反或受制于当地法律或监管规则的机构或人员。本报告版权仅为本公司所有。未经本公司书面许可,任何机构或个人不得以翻版、复制、发表、引用或再次分发他人(无论整份或部分)等任何形式侵犯本公司版权。如征得本公司同意进行引用、刊发的,需在允许的范围内使用,并需在使用前获取独立的法律意见,以确定该引用、刊发符合当地适用法规的要求,同时注明出处为“华泰证券研究
54、所”,且不得对本报告进行任何有悖原意的引用、删节和修改。本公司保留追究相关责任的权利。所有本报告中使用的商标、服务标记及标记均为本公司的商标、服务标记及标记。中国香港中国香港 本报告由华泰证券股份有限公司制作,在香港由华泰金融控股(香港)有限公司向符合证券及期货条例及其附属法律规定的机构投资者和专业投资者的客户进行分发。华泰金融控股(香港)有限公司受香港证券及期货事务监察委员会监管,是华泰国际金融控股有限公司的全资子公司,后者为华泰证券股份有限公司的全资子公司。在香港获得本报告的人员若有任何有关本报告的问题,请与华泰金融控股(香港)有限公司联系。免责声明和披露以及分析师声明是报告的一部分,请务
55、必一起阅读。17 计算机计算机 香港香港-重要监管披露重要监管披露 华泰金融控股(香港)有限公司的雇员或其关联人士没有担任本报告中提及的公司或发行人的高级人员。中科创达(300496 CH)、柏楚电子(688188 CH):华泰金融控股(香港)有限公司、其子公司和/或其关联公司实益持有标的公司的市场资本值的 1%或以上。有关重要的披露信息,请参华泰金融控股(香港)有限公司的网页 https:/.hk/stock_disclosure 其他信息请参见下方“美国“美国-重要监管披露”重要监管披露”。美国美国 在美国本报告由华泰证券(美国)有限公司向符合美国监管规定的机构投资者进行发表与分发。华泰证
56、券(美国)有限公司是美国注册经纪商和美国金融业监管局(FINRA)的注册会员。对于其在美国分发的研究报告,华泰证券(美国)有限公司根据1934 年证券交易法(修订版)第 15a-6 条规定以及美国证券交易委员会人员解释,对本研究报告内容负责。华泰证券(美国)有限公司联营公司的分析师不具有美国金融监管(FINRA)分析师的注册资格,可能不属于华泰证券(美国)有限公司的关联人员,因此可能不受 FINRA 关于分析师与标的公司沟通、公开露面和所持交易证券的限制。华泰证券(美国)有限公司是华泰国际金融控股有限公司的全资子公司,后者为华泰证券股份有限公司的全资子公司。任何直接从华泰证券(美国)有限公司收
57、到此报告并希望就本报告所述任何证券进行交易的人士,应通过华泰证券(美国)有限公司进行交易。美国美国-重要监管披露重要监管披露 分析师谢春生本人及相关人士并不担任本报告所提及的标的证券或发行人的高级人员、董事或顾问。分析师及相关人士与本报告所提及的标的证券或发行人并无任何相关财务利益。本披露中所提及的“相关人士”包括 FINRA 定义下分析师的家庭成员。分析师根据华泰证券的整体收入和盈利能力获得薪酬,包括源自公司投资银行业务的收入。科大讯飞(002230 CH)、中科创达(300496 CH):华泰证券股份有限公司、其子公司和/或其联营公司在本报告发布日之前的 12 个月内担任了标的证券公开发行
58、或 144A 条款发行的经办人或联席经办人。中科创达(300496 CH):华泰证券股份有限公司、其子公司和/或其联营公司在本报告发布日之前 12 个月内曾向标的公司提供投资银行服务并收取报酬。中科创达(300496 CH)、柏楚电子(688188 CH):华泰证券股份有限公司、其子公司和/或其联营公司实益持有标的公司某一类普通股证券的比例达 1%或以上。华泰证券股份有限公司、其子公司和/或其联营公司,及/或不时会以自身或代理形式向客户出售及购买华泰证券研究所覆盖公司的证券/衍生工具,包括股票及债券(包括衍生品)华泰证券研究所覆盖公司的证券/衍生工具,包括股票及债券(包括衍生品)。华泰证券股份
59、有限公司、其子公司和/或其联营公司,及/或其高级管理层、董事和雇员可能会持有本报告中所提到的任何证券(或任何相关投资)头寸,并可能不时进行增持或减持该证券(或投资)。因此,投资者应该意识到可能存在利益冲突。评级说明评级说明 投资评级基于分析师对报告发布日后 6 至 12 个月内行业或公司回报潜力(含此期间的股息回报)相对基准表现的预期(A 股市场基准为沪深 300 指数,香港市场基准为恒生指数,美国市场基准为标普 500 指数),具体如下:行业评级行业评级 增持:增持:预计行业股票指数超越基准 中性:中性:预计行业股票指数基本与基准持平 减持:减持:预计行业股票指数明显弱于基准 公司评级公司评
60、级 买入:买入:预计股价超越基准 15%以上 增持:增持:预计股价超越基准 5%15%持有:持有:预计股价相对基准波动在-15%5%之间 卖出:卖出:预计股价弱于基准 15%以上 暂停评级:暂停评级:已暂停评级、目标价及预测,以遵守适用法规及/或公司政策 无评级:无评级:股票不在常规研究覆盖范围内。投资者不应期待华泰提供该等证券及/或公司相关的持续或补充信息 免责声明和披露以及分析师声明是报告的一部分,请务必一起阅读。18 计算机计算机 法律实体法律实体披露披露 中国中国:华泰证券股份有限公司具有中国证监会核准的“证券投资咨询”业务资格,经营许可证编号为:941011J
61、香港香港:华泰金融控股(香港)有限公司具有香港证监会核准的“就证券提供意见”业务资格,经营许可证编号为:AOK809 美国美国:华泰证券(美国)有限公司为美国金融业监管局(FINRA)成员,具有在美国开展经纪交易商业务的资格,经营业务许可编号为:CRD#:298809/SEC#:8-70231 华泰证券股份有限公司华泰证券股份有限公司 南京南京 北京北京 南京市建邺区江东中路228号华泰证券广场1号楼/邮政编码:210019 北京市西城区太平桥大街丰盛胡同28号太平洋保险大厦A座18层/邮政编码:100032 电话:86 25 83389999/传真:86 25 83387521 电话:86
62、10 63211166/传真:86 10 63211275 电子邮件:ht- 电子邮件:ht- 深圳深圳 上海上海 深圳市福田区益田路5999号基金大厦10楼/邮政编码:518017 上海市浦东新区东方路18号保利广场E栋23楼/邮政编码:200120 电话:86 755 82493932/传真:86 755 82492062 电话:86 21 28972098/传真:86 21 28972068 电子邮件:ht- 电子邮件:ht- 华泰金融控股(香港)有限公司华泰金融控股(香港)有限公司 香港中环皇后大道中 99 号中环中心 58 楼 5808-12 室 电话:+852-3658-6000/传真:+852-2169-0770 电子邮件: http:/.hk 华泰证券华泰证券(美国美国)有限公司有限公司 美国纽约公园大道 280 号 21 楼东(纽约 10017)电话:+212-763-8160/传真:+917-725-9702 电子邮件:Huataihtsc- http:/www.htsc- 版权所有2023年华泰证券股份有限公司