《AI Agent行业深度:框架拆解、应用方向、应用领域及相关公司深度梳理-231211(34页).pdf》由会员分享,可在线阅读,更多相关《AI Agent行业深度:框架拆解、应用方向、应用领域及相关公司深度梳理-231211(34页).pdf(34页珍藏版)》请在三个皮匠报告上搜索。
1、 1/34 2023年年 12月月 11 日日 行业行业|深度深度|研究报告研究报告 行业研究报告 慧博智能投研 AI Agent行业行业深度:深度:框架拆解框架拆解、应用方向应用方向、应用领域应用领域及相关公司深度梳理及相关公司深度梳理 随着大型模型在各行各业的广泛应用,基于大型模型的人工智能体(AI Agent)迎来了快速发展的阶段。研究 AI Agent 是人类不断接近人工通用智能(AGI)的探索之一。随着 AI Agent 变得越来越易用和高效,Agent+的产品越来越多,未来 AI Agent 有望成为 AI 应用层的基本架构,涵盖 toC 和 toB 产品等不同领域。那么,AI A
2、gent 是什么?与其它人类与 AI 协同模式相比有何不同?其框架结构是怎样的?目前 AI Agent 的应用方向是什么?未来哪些领域可以应用 AI Agent?此外,又有哪些公司在该领域有所布局?AI Agent 行业还面临哪些挑战?本篇研报将围绕以上问题展开探讨,旨在帮助读者能够了解 AI Agent行业。目录目录 一、AI Agent 概述.1 二、AI Agent 框架拆解.5 三、自主智能体:自动化,新一轮生产力革命.11 四、智能体模拟:拟人化,新的精神消费品.20 五、AI Agent 应用领域.26 六、相关公司.28 七、AI Agent 可能面临的挑战.33 八、参考研报.
3、34 一、一、AI Agent 概述概述 1、AI Agent 概念概念 AI Agent(人工智能代理)是一种能够感知环境、进行决策和执行动作的智能实体。(人工智能代理)是一种能够感知环境、进行决策和执行动作的智能实体。不同于传统的人工智能,AI Agent 具备通过独立思考、调用工具去逐步完成给定目标的能力。比如,告诉 AI Agent 帮忙下单一份外卖,它就可以直接调用 APP 选择外卖,再调用支付程序下单支付,无需人类去指定每一步的操作。2/34 2023年年 12月月 11 日日 行业行业|深度深度|研究报告研究报告 2、AI Agent 对比对比其它人类与其它人类与 AI 协同模式
4、的协同模式的区别区别 AI Agent 较目前广泛使用的较目前广泛使用的 Copilot 模式更加独立。模式更加独立。对比 AI 与人类的交互模式,目前已从过去的嵌入式工具型 AI(例如 Siri)向助理型 AI 发展,目前的各类 AI Copilot 不再是机械地完成人类指令,而是可以参与人类工作流,为诸如编写代码、策划活动、优化流程等事项提供建议,与人类协同完成。而AI Agent 的工作仅需给定一个目标,它就能够针对目标独立思考并做出行动,它会根据给定任务详细拆解出每一步的计划步骤,依靠来自外界的反馈和自主思考,自己给自己创建 prompt,来实现目标。如果说 Copilot 是“副驾驶
5、”,那么 Agent 则可以算得上一个初级的“主驾驶”。3/34 2023年年 12月月 11 日日 行业行业|深度深度|研究报告研究报告 3、Agent 的最终发展目标为的最终发展目标为“通用人工智能通用人工智能 AGI”AI Agent 并不并不是一个新兴的概念,早在多年前就已在人工智能领域有了研究。是一个新兴的概念,早在多年前就已在人工智能领域有了研究。例如 2014 年由DeepMind 推出的引发全球热议的围棋机器人 AlphaGo,也可以看做是 AI Agent 的一种。与之类似的还有 2017 年 OpenAI 推出的用于玩Dota2的 OpenAI Five,2019 年 De
6、epMind 公布用于玩星际争霸 2的 AlphaStar 等,这些 AI 都能根据对实时接收到的信息的分析来安排和规划下一步的操作,均满足 AI Agent 的基本定义。当时的业界潮流是通过强化学习的方法来对当时的业界潮流是通过强化学习的方法来对 AI Agent 进行训练,主要应进行训练,主要应用场景是在游戏这类具有对抗性、有明显输赢双方的场景中。但如果想要在真实世界中实现通用性,基用场景是在游戏这类具有对抗性、有明显输赢双方的场景中。但如果想要在真实世界中实现通用性,基于当时的技术水平还难以实现。于当时的技术水平还难以实现。大语言模型的浪潮推动了大语言模型的浪潮推动了 AI Agent
7、相关研究快速发展相关研究快速发展,经过四大发展阶段,逐步具备了高效推理、灵经过四大发展阶段,逐步具备了高效推理、灵活行动、强大的泛化以及无缝任务转移的能力。活行动、强大的泛化以及无缝任务转移的能力。发展历程:发展历程:AI Agent 经历了符号智能体、反映型智能体、基于强化学习的智能体、具有迁移学习和元学习功能的智能体四大发展阶段,现在已经跨入基于大型语言模型的智能体阶段。具备的具备的优势优势:大语言模型为 AI Agent 带来了突破性的进展,同时具备了以上四大发展阶段的优势:1)通过思维链(CoT)和问题分解等技术,基于 LLM 的智能体可以表现出与符号智能体相当的推理和规划能力;2)通
8、过从反馈中学习和执行新的行动,获得与环境互动的能力,类似于反应型智能体;3)大型语言模型在大规模语料库中进行预训练,并显示出泛化与迁移学习的能力;4)从而实现任务间的无缝转移,而无需更新参数。4/34 2023年年 12月月 11 日日 行业行业|深度深度|研究报告研究报告 通往通往 AGI 的道路仍需探索,的道路仍需探索,AI Agent 是当前的主要路线。是当前的主要路线。在大模型浪潮席卷全球之时,很多人认为大模型距离真正的通用人工智能 AGI 已经非常接近,很多厂商都投入了基础大模型的研究。但经过了一段时间后,大家对大模型真实的能力边界有了清晰的认知,发现大模型仍存在大量的问题如幻觉、上
9、下文容量限制等,导致其无法直接通向 AGI,于是 AI Agent 成为了新的研究方向。通过让大模型借助一个或多个 Agent 的能力,构建成为具备自主思考决策和执行能力的智能体,来继续实现通往 AGI 的道路。AI Agent 将是未来 AI 的前沿方向。4、应用应用两大方向:自动化(自主智能体)、拟人化(智能体模拟)两大方向:自动化(自主智能体)、拟人化(智能体模拟)结合目前学术界和产业界基于 LLM 开发的 AI AGENT 应用情况,能够将 AI AGENT 划分为两大类:自主智能体,力图实现复杂流程自动化。自主智能体,力图实现复杂流程自动化。当给定自主智能体一个目标时,它们能自行创建
10、任务、完成任务、创建新任务、重新确定任务列表的优先级、完成新的首要任务,并不断重复这个过程,直到完成目标。准确度要求高,因而更需要外部工具辅助减少大模型不确定性的负面影响。智能体模拟,力图更加拟人可信。智能体模拟,力图更加拟人可信。分为强调情感情商的智能体以及强调交互的智能体,后者往往是在多智能体环境中,可能涌现出超越设计者规划的场景和能力,大模型生成的不确定性反而成为优势,多样性使其有望成为 AIGC 重要组成部分。能够能够认为两大方向并不是完全割裂的,相反,自认为两大方向并不是完全割裂的,相反,自动化与拟人化将作为动化与拟人化将作为 AI Agent 两大核心能力并行发展,两大核心能力并行
11、发展,随着底层模型成熟以及行业探索更加深入,有望进一步扩大随着底层模型成熟以及行业探索更加深入,有望进一步扩大 AI Agent 适用范围,提升其实用性。适用范围,提升其实用性。5/34 2023年年 12月月 11 日日 行业行业|深度深度|研究报告研究报告 二、二、AI Agent 框架框架拆解拆解 一个基于大模型的一个基于大模型的 AI Agent 系统可以拆分为大模型、规划、记忆与工具使用四个组件部分。系统可以拆分为大模型、规划、记忆与工具使用四个组件部分。6月,OpenAI 的应用研究主管 Lilian Weng 撰写了一篇博客,认为 AI Agent 可能会成为新时代的开端。她提出
12、了 Agent=LLM+规划技能+记忆+工具使用的基础架构,其中 LLM 扮演了 Agent 的“大脑”,在这个系统中提供推理、规划等能力。1、大模型大模型+规划:规划:Agent 的的“大脑大脑”,通过思维链能力实现仸务分解,通过思维链能力实现仸务分解 LLM 具备逻辑推理能力,具备逻辑推理能力,Agent 可以将可以将 LLM 的逻辑推理能力激发出来。的逻辑推理能力激发出来。当模型规模足够大的时候,LLM 本身是具备推理能力的。在简单推理问题上,LLM 已经达到了很好的能力;但在复杂推理问题上,LLM 有时还是会出现错误。事实上,很多时候用户无法通过 LLM 获得理想的回答,原因在于 pr
13、ompt不够合适,无法激发 LLM 本身的推理能力,通过追加辅助推理的 prompt,可以大幅提升 LLM 的推理 6/34 2023年年 12月月 11 日日 行业行业|深度深度|研究报告研究报告 效果。在Large language models are zero-shot reasoners这篇论文的测试中,在向 LLM 提问的时候追加“Lets think step by step”后,在数学推理测试集 GSM8K 上的推理准确率从 10.4%提升到了 40.7%。而 Agent 作为智能体代理,能够根据给定的目标自己创建合适的 prompt,可以更好地激发大模型的推理能力。通常情况下
14、,一项复杂的任务往往涉及许多步骤。通常情况下,一项复杂的任务往往涉及许多步骤。AI Agent 需要首先拆解这些步骤,并提前做好计划。需要首先拆解这些步骤,并提前做好计划。任务的分解的环节可以由三种方式完成:1)在大模型输入简单的提示,比如“XYZ 的步骤”,或者“实现XYZ 的子目标是什么?”;2)使用特定任务的指令,比如在需要写小说的时候要求大模型“写一个故事大纲”;3)通过人工提供信息。当下普遍的技术模式包括思维链和思维树:思维链(思维链(Chain of Thoughts)已成为一种标准的提示技术,用于提高模型在复杂任务中的表现。模型被要求“一步一步地思考”,将艰巨的任务分解为更小更简
15、单的步骤。思维链将大任务转化为多个可管理的任务,并帮助人们理解模型的思维过程。思维树(思维树(Tree of Thoughts)通过在任务的每一步探索多种推理可能性来扩展思维链。它首先将问题分解为多个思考步骤,并在每个步骤中生成多个想法,从而创建一个树状结构。搜索过程可以是 BFS(广度优先搜索)或 DFS(深度优先搜索)。另一方面,试错和纠错在现实世界的任务决策中是不可避免且至关重要的步骤。自我反思帮助另一方面,试错和纠错在现实世界的任务决策中是不可避免且至关重要的步骤。自我反思帮助 AI Agent 完善过去的行动决策、纠正以前的错误、从而不断改进。完善过去的行动决策、纠正以前的错误、从而
16、不断改进。当下的技术包括 ReAct、Reflexion、后见链(Chain of Hindsight)等:ReAct:将任务中单独的行为和语言空间组合在一起,从而使大模型的推理和行动融为一体。该模式帮助大模型与环境互动(例如使用维基百科搜索 API),并以自然语言留下推理的痕迹。7/34 2023年年 12月月 11 日日 行业行业|深度深度|研究报告研究报告 Reflexion:一个让 AI Agent 具备动态记忆和自我反思能力以提高推理能力的框架。沿用了 ReAct 中的设置,并提供简单的二进制奖励。每次行动后,AI Agent 都会计算一个启发式函数,并根据自我反思的结果决定是否重置
17、环境以开始新的试验。这个启发式的函数可以判断是否当下的路径效率低下(耗时过长却没有成功)或包含幻觉(在环境中遇到一连串导致相同观察结果的相同行动),并在出现这两种情况下终止函数。后见链(后见链(Chain of Hindsight):):通过向模型明确展示一系列过去的输出结果,鼓励模型改进自身的输出结果,使得下一次预测的行动比之前的试验取得更好的成绩。算法蒸馏(Algorithm Distillation)将同样的理念应用于强化学习任务中的跨集轨迹。8/34 2023年年 12月月 11 日日 行业行业|深度深度|研究报告研究报告 2、记忆:用有限的上下文长度实现更多的记忆记忆:用有限的上下文
18、长度实现更多的记忆 记忆模块负责存储信息,包括过去的交互、学习到的知识,甚至是临时的任务信息。对于一个智能体来说,有效的记忆机制能够保障它在面对新的或复杂的情况时,调用以往的经验和知识。例如,一个具备记忆功能的聊天机器人可以记住用户的偏好或先前的对话内容,从而提供更个性化和连贯的交流体验。对对 AI 智能体系统的输入会成为系统的记忆,与人类的记忆模式可实现一一映射。智能体系统的输入会成为系统的记忆,与人类的记忆模式可实现一一映射。记忆可以定义为用于获取、存储、保留以及随后检索信息的过程。人脑中有多种记忆类型,如感觉记忆、短期记忆和长期记忆。而对于 AI Agent 系统而言,用户在与其交互过程
19、中产生的内容都可以认为是 Agent 的记忆,和人类记忆的模式能够产生对应关系。感觉记忆感觉记忆就是作为学习嵌入表示的原始输入,包括文本、图像或其他模态;短期记忆短期记忆就是上下文,受到有限的上下文窗口长度的限制;长期记忆长期记忆则可以认为是 Agent 在工作时需要查询的外部向量数据库,可通过快速检索进行访问。目前 Agent 主要是利用外部的长期记忆,来完成很多的复杂任务,比如阅读 PDF、联网搜索实时新闻等。任务与结果会储存在记忆模块中,当信息被调用时,储存在记忆中的信息会回到与用户的对话中,由此创造出更加紧密的上下文环境。9/34 2023年年 12月月 11 日日 行业行业|深度深度
20、|研究报告研究报告 为了解决有限为了解决有限记忆时间的限制,通常会用到外部存储器。常见的做法是将信息的嵌入表示保存到可支持记忆时间的限制,通常会用到外部存储器。常见的做法是将信息的嵌入表示保存到可支持快速的最大内积搜索(快速的最大内积搜索(MIPS)的向量存储数据库中。向量数据库通过将数据转化为向量存储,解决大)的向量存储数据库中。向量数据库通过将数据转化为向量存储,解决大模型海量知识的存储、检索、匹配问题。模型海量知识的存储、检索、匹配问题。向量是 AI 理解世界的通用数据形式,大模型需要大量的数据进行训练,以获取丰富的语义和上下文信息,导致了数据量的指数级增长。向量数据库利用人工智能中的
21、Embedding 方法,将图像、音视频等非结构化数据抽象、转换为多维向量,由此可以结构化地在向量数据库中进行管理,从而实现快速、高效的数据存储和检索过程,赋予了 Agent“长期记忆”。同时,将高维空间中的多模态数据映射到低维空间的向量,也能大幅降低存储和计算的成本,向量数据库的存储成本比存到神经网络的成本要低 2 到 4 个数量级。Embedding 技术和向量相似度计算是向量数据库的核心。技术和向量相似度计算是向量数据库的核心。Embedding 技术是一种将图像、音视频等非结构化数据转化为计算机能够识别的语言的方法,例如常见的地图就是对于现实地理的 Embedding,现实的地理地形的
22、信息其实远远超过三维,但是地图通过颜色和等高线等来最大化表现现实的地理信息。在通过 Embedding 技术将非结构化数据例如文本数据转化为向量后,就可以通过数学方法来计算两个向量之间的相似度,即可实现对文本的比较。向量数据库强大的检索功能就是基于向量相似度计算而达成的,通过相似性检索特性,针对相似的问题找出近似匹配的结果,是一种模糊匹配的检索,没有标准的准确答案,进而更高效地支撑更广泛的应用场景。10/34 2023年年 12月月 11 日日 行业行业|深度深度|研究报告研究报告 3、工具:懂得使用工具才会更像人类工具:懂得使用工具才会更像人类 AI Agent 与大模型的一大区别在于能够使
23、用外部工具拓展模型能力。与大模型的一大区别在于能够使用外部工具拓展模型能力。懂得使用工具是人类最显著和最独特的地方,同样地,也可以为大模型配备外部工具来让模型完成原本无法完成的工作。ChatGPT的一大缺点在于,其训练数据只截止到了 2021 年底,对于更新一些的知识内容它无法直接做出回答。虽然后续 OpenAI 为 ChatGPT更新了插件功能,能够调用浏览器插件来访问最新的信息,但是需要用户来针对问题指定是否需要使用插件,无法做到完全自然的回答。AI Agent 则具备了自主调用工具的能力,在获取到每一步子任务的工作后,Agent 都会判断是否需要通过调用外部工具来完成该子任务,并在完成后
24、获取该外部工具返回的信息提供给 LLM,进行下一步子任务的工作。OpenAI 也在 6月为 GPT-4和 GPT-3.5 更新了函数调用的功能,开发者现在可以向这两个大模型描述函数,并让模型智能地选择输出包含调用这些函数的参数的 JSON 对象。这是一种更可靠地将 GPT的功能与外部工具和 API 相连的新方法,允许开发者更可靠地从模型中获得结构化的数据,为 AI 开发者提供了方便。当下,使用工具的范例当下,使用工具的范例 AI Agent 之一为之一为 HuggingGPT。HuggingGPT 将模型社区 HuggingFace 和ChatGPT 连接在一起,形成了一个 AI Agent。
25、2023 年 4 月,浙江大学和微软联合团队发布了HuggingGPT,它可以连接不同的 AI 模型,以解决用户提出的任务。HuggingGPT 融合了 HuggingFace中成百上千的模型和 GPT,可以解决 24 种任务,包括文本分类、对象检测、语义分割、图像生成、问答、文本语音转换和文本视频转换。具体步骤分为四步:1)任务规划:使用 ChatGPT来获取用户请求;2)模型选择:根据 HuggingFace 中的函数描述选择模型,并用选中的模型执行 AI 任务;3)任务执行:使用第 2 步选择的模型执行的任务,总结成回答返回给 ChatGPT;4)回答生成:使用 ChatGPT融合所有模
26、型的推理,生成回答返回给用户。11/34 2023年年 12月月 11 日日 行业行业|深度深度|研究报告研究报告 三三、自主智能体:自动化,新一轮生产力革命自主智能体:自动化,新一轮生产力革命 1、软件新范式,非大模型玩家亦有机会软件新范式,非大模型玩家亦有机会 自主智能体,力图实现复杂流程自动化。自主智能体,力图实现复杂流程自动化。真格基金管理合伙人戴雨森将 AI 和人类协作的程度类比为自动驾驶的不同阶段,AI Agent 约为自动驾驶的 L4阶段,Agent 完成任务,人进行外部辅助和监督。自主智能体有望带来软件行业交互方式和商业模式变革:交互方式变革:自主智能体有望带来软件行业交互方式
27、和商业模式变革:交互方式变革:相比过去的 APP/软件,从人适应应用变成应用适应人,Agent 的决策/规划/执行等环节需要更深的用户需求理解以及更强的工程细节打磨。如目前 Agent 运行中常常遇见无休止的扩展、误解输出格式等问题,这类问题不单单依靠大模型能力提升,对 Agent 架构的设计和垂类数据的学习也有要求。商业模式变革:商业模式变革:按服务内容收费转换成按 token 收费,对 Agent 功能实用性要求更高。基座大模型能力固然重要,但其只能解决下限问题,在实际企业应用场景中自主智能体的架构设计、工基座大模型能力固然重要,但其只能解决下限问题,在实际企业应用场景中自主智能体的架构设
28、计、工程能力、垂类数据质量等也至关重要,垂类程能力、垂类数据质量等也至关重要,垂类/中间件玩家亦有机会。中间件玩家亦有机会。准确度和效率是自主智能体重要指标(决策式 AI 更擅长做的事,也意味着更低的容错度),企业对于低门槛定制 AGENT 也存在需求,专注具体领域/提供 AGENT 框架的玩家仍有可为。12/34 2023年年 12月月 11 日日 行业行业|深度深度|研究报告研究报告 2、实验性实验性 VS 实操性,单智能体实操性,单智能体 VS 多智能体多智能体 目前行业内对自主智能体的探索主要分为四大类:实验性项目实验性项目 VS 实操性应用:实操性应用:前者虽然实际运行中出错概率高,
29、但其创意、思路和开发经验对开发者仍有不少启发和贡献,如掀起这一波 AGENT 开发热潮的 AutoGPT。实操性应用更加强调与实际场景的适配。单智能体单智能体 VS 多智能体:多智能体:单智能体相对更适用于较简单的任务(如比价等),在 C端应用上有一定潜力(如 chatgpt+插件、adeptai 等);但其在 B 端场景上略显乏力,由于缺乏完整性评估、任务队列过长、大模型幻觉等原因,基本无法完成较为复杂的工作(如软件开发等),多智能体优势相对更加突出(如metagpt、chatdev等)。(1)单智能体单智能体 1:实验性项目:实验性项目 1)AutoGPT AutoGPT 是 2023 年
30、 3 月开源的第一款 AI AGENT 实验性项目,由游戏开发者 Toran Bruce Richards开发。AutoGPT 可根据用户给定的目标,自动生成所需提示,并利用 GPT4 和各种工具 API 执行多步骤的项目,无需人类的干预和指导。上线 5 个月在 github 上的 STAR 数量已超过 149K,具有一定代表性,对后来各种 AGENT 发展具有启发意义。使用多个外部工具:使用多个外部工具:1)能克隆 github 仓库、启动其他 agent、发言、发送推文和生成图片,支持所有矢量数据库和 LLM 提供商/文本到图片模型/浏览器。2)通过集成 Pinecone 数据库,它可进行
31、长期内存存储,从而保存上下文并基于此进行决策改进。3)通过 python 内部 List 结构,保存 text 文本,每次会获取最近一次的历史信息。应用场景偏向于办公应用场景偏向于办公/开发类开发类(自动化流程工作流、进行深入市场研究、写代码/程序、开发网站或APP),但实操效果一般,容易陷入死循环。但实操效果一般,容易陷入死循环。13/34 2023年年 12月月 11 日日 行业行业|深度深度|研究报告研究报告 2)代码开发类代码开发类GPTEngineer GPT Engineer 是主要作者 Anton Osika 在 6 月 11 日推出的开源代码生成工具,基于 GPT模型,能根据用
32、户的指示和需求生成高质量的代码,功能包括创建新函数、修复现有代码错误等等,支持多种编程语言。截至 2023 年 9 月,github 星星数量接近 44k。亮点一:可定制性。亮点一:可定制性。用户可根据自己的编码风格、项目需求和编程习惯进行设置,让 GPT Engineer 生成符合自身要求的代码。亮点二:上下文感知。亮点二:上下文感知。可理解代码上下文,并生成与之相适应的代码片段,用户无需为适应其生成方式而做出额外调整,从而提高工作效率。不足:1)无法进行迭代,在创建完应用程序后不能要求它更改任何内容。2)构建复杂的代码时仍需要一些编码经验。3)科研类科研类GPT Researcher GP
33、T Researcher 是哥伦比亚大学研究团队推出的 AI Agent 项目,专门用于网络科研任务,能够生成详尽、精确且客观的研究报告。已在 github 上开源,截至 2023 年 9 月 github 星星数量超过 4k。GPT Researcher 首先生成一系列研究问题,然后触发网络爬虫 Agent 从在线资源中搜集与任务相关的信息。每个获取的资源都会进行总结,并追踪其来源。最终,所有的资源都会被筛选、汇总,形成一份完整的研究报告。主要优势在于能够快速地完成研究任务。14/34 2023年年 12月月 11 日日 行业行业|深度深度|研究报告研究报告 4)创作类创作类ShortGPT
34、 ShortGPT 可实现自动编辑框架;编辑脚本和提示;创建配音/内容;生成字幕;从互联网上获取图像和视频片段,并根据需要与网络和 Pexels API 连接;确保使用 TinyDB 自动编辑变量的长期持久性等。(2)单智能体单智能体 2:实现交互变革:实现交互变革,中心化应用,中心化应用 1)功能升级后的功能升级后的ChatGPT 插件:插件:3月份在 ChatGPT plus版本 GPT4 模型中增加的功能,截至 9 月插件近 900 个,覆盖办公、编程、搜索、购物、本地生活等多个领域,但受限于 chatgpt 输入 token 长度的限制,每次最多启动 3 个插件。插件功能有效拓展了 c
35、hatgpt 适用领域,其中联网插件改善了大模型幻觉和数据过时等问题,但chatgpt 目前只提供信息参考,还无法直接替用户转到相关应用中进行操作。高级数据分析:高级数据分析:7 月份 openai 向 ChatGPT plus所有用户开放“代码解释器”功能(现“高级数据分析”功能,与插件功能平行),能编写和执行 python代码并能处理文件上传。高级数据分析功能提高了chatgpt 处理复杂任务的能力以及数学推理这类回答的准确度。自定义指令功能。自定义指令功能。7-8 月向所有 chatgpt 用户推出,用户可以预设自己的身份以及期望机器人在回复中所需要遵守的指令。如软件程序员可要求 Cha
36、tGPT 用指定的语言回答问题,且无需解释。该功能进一步提高 chatgpt 个性化水平,改善大模型容易遗忘前期信息的问题。15/34 2023年年 12月月 11 日日 行业行业|深度深度|研究报告研究报告 多模态输入:多模态输入:9 月 OpenAI 宣布即将开始在 ChatGPT中推出新的语音和图像功能,允许用户进行语音对话,或向 ChatGPT 输入图像。OpenAI 将在 ChatGPT中向 Plus 和 Enterprise 用户推出语音和图像。多模态输入将进一步降低 chatgpt 的使用门槛,扩大其使用范围,向“个人助理”的方向更进一步。企业版本:企业版本:提供无限速的 GPT
37、-4 访问权限;支持 32K 上下文输入;高级数据分析功能(代码解释器),自定义选项等。Openai 在 B 端应用和商业化有望加速。2)adept AI AI 初创公司 Adept 在 22 年 9 月发布大型行动模型 ACT-1,ACT-1 以桌面对话框形式存在,用户与网页的交互方式从过去的鼠标/键盘改变为自然语言。用户可在电脑随时调用,在文本框中输入命令,ACT-1会一步步自动完成操作,在需要时可以跨多个工具进行协调,用户反馈后也可即时修改错误。使用示例:使用示例:在 google sheet 中创建上一季度损益栏、在“22 年”列更新收入总值、增加一列展示平均支出;在 salesfor
38、ce 中添加某产品为新产品、添加某人为新联系人、设置提醒在某个时间点给某人发邮件;在某交易平台上帮找适合的商品 (3)单智能体单智能体 3:实现交互变革,可定制、平台化:实现交互变革,可定制、平台化 1)Cortex Cortex 是 Kinesys AI 发布的产品,可在用户自己数据上构建 AI Co-pilot,使团队能够使用自己私有数据源构建定制的 AI 助手,按使用量计费。Cortex 可将 GPT4等多个不同大模型组合使用,且为了让专一领域大模型更实用,Cortex 会采取调用向量数据、实时联网搜索、调用指定 API 等方式。在同一公司内部,同一份原始信息 Cortex 能获取每个人
39、岗位所需要关键点,以特定格式输出,即根据业务部门的不同而“千人千面”。16/34 2023年年 12月月 11 日日 行业行业|深度深度|研究报告研究报告 客户群体:客户群体:适用于个人开发者和早期初创企业,帮助他们大大减少从调试开始的工作量。目前有 10 多家付费用户和上千个人用户。案例:某网红 SaaS 公司使用 Cortex,让网红们以特定的人设和粉丝们聊天。2)MindOS MindOS 是心识宇宙发布的多功能的 AI Agent 引擎和平台,用户可在 3 分钟内开发具有独特记忆、个性和专业知识的可定制 agent“Genius”,提供超过 1000 个带有性格、功能的预置 Geniu
40、s,准确推断意图的准确率达到 97%。目前平台已提供 Marketplace(分享和发现 Genius)、Workflow(支持用户仅通过拖放和简单的配置来构建 Genius)、Structured Memory(从对话中沉淀结构化信息),未来还会拓增包括 Deep Thinking(深度思考)、Self Learning(自主学习)和 Teamwork(团队协作)等板块。商业化方案:增值服务,平台增量价值定价在 9.99 美元/月。MindOS 试用:显示思维链和相关链接,回答信息丰富。17/34 2023年年 12月月 11 日日 行业行业|深度深度|研究报告研究报告 (4)多智能体多智能
41、体:AGENT 团队完成复杂开发仸务团队完成复杂开发仸务 1)MetaGPT MetaGPT 是 7 月深度赋智开源的多智能体框架,快速帮助用户搭建属于自己的虚拟公司,虚拟公司中的员工都是智能体,如软件公司中的工程师、产品经理、架构师和项目经理,用户只需输入简短的需求,MetaGPT就能输出整个软件公司的工作流程和详细的 SOP,如创造故事、竞品分析等。框架分为基础组件层和协作层。(框架分为基础组件层和协作层。(1)基础组件层建立单个)基础组件层建立单个 AGENT 操作和全系统信息交换所需的核心操作和全系统信息交换所需的核心构件,构件,其中环境可实现共享工作空间和通信;记忆用于存储和检索历史
42、信息;角色封装特定领域的技能和工作流程;工具提供通用服务和实用程序。(2)协作层建立在基础组件层之上,协调单个协调单个 AGENT协同解决复杂问题,协同解决复杂问题,建立了重要的合作机制知识共享和封装工作流。知识共享允许 AGENT 交换信息,存储、检索和共享不同粒度的数据;封装工作流程利用 SOP 将复杂任务分解为更小、更易于管理的组件,将这些子任务分配给合适 AGENT,并通过标准化输出监督他们的表现,确保他们的行动符合总体目标。横向对比,横向对比,MetaGPT 的实操价值更高。的实操价值更高。在 github 开源 2 个月 STAR 数量已超过 24K。对比大模型:对比大模型:根据实
43、验结果,基于 GPT4-32k、使用 4 个 AGENT(工程师+产品经理+架构师+项目经理)的MetaGPT在开源数据集 MBPP 和 HumanEval 上的单次尝试通过率好于其他代码生成 LLM(包括GPT4、CODEX 等)。对比其他对比其他 AGENT:MetaGPT的独特之处在于它能生成产品需求文档和技术设计,从而展示其项目执行的整体方法,在游戏、网络开发和数据分析等各种场景下有更强的通用性。根据实验结果,MetaGPT 在为项目执行提供更全面、更强大的解决方案方面优于 AutoGPT、Agentverse、LangChainw/Python REPL tool 等同类产品。18/
44、34 2023年年 12月月 11 日日 行业行业|深度深度|研究报告研究报告 低成本低门槛开发简易软件项目。低成本低门槛开发简易软件项目。在实验的 7 个任务(包括 Python 游戏生成、CRUD 代码生成和简单数据分析)中,每个项目平均消耗 26.6ktoken 用于 prompt,任务完成后消耗 6.2ktoken,总成本 1.09美元,耗时 8-9 分钟,时间和财务支出不到传统软件工程开发的千分之一。不足:不足:MetaGPT 偶尔会引用不存在的资源文件,在执行复杂任务时容易调用未定义或未导入的类或变量。这些现象普遍归因于大型语言模型固有的幻觉倾向,可以通过更清晰、更高效的 AGEN
45、T 协作工作流程来处理。2)ChatDev ChatDev 是清华大学 NLP 实验室孙茂松教授指导,联合面壁智能、北京邮电大学、布朗大学研究人员共同发布的、大模型驱动的全流程自动化软件开发框架,可以理解为对话驱动的虚拟软件开发公司,在人类“用户”指定一个具体任务需求后,不同角色智能体将进行交互式协同,以生产一个完整软件(包括源代码、环境依赖说明书、用户手册等)。模型方面,接入 gpt3.5-turbo-16k 版本的 ChatGPT API,在 Camel 指令跟随对话数据集中随机挑选了70 个任务,作为 CHATDEV 软件开发的分析基础。驱动智能体对话的驱动智能体对话的 3 个关键机制个
46、关键机制:1)角色专业化:角色专业化:通过角色扮演机制确保每个智能体各司其职,在指定的专业角色下完成相应的方案提议和决策讨论。2)记忆流:记忆流:保存每轮对话记录,供各个智能体随时翻阅,确保思路的连贯性。2)自反思:自反思:智能体完成各自工作但没有达到要求时,生成一个伪我,将问题和有关对话向 instructor 进行反馈。19/34 2023年年 12月月 11 日日 行业行业|深度深度|研究报告研究报告 CHATDEV 为软件开发提供了一种无需培训、高效且具有成本效益的新范式。为软件开发提供了一种无需培训、高效且具有成本效益的新范式。CHATDEV 软件平均生产时间不到 7分钟(传统定制软
47、件开发周期,即使使用敏捷软件开发方法每个周期通常也需要 2-4 周甚至几个月时间),制造成本不到 0.3 美元,在提高制作效率的同时成本也大大低于传统定制软件开发公司的费用。提供具体提供具体/特定说明更有利于发挥特定说明更有利于发挥 CHATDEV 功能,目前技术更适用于中小软件。功能,目前技术更适用于中小软件。1)当用户指定一个不太具体的任务时,CHATDEV 生成的源代码往往更短(不具体任务代码平均值 110.97 行 VS 总体平均值 131.61 行)。为充分发挥 CHATDEV 作用,研发团队建议向 CHATDEV 提供特定说明(如所需的软件功能系统规则、UI 设计和其他详细规范等)
48、,通过提供更清晰、更具体的说明,用户可以指导CHATDEV 生成符合其特定要求的更全面和量身定制的代码。2)因为 AGENT 自主决定具体实现细节的能力有限,会导致多轮冗长的讨论;且大规模软件开发对审查人员和测试人员都具有挑战性,因为很难在给定的时间限制内找出缺陷或漏洞。因此目前 CHATDEV 更多对初级程序员或工程师有用,要为高级或大型软件需求生成完美源代码仍具有挑战性。潜在风险和限制:潜在风险和限制:1)大模型固有的随机性使得软件生产过程具有一定的不确定性。2)设计师对 GUI进行图像创作的过程,对各个图像素材均独立生成的,因此可能会 GUI 配图不自然;3)大模型可能会表现出固有偏差,
49、导致生成的代码模式不一定符合实际程序员解决问题的思路。3)Showrunner 7 月份,艾美奖得主初创公司 Fable 发布名为 SHOW-1的 Showrunner AI 技术,用其制作出一集完全用AI 拍摄的南方公园。通过自然语言给不同智能体分配各自目标,人类导演只需给出一个高层次的构思提示(标题、概要、事件),AI 智能体会开始自导自演。不同 AI 智能体担任不同的角色,有独 20/34 2023年年 12月月 11 日日 行业行业|深度深度|研究报告研究报告 特的背景故事、个性和动机,如演员、导演、剪辑等,彼此分工合作,互相配合,最终完成整部影片的制作。底层模型:底层模型:基于两个在
50、南方公园数据集(约 1200 个角色和 600 张场景)上训练的自定义扩散模型,可以生成新角色和新场景;一个超分辨率模型(R-ESRGAN-4x+-Anime6B)可以将场景放大;语音克隆 AI 可给角色即时配音。记记忆能力:忆能力:在多智能体无梯度架构驱动下,每个角色的完整经历都会被存储为自然语言。随着时间的推移,这些记忆会被合成更高层次的反射,随时动态检索,来实时计划每个角色的行为。模拟创造性思维:模拟创造性思维:模拟产生的数据为撰写初始提示的用户和与 LLM 进行提示链交互的生成故事系统提供创新基础。其中,提示链通过向语言模型提供一系列相关的提示,来模拟持续的思维过程。如,它可以在每一步
51、中扮演不同的角色,对前一个提示和生成的结果进行判别。四、四、智能体模拟:拟人化,新的精神消费品智能体模拟:拟人化,新的精神消费品 1、陪伴类,提供情绪价值陪伴类,提供情绪价值 陪伴类智能体强调情感情商等人类特征,具有陪伴类智能体强调情感情商等人类特征,具有“人格人格”,且能够记住与用户的历史交流。,且能够记住与用户的历史交流。(1)LLM在自然语言理解能力上的重要突破使陪伴类智能体在技术上成为可能,(2)GPT4 在情商上显著高于以往其他大模型,随着大模型情商迭代、多模态技术发展,有望出现更加立体拟人可信、能够提供较高情绪价值的陪伴智能体。目前国内情绪消费市场仍有较大想象空间(社会婚姻观念转变
52、、现代工作生活节奏紧张下,国民孤独感增加),陪伴类智能体或受益于情绪消费趋势红利,成为 LLM 时代重要的 AI 原生应用。从用户陪伴性需求的第一性原理出发,预计陪伴类智预计陪伴类智能体大部分商业价值集中在能体大部分商业价值集中在 IP 上,上,基于此当前具备丰富 IP 储备或者能让用户定制智能体的玩家前景广阔:1)参考人的陪伴:)参考人的陪伴:陌生人社交和秀场直播属于线上陪伴代表性应用,前者核心问题在于用户间建立一定情感联系后会转到最常用的社交平台,后者用户价值会逐渐集中到头部主播,而非平台。2)参考物的陪伴:)参考物的陪伴:潮玩等消费品有一定的陪伴属性,受众大部分支出花在自己喜欢的 IP。
53、(1)InflectionAI:高情商个人:高情商个人 AIPi 21/34 2023年年 12月月 11 日日 行业行业|深度深度|研究报告研究报告 Inflection AI 推出主打情感陪伴的个人推出主打情感陪伴的个人 AIPi。Inflection AI 是一家成立于 2022 年的人工智能初创公司,目前公司的估值已经突破 40亿美元,在人工智能领域仅次于 OpenAI。在 2023 年 5 月,公司推出了旗下的个人 AI 产品 Pi。与 ChatGPT 不同,Pi 从未以专业性与替代人工作为宣传。它不能写代码,也不能帮我们生产原创内容,与时下流行的通用聊天机器人相反,Pi 只能进行友
54、好的对话,提供简洁的建议,甚至只是倾听。它的主要特征是富有同情心、谦虚好奇、幽默创新,具有良好的情商,可以根据用户的独特兴趣和需求提供无限的知识与陪伴。Inflection 自开发 Pi 开始,就确定了 Pi 将作为个人智能(Personal Intelligence),而不仅仅是辅助人工作的工具。Pi 的核心是公司研发的的核心是公司研发的 Inflection-1 大模型,性能媲美大模型,性能媲美 GPT-3.5。Inflection-1 是 Inflection AI 推出的大模型,根据公司的评估测试,Inflection-1在多任务语言理解、常识问题等多项测试中的性能都略胜于 GPT-3
55、.5、LLaMA 等常用的大模型,但在代码能力上要落后于 GPT-3.5。不过这是公司的差异化竞争所在,Pi 作为一个以情感陪伴为主的 Agent 并不需要拥有很强的代码和辅助工作能力。和辅助工和辅助工作的作的 Agent 不同,不同,Pi 能够满足更多的情感陪伴需求。能够满足更多的情感陪伴需求。作为一个具有高情商的 AI Agent,Pi 能够以更加日常和生活化的语言和用户进行交流,而不是以一个冰冷的工作 AI 的口吻。Pi 的回复非常贴近生活,语气十分得体,而它对你当下状态和事态发展的关心就像心理医生或者你最好的朋友。当 Pi在回复可能带有负面情绪的问题时,它也会避免使用任何俏皮的表情或者
56、轻快的口吻去冒犯用户。它甚至会在回复中使用 emoji,让用户觉得更像是和真正的人类在进行对话一样。Pi 还能够记住与用户的对话内容,并随着时间的推移而更加了解用户。Pi 的出现,弥补了传统型人工智能对人类情绪欲望的忽视。能够认为,类似于 Pi 这样能够提供情绪价值的个人 AI Agent 存在着较大的市场空间。(2)平台化娱乐化,如平台化娱乐化,如 Character.AI、Glow 等等 22/34 2023年年 12月月 11 日日 行业行业|深度深度|研究报告研究报告 Character.AI:创立于 2021 年 10 月,创始团队是来自 Google Brain 和 Meta AI
57、 的深度学习、大型语言模型和对话领域的专家。2022 年 9 月推出 Beta 版产品,采用了 GPT-3大模型,并用大量的书籍、电影和其他媒体中的虚构人物数据进行训练,使聊天机器人能够根据人物的个性和特征生成对话和文本响应。用户可以在其平台上创建 AI 机器人并与之聊天。根据根据 Character.AI 官方披露信息,官方披露信息,Beta 版本推版本推出出 2 个月后,每天生成个月后,每天生成 10 亿个单词,截至亿个单词,截至 2022 年年 12 月,用户已创建超月,用户已创建超 35 万个机器人,涵盖信息万个机器人,涵盖信息检索、检索、教练、教育、娱乐等领域。其他类似产品:Repl
58、ika、Glow 等。2、重交互,提高用户体验重交互,提高用户体验 交互智能体:强调与环境交互的能力,智能体与智能体交互智能体:强调与环境交互的能力,智能体与智能体/虚拟世界内事物之间可互动,可能涌现出超越虚拟世界内事物之间可互动,可能涌现出超越设计者规划的场景和能力,大模型不确定性反而成为优势,有望成为设计者规划的场景和能力,大模型不确定性反而成为优势,有望成为 AIGC 重要部分。重要部分。特别是对开放世界游戏等行业,创建可信 agent(大部分为可信 NPC)的目的是提供一种生命的幻觉,做出决策并按自己的意愿行事,从而呈现出一种真实感,可增强玩家沉浸感,解决开放世界内容消耗快的问题;可信
59、agent 技术成熟后可能会孵化出新的游戏品类。23/34 2023年年 12月月 11 日日 行业行业|深度深度|研究报告研究报告 (1)单智能体:游戏世界单智能体:游戏世界 AI 玩家,如玩家,如 Voyager Voyager 是第一个大模型驱动,可以终身学习的游戏智能体。是第一个大模型驱动,可以终身学习的游戏智能体。2023 年 5 月,英伟达开源了 Voyager 这一游戏智能体。英伟达将 Voyager 用在了我的世界这款游戏中,我的世界没有强加一个预定的最终目标或固定的故事情节,而是提供了一个具有无限可能性的独特游乐场。一个高效的终身学习Agent 应该具有与人类玩家类似的能力,
60、能够根据当前技能水平和世界状态发现合适的任务,能够根据反馈学习和完善技能,不断探索世界。英伟达采用了“无梯度”的 Agent 训练方法,基于 GPT-4的Voyager 在游戏里表现优异,获得的独特物品增加了 3.3 倍,行进距离增加了 2.3 倍,解锁关键科技树里程碑的速度比之前的方法快了 15.3 倍。Voyager 由自动课程、技能库和迭代由自动课程、技能库和迭代 prompt 机制三个新型组件构成。机制三个新型组件构成。Voyager 的架构与第二章提到的 AI Agent 基本组件相差较大:自动课程用于提出开放式的探索目标,该课程是由 GPT-4 根据“尽可能多发现不同的东西”的总体
61、目标生成的,会根据探索进度和 Agent 状态使得探索实现最大化;技能库用于开发越来越复杂的行为,通过存储有助于成功解决某个任务的行动程序,Voyager 逐步建立起一个技能库,未来可以在类似情况下进行检索。这些技能是用可执行的代码来表示的,复杂的技能则可以通过组成更简单的程序来合成。这种做法可以让 Voyager 的能力随着时间的推移迅速增强,并缓解“灾难性遗忘”问题;迭代 prompt 机制引入了环境反馈、执行错误和检查任务是否成功的自我验证三种类型的反馈,根据这些反馈,GPT-4可以自己去迭代更新 prompt,直到生成的 prompt 足以去完成当前任务。24/34 2023年年 12
62、月月 11 日日 行业行业|深度深度|研究报告研究报告 Voyager 的性能显著强于别的的性能显著强于别的 Agent 框架,但成本也高居不下。框架,但成本也高居不下。英伟达的研究者们系统对比了Voyager 和别的 Agent 框架的的探索性能、科技树的掌握情况、地图覆盖率等指标,Voyager 的性能具备显著优势。和别的 Agent 框架相比,Voyager 解锁科技树(木制工具石制工具铁制工具钻石工具)的速度最快,且是唯一能够解锁钻石等级科技树的模型。Voyager 的探索地图范围也是别的 Agent框架的 2.3 倍,发现新知识的能力大大增强。虽然 Voyager 具备强大的性能,但
63、是其成本开销也是巨大的,由于 Voyager 需要使用 GPT-4 强大的代码生成能力,导致其成本无法降下来。同时大模型的“幻觉”问题仍然存在,比如自动课程会提出一些无法完成的任务等。但即便如此,众多业界学者仍认为Voyager 是 AI Agent 领域的一大突破进展,离真正的 AGI 又更近了一步。(2)多智能体:多智能体:Smallville 小镇、网易逆水寒手游、昆仑万维小镇、网易逆水寒手游、昆仑万维ClubKoala虚虚拟世界拟世界 1)多智能体:多智能体:Smallville小镇,类西部世界的模拟社会小镇,类西部世界的模拟社会 斯坦福西部世界小镇首次创造了多个智能体生活的虚拟环境。
64、斯坦福西部世界小镇首次创造了多个智能体生活的虚拟环境。2023 年 4 月,斯坦福大学的研究者们发表了名为Generative Agents:Interactive Simulacra of Human Behavior的论文,展示了一个由生成代理(Generative Agents)组成的虚拟西部小镇。这是一个交互式的沙盒环境,在小镇上,生活着 25个可以模拟人类行为的生成式 AI Agent。它们会在公园里散步,在咖啡馆喝咖啡,和同事分享当天的新闻。甚至一个智能体想举办情人节派对,这些智能体在接下来的两天里,会自动传播派对邀请的消息,25/34 2023年年 12月月 11 日日 行业行业
65、|深度深度|研究报告研究报告 结识新朋友,互相约对方一起去派对,还会彼此协调时间,在正确的时间一起出现在派对上。这种Agent 具有类似人的特质、独立决策和长期记忆等功能,它们更接近于“原生 AI Agent”。在这种合作模式下,Agent 不仅仅是为人类服务的工具,它们也能够在数字世界中与其他 Agent 建立社交关系。记忆流是西部世界小镇中记忆流是西部世界小镇中 AI Agents 的架构核心。的架构核心。小镇中的 Agents 包含三大重要的基本要素:记忆、反思和规划,相比前文提到的几个核心组件略有调整。这三大基本要素都基于一个核心:记忆流(MemoryStream),记忆流存储了 Ag
66、ent 的所有经历记录,是一个包含了多个观察的列表,每个观察都包含了事件描述、创建时间以及最近一次访问的时间戳,观察可以是 Agent 自己的行为或从其他人那里感知到的行为。为了检索最重要的记忆以传递给语言模型,研究者确定了检索过程中需要考虑的三个因素:最近性、重要性和相关性。通过确定每条记忆基于这三个因素的分数,最后加总起来得到权重最高的记忆,作为 prompt 的一部分传递给大模型,以此来决定 Agent 的下一步动作。反思和规划都是基于记忆流中的观察来进行更新与创建的。2)网易逆水寒手游,网易逆水寒手游,AINPC提高玩家体验提高玩家体验 2023 年 6 月 30 日,网易重磅 MMO
67、新游逆水寒手游上线,首日即登顶 iOS 游戏免费榜,截至 7 月3 日凌晨,仍高居榜首;iOS 游戏畅销榜排名于公测当天晚(6 月 30日晚)跃升至第 3 名,于 7 月 1 日晚跃升至第 2 名。逆水寒手游中投放了百位 AINPC,不仅能和玩家对答如流,而且拥有了记忆,大大增加了游戏乐趣,同时 NPC 提供的探索剧情,也让游戏内容更为丰富。通过与 NPC 互动,玩家可以了解这个世界,探听到 26/34 2023年年 12月月 11 日日 行业行业|深度深度|研究报告研究报告 很多奇闻,了解一些 boss 的弱点(比如通过 NPC 对话,了解到高衙内的打手怕水,在打斗中将其推进水中可以取得巧胜
68、),甚至通过 NPC 的关系网,玩家可以巧解难题。3)昆仑万维昆仑万维ClubKoala虚拟世界更可信虚拟世界更可信 产品特色AI NPC,让虚拟世界更真实。使用 Play for Fun 的 Atom AI 系统,每个 AI NPC都将有自己的性格特征、行为模式,会自主制定日程并执行,并会影响其他 NPC 的关系和发展。同时加入记忆系统后,AI NPC能够记住与玩家的互动,同时可以根据玩家的行为,并调整自己的行为,发展“自我意识”,进行自然而真实的动作和对话。玩家与AI NPC 的互动将被 NPC 记住,同时 NPC 将分析玩家行为模式和偏好,并反映在后续与玩家的互动中,以建立起玩家与 NP
69、C 之间真正的纽带。未来玩家甚至可以定制自己的专属 NPC。五五、AI Agent 应用应用领域领域 1、AI Agent 有望多个领域实现落地应用有望多个领域实现落地应用 AI Agent 是释放是释放 LLM 潜能的关键,潜能的关键,Agent 和人的合作将越来越多。和人的合作将越来越多。当前像 GPT-4这样的大模型具备很强的能力,但是其性能的发挥却主要依赖于用户写的 prompt 是否足够合适。AI Agent 则将用户从prompt 工程中解放出来,仅需提供任务目标,以大模型作为核心的 AI Agent 就能够为大模型提供行动能力,去完成目标。得益于 LLM 能力边界的不断发展,AI
70、 Agent 展现出了丰富的功能性,虽然目前Agent 还只能完成一些比较简单的任务,但随着 Agent 研究的不断发展,Agent 和人类的合作将越来越 27/34 2023年年 12月月 11 日日 行业行业|深度深度|研究报告研究报告 多,人类的合作网络也将升级为一个人类与 AI Agent 的自动化合作体系,人类社会的生产结构将会出现变革。AI Agent 有望多个领域实现落地应用,有的已经出现好用的有望多个领域实现落地应用,有的已经出现好用的 demo 产品。产品。AI Agent 已经在各个领域得到了初步的应用和发展,未来将有望成为 AI 应用层的基本架构,包括 toC、toB 产
71、品等。28/34 2023年年 12月月 11 日日 行业行业|深度深度|研究报告研究报告 2、2B+垂类垂类 Agent 认知正在形成,有望率先落地认知正在形成,有望率先落地 2B 和垂直领域仍是和垂直领域仍是 AI Agents 容易率先落地的方向。容易率先落地的方向。由于 Agent 对环境反馈的依赖性较强,具备显著特点的企业环境是更加适合 Agent 建立起对某一个垂直领域认知的场景。传统的企业与 AI 结合应用更多的是在流程任务自动化,通过定义规则来提升一线员工的工作效率。而 Agent 则能够更进一步地提升一线员工的工作质量,通过将企业在私域业务上的知识与经验传授给 Agent,让
72、 Agent 能够成为该领域一个虚拟的“专家”智能体,去指导和帮助经验较为匮乏的一线员工,在让一线员工的工作质量大幅提升的同时,也能让一线员工快速成长起来。并且从时间上来看,一个经验丰富的高级员工是需要很长时间的培养的,而通过训练得到的垂类 Agent 是很容易实现低成本规模化复制的。理想状态下,企业能够实现给每一位一线员工都配备一位甚至多位垂类 Agent 来辅助工作,员工的单位生产力将会有大幅提升。大模型时代的到来加速了 AI 技术的平民化,能够认为,随着科技水平的不断发展,未来 5-10 年间 AI智能的成本将会快速降低,企业为每一位员工搭配 Agent 的愿景将有望实现。用户对用户对
73、Agent 的认知正在形成,初创企业正在卡位。的认知正在形成,初创企业正在卡位。当前关于 AI Agent 的研究主要还是以学术界和开发者为主,商业化产品极少,Agent 的未来产品形态如何仍未有定论。但是用户对于 Agent 的关注度正在提升,Agent 对于效率提升的认知正在形成,可能未来几年间就会涌现出大量以 Agent 作为核心的产品应用到各行各业。六六、相关相关公司公司 大模型赋能让进一步智能化的大模型赋能让进一步智能化的 AI Agent 成为可能成为可能。具备底层大模型算法技术的公司以及相关的应用软具备底层大模型算法技术的公司以及相关的应用软件公司有望基于件公司有望基于 AI A
74、gent 实现应用的落地。实现应用的落地。1、OpenAI:OpenAIGPTs 展现展现 AI Agent 初级形态初级形态 GPTs+Assistants API 为用户提供自定义 AI Agent 的初级形态。用户可通过自然语言构建专属 GPT,可接受用户专有知识,并通过 API 调用外部能力,使人人都有可能拥有自己的人工智能助理。GPTs:人人都能拥有自定义:人人都能拥有自定义 GPT,简单工具降低开发门槛,简单工具降低开发门槛,GPT 应用生态快速发展。应用生态快速发展。11 月 7 日,OpenAI 于首届开发者大会上推出了自定义 GPT功能,并命名为 GPTs,可添加知识、操作和
75、说明,并发布以供其他人使用。自定义的 GPT 发布后,用户可以选择私有、专属以及公开三种方式发布应用。企业版用户也可为特定客户、部门或专有数据集创建自己的 ChatGPT。OpenAI 还推出了 GPT Builder,专门用于以自然语言交互的方式为用户创建自定义的 GPT。GPT Builder 大幅降低了开发门槛,从供给端打开 GPT 相关应用空间。根据 GPTs Hunter,目前已有超 3 万个 GPTs 被平台收入,GPT应用生态快速发展中。Assistants API:全面的:全面的 API 开发助手。开发助手。OpenAI 还面向开发者推出了全新的 Assistants API,
76、是OpenAI 专门设计的用于帮助开发者在自己的程序中构建 Agent 的工具。Assistants API 提供了“代码解释器(Code interpreter)”、“检索(Retrieval)”“函数调用(Function calling)”三项功能,其中:代码解释器允许开发者在沙盒中编写和运行 Python 代码,生成图形、图表并处理不同数据和格式的文件;检索使得开发者可以利用模型之外的知识来增强助手;函数调用可令助手能够调用开发者定义的函数,并将函数响应合并到其消息中。29/34 2023年年 12月月 11 日日 行业行业|深度深度|研究报告研究报告 GPT Store:OpenAI
77、 官方应用商店即将上线,官方应用商店即将上线,GPT iPhone 时刻来临。时刻来临。OpenAI 未来还将正式推出官方 GPT 商店,主要用于分享用户构建的自定义 GPTs,开发者可以将自己的 GPTs 提交,经过验证的GPTs 将会商家 GPT Store 并供用户下载和使用,以此创造的收入将与 OpenAI 进行分成。GPT Store 是在插件系统基础上实现的重磅升级,早在今年 5月份 OpenAI 就在插件系统上开放了 70多个插件,功能涵盖了创建网页、视频编辑、数据分析等。根据 Sam Altman,ChatGPT 自推出以来,已有超 200 万开发者使用 API,超过 92%的
78、财富 500 强公司使用 API,周活跃用户超 1 亿。2、科大讯飞:科大讯飞:讯飞构建星火助手生态讯飞构建星火助手生态 星火插件打造星火插件打造 AI 工具集市。工具集市。讯飞星火插件将第三方生产力工具集成到讯飞星火 SparkDesk 和星火 App中,插件可以帮助大模型即时更新信息,帮助大模型接入互联网,使大模型的数据集不再滞后。同时,插件也可以拓展模型的应用场景,使其能够适应更多的场景和需求。插件也可以为企业应用的私有化部署助力,确保内部信息的隐私性与安全性。现阶段,讯飞星火大模型现已接入 8 款插件,内含 PPT 生30/34 2023年年 12月月 11 日日行业行业|深度深度|研
79、究报告研究报告 成、文档问答、简历生成、ProcessOn、智能翻译、内容运营、AI 面试官、邮件生成多种应用,覆盖营销、工具、旅游、购物、教育、招聘等共 18 个主要应用场景。星火助手生态拓展大模型可能。星火助手生态拓展大模型可能。讯飞星火针对不同用户群体开发不同的 AI 助手,如面向科研人员的星火科研助手、面向学生群体的 AI 心理伙伴、面向软件行业的智能编程助手 iFlyCode 等。除助手功能外,用户还可将特定知识、历史对话等信息发给系统,以定制专属的 AI 人设“友伴”。截至目前,“讯飞星火”APP 用户已开发出个性化 AI 助手 3.7 万多个,目前已上架的 AI 助手约 5000
80、个,用户也可以自行开发专属的 AI 助手。31/34 2023年年 12月月 11 日日 行业行业|深度深度|研究报告研究报告 3、昆仑万维:昆仑发布天工昆仑万维:昆仑发布天工 SkyAgents 昆仑万维于昆仑万维于 12 月月 1 日正式推出基于日正式推出基于“天工大模型天工大模型”的全新平台的全新平台“天工天工 SkyAgents”,帮助用户构建,帮助用户构建 AI 个个人助理。人助理。该平台不仅具备自主学习和独立思考的能力,涵盖了从感知到决策,再到执行的全方位智能。用户得以通过自然语言构建属于自己的个人或多个“私人助理”,实现协同作业,灵活掌控不同部门和业务流程的信息整合与传递,为每个
81、个体提供一位智能管理助手。此外,平台还将各项任务模块化,采用操作系统的模块方式,执行任务涵盖问题预设、指定回复、知识库创建与检索、意图识别、文本提取、HTTP 请求等多个方面。SkyAgents 的使用无需编码,用户可以自主定义和配置的使用无需编码,用户可以自主定义和配置 AI Agents 的行为,实现简单高效的搭建过程。的行为,实现简单高效的搭建过程。昆仑万维通过可视化设计简化了开发流程,降低了技术门槛,使得所有开发者都能轻松创建自己的专属AI。多种多种 AI 能力模块组件,能力模块组件,SkyAgents 覆盖多个应用场景,包括工作、编辑、金融、写作、助手、翻译、覆盖多个应用场景,包括工
82、作、编辑、金融、写作、助手、翻译、营销、生活等。营销、生活等。除丰富的 Agents 库以外,用户还可以建立“我的 Agents”列表。32/34 2023年年 12月月 11 日日 行业行业|深度深度|研究报告研究报告 4、拓尔、拓尔思:思:“拓天大模型拓天大模型”发布,发布,AIGC 业务加速进展及落地业务加速进展及落地 公司深耕 NLP、知识图谱、OCR、图像视频结构化等多模态内容处理底层技术,建立完整多模态人工智能产品体系,为客户提供文本、音视频、多模态等全栈服务。AIGC 业务实现营收 782.18 万元,同比增长 206.02%,主要业务涵盖消保报告自动写作、媒体智能辅助写稿等应用
83、。公司目前正在研发拓天大模型 Agent 技术,重点研发 Agent 的任务规划、记忆、外部工具使用、多Agent 协同等能力。“拓天大模型”的主要覆盖领域包括金融、媒体、政务;公司建立基于各行业的主题数据库,针对不同行业业务场景,提供大模型+产品,提供包括内容生成、多轮对话、语义理解、跨模态交互、知识型搜索、逻辑推理、安全合规、数学计算、编程能力和插件扩展在内的基础能力。拓天.M媒体行业目前拥有 1000 亿+互联网媒体资讯数据,100亿+官媒数据,200 万+人民数据,14大类知识标引规范,12000+知识标引规则作为专业训练数据;并已与传播大脑签定战略合作协议,联合发布“传播大模型”;此
84、外,公司已中标人民日报某项目,公司将在落地过程中与用户共创更多媒体 AIGC 应用。5、彩讯股仹:国产邮箱领军者,彩讯股仹:国产邮箱领军者,AI、信创铸、信创铸就新机遇就新机遇 国产邮箱领军者,持续拓展业务边界国产邮箱领军者,持续拓展业务边界。公司成立初期主要从事基础互联网业务,2005 年正式上线手机邮箱业务,2009 年手机邮箱产品全面升级为中国移动139 邮箱。随着互联网行业发展,公司将业务重心逐步集中到“产业互联网技术及服务提供商”,专注于帮助企业打造面向消费者的新型产品和渠道。公司目前拥有协同办公、智慧渠道、云和大数据三大产品线。信创走向常态化,信创邮箱产品力强。信创走向常态化,信创
85、邮箱产品力强。随着行业信创的深入、应用软件的成熟,邮箱作为企业重要的协同办公软件之一,国产邮箱有望实现对国外邮件系统的替代。公司自主研发的邮箱产品 Richmail 是国33/34 2023年年 12月月 11 日日行业行业|深度深度|研究报告研究报告 内信创邮箱的主力产品,在信创适配能力与数据安全处于行业领先地位。彩讯电子邮件系统已入选中央集采邮箱项目,并获得诸多政企客户青睐。大模型奇点时刻,大模型奇点时刻,AI 邮箱助手有望开启全新成长曲线。邮箱助手有望开启全新成长曲线。2023 年大模型迎来加速发展期,大模型技术将给多个行业带来重大模式创新和产业变革机遇,同时也有望演进成为每个人的人工智
86、能助手,深刻地改变人类的生产和生活方式。邮箱是 AIGC 能落地的最优质场景之一,公司较早布局 AI 技术赋能,2023年 5 月发布了下一代智能邮箱 demo 产品具备类秘书的主动服务能力、基于大模型的信息整合处理能力及跨域信息获取和存储能力三大核心能力。目前 AI 邮箱助手产品提升日常邮件办公的效率可达 20%以上。深度受益运营商国资云,云业务增长势头强劲。深度受益运营商国资云,云业务增长势头强劲。国有企业作为国民经济的重要支柱,其数据安全关乎根基、关乎民生。推动国企上云成为国企数字化转型的下一步选择,“国资云”应运而生。据三大运营商财报显示,云计算成为拉动增长的主力,2022 年云业务增
87、速均超过 100%。在运营商业务领域,公司深耕移动云,同时成功横向拓展涵盖至中国联通及中国电信。随着运营商业务的持续突破,公司市场份额有望进一步提高。6、金山办公:、金山办公:AIGC+Copilot+Insight 三箭齐发,三箭齐发,AI 全面赋能全面赋能 WPS 八大应用八大应用 金山办公是国产办公软件及服务领军企业。金山办公是国产办公软件及服务领军企业。产品涵盖 WPS Office、金山文档等办公套件、面向组织级客户的数字办公全家桶 WPS 365 以及智能办公助手 WPS AI 等。作为具备全球竞争力的高度产品化公司,毛利率常年在 80%以上,保持高强度研发投入且全部费用化。展望未
88、来,WPS AI 与 WPS 365 两大产品打磨叠加行业信创及办公软件数智化趋势,有望迎来新一轮黄金发展期。金山办公今年推出金山办公今年推出 WPS AI,实现,实现 AI+办公软件在国内率先落地。办公软件在国内率先落地。WPSAI 三层次产品结构包括:1)借助 AIGC 协助用户生成更高质量的文章;2)Copilot 使办公软件理解并响应用户的各种需求,实现自动操作;3)Insight 提供个性化的知识库检索和信息生成。在应用端,WPSAI 已全面赋能 WPS 八大应用,且智能文档、表格、文字、演示已开启公测。针对各个场景对 WPSAI 进行了体验测试:目前在轻文档及文字内部的文本生成功能
89、已比较成熟;表格端可实现 sumif、averageif 等公式自动生成,帮助用户进行批量数据处理;PPT 可实现一键更换模板、扩写正文等功能,提高工作效率。与传统版本相比,WPSAI 整体能帮助用户实现一定程度的工作自动化和智能化,提高用户效率和产品体验。WPS AI 结合外部与自研模型,可提高模型效率。结合外部与自研模型,可提高模型效率。WPS AI 底层模型采用混合部署策略,一方面使用外部大模型厂商的模型,目前已与百度文心一言、MiniMax、智谱 AI、科大讯飞、阿里等厂商建立合作关系;另一方面公司基于开源底座自研小模型,目前已有 7B 和 13B 两个自研模型,自研模型和通用模型共同
90、支持 WPS AI 功能,提高在特定场景的推理效率和性价比,且能够服务具备私有化部署需求的客户。七、七、AI Agent 可能面临的挑战可能面临的挑战1、安全性与隐私性、安全性与隐私性34/34 2023年年 12月月 11 日日行业行业|深度深度|研究报告研究报告 安全性和隐私性是智能体的关键特性,对其稳定运行和对用户及社会的保护至关重要。这两个因素直接影响 AI 代理的信任度和控制力。若 AI 代理出现漏洞、遭受攻击或数据泄露等问题,则可能导致对用户或社会的损害。比如,OpenAI 的 GPTs 在发布后不久,出现了安全漏洞,导致了用户上传的数据泄露。2、伦理与责仸、伦理与责仸伦理和责任是
91、智能体的核心原则,决定其价值观和目标,以及对用户和社会的尊重与保护。这些原则直接影响智能体的可信度和可控性。若智能体表现出不公平、不透明或不可靠等问题,可能引发用户或社会对技术的排斥。责任归属也是智能体的关键议题,人与智能体协同中的责任归属不清晰或不公正也会带来严重后果。3、经济和社会就业影响、经济和社会就业影响未来工作中的一个重要挑战是人类与智能体之间的竞争。例如,AI 自由职业者平台 NexusGPT的出现便是对传统自由职业者的冲击。未来的社会工作协同中,也会出现越来越多的智能体,雇主基于效率和效益考虑,可能会尽量减少人力投入。随着智能体技术的成熟,必须提前思考这些技术发展对社会和个人职业
92、生涯的长期影响。八、参考研报八、参考研报 1.招商证券-计算机行业 AIGC 系列报告(五):大模型多模态应用深化,AI Agent 为应用普及提速2.东方证券-计算机行业深度报告:AI Agent,基于大模型的自主智能体,在探索 AGI 的道路上前进3.东吴证券-互联网传媒行业:AI 时代新起点,寻新投资方向(三),AI Agent,大模型时代重要落地方向4.中信建投-人工智能行业:AI 下半场,应用落地,赋能百业5.银河证券-拓尔思-300229-“拓天大模型”发布,MaaS 服务未来需求广阔6.东吴证券-彩讯股份-300634-国产邮箱领军者,AI、信创铸就新机遇7.招商证券-金山办公-688111-C 端改革筑基长远,AI 赋能增量可期8.方正证券-南兴股份-002757-公司深度报告:联合微软打造 AIGC 智能助手,IDC 及云业务亟待重估免责声明:以上内容仅供学习交流,不构成投资建议。