上海私人会所充5万(爱上海,上海楼凤论坛)

《百度-美股公司研究报告-大模型研究笔记（三）-230621（29页）.pdf》由会员分享，可在线阅读，更多相关《百度-美股公司研究报告-大模型研究笔记（三）-230621（29页）.pdf（29页珍藏版）》请在三个皮匠报告上搜索。

1、本报告由中信建投证券股份有限公司在中华人民共和国（仅为本报告目的，不包括香港、澳门、台湾）提供。在遵守适用的法律法规情况下，本报告亦可能由中信建投（国际）证券有限公司在香港提供。同时请务必阅读正文之后的免责条款和声明。证券研究报告证券研究报告美股公司深度美股公司深度软件与服务软件与服务百度：大模型研究笔记（三）百度：大模型研究笔记（三）核心观点核心观点大模型规模竞赛强度有望下降，精益优化可能成为主要方向，如数据清洗、初始化策略、大批量训练等。另一方面，推理部署环节的优化进度较快，主要思路包括调整模型架构实现计算并行度提升，或通过捕捉参数结构实现混合精度推理，降低计算复杂度。这些技术演进有望大幅

2、降低大模型产品的部署、应用门槛，打开to C 产品的想象空间。我们认为中长期 AI 领域具备广阔前景，看好百度在 AIGC 领域的布局和先发优势。大模型研究笔记（三）大模型研究笔记（三）模型结构方面模型结构方面，Meta 研究团队于 2023 年 5 月提出 Megabyte，基于对 Transformer 架构做出改进：Transformer 架构是以 token 为基本单位的，而 token 形式的目的是将输入数据转换成计算机可以处理的形式，但 token 与单词并非一一对应，这等于带来额外的分词成本。Megabyte 对模型处理的基础单元做出修改，从 token改为 patch，此外引入

3、局部模块预测 patch 内文本序列，相当于引入二次注意力机制，最终实现计算成本降低、速度提升。预训练环节预训练环节，现有超大参数模型部署端侧时受限于终端计算资源和功耗，需要小、低延迟和低能耗的神经网络模型，从而节省成本。混合精度训练是把 FP32 表示的权重、参数和激活值用 FP16、INT8、INT4 重新表示，并且通过浮点数转定点数将连续的数值映射为离散化的数值，从而加快训练速度和降低存储占用。最新的进展来自 ETH 的 SpQR，将剪枝思想迁移至推理环节的混合精度，在 1%的性能损失下大幅提升推理效率。下游调试方面下游调试方面，1 1）A Alignmentlignment 环节的数据

4、质量和多样性可能比数环节的数据质量和多样性可能比数量重要量重要。Meta 研究团队提出 Alignment 实质是模型在预训练阶段学习知识，在 Alignment 阶段学习人类交互形式。研究团队通过控制变量比较了数据质量、规模对 Alignment 后模型性能的影响，发现数据质量对性能影响显著，数量影响则不显著；2）PrompPrompt t环节环节 T ToToT 提升提升 L LLMLM 解决复杂问题的能力。解决复杂问题的能力。Google DeepMind 等团队于 2023 年 5 月提出 Tree-of-thoughts（ToT）。ToT 则是借鉴人类思考的思维树范式，相比于 CoT

5、，ToT 增加了对问题的分解和评估，实现模型解决复杂问题的表现提升。维持维持买入买入崔世峰SAC 编号:s04许悦SAC 编号:s01发布日期：2023 年 06 月 21 日当前股价：143.52美元/142.70 港元目标价格 6 个月：173美元/169 港元主要数据主要数据股票价格绝对股票价格绝对/相对市场表现（相对市场表现（%）1 个月3 个月12 个月13.71/3.009.02/-10.700.20/-23.1412 月最高/最低价（美元）160.22/76.57总股本（万股）34,959.72流通股本（万股）27,751.54总市值（

6、亿美元）507.30流通市值（亿美元）507.30近 3 月日均成交量（万）297.81主要股东Robin Yanhong Li16.30%股价表现股价表现相关研究报告相关研究报告百度百度(BIDU.O)(BIDU.O)/百度集团百度集团-SW-SW（9888.HK9888.HK）美股公司深度报告百度百度请务必阅读正文之后的免责条款和声明。3 3）R RLHLHF F 环节环节，引入过程监引入过程监督督 R RMM 提升面向复杂问题的解决能力提升面向复杂问题的解决能力。2023 年 5 月 OpenAI 团队提出 Lets VerifyStep by Step，主要解决 CoT 下过程缺乏监督

7、导致结果准确率不高的问题。因此，其在每一个步骤中引入 RM，即过程监督 RM 模型，并预测每个步骤之后的 token，最大化目标 token 的对数似然，实验表明性能提升明显。推理方面，推理方面，C CMUMU CatalystCatalyst GroupGroup 于于 2 2023023 年年 5 5 月提出月提出 SpecInferSpecInfer 推理引擎，较传统推理效率提升推理引擎，较传统推理效率提升 2 2.8.8x x。LLM自回归式解码存在 1）并行计算利用率低；2）显存占用大等问题。CMU 研究团队的解决思路是引入计算代价更小的 SSM 替代 LLM 进行推理，且一次进行多

8、步推理，再由 LLM 进行验证，整体来看通过提升计算并行度实现推理效率提升。另一种思路来自混合精度推理，另一种思路来自混合精度推理，ETHETH Z Zurichurich 等机构的研究团队于等机构的研究团队于 2 2023023 年年 6 6 月提出月提出 SpQRSpQR。混合精度推理的难点主要在于 Transformer 模型序列生成过程中的错误会逐步累加。面对这一问题，研究团队的思路 1）大模型的参数之间并非随机分布，而是存在特定结构的；2）研究团队对量化过程进行两个改变：一个用于捕捉小的敏感权重组，另一个用于捕捉单个的异常值。通过对敏感权重和异常值保留高精度，而其他参数降低精度，模型

9、输出性能损失较原模型在可控范围，且推理的成本和效率大幅优化。基于大模型研究笔记（一）、（二）与本篇报告，我们认为 1）模型数据集、训练量的优化是重要方向；2）初始化策略、加速优化器能够在小批量训练集中优化模型性能，大批量训练目前研究的上限是 32K，这与训练速度存在权衡取舍；3）下游调试中如 PET 等方法短期见效快，但在复杂问题的解决能力方面提升并不明显，模仿学习可能并不是一条高效路径。另一方面，引入人工标注辅助过程监督，这对效果提升显著，未来再通过AI 模拟人类的过程监督，这条技术路径具备较好前景；4）推理部署环节的优化进度较快，主要思路包括调整模型架构实现计算并行度提升，或通过捕捉参数结

10、构实现混合精度推理，降低计算复杂度。这些技术演进有望大幅降低大模型产品的部署、应用门槛，打开 to C 产品的想象空间；5）部分模型能力如 Context Window 来自底层硬件约束，未来软硬一体可能是关键壁垒，对 LLM 厂商的全栈实力提出较高要求。另一方面，对于全栈布局不足的厂商，开源大模型构建繁荣开发者生态也是一条可选路径，海外的开源社区迭代较快，能够推动 LLaMA拉近与 GPT-4 的差距。投资建议：投资建议：百度搜索广告业务预计受益经济复苏，且效果广告受益序列较品牌广告媒介更优先，信息流广告则受益展现形式的效率继续驱动广告业务增长。云业务随着疫后回归常态，项目交付、新签订单逐步

11、兑现，向上复苏趋势明确。ERNIE BOT 方面，短期商业化前景尚不清晰，但可作为 Option 机会，我们认为中长期 AIGC方向是AI领域具备广阔应用场景且有希望构建合适商业模式的机会，看好百度在AIGC领域的布局和先发优势。维持对百度集团的“买入”评级。美股公司深度报告百度百度请务必阅读正文之后的免责条款和声明。目录目录1.模型结构：Meta 提出 Megabyte，优化计算成本与推理效率.12.预训练：混合精度训练降低训练开销，提升整体效率.22.1 混合精度训练：混合精度训练降低训练开销.23.下游调试：对 PET 的反思以及引入过程监督 RM 强化复杂问题解决能力.53.1 Ali

12、gnment（对齐）.73.2 Prompt Engineering.73.3 RLHF：OpenAI 再度引入人工标注建模过程 RM，实现问题解决能力提升.114.推理：并行度提升与计算复杂度降低推动推理效率提升.135.行业应用：游戏 NPC 智能化提升，text-to-3D 模型有所突破.17估值.22投资评价和建议.22风险分析.23图目录图 1:Megabyte 的模型架构（patch size=4）.1图 2:Megabyte 在不同模型大小与序列长度下的计算资源消耗量低于 Transformer、Linear 等模型.1图 3:Megabyte 在不同数据集中语言建模困惑度优于其

13、他模型（单位：bits-per-byte）.1图 4:Megabyte 在不同数据集中图像建模困惑度优于其他模型（单位：bits-per-byte）.1图 5:Megabyte 相比 Transformer 模型生成速度大幅优化.2图 6:Megabyte 架构下不同 patch size 与 Global/Local Size 下模型性能变化.2图 7:理论上不同位宽对吞吐、带宽等的差异.2图 8:AMP 方法中模型每层的混合精度训练方法.3图 9:混合精度模型每层位宽的精确度优于 INT8.3图 10:硬件感知的自动混合精度量化系统（HAQ）技术框架.4图 11:HAQ 将延迟减少 1.4

14、-1.95 倍，能耗减少 1.9 倍，精度损失可忽略不计.4图 12:在不同的量化技术中，BitPruning 表现出略优的精确度.5图 13:人类评估（左图）与 NLP 评估（中图）侧重点不同，规模扩大缩窄模仿学习模型与 ChatGPT 的差距（右图）.5图 14:模仿学习数据扩展对性能影响有限（左图），但模型参数扩展对性能提升帮助较大（中图），Localimitation model 效果显著（右图）.6图 15:提升模仿学习数据与语言模型参数规模对性能的影响有所差异.6图 16:LIMA 在人类偏好测试上较其他模型的比较结果.7图 17:LIMA 在 GPT-4 测试上较其他模型的比较结

15、果.7图 18:质量过滤后模型性能显著提升.7图 19:数据集规模扩大后 Alignment 后模型性能无显著提升.7图 20:ToT 与 IO、CoT、CoT-SC 等推理范式的对比.8图 21:IO、CoT、CoT-SC、ToT 在 24 点游戏中的成功率.8图 22:创意写作（左图）、迷你纵横填字游戏（右表）任务下 IO、CoT、ToT 表现对比.9 美股公司深度报告百度百度请务必阅读正文之后的免责条款和声明。图 23:LATM 的思路是通过 LLM 生成工具并后续复用.9图 24:LATM 在工具制作环节的工作流程.10图 25:批任务下引入 Dispatcher 区分目标.10图 2

16、6:LATM 下 GPT-3.5 Turbo 性能接近 GPT-4，且成本具备较大优势.11图 27:过程监督 RM 效果优于结果监督 RM.11图 28:基于不同 RM 调优下模型性能对比.11图 29:过程监督需要引入人工标注.12图 30:过程监督 RM 可以识别文本中的错误步骤.12图 31:在分布外数据集的测试上过程监督 RM 表现仍然优于结果监督 RM.12图 32:增量解码推理（左），投机式推理与增量解码推理对比（右）.13图 33:可学习的推测器（上）与输出验证器（下）.13图 34:Collective Boost-Tuning 方法.14图 35:树状验证器示意图.14图

17、36:SpecInfer 与 Incremental Decoding 的推理延迟比较.15图 37:随着 SSM 数量提升，LLM 的验证通过长度会提升.15图 38:LLaMA 65B 最后一层输出投影.15图 39:SpQR 总体架构包括 1）用于捕捉小敏感权重组；2）用于捕捉单个的异常值.16图 40:不同精度技术下 LLaMA 模型的困惑度.16图 41:不同精度技术下 LLaMA 模型的预测准确度.16图 42:在 65B 参数规模的 LLaMA 模型下，SpQR 实现 1%的性能损失下平均精度缩小 3.4 倍.16图 43:FP16、SpQR（PyTorch）、SpQR（opti

18、mized）算法下 LLaMA 模型的推理速度（tokens/s）.17图 44:英伟达等研究团队提出 VOYAGER，具备 1）LLM 驱动；2）终身学习能力；3）较此前 SOTA 明显提升.17图 45:VOYAGER 由自动课程学习、迭代提示机制、技能库、环境反馈等组成.18图 46:VOYAGER 的自动课程实质是将游戏信号转化为文本 prompt 输入 GPT-4.18图 47:VOYAGER 技能库.19图 48:VOYAGER 的环境反馈/错误纠偏机制.19图 49:VOYAGER 自我验证机制.20图 50:技能库、环境反馈、自我验证、错误纠正等对 VOYAGER 探索能力的影

19、响.20图 51:ACE End-to-End Development Suite.21图 52:GITM 相比 RL 在目标分解、行动规划、指令执行引入 LLM 实现优化.21图 53:GITM 的工作流程.22 1美股公司深度报告百度百度请务必阅读正文之后的免责条款和声明。1 1.模型结构：模型结构：MMetaeta 提出提出 MegabyteMegabyte，优化计算成本与推理效率，优化计算成本与推理效率MMegabyteegabyte 的改进来自对的改进来自对 tokenizationtokenization 的思考。的思考。Meta 研究团队于 2023 年 5 月提出 Megaby

20、te，其长度延展性和处理速度显著高于 Transformer 架构模型。Megabyte 是基于对 Transformer 架构的以下思考而做出改进的Transformer 架构模型是以 token 为基本单位的1，而 token 形式的目的是将输入数据转换成计算机可以处理的形式，但 token 与单词并非一一对应，这等于带来了额外的分词成本。Megabyte 对模型处理的基础单元做出修改，从 token 改为 patch，此外引入局部模块预测 patch 内的文本序列，相当于引入二次注意力机制。图图 1 1:MMegabyteegabyte 的模型架构（的模型架构（patchpatch si

21、zesize=4=4）图图 2 2:MegabyteMegabyte 在不同模型大小与序列长度下的计算资源消在不同模型大小与序列长度下的计算资源消耗量低于耗量低于 TransformerTransformer、LinearLinear 等模型等模型数据来源：MEGABYTE:Predicting Million-byte Sequences withMultiscale Transformers，中信建投数据来源：MEGABYTE:Predicting Million-byte Sequences withMultiscale Transformers，中信建投二次注意力机制大幅简化计算复杂度

22、。二次注意力机制大幅简化计算复杂度。据 Meta AI 研究团队，大多数任务的预测都比较简单，也就是没有必要做全局注意力计算，因而二次注意力机制降低了计算复杂度。另外，更大的 patch 降低前馈层计算资源的消耗。GPT-3 类似规模下的模型 98%的计算资源都用于计算 position-wise2前馈层。最后，引入 patch 内预测提升了计算的并行度，提升计算资源的利用率。图图 3 3:M:Megabyteegabyte 在不同数据集中语言建模困惑度优于其他模在不同数据集中语言建模困惑度优于其他模型（单位：型（单位：bitsbits-perper-bytebyte）图图 4 4:M:Meg

23、abyteegabyte 在不同数据集中图像建模困惑度优于其他模在不同数据集中图像建模困惑度优于其他模型（单位：型（单位：bitsbits-perper-bytebyte）数据来源：MEGABYTE:Predicting Million-byte Sequences withMultiscale Transformers，中信建投数据来源：MEGABYTE:Predicting Million-byte Sequences withMultiscale Transformers，中信建投1机器学习的本质是把复杂问题转化为数学问题，而 NLP 通过 token 也是将非结构化数据转化为结构化数据

24、，而分词就是转化的第一步。2FFN 层是每个 position 进行相同且独立的操作，所以叫 position-wise。2美股公司深度报告百度百度请务必阅读正文之后的免责条款和声明。图图 5 5:M:Megabyteegabyte 相比相比 TransformerTransformer 模型生成速度大幅优化模型生成速度大幅优化图图 6 6:M:Megabyteegabyte 架构下不同架构下不同 patchpatch sizesize 与与 GlobalGlobal/L/Localocal S Sizeize 下下模型性能变化模型性能变化数据来源：MEGABYTE:Predicting Mi

25、llion-byte Sequences withMultiscale Transformers，中信建投数据来源：MEGABYTE:Predicting Million-byte Sequences withMultiscale Transformers，中信建投2 2.预训练：混合精度训练降低训练开销，提升整体效率预训练：混合精度训练降低训练开销，提升整体效率2 2.1.1 混合精度训练：混合精度训练降低训练开销混合精度训练：混合精度训练降低训练开销量化通过压缩模型帮助超大参数模型训练和部署于终端。量化通过压缩模型帮助超大参数模型训练和部署于终端。现有超大参数模型部署端侧时受限于终端计算资

26、源和功耗，需要小、低延迟和低能耗的神经网络模型，从而节省成本。量化训练即是把高位宽（FP32）表示的权重、参数和激活值用低位宽（FP16、INT8、INT4）重新表示，并且通过浮点数转定点数将连续的数值映射为离散化的数值。目前全精度浮点（FP32）是训练神经网络采用的最标准的方法，量化训练可以减少模型大小（比如 INT8 比 FP32 位宽减少 1/4）、加快训练速度和降低访存，但同时也带来模型精度丢失的问题。图图 7 7:理论上不同位宽对吞吐、带宽等的差异理论上不同位宽对吞吐、带宽等的差异数据来源：Integer Quantization for Deep Learning Inferenc

27、e Principles and Empirical Evaluation，中信建投量化训练领域的研究目标为如何更小的压缩模型并最好的保持原有精度。量化训练领域的研究目标为如何更小的压缩模型并最好的保持原有精度。首先仅将权重、参数和激活值调整为低位宽和定点数会导致精度损失，比如 FP16 会使 2?24以下的数据变为 0，影响模型效果。为解决该问题，2018 年百度和英伟达联合提出3提出 AMP（automatic mixed-precision，混合精度训练）方法，即训练过程中将每层权重存为 FP32，每次训练时将 FP32 的权重降至 FP16，前向输出和后向梯度均使用 FP16 进行计算

28、，更新时将 FP16 的梯度累加至 FP32。模型实现在语音识别、图像分类、物体检测、机器翻译、语言模型等领域实现的准确率等同或略高于 FP32。3Mixed precision training。3美股公司深度报告百度百度请务必阅读正文之后的免责条款和声明。图图 8 8:AMP:AMP 方法中模型每层的混合精度训练方法方法中模型每层的混合精度训练方法数据来源：Mixed precision training，中信建投上述模型量化方法为固定模型每层的权重、激活值的比特值，但是不同层重要程度、冗余度、敏感度和硬上述模型量化方法为固定模型每层的权重、激活值的比特值，但是不同层重要程度、冗余度、敏感

29、度和硬件表现均不同件表现均不同，对模型每层固定相同的位宽并非最优方法对模型每层固定相同的位宽并非最优方法。因此，后续研究提出了混合精度量化，即通过自动/手动的方式分配模型不同层的权重和激活值的位宽，使得模型在精度和硬件指标中取得组合优化平衡。图图 9 9:混合精度模型每层位宽的精确度优于混合精度模型每层位宽的精确度优于 INT8INT8数据来源：Hardware-Aware Automated Quantization with Mixed Precision，中信建投现有自动分配分配模型不同层的权重和激活值的位宽的研究方法为现有自动分配分配模型不同层的权重和激活值的位宽的研究方法为 1 1）

30、转化为搜索问题转化为搜索问题 2 2）位宽作为变量引位宽作为变量引入学习入学习。转化为搜索问题的方法包括 NAS 神经框架搜索技术和利用 RL 强化学习。2018 年 UCB 和 Meta 将 NAS（Neural architecture search）引入混合精度量化4，利用可微分 NAS 的搜索方法来搜索位宽，将目标整合为搜索空间上的可微函数。2019 年 MIT 团队发表5将量化建模为强化学习问题，并进行自动搜索量化策略，结合硬件仿真器反馈的硬件指标（延迟，能耗和模型尺寸）约束搜索，最终确定最佳的位宽分配策略。该模型有效地将延迟减少了 1.4-1.95 倍，能耗减少了 1.9 倍，并且

31、精度损失可忽略不计。4Mixed Precision Quantization of ConvNets via Differentiable Neural Architecture Search。5Hardware-AwareAutomated Quantization with Mixed Precision。4美股公司深度报告百度百度请务必阅读正文之后的免责条款和声明。图图 1010:硬件感知的自动混合精度量化系统（硬件感知的自动混合精度量化系统（HAQHAQ）技术框架）技术框架数据来源：Hardware-Aware Automated Quantization with Mixed Pr

32、ecision，中信建投图图 1111:H HAQAQ 将延迟减少将延迟减少 1.4-1.951.4-1.95 倍，能耗减少倍，能耗减少 1.91.9 倍，精度损失可忽略不计倍，精度损失可忽略不计数据来源：Hardware-Aware Automated Quantization with Mixed Precision，中信建投利用 NAS 和强化学习自动选择量化策略时存在三个问题 1）每次进行新的位宽选择时，需要重新估计精确度 2）不同数据类型和神经网络的搜索空间呈指数性增长，需要大量的计算资源 3）自动搜索为节省搜索时间，可能会跳过不常规位宽的搜寻，导致量化策略选择次优。为减少自动搜索的

33、时间和空间，现有研究通过 1）将目标空间转化为可微空间 2）搜索组卷积层 3）改变模型评估指标等细化方向优化自动分配位宽的速度，提高模型搜索效率。比如，2020 年 AutoQB 引入了深度强化学习6，将每个卷积层转化为二值化权重的若干组卷积层，并利用进化搜索探索组卷积层的数量，来自动探索细粒度的量化空间。HWAQ 和 HWAQ-V27采用二阶矩阵计算权重/激活的 Hessian 特征值，计算不同层的敏感性设计混合精度策略。将位宽作为变量引入学习为解决 NAS 和 RL 的搜索方法难以有效的实现精确的量化方案的问题。2020 年Yoshua Bengio 等人8在自动学习中将位宽作为变量引入，

34、并且利用插值解决量化后非连续的问题。在不同的量化技术中，BitPruning 表现出略优的精确度。2021 年杜克大学杨幻睿发表的Bsq:Exploring bit-level sparsity formixed-precision neural network quantization提出 BSQ9提出了位级稀疏量化（BSQ），将每一位量化权值视为一个独立的可训练变量解决混合精度量化问题。后续的研究路径将继续沿着如何有效的探索庞大的搜索空间并且寻找最优的量化方案的路径进行，比如优6Autoqb:Automl for network quantization and binarization

35、on mobile devices。7HAWQ-V2:hessian aware trace-weighted quantization of neural networks。8BitPruning:Learning Bitlengths for Aggressive and Accurate Quantization。9Bsq:Exploring bit-level sparsity for mixed-precision neural network quantization。5美股公司深度报告百度百度请务必阅读正文之后的免责条款和声明。化自动学习更优的量化策略、离散空间的连续化的方法、利

36、用更小的位宽数依然保持原有精度和模型稳定程度等方向路径，并且对于硬件的支持提出了更高的要求。图图 1212:在不同的量化技术中在不同的量化技术中，B Bit itPruningPruning 表现出略优的精确度表现出略优的精确度数据来源：BitPruning:Learning Bitlengths for Aggressive and Accurate Quantization，中信建投3 3.下游调试：对下游调试：对 PETPET 的反思以及引入过程监督的反思以及引入过程监督 R RMM 强化复杂问题解强化复杂问题解决能力决能力UCB 研究团队于 2023 年 5 月发表 The False

37、 Promise of Imitating Proprietary LLMs，回应近期兴起的 Alpaca等模型基于 GPT-4 回答作为训练数据集的浪潮（或者说模仿学习）。图图 1313:人类评估（左图）与人类评估（左图）与 N NLPLP 评估（中图）侧重点不同，规模扩大缩窄模仿学习模型与评估（中图）侧重点不同，规模扩大缩窄模仿学习模型与 ChatChatGPTGPT 的差距（右图）的差距（右图）数据来源：The False Promise of Imitating Proprietary LLMs，中信建投对比上图中的左图与中图，研究团队通过实验表明人类评估在性能接近的情况下很难辨析模型

38、区别，这种情况下只能依赖 NLP benchmark 测试。而另一方面，增加模仿学习数据并没有本质上提升模型性能，相反提升模型参数规模则有更大幅度的优化。更进一步地，研究团队区分了 local imitation data 和 broad imitation data，前者聚焦特定任务，但发现提升模仿学习数据的多样性对缩窄模仿学习模型与原模型的性能差距没有帮助，而 localimitation model 学习 chatgpt 特定领域的能力则效果明显。6美股公司深度报告百度百度请务必阅读正文之后的免责条款和声明。图图 1414:模仿学习数据扩展对性能影响有限（左图），但模型参数扩展对性能提升

39、帮助较大（中图），模仿学习数据扩展对性能影响有限（左图），但模型参数扩展对性能提升帮助较大（中图），LocalLocal imitationimitation modemodel l效果显著（右图）效果显著（右图）数据来源：The False Promise of Imitating Proprietary LLMs，中信建投注：ShareGPT-Mix 数据多样性较强，为 Broad imitation data 的代理指标，NQ-Synthetic 为 local imitation data 的代理指标。NQ 为在 naturalquestion 数据集上的测试分数，越高越好。图图 15

40、15:提升模仿学习数据与语言模型参数规模对性能的影响有所差异提升模仿学习数据与语言模型参数规模对性能的影响有所差异数据来源：The False Promise of Imitating Proprietary LLMs，中信建投总体而言，UCB 研究团队通过分析得出以下结论：1）适量的 finetuning 对于模型知识/能力的提升几乎没有帮助，模型的主要能力来自预训练环节，finetune 更多是将模型能力展现出来（更符合人类的交互逻辑和方式）。这一结论间接表明 base model 的重要性，预训练模型决定了长期模型性能的上限，后期的提升可能需要非常大量的数据和额外的处理（可能意味着高昂的

41、成本且效果并不确定）；2）基于大规模数据集、计算资源和优化算法训练的大模型壁垒更稳固，基于 finetune 数据集取得领先的大模型可能壁垒并不深厚。这一结论间接提示，如果两个模型在预训练环节的数据集、算法等方面差异不大，后续优化过程中其中一家可以通过模仿学习的方式以低成本拉近和对手的差距。7美股公司深度报告百度百度请务必阅读正文之后的免责条款和声明。3 3.1.1 AlignmentAlignment（对齐）（对齐）A Alignmenlignment t环节的数据质量和多样性可能比数量重要环节的数据质量和多样性可能比数量重要。Meta研究团队于2023年5月发表 LIMA:Less Is

42、Morefor Alignment，提出 Alignment 实质是模型学习与人类交互形式的假设，即模型在预训练阶段学习知识，在Alignment 阶段学习展现知识形式（人类交互）。为测试这一假设，研究团队选取了 750 个高质量问答（来自Stack Exchange，wikiHow 等论坛），并人工编写了 250 个问答，这 1000 个训练数据集保持了多元化和形式上的统一性。团队将 65B LLaMA 模型在该数据集上进行参数微调，并将调整后的模型与 GPT-4、Claude、BARD、Davinci003、Alpaca 65B 进行对比，实验结果表明 LIMA 在人类测试和 GPT-4

43、测试上超过 50%的情况下不弱于BARD、Davinci003、Alpaca 65B，30%50%的情况不弱于 Claude 和 GPT-4。图图 1616:LIMA:LIMA 在人类偏好测试上较其他模型的比较结果在人类偏好测试上较其他模型的比较结果图图 1717:LIMA:LIMA 在在 G GPT-4PT-4 测试上较其他模型的比较结果测试上较其他模型的比较结果数据来源：LIMA:Less Is More for Alignment，中信建投数据来源：LIMA:Less Is More for Alignment，中信建投研究团队通过控制变量比较了数据质量、规模对 Alignment 后模

44、型性能的影响，发现数据质量对性能影响显著，数量影响则不显著。图图 1818:质量过滤后模型性能显著提升质量过滤后模型性能显著提升图图 1919:数据集规模扩大后数据集规模扩大后 AlignmentAlignment 后模型性能无显著提升后模型性能无显著提升数据来源：LIMA:Less Is More for Alignment，中信建投数据来源：LIMA:Less Is More for Alignment，中信建投3.23.2 P Promptrompt E Engineeringngineering 8美股公司深度报告百度百度请务必阅读正文之后的免责条款和声明。T ToToT 新范式提升新

45、范式提升 L LLMLM 解决复杂问题的能力。解决复杂问题的能力。Google DeepMind 和普林斯顿大学研究团队于 2023 年 5 月提出 Tree-of-thoughts（ToT）10。LLM 在面对复杂问题时，运用 CoT 范式容易出现某一环节出现错误导致后续环节持续犯错的现象，ToT 则是借鉴人类思考的思维树范式，相比于 CoT，ToT 增加了对问题的分解和评估。研究团队通过 24 点游戏、创意写作、迷你纵横填字游戏比较 IO、CoT、CoT-SC、ToT 下模型表现，实验表明 ToT在上述任务中表现均优于 IO、CoT、CoT-SC。总体来看，ToT 进一步模仿人类思考范式，

46、并实现了模型分解问题，路径评估及决策等优化，最终实现解决问题能力提升，这一范式可能在下游行业应用中逐步推广开来。图图 2020:T:ToToT 与与 I IO O、CoCoT T、CoCoT-SCT-SC 等推理范式的对比等推理范式的对比数据来源：Tree of Thoughts:Deliberate Problem Solving with Large Language Models，中信建投图图 2121:IO:IO、CoTCoT、CoTCoT-SC-SC、ToTToT 在在 2 24 4 点游戏中的成功率点游戏中的成功率数据来源：Tree of Thoughts:Deliberate P

47、roblem Solving with Large Language Models，中信建投10Tree of Thoughts:Deliberate Problem Solving with Large Language Models。9美股公司深度报告百度百度请务必阅读正文之后的免责条款和声明。图图 2222:创意写作（左图）、迷你纵横填字游戏（右表）任务下创意写作（左图）、迷你纵横填字游戏（右表）任务下 I IO O、CoTCoT、ToTToT 表现对比表现对比数据来源：Tree of Thoughts:Deliberate Problem Solving with Large Lang

48、uage Models，中信建投引入工具实现问题解决能力提升引入工具实现问题解决能力提升，同时兼顾效率优化同时兼顾效率优化。Google DeepMind、普林斯顿大学和斯坦福大学研究团队于 2023 年 5 月提出 LATM（LLMs As Tool Maker），主要包括 1）工具制作；2）工具使用，每个阶段都利用不同类型的大语言模型（LLM）来平衡性能和成本效率，其中工具制作阶段采用 GPT-4 等性能更强但成本更高的模型，工具使用阶段采用 GPT-3.5 turbo 等成本更低且推理速度更快的模型。图图 2323:LATM:LATM 的思路是通过的思路是通过 L LLMLM 生成工具并

49、后续复用生成工具并后续复用数据来源：Large Language Models as Tool Makers，中信建投 10美股公司深度报告百度百度请务必阅读正文之后的免责条款和声明。图图 2424:LATM:LATM 在工具制作环节的工作流程在工具制作环节的工作流程数据来源：Large Language Models as Tool Makers，中信建投具体来看，在工具制造环节在工具制造环节，研究团队通过 GPT-4 生成一个 Python 函数，用以解决给定任务。该过程遵循 Programing by example（Pbe）范式，如果提出的工具无法执行或者遇到错误，研究团队会将错误信息

50、附加到历史记录中并进行另一次尝试。在工具验证环节在工具验证环节，研究团队进行单元测试（unit tests）验证工具。如果工具未能通过测试，研究团队会在历史记录中记录错误，并尝试在单元测试中纠正问题（此过程只会纠正单元测试部分的函数调用，而不会纠正功能）。在工具封装环节，在工具封装环节，该步骤涉及封装函数代码，并演示如何将一个任务转换为函数调用。研究团队进一步考虑现实场景研究团队进一步考虑现实场景，引入引入 DispatcherDispatcher 处理批量数据处理批量数据。考虑批量数据/任务下，LLM 可能面临一些新任务或已有工具无法完成新任务，因此研究团队引入 Dispatcher（LLM

51、）对任务进行识别分配，确定新任务后让 LLM 制作新工具以满足需求，反之则运用已有的工具。图图 2525:批任务下引入批任务下引入 DispatcherDispatcher 区分目标区分目标数据来源：Large Language Models as Tool Makers，中信建投 11美股公司深度报告百度百度请务必阅读正文之后的免责条款和声明。图图 2626:LATM:LATM 下下 G GPT-3.5PT-3.5 T Turbourbo 性能接近性能接近 G GPT-4PT-4，且成本具备较大优势，且成本具备较大优势数据来源：Large Language Models as Tool Ma

52、kers，中信建投3 3.3.3 R RLHFLHF：OpenAIOpenAI 再度引入人工标注建模过程再度引入人工标注建模过程 R RMM，实现问题解决能力提升，实现问题解决能力提升引入过程监引入过程监督督 R RMM 提升面向复杂问题的解决能力提升面向复杂问题的解决能力。2023 年 5 月 OpenAI 团队提出 Lets Verify Step by Step，主要解决 CoT 下过程缺乏监督导致结果准确率不高的问题。因此，其在每一个步骤中引入 RM，即过程监督 RM模型，并预测每个步骤之后的 token，最大化目标 token 的对数似然，实验表明性能提升明显。图图 2727:过程监

53、督过程监督 R RMM 效果优于结果监督效果优于结果监督 R RMM图图 2828:基于不同基于不同 RMRM 调优下模型性能对比调优下模型性能对比数据来源：Lets Verify Step by Step，中信建投数据来源：Lets Verify Step by Step，中信建投 12美股公司深度报告百度百度请务必阅读正文之后的免责条款和声明。图图 2929:过程监督需要引入人工标注过程监督需要引入人工标注数据来源：Lets Verify Step by Step，中信建投图图 3030:过程监督过程监督 R RMM 可以识别文本中的错误步骤可以识别文本中的错误步骤数据来源：Lets Ve

54、rify Step by Step，中信建投注：绿色背景表示 PRM 得分高，红色背景表示 PRM 得分低。过程监督 RM 可以正确识别错误解决方案中的错误。图图 3131:在分布外数据集的测试上过程监督在分布外数据集的测试上过程监督 R RMM 表现仍然优于结果监督表现仍然优于结果监督 R RMM数据来源：Lets Verify Step by Step，中信建投 13美股公司深度报告百度百度请务必阅读正文之后的免责条款和声明。4 4.推理：并行度提升与计算复杂度降低推动推理效率提升推理：并行度提升与计算复杂度降低推动推理效率提升C CMUMU CatalystCatalyst GroupG

55、roup 于于 2 2023023 年年 5 5 月提出月提出 SpecInferSpecInfer 推理引擎推理引擎，较传统推理效率提升较传统推理效率提升 2 2.8.8x x。LLM 推理的主流范式仍然是自回归式（auto-regressive）的解码（decoding），每一次解码只产生下一个输出 token，而且需要将历史输出内容拼接后重新作为 LLM 的输入。这种推理范式存在 1）并行计算利用率低；2）显存占用大等问题。CMU 研究团队的解决思路是引入计算代价更小的 SSM（Small Speculative Model）替代 LLM 进行投机式推理，并且一次进行多步推理，再由 LL

56、M 进行验证，整体来看通过提升计算并行度实现推理效率提升。图图 3232:增量解码推理（左），投机式推理与增量解码推理对比（右）增量解码推理（左），投机式推理与增量解码推理对比（右）数据来源：SpecInfer:Accelerating Generative LLM Serving with Speculative Inference and Token Tree Verification，中信建投SpecInfer 推理引擎具体包括可学习推测器（Learning-based Speculator）与输出验证器（Token Tree Verifier）。Speculator 主要是利用 SSM

57、快速推理，并尽可能靠近 LLM 的生成结果。因此 SSM 一般选用 LLM 的轻量级，例如 LLaMA 7B 或者蒸馏后的 GPT-4。在 Speculator 方面，不同序列的预测难度有所差异，因此采取固定Speculator 可能导致性能并非最优。研究团队采取 Collective Boost-Tuning 方法，即同时采取多个 Speculator，避免单一 Speculator 可能存在的“偏科”情况，同时引入可学习的调度器（a learning-based speculative scheduler）决定不同场景选用特定 SSM 以匹配序列长度。图图 3333:可学习的推测器（上）

58、与输出验证器（下）可学习的推测器（上）与输出验证器（下）数据来源：SpecInfer:Accelerating Generative LLM Serving with Speculative Inference and Token Tree Verification，中信建投 14美股公司深度报告百度百度请务必阅读正文之后的免责条款和声明。Collective Boost-Tuning 即在一个公开数据集上，从较弱的 SSM 开始进行微调，将匹配程度较低的序列过滤筛选出去，交由较强的 SSM 来微调，从而提高推理准确度。图图 3434:CollectiveCollective Boost-Tu

59、ningBoost-Tuning 方法方法数据来源：SpecInfer:Accelerating Generative LLM Serving with Speculative Inference and Token Tree Verification，中信建投输出验证器（Token Tree Verifier）主要引入了树状解码，相比序列解码和单 token 解码，树状解码方式能够提升并行计算效率，同时不增加额外的存储占用。图图 3535:树状验证器示意图树状验证器示意图数据来源：SpecInfer:Accelerating Generative LLM Serving with Specu

60、lative Inference and Token Tree Verification，中信建投SpecInfer 相比 Incremental Decoding，在五个不同数据集上推理延迟缩短了 1.91-2.75 倍。且随着 SSM 数量提升，模型生成 token 的长度总体也是增长的，也就意味着模型越来越倾向于形成长回答。15美股公司深度报告百度百度请务必阅读正文之后的免责条款和声明。图图 3636:S:SpecpecI Infernfer 与与 IncrementalIncremental D Decodingecoding 的推理延迟比较的推理延迟比较图图 3737:随着随着 S

61、SSMSM 数量提升，数量提升，LLMLLM 的验证通过长度会提升的验证通过长度会提升数据来源：SpecInfer:Accelerating Generative LLM Serving withSpeculative Inference and Token Tree Verification，中信建投注：CIP，CP，WebQA，Alpaca，PIQA 是不同数据集。数据来源：SpecInfer:Accelerating Generative LLM Serving withSpeculative Inference and Token Tree Verification，中信建投华盛顿大学

62、和苏黎世联邦理工（ETH Zurich）等机构的研究团队于 2023 年 6 月提出 SpQR（推理端的混合精度技术）。过往的研究11表明，混合精度推理的难点主要在于 Transformer 架构模型的生成是序列式的，即后一个 token 输出是以此前 token 作为输入的，因此序列生成过程中的错误会逐步累加，低精度推理在长序列生成过程的错误会逐步放大，乃至于明显影响效果。面对这一问题，解决思路主要有两种，1）调整 transformer 架构的序列生成模式，阻断模型生成错误累积传递；2）降低错误率，把错误率控制在整体可接收的范围。SpQR 主要采取第二种思路。研究团队的思路 1）首先是基于

63、已有研究12，大模型的参数之间并非随机分布，而是存在特定结构的；2）研究团队对量化过程进行两个改变：一个用于捕捉小的敏感权重组，另一个用于捕捉单个的异常值。通过对敏感权重和异常值保留高精度，而其他参数降低精度，模型输出性能损失较原模型在可控范围，且推理的成本和效率大幅优化。图图 3838:LL:LLaMAaMA 65B65B 最后一层输出投影最后一层输出投影数据来源：SpQR:A Sparse-Quantized Representation for Near-Lossless LLM Weight Compression，中信建投11Gptq:Accurate post-training q

64、uantization for generative pre-trained transformers，The case for 4-bit precision:k-bit InferenceScaling Laws。12Gptq:Accurate post-training quantization for generative pre-trained transformers，Zeroquant:Efficient and affordablepost-training quantization for large-scale transformers。16美股公司深度报告百度百度请务必阅

65、读正文之后的免责条款和声明。图图 3939:S:SpQRpQR 总体架构包括总体架构包括 1 1）用于捕捉小敏感权重组；）用于捕捉小敏感权重组；2 2）用于捕捉单个的异常值）用于捕捉单个的异常值数据来源：SpQR:A Sparse-Quantized Representation for Near-Lossless LLM Weight Compression，中信建投图图 4040:不同精度技术下不同精度技术下 L LL LaMAaMA 模型的困惑度模型的困惑度图图 4141:不同精度技术下不同精度技术下 LLLLaMAaMA 模型的预测准确度模型的预测准确度数据来源：SpQR:A Spar

66、se-Quantized Representation forNear-Lossless LLM Weight Compression，中信建投数据来源：SpQR:A Sparse-Quantized Representation forNear-Lossless LLM Weight Compression，中信建投图图 4242:在在 6 65B5B 参数规模的参数规模的 L LL LaMAaMA 模型下，模型下，SpQRSpQR 实现实现 1 1%的性能损失下平均精度缩小的性能损失下平均精度缩小 3 3.4.4 倍倍数据来源：SpQR:A Sparse-Quantized Represe

67、ntation for Near-Lossless LLM Weight Compression，中信建投 17美股公司深度报告百度百度请务必阅读正文之后的免责条款和声明。图图 4343:FP16:FP16、SpQRSpQR（PyPyT Torchorch）、）、SpQRSpQR（optimizedoptimized）算法下）算法下 L LL LaMAaMA 模型的推理速度（模型的推理速度（tokenstokens/s s）数据来源：SpQR:A Sparse-Quantized Representation for Near-Lossless LLM Weight Compression，中

68、信建投注：batch size=1，基于 1 块 A100 芯片推理。值得一提的是值得一提的是 SpQRSpQR 是在是在 G GPTQPTQ 基础上改进的，而基础上改进的，而 G GPTQPTQ 的研究团队都参与了的研究团队都参与了 SpQRSpQR 的研究。的研究。GPTQ 从学术路径上来自 OBQ/OBS，前者是 GPTQ 团队 2022 年 8 月提出的，后者是 Yann LeCun 于 1990 年提出（剪枝算法）。OBS 的核心思路是抹去某一个权重使得其影响对整体最小，需要同时在剩余的权重中额外增加一个补偿权重，并确保二者相互抵消。OBQ 则是将上述思路从剪枝领域迁移至模型量化（q

69、uantization），但主要问题是OBQ 计算复杂度较高，计算成本和速度均存在一定的问题。因此，GPTQ 在 OBQ 的基础上取消贪心算法（greedyalgorithm），在贪心算法下剪枝/量化需要逐个对比，但研究团队发现随机算法在大模型方面表现更好。此外，GPTQ 引入批处理，单次更新多个权重，提升了计算效率。5 5.行业应用：游戏行业应用：游戏 N NPCPC 智能化提升，智能化提升，texttext-to to-3 3D D 模型有所突破模型有所突破2023 年 5 月，英伟达、Caltech、UT Austin、Stanford、ASU 等研究团队提出 VOYAGER 游戏智能，

70、实现 1）最大化探索的自动课程学习（本质上将游戏信号转化为文本输入本质上将游戏信号转化为文本输入 G GPT-4PT-4）；2）一个不断增长的可执行代码技能库，用于存储和检索复杂的行为（将将 G GPT-4PT-4 反馈转化为可执行的代码反馈转化为可执行的代码）；3）一个新的迭代提示（prompt）机制，它结合了环境反馈、执行错误，和程序改进的自我验证（考虑考虑 G GPT-4PT-4 回复与游戏现实的差异增加纠错机制回复与游戏现实的差异增加纠错机制）。VOYAGER 通过黑箱与 GPT-4 交互，即不需要参数微调（Parameter fine-tuning），Voyager 开发的技能在时间

71、上是可扩展的、可解释的和组合的，这可以迅速提升智能 AI 的能力并减轻灾难性遗忘。图图 4444:英伟达等研究团队提出英伟达等研究团队提出 V VOYAGEROYAGER，具备，具备 1 1）L LLMLM 驱动；驱动；2 2）终身学习能力；）终身学习能力；3 3）较此前）较此前 S SOTAOTA 明显提升明显提升数据来源：VOYAGER:An Open-Ended Embodied Agent with Large Language Models，中信建投 18美股公司深度报告百度百度请务必阅读正文之后的免责条款和声明。图图 4545:VOYAGER:VOYAGER 由自动课程学习、迭代提

72、示机制、技能库、环境反馈等组成由自动课程学习、迭代提示机制、技能库、环境反馈等组成数据来源：VOYAGER:An Open-Ended Embodied Agent with Large Language Models，中信建投此前的研究往往通过强化学习（RL）以及模仿学习（imitation learning），但在开放性环境下的泛化能力较弱，且可解释性不足，本质上还是基于固定规则做出反应，缺乏对行为的理解。现有研究基于 LLM 在游戏智能方面做出突破，但缺乏持续学习的能力。图图 4646:VOYAGER:VOYAGER 的自动课程实质是将游戏信号转化为文本的自动课程实质是将游戏信号转化为文

73、本 promptprompt 输入输入 G GPT-4PT-4数据来源：VOYAGER:An Open-Ended Embodied Agent with Large Language Models，中信建投注：此处代码为人工标注而非机器生成。VOYAGER 解决遗忘问题的方式是引入存储与检索，即生成技能时通过简写标记，后续遇到类似情况时搜索技能库调用，一定程度上缓解遗忘问题。19美股公司深度报告百度百度请务必阅读正文之后的免责条款和声明。图图 4747:VOYAGER:VOYAGER 技能库技能库数据来源：VOYAGER:An Open-Ended Embodied Agent with L

74、arge Language Models，中信建投另一方面，在错误纠偏/自我验证环节，VOYAGER 通过在 promtp 中要求 GPT-4 扮演评论者（critic），判断程序是否能够正确实现目标，如果无法实现，则提出进一步改进意见，这一过程迭代多次直至目标达成。此外，在代码生成环节，由于 GPT-4 生成的代码可能存在一定错误，代码生成也需要迭代多次，并将此前的错误合并入 prompt 输入 GPT-4，要求 GPT-4 予以改进。为防止持续错误，研究团队设置迭代次数阈值（4 次），即超过 4 次仍为成功则调整其他目标，避免陷入停滞的问题。图图 4848:VOYAGER:VOYAGER

75、的环境反馈的环境反馈/错误纠偏机制错误纠偏机制数据来源：VOYAGER:An Open-Ended Embodied Agent with Large Language Models，中信建投 20美股公司深度报告百度百度请务必阅读正文之后的免责条款和声明。图图 4949:VOYAGER:VOYAGER 自我验证机制自我验证机制数据来源：VOYAGER:An Open-Ended Embodied Agent with Large Language Models，中信建投总体而言，1）自动课程学习对于 VOYAGER 的探索能力（相比于随机学习）有明显提升，这主要是由于部分任务存在前置要求，即

76、完成 A 任务的前提是完成 B 任务，因而学习顺序至关重要。另外，预置规则的方式（manually curriculum）则未考虑当前 AI 的状态，且不具备纠错能力；2）技能库能够发挥一定作用，主要是VOYAGER 能够基于此前的技能组合创造更多复杂的动作，从而拓展 VOYAGER 的能力范围；3）自我验证机制对探索能力提升最明显，否则 VOYAGER 可能陷入错误循环中无法完成任务；4）GPT-4 替代 GPT-3.5 的效果提升主要是代码生成能力的差异，代码错误率低能够提升整体性能。图图 5050:技能库、环境反馈、自我验证、错误纠正等对技能库、环境反馈、自我验证、错误纠正等对 V VO

77、YAGEROYAGER 探索能力的影响探索能力的影响数据来源：VOYAGER:An Open-Ended Embodied Agent with Large Language Models，中信建投5 月 29 日，英伟达宣布推出适用于游戏的 NVIDIA Avatar Cloud Engine（ACE）13，这是一种定制的 AI 模型代工服务，可通过 AI 驱动的自然语言交互为 NPC 带来智能。13Omniverse Avatar Cloud EngineACE|NVIDIADeveloper|NVIDIADeveloper 21美股公司深度报告百度百度请务必阅读正文之后的免责条款和声明。

78、图图 5151:ACE:ACE End-to-EndEnd-to-End DevelopmentDevelopment SuiteSuite数据来源：NIVIDA 官网，中信建投除英伟达外，清华大学与商汤研究团队于 2023 年 5 月提出 GITM14，相比于 RL 为基础的方法，引入了 LLM，并分别利用 LLM 进行目标分解，行为规划，环境交互。其中，目标分解过程中 LLM Decomposer 主要利用公开互联网的一些文本知识（例如游戏攻略）对目标进行分解；在行为规划环节，基于目标和环境反馈，LLM 会对行为进行相应地规划，并形成文本知识库；在交互环节，主要是通过预置一些行为编码，通过

79、 action 激活具体的行为，实现对游戏智能的控制。图图 5252:G GITMITM 相比相比 R RL L 在目标分解、行动规划、指令执行引入在目标分解、行动规划、指令执行引入 L LLMLM 实现优化实现优化数据来源：Ghost in the Minecraft:Generally Capable Agents for Open-World Enviroments via Large Language Models with Text-basedKnowledge and Memory，中信建投14Ghost in the Minecraft:Generally Capable Age

80、nts for Open-World Enviroments via Large Language Models with Text-basedKnowledge and Memory。22美股公司深度报告百度百度请务必阅读正文之后的免责条款和声明。图图 5353:GITM:GITM 的工作流程的工作流程数据来源：Ghost in the Minecraft:Generally Capable Agents for Open-World Enviroments via Large Language Models with Text-basedKnowledge and Memory，中信建投估

81、值估值我们预计百度于 2023/24 年分别实现 1388/1488 亿营业收入，分别同比+12%/+7%，经调整 Non-GAAP 净利润为 233/283 亿，分别同比+11%/+21%，对应经调整 Non-GAAP 净利润率为 17%/19%。估值上，我们认为百度主要业务处于相对成熟阶段，因此适合 PE 估值。远期 PE 对应持有一年的名义回报率，以 22.5%的美国经济潜在增长率为基础，考虑额外的 10 年期国债利率，我们预计 34%的实际回报率水平处于合理区间。投资评价和建议投资评价和建议百度搜索广告业务预计受益经济复苏，且效果广告受益序列较品牌广告媒介更优先，信息流广告则受益展现形

82、式的效率继续驱动广告业务增长。云业务随着疫后回归常态，项目交付、新签订单逐步兑现，向上复苏趋势明确。ERNIE BOT 方面，短期商业化前景尚不清晰，但可作为 Option 机会，我们认为中长期 AIGC 方向是AI 领域具备广阔应用场景且有希望构建合适商业模式的机会，看好百度在 AIGC 领域的布局和先发优势。维持对百度集团的“买入”评级。23美股公司深度报告百度百度请务必阅读正文之后的免责条款和声明。风险分析风险分析新业务发展不及预期：新业务发展不及预期：AIGC 及相关新技术领域仍处于快速发展阶段，技术距离成熟存在较大差距，当前发展预期可能存在过度乐观的情况，业务实际发展仍存在较大不确定

83、性。宏观或行业环境变化：宏观或行业环境变化：由于公司部分业务处于探索期或成长期，业务模式尚未成熟，同时宏观、行业环境可能发展变化，因此当前时点对未来的预判多数依赖上述环境变化不大或基本稳定的假设。若宏观、行业环境发生较大变化，公司业务受到的影响可能超出我们的预期范围。竞争加剧风险竞争加剧风险：公司部分业务如搜索广告等面临短视频、应用内搜索的分流，以及搜狗、360 等竞争威胁。24美股公司深度报告百度百度请务必阅读正文之后的免责条款和声明。分析师介绍分析师介绍崔世峰崔世峰海外研究首席分析师，南京大学硕士，6 年买方及卖方复合从业经历，专注于互联网龙头公司研究，所在卖方团队获得 2019-2020

84、年新财富传媒最佳研究团队第二名。2022年新财富海外研究最佳研究团队入围。许悦许悦海外研究员，南洋理工大学硕士，专注于互联网研究，2022 年加入中信建投海外前瞻组。美股公司深度报告百度百度评级说明评级说明投资评级标准评级说明报告中投资建议涉及的评级标准为报告发布日后6 个月内的相对市场表现，也即报告发布日后的 6个月内公司股价（或行业指数）相对同期相关证券市场代表性指数的涨跌幅作为基准。A 股市场以沪深 300 指数作为基准；新三板市场以三板成指为基准；香港市场以恒生指数作为基准；美国市场以标普 500 指数为基准。股票评级买入相对涨幅 15以上增持相对涨幅 5%15中性相对涨幅-5%5之

85、间减持相对跌幅 5%15卖出相对跌幅 15以上行业评级强于大市相对涨幅 10%以上中性相对涨幅-10-10%之间弱于大市相对跌幅 10%以上分析师声明分析师声明本报告署名分析师在此声明：（i）以勤勉的职业态度、专业审慎的研究方法，使用合法合规的信息，独立、客观地出具本报告,结论不受任何第三方的授意或影响。（ii）本人不曾因，不因，也将不会因本报告中的具体推荐意见或观点而直接或间接收到任何形式的补偿法律主体说明法律主体说明本报告由中信建投证券股份有限公司及/或其附属机构（以下合称“中信建投”）制作，由中信建投证券股份有限公司在中华人民共和国（仅为本报告目的，不包括香港、澳门、台湾）提供。中信建投

86、证券股份有限公司具有中国证监会许可的投资咨询业务资格，本报告署名分析师所持中国证券业协会授予的证券投资咨询执业资格证书编号已披露在报告上海品茶。在遵守适用的法律法规情况下，本报告亦可能由中信建投（国际）证券有限公司在香港提供。本报告作者所持香港证监会牌照的中央编号已披露在报告上海品茶。一般性声明一般性声明本报告由中信建投制作。发送本报告不构成任何合同或承诺的基础，不因接收者收到本报告而视其为中信建投客户。本报告的信息均来源于中信建投认为可靠的公开资料，但中信建投对这些信息的准确性及完整性不作任何保证。本报告所载观点、评估和预测仅反映本报告出具日该分析师的判断，该等观点、评估和预测可能在不发出通知的情况

87、下有所变更，亦有可能因使用不同假设和标准或者采用不同分析方法而与中信建投其他部门、人员口头或书面表达的意见不同或相反。本报告所引证券或其他金融工具的过往业绩不代表其未来表现。报告中所含任何具有预测性质的内容皆基于相应的假设条件，而任何假设条件都可能随时发生变化并影响实际投资收益。中信建投不承诺、不保证本报告所含具有预测性质的内容必然得以实现。本报告内容的全部或部分均不构成投资建议。本报告所包含的观点、建议并未考虑报告接收人在财务状况、投资目的、风险偏好等方面的具体情况，报告接收者应当独立评估本报告所含信息，基于自身投资目标、需求、市场机会、风险及其他因素自主做出决策并自行承担投资风险。中信建投

88、建议所有投资者应就任何潜在投资向其税务、会计或法律顾问咨询。不论报告接收者是否根据本报告做出投资决策，中信建投都不对该等投资决策提供任何形式的担保，亦不以任何形式分享投资收益或者分担投资损失。中信建投不对使用本报告所产生的任何直接或间接损失承担责任。在法律法规及监管规定允许的范围内，中信建投可能持有并交易本报告中所提公司的股份或其他财产权益，也可能在过去 12 个月、目前或者将来为本报告中所提公司提供或者争取为其提供投资银行、做市交易、财务顾问或其他金融服务。本报告内容真实、准确、完整地反映了署名分析师的观点，分析师的薪酬无论过去、现在或未来都不会直接或间接与其所撰写报告中的具体观点相联系，分

89、析师亦不会因撰写本报告而获取不当利益。本报告为中信建投所有。未经中信建投事先书面许可，任何机构和/或个人不得以任何形式转发、翻版、复制、发布或引用本报告全部或部分内容，亦不得从未经中信建投书面授权的任何机构、个人或其运营的媒体平台接收、翻版、复制或引用本报告全部或部分内容。版权所有，违者必究。中信建投证券研究发展部中信建投证券研究发展部中信建投（国际中信建投（国际）北京上海深圳香港东城区朝内大街 2 号凯恒中心 B座 12 层上海浦东新区浦东南路528号南塔 2103 室福田区福中三路与鹏程一路交汇处广电金融中心 35 楼中环交易广场 2 期 18 楼电话：（8610）8513-0588电话：（8621）6882-1600电话：（86755）8252-1369电话：（852）3465-5600联系人：李祉瑶联系人：翁起帆联系人：曹莹联系人：刘泓麟邮箱：邮箱：邮箱：邮箱：charleneliucsci.hk