爱上海(上海419论坛/爱上海 419)

《百度-港股公司研究报告-大模型研究笔记（一）-230514（47页）.pdf》由会员分享，可在线阅读，更多相关《百度-港股公司研究报告-大模型研究笔记（一）-230514（47页）.pdf（47页珍藏版）》请在三个皮匠报告上搜索。

1、本报告由中信建投证券股份有限公司在中华人民共和国（仅为本报告目的，不包括香港、澳门、台湾）提供。在遵守适用的法律法规情况下，本报告亦可能由中信建投（国际）证券有限公司在香港提供。同时请参阅最后一页的重要声明。证券研究报告证券研究报告美股公司深度美股公司深度软件与服务软件与服务百度：大模型研究笔记（一）百度：大模型研究笔记（一）核心观点核心观点大模型规模竞赛强度有望下降，精益优化可能成为主要方向，如数据清洗、初始化策略、大批量训练等。另一方面，模型压缩与内存管理、计算能力、下游部署等可能是大模型产品化落地的关键技术，有望打开未来 to C 市场的想象空间。我们认为中长期 AI领域具备广阔

2、前景，看好百度在 AIGC 领域的布局和先发优势。大模型研究大模型研究笔记笔记（一）（一）现有的市场研究主要聚焦下游应用，即大语言模型能够实现什么功能，满足什么市场需求，而将大语言模型本身视为黑匣子，缺乏对语言模型本身机制的研究。本篇报告主要是对学界在 LLM模型架构、预训练各环节、下游调优等领域的探索进行系统梳理，旨在增进市场对 LLM 技术原理的理解。需要指出的是，由于相关文献较多，本报告可能存在遗漏，并引致风险。模型结构方面，现有的主流模型均基于模型结构方面，现有的主流模型均基于 Transformer 架构。架构。行业发展的关键节点在于 1）下游任务逐渐被统一；2）研究总结出Scali

3、ng Law，从而催生规模竞赛；3）Google 团队提出 CoT 研究，大模型+CoT prompt 效果显著提升。因此，此前行业主流范式是训练更大的模型，通过引入代码数据等方式激活模型的潜在能力。但一些最新研究表明规模效应带来的涌现可能是度量选择的结果，规模带来的性能提升可能没有此前的研究所表明的那么显著，因而引发一些对进一步推动规模扩展的谨慎观点。预训练仍存在非常充分的优化空间。预训练仍存在非常充分的优化空间。1）训练数据集上，）训练数据集上，当前参数规模相比数据集过度扩张明显，训练数据集一定程度上制约了性能的提升。另一方面，数据集扩大可能带来重复数据的问题，而研究表明训练中的重复数据会

4、显著影响模型的性能提升，因此对数据的清洗可能是业界实践中比较重要的环节；2）知识图谱方）知识图谱方面，面，一些团队如百度 ERNIE 将知识图谱引入 LLM 训练，实现性能提升，但研究表明，由于知识图谱数据库搭建的高成本，且也不适用于所有类别/场景的数据，规模化难度较高。此外，知识图谱的性能提升是以推理速度的下降为代价的；3）参数规模方面，）参数规模方面，OpenAI 提出的 Scaling Law 引发此前行业的规模竞赛，但斯坦福大学团队近期研究质疑了这一规律，并通过实验表明规模提升带来的效果突变是测试函数表达形式的结果，剔除影响后模型性能随规模变化更接近线性曲线。考虑到其他环节的优化空间，

5、规模进一步大幅扩张可能不是厂商们的首要考虑目标；维持维持买入买入孙晓磊 SAC 编号:s05 SFC 编号:BOS358 崔世峰 SAC 编号:S04 许悦 SAC 编号:s01 发布日期：2023 年 05 月 14 日当前股价：118.90 美元目标价格 6 个月：140 美元主要数据主要数据股票价格绝对股票价格绝对/相对市场表现（相对市场表现（%）1 个月 3 个月 12 个月-17.99/-19.80-19.70/-24.08 11.52/5.64 12 月最高/最低价（美元）160.22/76.57 总股本

6、（万股）34,959.72 流通股本（万股）27,751.54 总市值（亿美元）415.67 流通市值（亿美元）415.67 近 3 月日均成交量（万）339.34 主要股东 Robin Yanhong Li 16.30%股价表现股价表现相关研究报告相关研究报告 -28%-8%12%32%52%72%2022/5/112022/6/112022/7/112022/8/112022/9/112022/10/112022/11/112022/12/112023/1/112023/2/112023/3/112023/4/11百度纳斯达克综指百度百度(BIDU.O)/百度集团百度集团-SW(9888

7、.HK)美股公司深度报告百度百度请参阅最后一页的重要声明 4）训练策略方面，）训练策略方面，Google 提出了 Fixup、Skipint 等初始化策略，其中后者在 Transformer 模型小 Batch size训练下性能优于基准；稀疏训练和过参数方面的研究指出过参数有益于训练，但对推理部署成本有负面影响，UCB 团队研究指出先训练大模型，再进行压缩、剪枝是给定计算资源约束下的最优选择。大批量学习方面，Google 团队提出 LAMB 优化器，实现 32K Batch size 下无损训练（1K=1024）。ChatGPT 的火爆很大程度上是得益于“智能化”，或者说与人类交互的自然

8、感，的火爆很大程度上是得益于“智能化”，或者说与人类交互的自然感，而这种用户体验主要是来自下游调试，例如 Fine-tune、RLHF、Alignment 等环节。GPT-4 技术报告指出，调试环节并不会提升模型的性能，而是强化模型与人类的交互能力，符合人类的价值观等，甚至存在 Alignment tax，即调优环节是在不同维度间调整模型的能力，优化一方面的能力会牺牲另一方面的能力。现有的研究表明，通过扩大 Reward Model 的规模能够优化 RLHF 环节模型的提升。Alignment 方面，此前 AI 超越人类智能的相关研究不多，这方面仍需要进一步观察和跟踪。总体而言，通过梳理现有研

9、究，我们认为 1）模型数据集、训练量的优化（包括对数据去重、数据集规模扩充）是重要方向；2）初始化策略、加速优化器能够在小批量训练集中优化模型性能，大批量训练目前研究的上限是 32K，这与训练速度存在权衡取舍；3）模型压缩与内存管理、计算能力、下游部署等可能是大模型产品化落地的关键技术。近期陈天奇即相关团队 MLC LLM 项目热度较高，其将大模型部署至手机，这将大幅降低大模型产品的推广和部署门槛，打开 to C 产品的想象空间；4）参数规模、知识图谱可能不是短期研究主要推进的方向。投资建议：投资建议：百度搜索广告业务预计受益经济复苏，且效果广告受益序列较品牌广告媒介更优先，信息流广告则受益展

10、现形式的效率继续驱动广告业务增长。云业务随着疫后回归常态，项目交付、新签订单逐步兑现，向上复苏趋势明确。ERNIE BOT 方面，短期商业化前景尚不清晰，但可作为 Option 机会，我们认为中长期 AIGC方向是 AI 领域具备广阔应用场景且有希望构建合适商业模式的机会，看好百度在 AIGC 领域的布局和先发优势。维持对百度集团的“买入”评级。美股公司深度报告百度百度请参阅最后一页的重要声明目录目录引言.1 1.模型结构.1 2.预训练：差异来自数据集、知识图谱、参数规模、训练策略.8 2.1 训练数据集.8 2.2 知识图谱.12 2.3 参数规模.14 2.4 训练策略的优化.1

11、6 2.4.1 加速优化器.16 2.4.2 初始化策略.20 2.4.3 稀疏训练.22 2.4.4 过参数.24 2.4.5 大批量训练.27 2.4.6 增量学习.32 3.下游调试、部署、推断：RLHF 仍处于技术发展的早期，潜在优化空间大.34 估值.37 投资评价和建议.37 风险分析.38 报表预测.39 图目录图 1:大模型的研究框架.1 图 2:超大规模预训练模型成为业界趋势.1 图 3:超大规模预训练模型存在规模扩张边际收益递减的规律.2 图 4:NLP 领域下游任务的范式迁移.2 图 5:模型效果与参数规模呈现幂律关系.4 图 6:GPT-3 效果并不明显好于小规模的

12、BERT Large 模型.4 图 7:模型在预训练阶段的表现基本仅依赖于模型的参数量.4 图 8:模型在微调阶段时的表现和模型结构关系很大.4 图 9:思维链提示在性能-比例曲线中表现出明显的相变.5 图 10:不同参数规模下直接 Prompt 与 CoT 的性能比较.5 图 11:业界 AI 研究院的组织架构调整.6 图 12:2018-21 年谷歌经历介入军事、语音监听、伦理委员会风波，21-23 年大量研究人员离职.7 图 13:2017-22 年 NIPS 论文发布机构集中度有所下降.7 图 14:1950-2022 年美国司法部及欧盟反垄断诉讼案件数量（件）.7 图 15:损失函数

13、可拆分为 bias、variance、noise 项.8 图 16:重复数据集下模型困惑度提升，自然数据集去重下困惑度下降.9 图 17:基于去重数据训练的模型困惑度下降.9 图 18:重复训练一定次数会导致模型性能的显著恶化.9 美股公司深度报告百度百度请参阅最后一页的重要声明图 19:不同参数规模的模型受重复数据训练的负向影响.9 图 20:CoT Prompt 对不同规模、语料训练下模型性能的影响.10 图 21:指令微调相对预训练计算量占比很小.11 图 22:固定计算量，改变模型大小，存在最优参数规模.11 图 23:固定计算量，得到模型参数规模与训练量的关系.11 图 24:

14、将前述实验参数拟合函数，得到固定计算量模型规模、训练量与模型性能的曲线.11 图 25:GPT-3 等模型参数规模过大，训练量不足，有进一步提升空间.12 图 26:ERNIE、BERT 掩码策略差异.12 图 27:直接注入知识图谱后模型效果提升明显.13 图 28:StAR、KG-BERT 相比传统的 RotatE 方法在性能上有所提升，但极大地牺牲了推理速度.13 图 29:模型参数规模、训练数据集规模、计算资源投入提升与模型性能提升存在 Scaling Law.14 图 30:模型参数规模、训练数据集规模、计算资源投入需要成比例地同步提升.14 图 31:在 BIG-Bench 任务中

15、，92%的涌现能力是这两个度量下出现的.14 图 32:将打分函数修改为接近线性函数后模型性能与参数规模的关系回归线性（未出现涌现现象）.15 图 33:对于多项选择，换成 brier score(MSE)也使得涌现现象消失.15 图 34:目前学界/业界提升模型计算效率的策略分类.16 图 35:ADAM 优化器预训练表现优于 SGD with momentum.16 图 36:ADAM 优化器预训练表现弱于 SGD with momentum.16 图 37:BERT 模型 Noise 呈现厚尾分布（heavy-tailed distribution），而 ImageNet 的 Nosie

16、分布更接近高斯分布.17 图 38:Attention 机制和数据都会导致厚尾分布.17 图 39:Lion 优化器在不同参数规模的语言模型下总体表现优于 AdamW.17 图 40:Lion 优化器在不同参数规模的视觉模型下表现优于 AdamW.18 图 41:视觉模型训练上 Lion 相比 AdamW 训练速度提升了 35 倍.18 图 42:语言模型训练上 Lion 相比 AdamW 训练速度提升了 1.52 倍.18 图 43:AdamW 和 Lion 优化器算法对比.19 图 44:Lion 训练下模型性能更优，且 Loss 更平坦.19 图 45:SAM 提升了模型对标签噪声的稳

17、健性，并优化了模型训练效率，ESAM 降低了计算成本.19 图 46:SAF、ESAM、SAM、Vanilla（SGD）在 ImageNet 上的性能、效率对比.20 图 47:Fixup 初始化策略.20 图 48:以默认学习率在 CIFAR-10 数据集训练性能对比.20 图 49:Fixup 与 LN 在机器翻译任务上的表现（分数越高越好）.20 图 50:模型拟合=的对数等高线示意图，左图是使用二次损失的损失图，右图是对应的梯度范数.21 图 51:Transformer 输出-输入的 Jacobian 矩阵中的奇异值在不同层的模型下的分布，ReZero 在Transformer 架构

18、下收敛速度提升 56%.21 图 52:Skipinit 与 BN 在不同批规模下的数据对比.22 图 53:以不同规模开始训练时，会发生提前停止迭代（左）和该迭代的准确性（右）.22 图 54:在不同数据集/模型/剪枝率条件下结构性剪枝后模型重新训练后性能总体优于 Fine-tuned 模型.23 图 55:非结构性剪枝模型在 CIFAR 与 ImageNet、不同剪枝率下表现有所分化.23 图 56:当复杂度超过一定界限后，过拟合风险会下降.24 美股公司深度报告百度百度请参阅最后一页的重要声明图 57:Double descent risk curve for RFF model

19、on MNIST.24 图 58:Double descent risk curve for fully connected neural network on MNIST.24 图 59:基于 MNIST 测试集，采取 Dropout 策略的测试效果显著优于未采用 Dropout 策略.25 图 60:基于 MNIST 测试集，采取不同 Dropout 策略的效果.25 图 61:模型规模扩大有利于模型性能提升，且剪枝后模型推理准确性更高.25 图 62:大模型训练速度更快.26 图 63:大模型压缩后效果更优.26 图 64:大模型剪枝、量化后均更稳健.26 图 65:大模型量化+剪枝后效

20、果好于小模型.26 图 66:模型规模与预训练收敛对大模型的可压缩性的影响.26 图 67:增大批处理规模会使得训练从平缓底部转向更陡峭的底部.27 图 68:比较大批量训练与小批量训练策略下的模型性能.27 图 69:F1 网络交叉熵 Loss 与准确率收敛情况（LB，=1）.28 图 70:F2 网络交叉熵 Loss 与准确率收敛情况（SB，=0）.28 图 71:C1 网络交叉熵 Loss 与准确率收敛情况.28 图 72:C2 网络交叉熵 Loss 与准确率收敛情况.28 图 73:C3 网络交叉熵 Loss 与准确率收敛情况.28 图 74:C4 网络交叉熵 Loss 与准确率收敛情

21、况.28 图 75:通过调整学习率，ResNet-50 mini-batch 训练可实现 8K 内性能不损失.29 图 76:对于 AlexNet 网络，不同层的权值和其梯度的范数的比值差异很大.29 图 77:LARS 优化器主要根据范数的比值来调节每一层的学习率.30 图 78:W/O LARS 时 AlexNet-BN 8K 训练存在性能损失.30 图 79:W/LARS 时 AlexNet-BN 8K 训练不存在性能损失.30 图 80:LARS 优化器将 ResNet 50 无损训练批量提升至 32K.30 图 81:LARS 与 LAMB 算法对比.31 图 82:LAMB 优化器

22、训练下 BERT 模型的训练批量可扩展至 32K.31 图 83:K 值过高反而会导致模型性能恶化.31 图 84:K 值越高会加速模型训练收敛速度.31 图 85:增量学习的技术路径主要有三类：正则化、回放、参数隔离.32 图 86:CL 贝叶斯推理的数学表达.32 图 87:Coreset VCL 算法.33 图 88:GEM 算法.33 图 89:InstructGPT 论文中提到的下游调试过程.34 图 90:InstructGPT 经过调试后表现显著优于 SFT-175B 模型.34 图 91:大规模 PM 对不同参数规模模型的效果提升是显著的.35 图 92:小规模 PM 对模型的

23、性能提升可能不显著.35 图 93:百度 ERNIE 团队提出在线蒸馏框架.35 图 94:当模型性能超越一般人时，Alignment 成为挑战.36 图 95:RM 可能存在过拟合的情况.36 图 96:不同方法下模型过拟合情况.36 美股公司深度报告百度百度请参阅最后一页的重要声明表目录表 1:业界大模型相关论文影响力（截止 2023/4/17）.3 表 2:训练语料引入多轮对话后模型预测准确率提升.10 表 3:不同掩码策略及数据集规模下的模型预测准确率.13 表 4:不同网络的设定.27 表 5:可比公司估值表.37 1 美股公司深度报告百度百度请参阅最后一页的重要声明引

24、言引言大模型领域的研究大模型领域的研究核心要素包括模型结构、预训练模型、下游调试、模型部署、模型推断等。核心要素包括模型结构、预训练模型、下游调试、模型部署、模型推断等。根据青源会，大模型研究领域存在一定问题，包括同质化严重的情况，多数厂商采取类似的模型架构，例如 GPT、Bert、T5等。由于模型架构同质化，影响模型效果的核心因素更多是工程方面的技巧、细节。总体上，大模型领域的研究机会主要包括 1）模型结构，例如非注意力交互机制、稀疏路由结构等；2）预训练模型，例如预训练任务设计、模型更新方法等；3）下游调试，如探索任务微调效率提升方法；4）模型部署，如统一的任务范式，通过单一模型支撑多种

25、任务；5）模型推断，如模型压缩、剪枝、动态路由等。我们就大模型领域的研究主要从上述框架中展开。图图 1:大模型的研究框架大模型的研究框架数据来源：青源会2022年人工智能重要方向进展与未来展望报告，中信建投 1.模型结构模型结构从技术路线上看，从技术路线上看，GPT、T5、BERT 都是基于都是基于 Transformer 架构衍生而来的。架构衍生而来的。Tranformer 相对 RNN 引入了注意力机制（Attention mechanism），实现对全局信息的利用，同时简化计算复杂度，实现对下游任务的泛化应用。由于更简洁的模型结构设计和参数假设，Transformer 在数据抓取能力

26、方面有所取舍，从而导致为实现效果提升，需要进行更大规模的数据训练，以及构建更大规模的模型，间接导致了当前模型越来越大的趋势。图图 2:超大规模预训练模型成为业界趋势超大规模预训练模型成为业界趋势数据来源：百度智能云超大规模AI异构计算集群的设计和优化，中信建投根据 OpenAI 研究，预训练模型的扩大带来资源投入的指数级增长，而效果呈现线性增长的趋势，这意味着边际投入带来的效果提升，即边际收益呈现递减的趋势，也就是给定算力等资源成本下存在参数规模的极限值，模型结构预训练下游调试部署推断模型效率非注意力机制的建模稀疏路由结构训练效率提升知识嵌入知识更新调试效率提升上下文学习可靠性统一范式推断

27、效率提升 2 美股公司深度报告百度百度请参阅最后一页的重要声明使得 ROI 最优。另外，根据 GPT-4 技术报告，Inverse Scaling Prize 提出，在一些任务上，随着参数规模的扩张，大模型在任务上的表现反而出现下降的情况。图图 3:超大规模预训练模型存在规模扩张边际收益递减的规律超大规模预训练模型存在规模扩张边际收益递减的规律数据来源：百度智能云超大规模AI异构计算集群的设计和优化，中信建投 GPT 是基于 Transformer 架构，将 decoder（解码器）取出，也就是 Decoder-only 模型；相较之下，BERT 是将 Transformer 架构的

28、Encoder（编码器）取出，即 Encoder-only，后续 T5 模型则是 Encoder-Decoder 模型。模型结构的差异会导致其在下游任务表现的差异，例如过去学界认为Encoder模型对上下文理解能力更强，因为其可以结合上下文信息进行辅助判断，而 Decoder-Only 模型仅能通过下文信息进行决策，存在一定信息损失。这一定程度上解释了 BERT 类模型在小参数规模下在下游任务上表现好于 GPT 系列模型1。图图 4:NLP 领域下游任务的范式迁移领域下游任务的范式迁移数据来源：青源会2022年人工智能重要方向进展与未来展望报告，中信建投然而，近年 NLP 行业下游任务的统

29、一化趋势改变了 BERT 模型的相对优势，即学者发现可以通过改变提问方式将分类、匹配等下游任务统一为一类问题，从而最大化模型效果，后续发展出 Prompt engineering（提示工程）。下游任务的统一相当于帮助 Encoder/Decoder 模型规避其不擅长的任务领域。在此基础上，GPT 能够脱颖而出更多得益于工程方面的提升而非在技术思想上创新，需要指出的是，GPT 模型采用的多数技术都是此前的 1 Language Models are Unsupervised Multitask LearnersGPT-2 论文中扩大规模的 GPT-2 模型表现弱于 BERT，但 OpenAI提出

30、 Few-Shot/Zero-Shot 概念，从而间接实现 SOTA 效果。3 美股公司深度报告百度百度请参阅最后一页的重要声明学术研究成果，就科研贡献本身，GPT 模型的提升并不多。从技术路线上看，包括 ERNIE 在内的多数厂商选择 BERT 路线（Encoder-only），少数选择 T5 路线（Encoder-Decoder），较少选择 GPT 路线（Decoder-only）。这种选择可以从学术影响力看出，BERT 论文的被引用量远大于 GPT 系列论文及 T5 系列论文。事后看，当前 OpenAI 旗下 GPT 系列模型的领先得益于早期技术选型的成功，这一成功是建立在以下基础

31、上GPT 的学界/业界影响力小于 BERT，导致多数厂商选择跟踪 BERT 的工作。表表 1:业界大模型相关论文影响力（截止业界大模型相关论文影响力（截止 2023/4/17）发表时间发表时间文章文章核心贡献核心贡献被引用次被引用次数数 2017/6/12 Attention is all you need Transformer 71128 2018/6/11 Improving Language Understanding by Generative Pre-Training GPT 1.0 5196 2018/10/11 BERT:Pre-training of Deep Bidi

32、rectional Transformers for Language Understanding BERT 63400 2019/2/14 Language Models are Unsupervised Multitask Learners GPT 2.0 10432 2019/4/19 ERNIE:Enhanced Representation through Knowledge Integration ERNIE 1.0 677 2019/7/29 ERNIE 2.0:A Continual Pre-training Framework for Language Understandi

33、ng ERNIE 2.0 560 2019/10/23 Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer T5 6961 2020/5/28 Language models are few-shot learners GPT 3.0 9160 2021/3/1 M6:A Chinese Multimodal Pretrainer M6 94 2021/4/26 PanGu-:Large-scale Autoregressive Pretrained Chinese Language

34、 Models with Auto-parallel Computation PanGu-92 2021/7/5 ERNIE 3.0:Large-scale Knowledge Enhanced Pre-training for Language Understanding and Generation ERNIE 3.0 122 2021/12/23 ERNIE 3.0 Titan:Exploring Larger-scale Knowledge Enhanced Pre-training for Language Understanding and Generation ERNIE 3.0

35、 titan 19 2022/3/4 Training language models to follow instructions with human feedback InstructGPT 434 2023/3/20 PanGu-:Towards Trillion Parameter Language Model with Sparse Heterogeneous Computing PanGu-1 资料来源：Google scholar，Arxiv，中信建投 GPT 路线此前的影响力弱于路线此前的影响力弱于 BERT 路线主要由于路线主要由于 1）Google 品牌背书；品牌背书；2

36、）开源精神；）开源精神；3）产研结合难度。）产研结合难度。OpenAI 旗下的 GPT 路线基于 Transformer 架构，将解码器单独取出，论文发布时间早于 BERT 论文发布时间。但论文的业界影响力弱于 BERT，我们认为，这主要由于 Google 的品牌背书，Google 研究团队在 AI 领域的研究积累导致业界对其研究关注度更高。另一方面，GPT 系列论文发布后，相关数据集、模型不完全开源，导致其他研究团队很难跟进和复现其研究成果，这进一步削弱了业界/学界跟进研究的动力。最重要的是，OpenAI 团队解决问题的思路与当时业界/学界有所差异，此前研究人员更倾向于设计精细的模型结构和高

37、效的方法，实现相同规模下效果更优，而 GPT 引入 Few-Shot/Zero-Shot 下表现没有明显好于 Fine-tuning 下的其他模型，只是在数据量和参数量指数提升后表现快速提升。这里存在这里存在 2 个问题：个问题：1）线性外推的思维定式。）线性外推的思维定式。2）业界研究的思维习惯：追求效率，聚焦更具体的问题。）业界研究的思维习惯：追求效率，聚焦更具体的问题。首先是首先是 1）线性外推的思维定式，线性外推的思维定式，多数研究团队选择优先调整模型结构和训练方法等路线的隐含假设是，规模 4 美股公司深度报告百度百度请参阅最后一页的重要声明扩张不会对技术路线的效率产生明显影响，

38、或者即使产生影响，但相比规模扩张带来的成本，其投入难度很难同比扩大。例如，OpenAI 的团队在 2020 年 1 月发现模型参数规模与效果存在幂律关系，即模型参数呈指数增长时，性能会线性增加，但 GPT-3 规模大于 BERT large 几个数量级，Zero-Shot/One-Shot 下效果也没有明显优势。这意味着 Fine-tuned 的效率提升优于参数规模扩大所带来的影响。2022 年 1 月，Google 和 DeepMind 研究团队发现 Fine-tuning 也存在幂律关系2，因此行业主要聚焦既定规模模型的效率提升。图图 5:模型效果与参数规模呈现幂律关系模型效果与参数规模呈

39、现幂律关系图图 6:GPT-3 效果并不效果并不明显明显好好于于小规模的小规模的 BERT Large 模型模型数据来源：Scaling Laws for Neural Language Models，中信建投数据来源：Language Models are Few-Shot Learners，中信建投注：GPT-3参数规模为175B，BERT large为340M。图图 7:模型在预训练阶段的表现基本仅依赖于模型的参数量模型在预训练阶段的表现基本仅依赖于模型的参数量图图 8:模型模型在微调阶段时的表现和模型结构关系很大在微调阶段时的表现和模型结构关系很大数据来源：Scaling

40、Efficiently:Insights from Pre-training and Fine-tuning Transformers，中信建投数据来源：Scaling Efficiently:Insights from Pre-training and Fine-tuning Transformers，中信建投 Google 研究推动规模竞赛加速研究推动规模竞赛加速，规模界限分别是规模界限分别是 62B 和和 175B。2022 年 1 月，Google 团队开创了思维链（CoT）领域研究Chain-of-Thought Prompting Elicits Reasoning in Lar

41、ge Language Models，通过 prompt 中 2 根据Scaling Efficiently:Insights from Pre-training and Fine-tuning Transformers，证明了模型的结构对下游任务微调的影响很大，并提出随着规模扩大模型结构设计的一些方案。此外，OpenAI 在 2021 年 2 月发布Scaling Laws for Transfer，研究了迁移学习领域的幂律关系。5 美股公司深度报告百度百度请参阅最后一页的重要声明引导大模型进行逻辑推理的方式实现性能优化，并且这种优化幅度大于此前规模提升带来的线性提升。而下一个自然的问

42、题则是参数规模的界限，Google 团队在 2022 年 12 月3比较了不同参数规模下直接 prompt 以及 CoT下的表现，得出以下结论：对于所有小于 62B 的模型，直接用提示词都好于思维链。结合 GPT-3 模型规模，至少需要大于 175B4，思维链的效果才能大于 Fine-tuned 小模型的效果。图图 9:思维链提示在性能思维链提示在性能-比例曲线中表现比例曲线中表现出明显的相变出明显的相变图图 10:不同参数规模下直接不同参数规模下直接 Prompt 与与 CoT 的性能比较的性能比较数据来源：Chain-of-Thought Prompting Elicits Reaso

43、ning in Large Language Models，中信建投数据来源：Scaling Instruction-Finetuned Language Models，中信建投 2）另一方面，业界追求效率的思路，关注投入产出比）另一方面，业界追求效率的思路，关注投入产出比。这种思路的本质是投入资源稀缺，要在有限的资源投入下最大化产出。而研究思路背后是互联网公司 AI 实验室与业务部门的博弈。3 Scaling Instruction-Finetuned Language Models。4 如果考虑到 code-davinci-002 的基础模型可能不是初代 GPT-3 davinci 模型

44、，CoT 效果优于直接 Prompt 的界限可能大于175B。6 美股公司深度报告百度百度请参阅最后一页的重要声明图图 11:业界业界 AI 研究院的组织架构调整研究院的组织架构调整数据来源：雷峰网，中信建投纵观国内外互联网公司的纵观国内外互联网公司的 AI 研究部门，其大致经历了职能制、矩阵制、事业部制等架构，背后反映了大研究部门，其大致经历了职能制、矩阵制、事业部制等架构，背后反映了大厂对厂对 AI 科研部门的不同期许和考核体制，这种激励体制也影响了科研部门的不同期许和考核体制，这种激励体制也影响了 AI 科研部门的中长期发展。科研部门的中长期发展。2013 年成立的FAIR 采

45、取职能制，其定义 Facebook 的 AI 部门为 FAIR+Applied Machine Learning（应用机器学习团队）+Product Groups（产品部署团队）5。但 2018 年组织架构调整后，FAIR 转向矩阵制，即 AI 实验室同时对业务部门和技术领导（一般是 CTO 体系）负责。2021 年底 FAIR 进一步调整，将旗下 AI 研究团队并入业务部门，转向事业部制。从职能制向矩阵制、事业部制，考核体制上越来越接近业务，越来越远离学术影响力/前瞻研究，这种转变大多是由于互联网公司面临营收、利润压力，业绩压力倒逼研究团队转向业务团队的“外包”，压力下部分研究人员离开业界，

46、重回学术界，这是过去我们看到的业界 AI 研究的循环。大厂在大模型领域研究大厂在大模型领域研究的落后有一定时代特征：的落后有一定时代特征：对谷歌来说是价值观变革导致凝聚力减弱，同时创新工作对谷歌来说是价值观变革导致凝聚力减弱，同时创新工作不足；对不足；对 Meta 而言是企业声誉受损导致凝聚力减弱，此外则是战略重心调整导致人员流动。而言是企业声誉受损导致凝聚力减弱，此外则是战略重心调整导致人员流动。以谷歌为例，2018-21 年谷歌经历了介入军事、语音监听、伦理委员会等风波，价值观或政治正确在内外部引发的争议导致研究人员产生分歧，进而离开公司。2021 年至今一些谷歌高级研究人员离职创业、加入

47、竞争对手等。总体上来看，谷歌研究人员的离开主要是公司规模扩张带来价值观稀释，内部分歧管控失败导致的，另一方面大企业机制下对“创新”的激励趋弱，部分员工离职创业或加入中小型公司，寻求更自由、追求创新的工作。对 Meta 而言，2018 年因非法向剑桥分析泄露超 5000 万用户信息从而影响美国选举，Meta 的企业形象大幅恶化，影响了员工对于企业的信心，导致当年大批高管及核心研究人员离职6。另外，2021 年 Meta 员工的离职潮主要受战略变化及组织架构调整影响，由于公司战略转向 AR/VR，一些员工出于职业发展的考虑7加入其他公司继续本领域的研究和工作。5 https:/ 6 https:/

48、 7 https:/ 事业部CEOCTO体系/工程事业部AI研究院事业部CEOCTO体系/工程事业部AI研究院事业部CEOCTO体系/工程事业部AI团队AI团队职能制职能制矩阵制矩阵制事业部制事业部制 7 美股公司深度报告百度百度请参阅最后一页的重要声明图图 12:2018-21 年谷歌经历介入军事、语音监听、伦理委员会风波，年谷歌经历介入军事、语音监听、伦理委员会风波，21-23 年大量研究人员离职年大量研究人员离职数据来源：观察者网，环球网，澎湃新闻，网易科技，新浪科技，虎嗅网，中信建投更大的趋势在于 1）开源带来的技术扩散，）开源带来的技术扩散，头部科研院所及互联网科技公司相比

49、中小公司/科研院所的相对优势在缩减，这主要由于过去 AI 领域的创新主要来自方法论层面，而非工程层面，而方法论的创新更随机；2）对大型科技企业的监管约束趋严，）对大型科技企业的监管约束趋严，大多数美国互联网科技企业都是在 1990 年后成立，并受益于 20 世纪末、21 世纪初的反垄断监管，在快速发展阶段经历了经济高速增长、监管边际宽松的环境，但 2017 年以来欧盟、韩国等对谷歌、亚马逊、Meta、苹果公司、微软等加强监管，导致大型科技公司面临较高的监管压力。图图 13:2017-22 年年 NIPS 论文发布机构集中度有所下降论文发布机构集中度有所下降图图 14:1950-2022 年美

50、国司法部及欧盟反垄断诉讼案件数量年美国司法部及欧盟反垄断诉讼案件数量（件）（件）数据来源：NIPS，Github，Vinai，中信建投数据来源：DOJ，EU，中信建投注：DOJ案件不含刑事诉讼，EU案件仅包含Antitrust/Cartels。此外，舆论环境对中小型创业公司容忍度更高也是影响大公司创新成本的要素。此外，舆论环境对中小型创业公司容忍度更高也是影响大公司创新成本的要素。包括 Meta、Google、微软在内的科技公司此前推出类似产品时都出现过由于语言模型生成内容存在虚假、政治不正确的情况，并引发舆AI部门Ethical AI团队Timnit GebruJeff DeanMarg

51、aret MitchellSamy Bengio负责人联席主管联席主管负责人2020年12月3日被辞退原因为论文发表未经内部流程审批2021年2月20日被辞退被指控将文档转移出公司2021年4月7日离职与下属离职有关2021年2月20日对处理问题的方式表示歉意2018年I/O大会谷歌推出AI服务机器人Duplex，旨在帮助替用户拨打语音电话进行预约服务。Duplex可以模仿人类的语气，发音也与真人十分接近。但遭到舆论批评。2018年4月谷歌与五角大楼签署协议，计划为利用人工智能提高无人机打击准确性的项目Maven提供技术支持，这一举动招致了谷歌员工和舆论界的广泛批评。2018年6月谷歌发布了

52、人工智能十一条准则，包括谷歌进行AI研发的七个目标和谷歌AI绝不会进入的四种应用场景。2019年3月谷歌宣布成立“先进技术外部咨询委员会”，希望通过哲学家、工程师和政策专家组成的团队帮助解决人工智能带来的道德风险。2019年7月谷歌陷语音监听风波2021年10月谷歌大型语言模型 LaMDA研究人员Noam Shazeer离职2022年1月DeepMind联合创始人Mustafa Suleyman退出谷歌2022年4月谷歌大模型研究人员David Luan、Ashish Vaswani、Niki Parmar离职2022年5月谷歌AI研究员Satrajit Chatterjee质疑Jeff De

53、an领衔的Nature论文被解雇2023年2月传OpenAI秘密雇佣多位前谷歌AI研究人员，帮助改进ChatGPT40%45%50%55%00Top 10机构论文被接收数量（份）总论文被接收数量（份）CR 10-10 20 30 40 5080246201020142018Antitrust cases filed by DOJ-Civil MA(5)Antitrust cases filed by EU MA(5)Antitrust cases filed by

54、 EU+DOJ MA(5)8 美股公司深度报告百度百度请参阅最后一页的重要声明论热议，从而迫使产品下线。例如 2015 年 Google 将黑人女性的图片识别为 Gorilla（大猩猩）8；2016 年微软聊天机器人因种族歧视言论迅速被下线9；2021 年 Facebook（Meta）将黑人男性标注为 Primate（灵长类动物）10。对于大型科技公司的舆论和监管压力天然高于创业公司11，这也导致其面临较高的合规成本，丧失部分灵活性。总结来看，BERT 模型由于存在双向路径，实现相似效果需要的参数量更大，对计算资源的要求更高，在千亿规模下表现相对弱于 GPT，且下游任务统一化利于 GPT

55、模型。而据 OpenAI，其认为 GPT 模型规模已经接近极限，往后的效果提升需要指数级参数/数据规模提升，边际效果提升较小，ROI 较低。在类似 Transformer 的新架构出现前，GPT 较 BERT 是更好的技术路径，不同 GPT 模型的差异主要取决于预训练等环节的差异。2.预训练预训练：差异来自数据集、知识图谱、参数规模、训练策略：差异来自数据集、知识图谱、参数规模、训练策略预训练环节的主要差异来自 1）训练数据集，包括数据集规模、语料比例；2）知识图谱的引入；3）参数规模；4）训练策略的优化。2.1 训练数据集训练数据集训练数据集规模提升能够提升模型预测的精度以及稳定性。训

56、练数据集规模提升能够提升模型预测的精度以及稳定性。在Pattern Recognition and Machine Learning3.2 节中，作者讨论了随着数据集规模提升对模型预测精度和稳定性等指标的影响。在数据量固定的情况下，模型精度和稳定性之间存在取舍，一个增加另一个就会减少。在数据量增加的情况下，这两项之和可以进一步减小，但是噪音项是无法消除的。另一方面，训练数据集规模的提升也会导致训练时长、成本的提升，这会影响最终服务的成本。图图 15:损失函数可拆分为损失函数可拆分为 bias、variance、noise 项项数据来源：Pattern Recognition and Mach

57、ine Learning，中信建投但值得注意的是，数据重复会但值得注意的是，数据重复会对模型性能产生显著负向影响。对模型性能产生显著负向影响。Google 和 Upenn 团队在 Deduplicating Training Data Makes Language Models Better提到，基于去重后数据集训练的模型性能有所提升。而 Anthropic 团队在Scaling Laws and Interpretability of Learning from Repeated Data具体研究了重复数据对模型性能的量化影响，其中 1）10%的数据重复可能会导致模型效果 50%的恶化，即

58、 2x 参数规模的模型在 10%数据重复下性能弱于 1x 8 https:/ 9 https:/ 10 https:/ 11 https:/ Meta 没有推出类似 ChatGPT 的系统时，LeCun 回答说，因为谷歌和 Meta 都会因为推出编造东西的系统遭受巨大损失。”9 美股公司深度报告百度百度请参阅最后一页的重要声明参数规模的模型性能12。2）这种现象可能是模型采取记忆的方式降低损失函数，图图 16:重复数据集下模型困惑度提升，自然数据集去重下困重复数据集下模型困惑度提升，自然数据集去重下困惑度下降惑度下降图图 17:基于去重数据训练的模型困惑度下降基于去重数据训练的模型困惑

59、度下降数据来源：Deduplicating Training Data Makes Language Models Better13，中信建投注：C4 Duplicates：使用NEARDUP计算出来的带有重复的子集，C4 Unique：使用NEARDUP去重之后的子集。数据来源：Deduplicating Training Data Makes Language Models Better，中信建投图图 18:重复训练一定次数会导致模型性能的显著恶化重复训练一定次数会导致模型性能的显著恶化图图 19:不同不同参数参数规模的模型受重复数据训练的负向影响规模的模型受重复数据训练的负向影响

60、数据来源：Scaling Laws and Interpretability of Learning from Repeated Data，中信建投数据来源：Scaling Laws and Interpretability of Learning from Repeated Data，中信建投训练数据集的多样性有助于提升模型性能。训练数据集的多样性有助于提升模型性能。ERNIE 团队在 ERNIE 1.0 时注意到引入不同种类的语料能够提升模型预测的准确率。OpenAI 团队在 GPT-3 论文中也引入大规模且多种类的训练数据。总体而言，语料多样性越充分，高质量语料占比越高，对模型的预

61、测准确度有帮助。12 Scaling Laws and Interpretability of Learning from Repeated Data：“We showed that a dataset with only 10%repeated tokens can reduce model performance by an effective 2x in parameter count,much more than if that 10%of the data had simply never been trained on.”13 另外，论文提到数据集“重复”与通常意义的论文查重不同，

62、因为数据量较大情况下完全相似的概率很低，因此一般是以“一定长度的连续子串的重复”作为标准，这里的一定长度则是存在主观裁量空间的（ExactSubstr）；此外，研究团队使用相似性哈希算法 MinHash 直接近似计算整个训练样本的相似度，作为精确字符串匹配的补充，（NearDup）。10 美股公司深度报告百度百度请参阅最后一页的重要声明表表 2:训练语料引入多轮对话后模型预测准确率提升训练语料引入多轮对话后模型预测准确率提升 Corpus proportion(10%of all training data)Dev Accuracy Test accuracy Baike(100%)76

63、.50%75.90%Baike(84%)/news(16%)77.00%75.80%Baike(71.2%)/news(13%)/forum Dialogue(15.7%)77.70%76.80%资料来源：ERNIE:Enhanced Representation through Knowledge Integration，中信建投注：ERNIE模型的训练数据集主要是百度生态内数据，例如百度百科、百度新闻、百度贴吧。代码代码训练语料也可能对训练语料也可能对 CoT 能力产生较大影响。能力产生较大影响。根据 Mirac Suzgun（2022）等人的研究14，基于代码和文本数据训练的 Code

64、x 模型在基于提示遵循任务指令、探索算法规律方面表现优于 InstructGPT 和 PaLM。更进一步，学界/业界希望分析出具体哪一因素导致 CoT 能力产生（主要区分 fine-tuned/代码训练），因而进行对比研究。Jason Wei 在第一版论文（https:/arxiv.org/pdf/2201.11903v1.pdf）提到，GPT-3 text-davinci-001 在 GSM8K 测试集上表现的推理能力较弱，而text-davinci-001是完全基于文本训练的模型。在论文第五版中 GPT-3 text-davinci-002/Codex code-davinci-002 在

65、 GSM8K 测试集上表现明显提升。而 Percy Liang 等研究15总结基于代码训练的模型在推理能力方面强于非代码训练的模型，其测试集中平均推理能力 Codex cushman v1 位列（9/30），Codex davinci v2（1/30）。因此推理能力来自代码训练的可能性更大，代码训练对提升推理能力有明显帮助。图图 20:CoT Prompt 对对不同规模、语料训练下模型性能的影响不同规模、语料训练下模型性能的影响数据来源：Challenging BIG-Bench tasks and whether chain-of-thought can solve them，中信建投注

66、：InstructGPT models 缩写如下:a-1(text-ada-001),b-1(text-babbage-001),c-1(text-curie-001),d-1(text-davinci-001),and d-2(text-davinci-002).Codex models缩写如下:c-1(code-cushman-001),d-1(code-davinci-002),and d-2(code-davinci-002).更进一步的佐证是更进一步的佐证是 Zero-Shot Prompting。根据 Takeshi Kojima 等人的研究16，通过加入“Lets think s

67、tep by step”提示，模型的表现有显著提升。且根据Scaling Instruction-Finetuned Language Models，Finetune 计算量仅占预训练的很小比例，因此更大可能逻辑推理能力是预训练模型本身具备的，CoT Prompt 激活了这类能力。14 Challenging BIG-Bench tasks and whether chain-of-thought can solve them原文如下“Codex,trained on both code and text data,shows better performance in following t

68、ask instructions and exploiting algorithmic patterns based on the prompt exemplars compared to InstructGPT and PaLM.”15 Holistic Evaluation of Language Models。16 Large Language Models are Zero-Shot Reasoners。11 美股公司深度报告百度百度请参阅最后一页的重要声明图图 21:指令微调相对预训练计算量占比很小指令微调相对预训练计算量占比很小数据来源：Scaling Instructio

69、n-Finetuned Language Models，中信建投此外，训练数据集的规模也对模型性能提升有所帮助。DeepMind 团队 2022 年 3 月的研究指出17，现有的大语言模型主要聚焦参数规模的扩张，但在训练数据集规模的扩大上存在不足，而实验表明数据集大小与参数规模同步（不意味着同比例）扩张能够进一步提升模型性能，为大模型优化效率提供一个新的思路。图图 22:固定计算量，改变模型大小固定计算量，改变模型大小，存在最优参数规模，存在最优参数规模图图 23:固定固定计算量计算量，得到模型参数规模与训练量的关系得到模型参数规模与训练量的关系数据来源：Training Compute

70、-Optimal Large Language Models，中信建投数据来源：Training Compute-Optimal Large Language Models，中信建投图图 24:将前述实验参数拟合函数，得到固定计算量模型规模、训练量与模型性能的曲线将前述实验参数拟合函数，得到固定计算量模型规模、训练量与模型性能的曲线数据来源：Training Compute-Optimal Large Language Models，中信建投 17 Training Compute-Optimal Large Language Models。12 美股公司深度报告百度百度请参阅最后一

71、页的重要声明图图 25:GPT-3 等模型参数规模过大，训练量不足，有进一步提升空间等模型参数规模过大，训练量不足，有进一步提升空间数据来源：Training Compute-Optimal Large Language Models，中信建投 2.2 知识图谱知识图谱将知识图谱引入大语言模型存在几种形式：1）生成“主体、关系、客体（subject entity，relation，object entity）”的文本知识库，并应用于标准的任务训练中；2）在句子层面抽取/生成与知识图谱形式对应的数据，应用于任务训练中（ERNIE、KELM18、SKILL19等）。这些形式目前存在生成成本过

72、高（规模化难度大），且并非所有知识都能转化为“主体、关系、客体”形式，因而可能存在信息遗漏等问题。ERNIE 1.0 模型相比模型相比 BERT 最大的变化就是引入知识图谱，从而提升预测准确度。最大的变化就是引入知识图谱，从而提升预测准确度。2019 年 4 月 ERNIE 团队提出基于 BERT 的改进掩码策略，1）在单词级别随机生成掩码并引导模型预测（basic-level masking），2）词组级别（phrase-level masking）、实体级别（entity-level masking）随机生成掩码并引导模型预测。例如：哈利波特是 J.K.罗琳写的小说。单独预测哈MASK波特

73、或者 J.K.MASK琳情况下，模型无法学到哈利波特和J.K.罗琳的关系。如果把哈利波特直接 MASK 掉的话，那模型可以根据作者，就预测到小说这个实体，实现知识的学习。图图 26:ERNIE、BERT 掩码策略差异掩码策略差异数据来源：ERNIE:Enhanced Representation through Knowledge Integration，中信建投 18 Knowledge Graph Based Synthetic Corpus Generation for Knowledge-Enhanced Language Model Pre-training。19 SKILL:St

74、ructured Knowledge Infusion for Large Language Models。13 美股公司深度报告百度百度请参阅最后一页的重要声明表表 3:不同掩码策略及数据集规模下的模型预测准确率不同掩码策略及数据集规模下的模型预测准确率 Pre-training dataset size Mask strategy Dev accuracy Test accuracy 10%of all word-level(chinese character)77.70%76.80%10%of all word-level&phrase-level 78.30%77.30%10%o

75、f all word-level&phrase-leve&entity-level 78.70%77.60%All word-level&phrase-level&entity-level 79.90%78.40%资料来源：ERNIE:Enhanced Representation through Knowledge Integration，中信建投 Google 与与 EPFL 团队将知识图谱引入团队将知识图谱引入 T5 模型也取得了明显的效果提升。模型也取得了明显的效果提升。相比 ERNIE 团队及 Google（KELM）此前的工作，SKILL 的改进主要是引入 Wikipedia 等知

76、识图谱库直接用于训练，而无需将原始数据处理、对齐成知识图谱库的形式。引入知识图谱后，T5 模型在问答等测试集上表现有所提升。图图 27:直接注入知识图谱后模型效果提升明显直接注入知识图谱后模型效果提升明显数据来源：SKILL:Structured Knowledge Infusion for Large Language Models，中信建投引入知识图谱在引入知识图谱在性能方面的提升是以推理速度为代价的。性能方面的提升是以推理速度为代价的。根据吉林大学等团队研究，尽管 KG-BERT、StAR 在引入知识图谱后模型在一些测试集的表现有所提升，这种提升是同一量级内的，但模型的推理速度则较传

77、统的 RotatE 慢了百倍至千倍的水平，这可能会成为知识图谱在 LLM 领域应用的瓶颈之一。图图 28:StAR、KG-BERT 相比传统的相比传统的 RotatE 方法在性能上有所提升，但方法在性能上有所提升，但极大地极大地牺牲了推理速度牺牲了推理速度数据来源：Structure-Augmented Text Representation Learning for Efficient Knowledge Graph Completion，中信建投 14 美股公司深度报告百度百度请参阅最后一页的重要声明 2.3 参数规模参数规模不受其他因素制约的情况下，参数规模提升会驱动模型性能稳步

78、提升。不受其他因素制约的情况下，参数规模提升会驱动模型性能稳步提升。OpenAI 在Scaling Laws for Neural Language Models提到，当模型参数规模、训练数据集规模、计算资源投入提升时，大模型的性能会平稳地提高。为实现最佳性能，这三个因素需要以特定比例同步提升。实证表明模型综合性能与每个因素都存在一个幂律关系。图图 29:模型参数规模、训练数据集规模、计算资源投入提升与模型性能提升存在模型参数规模、训练数据集规模、计算资源投入提升与模型性能提升存在 Scaling Law 数据来源：Scaling Laws for Neural Language Models

79、，中信建投图图 30:模型参数规模、训练数据集规模、计算资源投入需要成比例地同步提升模型参数规模、训练数据集规模、计算资源投入需要成比例地同步提升数据来源：Scaling Laws for Neural Language Models，中信建投“涌现”可能是度量选择的结果。“涌现”可能是度量选择的结果。斯坦福大学团队在Are Emergent Abilities of Large Language Models a Mirage?对大模型涌现现象提出思考，过往模型能力非线性的提升被称为涌现，而这种现象背后可能是打分函数的非线性导致的。研究团队重构打分函数并基于 GPT 系列模型进行测试，结

80、果显示涌现现象消失。图图 31:在在 BIG-Bench 任务中，任务中，92%的涌现能力是这两个度量下出现的的涌现能力是这两个度量下出现的数据来源：Are Emergent Abilities of Large Language Models a Mirage?，中信建投 15 美股公司深度报告百度百度请参阅最后一页的重要声明图图 32:将打分函数修改为接近线性函数后模型性能与参数规模的关系回归线性（未出现涌现现象）将打分函数修改为接近线性函数后模型性能与参数规模的关系回归线性（未出现涌现现象）数据来源：Are Emergent Abilities of Large Language

81、 Models a Mirage?，中信建投图图 33:对于多项选择，换成对于多项选择，换成 brier score(MSE)也使得也使得涌现现象涌现现象消失消失数据来源：Are Emergent Abilities of Large Language Models a Mirage?，中信建投 16 美股公司深度报告百度百度请参阅最后一页的重要声明 2.4 训练策略的优化训练策略的优化训练效率优化主要来自内存和硬件/算法的优化，而计算效率优化还包括数据筛选、加速器优化、初始策略优化、稀疏训练、大批量训练等。图图 34:目前学界目前学界/业界提升模型计算效率的策略分类业界提升模型计算

82、效率的策略分类数据来源：A Survey on Efficient Training of Transformers，中信建投 2.4.1 加速优化器 Adam 在在 Transformer 架构模型上优于架构模型上优于 SGD with momentum，且坐标剪裁（，且坐标剪裁（CClip）优于全局剪裁（）优于全局剪裁（GClip）。MIT 和 Google 研究团队在Why Adam beats SGD for attention models提到 SGD with momentum 在多数任务上表现好于自适应方法，但在注意力机制模型（如 BERT）Adam 收敛速度、稳定性好于 SG

83、D with momentum。而研究团队指出，SGD 表现不佳的原因主要是 BERT 模型规模通常更大，且呈现厚尾分布，而 ImageNet 的随机梯度分布更接近高斯分布。BERT 模型随机梯度的厚尾分布导致，一些随机梯度大于平均值从而致使 SGD 的过度更新，因而 SGD 不稳定，最终收敛效果不如 Adam。此外，团队提出 ACClip，收敛速度和稳定性优于 Adam。图图 35:ADAM 优化器预训练表现优于优化器预训练表现优于 SGD with momentum 图图 36:ADAM 优化器预训练表现弱于优化器预训练表现弱于 SGD with momentum 数据来源：Why Ada

84、m beats SGD for attention models，中信建投数据来源：Why Adam beats SGD for attention models，中信建投 17 美股公司深度报告百度百度请参阅最后一页的重要声明图图 37:BERT 模型模型 Noise 呈现厚尾分布（呈现厚尾分布（heavy-tailed distribution），而），而 ImageNet 的的 Nosie 分布更接近高斯分布分布更接近高斯分布数据来源：Why Adam beats SGD for attention models，中信建投图图 38:Attention 机制和数据都会导致厚尾

85、分布机制和数据都会导致厚尾分布数据来源：Why Adam beats SGD for attention models，中信建投 Google 团队提出团队提出 Lion 优化器优化器，效果、效率均优于，效果、效率均优于 Adam 相关算法相关算法。Google 团队于 2023 年 2 月提出了 Lion优化器，此前流行的 AdamW 等自适应优化器需要同时保存一阶和二阶矩相比，Lion 只需要动量，这意味着内存占用降低，且在语言、视觉、多模态等模型训练效果上和效率是均优于 AdamW 等传统优化器。图图 39:Lion 优化器在不同参数规模的语言模型下总体表现优于优化器在不同参数规模的语

86、言模型下总体表现优于 AdamW 数据来源：Symbolic Discovery of Optimization Algorithms，中信建投 18 美股公司深度报告百度百度请参阅最后一页的重要声明图图 40:Lion 优化器在不同参数规模的视觉模型下表现优于优化器在不同参数规模的视觉模型下表现优于 AdamW 数据来源：Symbolic Discovery of Optimization Algorithms，中信建投图图 41:视觉模型训练上视觉模型训练上 Lion 相比相比 AdamW 训练速度提升了训练速度提升了 35 倍倍数据来源：Symbolic Discovery o

87、f Optimization Algorithms，中信建投注：左图是在ImageNet ReaL数据集上训练，右图是在ImageNet V2数据集训练。图图 42:语言模型训练上语言模型训练上 Lion 相比相比 AdamW 训练速度提升了训练速度提升了 1.52 倍倍数据来源：Symbolic Discovery of Optimization Algorithms，中信建投注：左图是在Wiki-40B数据集上训练，右图是在PG-19数据集训练。技术细节上，Lion 相比 AdamW 而言减少了参数，并减少了缓存参数，在计算过程中去除了开根号和除法，因而实现计算速度提升，并减低内存占

88、用。相比 AdamW，Lion 对模型所有参数引入 Sign（相当于增加额外噪声），使得模型进入损失更平坦的区域，从而泛化性能更好。19 美股公司深度报告百度百度请参阅最后一页的重要声明图图 43:AdamW 和和 Lion 优化器算法对比优化器算法对比数据来源：Symbolic Discovery of Optimization Algorithms，中信建投图图 44:Lion 训练下模型性能更优，且训练下模型性能更优，且 Loss 更平坦更平坦数据来源：Symbolic Discovery of Optimization Algorithms，中信建投针对视觉模型的优化器，

89、Google 研究团队在 2021 年提出 Sharpness-aware minimization 方法，提升模型的泛化能力和稳健性。2021 年 10 月 NUS 研究团队提出 ESAM，在不损失性能的情况下通过引入随机权重扰动和锐度敏感型数据筛选，大幅降低 SAM 的计算成本。由于扰动参数的随机选择，后向传播过程中的计算成本下降，同时确保泛化能力不下降；另一方面针对小批量数据计算梯度更新，而不是全部样本数据，进一步节约计算量，同时这种筛选后计算的上界会被全样本计算的上界所约束，因此整体性能不会下降。2022 年 5 月NUS 和字节跳动团队进一步提出 SAF，引入 KL-divergen

90、ce 实现 Loss 的平滑收敛，降低成本同时提升性能。图图 45:SAM 提升了模型对标签噪声的稳健性，并优化了模型训练效率提升了模型对标签噪声的稳健性，并优化了模型训练效率，ESAM 降低了计算成本降低了计算成本数据来源：Sharpness-aware minimization for efficiently improving generalization，Efficient sharpness-aware minimization for improved training of neural networks，中信建投 20 美股公司深度报告百度百度请参阅最后一页的重要声明图

91、图 46:SAF、ESAM、SAM、Vanilla（SGD）在）在 ImageNet 上的性能、效率对比上的性能、效率对比数据来源：Sharpness-Aware Training for Free，中信建投 2.4.2 初始化策略良好的初始化策略对于稳定训练、提高学习率、良好的初始化策略对于稳定训练、提高学习率、加速收敛，并提高泛化能力至关重要。加速收敛，并提高泛化能力至关重要。MIT 和 Google 研究团队202019 年 1 月提出 Fixed-update（Fixup）初始化策略，并指出在不做归一化（Normalization）情况下，深度残差网络也可以实现稳定训练，并且收敛速

92、度和泛化性能保持一致。在 ResNet 中如果初始化时不做归一化处理，随着深度增加，方差扩大容易导致梯度爆炸。研究团队提出的初始化策略通过调整标准初始化来确保网络函数的更新保持在恰当范围内。作者用表示学习率，将目标设置如下图所示。其目标是使网络函数的 SGD更新保持在合适范围内，且独立于网络深度。最终 Fixup 在训练性能上总体表现较好。图图 47:Fixup 初始化策略初始化策略数据来源：Fixup initialization:Residual learning without normalization，中信建投图图 48:以默认学习率在以默认学习率在 CIFAR-10 数据集数

93、据集训练性能对比训练性能对比图图 49:Fixup 与与 LN 在机器翻译任务上的表现（分数越高越好）在机器翻译任务上的表现（分数越高越好）数据来源：Fixup initialization:Residual learning without normalization，中信建投数据来源：Fixup initialization:Residual learning without normalization，中信建投 20 Fixup initialization:Residual learning without normalization。21 美股公司深度报告百度百度请参阅最后一

94、页的重要声明 2020 年 3 月 UCSD21研究团队进一步提出 Rezero，在传统的残差连接+1=+()基础上加入学习参数，调整为+1=+()，其中初始值为 0。研究团队以一个简单实验说明初始值为 0 的好处。假设现在有一模型有层，每一层只有一个神经元，而且所有层都共享这一个神经元，则模型输出可表示为：=(1+)0，传统残差连接中初始值为 1，且初始化 1，则 2，这导致输入项较小的扰动可能造成输出项的较大变化，因而梯度非常不稳定。而初始值为 0 时，梯度会更稳定。图图 50:模型拟合模型拟合=的对数等高线示意图，左图是使用二次损失的损失图，右图是对应的梯度范数的对数等高线示意图，左图是

95、使用二次损失的损失图，右图是对应的梯度范数数据来源：ReZero is All You Need：Fast Convergence at Large Depth，中信建投注：红线是初始化=0和不同的初始化在训练中的变化轨迹。具体在训练 Transformer 模型时，当层数为 4 层时，保持在 1 附近，这就表明输入的变化既不会造成输出的太大变化，也能使得模型得以训练。而当层数增加，尤其是增加到 64 层时，该值非常小，这说明输入的较大变化只会导致输出的较小变化，模型难以训练。使用 ReZero 后，Transformer 训练时基本维持在 1 附近。最终研究团队在 12 层 Transf

96、ormer 模型下对比了 ReZero 与 Norm 的训练速度和迭代次数，结果显示 ReZero 速度更快，迭代次数更少，相比原始 Transformer 收敛速度提升 56%。图图 51:Transformer 输出输出-输入的输入的 Jacobian 矩阵中的奇异值矩阵中的奇异值在不同层的模型下的分布在不同层的模型下的分布，ReZero 在在 Transformer 架构下架构下收敛速度提升收敛速度提升 56%数据来源：ReZero is All You Need：Fast Convergence at Large Depth，中信建投注：横轴取对数，()=0时，=1。2020 年 2

97、月 Google22研究团队提出 SkipInit，也采取了与 ReZero 相同的残差连接以及=0设定。Google 团队在研究中量化对比了 BN 和 SkipInit 的优劣：a）Skipinit 训练下模型测试准确率弱于 Batch Norm，但好于不进 21 ReZero is All You Need:Fast Convergence at Large Depth。22 Batch Normalization Biases Residual Blocks Towards the Identity Function in Deep Networks。22 美股公司深度报告百度百度

98、请参阅最后一页的重要声明行 Batch Norm 的情况，且进行 Batch Norm 与 Skipinit 在 Batch Size 小于等于 128 的时候差距相对较小，大于128 规模后性能差距逐步扩大；b）Skipinit 训练下当 Batch Size 小于等于 1024 时，模型损失 Batch Norm。究其原因，Batch Norm 在大规模参数训练下的学习率能够保持较高水平，而 Skipinit 的规模化能力相对较弱。图图 52:Skipinit 与与 BN 在不同批规模下的数据对比在不同批规模下的数据对比数据来源：Batch normalization biases r

99、esidual blocks towards the identity function in deep networks，中信建投 2.4.3 稀疏训练稀疏训练主要是面向超大参数规模模型的训练和部署，通过移除部分权重，模型训练可以节约部分计算量，且减少内存占用，实现更好地压缩效果，降低部署和训练门槛。稀疏训练领域的经典论文来自 MIT 研究团队2018 年 3 月发表的The Lottery Ticket Hypothesis:Finding Sparse,Trainable Neural Networks，作者通过对比非结构化剪枝和中奖彩票曲线发现，中奖彩票能较快的训练，并达到跟原网络相

100、似的精度。同时表明网络越稀疏学习越慢，导致最终的测试精度越低。因此，研究团队提出彩票假设：随机初始化的密集神经网络包含一个初随机初始化的密集神经网络包含一个初始化的子网，当经过隔离训练时，它可以匹配训练后最多相同迭代次数的原始网络的测试精度。始化的子网，当经过隔离训练时，它可以匹配训练后最多相同迭代次数的原始网络的测试精度。图图 53:以不同规模开始训练时，会发生提前停止迭代（左）和该迭代以不同规模开始训练时，会发生提前停止迭代（左）和该迭代的的准确性（右）准确性（右）数据来源：The Lottery Ticket Hypothesis:Finding Sparse,Trainable Neu

101、ral Networks，中信建投注：在虚线是随机抽样的稀疏网络（十次试验的平均值），实线是中奖彩票（五次试验的平均值）。由于由于 LTH 需要训练需要训练-剪枝剪枝-再训练的过程来识别彩票，因而计算成本较高，后续的研究主要聚焦降低上述过再训练的过程来识别彩票，因而计算成本较高，后续的研究主要聚焦降低上述过 23 美股公司深度报告百度百度请参阅最后一页的重要声明程的成本。程的成本。典型技术路线包括 1）通过测量连接对损失的重要性，在初始化时一次找到稀疏网络，无需复杂的迭代优化计划；2）在 Transformer 模型训练早期低成本识别彩票并逐步训练至收敛；3）在训练过程中逐步进行有选择

102、性地剪枝。另外，另外，UCB 和清华大学团队的研究则挑战了“和清华大学团队的研究则挑战了“训练训练-剪枝剪枝-微调”这一观点。微调”这一观点。所谓训练-剪枝-微调本质上是隐含假设了参数和结构是耦合的，如果参数和结构可以解耦，剪枝后模型不需要微调也能达到较好效果。在Rethinking the Value of Network Pruning中，研究团队系统地对比了结构性剪枝和非结构性剪枝，不同学习率下剪枝后模型与 Fine-tuned 模型性能对比，结果显示 1）对于结构性剪枝后的模型，随机初始化从头训练后可以达到和 Fine-tuned 后相同甚至更好的效果；2）对于非结构性剪枝后的模型，在

103、 CIFAR 数据集上，随机初始化从头训练后可以达到和 Fine-tuned 后相同甚至更好的效果；但在 ImageNet 数据集上，剪枝率大到一定程度，随机初始化从头训练后无法达到和 Fine-tuned 后相同的效果。图图 54:在不同数据集在不同数据集/模型模型/剪枝率条件下剪枝率条件下结构性剪枝后模型重新训练后性能结构性剪枝后模型重新训练后性能总体优于总体优于 Fine-tuned 模型模型数据来源：Rethinking the Value of Network Pruning，中信建投图图 55:非结构性剪枝模型在非结构性剪枝模型在 CIFAR 与与 ImageNet、不同剪枝率

104、下表现有所分化、不同剪枝率下表现有所分化数据来源：Rethinking the Value of Network Pruning，中信建投基于Rethinking the Value of Network Pruning的结论，对于结构性剪枝，其繁琐流程带来的计算成本高 24 美股公司深度报告百度百度请参阅最后一页的重要声明企得以解决，后续的研究思路更多聚焦对剪枝的搜索、优化；而对于非结构性剪枝，前述结论在不同数据集上并非普遍成立，这意味着仍需进一步的研究。2.4.4 过参数一些观点认为深度神经网络往往存在参数数倍于数据量的情况，从而出现模型在训练集上表现很好，但在实际应用中泛化能

105、力不强，这对应下方(a)图，但俄亥俄州立大学、哥伦比亚大学的研究团队在 2018 年 12 月Reconciling modern machine learning practice and the bias-variance trade-of指出随着复杂度提升，模型存在一个二次下降风险曲线（Double descent risk curve），对应下方(b)图。图图 56:当复杂度超过一定界限后，过拟合风险会下降当复杂度超过一定界限后，过拟合风险会下降数据来源：Reconciling modern machine learning practice and the bias-varianc

106、e trade-of，中信建投图图 57:Double descent risk curve for RFF model on MNIST 图图 58:Double descent risk curve for fully connected neural network on MNIST 数据来源：Reconciling modern machine learning practice and the bias-variance trade-of，中信建投数据来源：Reconciling modern machine learning practice and the bias-vari

107、ance trade-of，中信建投一个疑问是为何一个疑问是为何过拟合的风险随着参数规模提升而减小？过拟合的风险随着参数规模提升而减小？一种一种解释是过拟合会促使模型产生冗余解释是过拟合会促使模型产生冗余，冗余是，冗余是减少减少 co-adaption 的必要条件，这会导致模型稳健性、泛化能力的提升的必要条件，这会导致模型稳健性、泛化能力的提升。而多伦多大学 2012 年 7 月的研究表明，通过 Dropout23一些特征检测器，模型训练能够防止 co-adaptation。Co-adapt 则是来自研究团队对A mixability theory for the role of sex i

108、n evolution的联想，即性别打破了基因的共同适应（co-adapt），由此映射到深度神经网络中，对应大规模参数 co-adapt 的效果不如非 co-adapt 的其他参数组合好。这种特性避免了人类在进化中进 23 以特定概率随机删除网络中的隐藏单元。Improving neural networks by preventing co-adaptation of feature detectors研究中这一概率是 50%。25 美股公司深度报告百度百度请参阅最后一页的重要声明入困境，并且避免了环境的微小变化导致人类适应能力大幅减弱的情况，而这在机器学习中称为“过度拟合”。图图 5

109、9:基于基于 MNIST 测试集，测试集，采取采取 Dropout 策略的策略的测试效果测试效果显著优于未采用显著优于未采用 Dropout 策略策略图图 60:基于基于 MNIST 测试集，测试集，采取不同采取不同 Dropout 策略的效果策略的效果数据来源：Improving neural networks by preventing co-adaptation of feature detectors，中信建投数据来源：Improving neural networks by preventing co-adaptation of feature detectors，中信建投过

110、参数化过参数化有益于有益于训练训练，但部署、，但部署、推理推理环节仍需压缩、剪枝环节仍需压缩、剪枝。前述多伦多大学 2012 年 7 月的研究指明了过参数化对模型稳健性和泛化能力的帮助。后续的工作也验证了过参数化对训练的增益作用，例如普林斯顿大学和Google 的研究团队 2018 年 6 月24指出线性神经网络中，过参数带来的模型结构复杂度提升（尤其是模型层数增加）会加速 SGD 收敛的速度。斯坦福大学和威斯康星麦迪逊分校的研究团队252019 年 8 月将上述结论拓展至 2层非线性模型；2018 年 11 月微软、斯坦福大学和威斯康星麦迪逊分校的研究团队26通过理论推理将结论拓展至二层以上

111、的神经网络。过参数的研究也与稀疏训练有所呼应，因为延续此前的研究，一个自然的思路就是在训练阶段扩大参数规模有利于训练，但在部署、推理环节则可以通过剪枝、压缩等技术降低负载。2020 年 2 月，UCB 团队27指出给定计算资源约束下，最优策略是训练大模型，再进行剪枝、压缩。图图 61:模型规模扩大有利于模型性能提升，且剪枝后模型推理准确性更高模型规模扩大有利于模型性能提升，且剪枝后模型推理准确性更高数据来源：Train Large,Then Compress:Rethinking Model Size for Efficient Training and Inference of Trans

112、formers，中信建投 24 On the Optimization of Deep Networks:Implicit Acceleration by Overparameterization。25 Learning Overparameterized Neural Networks via Stochastic Gradient Descent on Structured Data。26 Learning and Generalization in Overparameterized Neural Networks,Going Beyond Two Layers。27 Train Lar

113、ge,Then Compress:Rethinking Model Size for Efficient Training and Inference of Transformers。26 美股公司深度报告百度百度请参阅最后一页的重要声明图图 62:大模型训练速度更快大模型训练速度更快图图 63:大模型压缩后效果更优大模型压缩后效果更优数据来源：Train Large,Then Compress:Rethinking Model Size for Efficient Training and Inference of Transformers，中信建投数据来源：Train Larg

114、e,Then Compress:Rethinking Model Size for Efficient Training and Inference of Transformers，中信建投图图 64:大模型剪枝、量化后均更稳健大模型剪枝、量化后均更稳健数据来源：Train Large,Then Compress:Rethinking Model Size for Efficient Training and Inference of Transformers，中信建投图图 65:大模型量化大模型量化+剪枝后效果好于小模型剪枝后效果好于小模型图图 66:模型模型规模与规模与预训练收敛预

115、训练收敛对对大模型的可压缩性大模型的可压缩性的影响的影响数据来源：Train Large,Then Compress:Rethinking Model Size for Efficient Training and Inference of Transformers，中信建投数据来源：Train Large,Then Compress:Rethinking Model Size for Efficient Training and Inference of Transformers，中信建投 27 美股公司深度报告百度百度请参阅最后一页的重要声明 2.4.5 大批量训练大批量训练主要

116、是提升单批次训练的数据量，从而实现加速训练的效果，但大批量训练也会带来训练难以收敛等副产物。因此，学界的主要研究方向就是平衡二者的关系，尽可能实现整体训练效率的提升。图图 67:增大批处理规模会使得训练从平缓底部转向更陡峭的底部增大批处理规模会使得训练从平缓底部转向更陡峭的底部数据来源：On Large-Batch Training for Deep Learning:Generalization Gap and Sharp Minima，中信建投西北大学和 Intel 的研究团队 2016 年 9 月指出，增大批处理规模会使得训练从平缓底部转向更陡峭的底部。研究团队通过实验表明小批量训练

117、策略的模型精度更好，且大批量训练准确率和交叉熵的 Loss 都收敛于更陡峭的区间，而小批量训练模型则收敛于更平缓的区间。图图 68:比较大批量训练与小批量训练策略下的模型性能比较大批量训练与小批量训练策略下的模型性能数据来源：On Large-Batch Training for Deep Learning:Generalization Gap and Sharp Minima，中信建投表表 4:不同网络的设定不同网络的设定名称名称网络结构网络结构数据集数据集 1 Fully Connected MNIST 2 Fully Connected TIMIT 1(Shallow)Conv

118、olutional CIFAR-10 2(Deep)Convolutional CIFAR-10 3(Shallow)Convolutional CIFAR-100 4(Deep)Convolutional CIFAR-100 资料来源：On Large-Batch Training for Deep Learning:Generalization Gap and Sharp Minima，中信建投 28 美股公司深度报告百度百度请参阅最后一页的重要声明图图 69:F1 网络交叉熵网络交叉熵 Loss 与准确率收敛情况（与准确率收敛情况（LB，=1）图图 70:F2 网络交叉熵网络交叉熵

119、 Loss 与准确率收敛情况（与准确率收敛情况（SB，=0）数据来源：On Large-Batch Training for Deep Learning:Generalization Gap and Sharp Minima，中信建投数据来源：On Large-Batch Training for Deep Learning:Generalization Gap and Sharp Minima，中信建投图图 71:C1 网络交叉熵网络交叉熵 Loss 与准确率收敛情况与准确率收敛情况图图 72:C2 网络交叉熵网络交叉熵 Loss 与准确率收敛情况与准确率收敛情况数据来源：On La

120、rge-Batch Training for Deep Learning:Generalization Gap and Sharp Minima，中信建投数据来源：On Large-Batch Training for Deep Learning:Generalization Gap and Sharp Minima，中信建投图图 73:C3 网络交叉熵网络交叉熵 Loss 与准确率收敛情况与准确率收敛情况图图 74:C4 网络交叉熵网络交叉熵 Loss 与准确率收敛情况与准确率收敛情况数据来源：On Large-Batch Training for Deep Learning:Gen

121、eralization Gap and Sharp Minima，中信建投数据来源：On Large-Batch Training for Deep Learning:Generalization Gap and Sharp Minima，中信建投收敛于平缓区间意味着更低的精度，更好的泛化能力收敛于平缓区间意味着更低的精度，更好的泛化能力，因而大批量训练存在性能损失，因而大批量训练存在性能损失。根据 Flat minima，收敛于平缓区间意味着更低的精度。而结合 MDL 及A universal prior for integers and estimation by minimum 29

122、美股公司深度报告百度百度请参阅最后一页的重要声明 description length，低精度的统计模型具备更好地泛化性能。平缓的最小值相比陡峭的最小值具有更低的精度，因而拥有更好的泛化能力，大批量训练存在性能损失。Meta 研究团队 2017 年 6 月28则提出通过调整学习率（learning rate），以及配合 Warm-up 等操作，基于ResNet-50 大批量训练的性能损失能够显著减少，但后续 UCB、CMU 和英伟达团队 2017 年 8 月的研究29表明这一方法难以推广至其他模型，并因此提出基于 SGD 的 LARS 优化器。图图 75:通过通过调整学习率，调整学习率，

123、ResNet-50 mini-batch 训练可实现训练可实现 8K 内性能不损失内性能不损失数据来源：Accurate,Large Minibatch SGD:Training ImageNet in 1 Hour，中信建投注：1K=1024。图图 76:对于对于 AlexNet 网络，不同层的权值和其梯度的范数的比值差异很大网络，不同层的权值和其梯度的范数的比值差异很大数据来源：Large Batch Training of Convolutional Networks，中信建投注：如果比值差异很大，增大Batch size，同时提升learning rate，可能会导致一些层无法

124、更新权重。28 Accurate,Large Minibatch SGD:Training ImageNet in 1 Hour。29 Large Batch Training of Convolutional Networks。30 美股公司深度报告百度百度请参阅最后一页的重要声明图图 77:LARS 优化器主要根据范数的比值来调节每一层的学习率优化器主要根据范数的比值来调节每一层的学习率数据来源：Large Batch Training of Convolutional Networks，中信建投图图 78:W/O LARS 时时 AlexNet-BN 8K 训练存在性能损失训练

125、存在性能损失图图 79:W/LARS 时时 AlexNet-BN 8K 训练不存在性能损失训练不存在性能损失数据来源：Large Batch Training of Convolutional Networks，中信建投数据来源：Large Batch Training of Convolutional Networks，中信建投图图 80:LARS 优化器将优化器将 ResNet 50 无损训练批量提升至无损训练批量提升至 32K 数据来源：Large Batch Training of Convolutional Networks，中信建投 31 美股公司深度报告百度百度请参阅

126、最后一页的重要声明由于 LARS 优化器在 BERT 等模型应用仍存在缺陷，谷歌、UCB、UCLA 团队于 2020 年 4 月提出30基于Adam 的 LAMB 优化器，将此前的思路移植到 Attention 机制的相关模型，例如 BERT，并实现较好的效果。图图 81:LARS 与与 LAMB 算法对比算法对比数据来源：Large Batch Optimization for Deep Learning:Training BERT in 76 minutes，中信建投图图 82:LAMB 优化器训练下优化器训练下 BERT 模型的训练批量可扩展至模型的训练批量可扩展至 32K 数据来

127、源：Large Batch Optimization for Deep Learning:Training BERT in 76 minutes，中信建投后续的研究更多是通过实验发现一些工程方面的技巧，后续的研究更多是通过实验发现一些工程方面的技巧，例如 Gooogle 团队在 2022 年 4 月 PaLM 论文中指出在 checkpoint 前约 100 步重启训练，并跳过 200500 个数据批能够有效提升大语言模型训练过程的稳定性；UCL 团队 2022 年 9 月研究31指出通过将网络权重调整为过去 K 个 Checkpoint 时网络权重的移动平均值，模型训练得以加速收敛并实现更

128、好的效果。图图 83:K 值过高反而会导致模型性能恶化值过高反而会导致模型性能恶化图图 84:K 值值越高会加速模型训练收敛速度越高会加速模型训练收敛速度数据来源：Stop Wasting My Time!Saving Days of ImageNet and BERT Training with Latest Weight Averaging，中信建投数据来源：Stop Wasting My Time!Saving Days of ImageNet and BERT Training with Latest Weight Averaging，中信建投 30 Large Batch Op

129、timization for Deep Learning:Training BERT in 76 minutes，论文一作尤洋也是 LARS 论文一作（其在英伟达实习期间的研究工作）。加入谷歌后，其延续此前工作思路，提出 LAMB 优化器。31 Stop Wasting My Time!Saving Days of ImageNet and BERT Training with Latest Weight Averaging。32 美股公司深度报告百度百度请参阅最后一页的重要声明 2.4.6 增量学习增量学习的能力就是不断地处理连续信息流，在吸收新知识的同时保留甚至整合、优化旧知识的能力

130、。学界的主要技术路径有 1）正则化；2）回放；3）参数隔离等。图图 85:增量学习的技术路径增量学习的技术路径主要有三类：正则化、回放、参数隔离主要有三类：正则化、回放、参数隔离数据来源：A continual learning survey:Defying forgetting in classification tasks，中信建投正则化的思路主要是“通过给新任务的损失函数施加约束的方法来保护旧知识不被新知识覆盖”。正则化的思路主要是“通过给新任务的损失函数施加约束的方法来保护旧知识不被新知识覆盖”。正则化领域的经典研究来自 UoI 研究团队 2016 年 6 月的 Learning

131、without Forgetting 算法32（LwF），LwF 算法基于原模型在新任务上的预测值，在损失函数中加入新模型输出的蒸馏损失，并通过微调在新任务上训练模型，从而避免新模型偏离原有模型过远导致而在原任务上性能的下降。但 LwF 也存在一些缺陷，例如新旧任务相关度不高时，学习的效果较弱，且多任务下训练时长可能较长。韩国科学技术学院（KAIST）的研究团队 2016 年 7 月提出 Less-Forgetting Learning（LFL）方法33，并指出mini-batch训练是遗忘问题的来源之一；USC、ASU和三星的研究团队2020年1月提出Deep Model Consolida

132、tion34（DMC）方法。这些方法与 LwF 类似，都是存在数据依赖，如果前后任务相关度不高，则容易出现训练效果不好的情况。另一个正则化的思路则是 Prior-focused（先验），其基本原理是有选择性的减缓部分参数的权重更新，而这些参数对旧任务的表现比较重要，其隐含假设是参数之间不存在 Co-adaption 的情况，是相互独立的。DeepMind和 ICL 团队于 2016 年 12 月提出的 EWL35，是该领域研究较早的论文之一。后续剑桥大学研究团队 2017 年 10月提出 Variation Continual Learning（VCL，变量持续学习）框架，团队指出增量学习本质

133、上是一个贝叶斯推理过程：旧模型的参数属于先验知识，给定先验知识，求新数据的概率，模型的优化就是求极大似然估计的过程。图图 86:CL 贝叶斯推理的数学表达贝叶斯推理的数学表达数据来源：Variation Continual Learning，中信建投注：为模型参数，()为先验认识，为数据集，为数据，为标签。32 Learning without Forgetting。33 Less-forgetting Learning in Deep Neural Networks。34 Class-incremental Learning via Deep Model Consolidation。35

134、 Overcoming catastrophic forgetting in neural networks。33 美股公司深度报告百度百度请参阅最后一页的重要声明结合上图可以看到，给定1:，模型学习到的先验知识等价于给定1:1模型学习到的先验知识与第 T 组数据的极大似然估计。VCL 所引入的框架就是假设一个先验分布，实际训练是对先验分布的调整，并通过 KL 散度衡量二者的差距，确保二者的距离最小。后续的一些工作沿着贝叶斯推理的路径进一步优化相关算法。图图 87:Coreset VCL 算法算法数据来源：Variation Continual Learning，中信建投回放（回放（

135、Replay）的主要思想是把一部分旧数据和新数据联合训练，因此主要问题是如何挑选旧数据。）的主要思想是把一部分旧数据和新数据联合训练，因此主要问题是如何挑选旧数据。牛津大学和 IST 的研究团队 2016 年 11 月36提出 iCaRL，并假设越靠近类别特征均值的样本越具有代表性，因此选择靠近均值的旧样本混同新样本，并在损失函数中加入在新模型输出的蒸馏损失（与 LwF 类似）。由于 iCaRL 采取类似联合训练的方式，因此持续学习下可能带来部分参数过拟合、计算成本过高等问题。Meta 团队 2017 年 6月提出 Gradient Episodic Memory37（GEM，梯度片段记忆），

136、主要逻辑是不更新旧参数，并且针对新参数更新施加约束，希望更新后的模型在原有任务的表现不下降。总体来说，基于回放的增量学习需要额外的计算资源和存储空间用于回忆旧知识，当任务种类不断增多时，可能存在计算成本和内存占用增加，且存储旧知识可能涉及数据安全与隐私保护。图图 88:GEM 算法算法数据来源：Gradient Episodic Memory for Continual Learning，中信建投 36 iCaRL:Incremental Classifier and Representation Learning。37 Gradient Episodic Memory for Contin

137、ual Learning。34 美股公司深度报告百度百度请参阅最后一页的重要声明参数隔离的思路是固定参数隔离的思路是固定旧参数，为新数据旧参数，为新数据/任务训练扩大参数规模，任务训练扩大参数规模，额外的参数主要负责新数据/任务的性能。由于需要引入较多的参数和计算量，因此通常只能用于较简单的任务增量学习。3.下游调试、部署、推断下游调试、部署、推断：RLHF 仍处于技术发展的早期，潜在优仍处于技术发展的早期，潜在优化空间大化空间大 GPT 系列模型的拐点在 InstructGPT，其引入了 RLHF，对应 SFT、RM、PPO 三阶段，最终效果是 PPO 模型预测准确度好于 SFT-17

138、5 模型。而 Anthropic 团队研究Training a Helpful and Harmless Assistant with Reinforcement Learning from Human Feedback指出，InstructGPT 基于较小的 RM 训练反馈并非最优的，大规模的 RM 模型对模型性能的提升可能更好。图图 89:InstructGPT 论文中提到的下游调试过程论文中提到的下游调试过程数据来源：Training language models to follow instructions with human feedback，中信建投图图 90:Instru

139、ctGPT 经过调试后表现显著优于经过调试后表现显著优于 SFT-175B 模型模型数据来源：Training language models to follow instructions with human feedback，中信建投 35 美股公司深度报告百度百度请参阅最后一页的重要声明图图 91:大规模大规模 PM 对不同参数规模模型的效果提升是显著的对不同参数规模模型的效果提升是显著的图图 92:小规模小规模 PM 对模型的性能提升可能不显著对模型的性能提升可能不显著数据来源：Training a Helpful and Harmless Assistant with R

140、einforcement Learning from Human Feedback，中信建投注：PM即Preference Model，与Reward Model等价。数据来源：Training a Helpful and Harmless Assistant with Reinforcement Learning from Human Feedback，中信建投 Anthropic 团队上述研究的副产物即在 RLHF 中模型性能提升与 RM 的关系，进而在后续研究中可以通过这一关系估算给定性能提升目标需要多大规模的 RM，并且不同参数规模的模型性能提升曲线基本上平行的，也就是基于 RLHF

141、不同规模的模型的性能极限可能不同，并且性能提升的斜率可能是近似相同的。部署和推断在 OpenAI 论文中大多数被忽略了，仅提到微软在这方面的支持。ERNIE 在论文中提到在线蒸馏框架，实现算力节约。图图 93:百度百度 ERNIE 团队提出团队提出在线蒸馏框架在线蒸馏框架数据来源：ERNIE 3.0 TITAN:EXPLORING LARGER-SCALE KNOWLEDGE ENHANCED PRE-TRAINING FOR LANGUAGE UNDERSTANDING AND GENERATION，中信建投对齐调优方面，根据对齐调优方面，根据A Survey of Large Lan

142、guage Models，RLHF 等技术主要是帮助实现对齐调优等技术主要是帮助实现对齐调优 36 美股公司深度报告百度百度请参阅最后一页的重要声明（Alignment Tuning），目前的主流目标是），目前的主流目标是 Helpful、Honest、Harmless。OpenAI 团队38提出通过递归法能够实现对长难文本的归纳总结，并指出这类方法可以进一步泛化至其他类型的任务上，实现与人类的对齐。此外，论文指出 RL 比 SL 更有效地帮助模型对比。具体细节方面，John Schulman 在Reinforcement Learning from Human Feedback:Pro

143、gress and Challenges39提到，SFT 与其等价的 BC 存在固有缺陷，即训练越充分越容易出现欺骗（即模型并不明确自己知识的边界），RLHF 则是让模型明确有些问题自己不知道。原理上是因为 SL 训练时只有正反馈，而且对偏离样本的惩罚较重，RL 多样性更好，因而在面对不知道的问题时，SL 训练充分的模型倾向于回答（胡编乱造），而非反馈不知道40。需要指出的是，OpenAI 提出 alignment tax，即模型牺牲部分性能实现与人的对齐。图图 94:当模型性能超越一般人时，当模型性能超越一般人时，Alignment 成为挑战成为挑战数据来源：Measuring Progr

144、ess on Scalable Oversight for Large Language Models，中信建投图图 95:RM 可能存在过拟合的情况可能存在过拟合的情况图图 96:不同方法下模型过拟合情况不同方法下模型过拟合情况数据来源：Scaling Laws for Reward Model Overoptimization，中信建投数据来源：Scaling Laws for Reward Model Overoptimization，中信建投总结来看，OpenAI 在 GPT-4 训练结束后花费 6 个月左右时间进行调试和其他调整，其主要精力大体上是 38 在 2021 年

145、9 月发布Recursively Summarizing Books with Human Feedback。39 https:/ 40 https:/ 37 美股公司深度报告百度百度请参阅最后一页的重要声明放在调试上，而部署、推断等更多依赖微软和其他合作方的支持。微软/英伟达在合作声明中提到，双方基于数万块 A100、H100 GPU 芯片，NVIDIA Quantum-2 400Gb/s InfiniBand 架构，以及 NVIDIA 企业级配套软件等构建了基于公有云的 AI 超级计算机。此外，基于 ONNX runtime 的推理框架，模型的在线推理速度能够进一步优化。估值估值我

146、们预计百度于 2023/24/25 年分别实现 1377/1492/1626 亿营业收入，分别同比+11%/+8%/9%，经调整 Non-GAAP 净利润为 222/257/296 亿，分别同比+8%/+16%/+15%，对应经调整 Non-GAAP 净利润率为 17%/18%/19%。估值上，我们认为百度主要业务处于相对成熟阶段，因此适合 PE 估值。远期 PE 对应持有一年的名义回报率，以 22.5%的美国经济潜在增长率为基础，考虑额外的 10 年期国债利率，我们预计 34%的实际回报率水平处于合理区间。相对估值方面，根据彭博，截止 2023/5/11，百度 Forward P/E 为 1

147、2.40，较可比公司折价46.74%，且低于过去 2 年公司的平均估值水平 32.31%。表表 5:可比公司估值表可比公司估值表 Name Ticker Forward P/E Prem(%)Hist Avg(%)Diff(%)#SD 阿里巴巴 BABA US 10.1136-56.5528-44.4568-9.3998-1.3059 百度百度 BIDU US 12.3975-46.7413-32.3116-11.1248-1.0058 Z 控股株式会社 4689 JP 27.8054 19.4499 45.5697-18.7077-0.7806 Mixi 株式会社 2121 JP 14.14

148、22-39.2462-21.1707-14.3055-0.7273 网易 NTES US 17.4065-25.2230-21.0328 0.4499 0.0539 Kakao 公司 035720 KS 45.0498 93.5305 73.2579 32.2815 0.9633 Alphabet 公司 GOOGL US 19.1396-17.7778-19.9535 7.2776 1.3009 NAVER 株式会社 035420 KS 29.2881 25.8194 20.3127 13.3138 1.5339 平均值（不含百度）平均值（不含百度）23.2778 资料来源：彭博，中信建投投

149、资评价和建议投资评价和建议百度搜索广告业务预计受益经济复苏，且效果广告受益序列较品牌广告媒介更优先，信息流广告则受益展现形式的效率继续驱动广告业务增长。云业务随着疫后回归常态，项目交付、新签订单逐步兑现，向上复苏趋势明确。ERNIE BOT 方面，短期商业化前景尚不清晰，但可作为 Option 机会，我们认为中长期 AIGC 方向是 AI领域具备广阔应用场景且有希望构建合适商业模式的机会，看好百度在 AIGC 领域的布局和先发优势。维持对百度集团的“买入”评级。38 美股公司深度报告百度百度请参阅最后一页的重要声明风险分析风险分析新业务发展不及预期：新业务发展不及预期：AIGC 及相

150、关新技术领域仍处于快速发展阶段，技术距离成熟存在较大差距，当前发展预期可能存在过度乐观的情况，业务实际发展仍存在较大不确定性。宏观或行业环境变化：宏观或行业环境变化：由于公司部分业务处于探索期或成长期，业务模式尚未成熟，同时宏观、行业环境可能发展变化，因此当前时点对未来的预判多数依赖上述环境变化不大或基本稳定的假设。若宏观、行业环境发生较大变化，公司业务受到的影响可能超出我们的预期范围。竞争加剧风险：竞争加剧风险：公司部分业务如搜索广告等面临短视频、应用内搜索的分流，以及搜狗、360、bing 等竞争者的威胁。39 美股公司深度报告百度百度请参阅最后一页的重要声明报表预测报表预测资产负

151、债表（百万元）资产负债表（百万元）利润表（百万元）利润表（百万元）会计年度会计年度 2021A 2022A 2023E 2024E 2025E 会计年度会计年度 2021A 2022A 2023E 2024E 2025E 流动资产流动资产 213,315.0 212,850.0 336,171.2 480,873.6 629,203.1 营业收入营业收入 124,493.0 123,675.0 137,650.2 149,212.9 162,642.0现金 180,093.0 173,995.0 300,445.0 442,146.4 586,990.4 营业成本 64,314.00 63,9

152、35.00 70,311.76 74,860.11 80,881.90 应收票据及应收账款合9,981.00 11,733.00 11,745.98 12,732.64 13,878.58 其他营业费用 0.00 0.00 0.00 0.00 0.00 其他应收款 0.00 0.00 0.00 0.00 0.00 销售和管理费用 24,723.00 20,514.00 23,729.14 25,722.39 28,037.40 预付账款 0.00 0.00 0.00 0.00 0.00 研发费用 24,938.00 23,315.00 25,416.71 27,551.72 30,031.37

153、存货 0.00 0.00 0.00 0.00 0.00 财务费用-2,130.00-3,332.00 2,681.11 1,764.84 1,263.39 其他流动资产 23,241.00 27,122.00 23,980.24 25,994.58 28,334.09 其他经营损益 0.00 0.00 0.00 0.00 0.00 非流动资产非流动资产 166,719.0 178,123.0 173,018.0 167,913.1 162,808.1 投资收益-932.00-1,910.00 0.00 0.00 0.00 长期投资 67,332.00 78,926.00 78,926.00

154、78,926.00 78,926.00 公允价值变动收益 0.00 0.00 0.00 0.00 0.00 固定资产 23,027.00 23,973.00 20,217.23 16,461.46 12,705.69 营业利润营业利润 11,716.00 17,333.00 15,511.55 19,313.85 22,428.01 无形资产 8,947.00 8,095.00 6,745.83 5,396.67 4,047.50 其他非经营损益-938.00-7,221.00 194.67 194.67 194.67 其他非流动资产 67,413.00 67,129.00 67,129.00

155、 67,129.00 67,129.00 利润总额利润总额 10,778.00 10,112.00 15,706.22 19,508.51 22,622.67 资产总计资产总计 380,034.0 390,973.0 509,189.3 648,786.7 792,011.2 所得税 3,187.00 2,578.00 3,690.16 4,583.51 5,315.18 流动负债流动负债 74,488.00 79,630.00 65,760.26 70,362.70 76,209.73 净利润净利润 7,591.00 7,534.00 12,016.06 14,925.01 17,307.5

156、0 短期借款 14,675.00 20,552.00 0.00 0.00 0.00 少数股东损益-2,635.00-25.00-2,129.09-2,644.51-3,066.66 应付票据及应付账款合0.00 0.00 0.00 0.00 0.00 归属母公司净利润归属母公司净利润 10,226.00 7,559.00 14,145.15 17,569.52 20,374.16 其他流动负债 59,813.00 59,078.00 65,760.26 70,362.70 76,209.73 EBITDA 31,207.00 26,864.00 23,492.27 26,378.29 28,9

157、91.00 非流动负债非流动负债 81,594.00 73,538.00 73,538.00 73,538.00 73,538.00 EPS（元）29.25 21.62 40.46 50.26 58.28 长期借款 68,401.00 63,183.00 63,183.00 63,183.00 63,183.00 Non-GAAP 净利润净利润 18,830.00 20,680.00 22,232.68 25,747.18 29,580.24 其他非流动负债 13,193.00 10,355.00 10,355.00 10,355.00 10,355.00 负债合计负债合计 156,082.0

158、 153,168.0 139,298.2 143,900.7 149,747.7 主要财务比率主要财务比率少数股东权益 12,493.00 14,327.00 12,197.91 9,553.40 6,486.74 会计年度会计年度 2021A 2022A 2023E 2024E 2025E 股本 0.00 0.00 1,000.00 2,000.00 3,000.00 成长能力成长能力资本公积 66,307.00 74,591.00 193,661.0 312,731.0 431,801.0 营业收入(%)16.27-0.66 11.30 8.40 9.00 留存收益 145,152.0

159、 148,887.0 163,032.1 180,601.6 200,975.8 归属于母公司净利润-58.49-21.60 171.20 15.70 12.28 归属母公司股东权益 211,459.0 223,478.0 357,693.1 495,332.6 635,776.8 获利能力获利能力负债和股东权益负债和股东权益 380,034.0 390,973.0 509,189.3 648,786.7 792,011.2 毛利率(%)48.34 48.30 48.92 49.83 50.27 净利率(%)6.10 6.09 8.73 10.00 10.64 ROE(%)4.84 3.38

160、 3.95 3.55 3.20 ROIC(%)6.06 8.80 8.70 11.02 12.87 偿债能力偿债能力现金流量表（百万元）现金流量表（百万元）资产负债率(%)41.07 39.18 27.36 22.18 18.91 会计年度会计年度 2021A 2022A 2023E 2024E 2025E 净负债比率(%)-43.32-37.96-64.14-75.06-81.56 经营活动现金流经营活动现金流 20122 26170 29464.21423247.29 25888.465 流动比率 2.86 2.67 5.11 6.83 8.26 净利润 7,591.00 7,534.0

161、0 12,016.06 14,925.01 17,307.50 速动比率 2.55 2.33 4.75 6.46 7.88 折旧摊销 22,559.00 20,084.00 5,104.94 5,104.94 5,104.94 营运能力营运能力财务费用-2,130.00-3,332.00 2,681.11 1,764.84 1,263.39 总资产周转率 0.33 0.32 0.27 0.23 0.21 其他经营现金流-7,898.00 1,884.00 9,662.11 1,452.51 2,212.64 应收账款周转率 12.47 10.54 11.72 11.72 11.72 投资活动

162、现金流投资活动现金流-3,944.00 148.93 148.93 148.93 每股指标（元）每股指标（元）资本支出-5,555.00 0.00 0.00 0.00 每股收益(最新摊薄)29.25 21.62 40.46 50.26 58.28 其他投资现金流-1,611.00 148.93 148.93 148.93 每股经营现金流(最新57.56 74.86 84.28 66.50 74.05 筹资活动现金流筹资活动现金流 23,396.00-6,390.00 96,836.89 118,305.1 118,806.6 每股净资产(最新摊薄)604.86 639.24 1,023.16

163、1,416.87 1,818.60 短期借款-520.00 5,877.00-0.00 0.00 估值比率估值比率长期借款 8,066.00-5,218.00 0.00 0.00 0.00 P/E 4.10 5.55 2.97 2.39 2.06 其他筹资现金流 15,850.00-7,049.00 117,388.8 118,305.1 118,806.6 P/B 0.20 0.19 0.12 0.08 0.07 现金净增加额现金净增加额 12,074.00 15,836.00 126,450.0 141,701.3 144,844.0 EV/EBITDA-2.31-2.37-3.88-4

164、.33-4.86 资料来源：公司公告，iFinD，中信建投 40 美股公司深度报告百度百度请参阅最后一页的重要声明分析师介绍分析师介绍孙晓磊孙晓磊海外研究首席分析师，北京航空航天大学硕士，游戏产业和金融业 7 年复合从业经历，专注于互联网研究，对腾讯、网易、阿里、美团、阅文等互联网巨头有较为深入的理解。2019 年新财富港股及海外最佳研究团队入围，2020 年、2021 年新财富港股及海外最佳研究团队第五名。崔世峰崔世峰海外研究联席首席分析师，南京大学硕士，6 年买方及卖方复合从业经历，专注于互联网龙头公司研究，所在卖方团队获得 2019-2020 年新财富传媒最佳研究团队第二名。

165、2022 年新财富海外研究最佳研究团队入围。许悦许悦海外研究员，南洋理工大学硕士，专注于互联网研究，2022 年加入中信建投海外前瞻组。41 美股公司深度报告百度百度请参阅最后一页的重要声明评级说明评级说明投资评级标准评级说明报告中投资建议涉及的评级标准为报告发布日后 6个月内的相对市场表现，也即报告发布日后的 6 个月内公司股价（或行业指数）相对同期相关证券市场代表性指数的涨跌幅作为基准。A 股市场以沪深300 指数作为基准；新三板市场以三板成指为基准；香港市场以恒生指数作为基准；美国市场以标普 500 指数为基准。股票评级买入相对涨幅 15以上增持相对涨幅 5%15

166、中性相对涨幅-5%5之间减持相对跌幅 5%15 卖出相对跌幅 15以上行业评级强于大市相对涨幅 10%以上中性相对涨幅-10-10%之间弱于大市相对跌幅 10%以上分析师声明分析师声明本报告署名分析师在此声明：（i）以勤勉的职业态度、专业审慎的研究方法，使用合法合规的信息，独立、客观地出具本报告,结论不受任何第三方的授意或影响。（ii）本人不曾因，不因，也将不会因本报告中的具体推荐意见或观点而直接或间接收到任何形式的补偿。法律主体说明法律主体说明本报告由中信建投证券股份有限公司及/或其附属机构（以下合称“中信建投”）制作，由中信建投证券股份有限公司在中华人民共和国

167、（仅为本报告目的，不包括香港、澳门、台湾）提供。中信建投证券股份有限公司具有中国证监会许可的投资咨询业务资格，本报告署名分析师所持中国证券业协会授予的证券投资咨询执业资格证书编号已披露在报告上海品茶。在遵守适用的法律法规情况下，本报告亦可能由中信建投（国际）证券有限公司在香港提供。本报告作者所持香港证监会牌照的中央编号已披露在报告上海品茶。一般性声明一般性声明本报告由中信建投制作。发送本报告不构成任何合同或承诺的基础，不因接收者收到本报告而视其为中信建投客户。本报告的信息均来源于中信建投认为可靠的公开资料，但中信建投对这些信息的准确性及完整性不作任何保证。本报告所载观点、评估和预测仅反映本报告出具日

168、该分析师的判断，该等观点、评估和预测可能在不发出通知的情况下有所变更，亦有可能因使用不同假设和标准或者采用不同分析方法而与中信建投其他部门、人员口头或书面表达的意见不同或相反。本报告所引证券或其他金融工具的过往业绩不代表其未来表现。报告中所含任何具有预测性质的内容皆基于相应的假设条件，而任何假设条件都可能随时发生变化并影响实际投资收益。中信建投不承诺、不保证本报告所含具有预测性质的内容必然得以实现。本报告内容的全部或部分均不构成投资建议。本报告所包含的观点、建议并未考虑报告接收人在财务状况、投资目的、风险偏好等方面的具体情况，报告接收者应当独立评估本报告所含信息，基于自身投资目标、需求、市场机

169、会、风险及其他因素自主做出决策并自行承担投资风险。中信建投建议所有投资者应就任何潜在投资向其税务、会计或法律顾问咨询。不论报告接收者是否根据本报告做出投资决策，中信建投都不对该等投资决策提供任何形式的担保，亦不以任何形式分享投资收益或者分担投资损失。中信建投不对使用本报告所产生的任何直接或间接损失承担责任。在法律法规及监管规定允许的范围内，中信建投可能持有并交易本报告中所提公司的股份或其他财产权益，也可能在过去 12 个月、目前或者将来为本报告中所提公司提供或者争取为其提供投资银行、做市交易、财务顾问或其他金融服务。本报告内容真实、准确、完整地反映了署名分析师的观点，分析师的薪酬无论过去、现在

170、或未来都不会直接或间接与其所撰写报告中的具体观点相联系，分析师亦不会因撰写本报告而获取不当利益。本报告为中信建投所有。未经中信建投事先书面许可，任何机构和/或个人不得以任何形式转发、翻版、复制、发布或引用本报告全部或部分内容，亦不得从未经中信建投书面授权的任何机构、个人或其运营的媒体平台接收、翻版、复制或引用本报告全部或部分内容。版权所有，违者必究。中信建投证券研究发展部中信建投证券研究发展部中信建投（国际）中信建投（国际）北京上海深圳香港东城区朝内大街2 号凯恒中心B座 12 层上海浦东新区浦东南路528号南塔 2103 室福田区福中三路与鹏程一路交汇处广电金融中心 35 楼中环交易广场 2 期 18 楼电话：（8610）8513-0588 电话：（8621）6882-1600 电话：（86755）8252-1369 电话：（852）3465-5600 联系人：李祉瑶联系人：翁起帆联系人：曹莹联系人：刘泓麟邮箱：邮箱：邮箱：邮箱：charleneliucsci.hk

上海品茶

百度-港股公司研究报告-大模型研究笔记（一）-230514（47页）.pdf

报告推荐

相关图表

相关报告

热门报告