品茶加V(打造不可错过的喝茶体验—

《计算机行业AI前沿系列（一）：混合专家模型技术（MoE）-230818（24页）.pdf》由会员分享，可在线阅读，更多相关《计算机行业AI前沿系列（一）：混合专家模型技术（MoE）-230818（24页）.pdf（24页珍藏版）》请在三个皮匠报告上搜索。

1、AIAI前沿系列（一）：混合专家模型技术（前沿系列（一）：混合专家模型技术（MoEMoE）证券研究报告证券研究报告行业动态报告行业动态报告发布日期：2023年8月18日本报告由中信建投证券股份有限公司在中华人民共和国（仅为本报告目的，不包括香港、澳门、台湾）提供。在遵守适用的法律法规情况下，本报告亦可能由中信建投（国际）证券有限公司在香港提供。同时请参阅最后一页的重要声明。分析师：于芳博分析师：于芳博SAC编号：S01分析师：金戈分析师：金戈SAC编号：S01SFC 中央编号：BPD352分析师：分析师：阎贵成阎贵成SAC编号：S144051804

2、0002SFC编号：BNS315 核心观点：核心观点：混合专家模型技术混合专家模型技术(MoE)是由专家模型和门控模型组成稀疏门控制的深度学习技术。是由专家模型和门控模型组成稀疏门控制的深度学习技术。MoE通过门控网络实现任务通过门控网络实现任务/训练数据在训练数据在不同专家模型间的分配，让每个模型专注处理其最擅长的任务，进而实现模型的稀疏性。随着大模型参数量的持续提升，不同专家模型间的分配，让每个模型专注处理其最擅长的任务，进而实现模型的稀疏性。随着大模型参数量的持续提升，MoE在提升计在提升计算效率方面展现出强大的能力。同时，近年来算效率方面展现出强大的能力。同时，近年来MoE逐渐与不同领

3、域的模型相结合，包括自然语言、图像、推荐系统、多模态等，并展现逐渐与不同领域的模型相结合，包括自然语言、图像、推荐系统、多模态等，并展现出优秀的性能。后续出优秀的性能。后续MoE技术将在提升训练及推理效率、优化模型性能和边缘技术将在提升训练及推理效率、优化模型性能和边缘&端侧端侧AI应用等方面发挥重要作用，应用等方面发挥重要作用，建议关注相关研究进建议关注相关研究进展。展。混合专家模型技术混合专家模型技术(MoE)让模型具有稀疏性，进而提高模型计算效率。让模型具有稀疏性，进而提高模型计算效率。在传统的密集模型中，输入的内容要在整个模型中进行计算，而MoE 通过门控模型将输入内容分配至一个或多个

4、专家模型，保证在单次处理中只有少数专家模型被激活或使用，而大部分专家模型处于未被激活状态，从而实现模型的稀疏性。这一性质大幅提高了模型的计算效率，例如Switch Transformer的训练速度最高可以达到T5模型（参数量相近情况下）的7倍，而V-MoE相较于ViT模型，达到相同性能的情况下节省了2.5倍的算力消耗。混合专家模型混合专家模型(MoE)技术技术目前在多个目前在多个AI细分领域中有所应用，性能提升显著。细分领域中有所应用，性能提升显著。近年来随着MoE技术的不断突破，其在自然语言处理、计算机视觉、多模态、推荐系统等丰富场景中有所应用。相较于密集模型而言，稀疏的MoE模型在性能和计

5、算效率上都有显著提升，例如NLP领域的GLaM模型在零样本、单样本和少样本学习任务上相较于GPT-3分别实现了平均10.2%、6.3%和4.4%的性能提升，多模态领域的LIMoE在零样本、少样本的图像分类任务中的绝对平均性能相较于CLIP分别实现了10.1和12.2%的提升。展望未来，混合专家模型展望未来，混合专家模型(MoE)技术将成为技术将成为AI技术革新和技术革新和AI应用落地的强大推动力。应用落地的强大推动力。AI技术革新方面，MoE技术将从计算效率、模型性能和模型可解释性方面提供发展助力，相关论文发表数量呈现明显上升趋势；AI应用落地方面，MoE将推动训练门槛降低、更新迭代速度加快、

6、推理速度加快、推理算力需求降低、应用领域拓展等方面的进度，相关科技巨头都已对这一技术展开布局，相关应用领域如机器人、计算机视觉等将加速发展。核心观点 BUiZqWjXjW8ZtRtRnO9PcM7NsQnNnPsRkPmMvNiNmOoP9PnMmMNZpNsOuOsRtR目录一、混合专家模型（一、混合专家模型（MoEMoE）介绍）介绍二、二、MoEMoE技术在不同领域中的应用技术在不同领域中的应用三、三、MoEMoE最新研究进程及未来展望最新研究进程及未来展望 1.1 混合专家模型（MoE）发展历程资料来源：Web of science，Google scholar，中信建投19901990

7、201020101991MoE架构首次被提出架构首次被提出早期早期MoE主要用主要用于机器学习领域于机器学习领域MoE逐渐应用于深度学习逐渐应用于深度学习，但后续研究有所停滞，但后续研究有所停滞20202020随着模型规模的不断扩大，随着模型规模的不断扩大，MoE成为高效的训练和推理计算的重要发展方向成为高效的训练和推理计算的重要发展方向。门控网络门控网络/通信算法等核心技通信算法等核心技术的持续革新，术的持续革新，推动着推动着MoE在在NLP、CV、多模态、推荐系统等领域中广泛应用并取得优异性能、多模态、推荐系统等领域中广泛应用并取得优异性能2020.6Gshard2022.1DeepSpe

8、ed-MoEGLaM2023.7-8FLAN-MoESoftMoE2022.10-11EC-CFMegaBlocks自然语言处理自然语言处理计算机视觉计算机视觉其他应用领域其他应用领域MoE技术技术2022.6-7LIMoEUFO2023.2SparseMoE2017MoE(Sparse)2013DMoE(Dense)2018MMoE20212021GPT-3TransformerViTChatGPTGPT-4MoE（2017）：在两个 LSTM 层之间插入一个 MoE 层，在机器翻译中实现 SOTA 20222022202320232021.8-9Z-code MoETHOR2021.1-3

9、FastMoESwitch Transformer2021.5-7SpeechMoEV-MoEHash LayerGshard（2020）：将MoE应用于Transformer架构中，并提供了高效的分布式并行计算架构。V-MoE（2021）：V-MoE可以在保持性能的同时减少计算资源的使用，从而实现更高效的模型训练和推理。Switch Transformer（2021）：模型整体参数量扩大至1.6万亿，通过MoE实现了更为高效率的模型训练，相同计算资源的情况下训练速度是T5的7倍SoftMoE（2023）：提出了SoftMoE的token处理方式，实现了训练稳定性和可拓展性的提升。2022.3

10、-4FasterMoEST-MoE 1.2 混合专家模型思想基础：集成学习MoE前身前身-集成学习（集成学习（Ensemble Learning）：）：集成学习是通过训练多个模型（基学习器）来解决同一问题，并且将它们的预测结果简单组合（例如投票或平均）。集成学习的主要目标是通过减少过拟合，提高泛化能力，以提高预测性能。常见的集成学习方法包括Bagging，Boosting和Stacking。集成学习流程介绍：集成学习流程介绍：在训练过程中，利用训练数据集训练基学习器，基学习器的算法可以是决策树、SVM、线性回归、KNN等，在推理过程中对于输入的X，在每个基学习器得到相应的答案后将所有结果有机统

11、一起来，例如通过求均值的方法解决数值类问题，通过投票方式解决分类问题。图图：集成学习技术示意图集成学习技术示意图不同的学习策略数据集训练集X测试集LinRegSVMKNN决策树模型2模型3模型1模型4训练训练训练训练XXXX投票方式求均值方式 Y不同的基学习器资料来源：机器之心，Leovan，中信建投集成学习集成学习方法方法基学习器基学习器种类种类介绍介绍Bagging同质相互独立地并行并行学习这些弱学习器，并按照某种确定性确定性的过程将它们组合起来。Boosting同质它以一种高度自适应的方法线性线性学习这些弱学习器（每个基础模型都依赖于前面的模型），并按照某种确定性确定性的策略将它们组合起

12、来。Stacking异质并行并行地学习它们，并通过训练一个元元模型模型将它们组合起来，根据不同弱模型的预测结果输出一个最终的预测结果。图图：集成学习技术方法介绍集成学习技术方法介绍 1.3 混合专家模型的主要组成部分基本概念基本概念：混合专家模型(MoE)是一种稀疏门控制的深度学习模型，主要由一组专家模型和一个门控模型一组专家模型和一个门控模型组成。MoE的基本理念是将输入分割成多个区域，并对每个区域分配一个或多个专家模型。每个专家模型可以专注于处理输入的一部分，从而提高模型的整体性能。门控模型门控模型：稀疏门网络是混合专家模型的一部分，它接收单个数据元素作为输入，然后输出一个权重，这些权重表

13、示每个专家模型对处理输入数据的贡献。例如，如果模型有两个专家，输出的概率可能为0.7和0.3，这意味着第一个专家对处理此数据的贡献为70%，第二个专家为30%。专家模型：专家模型：在训练的过程中，输入的数据被门控模型分配到不同的专家中进行处理，如右图所示，不同的专家被分配到处理不同种类的输入数据；在推理的过程中，被门控选择的专家会针对输入的数据，产生相应的输出。这些输出（可以是标签或者数值）最后会和每个专家模型处理该特征的能力分配的权重进行加权组合，形成最终的预测结果。混合专家模型在训练过程中通过门控模型实现“因材施教”，进而在推理过程中实现专家模型之间的“博采众长”。混合专家模型在训练过程中

14、通过门控模型实现“因材施教”，进而在推理过程中实现专家模型之间的“博采众长”。图图：MoEMoE结构示意图结构示意图资料来源：Multimodal Contrastive Learning with LIMoE:the Language-Image Mixture of Experts，Outrageously Large Neural Networks:The Sparsely-Gated Mixture-of-Experts Layer，中信建投图图：不同的专家处理不同的输入（：不同的专家处理不同的输入（LIMoELIMoE）1.4 混合专家模型的稀疏性混合专家模型（混合专家模型（MoE）

15、的稀疏性）的稀疏性：在传统的密集模型中，对于每一个输入都需要在完整的模型中进行计算。在稀疏混合专家模型中，处处理输入数据时只有少数专家模型被激活或者使用，而大部分专家模型处于未被激活状态理输入数据时只有少数专家模型被激活或者使用，而大部分专家模型处于未被激活状态，这种状态便是“稀疏”，这种状态便是“稀疏”。稀疏性是混合专家模。稀疏性是混合专家模型的重要优点型的重要优点，也是提升模型训练和推理过程的效率的关键。，也是提升模型训练和推理过程的效率的关键。对于稀疏性的控制，主要通过调整门控网络的设计和参数来实现。对于稀疏性的控制，主要通过调整门控网络的设计和参数来实现。在参数选择上，如果门控网络单次

16、选择的专家模型数量较多，则模型的稀疏性就会降低。单次选择专家的数量越多，模型的表现能力可能有所提升，因为更多的专家模型处理输入数据，所以导致稀疏性有所下降，增加计算的复杂性和耗时，。因此，MoE模型的稀疏性在效率和表现能力之间存在权衡。根据不同的应用需求和资源限制，需要适当调整门控网络的设计和参数，来找到最佳的效率和表现能力之间的平衡。图图：密集模型和稀疏混合专家模型的对比：密集模型和稀疏混合专家模型的对比资料来源：A Review of Sparse Expert Models in Deep Learning，中信建投 1.5.1 混合专家模型选择专家的不同策略门控模型是混合专家模型的重要

17、组成部分，是模型稀疏性和性能提升的技术基础。这里简单介绍两种激活不同专家数的门控策略：门控模型是混合专家模型的重要组成部分，是模型稀疏性和性能提升的技术基础。这里简单介绍两种激活不同专家数的门控策略：Top-k策略：策略：通过根据门控网络的输出将token输入到最适合的K个专家模型中，根据门控的稀疏性可以节约MoE的计算成本。在谷歌的Switch Transformer中提出了只选择最好的专家模型使用（即K=1），在谷歌的GLaM模型中则选择了最好的两个专家模型进行使用（即K=2）。按需门控策略按需门控策略：对于多层的混合专家模型，每一层的专家选择根据数据的特性进行动态选择，并通过联合优化的方

18、式，实现不同层级间的最佳专家配置。如下图所示，对于从左往右的三层混合专家模型而言，其中分别激活了2、1、3个专家来进行计算。图图：按需门控策略示意图按需门控策略示意图资料来源：GLaM:Efficient Scaling of Language Models with Mixture-of-Experts，Switch Transformers:Scaling to Trillion Parameter Models with Simple and Efficient Sparsity，Deep Mixture of Experts via Shallow Embedding，中信建投 1.5

19、.2 混合专家模型选择专家的不同策略不同的任务或训练数据究竟被分配到哪个专家模型，这里介绍三种不同的策略：依据不同的任务或训练数据究竟被分配到哪个专家模型，这里介绍三种不同的策略：依据Tokens、Tasks及专家选择路径策略。及专家选择路径策略。Tokens和和tasks策略策略：基于tokens的MoE将不同的token分配到不同的专家子模型中，相似的token会被分配到同一个专家模型中，如左图（b）所示，“你”和“you”被分配到同一个专家；而基于任务的MoE则基于任务对token进行分配，相同任务的token会被分配到同一个模型中，如左图（a）所示，中文任务被分配到第一个expert，

20、英文任务被分配到第二个expert。专家选择路径策略：专家选择路径策略：与传统的MoE网络中基于tokens的路径选择方法不同，专家选择方法是让每个专家选择最相关的tokens。在这一算法下，每个专家都可以得到较为充分的训练，更平衡的训练负载也会带来训练速度的提升，但也存在着部分训练语料未能被充分的学习的风险。图图：Tokens和和tasks策略策略图图：专家选择路径策略专家选择路径策略资料来源：BeyondDistillation:Task-levelMixture-of-ExpertsforEfficientInference、Mixture-of-Experts with Expert

21、Choice Routing，中信建投基于基于tokentoken的的MoEMoE将相关的将相关的tokentoken分配到同分配到同一个一个expertexpert中，例如将最下面的格子中将中，例如将最下面的格子中将“你”和“你”和“youyou”分配到同一个”分配到同一个专专家家基于基于tasktask的的MoEMoE基于任基于任务务的信息将不同任的信息将不同任务务的的tokentoken分配到同一个分配到同一个专专家中，例如最上家中，例如最上面的格子中分面的格子中分别别是中文任是中文任务务和英文任和英文任务务专专家家选择选择路径的路径的MoEMoE让让每个每个专专家家选择选择相关的相关的

22、tokentoken，进进而而让让每个每个专专家都得到家都得到较为较为充分的充分的训练训练，但可能存在但可能存在训练训练数据数据遗遗漏的漏的问题问题目录一、混合专家模型（一、混合专家模型（MoEMoE）介绍）介绍二、二、MoEMoE技术在不同领域中的应用技术在不同领域中的应用三、三、MoEMoE最新研究进程及未来展望最新研究进程及未来展望 2.1 自然语言处理图图：SwitchSwitch TransformerTransformer优秀的稀疏性带来训练效率提升优秀的稀疏性带来训练效率提升在自然语言处理领域中，2017年，谷歌首次将MoE引入自然语言处理领域，通过在LSTM层之间增加MoE实

23、现了机器翻译方面的性能提升。2020年，Gshard首次将MoE技术引入Transformer架构中，并提供了高效的分布式并行计算架构。而后的Swtich Transformer和GLaM则进一步挖掘MoE技术在自然语言处理领域中的应用潜力，实现了优秀的性能表现。SwitchTransformer：通过MoE技术对模型进行拓展，最大版本的Switch Transformer的参数量高达1.6万亿。因其优秀的稀疏性，在计算资源相同的情况下，74亿版本的Switch Transformer训练速度可以达到T5模型的7/2.5倍（对应T5模型的不同版本，Large为7.7亿，Base为2.2亿）。同

24、时在多任务的表现上也取得了相比密集模型更为优秀的结果。GLaM：最大的GLaM拥有1.2万亿个参数，大约是GPT-3的7倍。然而，它只消耗了训练GPT-3所需能量的1/3，并在推理时只需要一半的计算浮点运算量，计算效率更高。在零样本、单样本和少样本学习任务上也实现了更好的性能，在七个具体任务中分别实现了平均10.2%、6.3%和4.4%的性能提升。图图：GLaMGLaM模型与模型与GPTGPT-3 3模型对比模型对比资料来源：GShard:Scaling Giant Models with Conditional Computation and Automatic Sharding，Switc

25、h Transformers:Scaling to Trillion Parameter Models with Simple and Efficient Sparsity，中信建投 2.2 计算机视觉图图：V V-MoEMoE 架构与处理优先级路由架构与处理优先级路由（BPRBPR）在计算机视觉领域中，2013年的DMoE便是在MNIST数据集上使用了密集的MoE层，2021年的V-MoE将MoE架构应用在计算机视觉领域的Transformer架构模型中，同时通过路由算法的改进在相关任务中实现了更高的训练效率和更优秀的性能表现。V-MoE原理：原理：V-MoE通过将ViT中的一部分密集前馈层

26、替换为稀疏的MoE层来实现，每个图像块被“路由”到一组“专家”（MLPs）中进行处理，同时通过对图像中重要信息的优先分析（优先级路由），使得模型可以不需要分析所有信息便可以得到较为准确的结果，如下左图所示，对于鸭子的图片，通过将其中重要的16个token分配到4个专家处，便可以得到较为正确的分析，提升了模型运算效率。V-MoE性能：性能：通过使用稀疏的MoE层，V-MoE可以在保持性能的同时减少计算资源的使用，从而实现更高效的模型训练和推理。如右图所示，在两个任务中，V-MoE相较于ViT模型，达到相同性能的情况下节省了2.5倍的算力消耗，而在相同的算力消耗下，V-MoE也实现了更优的性能。同

27、时，V-MoE还可以用于其他计算机视觉任务，如目标检测和图像生成。图图：V V-MoEMoE 与与ViTViT图像处理性能对比图像处理性能对比资料来源：Scaling Vision with Sparse Mixture of Experts，中信建投 2.3 多模态在多模态领域中，2022年的LIMoE是首个应用了稀疏混合专家模型技术的多模态模型，模型性能相较于CLIP 也有所提升。LIMoE原理：原理：将输入的图像/文本通过门控网络分配到不同的专家模型中，如下图所示鸭子（drake）的图片和对应的文字描述的token被分配到不同的专家中进行处理，每个专家处理完后通过输出层为图像或文本生成一

28、个统一的向量表示。LIMoE性能：性能：在零样本和10样本的ImageNet分类任务中，LIMoE的绝对平均性能相较于CLIP实现了10.1和12.2%的提升，在Coco T2I（文本到图像检索）任务上，LIMoE也实现了较为明显的性能提升，其中在小规模模型上这一提升更为显著。图图：不同的：不同的图像图像tokentoken被分配到了不同的被分配到了不同的ExpertExpert中进行处理中进行处理图图：LiMoELiMoE与与CLIPCLIP模型性能对比模型性能对比资料来源：Multimodal Contrastive Learning with LIMoE:the Language-Ima

29、ge Mixture of Experts，中信建投 2.4 推荐系统图图：使用了多个门控网络的：使用了多个门控网络的MMoEMMoE在推荐系统领域中，自2018年谷歌提出MMoE（Multi-gate Mixture-of-Experts）模型以优化其广告推荐系统的多目标学习任务后，该架构已被广泛应用于工业界的推荐系统。重要的互联网公司，如阿里巴巴、腾讯和字节跳动，也纷纷采用MMoE架构，以更精准地模拟用户行为和优化多目标推荐场景。模型架构：模型架构：MMoE可以针对不同的例如点击率预测（CTR)，转化率预测（CVR)等之间有一定关联程度等目标，同时根据通过不同的门控网络得到一个独立的输出权

30、重，最后加权合并这些不同输出得到模型的总损失，然后模型再根据这个总损失进行训练。MMoE应用性能应用性能：知乎在2019年将其推荐系统中的硬参数共享策略（Hard-parameter Sharing）替换为MMoE模型，引入MMOE后，交互层面预估子任务的AUC值至少提升了千分之二，而主任务（预测阅读）的AUC值没有下降。上线后的效果也非常正向，除了阅读行为略有下降（约2%），但用户的其他行为（如点赞、收藏、评论、分享等）却显著提升，范围在50%至100%之间。知乎的整体用户留存率在多目标学习上线后大约提升了5%。单个门控的MoE模型多个门控的MoE模型资料来源：Modeling Task R

31、elationships in Multi-task Learning with Multi-gate Mixture-of-Experts，AI前线，中信建投目录一、混合专家模型（一、混合专家模型（MoEMoE）介绍）介绍二、二、MoEMoE技术在不同领域中的应用技术在不同领域中的应用三、三、MoEMoE最新研究进程及未来展望最新研究进程及未来展望 3.1.1：盘古-：具有稀疏异构计算的万亿参数语言模型资料来源：PANGU-:TOWARDS TRILLION PARAMETER LANGUAGE MODEL WITH SPARSE HETEROGENEOUS COMPUTING，中信建投2

32、023年年3月，华为诺亚方舟实验室等机构的研究人员于发布文章月，华为诺亚方舟实验室等机构的研究人员于发布文章PANGU-:TOWARDS TRILLION PARAMETER LANGUAGE MODEL WITH SPARSE HETEROGENEOUS COMPUTING，推出了盘古，推出了盘古-模型。模型。模型架构：模型架构：盘古-模型由底层密集的Transformer层（共32层）和上层稀疏的Transformer层（共8层）组成，其中底层密集的Transformer层共同分析来自不同领域的数据，而上层的Transformer层的前馈网络部分根据输入token来自的领域不同而基于RRE

33、方法激活对应的“Expert”，即不同的“Expert”处理来自不同领域的文本数据。核心优势：核心优势：1）PanGu-允许添加、修改或删除特定领域的“Expert”，而不会对其他“Expert”产生任何影响，具有很高的灵活性。2）PanGu-允许根据实际需要提取特定领域的子模型，并且只部署子模型，增强了在具体场景中应用的便捷性。3）通过特殊的两级路由方式，节省了大量的通信量和减少端到端训练延迟。4）平衡了“Expert”之间的计算负载。图图：盘古：盘古-模型模型架构基于盘古架构基于盘古-改进改进而来而来图图：基于盘古：基于盘古-的的子模型子模型 3.1.2：盘古-：具有稀疏异构计算的万亿参数

34、语言模型资料来源：PANGU-:TOWARDS TRILLION PARAMETER LANGUAGE MODEL WITH SPARSE HETEROGENEOUS COMPUTING，中信建投盘古盘古-的的ECSS方法将专家视为存储特定知识的知识库不同的任务或领域，实现了模型训练过程中数据吞吐量的提升。方法将专家视为存储特定知识的知识库不同的任务或领域，实现了模型训练过程中数据吞吐量的提升。在每次迭代中，专家被具有特定特征的不同token稀疏地激活。在 MindSpore 中，对于部分激活的专家，稀疏地更新它们的参数。当使用较低的专家稀疏率（例如 0.1），计算成本仅接近完整模型的 10%

35、。除了ECSS方法外，还采用了其他并行训练和MindSpore 和 CANN 9 提供的加速技术，最终使得模型训练时的数据吞吐量达到原先的6.34倍图图：盘古：盘古-在训练过程中采取在训练过程中采取ECSSECSS方式方式图图：模型吞吐量提升至原先的：模型吞吐量提升至原先的6.36.3倍倍 3.2：MoE与指令调优的结合可大幅提升模型性能2023年年7月月5日，日，Google发布论文发布论文Mixture-of-Experts Meets Instruction Tuning:AWinning Combination for Large Language Models。FLAN-MoE：FL

36、AN-MOE采用稀疏的专家混合技术，结合了指令微调和MoE的优点。指令微调提高了特定任务的性能，而MoE提供了计算效率和减少的内存需求。MoE模型与指令调优相互作用相得益彰：模型与指令调优相互作用相得益彰：实验结果显示，如果不使用指令调优，MoE模型的性能通常不如与之计算能力相当的密集模型。但当结合指令调优时，情况发生了变化。指令调优后的MoE模型（Flan-MoE）在多个任务上的表现超越了更大的密集模型，即使MoE模型的计算成本只是密集模型的三分之一。与密集模型相比，MoE模型从指令调优中获得的性能提升更为显著，因此当考虑计算效率与性能时，MoE将成为大型语言模型训练的有力工具。图图：指令调

37、优对：指令调优对MoEMoE模型与密集模型的影响模型与密集模型的影响图图：FLANFLAN-MoEMoE模型和模型和FLANFLAN-T5T5密集模型在两组不同任务上性能的对比密集模型在两组不同任务上性能的对比资料来源：Mixture-of-Experts Meets Instruction Tuning:A Winning Combination for Large Language Models，中信建投 3.3.1：路由算法革新：SoftMoE2023年年8月月2日，日，Google Deepmind发布论文发布论文From Sparse to Soft Mixtures of Expe

38、rts，提出了全新的，提出了全新的SoftMoE路由方法。路由方法。稀疏混合专家模型的问题：稀疏混合专家模型的问题：最常见的离散优化问题是如何将每一个token更好的分配到哪个专家。目前有不同的解决策略，15年提出的强化学习，17年提出的Top-K为每个token选择专家的方式，21年提出的线性规划，22年提出的Top-K为每个专家分配token和最优传输等方法，都会面临着“token丢失”或“专家不平衡”的问题。SoftMoE原理：原理：Soft MoE为每一对输入token和slot计算得分，这些得分是基于每个slot的可学习参数得来的。然后，这些得分会按slot（列）进行标准化，每个sl

39、ot根据这些加权得分对所有输入token进行线性组合（左图中绿色的部分为这一构成的逻辑结构，右图为不同的图片token结合成slot的示意图）。接着，每个“专家”处理它分配的slots（例如，左图中显示每个专家处理2个slot，右图绿框则为本次合成后的slot）。最后，用原始得分按token（即行）进行标准化，并用于组合所有slot的输出。图图：传统：传统MoEMoE与与Soft Soft MoEMoE选择方法对比选择方法对比资料来源：From Sparse to Soft Mixtures of Experts，中信建投图图：Soft Soft MoEMoE routingrouting算法

40、算法 3.3.2：路由算法革新：SoftMoE核心优势：核心优势：1.具备连续性与微分特性具备连续性与微分特性:在Sparse MoE的核心是一个将tokens分配给专家的问题，多数方法都是离散的并且不可微分。与之不同，Soft MoE的所有操作都是连续的并完全可微分。2.稳定的分配策略稳定的分配策略:传统的路由机制常常面临“token丢失”或“专家不平衡”的问题，这两者都会严重影响模型性能。相对于此，Soft MoE对此问题表现出高度的抗性，其每个slot都是所有tokens的加权平均，确保了平衡和完整性。3.高效运行速度高效运行速度:Soft MoE的运行速度主要由其slots的数量决定。

41、它成功地避免了排序和top-k操作，这些操作在硬件加速器上往往较慢，因此Soft MoE在速度上显著优于大多数Sparse MoE。4.序列级的决定性序列级的决定性:在容量限制的前提下，Sparse MoE无法同时处理所有的token，因此往往是将tokens分为几组并在组内实现平衡，但这导致模型丢失一定的序列信息，而Soft MoE将每个输入序列中的所有tokens组合起来，确保了模型的序列级决定性。图图：SoftMoESoftMoE与稀疏与稀疏MoEMoE的性能和训练时间对比的性能和训练时间对比图图：SoftMoESoftMoE在两个测试数据集上都优于密集模型和其他稀疏在两个测试数据集上都

42、优于密集模型和其他稀疏MoEMoE资料来源：From Sparse to Soft Mixtures of Experts，中信建投 3.4：MoE技术发展将推进AI技术革新和应用落地技术逐渐成熟，应用领域持续拓展：技术逐渐成熟，应用领域持续拓展：门控算法的完善和丰富逐渐解决了训练过程中“负载不均衡”和“数据缺失”等问题，并在不同的场景中有了相应的解决方案；硬件技术的持续完善减少了由于通信带来的性能损失，各项核心技术的持续突破让MoE得以在自然语言处理、计算机视觉、多模态等丰富场景中有所应用，相关模型如GLaM、V-MoE、Flan-MoE等。MoE技术是技术是AI技术革新的重要发展方向：技术

43、革新的重要发展方向：1.MoE架构的稀疏性让模型规模继续扩大的同时能够实现训练和推理的高效率，这将有效缓解近年来训练/推理中时间和成本的问题。2.MoE架构将不同的输入进行细化后分类处理，将为大模型的可解释性发展提供助力。相关论文发表量呈现明显上升趋势，2022年MoE相关论文数量已经达到2017年的3倍，2023年前8个月的相关论文发表量已经超过2021年全年。MoE技术将推动技术将推动AI大模型的应用落地：大模型的应用落地：1.模型训练方面，MoE架构的稀疏性将帮助模型开发者以更高的训练速度、更低的训练成本完成模型的训练，降低大模型训练的门槛，加快大模型更新迭代的速度，这将推动各领域AI应

44、用的发展。2.模型推理方面，MoE的稀疏架构相较于密集架构的大模型对推理算力的要求有所下降，将推动大模型向更多算力有限的场景拓展，推动边缘及端侧AI应用发展，同时让大模型有望满足部分场景中的高速推理需求，例如机器人等。3.在应用领域方面，得益于MoE架构在处理复杂任务时的能力，将提升推荐系统、计算机视觉、机器人等复杂多任务场景中的模型通用性，加速相关领域的AI应用落地。图图：MoEMoE相关论文发表量相关论文发表量资料来源：Google Scholar，中信建投72086302250002002020212

45、0222023MoE相关论文数量注：以“Mixture of Expert”作为关键词在Google schoolar上进行搜索，2023年数据截止至8月16日图图：国内科技巨头：国内科技巨头MoEMoE相关进展相关进展公司名称公司名称MoEMoE相关进展相关进展谷歌SoftMoE、V-MoE等研究微软Deepspeed-MoE等研究，Tutel MoE库华为Pangu-sigma大模型等研究清华FastMoE、FasterMoE、SmartMoE等研究美团应用于推荐系统算法中知乎应用于推荐系统算法中阿里应用于M6大模型腾讯应用于Hunyuan大模型风险提示人工智能模型技术发展不及预期：人工

46、智能模型技术发展不及预期：人工智能模型属于先进AI算法，若后续算法更新迭代效果不及预期，则会影响人工智能模型演进及拓展，进而会影响其商业化落地等。算法隐私问题：算法隐私问题：人工智能在进行预训练过程中，使用了大量数据，其中会涉及相关隐私问题。应用不及预期：应用不及预期：人工智能算法与相关应用落地之间还存在一定距离，需要注意应用落地不及预期风险。算力基础设施支持不及预期：算力基础设施支持不及预期：美国制裁中国高科技企业，对中国形成芯片、算力的封锁，人工智能模型训练过程中需要大量算力资源，需要关注中美关系带来的中国算力的压力。数据数量与数据质量不及预期：数据数量与数据质量不及预期：人工智能模型需要

47、大量的高质量数据进行训练，若数据数量和质量存在短板，则会影响模型效果。伦理冲突风险：伦理冲突风险：人工智能模型将进一步推动人工智能迈向通用型人工智能，人工智能进一步智能化将产生人工智能欺骗、人工智能上瘾、人与人工智能之间的关系等一系列伦理问题。感谢陈思玥、樊文辉、辛侠平对本报告的贡献。分析师介绍分析师介绍阎贵成：阎贵成：中信建投证券通信&计算机行业首席分析师，北京大学学士、硕士，专注于云计算、物联网、信息安全、信创与5G等领域研究。近8年中国移动工作经验，6年多证券研究经验。系2019-2021年新财富、水晶球通信行业最佳分析师第一名，2017-2018年新财富、水晶球通信行业最佳分析师第一名

48、团队核心成员。金戈：金戈：中信建投证券研究发展部计算机行业联席首席分析师，帝国理工学院工科硕士，擅长云计算、金融科技、人工智能等领域。于芳博于芳博：中信建投计算机行业分析师，北京大学空间物理学学士、硕士，2019年7月加入中信建投，主要覆盖方向智能汽车、CPU/GPU/FPGA/ASIC、EDA和工业软件等方向。评级说明评级说明投资评级标准评级说明报告中投资建议涉及的评级标准为报告发布日后6个月内的相对市场表现，也即报告发布日后的6个月内公司股价（或行业指数）相对同期相关证券市场代表性指数的涨跌幅作为基准。A股市场以沪深300指数作为基准；新三板市场以三板成指为基准；香港市场以恒生指数作为基准

49、；美国市场以标普 500 指数为基准。股票评级买入相对涨幅15以上增持相对涨幅5%15中性相对涨幅-5%5之间减持相对跌幅5%15卖出相对跌幅15以上行业评级强于大市相对涨幅10%以上中性相对涨幅-10-10%之间弱于大市相对跌幅10%以上分析师声明分析师声明本报告署名分析师在此声明：（i）以勤勉的职业态度、专业审慎的研究方法，使用合法合规的信息，独立、客观地出具本报告,结论不受任何第三方的授意或影响。（ii）本人不曾因，不因，也将不会因本报告中的具体推荐意见或观点而直接或间接收到任何形式的补偿。法律主体说明法律主体说明本报告由中信建投证券股份有限公司及/或其附属机构（以下合称“中信建投”）

50、制作，由中信建投证券股份有限公司在中华人民共和国（仅为本报告目的，不包括香港、澳门、台湾）提供。中信建投证券股份有限公司具有中国证监会许可的投资咨询业务资格，本报告署名分析师所持中国证券业协会授予的证券投资咨询执业资格证书编号已披露在报告上海品茶。在遵守适用的法律法规情况下，本报告亦可能由中信建投（国际）证券有限公司在香港提供。本报告作者所持香港证监会牌照的中央编号已披露在报告上海品茶。一般性声明一般性声明本报告由中信建投制作。发送本报告不构成任何合同或承诺的基础，不因接收者收到本报告而视其为中信建投客户。本报告的信息均来源于中信建投认为可靠的公开资料，但中信建投对这些信息的准确性及完整性不作任何保证

51、。本报告所载观点、评估和预测仅反映本报告出具日该分析师的判断，该等观点、评估和预测可能在不发出通知的情况下有所变更，亦有可能因使用不同假设和标准或者采用不同分析方法而与中信建投其他部门、人员口头或书面表达的意见不同或相反。本报告所引证券或其他金融工具的过往业绩不代表其未来表现。报告中所含任何具有预测性质的内容皆基于相应的假设条件，而任何假设条件都可能随时发生变化并影响实际投资收益。中信建投不承诺、不保证本报告所含具有预测性质的内容必然得以实现。本报告内容的全部或部分均不构成投资建议。本报告所包含的观点、建议并未考虑报告接收人在财务状况、投资目的、风险偏好等方面的具体情况，报告接收者应当独立评估

52、本报告所含信息，基于自身投资目标、需求、市场机会、风险及其他因素自主做出决策并自行承担投资风险。中信建投建议所有投资者应就任何潜在投资向其税务、会计或法律顾问咨询。不论报告接收者是否根据本报告做出投资决策，中信建投都不对该等投资决策提供任何形式的担保，亦不以任何形式分享投资收益或者分担投资损失。中信建投不对使用本报告所产生的任何直接或间接损失承担责任。在法律法规及监管规定允许的范围内，中信建投可能持有并交易本报告中所提公司的股份或其他财产权益，也可能在过去12个月、目前或者将来为本报告中所提公司提供或者争取为其提供投资银行、做市交易、财务顾问或其他金融服务。本报告内容真实、准确、完整地反映了署

53、名分析师的观点，分析师的薪酬无论过去、现在或未来都不会直接或间接与其所撰写报告中的具体观点相联系，分析师亦不会因撰写本报告而获取不当利益。本报告为中信建投所有。未经中信建投事先书面许可，任何机构和/或个人不得以任何形式转发、翻版、复制、发布或引用本报告全部或部分内容，亦不得从未经中信建投书面授权的任何机构、个人或其运营的媒体平台接收、翻版、复制或引用本报告全部或部分内容。版权所有，违者必究。中信建投证券研究发展部中信建投证券研究发展部中信建投（国际）中信建投（国际）北京东城区朝内大街2号凯恒中心B座12层电话：(8610)8513-0588联系人：李祉瑶邮箱：上海浦东新区浦东南路528号南塔2103室电话：(8621)6882-1612联系人：翁起帆邮箱：深圳福田区福中三路与鹏程一路交汇处广电金融中心35楼电话：（86755）8252-1369联系人：曹莹邮箱：香港中环交易广场2期18楼电话：（852）3465-5600联系人：刘泓麟邮箱：charleneliucsci.hk24