1-6 大模型与小模型联动及落地.pdf

编号：102329

PDF 44页 9.53MB 下载积分：VIP专享

下载报告请您先登录！

1-6 大模型与小模型联动及落地.pdf

1、模型模型联动及落地刘佳祥百度资深研发程师|模型是提升效果的可靠途径参数量越来越Human效果也越来越好图1:参数趋势图图2:权威榜单 SuperGLUE 效果趋势图|随之来的问题是模型的落地困难、迭代周期久4千万参数模型15 亿模型（10亿级模型常规尺）15亿模型为例，模型落地成本就要翻 37 倍直接落地成本QPS045901351800.140.180.220.6591.13.31530100Model parameters(in billions)!速度慢随着模型规模的增，推理速度在迅速下降，实际落地价值，挑战更推理速度慢模型产价值需要考虑成本|模型模型联动|模型模型联动1.1 蒸馏的

2、基本概念2.1 反向蒸馏2.2 样本价值判断Part 1Part 2 1.2 基于任务相关的模型蒸馏1.3 基于任务关的模型蒸馏|模型模型联动1.1 蒸馏的基本概念2.1 反向蒸馏2.2 样本价值判断Part 1Part 2 1.2 基于任务相关的模型蒸馏1.3 基于任务关的模型蒸馏|1.1 模型蒸馏的基本概念蒸馏（Knowledge Distillation）Hinton,Geoffrey,Oriol Vinyals,and Jeff Dean.Distilling the knowledge in a neural network.TeacherStudentDataLogitsLogit

3、s|1.1 模型蒸馏的基本概念蒸馏（Knowledge Distillation）Hinton,Geoffrey,Oriol Vinyals,and Jeff Dean.Distilling the knowledge in a neural network.TeacherStudentDataLogitsLogitsDistillationLoss|1.1 模型蒸馏的基本概念蒸馏（Knowledge Distillation）TeacherStudentDataLogitsLogitsDistillationLoss预训练迁移范式标注数据预训练模型任务数据集微调模型|1.1 模型蒸馏的基本概

4、念标注数据任务数据集预训练模型微调模型在微调阶段加Step1:微调模型得到教师Step2:教师指导模型蒸馏|1.1 模型蒸馏的基本概念标注数据任务数据集预训练模型微调模型在微调阶段加Step1:微调模型得到教师Step2:教师指导模型蒸馏优势：效果较好劣势：步骤多,每个数据集都要重复次蒸馏步骤|1.1 模型蒸馏的基本概念标注数据任务数据集预训练模型微调模型在预训练阶段加蒸馏1.预训练模型作为教师模型指导模型预训练优势：学模型应到下游任务时，需微调教师劣势：下游效果差于任务相关蒸馏|1.1 模型蒸馏的基本概念预训练+蒸馏=任务关蒸馏微调+蒸馏=任务相关蒸馏优势：学模型应到下游任务时，需微调教师劣

5、势：下游效果差于任务相关蒸馏优势：效果较好劣势：步骤多,每个数据集都要重复次蒸馏步骤|模型模型联动1.1 蒸馏的基本概念2.1 反向蒸馏2.2 样本价值判断Part 1Part 2 1.2 基于任务相关的模型蒸馏1.3 基于任务关的模型蒸馏|1.2 基于任务相关的蒸馏动机：将模型的能极致的传授给模型，可否将监督数据加进来？|1.2 基于任务相关的蒸馏动机：将模型的能极致的传授给模型，可否将监督数据加进来？微调+蒸馏=任务相关蒸馏优势：效果较好劣势：步骤多,每个数据集都要重复次蒸馏步骤|1.2 基于任务相关的蒸馏动机：将模型的能极致的传授给模型，可否将监督数据加进来？微调+蒸馏=任务相关蒸馏数据

7、Part 1Part 2 1.2 基于任务相关的模型蒸馏1.3 基于任务关的模型蒸馏|1.3 基于任务关的模型蒸馏动机：预训练阶段蒸馏，减少微调教师模型的成本预训练+蒸馏=任务关蒸馏微调+蒸馏=任务相关蒸馏使便优势：学模型应到下游任务时，需微调教师劣势：下游效果差于任务相关蒸馏|1.3 基于任务关的模型蒸馏动机：预训练阶段蒸馏，减少微调教师模型的成本预训练+蒸馏=任务关蒸馏微调+蒸馏=任务相关蒸馏使便有没有办法更便、效果更好？优势：学模型应到下游任务时，需微调教师劣势：下游效果差于任务相关蒸馏|动机：次蒸馏，产出多个版本模型，进步降低蒸馏成本Wang,Shuohuan,et al.Ernie

8、3.0 titan:Exploring larger-scale knowledge enhanced pre-training for language understanding and generation.1.3 基于任务关的模型蒸馏更便：多学模型蒸馏效果更好：ALD(Auxiliary Layer Distillation)|动机：预训练阶段蒸馏，减少微调教师模型的成本Wang,Wenhui,et al.Minilm:Deep self-attention distillation for task-agnostic compression of pre-trained transf

9、ormers.1.3 基于任务关的模型蒸馏|动机：预训练阶段蒸馏，减少微调教师模型的成本Wang,Wenhui,et al.Minilm:Deep self-attention distillation for task-agnostic compression of pre-trained transformers.1.3 基于任务关的模型蒸馏MHA没有学习|动机：次蒸馏，产出多个版本模型，进步降低蒸馏成本Wang,Shuohuan,et al.Ernie 3.0 titan:Exploring larger-scale knowledge enhanced pre-training for

10、 language understanding and generation.1.3 基于任务关的模型蒸馏更便：多学模型蒸馏效果更好：ALD(Auxiliary Layer Distillation)ALD：蒸馏N+1层，下游产出N层模型|动机：次蒸馏，产出多个版本模型，进步降低蒸馏成本Wang,Shuohuan,et al.Ernie 3.0 titan:Exploring larger-scale knowledge enhanced pre-training for language understanding and generation.1.3 基于任务关的模型蒸馏|动机：次蒸馏，产

11、出多个版本模型，进步降低蒸馏成本https:/ 基于任务关的模型蒸馏|模型模型联动1.1 蒸馏的基本概念2.1 反向蒸馏2.2 样本价值判断Part 1Part 2 1.2 基于任务相关的模型蒸馏1.3 基于任务关的模型蒸馏|模型模型联动1.1 蒸馏的基本概念2.1 反向蒸馏2.2 样本价值判断Part 1Part 2 1.2 基于任务相关的模型蒸馏1.3 基于任务关的模型蒸馏|2.1 模型也能指导模型教：反向蒸馏*动机在模型的训练前期，可以将模型作为教师为模型引路，让模型快速进状态Qin,Yujia,et al.Knowledge inheritance for pre-trained la

12、nguage models.arXiv preprint arXiv:2105.13880(2021).|2.1 模型也能指导模型教：反向蒸馏*Large ModelSmallModelDataLogitsLogitsDistillationLossQin,Yujia,et al.Knowledge inheritance for pre-trained language models.arXiv preprint arXiv:2105.13880(2021).动机在模型的训练前期，可以将模型作为教师为模型引路，让模型快速进状态|2.1 模型也能指导模型匹配模型上的反向蒸馏13x 13x数据集

13、1数据集2：利使模型提升模型迭代效率 13xPassageQueryPassageQuery反向蒸馏0.055B1.3B实验配置实验结果|模型模型联动1.1 蒸馏的基本概念Part 11.2 基于任务相关的模型蒸馏1.3 基于任务关的模型蒸馏2.1 反向蒸馏2.2 样本价值判断Part 2|2.2 模型做样本价值判断加速模型收敛从样本的度来说：-每条样本的价值相同吗？-每条样本都需要训练吗？-学习过的样本还需要再学吗？帮：样本价值判断*Mindermann S,Brauner J M,Razzak M T,et al.Prioritized Training on Points that ar

14、e Learnable,Worth Learning,and Not Yet Learnt|帮：样本价值判断*2.2 模型做样本价值判断加速模型收敛Step1:准备模型下游数据集，训练个模型Dft样本价值判断模型|(,)h;|;hTopK全量训练集(x,y)Dt:finetune sample:post-train sample:forward:backforwardBackward选择 TopK 样本Step2:训练模型样本价值判断模型预训练模型Online Batch Selection帮：样本价值判断*2.2 模型做样本价值判断加速模型收敛Step1:准备模型样本价值判断模型下游数据

15、集，训练个模型Dft|帮：样本价值判断*实验结果2.2 模型做样本价值判断加速模型收敛(,)h;|;hTopK全量训练集(x,y)Dt:finetune sample:post-train sample:forward:backforwardBackward选择 TopK 样本Step2:训练模型样本价值判断模型预训练模型Online Batch SelectionStep1:准备模型样本价值判断模型下游数据集，训练个模型Dft|总结1.模型的能可以通过蒸馏释放到模型上，满性能需求;2.极致的蒸馏可以使 ERNIE-Tiny 渐进式蒸馏案，提升下游效果;3.便捷的蒸馏可以使 ERNIE-Tiny 任务关蒸馏案，或者使当前开源的ERNIE-Tiny 模型1.模型可以反向蒸馏模型，加速收敛;2.模型可以做样本价值判断，提升模型的学习效果常感谢您的观看|

友情提示

1、下载报告失败解决办法
2、PDF文件下载后，可能会被浏览器默认打开，此种情况可以点击浏览器菜单，保存网页到桌面，就可以正常下载了。
3、本站不支持迅雷下载，请使用电脑自带的IE浏览器，或者360浏览器、谷歌浏览器下载即可。
4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩，下载后原文更清晰。

本文（1-6 大模型与小模型联动及落地.pdf）为本站（云闲）主动上传，三个皮匠报告文库仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对上载内容本身不做任何修改或编辑。若此文所含内容侵犯了您的版权或隐私，请立即通知三个皮匠报告文库（点击联系客服），我们立即给予删除！

温馨提示：如果因为网速或其他原因下载失败请重新下载，重复下载不扣分。