报告预览

太极 Angel 助力生成式大模型高效落地-刘凯.pdf

编号：164025

PDF 30页 8.70MB 下载积分：VIP专享

下载报告请您先登录！

太极 Angel 助力生成式大模型高效落地-刘凯.pdf

1、腾讯Angel助力生成式大模型高效落地混元大模型推理负责人刘凯2019-至今2013 2016 电磁场GPU加速2017 2019 深度学习通用推理引擎2016 2017 Angel-HCF&Angel-SNIP首个工业落地的INT4&稀疏化混元大模型推理方向负责人 PowerPC系统软件开发目录生成式AI技术之部署挑战解析Angel-HCF助力生成式AI部署优化Angel-SNIP助力生成式AI无损压缩Angel助力混元大模型大规模落地应用生成式AI技术之部署挑战解析快速增长的模型规模快速增长的模型规模缓慢增长的设备能力缓慢增长的设备能力模型规模快速增长，12年提升1 1个量级个量级随着

2、MoE结构的提出，模型整体参数量突破万亿突破万亿 23年开始模型窗口长度不断加大，各大公司逐步开放至百百KMKM级别级别3232404080808080808080809696V100V100A100-40GA100-40G A100-80GA100-80GA800A800H100H100H800H800H20H20训练训练GPUGPU显存容量（显存容量（GBGB）23990990990990148148V100V100A100-40GA100-40G A100-80GA100-80GA800A800H100H100H800H800H20H20训练训

3、练GPUGPU计算能力（计算能力（TFLOPSTFLOPS）9009009203920392039343034303430343040964096V100V100A100-40GA100-40G A100-80GA100-80GA800A800H100H100H800H800H20H20训练训练GPUGPU显存带宽（显存带宽（GBGB）4484848484848T4T4A10A10A30A30L20L20L40L40L40SL40S推理推理GPUGPU显存容量（显存容量（GBGB）656551362362T

4、4T4A10A10A30A30L20L20L40L40L40SL40S推理推理GPUGPU计算能力（计算能力（TFLOPSTFLOPS）300300600600933933864864864864864864T4T4A10A10A30A30L20L20L40L40L40SL40S推理推理GPUGPU显存带宽（显存带宽（GBGB）越发严格的禁令越发严格的禁令 GPU显存增长缓慢，停滞停滞在100G以下 GPU计算能力1代增长3 3倍左右倍左右显存带宽1代增长0.510.51倍倍训练卡：A100、H100、A800、H800全面禁售全面禁售推理卡：L40S、L40、A30全面禁售全面禁售中

5、国特供：H20、L20算力大幅削减，仅保留大幅削减，仅保留2030%2030%如何使用更差的卡来优化大模型的训练和推理效率在现有卡的基础上设计怎样的模型结构能在同等参数规模下获得更好的训练和推理性能如何充分发挥国产芯片能力来打造国产大模型周期周期体量体量收益收益模型训练模型训练13月千级别学术、社会正收益经济负收益模型推理模型推理半年数年千万级别学术、社会正收益经济正收益支撑太极Angel研发模型压缩组件压缩组件SNIP+SNIP+推理部署加速组件推理部署加速组件HCFHCF，保障腾讯混元大模型高便捷、高性能、低成本的落地应用太极太极Angel-HCF 太极太极Angel-SNIP An

6、gel-HCF之显存优化 Angel-HCF之计算优化 Angel-HCF之通信优化 Angel-HCF之调度优化Angel-HCF助力生成式AI部署优化模型权重：固定大小，模型参数量*数据类型激活空间：动态大小，输入规模*隐层规模GPU显存占用拆分大模型热+禁令影响下，如何在更小的卡上部署大模型大模型走向生产阶段，降低显存提升并发能有效降低成本超长文火热的当下，如何缓解激活空间显存的凸显 KV-Cache：动态大小，输入输出规模*隐层规模*层数腾讯混元的解法分布式存储PrefillPagedAttention一阶段优化一阶段优化二阶段优化二阶段优化升级Buffer全共享量化压缩权重

7、INT8FP8INT4激活INT8FP8INT4KVINT8FP8INT4三阶段优化三阶段优化再升级Context-Loop细化显存粒度Angel-HCF之显存优化Angel-HCF之计算优化高效算子集合：自定义Kernel、cutlass、cublasLt、开源实现图优化&层融合：Graph-Optimizer+人工辅助优化压缩适配：w8a8、2:4硬件稀疏化等Angel-HCF之通信优化百亿以上大模型需要分布式部署，卡间、机间通信逐步成为瓶颈腾讯基于NCCL二次开发，推出自研TCCL加速通信库依托腾讯内部的星脉网络架构，为大模型训练推理提供高效的网络通信性能针对不同的模型规模

8、及结构、需要选择不同的并行方式 PP并行由于过大的Bubble Time并不适合一般推理场景事无绝对：MoE+PP有奇效（处理好GlobalBatch&MiniBatch关系）VSVS通信量：O 通信量：O Angel-HCF之调度优化InferRequestStopRequestTriton ServerScheduler优先级、排队、batch、拒绝等执行队列拒绝队列StreamingResponsesHCF BackendLLMGenerationRequest QueueInfer PoolInfer IterSchedulerBatch、KV、交换、提前退出等KV-Cache管理器

9、 Triton+HCF Backend完成调度优化基础功能：动态Batch、排队、拒绝、流式、Continuous、group等新增功能：请求中止降低无效运算、新增内部调度器提高吞吐等请求（最大生成长度X）状态机执行队列调度器用户历史请求生成长度线上近期请求平均生成长度1、Token维度调度，弱化Batch和SeqLen2、KV-Cache以最优窗口进行申请1、完成生成、释放槽位2、生成未完成、逐步扩大窗口获取更多槽位基础功能完成原因正常完成：Eos、StopWord、MaxLength、策略停止等异常完成：超参异常、执行队列等待超时、Cache不足等内部调度优化降低无效运算：用户中止、网

10、络断联、审核问题等Angel-HCF助力生成式AI部署优化优化手段：显存优化、计算优化、通信优化、调度优化优化目标：降低耗时、提升并发&吞吐、降低成本其他尝试：国产AI芯片、端侧部署等 Angel-SNIP之量化压缩 Angel-SNIP之蒸馏压缩 Angel-SNIP之并行解码 Angel-SNIP之结构稀疏Angel-SNIP助力生成式AI无损压缩Angel-SNIP之量化压缩W8A16策略策略：仅量化模型权重，推理时反量化回BF16，主要目的减少存储读写开销，量化比特数为8特点特点：无需校准，直接产出量化模型，时间成本开销最小，推理节省接近一半的显存开销，精度损失最小，大规模测试中都基本

11、无损W4A16策略策略：进一步将权重量化的比特数减少到4，减少更多读写开销。采用GPTQ优化策略，更好保持精度，需要少量校准集进行GPTQ优化特点特点：算法耗时短，自研量化工具在7B模型上1小时内产出量化模型加速效果优于W8A16，精度损失在0.5%之内FP8策略策略：采用W8A8C8的策略，权重存储、kernel计算和KV-Cache的存储都采用FP8精度,H卡之后支持FP8，需要少量校准集进行FP8校准特点特点：算法耗时短，半小时内完成校准，FP8相比于INT8具有更佳的精度保持效果，推理速度在不同Batch Size下均表现优异问题问题FP8的出现，是否还有必要专门做量化压缩？Angel

12、-SNIP之文生文蒸馏压缩原模型延迟过高，实际业务中需要倍数压缩模型参数已有精简模型训练不佳，需要借助大模型提升训练效果结构结构模型模型Pass1Pass1场景1教师 34B76学生 7B distill75场景2教师 70B72学生 7B-MoE distill70需求场景需求场景压缩比80%，使用20%参数量的学生，达到原始模型效果支持热启动、冷启动两种方案支持同构和异构的蒸馏压缩模式蒸馏效果蒸馏效果MHAFFNMHAFFNMHAFFNMHAFFNMHAFFNMHAFFNMHAFFNMHAFFNMHAFFN原始模型层裁剪混合裁剪部分业务场景无尺寸合适的小模型可用从头训练小模型

13、成本高（预训练+增训+SFT）需求场景需求场景结论结论继承大模型的部分权重，有利于小模型更快收敛相比从头过大量数据训练（预训练+增训）小模型，仅需20%的增训数据，便可快速裁剪出尺寸、效果相当的模型整体可节省 5X 以上的训练成本Angel-SNIP之文生图&视频蒸馏压缩30步-4s100步-12s30步-4s100步-12s30步-4s30步-4s文生图面临的问题：出图质感 vs 性能质感质感与与性能并重性能并重原模型（12s）评分蒸馏模型（4s）评分unet结构（3分档评分方式）29.7729.58(1%)dit结构（3分档评分方式）35.634.67(1%)unet结构+插件（5分档评分

14、方式）81.2881.98(1%)改进方案改进方案构造高质量数据集蒸馏：训练效率高、出图质感高基于渐进式的跨步蒸馏：训练稳定、质感与性能并重100步-12s100步-12s存在问题存在问题训练稳定性较难保障蒸馏后的小模型质较差步数蒸馏VSVS原模型蒸馏模型原模型蒸馏模型原模型蒸馏模型Angel-SNIP之文生图首个中英双语DIT架构全面开源官网：https:/ 模型：https:/huggingface.co/Tencent-Hunyuan/HunyuanDiT 论文：https:/tencent.github.io/HunyuanDiT/asset/Hunyuan_DiT_Tech

15、_Report_05140553.pdfAngel-SNIP之并行解码大模型的效果好；但推理耗时长，大规模部署成本高小模型的推理耗时短，部署成本低；但往往效果不及预期小模型推理，大模型校验均衡推理时耗及模型效果提升大模型单次生成token数5X 投机采样投机采样大模型解码率大模型解码率小模型解码率小模型解码率pass1pass1largemodel(codellama-34b)100%-76.8%smallmodel(codellama-7b)-100%67.7%投机采样19.96%81.04%75.6%10X 投机采样投机采样大模型解码率大模型解码率小模型解码率小模型解码率pass1pa

16、ss1largemodel(codellama-70b)100%-82.9%smallmodel(codellama-7b)-100%67.7%投机采样16.7%83.30%83.5%Angel-SNIP之结构稀疏 NVIDIA从Ampere系列显卡开始支持硬件结构化稀疏结构化稀疏可以有效降低存储和提升计算速度结构化稀疏加速算法改进算法改进少量数据，不需要训练不需要更新参数引入波动量Entropy存在问题存在问题数据量需求大资源消耗过大产出时间过长PPL最优ACC最优加速明显Angel-SNIP助力生成式AI无损压缩压缩算法多种多样，各有特点要根据实际场景选择最适合的方法不被固有方法束缚，积极尝试新方法Angel助力混元大模型大规模落地应用Angel助力混元大模型落地应用混元已接入600+司内业务，实现技术与应用同行Angel助力混元大模型落地应用文生文腾讯会议小助手Angel助力混元大模型落地应用文生图公众号自动配图Angel助力混元大模型落地应用多模态总结生成式AI部署挑战HCF助力部署优化SNIP助力无损压缩快速增长的模型规模缓慢增长的设备硬件能力愈发严格的禁令产品化后的超大体量显存优化计算优化通信优化调度优化量化压缩蒸馏压缩并行解码结构稀疏混元大模型落地应用文生文文生图多模态革命尚未成功，同志仍需努力

友情提示

1、下载报告失败解决办法
2、PDF文件下载后，可能会被浏览器默认打开，此种情况可以点击浏览器菜单，保存网页到桌面，就可以正常下载了。
3、本站不支持迅雷下载，请使用电脑自带的IE浏览器，或者360浏览器、谷歌浏览器下载即可。
4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩，下载后原文更清晰。

本文（太极 Angel 助力生成式大模型高效落地-刘凯.pdf）为本站（张5G）主动上传，三个皮匠报告文库仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对上载内容本身不做任何修改或编辑。若此文所含内容侵犯了您的版权或隐私，请立即通知三个皮匠报告文库（点击联系客服），我们立即给予删除！

温馨提示：如果因为网速或其他原因下载失败请重新下载，重复下载不扣分。

上海品茶

太极 Angel 助力生成式大模型高效落地-刘凯.pdf

太极 Angel 助力生成式大模型高效落地-刘凯.pdf