《计算加速套件TACO+Kit:构建全生态的计算加速方案成就极致AI算力.pdf》由会员分享,可在线阅读,更多相关《计算加速套件TACO+Kit:构建全生态的计算加速方案成就极致AI算力.pdf(19页珍藏版)》请在三个皮匠报告上搜索。
1、大模型时代AI基础设施集群最佳实践-推理+、训练+叶帆 腾讯云异构计算AI研发专家工程师主讲人:目录大模型训练l 星脉网络及TCCLl 共享存储方案l 监控和运维故障处理流程l 基于k8s自动化故障自愈方案l H800 FP8收敛性研究l 案例分享大模型推理l LLM推理瓶颈分析l Taco-LLM赋能生产l Continuous batchingl 预测解码l 量化l 分布式推理由于推理的串行计算特点,只能通过增大batch_size来进一步挖掘GPU算力batch_size的上限依赖于剩余显存,增大batch_size会导致显存首先达到瓶颈除此之外,LLM推理还存在GPU利用率低,吞吐量低
2、以及商业落地昂贵的成本问题显存占用 模型参数显存占用+kv cache显存占用 12*h*h*l+batchsize*sequence_len*h*l*2推理场景显存占用分析以65B模型为例,hidden size=8192(固定),l=80(固定)sequence_len=2048,数据格式采用FP16为例:模型参数显存占用:12*h*h*l*2bytes=120 GBk,v cache显存占用:bs*s*h*l*2*2bytes=bs*5G当batchsize=96时,需要消耗480GB kvcacheA800/H800均为80G显存,需要8张卡容纳120+480=600GB模型推理数据L
3、LM推理业务背景介绍:显存和带宽是当前LLM模型的主要瓶颈推理:串行计算过程,单并发无法有效发挥硬件算力Time Step#1satDecoder-OnlyArchitecturethedogTime Step#2downDecoder-OnlyArchitecturethedogsatTime Step#3Decoder-OnlyArchitecturethedogsatdownFinal Generated OutputthedogsatdownTaco-LLM全方位大模型推理优化高吞吐量与低延迟全面兼容hugging face主流模型,包括但不限于:LLaMA,GPT,Falcon,op
4、t等等全面兼容主流模型从现实的生产需求出发,保障客户在实际落地中的产品需求面向生产落地极大提高吞吐量。优化客户端的延迟吞吐兼容生产原有Nave batching的流水线执行方式会导致提前完成以及延迟加入的问题。这些都会造成显存的利用率下降,导致带宽瓶颈。Taco-LLM可以控制任务迭代中产生的等待时间,采取并行推理的策略最大化减少推理中的“气泡”结合FIFO(先进先出)的原则,保障客户体验的连贯性Taco-LLM的核心技术优化方向:Continuous BatchingTaco-LLM的核心技术优化方向:预测解码我们观察到具有相似词表的小型模型能够更快的产生一些列准确率较高的token数据。这
5、样能够更加快速的完成推理任务,提高推理的效率。Taco-LLM推理过程中,当大模型全部接受小模型的输出时,推理流程会取得非常明显的加速;当大模型拒绝小模型的某个输出时,大模型会从对应分布中重新采样,然后由小模型继续生成新的输出。Prompt提示词Draft model预测模型Target model原始模型Whataniceworld!ENDDraft model generate 4 tokensTarget model accepts them all并行计算(增加seq维度并行度)自回归解码(串行生成)MynameKevin,andyouisDraft model generate 4
6、tokensTarget model accepts 2 and reject the 3rd.Then,the draft starts again.Prompt提示词Draft model预测模型Target model原始模型情形一Speculative Inference TimelineSpecSpecSpecTreeVerifySpecSpecSpecTreeVerifytot4t1 t2 t3 t4 t5 t6 t7 t8 技术原理情形二niceKevin,to!niceworldENDTaco-LLM的核心技术优化方向:量化权重量化:在大模型普遍低秩的情况下,用更低比特的位宽来
7、储存和计算权重,可以加快推理速度,降低显存占用。KV缓存量化:在相同的显存条件下可以储存更多的KV缓存,这样可以支持更长序列的快速推理任务。fp8量化:相比于int8的量化方法,fp8量化在0点附近有更低的误差,并且具有更好的推理性能。Taco-LLM的核心技术优化方向:分布式推理GPU1GPU2GPU3GPU4GPU5GPU6Layer1Layer2Layer3Layer4Taco-LLM借鉴分布式训练中模型并行,流水线并行和张量并行等技术,将大模型结构切分成多个子图,放到多个GPU卡上进行推理。Taco-LLM还会优化调度器,任务池以及推理引擎等组件之间的协作,让整个框架能够更高效地进行数
8、据同步和任务处理。Taco-LLM的核心技术优化方向:算子优化Group-Query Attention(GQA):对比于MQA,GQA使用中间数量的K,V头,可以获得与MHA相当的性能和与MQA相当的速度,并且拥有更广泛的应用场景。CUDA kernel优化:我们会采用CUDA或者Triton来优化算子库来减少计算复杂度和内存占用,从而可以更好地利用计算资源,提高网络推理的性能。Multi-headGrouped-queryMulti-queryValuesKeysQueries目录大模型训练l 星脉网络及TCCLl 共享存储方案l 监控和运维故障处理流程l 基于k8s自动化故障自愈方案l
9、H800 FP8收敛性研究l 案例分享大模型推理l LLM推理瓶颈分析l Taco-LLM赋能生产l Continuous batchingl 预测推理l 量化l 分布式推理高性能计算网络:星脉场景诉求大模型训练时大量模型数据在不同节点之间进行通信,需要低延时高吞吐网络来发挥集群GPU算力解决方案高性能网络架构:3.2Tbps接入带宽、1600T交换容量,流量亲和性FatTree组网;自研协议:端网协同自研协议栈,可编程RDMA拥塞控制算法,实现23us低网络延时;AlltoAll通信性能在典型业务msg size下提升30%;高性能集合通信库TCCL:拓扑感知流量亲和性调度,负载路径优化、集
10、合通信加速;AllReduce/AllGather/ReduceScatter性能提升40%;大模型训练框架端到端高网运营系统问题巡检、定位高可用性部署、验收LCLCLALALALAGPU Server GPU Server LALALALAGPU Server GPU Server 拓扑感知流量调度端网协同自研协议TiTa高性能集合通信库TCCLGPUGPUGPUGPUGPUGPUGPUGPUGPU跨模态大模型NLP大模型CV大模型推荐大模型自研高性能网络架构计算服务器存储服务器集合通信性能加速实测性能:千亿参数大模型训练,3K集群算力线性度接近100%自研协议栈拥塞控制算法自研交换机流量亲
11、和性组网高性能集合通信库:TCCL全局Hash路由:可预期的网络性能拓扑亲和性感知调度:最小化流量绕行双网口动态聚合优化共享存储方案:CFS+COSTurbo CFS文件存储方案基于Turbo CFS提供标准的高性能分布式文件系统方案性能:100GBps存储带宽、单客户端性能达 5GB/s带宽、百us级延迟成本:支持自动冷热分层技术,自动沉降低频访问的Checkpoint和样本文件,最大降低80%成本适用场景:适合数据持久化存储在CFS中,数据集相对固定的AI训练及高性能计算场景COS+GooseFS缓存加速方案基于COS+GooseFS提供智能缓存加速方案,提升数据访问性能性能:GooseF
12、S将数据缓存至GPU内存和本地盘,单请求低至百s级延迟,整集群提供100万级IOPS,TB级别吞吐成本:全量数据持久化在对象存储上,提供海量低成本分布式存储,最低可支持0.01元/GB存储规格适用场景:适合数据持久化存储在COS中,数据频繁更新流动的训练场景GPU A100客户端GPU A800客户端训练集群GPU A800客户端推理集群Local CacheLocal CacheCFS Turbo性能型(性能线性扩容)POSIX并行CFS低频存储自动分层沉降监控和故障处理流程场景诉求大模型训练集群规模大,出问题概率高,排查时间越长,浪费成本越多。丰富的底层运维监控指标,协助客户及时发现潜在隐
13、患控制台、云API、消息订阅等多种故障通知渠道预授权支持自动化故障迁移,最小化集群业务影响解决方案集群故障自愈方案场景诉求解决方案大模型训练中断之后,需要人为干预处理,重启训练任务提供任务编排和业务的全链路可观测能力支持10min左右完成底层计算资源的故障恢复分钟级训练业务自愈,无需人工干预,提高集群利用率全局监控,一站式掌握7*24小时运行状态故障自动检测与恢复,保证任务连续进行基于K8S自动化故障自愈方案过程全透明,掌握7*24小时任务状态异常零干预,提升训练&微调任务连续性提供从资源-框架-任务全链路metric、log、event等信息可观测能力集成TKE云原生开放特性,识别硬件异常并
14、提供接口对接客户自有监控平台提供训练和精调可观测能力:任务进展&资源状态提供task和infra急速自愈和恢复,自动化驱逐异常任务,重新调度分布式训练任务,极大减少训练中断时间客户案例通过丰富的 GPU 监控指标和多维度的故障巡检能力,可实时掌握训练任务动态,及时发现训练异常,结合任务自愈机制快速拉起异常任务,保证训练连续性。FP8性能加速和收敛一致性加速效果国外某厂商最新型号显卡FP8相比BF16性能加速1.5倍左右收敛一致性最佳FP8 recipeTransformer EngineFP8 hybrid(前向E4M3,反向E5M2)Amax history length:1024Amax algo:max某客户优化案例分享问题说明客户反馈512卡训练13B模型扩展比下降22%,并且前向和反向时间波动大最终优化效果整体集群基本线性扩展训练迭代时间稳定相比友商同等集群规模,单GPU算力输出TFLOPS提升15%15%通信线程卡住底层硬件异常,导致SMI终端,引起CPU被抢占迭代时间波动大训练进程没有绑核,导致频繁调度切换,甚至跨NUMA访问小数据包通信量大NCCL配置参数调整,最大化发挥底层网络性能通信占比高调整模型实现,降低显存占用,提升batch,提高计算通信占比THANKS谢谢观看