《【赵亮】生成式 AI 狂潮下如何加速大规模语言模型计算.pdf》由会员分享,可在线阅读,更多相关《【赵亮】生成式 AI 狂潮下如何加速大规模语言模型计算.pdf(25页珍藏版)》请在三个皮匠报告上搜索。
1、生生成成式式A AI I狂狂潮潮下下如如何何加加速速大大规规模模语语言言模模型型计计算算赵赵亮亮英特尔人工智能方案架构师INTEL HABANA 方案架构师2011年加入INTEL从事HABANA产品在中国区的技术推广、支持和落地工作赵赵亮亮0 01 1现现代代L LL LMM模模型型发发展展史史1 10 0B B+L LL LMM时时间间线线*https:/arxiv.org/abs/现现代代L LL LMM发发展展演演进进树树*https:/arxiv.org/abs/模模型型结结构构典型模型分类列表E En nc co od de er r-d de ec co od de er rEL
2、MoT5GLMD De ec co od de er r-o on nl ly yGPTxLLaMAPaLMBLOOMChinchillaERNIE3.0LaMDAGopherAlpacaE En nc co od de er r-o on nl ly yBERTRoBERTaDistilBERTALBERTXLMERNIE趋趋势势参数规模越来越大,结构趋同,Transformer化,普遍采用Decoder-only方式0 02 2典典型型L LL LMM技技术术分分析析比比较较T Tr ra an ns sf fo or rmme er r结结构构K Ke ey y MMo od du ul
3、 le es sMulti-Head Attention(MHA)Feed Forward(FF)Normalization(NORM)Position Embedding(PE)Activation*https:/arxiv.org/abs/典典型型L LL LMM配配置置比比较较Normalization,PE,Activation Function,Layers,Heads,Hidden Size,Max Seq Length*https:/arxiv.org/abs/训训练练相相关关配配置置Learning Rate/Optimizer/Precision/*https:/arxiv.
4、org/abs/0 03 3L LL LMM训训练练、推推理理的的软软硬硬件件要要求求C Co ommp pu ut te eMMe emmo or ry yC Co ommmmA AI I计计算算三三要要素素算算力力、内内存存、通通信信L LL LMM因因参参数数规规模模极极速速膨膨胀胀带带来来的的严严重重问问题题之之一一是是 内内存存问问题题训训练练预预训训练练(P PT T)全全量量微微调调(F FT T)参参数数高高效效微微调调(P PE EF FT T)训训练练 -P PT T/F FT T中中的的内内存存需需求求Parameter/Gradient/Optimizer的基础内存需求
5、*ZeRO&DeepSpeed:New system optimizations enable training models with over 100 billion parameters-Microsoft Research缓缓解解技技术术Data Parallelism-ZeroTensor ParallelismPipeline ParallelismMixed Precision依依赖赖大内存高卡间互联带宽训训练练 -P PT T/F FT T中中的的内内存存需需求求Activation分析*https:/arxiv.org/abs/2205.05198缓缓解解技技术术Parall
6、elism(Tensor/Sequence/Pipeline),CPU offloading,Activation Recomputation or Activation checkpointing,依依赖赖大内存,高算力训训练练 -P PT T/F FT T中中的的内内存存需需求求Activation Precomputation*https:/arxiv.org/abs/2205.05198缓缓解解技技术术Selective Activation Recomputation依依赖赖大内存,高算力训训练练 -P PE EF FT TActivation PrecomputationL Lo
7、oR RA AP P-T Tu un ni in ng gA Ad da ap pt te er r-T Tu un ni in ng 推推理理C Ch ha at tG GP PT T类类应应用用通常采用C Ca as su ua al l L LMM方式,单向注意力(输入token只注意过去的token和自身)。需需求求支持上下文长度在2048/4096 或以上,越长越好满足模型10+B/100+B 等不同量级规模支持输入、输出长度不定时延符合人机交互要求满足一定的延时下,batch越大越好(吞吐更高)缓缓解解技技术术Tensor/Sequence Parallelism,K/V cach
8、e,依依赖赖大内存,高算力,高卡间互联带宽TransformerDecoderK K/V V C Ca ac ch he eInoutHowareyouPromptx x N N0 04 4H Ha ab ba an na a G Ga au ud di i2 2 支支持持L LL LMMG Ga au ud di i2 2 芯芯片片架架构构9 96 6G GB B H HB BMM2 2e e,2 21 1x x1 10 00 0G Gb bp ps s R Ro oC CE Ev v2 2,超超过过A A1 10 00 0的的算算力力G Ga au ud di i2 2 服服务务器器 单单
9、节节点点MME EG GA A P PO OD D软软件件生生态态基于最新的模型,更快速,更容易h ht tt tp ps s:/d de ev ve el lo op pe er r.h ha ab ba an na a.a ai i/L LL LMM模模型型支支持持MLPerf Training v3.0 June 27th,2023 唯唯二二的的两两个个提提交交G GP PT T-3 3训训练练数数据据的的芯芯片片公公司司G GP PT T3 3 (使使用用B BF F1 16 6)卡卡数数T TT TT T (分分钟钟)S Sc ca al le e r ra at te e256442.61384311.995%L LL LMM模模型型支支持持其他经过验证过的LLM模型,不完全列表7B113B176B训练/推理B Bl lo oo omm13B30B推理O OP PT T7B13B训练/推理L LL La aMMA A2B10B130BChatGLM 6B训练/推理G GL LMMGPT2GPT-JGPT-NeoX推理G GP PT Tx T TH HA AN NK KS S