《当大模型推理遇到算力瓶颈如何进行工程优化?-李谋.pdf》由会员分享,可在线阅读,更多相关《当大模型推理遇到算力瓶颈如何进行工程优化?-李谋.pdf(40页珍藏版)》请在三个皮匠报告上搜索。
1、当大模型推理遇到算力瓶颈,如何进行工程优化零一万物资深算法专家李谋Your Title/A Subtitle HereAlternate Intro Slide目录1)大语言模型算力需求及当前增长趋势大语言模型算力需求及当前增长趋势2)大模型结构特征,与传统模型的差异大模型结构特征,与传统模型的差异3)大模型推理加速挑战与大模型推理加速挑战与难点难点4)零一万物模型推理服务优化技术零一万物模型推理服务优化技术5)大模型应用场景与业务落地探讨大模型应用场景与业务落地探讨1 大语言模型算力需求及增长趋势推理成本优化推动应用爆发 未来推理服务在24个月成本继续优化500倍+的速度,会更进一步增加应用
2、的爆发与推理服务对算力的需求模型越来越大 GPT5的参数量将会达到10万亿级别 业界大模型将进入500亿参数的规模多模态爆发 对数据量与算力会有更大规模需求的增长 Meta最近的算力需求(35万片H100)反映了多模态对算力几何级数增长的效应垂类大模型兴起 自动驾驶、视频、电商、量化、游戏等垂类客户开始进入企业模型的训练阶段ADBC大模型发展趋势算力需求 指数级增长深度学习时代,每4-6个月翻倍大模型时代,每2-3个月翻倍ChatGPT发布2030年相比2020年通用算力增长10倍,专用算力增长500倍机器学习时代,每2年翻倍2 大模型结构特征与传统模型差异大语言模型 vs 传统模型开发环境-
3、动态图生产环境-静态图+图融合 网络结构复杂 参数较少 所有输入计算流程一致 DAG有向无环大语言模型 vs 传统模型 结构简单,Transformer Block串联 参数很多 千亿,万亿,十万亿规模 不同输入计算流程不一样 循环结构,自回归3 大模型推理加速挑战与难点大模型推理加速挑战与难点计算量计算量参数量参数量使用成本使用成本局部局部电力电力算力内存集群能源推理服务降本增效推理降本增效提供服务吞吐减少硬件成本GPU降价减少GPU数量降低延时增大并发优化显存target:max(throughput)while latency MLP先做列切分,再做先做列切分,再做行切分行切分每一层每一
4、层2次次AllReduce多机张量并行节点内节点内:NVLINK节点间节点间:Infiniband/RoCE张量并行适合节点内张量并行适合节点内跨节点跨节点TP扩展性下降扩展性下降明显明显Context Parallism+Tensor ParallismPrompt Cache(ref:RadixAttention)Prompt Cache(ref:RadixAttention)k_cache_ptrv_cache_ptr.你好,早上好k_cache_ptrv_cache_ptr你好,k_cache_ptrv_cache_ptr你好,我来自浙江k_cache_ptrv_cache_ptr你好
5、,我来自浙江杭州k_cache_ptrv_cache_ptr你是谁?你是谁你好,我来自浙江早上好杭州LRU poolRadixTree利用数据结构保存每个前缀对应的kv_cache5 大模型业务场景与落地应用探讨大模型业务场景与落地应用Base ModelChat ModelApplicationsAPIUsersSFT&RL语言语言大大模型模型图像图像大大模型模型多模态多模态大模型大模型 基础大模型基础大模型 L0 行业大模型行业大模型 L1 垂类大模型垂类大模型 L2帮我用英文写封感谢信Syntax:ModuleNotFoundError:No module named numpy三体里叶文洁是如何认识伊文斯的?比较一下两幅图的不同之处帮我做一份以”和平”为主题的PPT大模型业务场景与落地应用总结LLM推理加速大模型落地应用 github huggingface modelscope wisemodelSpeculative Decoding小模型预测,大模型验证,验证过程小模型预测,大模型验证,验证过程是并行计算。是并行计算。最好情况最好情况 vs 最坏最坏情况情况