3072张80GBA100训练GPT,最大规模模型参数量是GPT-3原版规模的5倍 原图定位 ChatGPT 带动算力需求飙升,存算侧硬件全面增量需求。据 NVIDIA 估算,训练 GPT-3,假设单个机器的显存/内存容量足够的前提下,8 张 V100 显卡训练时长预计达 36 年,1024 张 80GBA100 显卡完整训练 GPT-3 的时长为 1 个月,算力侧硬件需求全面增长。