GLaM模型与GPT-3模型对比 原图定位 GLaM:最大的 GLaM 拥有 1.2 万亿个参数,大约是 GPT-3 的 7 倍。然而,它只消耗了训练 GPT-3 所需能量的 1/3,并在推理时只 需要一半的计算浮点运算量, 计算效率更高 。在零样本、单样本和少样本学习任务上也实现了更好的性能,在七个具体任务中分别实现了平均 10.2%、6.3%和 4.4%的性能提升。