LLaMA与主要竞争对手参数规模对比 原图定位 LLaMA 参数规模小,对算力要求低。在大模型上,人们似乎都会假设更多的参数会带来更好的性能。但是 Hoffmann et al.(2022)的工作表明,在给定的计算预算下,最好的性能不是由最大的模型实现的,而是由在更多的数据上训练的小模型实现的。和谷歌、微软不同,在大型语言模型上,Meta 选择了算力和资源要求更少的小模型。LLaMA 模型在大量未标记的数据上进行训练,因而非常适合对各种任务进行微调。Meta 推出的 LLaMA 参数规模有 70 亿 (7B)、130 亿(13B)、330 亿(33B)和 650 亿(65B)四种。相比 ChatGPT 的底层模型 OpenAI GPT-3 有 1750 亿(175B)个参数,LLaMA 模型的参数量很小。Meta 首席 AI 科学家杨立昆(Yann LeCun)表示,在一些基准测试中,LLaMA 130 亿参数规模的模型性能优于 OpenAI 推出的 GPT3,且能跑在单个 GPU 上;650 亿参数的 LLaMA 模型能够和 DeepMind700 亿参数的 Chinchilla 模型、谷歌 5400 亿参数的 PaLM 模型竞争。