论文提到当前运行 LLM 的标准方法是将整个模型加载到 DRAM 中进行推理。然而这严重限制了可以运行的最大模型大小。一个 70 亿参数的模型仅以半精度浮点格式加载参数就需要超过 14GB 的内存,超过了大多数边缘设备的能力。为了解决这一限制,论文建议将模型参数存储在闪存中,闪存至少比 DRAM 大一个数量级。然后,在推理过程中,直接从闪存加载所需的参数子集,避免了在 DRAM 中加载整个模型的需求。
论文提到当前运行 LLM 的标准方法是将整个模型加载到 DRAM 中进行推理。然而这严重限制了可以运行的最大模型大小。一个 70 亿参数的模型仅以半精度浮点格式加载参数就需要超过 14GB 的内存,超过了大多数边缘设备的能力。为了解决这一限制,论文建议将模型参数存储在闪存中,闪存至少比 DRAM 大一个数量级。然后,在推理过程中,直接从闪存加载所需的参数子集,避免了在 DRAM 中加载整个模型的需求。