图表2海外主流大模型规格对比 原图定位 多模态下的超大参数和“上下文窗口”(tokens)。通常而言,模型的训练参数越多,表达能力越强,也能够捕捉更复杂的数据模式,当然也意味着更多的训练数据和算力。多模态大模型的训练参数更大,Open AI 的 GPT-4 达到 1.8 万亿(vs 文本类大模型 GPT-3有 1750 亿参数),谷歌的 Gemini-1.5 也达到 1.5 万亿(vs Gemini 1.0 约 1500 亿);对于文本类模型的 Llama2 和 Mixtral 而言,训练参数在百亿级别。而“上下文窗口”的拓展则能增加模型的可处理信息量,使得模型在长内容方面突破。根据谷歌官方披露,Gemini 1.5 Pro 可一次处理包括 1 小时的视频、11 小时的音频、超过 3 万行代码或超过70 万字的代码库。