国内外主流AI大模型对比 原图定位 在语言能力之外,AI 大模型的多模态能力也快速提升。2023 年初,主流闭源大模型通常为纯文本的 LLM。2023 年至今,闭源模型的多模态能力具有大幅度提升,目前主流闭源大模型通常具备图像理解、图像生成能力。如图表 13 所示,虽然开源模型的文本能力有了较大提升,但大多数开源模型尚不具备多模态能力。目前大模型多模态能力的技术聚焦转向了原生多模态。全球仅谷歌和 OpenAI 发布了其原生多模态模型 Gemini、GPT-4o。创建多模态模型时,往往分别训练不同模态的模型并加以拼接,而原生多模态模型一开始就在不同模态(文本、代码、音频、图像和视频)上进行预训练,因此能够对输入的各模态内容顺畅地理解和推理,效果更优。例如,对于非原生多模态模型的 GPT-4,其语音模式由三个独立模型组成,分别负责将音频转录为文本、接收文本并输出文本、将该文本转换回音频,导致 GPT-4 丢失了大量信息——无法直接观察音调、多个说话者或背景噪音,也无法输出笑声、歌唱或表达情感。而原生多模态模型 GPT-4o,多种模态的输入和输出都由同一神经网络处理,因此信息丢失更少,模型效果更好。