国内外主流AI大模型对比-行业数据

国内外主流AI大模型对比原图定位

在语言能力之外，AI 大模型的多模态能力也快速提升。2023 年初，主流闭源大模型通常为纯文本的 LLM。2023 年至今，闭源模型的多模态能力具有大幅度提升，目前主流闭源大模型通常具备图像理解、图像生成能力。如图表 13 所示，虽然开源模型的文本能力有了较大提升，但大多数开源模型尚不具备多模态能力。目前大模型多模态能力的技术聚焦转向了原生多模态。全球仅谷歌和 OpenAI 发布了其原生多模态模型 Gemini、GPT-4o。创建多模态模型时，往往分别训练不同模态的模型并加以拼接，而原生多模态模型一开始就在不同模态（文本、代码、音频、图像和视频）上进行预训练，因此能够对输入的各模态内容顺畅地理解和推理，效果更优。例如，对于非原生多模态模型的 GPT-4，其语音模式由三个独立模型组成，分别负责将音频转录为文本、接收文本并输出文本、将该文本转换回音频，导致 GPT-4 丢失了大量信息——无法直接观察音调、多个说话者或背景噪音，也无法输出笑声、歌唱或表达情感。而原生多模态模型 GPT-4o，多种模态的输入和输出都由同一神经网络处理，因此信息丢失更少，模型效果更好。