自然语言类模型和多模态模型应用场景对比 原图定位 多模态大模型是AI大模型的发展方向,也是AI厂商竞争的关键领域。多模态大模型可接受文字、图像、语音等多种不同类型数据的输入、处理、分析,并将结果以不同的模态形式对外输出,实现异构模态数据协同推理。在ChatGPT推出之后,谷歌、微软、百度等海内外科技公司纷纷加速了对多模态大模型的研发进度。相较于经过单一的文字类数据训练的自然语言类模型,多模态模型在训练阶段融合了文字、图像、三维物体等多维度数据的训练,可交互的信息类型较多,通用性得到了大大增强,可应用的场景有较大拓展。我们判断,多模态大模型的技术迭代、产品设计和商业模式的探索将成为下一阶段各厂商竞争的关键。接下来,我们从算法模型、算力和数据三方面对多模态大模型的技术原理进行深入分析。