自然语言类模型和多模态模型应用场景对比-行业数据

自然语言类模型和多模态模型应用场景对比原图定位

多模态大模型是AI大模型的发展方向，也是AI厂商竞争的关键领域。多模态大模型可接受文字、图像、语音等多种不同类型数据的输入、处理、分析，并将结果以不同的模态形式对外输出，实现异构模态数据协同推理。在ChatGPT推出之后，谷歌、微软、百度等海内外科技公司纷纷加速了对多模态大模型的研发进度。相较于经过单一的文字类数据训练的自然语言类模型，多模态模型在训练阶段融合了文字、图像、三维物体等多维度数据的训练，可交互的信息类型较多，通用性得到了大大增强，可应用的场景有较大拓展。我们判断，多模态大模型的技术迭代、产品设计和商业模式的探索将成为下一阶段各厂商竞争的关键。接下来，我们从算法模型、算力和数据三方面对多模态大模型的技术原理进行深入分析。