2019年至今多模态预训练大模型重要算法与数据集 原图定位 实现骨干网络的大一统,具有一个模态共享编码器,并且无需配对数据,即可理 12种模态信息, 并提供了多模态无边界融合的新范式。相比 CLIP、BEiT-3、Imagebind,模态数目大幅增加,并且摆脱了多模态训练过程中对于配对数据的依赖性,为多模态学习提供了新路径。