上海品茶

多模态模型的发展历程-行业数据

多模态模型的发展历程原图定位

多模态技术持续演进，图像、音视频等领域取得突破性进展。随着对跨模态数据融合、人类认知能力模拟等研究的加深，多模态大模型不断发展。2021年初，OpenAI率先发布文生图模型DALL·E，由此拉开多模态模型序幕。此后，文生图领域相继出现谷歌Imagen、Midjourney、Stable Diffusion等模型，不断推升文生图模型能力。在音乐领域，文生音乐模型Suno V3高质量的音乐创作能力让文生音乐开始受到市场关注。在视频领域，Runaway Gen-2、Pika等不断提高生成视频质量，此后OpenAI Sora不仅将视频长度提升至60秒，还让视频具备了3D一致性。此外，谷歌推出创新性的AI生成式交互环境Genie，实现由单张图像提示生成交互式视频。多模态模型正在头部AI公司与细分赛道领先者的共同推动下持续突破，技术愈发成熟。