多模态模型的发展历程 原图定位 多模态技术持续演进,图像、音视频等领域取得突破性进展。随着对跨模态数据融合、人类认知能力模拟等研究的加深,多模态大模型不断发展。2021年初,OpenAI率先发布文生图模型DALL·E,由此拉开多模态模型序幕。此后,文生图领域相继出现谷歌Imagen、Midjourney、Stable Diffusion等模型,不断推升文生图模型能力。在音乐领域,文生音乐模型Suno V3高质量的音乐创作能力让文生音乐开始受到市场关注。在视频领域,Runaway Gen-2、Pika等不断提高生成视频质量,此后OpenAI Sora不仅将视频长度提升至60秒,还让视频具备了3D一致性。此外,谷歌推出创新性的AI生成式交互环境Genie,实现由单张图像提示生成交互式视频。多模态模型正在头部AI公司与细分赛道领先者的共同推动下持续突破,技术愈发成熟。