图28.海外文生图模型效果对比 原图定位 3.AIGC 拉动创作平权,传播者市场广阔大有可为 3.1.多模态能力跃升,看好图片生成类商业化前景 从 GAN 到 Diffusion,多模态能力持续升级。基于近年来图像处理和语言理解方面的技术突破,融合图像和文本处理的多模态任务获得了广泛的关注并取得了显著成功。文本生成图像(text-to-image)是图像和文本处理的多模态任务的一项子任务,其根据给定文本生成符合描述的真实图像,具有巨大的应用潜力,如视觉推理、图像编辑、视频游戏、动画制作和计算机辅助设计。目前,文生图的模型发展历程可分为如下阶段:生成对抗网络模型(Generative Adversarial Networks)、自回归模型(Autoregressive Model)、扩散模型(Diffusion Model)、基于 Transformer架构的扩散模型(DiT)。当前主流的技术路径是扩散模型,OpenAI 的 DALL·E 2和 Google的 Imagen均是基于扩散模型完成的。