上海品茶

您的当前位置:上海品茶 > 报告分类 > PDF报告下载

计算机行业:多模态大模型技术演进及研究框架-230318(51页).pdf

编号:118930 PDF 51页 5.47MB 下载积分:VIP专享
下载报告请您先登录!

计算机行业:多模态大模型技术演进及研究框架-230318(51页).pdf

1、多模态大模型技术演进及研究框架多模态大模型技术演进及研究框架证券研究报告证券研究报告 行业深度报告行业深度报告发布日期:2023年3月18日本报告由中信建投证券股份有限公司在中华人民共和国(仅为本报告目的,不包括香港、澳门、台湾)提供。在遵守适用的法律法规情况下,本报告亦可能由中信建投(国际)证券有限公司在香港提供。同时请参阅最后一页的重要声明。分析师:于芳博分析师:于芳博SAC编号:S01分析师:金戈分析师:金戈SAC编号:S01SFC 中央编号:BPD352分析师:分析师:阎贵成阎贵成SAC编号:S02SFC 中央编号:BN

2、S315 核心观点:Transformer颠覆了传统深度学习模型,但仅限于文本,ViT打通了Transformer与CV领域的壁垒,BEiT模型将生成式预训练引入CV领域,基于ViT的多模态模型涌现。多模态已经在多个领域中得到广泛应用,如虚拟人、智能座舱、机器人等,各式应用持续推动多模态模型的演进。近期OpenAI发布能处理图像和文本的多模态模型GPT-4,引发关注,随着底座模型推出,上层应用预计将会涌现,催生巨大商业市场,我们建议关注。ViT打通了打通了Transformer与与CV领域的壁垒领域的壁垒,BEiT模型将生成式预训练引入模型将生成式预训练引入CV领域领域。Transformer

3、的出现颠覆传统深度学习模型,BERT等证明了Transformer在NLP领域的优秀表现。然而传统的Transformer模型只适用于单模态文本,ViT模型将patch embedding引入Transformer,打通了Transformer与CV领域的壁垒。以ViT为基础的多模态模型如雨后春笋般涌现,以文图多模态为主,视频领域也产生了许多基于ViT的模型。生成式预训练被证明在自然语言处理领域有着广泛的应用,BEiT模型将生成式预训练引入CV领域,实现了CV领域大规模自监督预训练。多模态发展经历五个阶段多模态发展经历五个阶段,包括行为时代、计算时代、交互时代、深度学习时代和大模型时代。多模态

4、交互多模态交互、感知感知、内容分发等应用已涉及多个内容分发等应用已涉及多个方面方面,包括多模态检索包括多模态检索、虚拟人虚拟人、智能人智能人、智能座舱智能座舱、语音助手等语音助手等。扩散模型等和多模态模型的结合催生了文生图任务的火爆。各式多模态场景各式多模态场景下的应用持续推动多模态模型的演进下的应用持续推动多模态模型的演进。多模态预训练大模型核心要素包括:对图文编码多模态预训练大模型核心要素包括:对图文编码、设置学习目标设置学习目标、模型结构模型结构、模态融合等模态融合等。多模态预训练模型首先要将图文进行编码,文字端有成熟的BERT等模型进行处理,图像特征基于Patch提取更加高效。学习目标

5、是多模态预训练大模型重要一环,包括图文对比、编码语言模型、图文匹配等,模型可以使用不同的学习目标产生不同学习效果。多模态预训练大模型结果主要分为encoder-only和encoder-decoder,常见的是encoder-only模型,用于图文检索等任务,而后者适用于生成任务。根据模态融合方式不同,又可以分为fusion encoder和dual encoder模型,前者通过混合方式对模态进行处理,能够学习到不同模态之间的隐藏的知识,适合推理,后者分别对模态进行处理,适合检索等任务。多模态预训练大模型未来将更加统一多模态预训练大模型未来将更加统一。虽然BEiT-3等统一模型将各种任务统一起

6、来,但实际上仅仅是将几个任务的模块累加起来得到的,并非真正意义上的“统一”。未来,以微软发布的KOSMOS-1和谷歌发布的PaLM-E,将不同模态统一编码为文本模式或者使用通才模型统一下游任务使多模态预训练大模型走向统一。多模态大模型正处于蓬勃发展阶段多模态大模型正处于蓬勃发展阶段,随着底座模型的推出随着底座模型的推出,上层应用预计将会涌现上层应用预计将会涌现,催生巨大商业市场催生巨大商业市场,我们建议关注我们建议关注,尤其关注当前多模态大尤其关注当前多模态大模型的推出情况模型的推出情况。核心观点 目录一、多模态预训练概述一、多模态预训练概述二、多模态预训练关键要素二、多模态预训练关键要素三、

7、主要模型与下游场景三、主要模型与下游场景四、未来方向及演进趋势四、未来方向及演进趋势五、风险提示五、风险提示 概述总括技术奇点TransformerVision TransformerBEiT1、以BERT为主的Transformer模型取得很好的效果,但是仅限于文本领域;2、Transformer中自注意力机制和前向传播网络权重共享适合于多模态模型。1、将图片patch化,解决了Transformer不能应用于图像领域问题;2、patch embedding提取图像特征高效;3、基于ViT模型衍生了视频Transformer相关模型。1、将生成式预训练MLM方法从NLP迁移至CV,实现CV大

8、规模自监督预训练;2、统一多模态大模型BEiT-3前身。处理图像生成式预训练应用催化扩散模型与CLIP结合,衍生多个文图生成模型,文图生成领域火爆多模态检索智能家居机器人技术虚拟人/智能助理机器翻译多模态大模型的技术奇点在于:1、BERT等模型证明了Transformer在NLP领域性能好,并且对于数据量、模型大小而言未见上限;2、ViT模型将Transformer模型迁移到CV领域,让Transformer能够处理图像;3、BEiT将生成式预训练从NLP迁移到CV,图像大规模自监督学习成为可能。4、扩散模型与多模态大模型结合,推动文生图领域发展。各式多模态场景下的应用持续推动多模态模型的演进

9、 图图表:利用多模数据能有助于学习表:利用多模数据能有助于学习资料来源:Multimodal data as a means to understand the learning experience,中信建投模态是事物的一种表现形式,多模态通常包含两个或者两个以上的模态形式,是从多个视角出发对事物进行描述。生活中常见多模态表示,例如传感器的数据不仅仅包含文字、图像,还可以包括与之匹配的温度、深度信息等。使用多模态数据能够使得事物呈现更加立体、全面,多模态研究成为当前研究重要方面,在情感分析、机器翻译、自然语言处理多模态研究成为当前研究重要方面,在情感分析、机器翻译、自然语言处理和生物医药前沿

10、方向取得重大突破。和生物医药前沿方向取得重大突破。1.1 多模态表示包含两个或两个以上事物表现形式 图图表:多模态模型发展的五个阶段表:多模态模型发展的五个阶段资料来源:carnegie mellon university,中信建投1.2 多模态发展主要经历五个时代 1.3 Transformer颠覆传统模型,但限于单模态领域图图表:表:TransformerTransformer基本架构基本架构资料来源:Attention Is All You Need,中信建投Multi-head AttentionScaled Dot-Product Attention20172017年年Transfo

11、rmerTransformer被提出,颠覆了传统的深度学习模型,被提出,颠覆了传统的深度学习模型,在机器翻译任务上实现了最好性能。Transformer在大规模语料库上进行自监督预训练,然后在下游任务进行微调受到人们的关注,许多预训练大模型都是遵守这一范式提出,例如BERT、GPT等。虽然基于Transformer的大模型都取得了很好的效果,但还是限于单一模态(文本)上,无法将其self-attention中良好的泛化能力迁移到其他模态(图像、视频等)中。TransformerTransformer不能迁移图像领域的主要原因在于输入长度限制,不能迁移图像领域的主要原因在于输入长度限制,以BER

12、T为例,其输入数据的长度只能支持512,而对于像素为224*224的图片来讲,其输入远大于512。1.4 ViT的出现打通了CV和NLP之间壁垒,推动多模态演进图图表:表:ViTViT基本架构基本架构资料来源:An image is worth 16x16 words:Transformers for image recognition at scale,中信建投将图片切割,解决输入大小问题ViT将图片的2D信息,通过切割,转化为类似文本的1D信息。Transformer(Self-attention)在文本领域优秀的表现吸引着计算机视觉研究者,许多人开始将Transformer机制引入到计算

13、机视觉。TransformerTransformer限制在于其输入数据大小,需要考虑输入策略。限制在于其输入数据大小,需要考虑输入策略。谷歌借鉴前人的思想,在强大的算力资源加持下,提出ViT模型。ViTViT模型通过将图片进行切割成一个个模型通过将图片进行切割成一个个patchpatch(原文将一张图片切割成原文将一张图片切割成1616个个patchpatch),对对patchpatch进行处理进行处理,通过线性映射通过线性映射,变成变成TransformerTransformer可接受的输入可接受的输入,打通了打通了CVCV和和NLPNLP之间的壁垒之间的壁垒。图图表:表:ViLTViLT模

14、型使用模型使用Patch embeddingPatch embedding提取视觉特征并取得很好效率提取视觉特征并取得很好效率资料来源:ViLT:Vision-and-Language Transformer Without Convolution or Region Supervision,中信建投1.5 ViT中的Patch embedding在提取视觉特征方面效率优势明显ViTViT不仅能够让不仅能够让TransformerTransformer能够对图像进行处理,而且能够对图像进行处理,而且ViTViT图像特征提取策略相较于之前的方式效率更高。图像特征提取策略相较于之前的方式效率更高。

15、如左图,虚线框内是三种视觉提取方式,分别为基于Region、基于Grid和ViT中线性映射方法进行视觉特征提取。在ViT之前,视觉算法中的视觉特征多基于Region提取,大多会存在一个目标检测器,使用目标检测方法提取视觉特征。ViT在预训练阶段舍弃了目标检测器,使用基于Patch的视觉特征,几乎只相当于一个线性embedding,降低了运算复杂度。如右图所示,如右图所示,ViLTViLT多模态模型中在视觉特征提取方面使用了多模态模型中在视觉特征提取方面使用了Patch embeddingPatch embedding方法,实现了运行效率的大大提升,在特征提取阶方法,实现了运行效率的大大提升,在

16、特征提取阶段段ViLTViLT-B/32B/32的视觉特征提取阶段仅用的视觉特征提取阶段仅用0.4ms0.4ms,远高于,远高于RegionRegion(885ms885ms)和)和GridGrid(45ms45ms)方法。)方法。1.6 基于Vision Transformer,Video Transformer模型出现1 1、视频领域基于、视频领域基于ViTViT模型推出各类模型推出各类Video TransformerVideo Transformer。视频是一个典型的多模态形式,里面包含图像、声音、文字等。2、在ViT之前,视频方面的任务,如视频理解等,基本是通过3D卷积网络展开的。借

17、鉴ViT思想,许多Video Transformer被提出来,其中包括TimeSformer,TimeSformer将每一帧视频抽象成图像,并与其前一帧和后一帧相结合进行运算。与3D卷积神经网络(CNN)相比,TimeSformer 的训练速度大约是其4倍,而推断所需的计算量不足其十分之一。TimeSformer 的高效让在高空间分辨率(例如高达 560 x560 像素的帧)和长视频(包括高达 96 帧)上训练模型成为可能。资料来源:Is Space-Time Attention All You Need for Video Understand,中信建投图图表:自注意力机制在视频领域应用机制

18、表:自注意力机制在视频领域应用机制图图表:自注意力机制在视频领域应用详情表:自注意力机制在视频领域应用详情TimeSformer将视频的每一帧看作一个图像,采取五种策略对图像中的像素进行处理,发现第三种处理方式最好。1.7 Transformer权重共享决定其适合多模态图图表:表:VLMoVLMo预训练阶段预训练阶段Transformer存在权重共享,模型内部的某些模块可以共享权重参数。Transformer的权重共享主要是由于其自注意力模块和前向传播网络都和输入序列长度无关。这种权重共享理念同样适合用于多模态模型中这种权重共享理念同样适合用于多模态模型中。例如,图文多模态中,图像训练得到的权

19、重参数可以用于训练文本,结果依然有效,甚至不用fine-tune。许多多模态模型都借鉴了Transformer里面的权重共享理念,典型的案例包括VLMo模型,该模型首先在BEiT中使用大规模纯图像数据预训练视觉网络和自注意力模块,然后冻结视觉网络和自注意力模块,通过对大量纯文本数据进行建模训练语言网络,最后使用视觉-语言预训练整个模型。冻住的前向传播和自注意力共享视觉与文本参数资料来源:VLMO:Unified Vision-Language Pre-Training with Mixture-of-Modality-Experts,中信建投 1.8 BEiT模型的出现将生成式预训练从NLP迁

20、移到CV上生成式预训练是自监督学习重要方法和训练目标生成式预训练是自监督学习重要方法和训练目标,生成式预训练核心是在没有标签或者人工标注的情况下,学习如何产生数据。生成式预训练在自然语言处理中取得较大成功。BEiTBEiT模型的出现,将生成式预训练从模型的出现,将生成式预训练从NLPNLP迁移到迁移到CVCV上,就是将上,就是将BERTBERT中的掩码语言中的掩码语言学习(学习(MLMMLM)方法应用到图像领域。)方法应用到图像领域。之后的MAE模型也是基于BEiT的工作展开的。如果说如果说ViTViT将将TransformerTransformer迁移到迁移到CVCV中,那么中,那么BEiT

21、BEiT就是将就是将BERTBERT迁移到迁移到CVCV中。中。BEiT解决了CV上生成式预训练的两个问题:1、如何将图像信息转化为NLP中离散的token,BEiT使用到了dVEA方法将图像离散化;2、使用成熟的ViT结构将处理图像信息。通过以上两点,BEiT成功将MLM/MIM方法应用图像领域,将生成式预训练迁移到CV上,实现CV领域中大规模自监督预训练。资料来源:Beit:Bert pre-training of image transformers,中信建投预训练前将图像Token化图图表:表:BEiTBEiT模型预训练架构模型预训练架构图图表:表:dVAEdVAE架构架构 1.9 图

22、文多模态是多模态模型中目前重要方向图图表:表:VLPVLP模型的相关论文数量(模型的相关论文数量(Paper with codePaper with code数据)数据)资料来源:Paper with code,Vision-Language Intelligence:Tasks,Representation Learning,and Large Models,中信建投579537312419 1910 98844443333222200300400500600700ALIGNCLIPLXMERTViLBERTVisualBERTOSCARViLTOFAALBEFBLIP

23、VL-BERTUNIMOVL-T5WenLanVisual ParsingSOHOSimVLMFLAVAPixel-BERTFlorenceKaleido-BERTInternVideoInterBERTUnified VLPXGPTVLMoAltCLIPOneR图文多模态任务是目前视觉语言预训练模型(图文多模态任务是目前视觉语言预训练模型(VLPVLP)中最重要的任务之一。)中最重要的任务之一。图文任务包括图文检测、图文分类、图文分割等。根据Paper with code网站上VLP领域中模型相关论文数量来看,ALIGN和CLIP模型相关论文数量最多,均超过500篇,这两个模型均是以图像-文

24、本为对象展开的研究。其中ALIGN是谷歌2021年6月提出,CLIP是OpenAI2021年2月提出。图图表:多模态模型主要情况表:多模态模型主要情况 1.10 扩散模型推动多模态中文本图像生成发展图图表:几种生成式模型表:几种生成式模型图表:扩散模型与图表:扩散模型与CLIPCLIP融合融合扩散模型扩散模型CLIPStable DiffusionDALL-E 2MidJourney基础模型衍生模型202220202021Stability.AIOpenAIMidJourney公司扩散模型是一种继扩散模型是一种继GANGAN、VAEVAE、FlowFlow-basedbased模型之后最新的生

25、成模型,从气体扩散的物理过程中获得灵感,通过正向扩散和反向扩模型之后最新的生成模型,从气体扩散的物理过程中获得灵感,通过正向扩散和反向扩散两个过程进行生成。在散两个过程进行生成。在OpenAIOpenAI、英伟达、谷歌推出大模型后,扩散模型受到了较多的关注。、英伟达、谷歌推出大模型后,扩散模型受到了较多的关注。扩散模型与多模态预训练大模型的结合主要应用在文本图像生成领域。扩散模型与多模态预训练大模型的结合主要应用在文本图像生成领域。以扩散模型和多模态预训练大模型CLIP为基础模型,2022年4月OpenAIOpenAI 发布文本生成图像模型发布文本生成图像模型DALLE 2DALLE 2,之后

26、谷歌推出,之后谷歌推出ImagenImagen,直接对标,直接对标DALLE 2DALLE 2。资料来源:Github,中信建投 1.11 多模态模型有包括COCO在内的多个预训练数据集图图表:多模态模型常见数据集表:多模态模型常见数据集数据集数据集年份年份规模(图文对数量)规模(图文对数量)语言语言是否可获取是否可获取SBU Captions20111MEnglish是Flickr30k2014145KEnglish是CoCo2014567KEnglish是FashionGen2018300kEnglish是VQA v2.020171.1MEnglish是CC3M 20183MEnglish

27、是GQA20191MEnglish是LAIT202010MEnglish否CC12M 202112MEnglish是AltText20211.8BEnglish否TVQA 201821,793English是HT100M 2019136MEnglish是WebVid2M20212.5MEnglish是YFCC-100M 2015100MEnglish是和文本大模型或者视觉大模型类似,多模态预训练大模型也需要大量数据提前进行预训练,然后针对下游场景进行微调。和文本大模型或者视觉大模型类似,多模态预训练大模型也需要大量数据提前进行预训练,然后针对下游场景进行微调。多模态模型目前用于许多预训练数据集

28、,包括Flickr30k、COCO、LAION-400M、RedCaps在内的多项英文图像/文本数据集,也包括Wukong、WuDaoMM、WSCD在内的多项中文数据集。这些数据集一般都是以图像文本对的形式存在,例如,LAION-400M包含CLIP模型过滤的4亿个图像文本对数据集;Wukong包含1亿个中文图像文本对;Flickr30K包含31000张图片,每张都与5个句子相关。LAION是多模态模型数据集领域重要组织,他们是公益/非营利性组织,推出了LAION-400M、LAION-5B、Clip H/14等数据集,并且完全开源。数据集数据集年份年份规模规模语言语言是否可获取是否可获取LA

29、ION-400M2021400MEnglish是RedCaps202112MEnglish是Wukong2022100MChinese是CxC202124KEnglish是Product1M20211MChinese是WIT202137.5MMulti-lingual是JFT-300M201730MEnglish否JFT-3B20213000MEnglish否IG-3.5B-17k2018350MEnglish否M6-Corpus202160MChinese否M5Product20216MEnglish是LocalizedNarratives2020849kEnglish是RUC-CAS-We

30、nLan202130MChinese否WuDaoMM2022600MChinese是资料来源:Vision-Language Intelligence:Tasks,Representation Learning,and Large Models,中信建投 1.12 多模态模型大一统成趋势图图表:表:VLMOVLMO预训练框架预训练框架图表:图表:BEiTBEiT-3 3在多项任务上表现亮眼在多项任务上表现亮眼资料来源:Image as a Foreign Language:BEIT Pretraining for All Vision and Vision-Language Task,VLMO

31、:Unified Vision-Language Pre-Training withMixture-of-Modality-Experts,中信建投20222022年年8 8月,微软推出月,微软推出BEiTBEiT-3 3模型,引领图像、文本、多模态迈向大一统。模型,引领图像、文本、多模态迈向大一统。BEiT-3提出了掩码图像建模,将masked data modeling引入到图像预训练任务,将图像和文本同等看待,以统一的方式对图像、文本、图像-文本对进行建模和学习。实际上,微软在实际上,微软在20212021年年1111月就推出了统一模型月就推出了统一模型VLMOVLMO,使用混合模态专家

32、(MOME)的方式来进行不同模态中进行预训练,训练出不同的编码器,用于不同的下游任务。BEiT-3在其基础上简化模型并增大预训练数据量,最终在多项下游任务上表现亮眼。2023年3月15日,微软旗下OpenAI推出多模态大模型GPT-4。VLMO在前向传播层,使用三个“专家”处理不同预训练任务 1.13 视频/音频等领域模态融合进展也较快图图表:视频多模态领域中的数据集及模型表:视频多模态领域中的数据集及模型在视频、音频领域,多模态融合同样是一种趋势。图文多模态模型逐渐迁移至视频图文多模态模型逐渐迁移至视频-文本文本/音频音频-文本多模态领域文本多模态领域,典型的代表是CoCa模型,图文领域中推

33、出后,在视频领域就推出了VideoCoCa,CLIP模型推出后,在视频领域就推出了VideoCLIP模型。一些统一多模态大模型的出现也在推动该领域的发展。一些统一多模态大模型的出现也在推动该领域的发展。例如,阿里达摩院推出的mPLUG-2多模态大模型,不仅在图-文下游任务中取得很好的效果,也能进行视频领域的任务,例如在视频问答、视频字幕等领域相关工作上均取得了不错的成绩。在音频多模态领域中比较著名的模型是谷歌推出的MusicLM模型,能通过文字生成音乐。资料来源:Paper with code,中信建投领域数据集Best Model评价评价标准Video Question AnsweringA

34、ctivityNet-QAVideoCoCa56.10%AccuracyMSRVTT-QAmPLUG-248%iVQAText+Text(no Multimodal Pretext Training)40.20%MSRVTT-MCVIOLETv297.60%TVQAFrozenBiLM82%NExT-QAHiTeA63.10%Howto100M-QAHero w/pre-training77.75%Video CaptioningMSR-VTTmPLUG-257.8BLUE-4YouCook2UniVL17.35ActivityNet CaptionsVideoCoCa14.5Hindi MS

35、R-VTTSBD_Keyframe41.01Video RetrievalMSR-VTT-1kAHunYuan_tvr(huge)62.9text-to-video R1MSR-VTTInternVideo55.2MSVDHunYuan_tvr(huge)59YouCook2VideoCLIP32.2TVRHero w/pre-training4.34TGIFMDMMT-225.5 资料来源:多模态技术白皮书,中信建投多模态在交互、感知、内容分发等众多领域都有较为重要的地位。多模态在交互、感知、内容分发等众多领域都有较为重要的地位。多模态交互在家庭与办公场景下应用广泛,多模态交互可以进一步提升

36、用户与智能家居设备的交互体验,提升了用户完成相同意图的效率与成功率。多模态感知包括车场景和语音助手下的用户意图感知,例如,在驾车场景中,随着多屏主控等智能座舱技术进步,各种智能终端可以通过多模态交互实现意图识别准确率更高的用户体验。多模态内容分发场景下,虚拟人结合动作、表情、情感、文本等信息,输出给用户。1.14 多模态广泛存在于机器人、数字人、智能家居等领域图图表:在家里通过多模态方式发出指令表:在家里通过多模态方式发出指令图图表:多模态技术能够合成虚拟形象,给予用户多模态的信息表:多模态技术能够合成虚拟形象,给予用户多模态的信息图图表:多模态技术的应用领域表:多模态技术的应用领域应用应用公

37、司公司/市场领域市场领域文本生成阿里商品推荐机器翻译有道AR翻译搜狗同传3.0多模态检索谷歌图像检索爱奇艺人脸识别智能个人助理阿里小蜜小爱同学数字人虎牙直播小爱虚拟形象传感器智能智能车舱 目录一、多模态预训练概述一、多模态预训练概述二、多模态预训练关键要素二、多模态预训练关键要素三、主要模型与下游场景三、主要模型与下游场景四、未来方向及演进趋势四、未来方向及演进趋势五、风险提示五、风险提示 多模态预训练关键要素总括模型训练要素文字使用成熟的BERT等模型进行处理图像特征提取包括Grid、Region、Patch based方式需要重要视觉特征;基于patch的方式更高效图文对比(ITC)掩码语

38、言模型(MLM)图文匹配(ITM)1.对图文进行tokenization,转化为模型能处理的形式2.设置学习目标3.模型结构Encoder-onlyEncoder-decoder使用不同的学习目标会带来不同的结果常见的是Encoder-only结构,用于图文检索等任务,encoder-decoder结构适合相关生成任务4.模态融合方式Fusion EncoderDual EncoderFusion Encoder通过融合方式对模态进行处理;Dual Encoder分别对各模态进行处理可以通过叠加多个模型结构/模态融合方式改变模型性能6.PromptCLIPVisual ChatGPTPromp

39、t工程在多模态中更加重要,例如以上两个模型采取Prompt方式提升性能5.提升数据质量ALBEF动量蒸馏生成伪标签BLIP生成图像描述并和原来的进行比较过滤 2.1 图文需要Tokenization和Embedding图图表:子词分词法示例表:子词分词法示例图表:图像编码的三种方式图表:图像编码的三种方式资料来源:Vision-Language Intelligence:Tasks,Representation Learning,and Large Models,Unicoder-VL:A Universal Encoder forVision and Language by Cross-Mo

40、dal Pre-Training,中信建投TokenToken是模型输入的基本单元,是模型输入的基本单元,EmbeddingEmbedding是是TokenToken映射后的向量,用于计算。映射后的向量,用于计算。文字方面早期一般使用Word2Vec进行Tokenization,包括CBOW和skip-gram,虽然Word2Vec计算效率高,但是存在着词汇量不足的问题,因此子词分词法(subword tokenization)被提出,使用字节对编码(BPE)将词分割成更小的单元,该方法已被应用于BERT等众多Transformer模型中。图像的Tokenization要比文本更加复杂,可以分

41、为基于region,基于grid和基于patch三类方式。基于grid的方式直接使用CNN进行图像网格信息提取,基于region的方式由预训练的目标检测器进行特征提取,基于patch的方式将图像切割成小块,提取小块上的线性投影。图图表:多模态融合的四种形式表:多模态融合的四种形式图表:文字图表:文字/视觉特征改变对结果影响视觉特征改变对结果影响2.2 多模态模型中要重视视觉特征资料来源:ViLT:Vision-and-Language Transformer Without Convolution or Region Supervision,An Empirical Study of Trai

42、ning End-to-End Vision and Language Transformers,中信建投相较于文本特征而言,多模态模型中视觉特征更为重要。相较于文本特征而言,多模态模型中视觉特征更为重要。当前多模态预训练大模型中,不论CLIP、UNITER还是ViLT,在模型构造方面,视觉特征的embedding层数或者复杂度要超过文本特征,体现出视觉特征更重要,多模态需要从视觉特征中学习到更多知识。根据METER模型中的数据显示,在视觉特征端进行优化对结果产生的影响要远大于对文本端进行的优化。多模态的主要形式中,无一例外视觉特征要大于等于文本特征无论文本特征如何改变,对结果影响不大视觉特征

43、改变对结果影响比较大 图图表:多模态中学习目标表:多模态中学习目标2.3 如何设计学习目标是多模态训练的重要一步学习目标是多模态预训练非常重要的一步,目前的多模态的预训练学习任务主要包括图文对比(目前的多模态的预训练学习任务主要包括图文对比(ITCITC)、掩码语言学习()、掩码语言学习(MLMMLM)、)、掩码视觉学习(掩码视觉学习(MVMMVM)、图文匹配()、图文匹配(ITMITM)等)等。ITC是通常构造正负样本对,通过对比学习方式,对齐图像和文本;ITM可以看作是一个二分类任务,目标是预测一对图像和文本是否匹配;MLM是让模型学习语言和视觉内容之间的隐式关系,目标是从已知的语言和视觉

44、内容中重建掩码语言标记;此外还包括掩码物体分类(MOC)、掩码物体回归(MOR)、行为预测(AP)、图文生成(ITG)等。资料来源:Large-scale Multi-Modal Pre-trained Models:A Comprehensive Survey,中信建投 2.4 不同的多模态预训练学习目标可能带来不一样的结果同时使用不同的预训练学习目标可能会增强多模态模型的效果同时使用不同的预训练学习目标可能会增强多模态模型的效果,例如UNITER模型中,使用更多的学习目标效果一般要更好,UNITER使用MLM+ITM+MRC-kl+MRFR+WRA等多个学习目标在在多个细分场景下表现要更好

45、。使用过多的学习目标可能效果并不好使用过多的学习目标可能效果并不好。例如,METER模型中,在MLM和ITM上再加入MIM学习模型,效果比使用单个学习目标要好,但不如仅仅使用两个学习目标,这一方面可能是学习目标之间的冲突导致的,另外一方面可能是图像中存在噪声,MIM重建图像噪声的监督学习没有任何意义导致的。资料来源:UNITER:UNiversal Image-TExtRepresentation Learning,An Empirical Study of Training End-to-End Vision-and-Language Transformers,中信建投图图表:表:UNITE

46、RUNITER模型在使用不同学习目标得到不同结果模型在使用不同学习目标得到不同结果图图表:表:METERMETER模型在使用不同学习目标得到不同结果模型在使用不同学习目标得到不同结果 图图表:多模态中的表:多模态中的EncoderEncoder-onlyonly和和EncoderEncoder-DecoderDecoder架构架构图表:图表:EncoderEncoder-onlyonly和和EncoderEncoder-DecoderDecoder基本情况小结基本情况小结2.5 多模态模型结构包括encoder-only和encoder-decoder两类资料来源:An empirical s

47、tudy of training end-to-end vision-and-language transformers,BLIP:Bootstrapping Language-Image Pre-training forUnified Vision-Language Understanding and Generation根据模型的结构不同,多模态可以分为根据模型的结构不同,多模态可以分为encoderencoder-onlyonly和和encoderencoder-decoderdecoder两类。两类。顾名思义,encoder-only指模型只用了transformer的编码器部分,多模

48、态的输入直接通过encoder进行输出,而encoder-decoder则是使用了transformer中的编码器和解码器两部分,解码器同时获得解码器的输出结果以及之前生成的token,使用自回归产生输出。常见的多模态模型是encoder-only,包括CLIP、ALBEF等,适合图文检索,但是不适合生成任务,例如image captioning等;Encoder-Deocder模型包括VL-T5、SimVLM等,利用了decoder的特性,适合生成任务,但是不太适合图文检索等。架构架构基本情况基本情况代表代表EncoderEncoder-onlyonly常见;适合图文检索,但不适合生成任务C

49、LIP、ALBEFEncoderEncoder-DecoderDecoder不适合图文检索,适合生成任务VL-T5、SimVLM 图图表:双流和单流模型架构表:双流和单流模型架构图表:图表:Fusion EncoderFusion Encoder和和Dual EncoderDual Encoder具体模型示例具体模型示例资料来源:A Survey of Vision-Language Pre-Trained Models,Vision-Language Intelligence:Tasks,RepresentationLearning,and Large Models,中信建投2.6 根据信息

50、融合方式的不同,可以fusion/dual encoder划分模型不同模态进行各自的编码后,需要设计一个编码器进行多模态编码,根据编码融合方式的不同,多模态模型可以分为不同模态进行各自的编码后,需要设计一个编码器进行多模态编码,根据编码融合方式的不同,多模态模型可以分为Fusion Fusion encoderencoder模型和模型和Dual encoderDual encoder模型模型。Fusion encoder顾名思义,是使用融合的方法来进行模态之间的交互,经过自注意力或者交叉注意力操作后,最后生成模态的融合表示,融合方案主要包括单流和双流。单流假设两个模态存在潜在关联或者对齐比较简

51、单,直接在两个模态上使用自注意力机制,然后将两个模态连接在一起;双流模型假设模态内交互和跨模态交互需要分开,从而可以获得更好的多模态表示,采用交叉注意力机制进行建模。融合编码器在不同层次上对跨模态进行交互建模,在某些推理领域取得了很好的效果,但是在图文检索中等匹配任务中,因为要编码交互所有的图文对,这就导致了最后推理速度非常慢。Dual encoder分别利用两个单模态编码器对两种模态进行编码,两种模态充分编码后,使用简单的点乘或者浅层注意力层计算相似性分数,就不再依赖复杂Transformer了。图图表:表:VLMOVLMO有有fusion encoderfusion encoder和和du

52、al encoderdual encoder特性特性图表:图表:BLIPBLIP有有encoderencoder和和decoderdecoder架构,适合检索,也适合生成架构,适合检索,也适合生成2.7 模型可以设计多个模型架构/信息融合方式,增加模型功能资料来源:BLIP:Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation,VLMO:Unified Vision-Language Pre-Training withMixture-of-Modali

53、ty-Experts在模型架构方面encoder-only模型更擅长图文检索,encoder-decoder模型更适合生成任务;在信息融合方面fusion encoder适合推理,dual encoder适合检索。因此,很自然会将多个模型架构或者信息融合方式组装起来,从而增加模型功能,这也是多模态统一实现的机制。因此,很自然会将多个模型架构或者信息融合方式组装起来,从而增加模型功能,这也是多模态统一实现的机制。例如,VLMO中使用“三个专家”处理不同预训练,在image-only,text-only和image-text上进行预训练,可以看成使用不同信息融合,从而在推理和检索等任务上均有较好表

54、现。BLIP将encoder-only和encoder-decoder进行组合,兼具理解与生成能力。Dual encoder架构fusion encoder架构encoderdecoder 图图表:表:CLIPCLIP模型随着图像数据的增多性能变好模型随着图像数据的增多性能变好图表:图表:VLMOVLMO在更大数据上预训练后效果更好在更大数据上预训练后效果更好2.8 多模态预训练需要更多数据量进行训练资料来源:Learning Transferable Visual Models From Natural Language Supervision,VLMO:Unified Vision-Lan

55、guage Pre-Training withMixture-of-Modality-Experts,中信建投过去在文本以及视觉单模领域的经验说明更多的数据往往能让模型的性能变得更好,类似的,在多模态预训练模型中,更多的数过去在文本以及视觉单模领域的经验说明更多的数据往往能让模型的性能变得更好,类似的,在多模态预训练模型中,更多的数据也通常让模型性能变得更好。据也通常让模型性能变得更好。例如,CLIP模型中,随着处理的图片数量越多,模型在Zero-shot(零样本)任务上的性能更好;在VLMO模型中,使用更多的预训练数据,在几个任务下的表现均有较好的提升。图图表:表:ALBEFALBEF提出的

56、伪标签可以捕获真实文本未描述的概念提出的伪标签可以捕获真实文本未描述的概念图表:图表:BLIPBLIP模型自动为图像生成字幕,并去除嘈杂的原始字幕模型自动为图像生成字幕,并去除嘈杂的原始字幕2.9 如何解决数据噪声:通过自学习等方式资料来源:Align before Fuse:Vision and LanguageRepresentation Learning with Momentum Distillation,BLIP:Bootstrapping Language-Image Pre-training forUnified Vision-Language Understanding多模态模

57、型中的图文数据大多数是从网络上收集的,带有很大的噪声多模态模型中的图文数据大多数是从网络上收集的,带有很大的噪声。例如文本可能包含与图像无关的词,或者图像可能包含文本中未描述的物体,现有的预训练目标(例如 MLM)可能会过度拟合噪声文本并降低模型的泛化性能。针对这种情况,可以采取自学习方式为图片生成新的文本对,提高预训练质量。例如ALBEF提出动量蒸馏(MoD)方法为图像生成伪标签作为附加监督信号,生成的标签可以捕获真实文本未能描述的内容;BLIP通过自动为图像生成字幕,与图文数据对原有的文本数据进行对比,选择更优的文本标签,从而提升数据质量。图图表:表:visual visual ChatG

58、PTChatGPT架构架构图表:图表:CLIPCLIP模型中的文字提示模板生成模型中的文字提示模板生成2.10 Prompt方式在多模态预训练的地位更加重要资料来源:Visual ChatGPT:Talking,Drawing and Editing with Visual Foundation Models,Learning Transferable Visual Models From Natural Language Supervision,中信建投PromptPrompt方法主要通过改造下游任务的模板来缩小预训练和微调时的差异,降低微调成本,提高模型在下游的应用效果,最大的优方法主要通

59、过改造下游任务的模板来缩小预训练和微调时的差异,降低微调成本,提高模型在下游的应用效果,最大的优点是零点是零/小样本,已经被广泛用于各种文本大模型中。小样本,已经被广泛用于各种文本大模型中。PromptPrompt在多模态预训练任务有着非常重要的作用。在多模态预训练任务有着非常重要的作用。例如,visual ChatGPT中,使用一个Prompt Manager生成让ChatGPT理解的提示性文字,让其进行图像模型的调度,最后生成相关图像;在CLIP模型中,在Zero-shot任务中,通过对文字生成提示性模板,能够取得更好的性能。目录一、多模态预训练概述一、多模态预训练概述二、多模态预训练关键

60、要素二、多模态预训练关键要素三、主要模型与下游场景三、主要模型与下游场景四、未来方向及演进趋势四、未来方向及演进趋势五、风险提示五、风险提示 图图表:表:CLIPCLIP模型模型示意图示意图CLIPCLIP:2021年由OpenAI提出,利用文本信息监督视觉任务自训练,训练数据集为40亿个“文本-图像”对,采用Transformer模型对图像的patch序列进行建模,将不同模态的原始数据映射到统一或相似的语义空间,实现不同模态信号间的相互理解,拥有寻找不将不同模态的原始数据映射到统一或相似的语义空间,实现不同模态信号间的相互理解,拥有寻找不同模态数据间关系的能力,同模态数据间关系的能力,如下图

61、步骤3所示,狗狗图片对应的单词应该是“dog”,模型在这种对应关系中学习到文本和图像这两种不同模态信息背后的内涵,为多模态的生成模型奠定了基础。CLIPCLIP在在zerozero-shotshot上表现较好。上表现较好。与CV中常用的先预训练然后微调不同,CLIP可以直接使用prompt进行零样本学习图像分类,即不需要任何训练数据,就能在某个具体下游任务上实现分类。如下图步骤2和3所示,根据任务的分类标签构建每个类别的描述文本,选择与图像相似度最大的文本标签作为图像预测分类的结果。步骤步骤1:1:通过海量的图片通过海量的图片-文本数文本数据学习图片和文本的语义关系据学习图片和文本的语义关系步

62、骤步骤2 2:根据任务分类标签创建类别描述文本:根据任务分类标签创建类别描述文本步骤步骤3 3:实现:实现 zerozero-shotshot预测预测3.1.1 CLIP:使用对比学习实现图文对齐资料来源:Learning Transferable Visual Models From Natural Language Supervision,中信建投 CLIPCLIP很灵活并且适用范围广。很灵活并且适用范围广。由于 CLIP 模型直接从自然语言中学习各种视觉概念,更加灵活和通用,CLIP模型能够在zero-shot下执行许多不同的任务。例如在包含了细粒度对象分类、OCR、视频中的活动识别和地

63、理定位等27个数据集的任务中,CLIP可以从图像表示中学习到更多有用信息。CLIPCLIP下游应用场景广泛。下游应用场景广泛。CLIP模型本身用来做图文检索,后续衍生出一系列基于CLIP的模型,在视频理解、图像编辑、图像生成、自监督学习、视觉问答领域都得到了广泛应用。例如借助CLIP模型,HairClip可以根据用户提供的文本或图像信息单独或联合设计头型,并取得了不错的效果。3.1.2 CLIP:灵活通用,下游应用广资料来源:Learning Transferable Visual Models From Natural Language Supervision,HairCLIP:Design

64、 Your Hair by Text and Reference Image,中信建投图图表:表:CLIPCLIP效果展示效果展示图表:图表:a.HairClipa.HairClip可以定制化修改发型可以定制化修改发型 b.b.视频检测视频检测 DALLE2DALLE2:基于:基于CLIPCLIP实现文本与图像的联系,基于实现文本与图像的联系,基于DiffusionDiffusion从视觉语义生成图像。从视觉语义生成图像。2022年4月由OpenAI提出,在DALLE1的基础上进行了改进和升级,分辨率从从256x256提升到了1024 x 1024,准确性也得到了较大提升。除此之外,其还可以实

65、现以下功能:1)根据文本生成图片;2)将图像扩展到画布之外;3)根据文本对图像进行编辑,实现添加或删除元素;4)给定一张图片生成保持原风格的变体。DALLE2模型可以分为两部分。首先是利用CLIP文本编码器将图像描述映射到表示空间,其次利用前向扩散从CLIP文本编码映射到相应的CLIP图像编码,最后通过反向扩散从表示空间映射到图像空间,生成众多可能图像中的一个。总体来说,总体来说,DALLE2DALLE2实现了功能更齐全的图文跨模态生成,图片的真实性和准确度也较以往的产品有了不错的提升。实现了功能更齐全的图文跨模态生成,图片的真实性和准确度也较以往的产品有了不错的提升。但是在生成一些复杂图片的

66、细节方面,DALLE2仍面临着一些挑战。3.1.3 DALLE2:基于CLIP实现更强大的图文跨模态生成资料来源:Hierarchical Text-Conditional Image Generation with CLIP Latents,中信建投图图表:表:DALLE2.0DALLE2.0模型基于文本描述生成图像模型基于文本描述生成图像图表:图表:DALLE1.0DALLE1.0与与DALLE2.0DALLE2.0生成图片对比生成图片对比基于基于CLIPCLIP模型构建起图像和模型构建起图像和文本的统一语义关系文本的统一语义关系基于扩散模型实现高质量的图像生成基于扩散模型实现高质量的图像

67、生成 BEiTBEiT:提出了图像的掩码训练方式,解决了模型规模日益扩大导致的数据量不足问题。:提出了图像的掩码训练方式,解决了模型规模日益扩大导致的数据量不足问题。模型训练过程中编码学习 Tokenizer,将图像变成离散的视觉符号(visual token),类似文本(下图红框);二是,将图像切成多个小“像素块”(patch),每个像素块相当于一个文本中的字符(下图蓝框)。在预训练时,模型便可以通过掩码方式进行学习。BEiTBEiT-3 3:通过模型改进、预训练任务调整,为:通过模型改进、预训练任务调整,为 AI AI 多模态基础大模型研究打开新思路。多模态基础大模型研究打开新思路。模型改

68、进方面,BEiT-3使用不同结构以对不同模态进行编码,其结构包含一个共享的自注意力模块(下图灰色方块),用以学习不同模态信息的对齐并将不同模态的信息深度融合,以及包含一个模态专家(下图蓝色方块为视觉,绿色方块为语言),即根据当前输入的模态类别,选择不同模态专家对其进行编码以学习更多模态特定的信息。预训练任务方面,相较于之前的多模态模型在预训练过程中采用不同的预训练任务,BEiT-3采用统一的任务,对大模型训练更加友好。3.2.1 BEiT-3:引领文本、图像、多模态预训练迈向“大一统”资料来源:Image as a Foreign Language:BEIT Pretraining for A

69、ll Vision and Vision-Language Task,中信建投图图表:表:BEiTBEiT提出图像的掩码训练方式提出图像的掩码训练方式图表:图表:BEiTBEiT-3 3模型示意图模型示意图 在广泛的视觉及视觉在广泛的视觉及视觉-语言任务上,语言任务上,BEiTBEiT-3 3都取得了最优结果的迁移性能。都取得了最优结果的迁移性能。在包含视觉问答、视觉推理、图像描述、目标检测与实例分割、语义分割、图像分类等在内的一共 12 个视觉-语言下游任务上,研发团队评估了 BEiT-3 的泛化能力。结果表明,BEiT-3 在这些任务上都取得了 SOTA 的迁移性能。3.2.2 BEiT-

70、3:在多个下游任务中性能优异资料来源:Image as a Foreign Language:BEIT Pretraining for All Vision and Vision-Language Task,中信建投图图表:表:BEiTBEiT-3 3 在广泛的视觉及视觉在广泛的视觉及视觉-语言任务上都实现了语言任务上都实现了SOTASOTA的迁移性能的迁移性能 KOSMOSKOSMOS-1 1:将多模态特征嵌入到:将多模态特征嵌入到TransformerTransformer模型中,基于统一的模型架构实现不同模态的对齐。模型中,基于统一的模型架构实现不同模态的对齐。2023年3月由微软提出,

71、其可以实现文本学习、文本生成等任务,还能够将文本以外的模态(如视觉图像、语音)嵌入到模型中。研究证明,在多个下游任务中,该模型具有非常优异的性能,例如在语言理解、视觉问答、多模态对话等。KOSMOS-1模型的参数总量为16亿。我们认为,随着技术的不断发展和迭代,跨模态模型处理更多模态问题的能力将不断增强,多模态感知的大融合是迈向通用人工智我们认为,随着技术的不断发展和迭代,跨模态模型处理更多模态问题的能力将不断增强,多模态感知的大融合是迈向通用人工智能的关键一步。能的关键一步。3.3 KOSMOS-1:全能型大语言模型资料来源:Language Is Not All You Need,中信建投

72、图图表:表:KOSMOSKOSMOS-1 1在视觉问答方面的测试样例在视觉问答方面的测试样例图表:图表:KOSMOSKOSMOS-1 1可以讲笑话可以讲笑话 PaLMPaLM-E E:将多模态:将多模态AIGCAIGC技术拓展到机器人领域。技术拓展到机器人领域。2023年3月,谷歌和柏林工业大学团队推出多模态具身视觉语言模型 PaLM-E,相较于之前的多模态模型,其不仅可以理解和生成图像/语言,输入可以为文本、图像等不同模态信息,还能够融合不同模态的知识进而生成复杂的机器人指令:例如“从抽屉中拿取薯片”是一个包含了多个计划任务,需要机器人摄像头和机械手相互反馈配合的任务。PaLM-E模型可以将

73、其分解为走到抽屉旁、打开最上面的抽屉、从最上面的抽屉里拿起绿色的薯片、放在柜台上等多个步骤来完成。PaLM-E还具有强大的正迁移能力,即相较于单一任务数据训练出来的模型,利用不同领域的数据融合训练出来的模型具有显著的性能提高。我们认为,我们认为,PaLMPaLM-E E的发展与成熟将进一步赋予机器人以“智能”,引发人机交互方式的重大变革,推进人工智能机器人在更多应用的发展与成熟将进一步赋予机器人以“智能”,引发人机交互方式的重大变革,推进人工智能机器人在更多应用场景的落地。场景的落地。3.4 PaLM-E:将多模态知识能力与机器人相结合资料来源:PaLM-E:An Embodied Multi

74、modal Language Model,新智元,中信建投图图表:表:PaLMPaLM-E E模型可以处理丰富的下游任务模型可以处理丰富的下游任务图表:图表:PaLMPaLM-E E模型在混合数据训练下取得更为优异的性能模型在混合数据训练下取得更为优异的性能 20232023年年3 3月月1414日,日,OpenAIOpenAI发布发布GPTGPT-4 4。GPT-4沿袭了过去GPT路线,在GPT中引入RLHF机制,并且输入窗口更大,更适合处理长文本,GPT-4的上下文长度为8192个token,远高于GPT-3的2048个token。GPT-4文字输入限制提升到了2.5万字,回答准确率姚显著

75、高于前模型。GPT-4在各类职业/学术考试上表现优秀,与人类相当,比如模拟律师考试,GPT-4取得了前10%的好成绩,而GPT-3.5是倒数10%。GPT-4训练过程更加稳定,且响应不被允许请求的概率也大幅度降低。GPTGPT-4 4支持图像和文本的输入,可以对图像进行理解,做图表推理等支持图像和文本的输入,可以对图像进行理解,做图表推理等,例如,GPT-4可以根据图片上的数字进行数据处理、发现图像上不合理之处等,但具体模型细节OpenAI并未描述。OpenAI一并发布GPT-4的API与集成GPT-4的ChatGPT。3.5 GPT-4:支持图像输入的ChatGPT升级版资料来源:OpenA

76、I,中信建投图图表:表:GPTGPT-4 4能进行图表推理能进行图表推理图表:图表:GPTGPT-4 4能描述出图片上的不合理之处能描述出图片上的不合理之处 随着技术的快速进步,AI生成内容极大的解放了生产力,多模态广阔的应用场景及潜在的市场价值推动着其商业化道路的快速发展。垂直领域快速落地,爆款产品不断推出。垂直领域快速落地,爆款产品不断推出。随着技术不断演进,尤其是Diffusion和Transformer模型的提出,多模态应用在多个领域开始落地。其中代码生成、文本生成、图像生成、音视频/游戏等领域已有不少爆款级产品。1)代码领域,基于OpenAI的Codex模型,Github推出的Cop

77、ilot具备代码的生成、补全、建议等功能,用户量突破百万级别。2)文本领域,ChatGPT目前已开放api接口,随着更多应用的接入,多模态的生态将进一步改善生产方式。3)图像领域,Stable diffusion等文生图应用已突破千万级用户量,目前是商业模式最成熟的领域,国内也在积极布局。4)音视频/游戏领域,起步较晚,对模型复杂度和算力要求更高,未来市场空间巨大。3.6 多模态下游应用:重点产品时间线资料来源:Sequoia,中信建投图图表:表:AIGCAIGC重点产品时间线重点产品时间线GPT-3DALL-E2Stable DiffusionDALL-EImagen VideoMake-a

78、-vedioPhenakiJasper.AICopy.aiChatGPTCodex代码文本图像音视频/3D/游戏2020202120224月8月10月9月11月Midjourney7月6月CopilotCodeWhisperer三大AI绘图应用支持模型底层技术20232月Bard3月测试阶段文心一言GPT-4Palm-EaiXcoderMeena科大讯飞SMART-TTS2019及更早底层技术微软小冰Stable Diffusion 2TabNineMagic3D盗梦师6pen 2022年下半年,AI由文本生成图像快速出圈,多款应用火爆。目前对大众开放的图片生成模型主要包括Stable Dif

79、fusion、Stable Diffusion2、OpenAI的DALL-E 2、Midjourney等,几款模型中,仅Stable Diffusion和Stable Diffusion2开源,累计使用人数最多,在全渠道有超1000万用户。图片生成是目前AIGCl领域相对成熟的方向,已经达到商用水平。MidJoruney用户每月付费30美元可将图片用于商用,其目前整体年营收已经突破1亿美元。DALLE 与Stable Diffusion同样推出付费业务,其中DALLE为15美元生成 115次图片,Stable Diffusion则为10英镑1000次标准生成。目前来看,Stable diffu

80、sion因其最出色的生成能力,成为图像生成商业领域的龙头。3.6.1 文生图:快速出圈,多款应用火爆资料来源:The New York Times,TechCrunch,SiliconANGLE,公司官网,中信建投图图表:表:Stability AIStability AI、MidjourneyMidjourney、OpenAIOpenAI、谷歌产品对比、谷歌产品对比Stable DiffusionStable DiffusionMidjourneyMidjourneyDALLDALL-E 2E 2ImagenImagen使用效果使用效果开发公司开发公司Stability AIMidjourn

81、eyOpenAI谷歌推出时间推出时间2022.082022.072022.042022.05是否开源是否开源是否否否是否是否To CTo C是是是暂未对外公开是否有内容创作限制是否有内容创作限制否是是-图片处理图片处理本地云端云端-使用人数(使用人数(22.1122.11)超1000万超300万超150万-AIGC技术简化数字人开发流程,提升数字人开发效率:用户可以通过上传照片/视频/音频的方式,借助AIGC技术实现数字人建模,相较于传统的数字人构建方法具有效率高、成本低的特点。目前产品化的3D数字人建模精度已经可以达到次世代游戏人物级别。Meta、英伟达等科技公司已经推出基于AIGC技术帮助

82、用户打造3D数字人的产品,英伟达的omniverse avatar便是其中一个例子。AIGC技术赋能AI驱动数字人,助推数字人智能化发展:AIGC技术是AI驱动类型数字人的智能核心,为这一类型的数字人提供多模态交互过程中的识别感知和分析决策功能。具体而言,自然语言生成技术影响着人机交互过程中内容的质量,计算机视觉技术则影响数字人面部表情和肢体动作(例如数字人声唇同步技术),AIGC技术的不断发展让高质量的人机交互成为可能。3.6.2视频/3D/游戏:提升开发效率,助推数字人向“数智人”发展资料来源:英伟达官网,腾讯研究院,中信建投图图表:基于英伟达表:基于英伟达omniverse avatar

83、omniverse avatar构建数字人构建数字人图表:图表:AIGCAIGC技术支撑数字人的多模态交互技术支撑数字人的多模态交互技术阶段作用和目的语音理解ASR感知将人的语音转化为文本NLP决策处理并理解文本TTS表达将需要输出的文本转化为语音动作合成AI驱动嘴形动作表达构建输出的音频与输出的视觉信息的关联映射AI驱动其他动作表达 目录一、多模态预训练概述一、多模态预训练概述二、多模态预训练关键要素二、多模态预训练关键要素三、主要模型与下游场景三、主要模型与下游场景四、未来方向及演进趋势四、未来方向及演进趋势五、风险提示五、风险提示 4.1 多模态模型要更大,模态要更多图图表:表:GPTG

84、PT系列模型的参数量与数据量不断提升系列模型的参数量与数据量不断提升图表:表示事物的主要模态图表:表示事物的主要模态多模态大模型需要更深层次的网络和更大的数据集进行预训练。多模态大模型多基于Transformer架构进行预训练,而Transformer因其架构特点,未看到过拟合趋势,模型大小、数据集都未有饱和趋势,CLIP等模型也验证了数据量的大小将使得模型性能提升。以语言模型GPT为例,其从GPT1-3模型大小和预训练数据量均是逐步提升,和语言模型中类似,多模态大模型模型大小和数据量要逐步提升,例如,谷歌前不久发布的多模态模型PaLM-E,具有5620 亿参数。现有的多模态预训练大模型通常在

85、视觉和语言两种模态上进行预训练,未来可以获取更多模态进行大规模预训练,包括图像、文本、音频、时间、热图像等,基于多种模态数据的预训练大模型具有更广阔的应用潜力。模型发布时间参数量预训练数据量GPT2018.61.17亿约5GBGPT-22019.215亿40GBGPT-32020.51750亿45TB资料来源:机器之心,A Survey of Vision-Language Pre-Trained Models,中信建投 4.2 多模态模型训练要加速图图表:通过改进数据处理方式加速模型训练表:通过改进数据处理方式加速模型训练图表:图表:ViLTViLT模型中使用模型中使用Linear embe

86、ddingLinear embedding处理图像特征处理图像特征资料来源:Supervision exists everywhere:A data efficient contrastive language-image pre-training paradigm,Dive into Big Model Training,中信建投图图表:并行策略表:并行策略图表:专家混合模型(图表:专家混合模型(MoEMoE)是典型的模型稀疏性方法)是典型的模型稀疏性方法图表:零冗余优化器优化过程图表:零冗余优化器优化过程虽然多模态大模型在多个领域取得了巨大成功,但是多模态模型对算力的要求还是对模型的训练造

87、成了很大的难题,因此对模型训练加速提出了进一步要求。DeCLIP在CLIP基础上,通过改进数据处理方式加速模型训练;ViLT通过对使用更加有效率的方式对图像特征进行编码提升后续效率;此外,训练过程中的并行策略、显存优化、模型稀疏性等均可以提升模型计算效率。4.3 多模态大模型将走向“真正统一”图图表:表:KOSMOSKOSMOS-1 1将视觉和音频信号统一成文本信号将视觉和音频信号统一成文本信号图表:图表:PaLMPaLM-E E通才模型对下游任务进行统一建模通才模型对下游任务进行统一建模未来多模态大模型将走向“真正统一”。未来多模态大模型将走向“真正统一”。以微软KOSMOS-1为代表,将图

88、像、音频进一步编码成文本格式,统一成文本进行融合,KOSMOS-1 的模型主干是一个基于Transformer 的因果语言模型,Transformer 解码器用作多模态输入的通用接口,除了文本之外,其他模态也能被嵌入并输入到该模型中。谷歌发布PaLM-E,使用Uni-Perceiver,打造“通才”,将不同模态的数据编码到统一的表示空间中,并将不同任务统一为相同的形式。资料来源:Language Is Not All You Need:Aligning Perceptionwith Language Models,Uni-Perceiver:Pre-training Unified Archi

89、tecture for Generic Perception for Zero-shot and Few-shot Tasks 图图表:表:MAVExMAVEx模型解决了基于知识领域的问答问题模型解决了基于知识领域的问答问题图表:将外部知识引入图文问答中图表:将外部知识引入图文问答中4.4 多模态预训练将引入更多外部知识多模态模型的知识是从预训练数据集得到的,但一些任务,例如视觉问答非常依赖常识信息,这些信息是从特定任务数据集中没法学习到,因此可以将外部知识引入到模型中,补充模型知识,从而在一些问答任务场景下取得更好的成绩。MAVEx模型使用当前先进的 VQA 模型生成一组候选答案,再将问题和

90、候选答案解析,以检索外部知识,最后预测每个知识来源对每个候选答案的可信度,预测最匹配的答案。MAVEx 展示了答案引导知识检索的明显优势,在 OK-VQA 数据集上实现了最先进的性能。随着多模态模型变大,最终训练出来的模型会越来越好,伴随更多模态的加入,最终多模态大模型会应用在越来越多方面,AI正加速奔向通用AI。资料来源:Multi-Modal Answer Validation for Knowledge-Based VQA,Reasoning over vision and language:Exploring the benefits of supplemental knowledge

91、,中信建投 目录一、多模态预训练概述一、多模态预训练概述二、多模态预训练关键要素二、多模态预训练关键要素三、主要模型与下游场景三、主要模型与下游场景四、未来方向及演进趋势四、未来方向及演进趋势五、风险提示五、风险提示 五、风险提示多模态模型技术发展不及预期:多模态模型技术发展不及预期:多模态属于先进AI算法,若后续算法更新迭代效果不及预期,则会影响多模态演进及拓展,进而会影响其商业化落地等;算法隐私问题:算法隐私问题:多模态预训练大模型在进行预训练过程中,使用了大量数据,很多都是从网络上直接获得的图文数据对,其中会涉及相关隐私问题;算力基础设施支持不及预期:算力基础设施支持不及预期:美国制裁中

92、国高科技企业,对中国形成芯片、算力的封锁,大语言模型训练过程中需要大量算力资源,需要关注中美关系带来的中国算力的压力;数据数量与数据质量不及预期:数据数量与数据质量不及预期:大型语言模型需要大量的高质量数据进行训练,若数据数量和质量存在短板,则会影响大语言模型效果;伦理冲突风险:伦理冲突风险:多模态大模型技术将进一步推动人工智能迈向通用型人工智能,人工智能进一步智能化将产生人工智能欺骗、人工智能上瘾、人与人工智能之间的关系等一些列伦理问题。感谢辛侠平、陈思玥、樊文辉对本报告的贡献。分析师介绍分析师介绍阎贵成:阎贵成:中信建投证券通信&计算机行业首席分析师,北京大学学士、硕士,专注于云计算、物联

93、网、信息安全、信创与5G等领域研究。近8年中国移动工作经验,6年多证券研究经验。系2019-2021年新财富、水晶球通信行业最佳分析师第一名,2017-2018年新财富、水晶球通信行业最佳分析师第一名团队核心成员。金戈:金戈:中信建投证券研究发展部计算机行业联席首席分析师,帝国理工学院工科硕士,擅长云计算、金融科技、人工智能等领域。于芳博于芳博:中信建投计算机行业分析师,北京大学空间物理学学士、硕士,2019年7月加入中信建投,主要覆盖方向智能汽车、CPU/GPU/FPGA/ASIC、EDA和工业软件等方向。评级说明评级说明投资评级标准评级说明报告中投资建议涉及的评级标准为报告发布日后6个月内

94、的相对市场表现,也即报告发布日后的6个月内公司股价(或行业指数)相对同期相关证券市场代表性指数的涨跌幅作为基准。A股市场以沪深300指数作为基准;新三板市场以三板成指为基准;香港市场以恒生指数作为基准;美国市场以标普 500 指数为基准。股票评级买入相对涨幅15以上增持相对涨幅5%15中性相对涨幅-5%5之间减持相对跌幅5%15卖出相对跌幅15以上行业评级强于大市相对涨幅10%以上中性相对涨幅-10-10%之间弱于大市相对跌幅10%以上 分析师声明分析师声明本报告署名分析师在此声明:(i)以勤勉的职业态度、专业审慎的研究方法,使用合法合规的信息,独立、客观地出具本报告,结论不受任何第三方的授意

95、或影响。(ii)本人不曾因,不因,也将不会因本报告中的具体推荐意见或观点而直接或间接收到任何形式的补偿。法律主体说明法律主体说明本报告由中信建投证券股份有限公司及/或其附属机构(以下合称“中信建投”)制作,由中信建投证券股份有限公司在中华人民共和国(仅为本报告目的,不包括香港、澳门、台湾)提供。中信建投证券股份有限公司具有中国证监会许可的投资咨询业务资格,本报告署名分析师所持中国证券业协会授予的证券投资咨询执业资格证书编号已披露在报告上海品茶。本报告由中信建投(国际)证券有限公司在香港提供。本报告作者所持香港证监会牌照的中央编号已披露在报告上海品茶。一般性声明一般性声明本报告由中信建投制作。发送本报告

96、不构成任何合同或承诺的基础,不因接收者收到本报告而视其为中信建投客户。本报告的信息均来源于中信建投认为可靠的公开资料,但中信建投对这些信息的准确性及完整性不作任何保证。本报告所载观点、评估和预测仅反映本报告出具日该分析师的判断,该等观点、评估和预测可能在不发出通知的情况下有所变更,亦有可能因使用不同假设和标准或者采用不同分析方法而与中信建投其他部门、人员口头或书面表达的意见不同或相反。本报告所引证券或其他金融工具的过往业绩不代表其未来表现。报告中所含任何具有预测性质的内容皆基于相应的假设条件,而任何假设条件都可能随时发生变化并影响实际投资收益。中信建投不承诺、不保证本报告所含具有预测性质的内容

97、必然得以实现。本报告内容的全部或部分均不构成投资建议。本报告所包含的观点、建议并未考虑报告接收人在财务状况、投资目的、风险偏好等方面的具体情况,报告接收者应当独立评估本报告所含信息,基于自身投资目标、需求、市场机会、风险及其他因素自主做出决策并自行承担投资风险。中信建投建议所有投资者应就任何潜在投资向其税务、会计或法律顾问咨询。不论报告接收者是否根据本报告做出投资决策,中信建投都不对该等投资决策提供任何形式的担保,亦不以任何形式分享投资收益或者分担投资损失。中信建投不对使用本报告所产生的任何直接或间接损失承担责任。在法律法规及监管规定允许的范围内,中信建投可能持有并交易本报告中所提公司的股份或

98、其他财产权益,也可能在过去12个月、目前或者将来为本报告中所提公司提供或者争取为其提供投资银行、做市交易、财务顾问或其他金融服务。本报告内容真实、准确、完整地反映了署名分析师的观点,分析师的薪酬无论过去、现在或未来都不会直接或间接与其所撰写报告中的具体观点相联系,分析师亦不会因撰写本报告而获取不当利益。本报告为中信建投所有。未经中信建投事先书面许可,任何机构和/或个人不得以任何形式转发、翻版、复制、发布或引用本报告全部或部分内容,亦不得从未经中信建投书面授权的任何机构、个人或其运营的媒体平台接收、翻版、复制或引用本报告全部或部分内容。版权所有,违者必究。中信建投证券研究发展部中信建投证券研究发展部中信建投(国际)中信建投(国际)北京东城区朝内大街2号凯恒中心B座12层电话:(8610)8513-0588联系人:李祉瑶邮箱:上海浦东新区浦东南路528号南塔2106室电话:(8621)6882-1612联系人:翁起帆邮箱:深圳福田区益田路6003号荣超商务中心B座22层电话:(86755)8252-1369联系人:曹莹邮箱:香港中环交易广场2期18楼电话:(852)3465-5600联系人:刘泓麟邮箱:charleneliucsci.hk51

友情提示

1、下载报告失败解决办法
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。

本文(计算机行业:多模态大模型技术演进及研究框架-230318(51页).pdf)为本站 (蒸蒸日上) 主动上传,三个皮匠报告文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三个皮匠报告文库(点击联系客服),我们立即给予删除!

温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。
会员购买
客服

专属顾问

商务合作

机构入驻、侵权投诉、商务合作

服务号

三个皮匠报告官方公众号

回到顶部