爱上海419(爱上海,爱上海同城交友对对碰)

上海品茶

超大规模多模态预训练模型M6实践-林俊旸.pdf

上传人：2***

编号：127304

2023-05-01

61页 13.72MB

《超大规模多模态预训练模型M6实践-林俊旸.pdf》由会员分享，可在线阅读，更多相关《超大规模多模态预训练模型M6实践-林俊旸.pdf（61页珍藏版）》请在三个皮匠报告上搜索。

1、超大规模多模态预训练达摩院智能计算实验室林俊旸01多模态预训练大模型背景&价值02大规模多模态预训练模型关键技术研发03大模型平台与应用案例04未来发展多模态预训练大模型背景&价值2000202021w ord2vecTransform erBERTGPTXLNetUNITERT5GPT-3Vi LBERTVi nVLVILT集中式通用大模型的发展模式集中式通用大模型是否是业界新范式？基础技术大模型服务化生态创新型应用算力、数据通用能力内部生态到外部生态 AI+产业商业化落地多模态预训练模型M6多模态预训练模型M6M6通用能力视觉问答M6斑马这

2、是什么动物？M6通用能力图片描述/推荐理由生成M6天然乳胶上密布着无数个细小网状结构的透气孔，24小时不间断呼吸，有效排出床垫内部的湿热和脏空气，还你洁净清爽的睡眠空间。另外，天然橡胶的柔韧力度，完全符合人体工学的设计，贴合曲线，令你畅享云端舒睡之旅。M6通用能力文本摘要M6本报*报道：印尼中央统计局近日发布数据显示，有多达82.85%的印尼企业在新冠肺炎疫情严重冲击下营收减少，最严重的降幅甚至超过80%。数据表明，与疫情暴发前相比，绝大部分中小微企业收入下降，部分大型企业也面临困境。现阶段只有14.6%的印尼企业仍能维持同等收入，仅有2.55%的企业在疫情后营收不降反增。在不同行业中，旅游业

3、受到的影响最大，首当其冲的是住宿和餐饮业，92.47%的企业处于亏损状态。印尼超八成企业营收下滑M6通用能力跨模态检索M6日式表面凹凸的咖啡杯M6通用能力文本控制下的图像生成M6女士高腰短一截衬衫大规模多模态预训练模型关键技术研发M6模型&训练任务M6：Multi-Modality-to-Multi-Modality Multitask Mega-transformer for Unified Pretraining，KDD 2021 M6模型架构：基于自注意力的transformer模块 Patch-based backbone(Resnet50/EfficientNet/VIT/)inst

4、ead of Object-based backbone M6多任务预训练：利用不同的mask策略实现不同模态下的完形填空和语言模型任务的学习，兼容多模态理解和生成。使用1.9TB图像和292GB的文本进行预训练，首个参数规模超100亿大模型在显存上的bottleneck成功训练大模型的重要限制便是有限的显存有效解决显存限制的策略包括：Activation Checkpointing Model Parallelism,Pipeline Parallelism,etc.ZeRO(Zero Redundancy Optimizer)百亿Dense M6模型微软19 ZeRO:Memory Opt

5、imizations Toward Training Trillion Parameter Models稀疏模型千亿MoE模型稀疏MoE模型+Whale专家并行，128卡完成千亿模型训练相较于同等参数量的dense模型，能以更少的资源和训练时间换来接近的效果M6:A Chinese Multimodal Pretrainer,arxiv:2103.00823M6千亿参数Scale利用Whale实现Mixture-of-Experts的结构扩展模型规模；采用数据并行+专家并行的混合并行模式；结合Gradient Checkpoint、Optimizer峰值显存优化、通信池化、混合精度、编译优

6、化等技术减少GPU资源需求，提高训练效率；128张A100可以实现1400+samples/sWhale支持M6-100B高效分布式训练M6实验结果-多模态生成多模态生成任务上相比基线效果显著，且大模型效果更突出M6实验结果-少样本学习小样本学习上，观察到大模型比小模型具有较大的优势，且大模型训练越久效果还能持续提升M6实验结果-自然语言理解和生成M6-T：模型分析辅助损失函数对效果影响较小，而top-k路由机制的k值对效果影响很大M6-T：专家分组机制专家分组机制：并行化分组路由，有效提升训练效率保持相同训练效率的情况下，有效提升模型效果M6-T：万亿参数大模型训练实践480 GPU 就实现

7、了高效的万亿模型训练显著加速模型收敛速度至5倍，并实现最优的困惑度评测表现M6-T:Exploring Sparse Expert Models and Beyond,arXiv:2105.15082M6十万亿：问题与挑战如果要挑战极限规模到十万亿参数，是否还需要10倍资源？是否存在高效且低碳的训练方法？Offload应当是其中的必要手段，但是NVMe Offload资源消耗太大Offload还非常影响效率M6-10T：十万亿推出全球最大规模的十万亿参数预训练模型共享解除训练机制结合粒度可控的CPU offload，实现512卡训练十万亿参数大模型M6十万亿：方法设计提出了共享解除机制（Sh

8、aring-Delinking Paradigm）针对的是参数需要占用大量显存的模型训练分为两阶段，一阶段训练层间共享参数模型（Pseudo stage），二阶段利用一阶段参数做初始化，解除参数共享，并继续训练（Real stage）M6十万亿：效果验证小规模模型验证自然语言理解和自然语言生成的效果，证明了P2R的有效性M6十万亿：效果验证中等规模模型，模型参数需占用大量显存验证发现效果符合预期，两阶段训练相较之下有明显效率优势M6十万亿：十万亿实践P2R+CPU offload，实现512卡完成十万亿参数大模型的训练对比没有使用P2R训练，在时间维度上收敛有明显优势；而在样本维度上，十万亿参

9、数大模型也取得优于万亿参数大模型的表现。典型下游多模态任务文到图生成模型M6文本控制下的图像生成多模态创造力Stage 1负责学习图像的离散code表示（VQGAN）Stage 2使用预训练的M6做text+code的联合学习，利用语言模型的训练目标，构建文本和图像离散表示的关联生成阶段，M6根据输入文本生成code序列，并利用Stage 1的decoder将code序列还原成图像相比于同期工作OpenAI DALLE,M6能生成更高清图片（1024x1024vs 256x256）并实现了商业化落地后续工作实现了Non-Autoregressive 的多模态控制生成，进一步提高Infere

10、nce效率&生成的可控性Stage 1Stage 2工业级AI Designer根据潮流趋势文本的描述，自动产出细节清晰的服装图破洞牛仔裤吊带法式甜美连衣裙更可控的图像生成1.Textual Controls(TC)2.Visual Controls(VC)3.Preservation Controls(PC)4.Combinations of 1/2/3UFC-BERT:Unifying Multi-Modal Controls for Conditional Image Synthesis,NeurIPS 21Autoregressive 的方式生成难以满足比如PC这类的需求，不太灵活更可

11、控的图像生成使用多种条件信息，以及多种mask策略，学习到不同的mask条件生成利用负样本和上一版模型产出来学习图文相关分和忠实分更可控的图像生成：效果示例基于文本的图像生成效果随着迭代次数增加能逐渐变好更可控的图像生成：效果示例在多个数据集上均能展现出对条件信息的有效建模更可控的图像生成：实验效果多个数据集上对比多个基线模型更优表现，并且具有较高的推理效率大模型平台与应用案例内部孵化的M6服务化平台服务化今年6月上线，使用方覆盖40+BU工作日调用数据5亿次/天，峰值20亿次/天https:/服务化对外开放平台OverviewM6平台下游任务、解决方案、业务案例解决方案-文案生成-服装设计-

12、搜索召回-智能对话-金融投顾-泛内容理解-虚拟人多模态图片生成任务M6应用犀牛新制造女士破洞牛仔短裤M6应用犀牛新制造英伦风厚底ins百搭系带马丁靴M6应用犀牛新制造M6生成结果触达商家*-3个品类机会共74款，商家选中15款，其中12款是由m6算法生成多模态文本生成式任务利益点文案生成相同覆盖下询单转化率+3%营销文案生成M6帮助运营进行文案/素材生成：搜索底纹词生成、优质评论挖掘、主题文案生成1.训练集少，标注代价大，已有模型不可用2.文本与图片属于不同模态，需联合建模进行理解。解决方法：M6微调下游，跨模态表征，部分情况可以实现零样本学习第一级：海量外部数据做预训练任务，M6有数百G文本

13、、6T图片数据，同时ckpt可复用第二级：领域内无标注数据继续预训练，一般有十万到百万级业务数据可做continal pretraining第三级：业务积累/标注数据，生成需要5000左右样本，约为以前的5%。素材&文案生成：案例输入输出底纹词文案功能点:店内退税|机场退税;利益点:操作简单|到账快；主体名称:支付宝退税;支付宝退税，官方退税有点东西文案服务名称:58货运无忧拉货搬家；服务描述:快速响应，明码标价，价格实惠；一键上门搬家角标文案服务名称:中考分数查询;中考查成绩虚拟主播带货多模态表征提取式任务多模态表征提取式任务躺平家居：M6的风格召回一致率上显著优于其他方法M6多模态表征加入排序的效果有提升斑马汽车 Talk2Car任务搜索长尾词预训练任务Query:日式表面凹凸的咖啡杯M6纯文本BERT搜索Query:粉色大朵装饰用菊花搜索M6纯文本BERT多模态分类式任务未来发展M6未来发展感谢！联系方式：junyang.ljyalibaba-