《【熊鹏飞】内容电商下的多模态内容理解和智能生产.pdf》由会员分享,可在线阅读,更多相关《【熊鹏飞】内容电商下的多模态内容理解和智能生产.pdf(23页珍藏版)》请在三个皮匠报告上搜索。
1、内内容容电电商商下下的的多多模模态态内内容容理理解解和和智智能能生生产产熊熊鹏鹏飞飞多媒体技术负责人虾皮MMU负责人负责多媒体内容理解和智能创作业务曾参与微信扫一扫/旷视手机拍摄/腾讯检索大模型/视频智能创作等曾在300-W/MIDDLEBURY/YTBVOS/KINECTS/TRECVID/NTIRE等夺冠 熊熊鹏鹏飞飞多多模模态态预预训训练练背背景景单单模模态态预预训训练练逐逐渐渐成成熟熟BERT/GPT,BiT/ViT已经成为Language和Vision的通用模型范式MoCo/MAE等自监督学习在单模态任务上取得显著的性能提升内内容容理理解解范范式式从从单单模模态态向向多多模模态态预预
2、训训练练转转变变从单源处理到多源处理:图像/文本/视频/场景跨模态交互应用层出不穷从一专一能到多专多能:单模态表达能力有限从专有模型到场景迁移:大模型/大数据提升模型的迁移性和泛化能力业业务务场场景景多多模模态态统统一一框框架架迁迁移移推荐:MoRec,P多多模模态态预预训训练练范范式式早早期期的的多多模模态态预预训训练练主主要要解解决决 跨跨模模态态特特征征表表达达 的的问问题题广广泛泛用用于于 跨跨模模态态检检索索,单单模模态态表表征征,z ze er ro os sh ho ot t迁迁移移 等等场场景景中中CLIP4亿图文对13亿参数双双塔塔对对比比学学习习跨模态图文匹配图像表征文本表
3、征WenLan6.5亿图文对10亿参数双塔中中英英双双语语文文本本模模型型跨模态图文匹配Zeroshort/单模态表征VQA多多模模态态对对齐齐M61.9T图像/292G文本100/千亿参数单塔MMo oE E S Sc ca al le eU Up pCaption单模态表征VQA图图像像/文文本本生生成成PPM3.7亿图文对6亿参数单单双双塔塔融融合合模模态态对对齐齐新闻-跨模态检索PCG-多模态指纹/分类视频号-文本/标签生成PCG-Zeroshot/审核视频-视频剪辑多多模模态态预预训训练练技技术术路路线线2 20 01 19 9.8 82 20 02 20 0.4 42 20 02
4、21 1.2 22 20 02 21 1.7 72 20 02 21 1.1 11 12 20 02 22 2.0 04 42 20 02 23 3.0 01 12 20 02 22 2.0 08 8单单塔塔/多多模模型型表表征征双双塔塔/跨跨模模型型表表征征模模型型结结构构/D De ec co od de er r模模型型结结构构/单单双双塔塔大大模模型型/大大数数据据大大模模型型/大大数数据据L LL LMM/生生成成通通用用框框架架/大大一一统统A AL LB BE EF FF Fl lo or re en nc ce eF Fl la ammi in ng go oF FL LA A
5、V VA AB Be ei iT T3 3L LX XMME ER RT TB BL LI IP PD DC CV VL LP PV Vi iL LT TV VL L-T T5 5S Si immV VL LMMV VL LMMO OC Co oC Ca aP PE EV VL LB BL LI IP P2 2V Vi iL LB Be er rt 0 01 1内内容容电电商商多多模模态态内内容容电电商商下下多多模模态态预预训训练练内内容容和和电电商商的的多多模模态态交交互互每每个个场场景景一一个个模模型型内内容容生生产产内内容容分分发发电电商商流流量量商商品品上上架架商商品品消消费费多多模模
6、态态表表征征多多模模态态生生成成直直播播-商商品品视视频频-商商品品商商品品-Q Qu ue er ry y商商品品-文文本本商商品品-图图像像商商品品-视视频频聚聚合合Malay traditional dress for girls in ice blue color视视频频/直直播播商商品品文文本本/Q Qu ue er ry y调性质量引流互动规范多多模模态态统统一一预预训训练练T Ta as sk k直直播播-商商品品视视频频-商商品品商商品品-q qu ue er ry y视视频频-q qu ue er ry y视视频频-聚聚合合商商品品-合合集集商商品品-属属性性视视频频-文文本
7、本商商品品-图图像像Q Qu ue er ry y文文本本商商品品文文本本图图像像内内容容文文本本视视频频多多模模态态表表征征跨跨模模态态表表征征跨跨模模态态生生成成多多模模态态:图图像像,商商品品,视视频频,文文本本统统一一所所有有模模态态,相相互互协协同同统统一一编编码码框框架架,减减少少开开发发统统一一表表征征生生成成,模模态态扩扩展展多多架架构构:单单模模态态,跨跨模模态态,多多模模态态多多任任务务:检检索索,匹匹配配,分分类类,生生成成X X-T To owwe er r 架架构构多多架架构构:自自监监督督与与互互监监督督任意多种模态共享训练Token/模态级别自监督任意混合模态和单
8、模态对比学习多多模模态态:语语义义统统一一表表示示任意2种模态统一表示多图像和视频统一表示多语言模型统一表示多多任任务务:理理解解与与生生成成支持跨模态匹配,检索,多模态理解,分类,文本生成等任务0 02 2X X-T To owwe er r 预预训训练练X X-T To owwe er r 主主要要解解决决问问题题多多模模态态语语义义协协同同多多模模态态跨跨域域互互补补不不均均衡衡样样本本学学习习兼兼容容:多多模模态态下下语语义义协协同同单图像/多图像与视频共享单模态与多模态之间共享互互补补:多多架架构构下下语语义义统统一一单模态与多模态跨域对齐视频与文本时序对齐适适应应:多多任任务务下下
9、样样本本均均衡衡均衡对比loss多多模模态态A AI I的的六六大大挑挑战战Foundations and Trends in Multimodal Machine Learning:Principles,Challenges,and Open Questions,Paul Pu Liang,Amir Zadeh,Louis-Philippe Morency,https:/arxiv.org/abs/2209.03430自监督与互监督loss统一兼兼容容:从从 1 1 到到 X X单图像/多图像/crop图像/视频 共享transformer统一建模position embedding不同帧之
10、间共享,同时训练单图/多图多图融合成统一的特征编码,无需额外的fusion模块VideoFormerViT单单张张图图像像 多多张张图图像像 MultilingualEnglish单单语语言言 -多多语语言言 单单/双双塔塔 -多多塔塔 单单任任务务 -多多任任务务所有语言共享同一个文本encoder统一transformer架构,英语encoder迁移多语言encoder英语encoder,多语言文本encoder与图像encoder互相监督图像/文本互监督,融合模态特征与单模态互监督任意两种或多种模态之间参数共享统一架构,生成模型和融合模型参数共享统一loss,多任务loss兼容8 8 R
11、 Re eg gi io on ns s9 9 L La an nu ua ag ge es sIDidSGen,ml,zh,taMYmlPHtl,enTHthTWzhVNviBRptMMe et th ho od dMMo od de el lT To op p-1 1 A Ac cc cT To op p-5 5 A Ac cc cS Sp pe ea ar rmma an nr rCLIPR50+BERT37.93%67.79%0.5413CLIP-en/zhR50+MultiLingual34.96%65.89%0.5404C CL LI IP P-e en n/z zh hR R5
12、50 0 +S ST TS S/T TL LMM4 40 0.6 67 7%7 70 0.3 33 3%0 0.5 54 47 74 4兼兼容容:从从 S Si in ng gl le eL La an ng gu ua ag ge e 到到 MMu ul lt ti iL Li in ng gu ua al lSemantic Textual SimilaritySTS+XLMSimilarity images with different language textVideo Tag C兼兼容容:从从 S Si in ng gl le eT To owwe er r 到到 MMu ul l
13、t ti iT To owwe er rOne TowerTwo Tower单塔与多塔相互补充单模态与多模态跨域互补Item Category C互互补补:多多模模态态对对齐齐不不同同模模态态之之间间存存在在模模态态纠纠缠缠,无无法法在在同同一一框框架架下下训训练练多多种种模模态态对对齐齐传统双模态对齐主要是value对齐;多模态对齐包含模态内value对齐和模态间struct对齐;互互补补:跨跨模模态态对对齐齐跨跨模模态态t to ok ke en n之之间间需需要要进进一一步步语语义义对对齐齐将跨模态对齐视为一个多多元元合合作作博博弈弈过程使用Banzhaf交互评估图像token和文本之间
14、可能的对应关系,并将其视为额外的学习信号在多图或视频上,实现了分分层层交交互互:单词实体级交互,短语动作级交互,段落的事件级交互Video-Text as Game Players:Hierarchical Banzhaf Interaction for Cross-Modal Representation Learning,Peng Jin,Jinfa Huang,Pengfei Xiong,Shangxuan Tian,Chang Liu,Xiangyang Ji,Li Yuan,Jie Chen,https:/arxiv.org/abs/互互补补:多多任任务务 l lo os ss s
15、统统一一跨跨模模态态对对齐齐/多多模模态态分分类类/检检索索等等不不同同任任务务l lo os ss s统统一一Task#1 ContrastiveUnsupervised/Self-supervised LearningTask#2 ClassificationSupervised LearningTask#3 RetrievalMetric LearningFine-tuned on PASCAL VOCUniMoCo:Unsupervised,Semi-Supervised and Full-Supervised Visual Representation Learning,Zhigan
16、g Dai,Bolun Cai,Yugeng Lin,Junying Chen,https:/arxiv.org/abs/适适应应:多多任任务务类类间间均均衡衡针针对对难难例例样样本本/不不平平衡衡样样本本在在对对比比学学习习中中抽抽样样问问题题,提提出出c ce en nt te er r b ba an nk k来来解解决决类类间间均均衡衡queue:memory bank+center bankmemory bank:mooc,xbmCCL:Center Contrastive Loss for Metric Learning,Bolun Cai,Pengfei Xiong,Shangx
17、uan Tian,https:/arxiv.org/abs/训训练练数数据据及及参参数数图图像像9 9.7 7亿亿视视频频5 53 30 0万万商商品品2 2.4 4亿亿文文本本1 13 30 0G G语语言言9 9种种视视觉觉理理解解 V VC CR R训训练练步步骤骤stage1:预训练X-Towerstage2:VCR数据集上微调stage3:具体任务上finetune模模型型微微调调细粒度对比学习Prompt TuningEMAhttps:/ 03 3展展望望多多模模态态预预训训练练下下一一步步生生成成,涌涌现现,交交互互充分利用语言模型的认知推理多种模式排列组合与兼容大模型大数据长token的涌现能力T TH HA AN NK KS S