上海品茶

您的当前位置:上海品茶 > 报告分类 > PDF报告下载

1-2 多模态预训练技术及在电商领域的应用.pdf

编号:102272 PDF 40页 62.87MB 下载积分:VIP专享
下载报告请您先登录!

1-2 多模态预训练技术及在电商领域的应用.pdf

1、多模态预训练技术及在电商领域的应用严明阿里巴巴 达摩院 高级算法专家2022.07.30|01多模态技术研究背景03多模态电商场景应用02AliceMind多模态预训练技术04总结与展望目录|01多模态技术研究背景多模态技术背景?文本生成图像?DALLE 2ImagenVQA图文视觉问答?VQA数据集常见问题?视频问答Video QA?|02AliceMind多模态预训练技术多模态预训练取得显著进展20022多模态算法挑战多模态语言模型:打造图文任务核心底座,广泛应用于图文理解、生成等任务,大幅减少图文多模态场景的开发成本挑战:如何进行高效准确地视觉语义特征表示Regio

2、n/Grid/Patch如何设计有效的多模态信息深度融合机制/结构(文本:high-level语义,图片:low-level语义)多模态预训练(统一多模态理解和生成)时效性(端到端)融合机制(自适应)如何更好地建模图片文档的二维坐标信息以及区域box-level结构化信息(富文本图片结构化理解)AliceMind-MMU整体技术框架多模态结构化知识融入?StructuralLM?有效地跨模态特征融合?Learning toAttend?多样性特征表示和建模?StructBERT?region?grid?patch?端到端视觉语义增强的多模态预训练 E2E-VLP?E2E-VLP:End-to-

3、End Vision-Language Pre-training Enhanced by Visual Learning,ACL 2021 Oral基于跨层融合的高效多模态预训练 mPLUG?mPLUG:Effective and Efficient Vision-Language Learning by Cross-modal Skip-connections,Arxiv?VQA Challenge 2021?Achieving Human Parity on Visual Question Answering,https:/arxiv.org/pdf/2111.08896.pdf.VQA

4、Case Study AliceMind-MMU v.s.HumanRelational ReasoningAliceMind理解位置关系、对比关系、排除关系Common Sense KnowledgeAliceMind熟悉日常生活知识(天气、颜色、食物、地理等)Visual RecognitionAliceMind熟练记忆和识别,比如动物种类、花纹风格等VQA Case Study AliceMind-MMU v.s.HumanObject CountingAliceMind可以简单计数,大于10的时候效果比较差Textual RecognitionAliceMind还不能很好的理解和推理O

5、CR文本|03多模态电商场景应用多模态电商场景应用总图?智能客服多源异构多模态问答?知识库文本/文档图文/视频问题分类/匹配(最开始)机器阅读(MRC)(2017 2018)多模态问答(VQA)(2019 2022)智能客服商品详情页VQA?智能客服商品详情页VQAVQA?智能客服商品详情页VQA?Q:拉链长什么样子?Q:有商品背面的图吗?Q:什么面料?(没有文字描述)(第一张图图文并茂,信息量更大)(没有文字描述)技术挑战 图片切分?技术方案 多模态预训练底座统一支持?OCR?Query?OCR?Bounding Box?StructBERT?用户问题图片1文本图片2文本图片1图像图片2图像

6、Transformer是否合并图片图片分类标签问题-图片匹配度多模态预训练下游统一任务形式智能客服视频问答?主图视频Q:这套化妆品咋用?智能客服视频问答?=?=?=?Video-Text Matching(多粒度对比学习)X-CLIP:End-to-End Multi-grained Contrastive Learning for Video-Text Retrieval,ACM MM 2022多模态商品理解结构化?多模态商品理解结构化 商品类目预测?技术方案 商品类目预测 预训练 Visual Encoder(ResNet50)预训练 Transformer Encoder(MLM、ITM

7、、CLS)分类任务(CLS)Gird-based预训练Visual Encoder:CLIP Encoder+图片分类任务进行单模态预训练Transformer Encoder:使用更多图文对相关数据(2亿)训练跨模态对齐效果展示 商品类目预测多模态商品理解结构化 商品同款检索?技术方案 商品同款检索?效果展示 商品同款检索多模态商品理解结构化 商品主体选择?商品类目:T恤商品标题:2021夏季新款复古可爱小熊短袖T恤宽松学术上衣图搜错误示例多模态商品理解结构化 商品主体选择?Shifting More Attention to Visual Backbone:Query-modulated

8、Refinement Networks forEnd-to-End Visual Grounding,CVPR 2022效果展示 商品主体选择|04总结与展望Takeaways总结优秀多模态技术方案视觉语义特征的学习,往往是瓶颈利用更大量的多模态对齐数据,甚至更多类型的数据:比如单模态、有监督数据等深度跨模态特征融合机制,大规模多模态预训练端到端的一阶段预训练更加灵活实用,在研究和应用中开发和应用更方便展望多模态统一大模型趋势NLP、CV、多模态统一大模型(单模态&多模态)问答对话统一多模态模型:形式、任务、模态大模型轻量化大模型逐渐进入参数量攀比的冷静期,如何做到小而实用的轻量化多模态模型层次化模块化大模型业务应用中一个大模型往往无法解决所有任务,层次化大模型递进范式值得深入实践跨模态数字内容生成(可控高清图片、视频生成)非常感谢您的观看|

友情提示

1、下载报告失败解决办法
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。

本文(1-2 多模态预训练技术及在电商领域的应用.pdf)为本站 (云闲) 主动上传,三个皮匠报告文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三个皮匠报告文库(点击联系客服),我们立即给予删除!

温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。
会员购买
客服

专属顾问

商务合作

机构入驻、侵权投诉、商务合作

服务号

三个皮匠报告官方公众号

回到顶部