中国多模态模型数据集构成 原图定位 中国大模型如何构建数据集#2:多模态大模型 我们选取了在其论文中详细阐述如何构建预训练数据集的三个多模态模型,研究中国大模型预训练数据集的来源。我们发现网页抓取、自有数据和开源数据集是多模态大模型数据集的重要来源:1)网页抓取图文对:例如阿里 M6 大模型、百度 ERNIE-ViLG 大模型都从网页中抓取文本-图片对,然后经过一定过滤,形成最终数据集的一部分;2)自有数据:例如阿里 M6 大模型有来自电商的图文数据,百度 ERNIE-ViLG 大模型从内部图像搜索引擎中收集查询文本和对应的用户点击图像;3)开源数据集:例如百度 ERNIE-ViLG 大模型的部分图文对数据来自开源的 CC 和 CC12M,并通过百度翻译 API 翻译。