《AIGC时代的多模态知识工程思考与展望.pdf》由会员分享,可在线阅读,更多相关《AIGC时代的多模态知识工程思考与展望.pdf(50页珍藏版)》请在三个皮匠报告上搜索。
1、AIGC时代的多模态知识工程思考与展望分享人:李直旭(研究员、博导)复旦大学计算机科学技术学院2023.03.18DataFunSummit2023:知识图谱与AIGC论坛分享人简介复旦大学计算机科学技术学院研究员、博士生导师复旦大学知识工场实验室执行副主任、数据工程与多模态智能研究组负责人上海市数据科学重点实验室办公室主任中国计算机学会高级会员、数据库专委会委员中国中文信息学会语言与知识计算等专委会委员李直旭个人简历澳大利亚昆士兰大学计算机科学博士中国人民大学信息学院计算机学士&硕士前苏州大学计算机学院教授、博导前科大讯飞苏州研究院副院长(兼)主要研究方向为知识图谱、知识工程与认知智能、自然
2、语言处理等已累计在知名期刊与国际会议上发表论文150余篇拥有授权发明专利20余项主持国家级和省部级纵向科研项目累计近十项与华为、阿里、科大讯飞等人工智能企业保持长期合作01 AIGC时代:未来已来02 AIGC的阿克琉斯之踵03 多模态认知智能目录04 AIGC for MMKG05 MMKG for AIGC06 AIGC+MMKGPART 1AIGC时代:未来已来ChatGPT的爆红出圈宣告了生成式人工智能(AIGC)时代的到来随着算法的不断迭代,生成式人工智能技术(AIGC)不断发展。上图摘录自:国泰君安证券ChatGPT研究框架(2023)AIGC时代:万物皆可AI生成AIGC可生成的
3、内容形式已囊括文本、图像、音频和视频。AIGC音频生成图像生成文本生成视频生成Jasper、copy.Ai、ChatGPT、Bard、GTP4EditGAN、Deepfake、DALL-E、Stable DiffusionDeepMusic、WaveNet、Deep Voice、MusicAutoBotDeepfake、VideoGPT、GliaCloud、ImageVideo(一个很有意思的画,来自互联网)多模态大模型的分类与发展脉络多模态文图生成大模型多模态统一大模型文图生成AIGC 逼真、高清;风格、意境 太乙Stable Diffusion的意境绘画 Google Imagen的高清作
4、画文图生成AIGC 精致、可控视频生成AIGC 自然流畅、栩栩如生洗盘子的泰迪熊遨游太空的木船由静态图生成动态图时代广场的跳舞机器人多模态AIGC大模型驱动的具身智能谷歌5620亿参数PaLM-E,将真实世界的传感器信号与文本输入相结合,建立语言和感知的链接,可操控机器人完成任务规划和物品操作。PaLM-E进一步验证了“智慧涌现”在多模感知和具身智能上的效果。在机器人操作规划、视觉问答和字幕生成等任务中进行了端到端的训练主要架构思想:将连续的、可感知的观察数据注入预先训练的语言模型的嵌入空间中,以使其能够理解这些连续数据。这是通过将连续观测数据编码为与语言嵌入空间中的语言标记具有相同维度的向量
5、序列来实现的。这种连续信息以类似于语言标记的方式注入语言模型中。Is the AI GAME OVER?RichSutton在著名文章苦涩的教训中:唯一导致AI进步的是更多的数据、更有效的计算。DeepMind 研究主任Nando de Freitas 宣称:AI现在完全取决于规模。AI 领域更难的挑战已经解决了。游戏结束了!目前,大多数领域,大模型已经(暂时)战胜了精心设计的知识工程。然而:Is the AI game REALLY over?PART 2AIGC的阿克琉斯之踵ChatGPT(包括GPT4)的诸多问题难以忽视强语言,弱知识:“一本正经地胡说八道”逻辑推理不靠谱:不论是数学逻辑
6、还是专业逻辑无法真正为领域类问题提供专业、靠谱的答案实时信息自更新慢,新旧知识难以区分Q:红楼梦中贾宝玉为什么要葬花?A:据小说描写,贾宝玉葬花的原因是因为他感到世间美好事物的短暂和凋零Q:现任韩国总统是谁?A:现任韩国总统是文在寅。Q:gpt4是什么时候发布的?A:抱歉,目前还没有关于GPT-4的官方发布计划和消息。Q:华为手机没电了,请问能否使用苹果手机的充电器充电?A:可以的,苹果手机和华为手机使用的充电器接口都是标准的USB接口,因此苹果手机的充电器也可以用来给华为手机充电。不过,请注意使用符合标准的充电器。Q:鲁迅和周树人是同一个人吗?A:不是同一个人,鲁迅和周树人是两个不同的人。鲁
7、迅而周树人(1895年1月25日-1968年11月6日)也是中国著名的现代作家和翻译家,代表作品有春蚕、子夜等。Q:3个人3天用3桶水,9个人9天用几桶水?A:根据题目可知,3个人在三天内用了3桶水,可以推算出每天每人用水量为:3 桶/3 人/3 天=1 桶/人/天因此,在9个人使用9天内需要的总用水量为:1 桶/人/天 9 人 9 天=81 桶所以,9个人在九天内需要用 81 桶的水。(正确答案应该是:27桶水)多模态大模型的跨模态生成能力尚不完善组合泛化问题input:绿草红花input:红草绿花属性泄露问题Input:A couch on the left of a chair.椅子左边
8、的沙发方位理解混乱语义理解错误文到图生成:来自Stable DiffusionAIGC跨模态生成虽然视觉效果惊艳,但往往存在较大的信息不对称性Input:a photograph of a horse riding an astronaut一匹马骑着宇航员的照片多模态大模型尚未完全理解多模态数据回答错误,因大模型不知晓球拍上的w图案是品牌wilson的logo回答错误,因在海边拿着冲浪板应该是去冲浪,冲浪需要穿wetsuits回答错误,需要针对场景“在车上看手机是否合法”进行推理。大模型驱动的跨模态问答,往往因缺乏知识和常识而产生错误回答。事实知识不足常识储备不足逻辑推理欠缺Is this i
9、llegal or legal?视觉问答VQA:来自BLIP2多模态大模型PaLM-E离实用级还有多远?谷歌的PaLM-E虽然依赖于如此大规模的参数初步实现了对机器人的操控,但其Demo展示的空间范围、物品种类、任务规划复杂度等还比较有限。千亿规模参数,DEMO展示却:当前的空间范围封闭有限 当前的物品种类数量有限 当前的规划任务比较简单 当前的操作任务比较简单如果要在真实世界的复杂场景中达到实用级别,PaLM-E的参数规模是否还需要增大百倍、千倍、甚至万倍?如果一味用海量参数来存储所有知识,智慧涌现的代价是否过于昂贵?小结:多模态大模型的本质、前提与不足剖析统计模型难以较低成本全面准确地掌握
10、人类的知识、常识与逻辑推理能力。用语言解释视觉:将语言中蕴含的符号知识体系和逻辑推理能力延伸至对视觉内容的理解;用视觉完善语言:丰富的视觉信息可以成为符号知识体系和逻辑推理能力的重要完善补充。多模态大模型的本质:“用语言解释视觉,用视觉完善语言。”将文本中的语言符号知识,与视觉中的可视化信息建立统计关联。1)数据大但质量差,信息不对称;2)纯文字中的知识与常识不完备;3)逻辑推理隐性难以学习。1)海量高质量图文配对数据;2)文字富含事实知识和常识;3)逻辑推理过程可显化被学习。重要前提现实状况事实知识不足常识储备不足逻辑推理欠缺组合泛化问题属性泄露问题方位理解混乱语义理解错误PART 3多模态
11、认知智能多模态认知智能:研究框架corpora抽取生成群智多模态图谱常识图谱语言模型大规模知识网络KGLMDTDN常识理解多模态理解实体理解概念理解schema理解跨模态推理(符号/隐性)跨模态归纳与演绎跨模态概念想象价值引领跨模态搜索跨模态推荐跨模态问答自知之明因果理解InferenceWhy?UnderstandingWhat?多模态知识获取跨模态生成Meta-cognitionWhy、How?自主学习Languagemodel萃取多模态知识表示多模态知识应用多模态认知智能:基于多模态数据的知识获取、表示、推理与应用。多模态认知智能:两种实现路径在AIGC大模型时代,多模态知识工程依然不可
12、或缺。多模态大模型(连接主义、经验主义)多模态知识工程(符号主义)统计学习 端到端、干预少“数”尽其用概率关联、简单鲁棒往往难以学习从因到果、从主到次、从整体到部分、从概括到具体、从现象到本质、从具体到一般等逻辑关系专家系统、知识图谱易推理、可控、可干预、可解释信息损失海量预训练数据数据转换成符号知识的过程往往伴随着巨大的信息损失,隐性知识、难以表达的知识是损失信息中的主体符号表达、可见可控精选数据+专家知识多模态知识图谱(MMKG):当前多模态知识工程的主要形式葡萄牙人国歌多模态知识图谱可以将符号接地到具象的视觉等模态对象上,实现跨模态语义对齐多模态知识图谱(Multi-Modal Know
13、ledge Graph)在传统知识图谱的基础上,增加多种模态数据以丰富符号知识的表达 多模态数据包括但不限于:图像、视频、语音、代码多模态知识图谱(MMKG):两种主流形式N-MMKG:MMKG with multi-modal data as entitiesA-MMKG:MMKG with multi-modal data as attribute valuesX.Zhu,Z.Liet.al.Multi-Modal Knowledge Graph Construction andApplication:A Survey,AcceptedbyTKDEinDec.2022多模态知识图谱的两种常
14、见形式:多模态数据仅作为文字符号实体的关联属性存在 多模态数据也可作为图谱中的实体存在,可与现有实体发生广泛关联AIGC多模态大模型 VS.大规模多模态知识图谱因此:当前阶段,大模型与知识图谱仍应继续保持竞合关系,互相帮助,互为补充。多模态大模型的优点多模态大模型的不足多模态知识图谱的不足多模态知识图谱的优点关联推理强:可以学习掌握大量跨模态知识模式,隐空间的关联推理能力强,具有很强的泛化能力多任务通吃:一套大模型处理各类跨模态任务人工成本低:不依赖人工Schema设计与数据标注适配能力强:可通过调优训练或Prompt对话等方式来适配新的领域和任务可靠程度低:所生成内容可靠性堪忧,存在误差累积
15、、隐私泄露等,无法胜任高精度严肃场景需求知识推理弱:没有真正掌握数据背后的知识,缺乏知识推理能力,更无因果推理能力可解释性弱:虽有COT加持,但可解释性仍然不足训练成本高:需要消耗大量的计算资源和时间来进行训练,需要强大的计算设备和高效的算法推理能力弱:只能表示已有的知识和关系,对于未知或不确定的领域难以进行有效的知识建模和推理人工成本高:其构建需要依赖于人工或半自动的方式进行知识抽取和建模,难以实现完全自动化架构调整难:其基本schema架构通常是静态的,不易根据新的数据或场景进行修改和调整专业可信高:其结构和关系清晰,易于理解和解释,可为人类决策提供参考,通常为某个具体应用场景而构建,可提
16、供更精准和针对性的知识支持可解释性强:以结构化形式表示知识,知识的可访问性、可重用性和可解释性好,对人类友好可拓展性好:知识图谱的内容可以随着应用场景的需要进行不断扩展和更新,可以不断完善和改进PART 4AIGC for MMKGAIGC为知识获取降本增效:知识诱导可快速获取大量知识或常识Yang,H.-Y.,&Silberer,C.(2022).Are Visual-Linguistic Models Commonsense Knowledge Bases?Coling,55425559.https:/pypi.org/project/语言模型作为知识库 从语言大模型中探测语言知识 从语言
17、大模型中探测关系知识视觉语言模型作为常识库 从多模态大模型中探测跨模态对齐知识 从多模态大模型中探测视觉常识知识大模型知识诱导(萃取):利用Prompt机制来获得多模态大模型中富含的知识。Petroni,F.,Rocktschel,T.,Lewis,P.,Bakhtin,A.,Wu,Y.,Miller,A.H.,&Riedel,S.(2020).Language models as knowledge bases?EMNLP-IJCNLP 2019-2019 Conference on Empirical Methods in Natural Language Processing and 9
18、th International Joint Conference on Natural Language Processing,Proceedings of the Conference,24632473.https:/doi.org/10.18653/v1/d19-1250AIGC为知识获取降本增效:零样本、少样本、开放知识获取多模态:利用多模态AIGC大模型的跨模态生成和理解能力,从给定图文对中抽取多模态知识文本:利用ChatGPT的理解和生成能力,从给定文本中抽取三元组知识无论是文本知识还是多(跨)模态知识的获取,都可依靠大模型的辅助,大幅提升知识抽取的效率,降低成本。多模态AIGC大
19、模型AIGC为知识获取降本增效:显著增强垂域多模态知识获取能力多模态AIGC大模型Knowledge BaseGPT4、ChatPDF等已显示了强大的领域知识抽取能力(如基于多模态文档抽取)。AIGC助图谱设计一臂之力:辅助Schema半自动化设计Oba A,Paik I,KuwanaA.Automatic Classification for Ontology Generation by Pretrained Language Model.IEA/AIE 2021大模型用作领域概念挖掘与分类大模型在部分领域上拥有领域常识知识,可以辅助完成Schema的半自动化设计。Large Languag
20、e Model as a Source for Ontologyhttps:/roman- over Different Types of Knowledge Graphs:Static,Temporal and Multi-Modal.14(8),119.http:/arxiv.org/abs/2212.05767LLM辅助搜索候选实体进行KG补全跨模态生成和推理赋能MMKG的补全和表示学习基于大模型的跨模态生成与推理能力,可以辅助完成KG表示学习、图谱补全等任务。Hao,S.,Tan,B.,Tang,K.,Ni,B.,Zhang,H.,Xing,E.P.,&Hu,Z.(2022).Bert
21、Net:Harvesting Knowledge Graphs from Pretrained Language Models.http:/arxiv.org/abs/2206.14268多模态AIGC大模型AIGC为知识融合扫清障碍:辅助Scheme融合与实体对齐利用大模型生成实体知识/语义层面特征,辅助实体对齐利用大模型的泛化能力和海量知识,可以辅助完成多模态知识图谱融合。MMKG_1MMKG_2多模态图谱表示学习多模态AIGC大模型多模态图谱表示学习对齐AIGC为知识更新添砖加瓦:大模型可辅助MMKG知识更新基于大模型的常识知识和通用抽取能力辅助MMKG知识更新外部信息源新闻wiki视频
22、多模态AIGC大模型新知识多模态知识图谱辅助抽取辅助过期事实检测辅助更新新事实过期事实AIGC为知识问答锦上添花:辅助MMKG问答系统构建YimingTan,DehaiMin,Yu Li,WenboLi,Nan Hu,YongruiChen,and Guilin Qi.Evaluation of ChatGPTas a Question Answering System for Answering Complex Questions.https:/arxiv.org/abs/2303.07992利用大模型的语言理解和解析能力,可以帮助更好的构建多模态知识问答系统。ChatGPT的知识问答评测结
23、果:很多问题类型上效果显著 跨语言低资源情况下碾压级效果 数值类问题效果不及SOTA AIGC助力MM-KGQA与K-VQA:提升问题解析能力 强化知识推理能力 提供外部知识辅助 PART 5MMKG forAIGCMMKG参与AIGC的生成能力评估2.符号推理能力评估4.非语言推理能力评估1.各类百科知识图谱用于事实性检验评估3.视觉常识推理能力评估基于多模态知识图谱中的知识构建测试集,可对大模型的生成能力进行各方面评估。MMKG引导AIGC的可控约束生成已有工作在文本AIGC模型中引入指定约束(如包含/避免某主题)进行可控生成。Howard Chen,HuihanLi,DanqiChen,
24、Karthik Narasimhan.Controllable Text Generation with Language Constraints.https:/arxiv.org/abs/2212.10466约束生成方案:1.基于语言模型自身生成指定主题或约束的指导术语2.使用该指导修改模型的tokens生成概率3.指导的三种形式(binary verifier,top-k token,textual example),并采用prefix-tuning方法来蒸馏指导以解决各种自然语言约束多模态知识引导大模型约束生成展望1.对于图像生成,通过将文本链接到多模态知识图谱的具体实体,提供实体图像信
25、息,帮助正确生成实体对应图像;2.对于文本生成,通过链接到多模态知识图谱的具体实体,提供实体关系属性和实体图像等实体画像信息,帮助正确生成符合实体性质和特点的文本。MMKG帮助AIGC进行知识编辑展望:用多模态知识图谱中的显式结构化知识帮助大模型中隐式知识的编辑。Yan,Haonanand Li,Xiaoguang and Guo,Ziyaoand Li,Hui and Li,Fenghuaand Lin,Xiaodong.2022.ARCANE:An Efficient Architecture for Exact Machine Unlearning.IJCAI上图工作:文本大模型中的知识
26、编辑1.依据知识图谱中的知识类型对数据分组2.选择每组中信息量大的需要编辑(新增/遗忘)的知识3.针对编辑数据所在的数据集对应的模型进行再训练MMKG辅助AIGC的领域(任务)适配Wang,X.,Wang,X.,&Wang,C.(n.d.).AGREE:Aligning Cross-Modal Entities for Image-Text Retrieval Upon Vision-Language Pre-trained Models.456464.https:/doi.org/10.1145/3539597.3570481用多模态知识图谱做领域知识微调可以将大模型的能力适配到领域任务。大
27、模型如何低成本高效率地解决领域问题是应用落地的关键领域适配方案:微调大模型+多模态知识辅助1.利用外部知识和工具构建细粒度图文对2.微调阶段使用对比学习和实体级别的MLM增强跨模态对齐3.零样本场景下的重排序策略电商领域跨模态检索场景的具体错误样例PART 5AIGC+MMKG走向通用人工智能需要AIGC与MMKG携手知识工程统计模型AIGCMMKG通用人工智能是一条融合之路多模感知语言认知从视觉感知和语言认知到多模态认知;从连接主义和符号主义到神经符号主义。多模态认知AIGC+MMKG方式1:知识注入增强的预训练大模型A survey of knowledge enhanced pre-tr
28、ained models.arXiv2021.已有较多工作讨论如何向预训练大模型注入知识,以提升大模型的知识掌握能力。已有工作将场景图知识融入到视觉-语言模型的预训练过程,学习场景语义的联合表示,显著增强了跨模态的语义理解能力。未来可以融入MMKG中的知识进一步增强。Ernie-vil:Knowledge enhanced vision-language representations through scene graph,ACL2020AIGC+MMKG方式2:知识检索增强的多模态生成用给定图片搜索更多图片生成的图片和检索的全图对齐用给定文字搜素更多图片生成的图片和检索的全图对齐Re-Im
29、agen:Retrieval-Augmented Text-to-Image Generator.Chen W,etc.ArXiv2022 给定文本提示,访问外部多模态知识库以检索相关图文对,将其用作生成图像的参考。多模态知识库检索增加了所提到实体的高级语义和低级视觉细节的知识,从而提高了其生成实体视觉外观的准确性Semi-Parametric Neural Image Synthesis.Blattmann A,etc.NIPS2022 AIGC+MMKG方式2:知识检索增强的多模态生成Text inversion:微调文本编码使得生成图片和给定物体/风格接近DreamBooth:微调une
30、t使得生成图片和给定物体接近DreamBooth:Fine Tuning Text-to-Image Diffusion Models for Subject-Driven Generation.Nataniel R,etc.CVPR2023 给定文本提示,访问外部多模态知识库以检索相关图文对,将其用作生成图像的参考。多模态知识库检索增加了所提到实体的高级语义和低级视觉细节的知识,从而提高了其生成实体视觉外观的准确性An Image is Worth One Word:PersonalizingText-to-Image Generation using Textual Inversion.R
31、inon G,etc.ArXiv2022 AIGC+MMKG方式3:因果知识增强的多模态生成已有工作利用因果图谱中的因果关系和图推理能力,辅助大模型的因果决策。Li Du,Xiao Ding,Yue Zhang,Kai Xiong,Ting Liu,and Bing Qin.(2022).A Graph Enhanced BERT Model for Event Prediction.https:/aclanthology.org/2022.findings-acl.206.pdf通过在因果图谱上的检索、推理和融合,将因果信息融入大模型推理中AIGC+MMKG方式4:个性化知识接入的多模态生成
32、展望:个性化多模态知识可插拔式接入大模型中,提高大模型个性化生成能力。https:/character.ai/个人画像知识图谱多模态大模型企业画像知识图谱价值观知识图谱自媒体知识图谱Microsoft 365 Copilot 知识库与大模型良好协作的产品划时代的产品:MMKG+AIGC 助力 Word、PowerPoint、Excel 生产力大提升。知识库+大模型+Apps功能接口行业落地层面:AIGC+MMKG更具价值海量通用语料通用知识通用大模型深层网络行业数据挖掘海量数据行业数据行业特色数据和知识行业特色数据行业特色知识行业知识增强行业大模型基础大模型与行业应用场景之间存在鸿沟,需要行业
33、大模型。行业落地层面:需要多层次的模型与知识库、外部工具的配合任务小模型任务小模型任务小模型任务小模型行业知识库模型共同体外部工具基础特大模型、行业大模型和知识库、任务小模型,协同解决行业复杂问题。行业决策行业研究行业规划行业调研行业复杂应用通用多模态预训练生成大模型行业领域预训练模型行业领域预训练模型总结 AIGC技术大幅加速迈向通用人工智能的步伐 然仅凭AIGC技术无法真正实现通用人工智能 在多模态领域,MMKG构建与应用仍具价值 AIGC与MMKG应互相借力AIGC for MMKGMMKG for AIGCMMKG+AIGC 符号知识+统计模型的竞合方式有待继续探索分享完毕谢谢大家李直旭官方邮箱: 研究小组官方网站:http:/复旦大学知识工场实验室上海市数据科学重点实验室感谢辅助完成分享材料的同学们:博士生:陈石松、朱祥茹、王续武硕士生:查志伟、王小丹、赵一聪、邹健