《多模态知识图谱构建_20240325235045.pdf》由会员分享,可在线阅读,更多相关《多模态知识图谱构建_20240325235045.pdf(29页珍藏版)》请在三个皮匠报告上搜索。
1、友爱力行乐学日新哈尔滨工业大学社会计算与信息检索研究中心RESEARCH CENTER FOR SOCIAL COMPUTING AND INFORMATION RETRIEVAL多模态知识图谱构建初探汇报人:哈工大 刘铭2024年3月25日2知识的分类HARBIN INSTITUTE OF TECHNOLOGY非结构化数据结构化数据单模态数据多模态数据知识知识3HARBIN INSTITUTE OF TECHNOLOGY单模态知识图谱到多模态知识图谱CEO库克苹果公司关系头实体尾实体intel芯片属于产品CEO苹果公司库克苹果电脑人公司知名人士机构物品电脑芯片文本图像4封闭域信息抽取VS开放
2、域信息抽取“蒂姆库克担任苹果公司的首席执行官”(“蒂姆库克”,雇佣关系,“苹果公司”)(“蒂姆库克”,“首席执行官”,“苹果公司”)抽取路线1:封闭信息抽取(Close IE)抽取路线2:开放信息抽取(Open IE)蒂姆库克人机构雇佣关系拥有关系学习关系苹果公司事先给定实体类别和关系类型标签5知识图谱中容纳的事实知识intel芯片苹果电脑属于产品CEO苹果公司库克发热量产品英特尔公司总部圣克克拉总部属于加利福尼亚库比蒂诺市上位词实体属性关系城市洲/省电子产品产品地点苹果公司和英特尔公司产品间的联系公司组织6HARBIN INSTITUTE OF TECHNOLOGY知识图谱中的矛盾事实?In
3、tel处理器的性能objsubjARM处理器的性能强于Intel处理器的性能objsubjARM处理器的性能无法媲美不限制功耗,ARM 处理器的性能暂时无法媲美Intel处理器的性能消耗相同的电能,ARM处理器的性能强于Intel处理器的性能7HARBIN INSTITUTE OF TECHNOLOGY知识图谱中的矛盾事实消耗相同的电能,ARM处理器的性能强于Intel处理器的性能。不限制功耗,ARM 处理器的性能暂时无法媲美Intel处理器的性能Intel处理器的性能objsubjARM处理器的性能强于消耗obj相同的电能条件Intel处理器的性能objsubjARM处理器的性能无法媲美不限
4、制obj功耗条件8HARBIN INSTITUTE OF TECHNOLOGY条件性知识图谱2014年乌克兰发生橙色革命,2022年初乌克兰民间武装与乌克兰政府军爆发冲突,2022年2月24日俄罗斯在乌克兰进行特别军事行动,乌克兰宣布与俄罗斯断交。时间冲突时间发生乌克兰民民间间组组织织橙橙色色革革命命特别军事行动断交2022初实实体体层层关关系系层层条条件件层层次次序序层层2014政府军归属K3.俄俄罗罗斯斯时间进行前前序序后后序序事事实实条条件件头头实实体体尾尾实实体体T1.T2.2022年2月24日K1.K2.9HARBIN INSTITUTE OF TECHNOLOGY开放域事实和条件联
5、合抽取数据集构建Sentencesentences:Mac will abandon Intel processors and use ARM processors instead.Without limitation on power consumption,the performance of ARM processors cannot be compared with that of Intel processors.But the performance of ARM processors is better than that of Intel processor s in the
6、case of consuming the same power.tupletuple-1 1:(Mac,will abandon,Intel processors)tupletuple-2 2:(Mac,use,ARM processors)tupletuple-3 3:(ARM processors:performance,cannot be compared with,Intel processors:performance)tupletuple-4 4:(ARM processors:performance,is better than,Intel processors:perform
7、ance)tupletuple-5 5:(null,without limiting on,power consumption)tupletuple-6 6:(null,in the case of consuming,same power)Relationelation=tupletuple-3 3|tupletuple-5 5,tupletuple-4 4|tupletuple-6 6元组:是事实和条件中最小的知识单位,组成结构为:实体1:属性1-关系-实体2:属性2事实知识和条件知识均表示为一系列元组,条件知识也是一种事实,用于对事实的补充和说明10HARBIN INSTITUTE OF
8、 TECHNOLOGY分阶段的事实和条件知识抽取代表元组中的关系谓词识别代表元组中的实体、属性识别代表元组间事实和条件对应关系识别方案:采用分阶段抽取方式,先抽取元组,再确定元组间的事实和条件对应关系11HARBIN INSTITUTE OF TECHNOLOGY多输入多输出的事实和条件知识联合抽取支持自从1954 年克里米亚加入独立SentenceCONDITIONFACTCONDITIONFACTobj.obj.subj.subj.obj.乌克兰俄罗斯事实:俄罗斯,敌对,乌克兰条件:乌克兰,打击,亲俄势力条件:乌克兰,加入,北约条件:俄罗斯,部署,战略导弹事实:克里米亚,属于,乌克兰条件:
9、自从,1954年12HARBIN INSTITUTE OF TECHNOLOGY半监督方案的引入人工数据标注模型训练人工规则纠错13将条件知识注入到模型中iCK-BERT(Transformer)Transformer Tim Cook,?Embedding InitializationPredictorPredictive DistributionPredictive Distributionentity/Attribute layertuple layerknowledge layerTransformer encoder Layer Transformer encoder Layer T
10、ransformer encoder Layer oCK-BERT(Transformer)乌克兰,总统,?事实知识会谈,时间,?条件知识阶段 3:事实知识和条件知识的深度融合 阶段 2:条件知识利用表示学习注入isTimCookJobholdsApplemaskvisitingMASKnowcapitalChinaCLS30AAAAAAAAAAAAA+阶段 1:事实知识在预训练模型中注入0 1 2 3 4 5 6 7 8 9 1011120 1 2 3 4 5 6 7 8 9 101112Visible MatrixvisibleinvisibleChina012789
11、12CLSBeijingcapitalnowTimCookvisitingholdsAppleCEO蒂姆库克担任苹果公司首席执行官正在拜访北京现在首都中国is03561011Job4职位414HARBIN INSTITUTE OF TECHNOLOGY多模态结构化信息提取目标:让计算机自动生成一种语义化的图结构语义化的图结构(称为 scene graph,场景图)图像场景图提取视频场景图提取15HARBIN INSTITUTE OF TECHNOLOGY多模态知识图谱构建姜糖水可以治疗由风寒导致的感冒。中美科研团队在最新一期细胞杂志撰文称,他们制造出首个由人类细胞和猴子细
12、胞共同组成的胚胎,这些嵌合体有助科学家进一步在其它物种体内(如猪)培育出人体组织,但最新研究也引发了一些伦理争议。犯罪嫌疑人程某指认涉案自行车青浦区检察院供图“早知道这么贵我就不偷了。”62岁的被告人程某因贪小便宜,偷走了一辆折叠自行车。9月24日,澎湃新闻记者从上海市青浦区检察院获悉,经该院以盗窃罪提起公诉,程某于9月17日被判处有期徒刑十个月,并处罚金人民币三千元。程某称,自己退休后在青浦区一郊野公园养护水草,手底下管着十个人,每月工资4500元,外加退休金和补贴,生活条件还算不错。16HARBIN INSTITUTE OF TECHNOLOGY模态的概念 模态代表数据的分布,不同来源的分
13、布不一致的数据代表不同模态的数据 模态表示是多模态深度学习的基础,分为单模态表示和多模态表示 单模态表示:对单个模态信息进行线性或非线性映射,产生单个模态信息的高阶语义特征表示。语句、图像、视频、声音等模态为单模态表示中的主要处理对象,且不同的模态有不同的适用的神经网络模型 多模态表示:指采用模态共作用语义表示或者模态约束语义表示的方法,对各模态信息进行处理,使得包含相同或相近语义的模态信息也具有相同或相近的表示17HARBIN INSTITUTE OF TECHNOLOGY多模态联合表示 模态共作用语义表示:融合各单模态的特征表示,以获得包含各模态语义信息的多模态表示 模态约束语义表示:用一
14、个模态的单模态表示结果去约束其他模态的表示,以使其他模态的表示能够包含该模态的语义信息模态共作用语义表示模态约束语义表示18HARBIN INSTITUTE OF TECHNOLOGY多模态命名实体识别 多模态命名实体识别,文本和图像联合确定实体位置和类型dogpersonobject?19HARBIN INSTITUTE OF TECHNOLOGY多模态实体关系抽取 输入实体对,联合文本和图像确定实体对之间的关系类型 多模态实体关系抽取,图片细粒度特征辅助识别实体关系出席大会的有:XXX、XXX、XXX、XXX上级上级反派,隶属于敌方势力反派,隶属于敌方势力20HARBIN INSTITUT
15、E OF TECHNOLOGY多模态实体提取结构:采用多任务学习方式联合优化3个损失函数:L_crf是利用条件随机场模型抽取实体时的损失函数L_task1是建模图文粗粒度相关性的损失函数L_task2是建模图文细粒度相关性的损失函数21HARBIN INSTITUTE OF TECHNOLOGY多模态实体抽取-groundinggrounded22HARBIN INSTITUTE OF TECHNOLOGY桥接的多模态实体关系抽取图构建:输入句子和图片分别使用句法分析工具以及场景图生成工具得到模态内的图,然后两者全连接得到多模态图图交互:以构建得到的图为交互桥梁,进行多层跨模态交互关系分类:基
16、于多方面门控信息整合的多模态信息整合及交互以多模态关系图作为桥梁来学习跨模态交互特点:多粒度图文相关计算,通过全局节点和局部节点分别建模整体和局部的模态交互23HARBIN INSTITUTE OF TECHNOLOGY基于细粒度匹配的多模态实体关系抽取表示层:文本编码器BERT,图片编码器ResNet、多模态交互层多模态交互层建模图文之间的细粒度元素对齐利用目标检测算法抽取得到节点和节点间关系对句子进行句法分析得到句法树分类层:基于提示模板关系抽取,将关系分类建模为掩码预测任务选取三元组级别乃至路径级别的细粒度对齐24HARBIN INSTITUTE OF TECHNOLOGY迭代的多模态实
17、体关系抽取迭代框架:使用diffusion的框架将多模态实体抽取定义为迭代过程动态模态融合:在迭代过程中,按照阶段以及样本动态融合多种模态表示多粒度模态对齐:不同粒度的模态对齐损失捕捉全局以及局部的模态对齐特点:迭代的多模态实体抽取框架来动态融合多模态的特征,从而充分利用多种模态特征25HARBIN INSTITUTE OF TECHNOLOGY视频场景图生成 STTran空间关系抽取(视频中的每帧图像)时间关系抽取(帧与帧之间的时间依赖)结构:STTran包含两个部分,spatialencoder和temporaldecoder。spatialencoder负责处理单个帧中的空间关系,而在t
18、emporaldecoder中不同帧之间的关系可以共享信息并获取时间上的依赖性优势:利用时间上下文更准确地推测出帧与帧的关系,即更准确的连贯动作关系26HARBIN INSTITUTE OF TECHNOLOGY基于生成+筛选机制的视频场景图生成分阶段解码框架:模型采用pipeline架构,分为两个阶段:第一阶段嫁接静态场景图模型获取帧内的静态结构信息 第二阶段根据帧之间的时序相关性将上一阶段生成的静态信息重构为动态场景图FCSimilarity calculationFeature ExtractorBounding BoxCategory1,111,212,113,111,121,22()
19、,+11ClassifierStatic AttentionFeed forwardTemporal AttentionFine-tune SGG ModelTemporal Dependency ModelingCoupled Self-AttentionCoupled Visual AttentionCoupled Entity AttentionpredictionFFNs1111111111Dynamic Scene Graph1+1RelTR Model1,111,211,121,22静态场景图预训练模型获取视频帧结构帧间时序关系重构视频帧内物体间关系27HARBIN INSTITUTE OF TECHNOLOGY视频场景图提取演示系统输入一段视频,能够实时在某个时间结点上暂停,并生成相应的实体和关系图谱。目前正在对demo进行改进,能够对比展示考虑前后帧的时序关系和只根据当前图片得到的结构化抽取结果。28HARBIN INSTITUTE OF TECHNOLOGY大模型的动态认知人的认知动态变化大模型的认知动态变化相似画像记忆:短期和长期论文链接:https:/arxiv.org/abs/2401.08438项目主页:https:/ CENTER FOR SOCIAL COMPUTING AND INFORMATION RETRIEVAL敬请批评指正