《知识图谱在结构化知识中台的实践应用.pdf》由会员分享,可在线阅读,更多相关《知识图谱在结构化知识中台的实践应用.pdf(43页珍藏版)》请在三个皮匠报告上搜索。
1、知识图谱在结构化知识平台的实践和展望余海洋阿巴巴达摩院算法专家 智能对话与服务技术团队1背景介绍知识图谱的构建与问答三元组抽取未来展望图谱构建法论与Schema构建知识问答KBQA2智能客服的演示3智能客服的发展趋势1.流程轮转慢2.固定,专专事1.动化接听和处理2.弹性化资源1.虚拟2.多模态交互4云智能客服已经服务的客户业/场景医疗医保卫保健慢病管理医药服务政务公社保公安户籍管理出境运营商话费查询流量查询充值缴费流量套餐交通速ETC港运输航空机场交通建投能源电燃务热事档案融银保险证券互联融电器汽餐饮家居 2015:内部运 2016:赋能态圈 2017:上云,对外向政务、企业和开发者开放 现
2、在:服务10万+付费企业5疫情防控机器截714,疫情防控机器上线56个城市,累计外呼1809w次,接通率85%+,对话完成率90%+?62021年,阿云智能客服更具显著优势图来源:IDC MarketScape:Worldwide General-Purpose Conversational AI Platforms 2021 Vendor Assessment国内唯!阿云智能客服选IDC MarketScape全球对话式AI平台商评估报告阿云中国对话式AI公有云服务2020年市场份额阿云公有云对话式AI产品已占据40%的市场份额,位居位数据来源:中国AI云服务市场2020年度研究报告 IDC
3、中国 2021年67达摩院机对话的整体框架本、档、对话志平台层预训练 对话问答模型知识平台对话流程引擎层机对话平台数据层知识图谱Table结构化档预训练 对话模型预训练 图谱问答模型(KGBert)预训练 表格问答模型(TableBert)Dialog Studio 多轮对话引擎KBQA 图谱问答引擎TableQA 表格问答引擎FAQ FAQ问答引擎MRC 机器阅读引擎8结构化知识平台:解决知识从哪来的问题数据知识智能数据的管理和操作从数据到知识从知识到智能1.数据量快速增加2.价值却没有被发掘1.QA知识:提供FAQ知识的问答能2.图谱知识:提供精细化知识问答能3.表格知识:提供NL2SQL
4、的查询能4.流程化知识:提供多轮对话/问答能5.档层级录:针对档的问答能6.隐式知识:模型&预训练1.理解户问题,精准问答2.能计算,会推理,提升户体验3.形成闭环,会学习,可进化9背景介绍知识图谱的构建与问答三元组抽取未来展望图谱构建法论与Schema构建知识问答KBQA10KB(知识图谱)是可视化的知识结构,主要包含实体-关系-实体或实体-属性-属性值,Schema是其中的实体类型、属性、关系的总称 KBQA是基于知识图谱实体-属性的问答引擎中年、肥胖者、期饮酒者压的多发群体有哪些?Sparql语句:SELECT?x WHERE 压:多发群体?x KBQA模型什么是知识图谱和知识图谱问答1
5、1图谱schema构建流程及难点12使底向上和上下相结合的法构建来构建Schema第步:利志和知识库提炼归纳版Schema第步:专家参照档,进补全与修正,并抽取三元组13第步:基于志与问句的半动schema构建14与现有的开放式信息抽取的差异15Query Based Semi Auto Schema Construction基于句的开放信息抽取 基于句簇的抽取降低噪声例簇内进constraint识别16背景介绍知识图谱的构建与问答三元组抽取未来展望图谱构建法论与Schema构建知识问答KBQA17Step1:档结构识别ABFCDEGHIJK属性(P)属性值(O)合同构成保寿险员团体有关的声明
6、、批注单及其他约定书构成。保险额本合同的暂时丧失能在本合同保险期间内不得变更。BCD EFGHIJKAStep2:粗粒度三元组抽取Step3:细粒度三元组抽取1.实体识别(S):保寿险员团体失能收损失保险 2.根据档结构,进标题+段落抽取1.抽取所有细粒度实体/属性值,成候选集合;2.S-P-O联合抽取,获得最终的SPO;属性(P)实体/属性值(O)投保年龄55周岁以下累积给付120合同成投保提出保险申请,本公司同意承保,本合同成。第步:三元组抽取流程18属性值抽取难点数据19保险责任合同构成是否给定不给定关系集合给定三元组抽取封闭信息抽取开放信息抽取OpenIE幽门是消化道最狭窄的部位(消化
7、道,最狭窄的部位,幽门)单实体KV识别档结构抽取xx保险是否给定实体集合给定单实体给定实体对不给定实体关系联合抽取属性值抽取关系分类宫颈癌最常的组织学类型是鳞状细胞癌(占宫颈癌的69%)和腺癌(25%)(宫颈癌,所属类型,鳞状细胞癌)(宫颈癌,所属类型,腺癌)(糖尿病,传染式,传染性)关系集合传染式所属类型易感群发病原因糖尿病发病原因主要是 由于胰岛素分泌不(糖尿病,发病原因,胰岛素分泌不)属性值抽取难点算法要求多样20Doc/Pdf扫描件解析Schema构建图谱构建三元组抽取动解析构建 覆盖频3050属性 3天以内构建完成Schema-Guided 从档中抽取 成本,效果不好问题1:单个领域
8、内,档内容和格式多样,需要量的标注数据,成本问题2:领域之间迁移的效果不够好,跨领域的可规模化拓展的代价 模型基本都是针对特定业特定场景,换个场景,效果会出现明显下降。三元组抽取算法的挑战政务融教育医疗预训练:重量级底座让模型“多识”充分利规模多业的标档,训练个统的预训练底座,增强模型对各类档的表示和理解能。微调:轻量级档结构化算法 在预训练基础上,构建轻量级的向档结构化的算法,降低标注成本。Pre-train+Finetune的范式预训练模型解决思路企业图谱构建的核挑战21智 能 服 务 事 业 部档内容1.标题、正、图等组成元素2.布局结构、安排3.整篇档的主题、知识架构如何对档进Pret
9、rain Task的设计?22智 能 服 务 事 业 部如何对档进Pretrain Task的设计?23智 能 服 务 事 业 部现有关于档的预训练模型:1.主要关注于Form-Like的票据类档,以OCR作为输,主要是实体识别等K-V抽取任务。2.Form-Like的档较扁平,较少关注整篇档的逻辑结构。3.Form-Like的档通常只有,较短,Bert可以完全编码整篇档;我们实际的档通常较,需要抽取的属性值有很多是超过1024个字的,Bert进编码会造成属性值截断。Form-Like DocumentLayoutLMV2针对档的预训练法24智 能 服 务 事 业 部Sparse Attent
10、ionRecurrence Transformer法优点不共同不Recurrence TransformerERNIE-DOC的提出,理论上可以建模限的本。由于建模要输所有的本信息,耗时常。1.上述两种基于本的预训练法,都没有考虑档特性,如空间(Spartial)、视觉(Visual)等信息。2.基于本设计的PretrainTask,整体是针对纯本进的设计,没有针对档的逻辑结构设计。Sparse AttentionSparse Attention的法通过优化Self-Attention,将O(n2)的计算优化O(n),提了输本度。虽然普通模型的本度从512提升到4096,但是依旧不能完全解决截
11、断本的碎化问题。针对本的预训练法25V1V2CLSunusedT2MASKunusedT5T6SEPT4T1+Box%&Box%Box()*Box+&Box+Box+,Box+-Box+.Box+/Box()*Box()*Box()*+0+001111111122Sparse TransformerLayersV1V2CLSunusedT2MASKunusedT5T6SEPT4T1#Masked Language ModelT3#Text-Image AlignmentCoveredCoveredNotCovered#Title PermutationVisual/Tex
12、t Token Embeddings2D Position Embeddings 1D Position EmbeddingsSegment EmbeddingsVisual/Text Token RepresentationsPre-training ObjectivesDocBert模型设计:使规模(百万级)标注档数据进预训练,基于档的本语义(Text)、版信息(Layout)、视觉特征(Visual)构建监督学习任务,使模型更好地理解档语义和结构信息。1.Layout-Aware MLM:在Mask语模型中考虑本的位置、字体信息,实现档布局感知的语义理解。2.Text-Image Ali
13、gnment:融合档视觉特征,重建图像中被Mask的字,帮助模型学习本、版、图像不同模态间的对关系。3.Title Permutation:以监督的式构建标题重建任务,增强模型对档逻辑结构的理解能。4.Sparse Transformer Layers:Sparse Attention的法,增强模型对档的处理能。物理结构逻辑结构语义结构档表示信息抽取语义、物理 联合建模逻辑结构建模档预训练模型DocBert26成果:效果取得明显提升,超过相关Bsaeline取得SOTA结果业务:在政务、保险、银、电多个业的测试集,三元组抽取普遍优于Baseline 3%7%,同时在低资源情况下,更是达到了10
14、%+,说明模型具备较强的泛化性和通性。影响:1.提出了个新的档信息抽取数据集LIE2.DocBert在该数据集上取得SOTA效果27DocBert模型图DocBertIE:基于Gated的多模态信息融合的档抽取预训练模型1.利OIE+SPO Masked任务,提升模型对于SPO的重建能2.利Mention Detection任务,提升模型对于实体mention的边界感知能3.利Gated机制,增强对本-图像多模态的筛选能model政务保险层级识别细粒度三元组抽取层级识别细粒度三元组抽取docbert81.59%66.67%78.72%57.37%docbert_gated82.66%(+1.0
15、7%)66.34%(-0.33%)79.43%(+0.71%)57.69%(+0.32%)docbert_md84.57%(+2.98%)70.27%(+3.60%)79.26%(+0.54%)58.77%(+1.40%)28数据:千万级的档沉淀,并以此开发LIE数据集算法:基于档预训练DocBert和基于档抽取的预训练DocBertIE,有效提升了下游算法能平台:规模的爬、标注、分布式模型训练平台,助档结构化算法的实现。能:构建了档标题识别、KV抽取、本三元组抽取等各类抽取能,并在下游图谱构建、FAQ挖掘、表格挖掘等产品实现图谱构建整体架构图29背景介绍知识图谱的构建与问答未来展望图谱构建法
16、论与Schema构建知识问答KBQA三元组抽取30现象:KBQA的识别和knowledge-graph之间的匹配问题较难难点:query的分布和KG的分布不同,语化与书语间没有映射关系案:预训练阶段,设计和下游KBQA任务致的基于知识监督预训练任务,要这些预训练任务学习出Query中知识成分。Mention Detection:提升实体识别效果 Predicate Mask:提升属性识别效果 BSMM:提升相似属性识别效果投保国寿福重疾险后患梗,能理赔吗?KBQA Query语义理解:KG实体:国寿福重疾险属性:保险责任约束:病种=梗?28?75?现象:Query同义词说法多样,有缩写、书语和
17、语同义词变换等。难点:缺少相应实体-同义词知识,理解困难,如何进融?案:补充外部图谱知识,让Query更容易理解。Case1Q:投保国寿福重疾险后患年痴呆症,能理赔吗?引 KGBert:融知识的预训练模型总体设计31 模型结构:知识筛选和融机制GKS&INJGated机制筛选实体图,选出能增强语义理解的三元组知识(GKS)融(INJ)到Sentence中。Mention Detection向实体识别任务设计预训练任务Predicate Mask设计属性的Mask机制增强对属性的预测能 BSMM随机打乱相关和关SPO顺序,设计Triple Loss拉开语义间隔 1234?SEP?SEP?SEPC
18、LSSPO1SentenceSPO2Input Tokens00000000000000000000000000000+Transfomer+gSgSgSgSgSgOgOgOgSgSgSgSgSgOgOgOgSgSgSgSgSgOgOgOEntity Tokensh2h3h4h5h6h7h8h9h10h11h12h13h14h15h16h17h18h19h20h21h22h23h24h25h26h27h28h29h30h31h32h33h34h35h36h37h38h39h40h1?Y-power?Bernoulli SPO Margin Magnify(BSMM)SPO
19、 MaskMention DetectionPretrain Taskk2k3k4k5k6k7k8k9k10k11k12k13k14k15k16k17k18k19k20k21k22k23k24k25k26k27k28k29k30k31k32k33k34k35k36k37k38k39k40k1S1O1SEPCLSP1SEPS2O2SEPCLSP2SEP.SnOnSEPCLSPnSEPSEPSEPSEPSentence EmbeddingGated Entity EmbeddingsSigmoidGateKGGateGateGateGateGateGate向KBQA任务设计pretrain tas
20、k规模:5亿中三元组,远监督获取2亿Sentence-SPO Pair(三元组及其对应的Sentence)质量:去重、过滤精选出2000万Sentence-SPO pair,于模型训练多样性:覆盖阿云17个主要业KGBert:知识融的预训练问答模型32Bernoulli SPO Margin Magnify:BSMM1.通过设计Triple Loss拉开相关和关SPO的语义间隔以增强属性识别。2.为避免输顺序固定,模型学到Hard Rule如:靠近Sentence的SPO正确。产随机概率打乱相关和关SPO的顺序。结果:20-shot属性识别任务准确率提升2.5%+Predicate Mask1
21、.Span Mask式Mask属性P2.模型学习重建被Mask属性P3.mask概率沿预训练模型标准配置15%结果:20-shot属性识别任务准确率提升2%+Self-AttentionSPO Margin Magnify0000001111000+000000000111+h1h2h3h4h5h6h7h8h9h10h11h12SentenceSPO1SPO2+h1h2h3h4h5h6h7h8h9h10h11h12产随机概率打乱相关和关SPO顺序?SPOSelf-AttentionKTC_MLM?maskmaskmaskmaskKGBert向KBQA任务33问题图谱中知识
22、庞且繁杂,需要针对性的采样知识融到问句中,减少引关知识。法:GKS&INJ1.通过Gated机制筛选实体图,捕捉增益三元组知识融问句。2.Gated机制,先对句和三元组分别进编码,通过控机制,控制知识的引,最后融合到token向量表示上,达到筛选和融合的的。结果:1.在20-shot属性识别提升1.5%+gSgSgSgSgSgOgOgOh2h3h4h5h6h7h8h9h10h11h12h13h14h1k2k3k4k5k6k7k8k9k10k11k12k13k14k1S1O1SEPCLSP1SEPS2O2SEPCLSP2SEP.SnOnSEPCLSPnSEPSEPSEPSEPSentence E
23、mbeddingGated Entity EmbeddingsSigmoidGateGateGateInjected ResultKGBert知识筛选与融34FewClue样本学习CCF预训练模型知识度量1.KGBert在FewCLUE样本公开评测获得第名2.KGBert在CCF数据与计算智能赛预训练模型知识度量赛中取得第名3.围绕KGBert两篇论在SIGIR2021和CIKM 2021被接收录KGBert在公开数据集上的验证35智 能 服 务 事 业 部KBQA持的能类型示例简单句单实体单属性A信卡怎么办理?复杂句多约束额度1万以上且不需要年费的信卡有哪些?多属性A信卡年费是多少?需要怎么
24、办理?多实体A信卡和B信卡的年费分别是多少?推理是否型推理A信卡在杭州能办理吗?较A信卡和B信卡有什么区别?最值年费最便宜的信卡是什么?多跳推理A信卡的活动有什么奖品?集合与或没有年费的信卡有哪些?多轮实体继承与澄清A信卡年费多少钱?-额度多少?约束继承杭州可以办理A信卡吗-那B信卡呢?属性继承A信卡的年费?-那B信卡呢?36保险业KBQA示例37背景介绍知识图谱的构建与问答未来展望图谱构建法论与Schema构建知识问答KBQA三元组抽取38未来展望:知识的发现与应更好的融知识的预训练统的信息抽取框架更好的使预训练的知识现有的下游信息抽取算法针对不同的抽取需求改动太,如何统Open和Close
25、,统本、档、多模态,形成统的信息抽取框架现有的融知识的预训练多是作为下游的预训练底座,没有证据能表明模型充分利了所学知识,如何更好的利预训练的知识做下游任务和推理现有的融知识的法还较简单,主要是对三元组知识的融,同时各类实验证明知识融的结果和效率都不,如何提升融知识的法和效率3940总结知识图谱在问答的构建与应阿云智能客服云蜜介绍我们现在的作1.云蜜的发展历程2.云蜜的技术架构1.知识发现&抽取2.知识融预训练3.充分利预训练的知识1.问答型Schema的构建法2.基于信息抽取的档预训练模型介绍3.融知识的预训练法Contact Us我们组的向:知识与问答我们组的成果:万字综述:业知识图谱构建
26、最新进展针对复杂问题的知识图谱问答最新进展A Survey on Complex Question Answering over Knowledge Base:Recent Advances and ChallengesRelational Learning with Gated and Attentive Neighbor Aggregator for Few-Shot Knowledge Graph Completion-SIGIR21HORNET:Enriching Pre-trained Language Representations with Heterogeneous Knowledge Sources-CIKM21 联系式:微信:yuhaiyangt邮箱:yifei.yhyalibaba-41