《梁磊-工业级知识语义框架SPG.pdf》由会员分享,可在线阅读,更多相关《梁磊-工业级知识语义框架SPG.pdf(41页珍藏版)》请在三个皮匠报告上搜索。
1、工业级知识语义框架及引擎架构梁磊蚂蚁集团演讲嘉宾梁磊蚂蚁集团技术总监/资深专家蚂蚁知识引擎负责人,个人主要技术方向为知识图谱、搜索推荐引擎及AI工程等,于2018年开始主导蚂蚁知识图谱的建设,基于蚂蚁多样性的金融业务场景构建了企业级知识图谱引擎架构,平台累计提报140+件专利,10余项软件著作权,主导支撑孵化的项目先后获得BU总裁特别奖、数据科学奖、优秀成果奖等,平台能力通过了CESI测评认证,目前也在主导IEEE 2807.2金融知识图谱标准化、SPG知识图谱语义标准化等工作。演讲嘉宾目 录CONTENTS1.什么是知识图谱2.图谱技术发展的机遇与挑战3.SPG(Semantic-enhan
2、ced Programmable Graph)4.蚂蚁知识图谱引擎1.什么是知识图谱PART 01知识图谱的主要形态 文档要素知识化材料来自公开资料通用知识图谱的构建方式,通过理解文档中的核心要素(NER 命名实体识别)、关系谓词抽取(SPO三元组)来构建要素之间语义关联知识图谱的主要形态 搜索引擎体验提效Person(x1)Person(x2)前妻(x1,x2)-前夫(x2,x1)Person(x1)Person(x2)女儿(x1,x2)性别(x2,Male)-爸爸(x2,x1)知识图谱在风控中的应用,构建以“人”为中心的上下文介质网络,辅助发现风险线索知识图谱的主要形态 应用于安全风险洞察
3、知识图谱的主要形态 应用于企业知识管理基于知识图谱实现知识管理,构建事件、实体、常识概念的分层知识图谱:语义、高阶、多元、链式知识化数据管理方案材料来自公开资料定义建模世界万物的关联关系终态人工智能的大脑文本:一维图谱:二维、多元.思考思考它是一种建模世界的方法实现数据的知识标准化、语义互连张译/演员狂飙/电视剧张颂文/演员出演主演主演知识图谱:语义、高阶、多元、链式知识化数据管理方案知识图谱:整体链路和构建方式New FactsNew RelationsNew AxiomsNew Rules属性补全关系预测错误检测知识问答搜索推荐研报新闻领域知识.知识抽取实体链指属性标化实体融合三元组构建
4、领域知识沉淀:基于图谱知识语义、图结构实现知识表示和互联,是实现领域知识积累的有效方法 知识标准化:利用知识图谱相关技术不断提升实体、概念、关系、事件等的标准化和归一化水平 知识融合&复用:构建领域知识图谱,通过融合、推理等服务多下游任务,为业务降本提效 知识推理发现:基于图谱推理洞察发现更多稀薄知识,服务风控、信贷、理赔、商家运营、营销推荐等场景实体、事件、概念、关系等知识图谱:整体链路和构建方式非结构化/半结构化数据核要素/概念关系抽取实体链指业务领域结构化知识库他域知识图谱实体归/实体链指业务数据ID对领域概念体系、专家规则关联1领域知识构建2专家规则沉淀3跨域融合&复4业务数据对、多模
5、态学习2.图谱技术发展的机遇与挑战PART 02知识图谱技术发展的机遇与挑战通用知识图谱通用知识图谱(2012)以google、百度为代表超越通用知识图谱超越通用知识图谱,推动知识驱动的企业数字化升级广全、静态常识、正确率容忍、头部覆盖深精、动态时空、可解释要求、薄客洞察领域知识图谱领域知识图谱(2018)融、公安等为主要拉动企业数字化升级艾瑞咨询2022中国知识图谱市场业报告,市场空间:2021年/107亿元,2026年/290亿元sameAsrelationBArelateTo,contains,.prj 1prj 2prj 3基于图谱的知识互联基于图谱的知识互联企业级知识图谱Data F
6、abricUnifying Large Language Models and Knowledge Graphs模型+知识图谱双驱动LLMs+KG以蚂蚁金融场景图谱应用为例 从静态常识到Deep Context语义关联的需求跃迁基础事实UserCompanyProductShop信息语义标化深度语义关联Deep Context交易客体融场景 异构动态关联 经营数据沉淀 复杂领域规则关关联联解解构构 险事件感知经营增财富问答认知圈人商家分层 险防控资金追踪欺诈/洗钱/产识别eKYB/eKYB/eKYCeKYC 智能化应知识管理模式从二元静态到时空多元的模式跃迁常识知识图谱仅使用概念层归纳,无法感
7、知个体差异,无法实现面向个体推理和判断企业级知识管理需要具备较强上下文感知能力,以实现对稀薄客群的经营理解和风险洞察知识增强的大模型也要求知识图谱有更深的领域常识和事实实体、事件的覆盖知识图谱技术发展的机遇与挑战知识图谱自身技术体系发展需与时俱进3.SPG(Semantic-enhanced Programmable Graph)PART 03SPG:Semantic-enhanced Programmable Graph(语义增强示意)MifShop/001name:谭鸭血老火锅(银泰城店)Address:成都市武侯区吉泰六路User/2088*001name:张三visitedCatego
8、ry/c001name:四川火锅categoryCategory/c003subCateOfname:四川菜prefersCity/i001name:成都市District/d001name:武侯区Province/p001name:四川省isPartOfisPartOfprovincecitydistricthomeCityMifShop/001name:谭鸭血老火锅(银泰城店)category:四川火锅Province:四川省City:成都市District:武侯区Email:User/2088*001name:张三prefers:四川菜HomeCity:四川成都Email:visited
9、实体及事实关系Semantic增强不需要手动构图属性图语义增强Email/实体及事实关系知识的三个显著特点:1、必须有明确的领域类型(every Thing has a Class)2、每个实例类型内必唯一(each instance is unique within an Entity Class)3、语义明确的谓词修饰(nothing exists in isolation)Things,not StringsSPG:主体知识分类模型(ClassInstance Paradigm)事件图谱实体及关系概念语义网络行业分类意图品牌服务类目电话号码邮箱人群标签时令标签农作物地域MAC事件宏观事件
10、行业事件企业事件诊疗事件场景事件疫情事件遥感事件疫情事件价格上涨事件人商户企业门店POIAOI服务产品实体类型事件类型概念类型Properties原子规则类型建模(schema)实例存储(instance)知识生产知识导入概念挂载规则推理链指/标化实体融合表示学习实体事件概念属性关系实体:业务相关性比较强的客观实例,通过实体Properties(属性、关系)刻画个体画像,如用户、企业、商户等概念:实体从具体到一般的抽象,表述的是一组实体集合。相对静态、具有较强复用性,如人群标签、领域标准类型、语义词汇(如HowNet)等事件:加入时间、空间、标的等约束的实体类型,如通过NLP、CV等抽取出来的
11、行业事件、企业事件、诊疗事件等约束约束写入业界主流的划分为实体、概念,但使用阶段并无清晰界限,我们对知识类型的定义:事件概念SPG:非完备数据集下图谱的构建/融合(Programmable)解决的主要问题0、要素结构化:首先获得目标实体、概念的结构化表达1、映射与关联:将结构化数据映射到目标property上并关联算子2、要素标准化:概念挂载、属性标化、实体链指3、归一与融合:实体链指&归一,关系、属性合并等SPG:知识生产算子框架kNext要素抽取(可选)得到结构化表示AdminAreanormOpnormOp=AdminAreaNormOpAdminAreaNormOpbind Opera
12、torbind OperatorEntityClass User id UserNormId name String phoneNo ChnMobilePhonebornPlaceAdminAreahomeAddressPOI(德POI)实体类型定义算子开发与绑定SPG:基于知识生产框架的事理图谱事件抽取我院定于二零一五年十一月十九日上午九时三十分,在本院(北区)第18法庭依法开庭审理北京AA体育文化股份有限公司与BB网信息技术(北京)股份有限公司侵害录音像制作者纠纷一案?开庭时间:2015年11月19日 9:30开庭地点:北京市东城区人民法院(北区)第18法庭原告:北京AA体育文化股份有限公
13、司被告:BB网信息技术(北京)股份有限公司事件名:侵害录音像制作者纠纷事件状态:开庭北京市东城区法院公告触发词关联实体抽取事件分类事件要素分类基于动态编码的触发词识别规则模版事件抽取算(NLP算法)基于结构化数据的图谱构建事件要素基于要素召回要素链指事件链指&归图谱存储图谱推理图查询业务决策图谱规则或基于事件时序的图谱推理图/结构/路径等snapshot、timewindow等基暴雷、信贷险、交易险、舆情监控等(1)更新&写图谱(2)触发基于实时事件的图谱推理基于KGDSL的图查询企业然地域付宝账号董监、法上下游所属注册地关联产品宏观事件贸易战、政策等业事件农业、矿产等业事件微观事件企业、个等
14、事件业供应链品牌同步领域图谱SPG:基于产业链的事理图谱风险传导与信息协同叶风电主机塔架风电运营夹层材料结构胶树脂玻璃纤维碳纤维发电机轮毂轴承齿轮箱连重重庆重齿江苏国光重机吉林天能北创业重国电集团华电集团华能集团康达新材HenkeiMomentive回天新材风电产业链风电板块新能源板块风电铸件Event:风电铸件需求增加加速上位产下游产Event:国家发改委励风电企业开拓国际市场Event:碳纤维需求景度碳纤维产业链新能源产业链碳纤维是种含碳量在90%以上的强度、模量的机分纤维,与各种基体经过复合艺后制成的碳纤维复合材料(CFRP)基础三元组关系抽取融合专家知识的产业链归纳产品B产品A产品C前
15、碳纤维业的有效产能度集中,主要来吉林碳(及下游企业)、中复神鹰、光威复材、中简科技等,其中吉林碳对应的份额能够占到50%左右。产品C公司A公司A上位上游产Event:风电叶需求增长种产品实体库国家统计局产品分类录基础企业库商注册企业及个体SimBERT召回&关系类型判别&企业链指归纳重点产业链限定上下游度数限定产业链边界排除异常结构事件概念体系产业链事件融市场事件国家政策事件产能事件价格类事件供需类事件基个股事件资为事件股指/板块事件励类政策限制类政策宏观指数事件公司股票基板块产品产业事件基:招商景精选华润集团重仓持仓核实体SPG:通过知识图谱实现连接即可用的跨域知识复用跨业务的知识复用:基于
16、图谱本体模型(面向对象),实现跨业务的知识连接、复用减少无效数据拷贝:减少无效的数据拷贝,连接即可应用,标准化知识服务链路业务快速价值落地:减少业务找数据的成本,通过知识复用带来更大业务价值,降本提效示意:领域图谱B 融合/复用 领域图谱AsameAsrelationBArelateTo,contains,.prj 1prj 2prj 3?不同实体类型但相同实例融合不同实体类型不同实例的关系连通SPG:商家图谱&消金图谱融合支持商家运营业务目标:通过融合商家图谱用户、商户等数据,进一步提升商户行业分类的准确率,提升B端作业效率及C端转化,应用图谱推理算法(KARI)融合后的商户平均度数从1.7
17、3提升至2.37,对全量的直连/间连商户表征的覆盖率提升至80%。融合后的图谱表征覆盖率提升至94.3%,覆盖了近一年的有交易商户在多下游应用(竞对识别、商户行业标识别、花呗分期预测等)中有较明显效果通过融合增加15类实体、53类关系覆盖,自动融合,减少无效数据拷贝业务收益业务收益:SPG:跨图谱知识融合的表示与编程范式子图连接属性映射实体链指实体归一消金图谱安全图谱单领域图谱构建跨图谱融合商家图谱数据源属性标化实体融合实体链指数据源属性标化实体融合实体链指数据源属性标化实体融合实体链指Fused NamespaceTargetType.type=isNotNull(SrcType1.type
18、)?SrcType1.type:SrcType2.type(2)SrcType1-TypeAR1 as R1;SrcType2-TypeAR2 as R2;TargetType-TypeAR3 as R3;R3=isExist(R1)?R1:R2;(1)可溯源的归一规则定义可自助开发的多链指策略1、基于配置:链指计算在外部系统完成,输入源、目标 ID列表2、规则链指:如 SrcType1.id=SrcType2.id3、搜索引擎:,items=Search(query);rerank(query,items)冷启动阶段固定选择一类型(如TypeB)构建索引,完成一轮融合得到Fused Type
19、D基于Fused TypeD更新或重建索引,实现A-C消歧融合(关系生成、概念挂载不需要)4、向量检索:cosine(emb(A),emb(B)通过离线批量或在线调用得到pair list TypeATypeBTypeCFused TypeDQuery1、领域图谱生产与跨域融合相互独立2、保障各领域图谱的独立迭代3、保障知识引用价值可跟踪TypeADefine FusedPOI equivalentClass fuseOf(AmapPOI,AlipayPOI)Rule linkFunc=samePoiSimilarityFunc fuseStrategy=poiFuseRuleStrategy
20、 )SPG:谓词语义与逻辑符号(Logical Symbols)?Class1Class2内置谓词:-equivalentClass-belongTo-sameAsCreateCreate EntityTypeEntityType FusedPOIFusedPOI equivalentClass(fusefuse(AmapPOIAmapPOI,AlipayPOIAlipayPOI).withLinkFunctionwithLinkFunction(samePoiSimilarityFunc).withFuseStrategywithFuseStrategy()FusedPOIFusedPOI.
21、attr1=isNotBlank(AmapPOI.attr1)?AmapPOI.attr1:AlipayPOI:attr1 FusedPOIFusedPOI.attrx=(AmapPOI.attrx1 AlipayPOI.attrx2).)伪码示例:?实体类型判定语义概念上下位语义概念属性扩展语义内置上位谓词:-isPartOf-subCategoryOf-isA-内置属性谓词:-hasAlias-synonym-内置谓词:-inverseOf-mutexOf-transitive -equivalentProperty -subPropertyOf -symmetricProperty-no
22、rmalizedProperty Define(s:MifShop)p:hasProduct-(o:Product)inverseOf(s:Product)p:availableOn-(o:MifShop)Rule s1s2p1p2o1o2?Define(s:User)p:belongTo-(o:Crowd/爱成都锅群)GraphStructureRule s.prefers contains(川式锅)GraphStructure (s1:Crowd/爱成都锅群)p:visited-(o:MifShop)(s2:Product)p:availableOn-(o:MifShop)Rule s2.
23、category contains(四川菜)Action get(s2.name)餐饮四川菜四川火锅川味火锅上位词:四川菜,川菜同义词:川味锅,川式锅,重庆锅,巴蜀锅getPrompts(四川锅)川菜提示词联想示例:SPG:基于语义逻辑实现知识衍生User(s)age(s,x)x 25 x belongTo(s,TuringCrowd/龄未婚年)阶谓词表达式User(s)(s,TuringCrowd/龄未婚年)incomeLevel(s,于等于4万)-belongTo(s,TuringCrowd/收龄未婚年)阶谓词表达式SPG:基于语义逻辑实现LogicChainDefine(e:TradeE
24、vent)p:belongTo-(o:TaxoOfTradeEvent/单笔交易额)GraphStructureRule e.amount 500Define(s:User)p:belongTo-(o:TaxoOfUser/交易险/返款交易多)GraphStructure (e1:TradeEvent)-ps1:subject-(su1:User)(e1:TradeEvent)-pp1:object-(sp1:PID)(e2:TradeEvent)-ps2:subject-(su2:User)(e2:TradeEvent)-pp2:object-(sp2:PID)(su1)-has-(sp2)
25、(su2)-has-(sp1)(e2)-pb:belongTo-(o:/TaxoOfTradeEvent/单笔交易额)Rule s.id=su1.ide1.ts e2.ts and hour(current_time()-hour(e1.ts)10 Define(s:User)p:belongTo-(o:TaxoOfUser/交易险/凌晨交易频繁)GraphStructure (e1:TradeEvent)-ps1:subject-(su1:User)Rule s.id=su1.id hour(e1.occurTime)between(0,4)涉黄用户:凌晨交易频繁&单笔交易额大额套现用户:返
26、款交易多SPG:基于专家规则的图谱推理保险理赔逻辑规则推理商户安全异常模式基于Geaflow VC/Traversal构建的KGDSL,支持离线批量、近线分钟级规则推理支持graph pattern、logic rule推理表达,支持决策、更新图谱、聚合判定等多种Action表达离线规则推理规模300亿,近线规则推理时效性1m 30m时效性适用面:安全、理赔、资金、信贷等KGDSL:持专家规则定义及推理Man Woman =Man(Alice)Woman(Alice)Mother WomanWoman Person =Mother Personhas_son(Alice,Bob)has_son
27、 has_child =has_child(Alice,Bob)类型约束类型推导关系推导业界常做法:基于图谱语义的规则符号推理(TBox and ABox Reasoning in Expressive Description Logics)TBoxABox1、符号推理常表示,严格语义图为基础2、向业务应有较槛3、缺少逻辑规则、阈值判断等表达结合蚂蚁应特性的表示支付安全赌徒、庄家发现 SPG:探索逻辑规则与模型结合的可解释推理安全险图谱KARI:支持异质图学习的encoder-decoder框架,基于图谱KGDSL输出多维度子图特征,度(degree)、pagerank、邻居统计、规则等KGD
28、SL+KPRN:基于图谱关联路径及规则学习输出推理结果的图谱可解释路径预测模型:KARI+下游XGB解释模型:KGDSL+KPRN构建安全风险图谱构建安全风险图谱融合商户、企业、账户、介质等数据构建了企业风险图谱解决问题解决问题 通过构建图谱打通了数据壁垒 建立了百亿规模级别的图表示学习推理能力 具备了异质属性关系推理能力KGDSL路径生成路径生成KPRN解决问题解决问题 对每个链接预测的结果,可以生成路径权重,作为结果的可解释GeniePath子图提取及采样子图提取及采样痛点问题痛点问题数据独立,口径不统一,无法深度关联业务图谱数据规模大,百亿千亿亿级别异质图谱,实体、关系、属性复杂业务目标
29、业务目标央行要求对最终受益人(UBO)信息进行补全,并提供合理解释支付域、网商域企业全要素穿透率提升,基于路径可解释性提升SPG:Semantic-enhanced Programmable Graph(L1 L3)数据体系知识(事实&逻辑)注知识(事实&逻辑)约束Domain Model ConstrainedCopyright:蚂蚁集团,授权勿转Copyright:蚂蚁集团,授权勿转Copyright:蚂蚁集团,授权勿转Copyright:蚂蚁集团,授权勿转Copyright:蚂蚁集团,授权勿转Copyright:蚂蚁集团,授权勿转Copyright:蚂蚁集团,授权勿转Copyright:
30、蚂蚁集团,授权勿转结构化数据/半结构化数据(抽取结构化要素)AI体系衔接大数据与AI技术体系,帮助机器更好的理解世界4.蚂蚁知识图谱引擎PART 04蚂蚁知识图谱 基于SPG的知识图谱引擎多源异构数据(知识产框架)结构化数据/半结构化数据业务专家经验动语义转换隐私合规SPG语义化领域知识管理安全风险图谱智能资金图谱支付黑产图谱金融事理图谱50+地理位置商家自然人企业设备知识产框架知识推理引擎算法研发框架SDKKG Fabric授权专利35项,提报专利140+项,参编标准参编标准10项,项,获浙江科技进步二等奖、数博会优秀成果奖等经营增长类应用风险防控类应用规则推理图学习推理首个SPG知识引擎跨
31、场景可迁移、新领域图谱快速孵化KG Fabric分钟级、零拷贝,1.3万亿级线性扩展知识推理引擎千亿规模、规则引导学习、可解释推理算法框架及SDK建模、构建、推理(python+KGDSL/GQL)蚂蚁知识图谱 新技术范式的应用效益人民银行:推进“资金链”治理,支付行业常态化治理格局持续完善,组织商业银行、支付机构、清算机构协助公安机关阻断大量涉诈资金转移,挽回大量人民群众损失。社会价值以资金链为核心构建风险防控体系事前:环境感知事中:拓扑感知事后:模式挖掘犯罪手法变化快团伙专业化链路复杂化语义重构资金链,超大规模,跨62天的1w-hop,avg 30s深度追金面向海量交易实时风险防控,克服深
32、度实时追金大数据/图不可计算难题公安的主动联动,与黑产的主动对抗、保护用户442万余人,涉诈资金45亿余元23省/87地市公安省厅,405名受害群众返还涉诈资金1046万余元打击新型网络犯罪,守护用户资金安全蚂蚁知识图谱 新技术范式的应用效益Gartner:基于知识图谱的下一代数据管理范式。链接数据孤岛,数据知识语义化经济价值KG Fabric 实现跨图谱互联网互通连接即可用、零拷贝、分钟级跨图谱融合商家图谱 x 消费类图谱:平均度数从1.73提升至2.37,减少84%重复拷贝资金图谱 x 黑产图谱 x 商户图谱,节省计算/存储资源57.14%,处理时效上提高4倍蚂蚁知识图谱 新技术范式的应用效益以属性图为基础,构建机器可理解的知识符号体系技术价值OpenKG共建,工业级知识语义框架SPG 主体模型准确刻画主体语义,谓词逻辑跨主体的逻辑依赖传导 无缝兼容大数据架构,ER2SPG、大规模图学习、可解释推理等 联动LLMs作为领域知识库,事实校验、语义联想、逻辑知识链等 填补工业级知识语义框架的空缺,OpenKG合作8月发布SPG白皮书,开源筹备中8月27日SPG白皮书发布,欢迎提前关注公众号,下载交流 Q&A感 谢 聆 听