上海品茶

您的当前位置:上海品茶 > 报告分类 > PDF报告下载

大规模语义知识管理实践.pdf

编号:122049 PDF 28页 5.09MB 下载积分:VIP专享
下载报告请您先登录!

大规模语义知识管理实践.pdf

1、蚂蚁知识图谱平台-大规模大规模语义知识管理实践语义知识管理实践易鹏(蚂蚁集团)2023.3个人简介 11年:硕士毕业于西安交通大学 1118年:百度资深研发工程师,负责索引和用户行为数据架构规模化和实时化相关项目 1823年:蚂蚁集团高级技术专家,负责知识图谱构建引擎团队,从0到1建设蚂蚁万亿级金融知识图谱数据管理平台提纲 蚂蚁知识图谱平台介绍 语义知识表示模型 语义知识管理关键技术及应用 展望知识图谱的发展2021年,知识图谱核心市场规模预计达到107亿元,而到2026年,相应规模将超过296亿元,2021-2026年CAGR=22.5%。金融与公安两大行业的占比较高且增长速度较快。来源:艾

2、瑞咨询:2022年中国知识图谱行业研究报告.pdf2012年谷歌提出了知识图谱的概念并将其应用在了搜索引擎领域,随后10年,facebook、微软、亚马逊等等国际、国内科技企业争先布局2022.5,知识图谱领域中国共申请专利36572件1980至2020,KG上海品茶相关的文章在Google Scholar发布量学术&产业界趋势蚂蚁知识图谱平台目标平台挑战:大量复杂的跨业务域多元关系多个不同职能的用户群体分析/决策实时化要求专家规则的复杂性解决方案:建设面向金融领域的一站式知识研发及管理平台提供业务知识建模,知识构建,知识可视化分析,专家经验决策和图谱算法推理等全场景知识生命周期解决方案蚂蚁金融知识图谱

3、建设现状u2020年-安全风险图谱:风控域覆盖商户规模最大的千亿级动态知识图谱,入选蚂蚁技术大事记蚂蚁技术大事记u2021年-智能资金图谱:解决任意深度资金意图跟踪问题,广泛应用与反洗钱、贷后管控等场景,荣获资金事业部总裁特别奖资金事业部总裁特别奖u2021年-CESI测评认证:首批通过电子四院知识图谱构建与推理能力测评u先后三次和业务一起提名SupermaSuperma,并和大安全一起获得了2021 T T-starstar数据科学奖数据科学奖u获得了5个软件著作权,以及提保51个专利,图谱算法顶会论文10篇u2020-20201技术能力先后被被ForesterForester、IDCIDC

4、点赞点赞,IEEEIEEE 金融知识图谱国际标准(金融知识图谱国际标准(IEEEIEEE P2807.2P2807.2)主要发起和参与方业务和数据规模高速增长实体/概念/关系类型超5000知识规模超万亿,近一年增长160%知识应用调用量超400亿/天,近一年增长超6000%提纲 蚂蚁金融知识图谱平台介绍 语义知识表示模型 语义知识管理关键技术及应用 展望语义化的作用 源于Semantic Network,使用语义和语义关系表示知识的网络结构 数据表示标准化,可复用性 不同领域数据可交互,促进Data Fabric 实体:业务相关性比较强的客观实例,如用户、企业、商户等 概念:抽象表述一类实体集

5、合。有较强复用性,如人群标签等 事件:加入时间、空间等约束的实体类型,如通过NLP、CV等抽取出来的企业事件、诊疗事件等知识分类和定义语义知识表示-SemanticPG优势:LPG&RDF混合模型,更适合业务数据到知识标准化的演化过程 提供业务易理解的表达,更利于知识复用,可规模化落地SemanticPG语义约束范式:1、逻辑推演:symmetric(spouse),transitive(located_in)2、完整性约束:mutexOf 3、属性类型约束:int/string等基础类型,标准类型(概念挂载)4、实体衍生/链指:subClassOf,equivalent,fuse;sameA

6、s 提纲 蚂蚁金融知识图谱平台介绍 语义知识表示模型 语义知识管理关键技术及应用 展望语义知识管理核心能力!#$!#$%&(%&(!#$!#$)*+,-)*+,-./0,1./0,1T+1实体T+m T+sSPO+v关系属性(算子)CUDv1v2 v3v4 v5基于DFS的知识管理架构Data/Meta/Dictionary CacheSchemaManagerKG Builder/Query/Scanner API仓储SDKNamespaceManagerPGFilePGFileMetaFileMetaFileIndFileTransformVersionsMarkdelMetricsLPG

7、LPGRDF知识仓储storage(DFS)MetaFileRGMetaDictionarySPOIndFileID Encoder/DecoderFusion/MetricsUDFgraphgraph-parallel computationparallel computation(geaflowgeaflow/graphxgraphx)g graphraph databasedatabase(geabasegeabase)知识服务(HA)parallel computationparallel computation(flinkflink/spark/spark/hadoophadoop)

8、知识构建知识推理/分析(DSL)应用层(多引擎对接)基于基于DFSDFS的万亿的万亿级知识管理及演化级知识管理及演化,serverless架构,更好扩展性&伸缩性,低成本语义增强的属性图模型,语义增强的属性图模型,RDF&LPGRDF&LPG hybridhybridlayoutlayout,如概念挂载、实体继承等零零拷贝知识拷贝知识复用复用,namespace跨域租户管理多引擎多引擎对接对接,支持知识构建、分析和推理等应用,预构图加速推理;LSMTreeLSMTree-likedliked,支持流批知识增量更新架构优势及特点语义知识生产及算子演化核心能力:基于搜索(向量/文本/LBS索引等)

9、的大规模知识链指及融合能力 python/java sdk,支持算子演化 blink/spark等多引擎runner,流批一体链路,可视化DAG&job manager案例:事理图谱构建Id0ea4e7c5name山东省潍坊市青州市发生地震province山东city潍坊市district青州市eventTime2022年5月2日Id0ea4e7c5typename山东省潍坊市青州市发生地震Stringprovince山东省AdministrativeArea:L1city潍坊市AdministrativeArea:L2district青州市AdministrativeArea:L3event

10、Time2022-05-02String事件抽取(CV/NLP模型)属性标化(python算子)eventname:山东省潍坊市青州市发生地震eventtime:2022-05-02中国行政区山东省潍坊市青州市链指/挂载provincecitydistictHybrid LayoutindblockLPGFile:ordered by vertexid,分离属性与图结构,压缩邻居矩阵RDFFile:spo permutation index(ref.)语义解释器:基于schema语义模型,转换为LPG/RDF File读写IOblockIndexRDFFilerootergraphblockg

11、raphblockblockIndexLPGFilerooterpropertyblockkgmetaSemModelPlanbucket.iindblockKgreader/kgwriterschemaservice概念模型:分层编码及属性ID化g.V(UserID).out().hasLabel(Intent).in().hasLabel(UserA).properties(name,)概念树分层编码,概念改名/子树变更等,只更新概念词典 属性ID化,连接唯一概念实例,构建SPO索引属性可传播,减少物理边成本S:UserP:O:Intentencode事件模型:多要素索引及时间分片TTL

12、Event具有时序特性,需支持timewindow查询表达,以及TTL版本控制 Event表达的是多元关系,通过多要素索引来支持事件与实体要素的传播计算g.V(StoreID).out().hasLabel(TradeEvent).timewindow(s,e).out().hasLabel(User).基于事件模型构建资金图谱:公安反诈能力1:融合媒介、LBS等知识,基于交易事件构建千亿级资金图谱,分析洗钱账户/黑产涉诈资金侦查,痛点:1、分析效率低:=7个步骤,68小时2、资金溯源难:人工、线下,成本高,准确性不稳定3、查控操作繁能力2:资金交易事件的深度追踪,实时洞察每笔资金的流向WiF

13、ITradeEventUserBUserAPOIfromtoeventtime:t1t2t3效果:1、资金追金可视化分析,一键处理,效率提升至x秒2、20+资金事件专家规则沉淀,准确性稳定性高3、开通xxx家公安分局/中队,分析xxx个案件,折还资金xxx万分布式推理构图 Graph Partition:edge-cut,IO Balance 无shuffle构图提升推理效率doing:无序列化推理构图 局部性友好的知识编码,提升图迭代效率全量知识仓储SPO索引Join 语义圈人semantic graph match实现语义圈人,转换为SPO索引Join,语义图热点问题,比如运动品牌关联数万

14、用户和商家方案:subject分区优化,提升计算locality,减少message传递 选择合适的join算法(BinaryJoin/WCOJ),优化dense/sparse下的搜索空间?商家品牌偏好:运动City:北京用户?职业:教师收入等级:xxxSalaryLevelCareerCityIBrandvisited知识复用-实体继承(subClassOf)vertexIDlabelproperties007Company名字:xxx工商注册号:xxxvertexIDlabelproperties007ListedCompany市值:xxxg.V(007).hasLabel(ListedC

15、ompany)id:007名字:xxx工商注册号:xxxx市值:xxxsubClassofid:007名字:xxx工商注册号:xxxCompanyid:007市值:xxxListedCompanyListedCompany场景:应用于POI/AOI、User等亿级实体复用,解决子/父类属性冗余和一致性问题方案:子/父类实体ID相同,各自更新自己的属性 通过语义解释器,生成readPlan,实现子/父类实体的属性IO合并知识复用-图谱融合(fuseOf)问题:图的联通性,涉及数据范围广,需解决数据冗余问题 不影响各领域图谱构建效率 支持融合规则/算法的迭代方案:选择锚点实体,链指算法,建立关联

16、FusedType节点仅存储idmap及局部子图,链指关系增量更新 KGReader归一完成图谱融合链指归一KgBuilderKgReader蚂蚁图谱融合案例:消费金融用户消费+商家知识互联,效果:1、商户平均度数从1.xx提升至2.xx,x亿商户表征的覆盖率提升至xx%。对商户行业标识别的覆盖率超过xx%且准确率达到xx%,借呗支用率的预估准确率+x%通过平台级KG fusion,减少数据拷贝,业务迭代效率高用户消费侧知识图谱100亿 知识规模商家供给侧知识图谱500亿 知识规模痛点:1、数据信息缺失,活跃商户占比较少,商户信息缺失严重,不能有效洞察商家行业信息2、数据关系复杂,商户多地多店

17、经营,多人同店消费背景:1、市场和监管环境变化,洞察用户、商家的资金和消费需求,提升产品体验,面临新挑战2、商户做为消金产业链重要的一环,串联起了用户和消费场景提纲 蚂蚁金融知识图谱平台介绍 语义知识表示模型 语义知识管理关键技术及应用 展望Data Lakes TextMedia(semi/un)-structured dataRDBKG仓储SemanticPG Model(Business Ontology)StudioEKG CoreRESTSPARQLEnterprise ApplicationsERPcloudservicewebappsEKG OpenAPIsGQLSecurityProvenanceQualityGovernance面向DataFabric的企业级知识管理平台 EKG位于Data Lakes等之上,可集成并管理结构化、非结构化等多源数据 SemanticPG Model实现了数据到知识的约束和统一表示,EKG API支持各种企业信息系统和应用程序 EKG遵守企业数据管理的合规政策和标准,需实现血缘追踪、数据安全和质量保证等机制跨领域知识共享与应用 知识语义化/标准化,兼顾工业界落地和业务理解成本 隐私安全下的跨机构知识共享和互联,以及行业解决方案沉淀 知识管理与大模型结合,ChatGPT增强领域专家的知识深度ThanksThanks

友情提示

1、下载报告失败解决办法
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。

本文(大规模语义知识管理实践.pdf)为本站 (2200) 主动上传,三个皮匠报告文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三个皮匠报告文库(点击联系客服),我们立即给予删除!

温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。
会员购买
客服

专属顾问

商务合作

机构入驻、侵权投诉、商务合作

服务号

三个皮匠报告官方公众号

回到顶部