上海品茶

前沿监管科技:2024高性能图数据库金融应用白皮书(48页).pdf

编号:159141 PDF  DOCX  48页 4.53MB 下载积分:VIP专享
下载报告请您先登录!

前沿监管科技:2024高性能图数据库金融应用白皮书(48页).pdf

1、.page 08.page 08.page 08.page 10.page 104.1 图数据库 Benchmark 介绍4.2 图数据库 Benchmark 的特性4.3 LDBC FinBench 标准4.4 FinBench 测试基准应用图数据库国际标准3.1 金融风险管理3.2 金融欺诈检测3.3 知识图谱构建3.4 市场营销分析.page 12.page 12.page 13.page 14.page 15目 录C O N T E N T引 言图数据库技术概述图数据库金融应用2.1 图数据库定义2.2 图数据库的发展历程2.3 图数据库特点2.4 图数据库的技术优势2.5 图数据库的

2、未来挑战2.1.1 市场定义2.1.2 概念解析2.3.1 直接体现实体间的关联关系2.3.2 高效灵活的扩展数据规模2.3.3 可对关联数据进行快速查询2.3.4 提供了针对图检索的查询语言2.5.1 大数据的挑战2.5.2 新硬件的挑战2.5.3 接口语言的挑战2.5.4 数据建模的挑战4.3.1 FinBench 背景介绍4.3.2 FinBench 场景与设计4.3.3 FinBenchv0.1.0 版本.page 01.page 02.page 02.page 04.page 04.page 06.page 07图数据库优秀案例分析5.1 蚂蚁集团基于 TuGraph 的金融风控实践

3、5.2 海致星途基于 AtlasGraph 的信用卡智能应用5.3 嬴图 LRM 流动性风险管理图中台5.4 创邻科技Galaxybase 国产高性能图数据库在某全国股份制银行的建设与应用5.5 TigerGraph国内某 top5 银行利用 TigerGraph 打造图存储+图计算+图可视化的一体化的反洗钱反欺诈解决方案5.1.1 案例概述5.1.2 案例说明5.1.3 整体成效5.1.4 经验与启示5.1.5 企业介绍5.2.1 案例概述5.2.2 案例说明5.2.3 整体成效5.2.4 社会价值5.2.5 经验与启示5.2.6 企业介绍5.3.1 案例概述5.3.2 案例说明5.3.3

4、整体成效5.3.4 经验与启示5.3.5 企业介绍5.4.1 案例概述5.4.2 案例说明5.4.3 整体成效5.4.4 经验与启示5.4.5 企业介绍5.5.1 案例概述5.5.2 案例说明5.5.3 整体成效5.5.4 经验与启示5.5.5 企业介绍.page 16.page 16.page 22.page 27.page 37.page 421随着通信技术和大数据快速发展,金融行业数字化程度不断加深,金融行业具有的数据资产体量剧增,数据间的关联关系变得愈发复杂交错。传统的对少量、单维度、静态化数据的分析已经难以满足金融业数字化转型需求,多样的风险形式对风控能力提出了更高要求,越来越多的场

5、景需要借助智能化技术。图数据库作为深入挖掘数据信息的有力工具,开始受到全行业的关注,它以其独特的数据模型和高效的查询能力,为金融行业提供了一种全新的数据管理和分析解决方案,并在金融业开展广泛应用。为了更有效的评估金融场景下的图数据库,国际关联数据基准委员会(LDBC)正式发布全球首个金融图数据库测试基准的首个版本 FinBench,填补了金融图数据库领域测试基准的空白,为金融行业提供了一个全球范围内专业、客观的共享工具,以评估和比较不同图数据库的性能。其参与成员包括蚂蚁集团及 Intel、KATANA GRAPH、NebulaGraph、Pometry、TigerGraph、嬴图等全世界范围内

6、多家专注于图数据库领域的科技公司。为推进图数据库国际标准 FinBench 在金融行业的创新应用试点,总结图数据库技术与产业融合创新的优秀经验做法,促进图数据库技术和经济社会发展的深度融合,北京前沿金融监管科技研究院(以下简称前沿研究院)开展金融图数据库场景应用案例征集工作,并在 2023 金融街论坛年会“全球金融科技中心网络年会”上发布重要成果“图数据库金融应用场景优秀案例”。本次“图数据库金融应用场景案例”征集工作,以图数据库权威基准测试组织“关联数据基准委员会(LDBC)”发布的金融图数据库基准“LDBC-FinBench”为评选维度,考察了评选案例在金融场景的产品力、应用实效场景、风控

7、效果等方面的表现。蚂蚁集团、海致星图、创邻科技、嬴图等 5 家企业的图数据库应用案例首批入选。尽管图计算已经在各种不同场景展现了技术的卓越优越性,但未来应用的广度和深度仍然有着巨大的拓展空间。为帮助金融机构和相关从业者更深入地理解图数据库技术,前沿研究院编写了高性能图数据库金融应用白皮书,介绍了图数据库技术特点、在金融行业的应用、技术标准等内容,并展示了蚂蚁集团等获奖案例企业是如何借助图数据库技术助力金融机构实现数据价值的最大化,提升业务效率,降低风险,并推动创新。未来,图计算这项技术服务千行百业,还需要行业共建更多基准、标准指引,携手探索技术应用的更多可能性面,推动行业发展和技术创新。引 言

8、2图数据库是指以图表示、存储和查询数据的一类数据库。此处的图不是指图片,而是以图论为理论基础,使用图模型,将关联数据的实体作为顶点(vertex)存储,关系作为边(edge)存储,解决了数据复杂关系带来的严重随机访问问题。在分类上,图数据库可归类为 NoSQL 数据库。随着企业数字化转型的深入,社交、物联网、金融、电商等领域快速发展,因此产生和收集的数据量呈现指数级的增长,传统的关系型数据库在处理复杂关系的数据方面遇到瓶颈,其对数据的管理和使用不能完全满足市场需求。企业对于数据库的需求已经从一般的数据管理演变为从复杂的数据关系中最大化提取数据价值。在图数据库中,数据间的关系和数据本身同样重要,

9、它们被作为数据的一部分存储起来。这样的架构使图数据库能够快速响应复杂关联查询,因为实体间的关系已经提前存储到了数据库中。图数据库可以直观地可视化关系,是存储、查询、分析高度互联数据的最优办法。在基于图的数据模型中,最常见的两种方法是标签属性图(LPG)和资源描述框架(RDF)图两种。标签属性图模型数据对象被表示成节点(拥有一个或多个标签)、关系和属性,由顶点、边及其属性构成。图数据库通常是指基于标准属性图模型的图数据库。顶点和边都可以带有属性,节点可以通过“标签(Label)”进行分组。表示关系的边总是从一个开始点指向一个结束点,而且边是一定是有方向的,这使得图成为了有向图。关系上的属性可以为

10、节点的关系提供额外的元数据和语义。需要指出的是,最早采用标签属性图模式来设计实现图数据库的是 图数据库技术概述2.1.1市场定义2.1.2概念解析 2.1 图数据库定义图模型3存储模式原生图、非原生图Neo4j,但是标签这种模式并不是数据库领域的国际标准。标签可以看做是一种特殊的数据库索引,但是它的通用性和标准化相比于数据库领域标准化的 schema(模式)会弱很多。这个问题又涉及到 NoSQL vs.SQL 中的无模式(schema-free)与 模式化(schematic)之间的差异。Neo4j 是典型的无模式图数据库。在即将面世的图查询语言(GQL)国际标准中,采用的是支持模式的方式其优

11、点在于对于图数据的管理更加清晰。因篇幅所限,此议题不再展开论述。标签属性图可以看做是属性图模型的一类特例。属性图模型的优点在于它具有优秀的查询性能和灵活性,可以通过局部和全局索引快速检索信息。此外,它还支持多种查询语言和图形算法,使用户可以更轻松地进行复杂的分析和查询。RDF 主要针对文本语义的场景,用三元组来表达,因此基于 RDF 图模型的图数据库又称三元组数据库。RDF 模型在顶点和边上没有属性,只有一个资源描述符,使用 Web 标识符(URI)来标识事物,并通过属性和属性值来描述资源,这是 RDF 与属性图模型间最根本的区别。在 RDF 中每增加一条信息都要用一个单独的节点表示。比如,在

12、图中给表示人的节点添加姓名。在属性图中只需要在节点添加属性即可,而在 RDF 中必须添加一个名字的单独加节点,并用 hasName 与原始节点相连。RDF 模型的优点在于它具有灵活性和可扩展性,可以方便地添加新实体和关系,但是,RDF 模型在处理大规模数据时可能会出现性能问题,因为它需要进行复杂的图形遍历来检索信息。图数据库以节点和边对现实世界进行数据建模。不同图数据库的底层存储机制可能存在很大不同。根据存储和处理模型的不同,图数据库之间也会做一些区分。对于实际的底层物理存储技术,目前主流有两大类方法:原生图数据库,即使用原生图存储,按照节点、边和属性组织数据存储,这类存储是经过优化的,专门为

13、了存储和管理图数据而设计的。典型代表有Neo4j、AltasGraph、TigerGraph、嬴图等。非原生图数据库,即底层存储使用非图模式进行存储,如依赖关系引擎将图数据存储在关系型数据库的表中,通过在数据实际所在的底层存储系统之上增加个具备图语义的抽象层来进行数据交互。也有部分图数据库是使用键值型存储方式或文档型存储方式作为底层存储。例如基于列式存储的DataStax、基于键值对的 OrientDB 以及基于文档的 MongoDB。部分关系4 2.3 图数据库特点图数据库的起源可以追溯到 20 世纪 60 年代,引导式数据库(Navigational Database,比如 IBM 的 I

14、MS)采用树状的结构来表示数据之间的分层关系,对图结构的支持可以通过虚拟顶点来完成。到 80 年代,支持属性图模型的图数据开始出现,包括 Logical Data Model 等。21 世纪初,商用图数据库开始崭露头角,比如 Neo4j 和 Oracle Spatial and Graph 等,并支持事务性 ACID。其中隔离性包括多个不同的隔离级别,从低到高分为未提交读(Read Uncommitted)、提交读(Read Committed)、可重复读(Repeatable Read)、序列化读(Serializable)。对事务的支持是数据库的标准配置,只有支持事务才能保证数据同时读写不

15、会出现不可预知的错误。自图数据库支持事务后,其市场和应用有了爆发式的增长。2010 年后,图数据库朝着多个不同的方向发展,包括支持大规模分布式图处理、支持多模态、图查询语言的设计、专用硬件的适配等。在近几年图数据库技术的介绍和宣传中,经常会提到一个词叫“原生图”(Native Graph),一般指的是跳过索引的邻居访问(Index-free Adjacency),需要对底层存储做不同于传统数据库的设计,是性能优化的一种方式。系统整体的设计和硬件特性、读写负载等均有关系,通常是个权衡的过程,无法在所有方面做到面面俱到,因此需要在具体的场景或评测程序中衡量。型数据库也在关系存储之上提供类似图的操作

16、。有的图计算平台底层支持各类存储技术,包括图存储,称作“多模式”,例如百度 HugeGraph 原生的图存储由于针对图数据和图操作的特点进行了优化,并且从物理存储到内存中的图处理,都采用一致的模型而无需进行“模式转换”,在大数据量深度复杂查询以及高并发情况下,性能普遍优于非原生的图存储。使用图的方式来表达现实世界的关系很直接、自然,易于建模。对于现实世界中的复杂实体关系,图模型的存储和展示方式能够更加直接地进行表达,这有利于使用者对数据有更直观的了解。2.3.1高效灵活的扩展数据规模 2.2 图数据库的发展历程5图数据库可以很高效的插入大量数据。图数据库面向的应用领域数据量可能都比较大,比如知

17、识图谱、社交关系、风控关系等,总数据量级别一般在亿或十亿以上,有的甚至达到百亿边。图数据库提供了灵活的数据模式,通常不需要先定义严格的数据模式,以及强制的字段类型,这使其在处理结构化和半结构化的数据时均有效,可以根据业务变化和场景需求,对数据模型进行更改。图数据库使用者无需在设计之初就把所有内容填充完毕,在后续的使用中能够对数据模型进行扩展,免去了冗余的标准化时间成本。2.3.2直接体现实体间的关联关系传统关系型数据库不擅长做关联查询,特别是多层关联(比如查我的好友的好友有哪些人),因为一般来说都需要做表连接,表连接是一个很昂贵的操作,涉及到大量的 I0 操作及内存消耗。图数据库对关联查询一般

18、都进行针对性的优化,比如存储模型上、数据结构、查询算法等,防止局部数据的查询引发全部数据的读取。在处理深度关联数据时,通过“点边点”的连接方式能够做到实时数据响应。图数据库提供了针对图检索的查询语言,比如 Gremlin、Cypher 等图数据库语言。图查询语言大大方便了关联分析业务的持续开发,传统方案在需求变更时往往要修改数据存储模型、修改复杂的查询脚本,而图数据库由于其独特的存储语言,已经把业务表达抽象化,因此可以持续开发关联分析业务。图数据库的标准化查询语言国际标准 GQL 即将面世(2024 年中前)。这也标志这在过去 40 年中,终于出现了 SQL(1983 年发布)之外的第二个数据

19、库全球标准。很多有识之士也认为这代表着更多的关系型与非关系型数据库负载将会逐步向图数据库迁移。2.3.3可对关联数据进行快速查询2.3.4提供了针对图检索的查询语言6在处理关联数据时,图数据库有三个非常突出的技术优势:高性能、灵活、敏捷。分类图数据库关系型数据库数据模型图表存储对象半结构化数据结构化数据2-3 度关联查询高效低效6-10 度关联查询高效低效/不支持事务性支持支持表 1 图数据库与关系型数据库对比图数据库相较于关系型数据库和其它非关系型数据库,在处理深度关联数据时,具有绝对的性能提升。(1)高性能图数据库提供了极其灵活的数据模型,可以根据业务变化实时对数据模型进行修改,数据库的设

20、计者无需计划数据库未来用例的详细信息。(2)灵活图数据库的数据建模非常直观,而且支持测试驱动开发模式,每次构建时可进行功能测试和性能测试,符合当今最流行的敏捷开发需求,极大地提高了生产和交付效率。(3)敏捷大数据时代带来了新的业务场景和技术挑战,关系型数据库无法解决所有问题,因此留给了包括图数据库在内的 NoSQL 数据库广大的生存和发展空间。关系型数据库的优点在于实现了快速的逐行访问和保持数据一致性(ACID 事务),为此,关系型数据库对数据模式和数据规范化有着严格的要求,这种要求对数据关系的查询产生了束缚。当数据规模变大,且数据间关系随之变得复杂时,使用关系模型检索时需要多个表的属性执行连

21、接操作,数据写入时也需考虑外键约束,从而导致较大的额外开销,产生严重的性能问题,因此传统关系型数据库更适合实体联系为一对一或一对多的应用场景。而图数据库则在处理复杂关系上有着天然优势,在海量数据的多对多的复杂实体联系场景中有着异常突出的性能表现,具体见表 1。2.4 图数据库的技术优势7大数据的到来,使得图数据库脱颖而出,在关联关系上的处理性能远超其他类型数据库,同时对图数据库的方方面面提出了更高的要求,既有底层的系统设计,也有上层的语言表达。举例如下:在全民上网的时代,中国人口 14 亿,世界人口 80 亿,无论是社交分析还是资金转账,数据量都在十亿到千亿级别,而物联网的实体数更有两到三个数

22、量级的增加。与其同时,这些数据在不断变化,不仅表现在数据量的持续增加,在数据丰富性上也不断在提升。2.5.1大数据的挑战 2.5 图数据库的未来挑战各式各样的新硬件层出不穷,包括 NVM、RDMA、FPGA、GPU 等,合理利用能大幅提升图数据库的功能和性能,从而对底层系统设计提出了更高的要求。2.5.2新硬件的挑战图数据库的发展还远没有关系型数据库成熟,因此各个学术机构及厂商都在各种探索的阶段。在接口语言方面,GQL 作为正在实施的图查询语言项目,尚需三到四年才能完善,那么需要学术机构及厂商在各自对图数据库定位和理解有更深的认识,才能做出有益的尝试。2.5.3接口语言的挑战图模型作为面向关联

23、关系的强兼容性模型,同样需要大量的领域知识在现实场景到理论搭建桥梁,比如应该如何选择合适的数据,以及将哪些实体抽象成顶点,哪些作为属性。另外项目通常不是一蹴而就,后期需要对模型进行扩展,对数据进行填充,这在模型建立之初应当予以考虑。2.5.4数据建模的挑战8互联网金融的兴起下,金融业务拓宽服务能力显著提升,但与此同时产生了大量的非结构化数据,数据量的剧增和关系的复杂多变性给金融风控带来了新的挑战。传统关系型数据库在海量非结构化数据存储和复杂关系挖掘方面具有天然的缺陷。相比之下,图数据库能够融合来自金融机构销售、审批、风控、电销、交易、催收等系统的多源数据以及第三方数据,打破数据孤岛,构建全方位

24、用户关联网络。图数据库通过利用多维交叉关联信息深度刻画申请和交易行为,可以有效识别多种复杂的、规模化、隐蔽性的欺诈网络和洗钱网络;结合机器学习、聚类分析、连通图挖掘、风险传播等相关算法,可以实时计算用户的风险评分,在风险行为发生前预先识别,有效帮助金融机构提升效率、节省人工时间、控制成本、降低风险。应用图数据库的金融风控应用场景例如个人信贷业务,失联客户管理,金融反欺诈,洗钱路径追踪,企业图谱,个人/企业征信等。洗钱手段是复杂多样的,且洗钱及相关上游犯罪呈上升趋势,在金融机构合规管理之中,它是一项非常重要的内容,属于典型的监管科技应用。为了逃避侦查,洗钱分子在进行交易时,往往会制造出错综复杂的

25、关系,使资金网路内节点众多交错,所以图技术在反洗钱(AML)方面有广泛的应在现代金融体系中,每时每刻都运行产生大量的金融数据,容量庞大、时刻变化和来源多样的金融数据,为其价值挖掘带来极大挑战。传统关系型数据库对数据模式和数据规范化有着严格的要求,但对数据关系的查询产生了极大束缚,难以满足海量数据查询及关系挖掘的业务应用场景。图数据库技术在海量数据多对多复杂实体关系场景中有着天然优势。图数据库技术可以从多源异构数据中分析出实体和关系,通过使用知识关联、知识检索和知识推理等方法,从中挖掘出有价值的知识信息,支持金融业务决策。图数据库技术与金融场景主要在如下几个方面进行深度融合。图数据库金融应用 3

26、.1 金融风险管理 3.2 金融欺诈检测9用,通过天然的图的复杂网络分析能力和超强算力能力,能够更准确、更高效地识别洗钱交易。以下是一些图数据库在反洗钱领域中的应用方面:(1)实体关系分析图数据库可以用于建立和维护不同实体(如个人、组织、账户等)之间的复杂关系网络。通过这些关系网络,可以检测到洗钱行为中隐藏的模式和连接,如通过虚假账户进行资金转移、多个账户之间的交易模式等。(2)风险评估图数据库可以整合和分析来自多个数据源的信息,如交易记录、客户资料、开数据等,以绘制客户和账户的全面画像。通过分析这些数据的关系和属性,可以进行风险评估并识别潜在的洗钱风险。(3)异常检测图数据库可以监测和分析大

27、规模的交易数据,以便及时识别异常模式和行为。例如,如果一个账户与大量与洗钱有关的实体有关联,或者账户的交易模式与同类账户明显不同,就可能存在洗钱风险。图数据库可以帮助发现这些异常模式,并提供警报和推荐的行动。(4)实时分析图数据库的优势之一是能够处理实时数据,并快速更新和查询图结构。这对于反洗钱来说非常重要,因为洗钱行为可能是动态变化的。图数据库可以通过实时分析来及时发现和应对新出现的洗钱模式和策略。(5)可视化分析图数据库可以通过可视化工具将复杂的关系网络呈现给分析人员,帮助他们更好地理解和发现洗钱行为。可视化分析可以揭示隐藏的模式、群组和其他结构,从而帮助分析人员做出更准确的决策。10推荐

28、系统本质是客户和商品之间的桥梁,基本任务是帮助客户解决信息过载的问题,从海量商品中准确并快速找到客户最喜爱、最有可能购买的产品。在互联网领域,线上推荐系统常见的应用场景大致可分两类:一个是基于用户维度的推荐,即根据用户的历史行为和兴趣偏好进行推荐,比如网易云上海品茶的推荐歌单、小红书上海品茶的发现等;另一个是产品维度的推荐,也就是根据用户当前浏览的商品进行推荐,比如淘宝特定商品的“找相似”功能。不管是基于用户维度的推荐还是基于产品维度的推荐,推荐过程本质是信息过滤的过程:推荐系统通过分析用户的历史购买和当前行为模式,在用户退出页面前过滤掉不太可能引起用户兴趣的产品,再根据优先等级返回最相关Top-N

29、产品列表。3.4 市场营销分析知识图谱本质上是一个图结构的语义网络,顶点是实体或概念,边是这些概念间的语义关系。它获取信息并将其集中到一个本体(Ontology)中,本体可以是人、概念、组织等,并应用推理器来推导新知识。它也可以被看成一个数据库,可以提高搜索引擎基于语义的数据的查询结果。知识图谱作为图数据库的底层应用,已服务于多种行业,包括:智能问答、搜索、个性化推荐等。以智能问答为例,产品主要分为聊天机器人、行业智能问答系统两种,2023年广受关注的ChatGPT就属于知识图谱的应用。开放领域的知识图谱能为聊天机器人提供广泛知识,机器不仅能和使用者聊天还能提供日常知识。行业智能问答系统则使用

30、行业知识图谱,能够为用户有针对性的提供专业领域知识,在法律、医疗行业已得到运用。在知识图谱的应用落地上,主要有两点因素影响着知识图谱的质量和实现NLP 自然语言处理引擎、算法库。NLP 自然语言处理引擎决定了NLP 爬虫平台获取数据的质量和数量,而这些原始数据作为知识图谱的知识原料又决定了知识图谱的水平。算法库中的图算法决定了图构建、图存储和图操作的能力,知识原料丰富而图算法落后,依然不能构建出强大的知识图谱。金融机构可以利用图数据库技术构建知识图谱,将客户、账户、交易、风险、合规等相关信息进行整合形成一个图谱。这样可以更好地实现对客户360 度全景视图,更快地识别客户需求、风险和潜在机会。需

31、要注意的是,尽管很多厂家都可以构造图谱,但是,缺乏图数据库的算力支撑的图谱,效率是非常低下的。3.3 知识图谱构建11“准而快”是推荐效果中的制胜关键。随着线下新零售和场景营销时代的到来,推荐系统需要考虑的维度日益增多:时间、地点、天气、突发事件等都会成为影响客户购物体验的重要因素。不论线上还是线下,购物者注意力持续时间越来越短,若不能按客户当下行为进行多维度实时推荐而错过适宜时机,潜在客户极有可能流失。对零售商来说,如今产品目录变更周期短,变更速度快;潜在客户服务要求高,等待耐心低;场景营销背景下推荐维度复杂,事物关联程度高。推荐引擎需要快速理解客户画像,多维度考虑关联数据,将场景化流动性的

32、客户兴趣与不断迭代的产品信息实时关联起来形成定制化推荐成为巨大挑战。从数据存储到召回,再到更深一步的排序环节,系统筛选出来的商品集越集中,精度越高,推荐效果越好,但难度也随之增大。提高召回速度,帮助系统从海量商品中实时找出和客户当下兴趣以及消费场景相关的产品,便是图数据库的优势所在。不同于关系型数据库,图数据库的 schema(数据库模式)灵活性强,可根据场景和业务需求添加不同种类的新关系、新节点、新标签形成新的子图,从而动态调整新的推荐策略,而不用担心破坏已有的查询或应用程序的功能。通过实时收集并分析客户、购买行为、产品、好友关系、位置、营销事件等信息,全面刻画客户消费场景,针对客户的行为偏

33、好、社交群落及消费场景,以数据、社交模型和 AI 算法为驱动,配合反馈迭代式算法策略,深度认知客户需求,实现“人-货-场”的联动,进行“千人千面”的具有可解释性的实时推荐,帮助企业快速、有效地发现海量数据中隐含的价值信息,赋能业务增长。图数据库的模型灵活性免去了项目之初穷思竭虑将每一个细节囊括在内的烦恼,让用户根据公司业务发展和客户所在场景变化灵活改变数据模型,实现客户、产品和场景三者的高效动态关联,极大降低系统迭代的成本和开发周期。12图数据库是知识图谱系统的核心。在典型的知识图谱系统中,数据会在知识抽取、整理和推理之后,被存放到图数据库中,然后图数据库会支撑知识图谱的查询、更新、推断等任务

34、。因此图数据的选型决定了图谱系统的规模、性能、稳定性,对整个图谱系统应用非常重要。目前行业内图数据库类型非常多,常见的有 Neo4j、JanusGraph,以及蚂蚁集团研发的图数据库TuGraph 等,整体数量在几十种左右。但他们之间的差异非常大,比如查询语言上 Neo4j 用的是 Cypher,JanusGraph 用的是 Gremlin,嬴图用的是 UQL。图数据库的图模型也有很大差异。图数据库目前大部分以属性图为主,也有另外一类是 RDF 图,这两种图数据库从数据抽象上不一样,其它很多特性,比如有没有用户权限,有没有多图、有没有超图,这些特征也都非常不一样。使用图数据主要的问题在于,它不

35、像关系型数据库是一个标准的关系代数的抽象,上面有标准的 SQL 语言。目前图数据库没有完全标准化下来,所以对于很多用户造成了很大的困扰,在选图数据库的时候,不知道应该怎么选。另外一个主要的问题是,图数据库现在很多应用场景其实是偏探索类的,在具体场景当中,会用到哪些算法,需要哪些特性,用户事先并不知道,因此更难选择图数据库的类型。因此,图数据库系统的选型非常重要。图数据库系统的选型,一个非常重要的工具就是基准测试程序,英文叫 Benchmark,它会模拟真实的场景对系统进行测试,是比较标准的测试程序。一个完备的基准测试应包含图数据的所有操作类型,在图数据中可以分为四类,包括本地查询(Local

36、Queries)、邻居查询(Neighborhood Queries)、局部遍历(Traversal)、全局分析(Global Analytics)。本地查询是指查询只涉及单个顶点或单个边。举例来说,给定顶点 ID,通过索引查这个顶点对应的属性值,并进行对应操作。这是最简单的查询方式,和其他数据库的查询无异。邻居查询是从某个顶点出发,沿着这个顶点的出边或入边,查询邻居顶点。该查询过程中,可以通过边和顶点的标签及其属性值进行过滤,筛选符合条件的结果。该查询方式也称为一度邻居查询。局部图数据库国际标准 4.1 图数据库 Benchmark 介绍13合格的 Benchmark 需要具备以下特性:遍历

37、是一个或多个顶点的多度邻居查询。通常在遍历的过程中,顶点和边上会有指定的限制条件,因此整个遍历过程中涉及的顶点数和边数不会太多,但遍历的条件可能会很复杂。全局分析其实就是图分析引擎的工作,需要对全图的所有数据做多次的迭代,最终得出想要的结果。以 TPC-C 为例,这是个很标准的对关系型数据库进行测试的基准测试程序,它模拟的是连锁商店对数据库的使用,会在数据库建订单管理系统、库存管理系统、物流管理。这个程序本身会规定事务性应该支持到什么地步,应该有多并发,每一个查询的延迟应该有什么样的要求。如果一个关系数据库能够正确地通过 TPC-C 这个测试,并且得到一个值,那么对用户来说,就可以大致估计在正

38、常的真实的情况下,它的功能,性能大致如何,进一步估计在真实场景下的功能性、稳定性等。所以 Benchmark 可以指导我们对数据库系统的设计,同时它对加速整个行业的发展是很重要的。4.2 图数据库 Benchmark 的特性第一要贴合实际,它选择的场景必须是比较符合实际情况的。第二,性能特征上,要满足一定的延迟要求。第三,它必须具备可扩展性。比如说 TPC-C 要模拟一个商店的管理系统,那么这个数据特征、操作特征就必须跟商店差不多,以做库存管理、订单管理为例,这些查询有多少读、有多少写,它们之间的混合比例,都需要符合实际。读写比例并发有一定的要求,比如同时会有多少用户在这上面用,它的延迟要求是

39、多少,必须要求查询应该是在几十毫秒,都是有一定的要求。查询跑出来的时间如果太长,肯定不符合正常的需求。实际测试中,商店大小是有差异的,如果说一个 Benchmark 只规定了一种数据大小,那就很难让用户感觉到在自己的场景下面会是什么情况。比如说用户要开一个商店,希望选一个数据库,但 Benchmark 的测试数据可能只限制了 1GB 数据,而实际用户的数据有 1TB,那这个 Benchmark 就没有参考价值,所以大部分好的 Benchmark 都具备可扩展性,想测 1GB、100GB、1TB 甚至 10TB 都有办法去实现。14LDBC(The Linked Data Benchmark C

40、ouncil)是全球知名的非盈利性技术协会,目前有三个 Benchmark,一个是基于语义网络的 RDF 图,一个是图分析,另外就是社交网络的图 SNB。目前国际上做得比较标准的图数据库测试程序是 LDBC 的 SNB 的测试。SNB 测试是模拟社交网站对于图数据库的应用场景,按照社交网站的数据特性生成数据,它允许生成各种各样大小的数据,同时操作上有读写混合,读也有各种丰富的语义,有一个非常标准的文档,也有第三方审计。在与蚂蚁集团内部的金融场景进行总结对比之后,LDBC 认为金融场景和 SNB 的社交场景有一定的差别,所以与多家厂商一块共同建设 Financial Benchmark,能够模拟

41、金融场景的测试。FinBench 的设计场景主要包括风控场景和商业分析场景。风控场景是金融领域重要的应用场景,包括反欺诈、反洗钱、反盗刷、反侵入等;商业分析场景是另一个重要场景,包括股权分析、用户画像等。其数据模型的实际思路是用点代表金融实体,边代表金融活动、行为,覆盖风控场景和商业分析场景。FinBench 中设计了四类查询,包括 14 个复杂读查询、8 个简单读查询、14 个写查询和 5 个读-写查询。其中,读-写查询是金融场景较为独特的查询方式,用于简化风控链路。读查询包括账户属性查询、三度转账环计策等,写查询包括写入转账边、账户标黑等。由读查询和写查询复合在一起的读-写查询是更加复杂的

42、场景,例如先读查询判断账户是否被标黑,如果账户未被标黑则写查询加一笔转账交易,然后读查询进行转账环检测,如果检测到环,则说明交易可能存在洗钱行为,拒绝该笔交易,如果未检测到,说明是4.3.1FinBench 背景介绍4.3.2FinBench 场景与设计 4.3 LDBC FinBench 标准第四,标准必须要严谨,这是非常重要的。图数据测试,不能用 TPC-C 的数据来随意完成,比如只测读不测写,测试的时候把其中所有的写操作都去掉,跑出来一个结果看似很高,实际上却没有意义,因为并不符合实际的测试标准。所以这个标准本身必须要很严谨,它必须有审计规则,要有对数据的验证。152022年5月,LDB

43、C全票通过了全球首个金融图数据库测试基准“LDBC Financial Benchmark”(以下简称“FinBench”)的立项。FinBench 由蚂蚁集团主导发起,Intel、海致星图、嬴图等国内外科技公司共同参与编写,用于评估金融场景下图数据库的功能和性能表现,例如风控场景、商业分析场景等,完成后将填补全球金融图数据库测试基准的空白。2023 年 6 月 29 日,LDBC 宣布全球首个金融图数据库测试基准的首个版本(v0.1.0)正式发布,命名为 FinBench。合法交易,则执行写查询阻塞相关账户。一个复杂行为就是一个交易,对图数据库提出能力要求。图数据库在金融行业具有巨大的应用潜

44、力,可以用于风险管理、反欺诈等领域。在此之前,一直缺乏标准化的基准测试工具为用户的采购和研发提供参考,FinBench 致力于填补这一空白。和聚焦社交网络场景的 LDBC-SNB 测试基准不同,FinBench 模拟了金融场景下真实的数据分布和数据查询,帮助了解被测系统在金融场景下的综合表现,为金融行业用户选择和采购图计算产品提供了专业、客观的标准和工具。4.3.3FinBench v0.1.0 版本 4.4 FinBench 测试基准应用16蚂蚁集团案例是基于TuGraph高性能图数据管理平台的金融风控应用。该方案显著提高了反欺诈和反洗钱的审理效率,实现支付过程的毫秒级极速风控,支撑“双十一

45、”高频交易,同时确保高精准度,保障了支付宝资损率低于亿分之一。图数据库优秀案例分析 5.1 蚂蚁集团基于 TuGraph 的金融风控实践(1)关系复杂隐蔽信号弱:风控业务中涉及到的账户、介质、环境等因素存在着普遍的联系,且联系的种类各异,业务逻辑纷繁复杂。同时,部分黑产所关联的因素较为隐蔽,其表现出的信号往往不易被直接观察,需要通过一些间接的方式来感知和理解。风控系统需要具备对此类问题的处理和分析能力。蚂蚁集团基于 TuGraph 的金融风控实践,是蚂蚁集团基于 TuGraph 图数据管理平台的图计算体系,进行金融风控中的交易网络分析、团伙识别、路径追踪等处理,并在这些场景中解决交易反欺诈、反

46、作弊、反洗钱、赌博侦测,以及终端异常行为侦测、信用风控、合规审计等问题。通过多维交叉关联信息深度刻画申请和交易行为,识别多种复杂、规模化、隐蔽性的欺诈网络和风险交易网络;结合聚类分析、风险传播等算法,实时计算用户的风险评分,在风险行为发生前预先识别,帮助金融机构提升效率、降低风险。应用这一方案的蚂蚁全图风控体系,已覆盖支付宝全业务,保障了 2021 年支付宝资损率低于亿分之 0.98;增加反欺诈稽核金额 6%,反洗钱风险审理分析效率提升 90%。随着金融行业数字化、线上化程度的不断加深,以及对风控能力要求的不断提升,越来越多的场景需要借助智能化技术来应对形式多样的风险,从而衍生了对金融风控业务

47、的发展需求,可以总结为以下三个特点:5.1.1案例概述5.1.2案例说明17(2)黑产手法变化速率快:(3)识别的精准度需求高:(1)完整、高性能图技术栈:黑产不断地尝试变换手法以规避监管和绕过系统,导致风险形态不断变化,新的风险类型层出不穷,风控系统所认知的数据、标签、风险识别和防御机制需要持续更新迭代。这对风控系统的实时应变能力提出了挑战。风控系统需要兼顾对黑产的识别覆盖与对正常客户的打扰比例,故而对识别的精准度有较高要求。风控系统必须具备高精准度的识别能力,以能够准确地辨别黑产活动,同时最大限度地减少对正常客户的影响和干扰,以确保良好的用户体验。TuGraph 提供完整、高性能的图技术栈

48、,实现了完整的在线、近线、离线三线一体的图计算,满足从毫秒级到小时级不同时效性要求的场景需求。构建了包含构建、查询、分析计算、服务、运维全栈的图技术体系,提供从图数据构建、分析到服务集成、上线运维的图全生命周期数据管理服务,帮助用户高效完成图应用开发、大规模图计算、交互式图探索等工作,充分挖掘数据价值。基于上述特点,蚂蚁集团提出了基于图(Graph)的金融风控解决方案。利用图数据的关联性特点,可以融合风控场景数据资产,包括不限于风险事件、交易属性、关系图谱、专家特征等数据,提升了数据的关联性。特别是图的可解释特点可以促进智能风控 体系进一步迭代升级。这些技术能够对整个风控网络进行高效的点边分类

49、、聚类、识别和预测,从而实现更加准确、高效和全面的风险防控,为公司和用户提供更强大可靠的风险管理和安全防护的能力。TuGraph 历经蚂蚁集团万亿级业务锤炼,目前已应用于蚂蚁内部 300多个场景,包括全图风控、反洗钱、反欺诈、保险知识图谱、花呗图谱、会员服务、蚂蚁森林、新春五福等业务场景。在近十年的实践中,形成了如下的技术优势:18(2)金融级高可用:TuGraph 提供金融级、高可用、高扩展能力,支持服务器级别、机房级别、城市级别的高可用,自动故障切换,不停服务、不丢数据。(3)零代码、易用性:TuGraph 提供完善的一站式图平台,丰富的可视化能力,零代码分析,所见即所得。TuGraph

50、采用标准的图查询语言 ISO-GQL,提供丰富的 API 接口及客户端能力,快速发布业务应用,便于业务集成。(4)高水平扩展能力:TuGraph 是金融级、分布式图数据库,数据被分片到很多个数据分区。多个独立对等的数据库进程、及其服务的部分数据,构成了完整的副本,在计算和存储上都不存在单点瓶颈,因此具备很强的水平扩展能力,可支持单数据分区的动态扩缩容、多数据副本扩缩容等能力,支持实时、增量、批量更新数据。可以按照实际业务需求在线进行集群资源弹性伸缩,存储计算能力可近线性扩展。整个伸缩过程对业务透明,业务服务不会受到任何影响。(5)高性能查询与计算:TuGraph 支持超大图(万亿条边)的存储和

51、实时查询响应。采用“计算寻找数据”的思路异步执行计算和数据读取,尽量减少数据的传输,降低中间结果的存储和网络开销,对典型查询的平均响应时间在毫秒级别;在图分析方面,提供基于经典图算法的全图迭代分析能力,采用块式划分、双模式计算等技术,性能比业界通用图计算框架快一到两个数量级,内存低一个数量级。(6)备份恢复能力:提供完整备份恢复能力,支持全量备份、增量备份、定时备份等,支持备份到 NFS、OSS 等。(7)全栈信创:TuGraph 完全自主研发,蚂蚁集团拥有完全的自主权和控制力,并实现与信创产业上下游进行适配,符合国产信创要求。19蚂蚁集团自 2015 年开始探索图技术,截止目前 TuGrap

52、h 已应用于蚂蚁内部数百个场景,包括全图风控、知识图谱、蚂蚁森林等业务场景;拥有超过 40 万核规模的在线图数据库集群,单集群规模超过万亿边,成为蚂蚁集团金融风控能力的重要基础设施。基于 TuGraph 图数据库进行多年的探索应用,我们发现随着业务的不断变化,也有诸多挑战:复杂性性能可扩展性金融业务的数据关系、支付网络复杂。需要对业务有深入的理解,才能建立恰当的实体关系图。以天猫“双十一”、支付宝“集五福”等活动为例,不但有大流量的技术考验,而且有产品活动不同玩法的新型营销类业务需求。在这些业务中,除了涉及客户、账户、交易,也涉及产品、设备等多种实体、属性及关系。需要抽象出关键实体、属性及关系

53、,建立合适的图模型,有助于高效的查询分析。当采用恰当的业务应用和产品架构设计,可以实现如下应用:合并支付、多银行/平台的提现和转账、在多维异构数据上的全局交易行为洞察等,提高风控效率,实现反洗钱、反欺诈,提升审理效率。金融交易数据量巨大、交易频繁,对图数据库的查询性能提出了很高的要求。需要对图结构进行优化,特别是对点、边的高效查询与更新,以及事务性的支持,保证高并发下的正常运作。例如“双十一”期间的高频交易,图数据库需要支持毫秒级查询。通过优化索引、分区、缓存,提升访问速度和查询性能。支付过程的毫秒级极速风控是现代应用产品,特别是互联网、移动支付场景下的关键能力需求。采用良好性能的图数据库,可

54、以在保证业务要求的同时提升用户体验;通过优化架构和算法,还可以降低运行成本,有效支撑日益增长的数据规模。图结构需要能够随业务扩展而扩展,通常通过图分片和分布式部署来实现扩展。除了数据规模要求的扩展性,还需要具备异构数据(不同类别的点、边)的可扩展性。这有助于利用多维度数据进行全图、全局分析。20基于TuGraph企业级图数据管理平台,支付宝增加反欺诈稽核金额6%,反洗钱风险审理分析效率提升 90%。每天计算近 10 亿用户大约 200 亿左右边关系,对疑似团伙类犯罪风险识别能力、提高近 10 倍。此外,为某银行提供的信贷图平台提升了 13%的风控模型区分度;为某银行完成的信用卡申请团伙欺诈分析

55、方案,运算时间缩短至原有的 1/60;为某银行搭建的企业风险图平台,在对小微企业评级放贷问题中,担保圈识别准确率达到90%以上。本方案对底层基础设施的要求较高。主要涉及数据的存储、查询、分析计算以及可视化展现。这要求基础设施系统具备在线(实时)图数据读写能力、大规模离线图算法分析能力,具备融合大规模图计算和图学习、大数据计算的多源异构数据导入导出和处理能力,并具备丰富的可视化、交互功能。这些能力需要通过分布式计算、大数据处理、高性能计算等技术来实现,还需要进行包括索引、缓存、数据结构、并发、分布式存储、查询等多方面的设计和优化。解决方案的核心数据处理采用 HTAP 方式,将 OLTP(事务处理

56、)与OLAP(分析处理)相结合,以混合的工作负载形式同时支持 ACID 事务处理和查询分析。这一处理方式能够快速处理数据,支持实时的查询和分析,而且在查询和分析方式上具备灵活性,可以根据业务需求进行定制。此外,系统在支持分布式存储和计算能力后,可以处理大规模的数据和高并发访问,具有很好的扩展性。企业级图数据管理平台TuGraph构建了包含查询、探索、分析计算、服务、运维全栈的图技术体系,在业界创新地提出并实现了图计算“三线计算”(在例如,构建全域、实时的会员关系网络,可以支撑各类营销能力,包括:洞察、推荐、评分、风控等能力。例如:蚂蚁森林超过 5 亿用户的好友互动、新春五福的关系推荐,都采用了

57、基于图的解决方案,实现毫秒级的拉新、推荐和同步。针对两端人群(老年人、未成年人),基于图计算关系网络算法,对家人授权、身份更新等使用场景提供依据,降低产品使用障碍。还可以对用户的分享传播关系进行建模,助力业务快速冷启动、为传播价值进行实时打分,构建最优的分享传播网络。5.1.3整体成效5.1.4经验与启示21蚂蚁集团是移动支付平台支付宝的母公司,也是全球领先的金融科技开放平台,致力于以科技推动包括金融服务业在内的全球现代服务业的数字化升级,携手合作伙伴为消费者和小微企业提供普惠、绿色、可持续的服务,为世界带来微小而美好的改变。蚂蚁集团作为一家以科技为核心驱动力的企业,其业务涵盖了支付、数字金融

58、、科技、创新等领域,拥有强大的科技实力和丰富的业务经验。目前,蚂蚁集团研发了隐私计算、区块链、图计算、分布式数据库、绿色计算以及人工智能等核心技术,推出了“隐语”、“蚂蚁链”、“TuGraph 图计算系统”、“OceanBase 分布式数据库”等多个科技产品,广泛应用于支付宝、蚂蚁财富、花呗等产品,服务了数亿用户,并对外服务于金融、政务、能源、电信等行业。线、近线、离线)的能力,满足从毫秒级到天级不同时效性要求的场景需求。TuGraph 性能卓越,保证数据强一致性、持续可用,满足国标灾难恢复能力最高级要求。TuGraph 提供完善的可视化、零代码、一站式图平台,所见即所得。采用国际标准的图查询

59、语言 ISO-GQL,提供丰富的 API 接口及客户端能力,快速发布业务应用,便于集成。以图数据库为代表的新型数据库的存储数据结构、应用场景、数据分布均有较大变化。受行业认知、市场普及程度影响,新型数据库的性能基准评价尚未取得广泛共识。以金融场景为例,由于缺乏相应标准和评价工具,金融机构在进行图数据库选型测试时,只能基于自身的某个场景、内部数据进行测试,受限于业务理解,缺乏标准性、代表性,对业务长期发展可能不利;或使用一些非金融场景的基准测试(如基于社交网络的 LDBC-SNB 等),未必符合金融场景数据分布特点。为了解决这一困难,国际关联数据基准委员会(LDBC)设计了针对金融场景的图数据库

60、基准评价体系,命名为 LDBC-FinBench(下文简称FinBench)。FinBench 项目组由蚂蚁集团牵头,联合了国内外十余家图计算或图数据库领域的科技企业、行业专家参与。该评价体系模拟了金融场景下真实的数据分布和数据查询,帮助了解被测系统在金融场景下的综合表现,为客户选 择和采购图数据库产品提供了专业、客观的标准和工具。FinBench 同时也是一个行业基准测试。对于金融行业用户在图数据库的应用设计和产品创新等方面,也将激发更多技术应用的发展。5.1.5企业介绍22海致星图将图数据库技术赋能于信用卡积分套利团伙挖掘,体现出了前瞻性、先进性、实用性、突出性四点特性。5.2 海致星途基

61、于 AtlasGraph 的信用卡智能应用 一、技术方面主要聚焦于图数据规模和应用性能之间的矛盾,AtlasGraph 图数据库通过存算协同设计,从弹性原生图存储、混合事务图处理、实时高并发图计算以及应用生态建设等多个层面展开了系统性的技术攻关,设计实现了首个通用图随机游走引擎,能够为用户提供高性能的图存储、计算、查询、可视分析和展示服务。总体思路如下:随着数据智能时代的到来,金融行业机构进行了众多大数据及人工智能方面的探索,随着数据的不断积累与使用,暴露出了数据的孤立性、分析的模式化等问题,对数据的关联化、知识化、智能化做的相对不足。而知识图谱得益于其顶点和边的数据结构,具有了优秀的表达能力

62、,提供了从“关系”的角度去分析问题,发现问题的能力,能够更好地描摹世界真实存在的形态。同时,华夏银行信用卡中心在实际业务分析中的关系挖掘诉求也愈加明显,例如在信用卡积分管理方面,行内近几年的积分成本快速增长,根据积分商城交易订单及手机号等信息分析,存在积分套利客户及积分虚假交易情况。然而,积分套利多呈现团伙行为,行内现存分析工具无法实现关系网络的深度分析与应用,无法发现隐藏的团伙关系,在积分套利的发现上具有一定的局限。因此引入 AtlasGraph 图数据库为关系网络挖掘方面提供能力支撑。本案例主要包括技术、产品、业务三方面重点内容,以下分别对相关内容进行介绍。5.2.1案例概述5.2.2案例

63、说明23二、产品方面三、业务方面为降低用户开发、分析、应用图技术的成本与门槛,需对知识图谱的通用能力进行封装。在本案例中,我们基于 AtlasGraph 建设了集图构建、图挖掘、图查询、图分析、图服务于一体的通用知识图谱平台。知识图谱平台各模块功能设计,实现了和业务无关的灵活配置,解决了特定业务场景下进行知识图谱分析,需要定制化开发,耗时长成本高的痛点。面向业务的场景化设计,可以将图本体、图挖掘模型、图分析业务应用等封装为场景,针对特定的分析场景,无需用户重新设计构建图分析,极大降低了用户的使用门槛。信用卡积分商城本是银行为信用卡用户提供的增值服务,信用卡用户可以通过刷卡积累的积分兑换礼物,但

64、是却被“羊毛党”钻了空子,通过虚假交易进行套利欺诈的“薅羊毛”行为防不慎防,并已形成规模化黑产,不仅增加了信用卡业务的经营成本,也加大了坏账、逾期的潜在风险。1)原生存储,直接以图的方式存储、处理、查询和展现数据,通过重构数据存储架构、优化数据存储组织和传输过程,提供接近硬件极限的数据吞吐;2)混合事务分析,通过自研算子体系、查询和计算引擎以及算子下推等近数据计算措施,提供远超传统图数据库的极致查询和计算性能;3)研用结合,通过平台和技术的全力推广应用,形成应用-反馈-完善-再应用的良性循环,实现技术的迭代创新和产品的持续发展。本案例中我们针对积分套利团伙在积分积累端、使用端、关联共性等维度的

65、异常情况,结合规则+机器学习+图计算等手段,基于业务关系的深度挖掘,识别背后的团伙欺诈行为,从关系网络的视角分析客户的积分套利风险,突破截面风险识别视角,实现客户/商户群体的最优化分团,并进一步利用社区属性与网络特征建模,由关系网络模型输出的团伙积分套利的概率24三、产业价值高性能图计算涉及计算机整个产业链,是未来信息技术计算形态和产业变迁的关键推动力,是全球科技竞争新的战略制高点,也是中国有可能被“卡脖子”的领域,国家十四五规划明确将科技自立作为驱动国家创新发展的核心战略。构建国产自主可控的高性能图技术产品体系和应用生态环境,实现从技术到产业的全面突破性发展是必然趋势,有广阔的市场亟待开拓。

66、二、技术价值本方案已适配国产化硬件及操作系统环境。围绕该方案,已申请自主知识产权一百余项,获得授权发明专利 13 项;登记计算机软件著作权 40 项,技术成果被 ACM 收录、发布。针对大规模图数据存储与计算中的核心技术进行了创新性研究,包括图数据的三维划分与计算方法、高性能通用图随机游走引擎、基于图抽象的外存图计算方法等,通过以上技术创新,实现了计算性能提升 7 倍、索引性能提升 8 倍、数据传输吞吐提升了 4 倍、数据访问性能提升40%、元数据访问性能提升 168%。一、业务价值针对行内积分套利团伙挖掘业务场景,识别出了 20 万名疑似积分套利客户与 39 万户疑似套利商户,其中,套利客户

67、数据与行内历史积分套利黑名单数据进行比对,覆盖率高达 72%。同时,通过图计算挖掘疑似积分套利团伙,挖掘出 3.1 万个占黑率高于 80%的社群,实现了从点及面的积分套利风险分析模式。5.2.3整体成效值,评价团伙套利的风险程度。并且基于所构建的图谱,对客户/商户的关联网络信息进行可视化展示,提供深度挖掘以及其他图谱周边功能,为风险策略人员和审核人员赋能提效。25AtlasGraph 带动相关云计算配置需求超过 100 亿元,取得了显著的经济效益。未来,本方案将继续赋能于金融、电网、智慧城市等国家关键产业,优先推广至 70 余家总部级国有、民营金融机构,以及 14 个行业 3000 余家企业客

68、户,进一步提升行业效能和决策的智能性。1)打造高性能图计算生态体系,保持对全球科技竞争的战略均衡本项目将打造从计算加速硬件,到数据存储和数据计算软件,再到行业应用服务的一整套高性能图计算的生态体系和产业集群,构建中国高性能图计算的核心产业基地,促进中国图相关技术和产业的快速发展。2)提升金融行业科技服务水平,保障国家金融安全AtlasGraph 是对真实世界的完整描摹,以图的方式进行建模,能更好地表达万事万物之间的关系。在金融行业中,客户和客户之间的关系,基于关系的反洗钱、反欺诈团体的发现,风险的传导建模,供应链上下游的营销推广等场景下,图数据库计算速度比关系型数据库有指数级提升。3)培养了前

69、沿人才,推动了行业总体进步通过本案例核心技术和产品的研发,培养了一大批技术和业务“双精通”的高水平博士和硕士毕业生,并通过深度的合作交流,进一步提升了公司研发人员的技术水平。4)提升了自主可控程度,形成了国产替代效应AtlasGraph 是一款自主可控、遵循行业标准的高性能图存储与计算产品,可实现国外同类产品的有效代替,防止高新技术领域“卡脖子”现象的发生,在一定程度上保障了国家信息和应用安全。5.2.4社会价值263)业务方面图数据库项目的价值落地是依托于业务场景建设的,因此需充分理解行内知识的基础上,进行业务场景方案设计,通过行业化的业务模型进行知识图谱能力的落地。2)数据方面图数据库项目

70、往往涉及的数据源较多,例如银行业的大数据平台、数据仓库、核心系统、信贷管理系统、风险预警系统等行内数据,以及来源于外部数据平台和外部数据接口服务等行外数据,在项目落地过程中,需实现多源数据的充分融合与对齐,在部分关键信息缺失的前提下将存在一定问题,需采用相关技术手段予以解决,综合提升图数据质量。5.2.6企业介绍北京海致星图科技有限公司成立于 2015 年,致力于通过自主可控的大数据、图计算、知识图谱等核心技术,为用户提供图数据库、大数据平台建设咨询、知识图谱平台、分布式数据采集等产品及数据治理、云计算、大数据、数据智能等业务的咨询、开发、实施、维保服务,服务于金融、能源、制造等政府机构与企业

71、级用户的数字化转型,帮助用户构建数据驱动的智能管理运营体系,为用户的各项决策提供顶层视角。2021 年 3 月,海致星图与中国工程院院士郑纬民及其研究团队共同启动了“海致高性能图计算院士专家工作站”,合作研发高性能图计算这一新的尖端前沿的新技术,深耕基础技术领域,探索存储、计算、操作系统乃至芯片级的升级与创新,旨在成为具有认知智能硬核技术的高科技公司。1)技术方面图数据库项目落地过程中除了知识图谱相关技术,还会涉及大数据、机器学习、自然语言等多种技术与组件,平台层面需实现众多技术的融合与组件的有效协同。5.2.5经验与启示图数据库作为一项比较前沿的技术领域,在行业化落地过程中会存在较多潜在挑战

72、,主要表现在以下几方面:275.3.1案例概述5.3.2案例说明在金融发展的历史上,因各种风险造成银行倒闭的例子不胜枚举。其中,流动性风险是不得不关注的一大领域。尤其是近年来,随着国内、国际经济金融形势的变化,特别是面对巴塞尔协议的变化,以及我国推进利率市场化进程的逐步加快,重视流动性风险管理已成为业界和监管的共识。目前,无论国际还是国内,对流动性风险管理的理论趋于成熟,但在技术赋能层面并未有重大突破,传统 SQL 类型的数据库与大数据、数仓数湖框架并不能在面向全行、全量数据的情况下,实现流动性风险管理的实时性、量化可解释性、可追溯性、可归因以及场景模拟等核心业务诉求,尤其无法计量和控制多种类

73、型风险之间的相关性。嬴图 LRM 系统在“数据+规则+算法+算力”方面着力,旨在“算的更快”,“算的更准”,“算的更强”,赋能金融行业数字化转型。嬴图 LRM 流动性风险管理图中台系统(以下简称嬴图 LRM)是全球范围内利用图技术对流动性监管指标 LCR(流动性覆盖率)进行探索和管理的首个案例,具有高效实时计算与高可视化呈现、精准计量与多维度归因分析、底层科技驱动三大创新突破。5.3 嬴图 LRM 流动性风险管理图中台 (1)业务场景中的具体表现,包括但不局限以下情况:充分满足监管要求,白盒化、可审计、可校验、可归因;实时指标计算,秒级(毫秒级)时效性;6 大维度归因分析,明细级交易追溯,精准

74、穿透每个账户;百万组合压测场景;运维成本下降 75%,硬件规模降低 90%。28(2)实践成果案例材料:银行数字化转型方法与实践收录了嬴图运用图技术在金融风险(流动性风险、交叉性风险、全面风险等)进行探索和管理的突破性案例嬴图:图计算金融风险管理创新之“芯”。IBM 智能研究院首次将流动性风险管理技术列入商业银行数字化转型行动方略白皮书,这是全球范围内利用图技术对流动性风险进行探索和管理的首个案例。“该系统实现了对流动性风险多维度变化归因分析、正向模拟和反向追溯,可以通过一个账户或一个客户计算出 LCR 的传导路径,同时支持流动性风险压力测试及情景模拟操作”。5.3.3整体成效一、业务价值20

75、08 年的国际金融危机中,许多银行与金融机构尽管表面上看资本充足,但却因缺乏流动性而陷入困境,金融市场也出现了从流动性过剩到紧缺的迅速逆转。危机后,国际社会对流动性风险管理和监管予以前所未有的重视。巴塞尔委员会在 2008 年和 2010 年相继出台了稳健的流动性风险管理与监管原则和第三版巴塞尔协议:流动性风险计量、标准和监测的国际框架,构建了银行流动性风险管理和监管的全面框架,在进一步完善流动性风险管理定性要求的同时,首次提出了全球统一的流动性风险定量监管标准。2013 年 1 月,巴塞尔委员会公布第三版巴塞尔协议:流动性覆盖率和流动性风险监测标准,对 2010 年公布的流动性覆盖率标准进行

76、了修订完善。LCR(Liquidity Coverage Ratio),中文翻译为流动性覆盖率,是 Basel III 条约中规定的一个重要的监测指标。它的设计目标是在强化资本需求的同时增加银行的流动性。本案例是在嬴图数据库基础之上构建的一套端到端的解决方案嬴图 LRM 通过释放嬴图实时图数据库的算力及知识图谱的可视化、可解释性能力,赋能商业银行,掌控其资产、负债数据,以应对外部监管与内部增效的双重压力。通过 T+0、白盒化、高可视化、实时可追溯可模拟、量化传导路径计算的图中台系统替换了原有的黑盒化、T+1 方式工29作、不可回溯或传导的基于传统关系型数据库(Oracle Cash Flow

77、Engine)构建的 LCR 系统。嬴图 LRM 系统是全球范围内首创以实时图计算方式对巴塞尔条约 III 中的核心指标进行高效、便捷管理的工具。LCR 对于银行业务的指导意义巨大它不但是监管红线,更属于银行投融资的仪表盘。区别于过去,银行只能将 LCR 作为一个全行总体指标,无法细颗粒度诸如衡量单笔交易或单个客户的贡献程度等,而该系统则可以准确衡量出每笔业务对 LCR 指标的影响,并且可以保证当天所有业务的影响度相加刚好等于全行 LCR 的变化程度。总体来说,该系统能对海量、复杂数据进行实时计算并精准计量其变化原因,助力业务方第一时间预知风险变化,完成监管要求,实时调整行业业务决策,帮助制订

78、业务规则,最终实现银行在安全性、盈利性和流动性“三性”之间的平衡,做到运筹帷幄之中,决胜千里之外。2021 年,该系统助力某商业银行斩获亚洲银行家颁发的唯一全球流动性风险管理大奖。二、技术价值嬴图将实时图计算引擎与高可视化图谱系统相结合,构建了银行流动性风险管理系统嬴图 LRM。该系统作为全球首创以图计算方式计量巴塞尔协议 III 中的核心监管指标工具,具有 3D 可视化、实时计算、精准计量到每个账户,每笔交易、每一分钱等特点,真正实现了巴塞尔协议 III 核心监管指标的穿透式精准计量。在流动性压力测试情景方面,巴塞尔委员会和银保监会规定了15 种情景,嬴图 LRM 则进一步按照 LCR 指标

79、的 144 子项分类,对应地提供了组合超过百万种的压力测试情景,完全覆盖并满足监管要求。此外,系统还提供策略回检,LCR贡献度变化实时分析等功能。算力是检验底层硬核科技性能的标准之一。在长达数个月的对比测试中发现,基于 Oracle 传统数据库架构计算 LCR 需要 T+1,用嬴图实时图数据库则是实时(2 秒),在性能上存在千倍以上的差异。值得一提的是,如果作为一个大型商业银行,流动性指标计量是基于全行数据的计算,其中包括存贷款、零售、对公、同业等全量的、数以亿级的海量数据进行计算,且数据量还是覆盖 30 天以上,那么它的数据计量已达到百亿甚至千亿级,这是非常考验底层系统性能的承压能力的。30

80、相比传统架构搭建的 LCR 解决方案而言,采用图数据库可以清晰、高效的揭示复杂的关系模式,可以实时处理海量数据,并对结果进行实时可视化、传导路径可视化。这些正是 LCR 的外监管、内增效的核心诉求。实时可视化全景呈现。以实时交互可视化的方式,把原来只能通过数小时计算出来的 LCR 数值,变成了一个高可视化且白盒可解释的系统,可以全景呈现并实时分析流动性的构成、流动性变化的原因、流动性的监控预测等,能帮助金融机构大幅提升经营管理效率,提升服务质量,提供决策依据。嬴图LRM具有以下特点(见图 1所示):图 1 Oracle 现金流引擎 vs.嬴图 LRM通过高性能、操作简易的 3D 可视化来实现白

81、盒化可解释是嬴图LRM 系统的重要特点之一。实时可回溯让银行具备了通过图模型实时定位、追溯 LCR 变化的主要因素及传导路径。实时模拟能力的具备让银行可以对核心资债产品及业务进行基于场景模拟的量化分析能力。嬴图 LRM 系统的核心就是实现通过对接全行业务数据,完成数据开发以及图计算框架搭建来实现对 LCR 指标的快速计算以及实时可视化。流动性覆盖率(LCR)=(全行优质流动性资产/未来 30 日的资金净流出量)*100%嬴图 LRM 流动性风险管理图中台架构示意,具体见图 2 所示。31图 2 嬴图 LRM 产品架构嬴图 LRM 流动性风险管理系统主要功能展示,即 LCR 全局可视化与传导路径

82、(具体见图 3)和实时反向追溯(具体见图 4)。图 3 LCR 全局可视化与路径传导示意图图 4 LCR 实时反向追溯32嬴图 LRM 可以进行多纬度的变化归因分析,正向模拟和反向追溯,也就是可以通过一个账户或一个客户,不仅把经过行业、分行、资产类型等维度对于在 LCR 的传导路径计算出来,还可以实时可视化地呈现给业务人员。同时,业务人员可以在图中台系统上进行归因分析和压力测试及情景模拟操作。嬴图 LRM 系统不仅满足了监管需求,还实现了内部经营管理的数据支撑和业务驱动工具平台。空间可视化搜索结果具体见图 5,按照分行、行业聚类等高级功能的流动性风险管理系统全局视角具体见图 6。在 2008

83、年金融危机后,重视流动性风险管理逐渐成为业界和监管的共识,业界专家们在研究中发现风险具有关联性、相互转化、传递和耦合的特点,且风险传播渠道更为复杂,跨市场、跨领域的情况日益突出。就对技术的要求上来说,关系型传统数据库,目前虽然依旧保有市场量,但在处理海量、动态变化、多维度关联的数据需求方面图 6 流动性风险管理系统全局视角图 5 LCR 可视化搜索结果33明显力有不逮,且在成本、易用性、灵活性上短板日显。作为后起之秀的图计算与图数据库技术通过底层的实时图算力、高可视化、白盒实时回溯等性能,实现了逐笔金融风险的科学计量、深度下钻与穿透。对于图数据库来说,数据量越大、越复杂的关联查询,优势比关系型

84、数据库越明显。对比结果在图 7 中可见,随着查询深度线性增加(1(5),SQL 类数据库的时耗指数级增加,而相对而言,图数据的查询时间几乎持平(数据层面呈现一种亚线性增长的趋势)。在查询下钻深度为 1 层时,两种数据库性能差异并不明显;深度为2时(即转账1层),存在约10倍以上的性能差异;随着深度的增加,性能差异呈指数级上升。很明显,在 3 层查询的时候,关系型数据库的响应时间开始超过 30 秒,已经变得不可接受了;深度到 4 时,关系数据库需要近半个小时才能返回结果,使其无法应用于在线系统;深度到 5 时,关系型数据库已经无法完成查询。而对于图数据库,深度从3到5,其响应时间均在实时的范畴以

85、内。值得注意的是,图集数据的联通度如果很高,在 4-5 层深度的查询时,即便是从局部出发,也相当于在遍历全图,而这种操作对于 SQL 类数据库来说是耗时极大的,因耗时过长或资源耗尽而无法完成查询。集群规模更小,银行总拥有成本大幅度降低。金融机构在数字化转型的过程中,系统要满足业务发展的需要,实现快速部署、方便扩展、快速迭代,这是嬴图 LRM 的另一大突破,不管是从开发部署,还是从运维的角度看,嬴图 LRM 都可以比原有系统做到约 75%的成本降低。图 7 两种数据库的性能差异345.3.4经验与启示(1)现有流动性风险管理模式的痛点LCR 对于很多商业银行而言是个复杂、难以掌控的“新物种”,即

86、便是对于已经部署了LCR系统的银行,基于传统关系型数据库(如Oracle)的解决方案存在如下问题:已有的LCR指标计算的系统均采用黑盒化(不可解释)方式实现,系统的整个运行过程不透明,也没有细化、量化的指标可以追踪例如变化率、传导路径等要素。这个限制让银行对于流动性覆盖率的理解仅限于一个%数值,而无法深度理解业务变化对于流动性覆盖率的影响度。黑盒化:过往的流动性覆盖率指标因缺乏图计算支撑,无法实现反向追溯,既从LCR指标无法反推、追溯到影响该指标的贡献度最大的业务、账户或其它因素。无法追溯意味着银行只能拿着一个 LCR 指标来应付监管,但是无法深入理解自己的核心业务表现,并因地制宜地调整业务发

87、展指标。无反向回溯(无归因分析):与反向回溯相对的能力是正向模拟,既从某个分行、某个行业、某个地区、某类账户、某笔交易出发按照“脑图”网络中沿路径传导的方式来模拟某些指标的变化对于 LCR 的影响。这种能力的缺失让银行无法智能化地预测、评估和设计自己的产品、调整业务方向。无正向模拟:图谱可视化、实时可视化路径传导都是让 LCR 指标计算透明、可解释的重要手段。缺乏这些手段支撑的流动性覆盖率就只是一个单纯的指标,对于通过全面分析资产与债务来实现内部增效毫无助益。无可视化传导路径:35值得一提的是,流动性风险管理指标是金融机构需要报送的重要监管指标,而大型商业银行、股份制银行,甚至头部城商行,数据

88、量非常大。区别于此前 Oracle 系统每天花费几个小时才能计算出LCR 指标,嬴图 LRM 系统只用 1 秒钟即可实现计算结果。同时,传统的 Oracle-LCR 指标是黑盒化的,这对于业务人员来说,很难分析出该指标是由什么构成的,计算结果是否正确,计算过程是否精准,也不能反映出银行业务的哪些状况和预警,嬴图 LRM 通过超级节点穿透、高密度并发、动态剪枝、多级存储计算加速等创新性的专利技术,实现了对动态、海量数据的实时计量、白盒化和可解释以及LCR 相关的业务数据的加载与计算耗时持久,无法以 T+0 或实时的方式计算,更不能做到实时模拟、回溯、量化计算等操作。(2)嬴图 LRM 的实践应用

89、:以大型商业银行场景为例,系统阐述定制一套端到端的流动性风险管理系统的解决方案至少需要实现以下功能:非实时化:1.监测流动性状况,每日计算各个设定时间段的现金流入、流出及缺口;2.计算流动性风险监管和监测指标,并在必要时提高监测频率;3.支持流动性风险限额的监测和控制;4.支持对大额资金流动的监控;5.支持对优质流动性资产及其他无变现障碍资产种类、数量、币种、所处地域和机构、托管账户等信息的监测;6.支持对融资抵(质)押品种类、数量、币种、所处地域和机构、托管账户等信息的监测;7.支持在不同假设情景下实时压力测试。365.3.5企业介绍深度下钻、科学计量、多维度归因分析等性能,以更好地赋能金融

90、行业面临的监管挑战,并已在金融行业取得深度应用。北京同心尚科技有限公司(以下简称同心尚科技)致力于构建新一代图增强 XAI 与实时图数据库系统,以图增强智能的方式赋能企业数字化转型。全部产品100%自研并拥有核心知识产权(核心组件不依赖任何开源代码),是国家高新技术企业。创始团队来自于硅谷和全球财富 100 强企业的技术与业务专家。服务的核心客户来自于全球头部金融机构与跨国公司。同心尚科技的核心产品嬴图数据库及系列工具取得了颠覆性技术应用创新,对现有的 AI/ML 及大模型架构有模型增效、加速、大幅提高预测准确率及可解释性的特点。在计算时效性上领先美国硅谷同类产品 10-100 倍以上,在银行

91、业风险管理等指标计量时运行速度达到甲骨文(Oracle)数据库 5000 倍以上,并在构建智慧经营的流动性风险管理图中台、资产负债管理图中台过程中成功破解了Oracle现金流引擎与规则引擎两大“黑盒子”,是全球范围内首次以图数据库技术(图计算)方式颠覆性赋能金融行业核心场景的标杆案例。375.4.1案例概述5.4.2案例说明该银行自 2019 年开始,从解决信贷申请领域的团伙欺诈问题出发,开始引入 Galaxybase 国产高性能原生分布式图数据库以构建大规模数据集下的图存储和图计算能力。通过市场调研,并参考了信通院图数据库白皮书图数据库基准能力测试等标准,围绕图数据库的基本操作能力、图模型管

92、理能力、分布式能力、权限管理能力方面进行考察,最终完成了创邻科技Galaxybase 自主可控分布式图数据库集群的引入投产。项目以分布式图数据库与图计算框架为核心,构建了支持知识工程全流程处理的一站式知识图谱平台;实现了面向分析和面向交易两类图谱能力,分别用于关联挖掘与实时组网决策;融合行内外数据,构建了“N+”金融领域图谱,以超结构化数据驱动风险、营销、审计等数十个场景的业务创新。创邻 Galaxybase 国产高性能图数据库,打造关联数据挖掘基础设施,实现海量多维关联数据融合,助力增益数据资产价值。5.4 创邻科技Galaxybase 国产高性能图数据库在某全国股份制银行的建设与应用一、构

93、建企业图谱,赋能数字化风控与营销场景。由于企业跨地域、集团化经营业态的发展,使得客户风险表现形式更加多元化,信息不对称进一步加剧,风险管理难度持续加大。该银行为了应对复杂的经济形势,需要持续加强数字化风控能力,扩大观察视角,从客户整体关系网络角度评判风险。同时在营销场景中,传统的营销方式已无法满足快速变化的市场要求,数字化营销是营销转型的策略之一。该银行利用图数据库首先实现行内客户信息、风险相关数据和行外工商数据的拉通,然后提取法人、自然人、集团三类实体,和担保、抵质押、股权、法定代表人、额度使用等几十种基础关系,38并通过图算法深度挖掘担保圈、担保链、互保、集中性担保、间接持股等隐形关联关系

94、,进而了构建企业全息图谱,共计近百亿数据;并对复杂的关系图谱网络进行可视化建设,根据不同关系类型提供不同可视化方案,做到企业客户“一眼清”,为风险管理全流程中各类业务人员、管理人员以及各类风险管理系统提供关联分析支持。同时企业图谱也应用于营销获客场景中,实现基于客户关系网络的营销线索挖掘,筛选出与本行存量客户有关联关系且关联关系符合一定特征的潜力客户,下发经营机构组织开展精准营销及客户关系维护,经统计此类潜力客户的营销成功率是无关系客户的 6 倍以上。二、构建交易图谱,全方位保障资金交易安全合规。将资金交易抽象为网络,将一次交易作为网络中的边,交易双方为网络中的点,每一条交易边从资金转出的一方

95、起始,指向资金转入的一方。但是交易网络的构建与计算技术难度较大,首先是网络中的点、边数量都非常多,且随时间推移只增不减,这与相对稳定的企业集团关系是不同的。其次属性信息量也很多:点属性涉及客户的身份信息、账户信息;边属性涉及交易时间、金额、附言、渠道等。再次,图谱中会存在明显的超点,即单位时间内交易次数明显高于其他账户的账户实体。超点往往会极大影响图计算的性能。该银行以图数据库为基础设施,构建交易图谱,应用在异常资金流向监测、交易环路挖掘等场景。票据贴现资金流向监控是典型应用案例之一:央行的 126 号文等监管文件对于票据贴现业务给出了明确的监管要求,严禁票据贴现资金回流前手,严禁以贷款、贴现

96、资金作保证金办理银行承兑汇票,虚增存款。以往人工跟踪贴现资金流向效率较低且监控范围有限,亟需进行更高效、更全面的流向预警手段。在图数据库高性能的图存储和计算能力基础上,结合图算法解决了上述技术难题,也为资金流向监控提供了新方案。该银行以交易流水、票据信息、背书历史、客户信息作为原数据,抽取出票据、公司、账户六类实体,和出票、收款、背书、贴现、转账、所属六种关系,进而构建形成票据的交易网络图谱;运用图算法进行社团39三、构建信贷申请图谱,实现全流程实时组网风控。近年来欺诈风险呈现多产业链、多团伙等特点,团体欺诈风险识别难度愈加递增,传统的反欺诈体系已无法满足当前复杂欺诈模式的识别。同时信贷领域愈

97、加强调掌握用户间的关联关系以及信贷申请行为的聚集性特征,而用图数据库构建关联图谱在识别用户关系和聚集性特征方面就有着不可替代的优势。该行为更好地保护客户资产安全,增强自身欺诈识别能力,利用图数据库建设了信贷全流程的实时组网风控体系,如图 10 所示。通过知识图谱平台将信贷申请信息、设备信息、联系方式、工作单位、地址、受托支付、交易等行内关系数据和外部工商数据加工成信贷申请图谱,同时应用图实时计算技术,打造从关系视角进行风险分析的实时组网风控体系,支持在贷前、贷中、贷后全流程识别关联风险。并将实时组网风控结果进行可视化展示,提供交互式分析功能,配合相关的特征指标,帮助业务核查风险。目前已为小微和

98、消贷的 50+信贷产品申请提供实时组网与风险计算服务,响应时间达到毫秒级别。图数据库应用场景具体见图 11。划分与流向传播,识别交易网络中环路、汇聚、群组等复杂交易形态;运用流水中交易对手、资金用途、交易附言进行预警规则研判;运用机器学习算法预测贴现资金违规概率;最终形成了覆盖同名划转行外、流入保证金、流入房市、流入理财、流入股市、回流前手、流入存单七类违规场景的预警信息,并提供违规案例的可解释性图谱,便捷辅助业务决策。图 10 信贷申请实时组网风控流程图40图 11 图数据库应用场景汇总5.4.3整体成效中国人民银行金融科技发展规划(2022-2025 年)指出,金融科技作为技术驱动的金融创

99、新,是深化金融供给侧结构性改革、增强金融服务实体经济能力的重要引擎。图数据库是实现对海量多样化多维度数据资源进行价值挖掘和关联分析的核心技术基础设施,在银行业的数字化转型中发挥着越来越重要的作用。从 2019 年建设至今,该银行实现了知识图谱体系完成了从无到有的跨越,支持多集群批量分析、实时计算图数据;沉淀了企业图谱、信贷风险图谱、集团图谱、资金交易等多个图谱;触达风险防控、营销获客、信贷申请、票据贴现、审计、反洗钱等20+业务领域;通过降本增效、智能风控、关联拓客、创新营销持续为银行创造价值。从产业与社会层面看,图数据库提供的关联数据整合、分析、挖掘、展示能力,为金融机构高效实现数字化风控、

100、提升业务规模、识别信贷欺诈、降低不良率等方面提供了有力支撑。为全面推动金融业高质量发展、持续提升金融服务实体经济能力、强化预警监测、打击非法金融活动提供了有力保障。41图 12 平台应用架构图5.4.4经验与启示5.4.5企业介绍本案例以图数据库为底层基础设施,完成包含“1+2+N”模式的知识图谱体系建设,为多个业务场景提供服务。在存储方面,以国产原生分布式高性能图数据库 Galaxybase 为核心,实现了生产多模态集群,分别服务于分析场景和交易场景。在图谱工程层,提供了界面化的工程能力,能够通过“拖拉拽”的挖掘流程构建复杂图谱,针对图谱研发的全流程提供了各类组件,从而推进图谱数据和应用场景

101、的规模化落地。在图谱服务层,为同时满足面向分析和面向交易的服务模式,构建了图谱分析模块和图谱服务引擎模块。最终,将各项数据、服务和能力封装后,形成独立的数据应用产品,构建零售客户、法人客户和集团客户的全景视图,赋能业务发展。平台应用架构具体见图 12。浙江创邻科技有限公司是图数据库领域准独角兽企业,具备一支由国家领军人才、浙江省千人计划专家及国内外名校博硕组成的高精尖研发团队。创邻科技全自主研发的 Galaxybase 原生分布式高性能图平台,高效实现了海量数据的实时深链查询、在线分析、智能挖掘,性能打破多项世界纪录,已在金融、互联网、能源、公安等行业深耕,在线服务了五大行、头部股份制银行、城

102、商行、农商行、国家电网、南方电网、腾讯等头部客户,总计提供超过万亿规模的智慧图谱服务。后续项目将持续优化基于图数据库的基础设施建设和便捷使用、提升图谱数量和质量、促进应用的智能化等方面持续发力,推动数据和算法在业务端的纵深赋能。425.5.1案例概述该银行是一家中国领先的大型商业银行,2022 年末市值约为 1,585.41亿美元,居全球上市银行第4位。按一级资本排序,在全球银行中位列第二。该银行为客户提供公司金融业务、个人金融业务、资金资管业务等全面的金融服务,设有 14,356 个分支机构,拥有 352,588 位员工,服务 7.39亿个人客户和 935 万公司客户。在基金、租赁、信托、保

103、险、期货、养老金、投行等多个行业拥有子公司。境外机构覆盖 31 个国家和地区,拥有各级境外机构近 200 家。作为中国排名前五的国有银行,该银行决策层认为图分析将是大数据分析的下一个创新,也对 TigerGraph 的 NPL(原生并行图)概念印象深刻。从其大数据创新中心开始引入图技术。该客户曾经试用过 Neo4J,但它不支持 TB 级别的数据。此外,还尝试了一些基于开源的国内解决方案,例如JanusGraph,腾讯的图解决方案,但由于缺乏企业级功能支持,这些解决方案都不适合。TigerGraph 配合客户对典型图分析的场景,从技术平台搭建到业务方案的落地,双方的团队积极配合,互相交流,成功完

104、成了技术验证,并在反洗钱、欺诈识别、风险预测、管理决策等多个业务场景中证实了对于现有业务的价值提升。TigerGraph在应用案例中展现出其卓越能力,通过构建一个集图存储、图计算和图可视化于一体的解决方案,识别欺诈团伙、洗钱行为以及潜在的卧底账户。这一系统没有性能瓶颈,支持处理 TB 级别的海量数据,且通过将图技术与机器学习相结合,显著提升风控能力,提高风险控制的效率和准确性。5.5 TigerGraph国内某 top5 银行利用 TigerGraph 打造图存储+图 计算+图可视化的一体化的反洗钱反欺诈解决方案435.5.2案例说明以反套现体系为例,目前反套现监测是基于 SAS 的结果进行分

105、析,由于性能瓶颈,存在计算周期过长(3-4 天),系统无法完全实现业务人员设计的审计场景,以致无法发现某些反套现行为,比如:银行信用卡风控场景,分为贷前、贷中、贷后,信用卡套现其实是一种资金回流,图数据库会比关系型数据库更好地探查这种资金回流,更好地表现数据之间的关系。经过对场景实现和性能的考察,加入了典型的欺诈环场景作为既有规则的补充,并将这些场景在 TigerGraph 中实现。在反套现与机器学习的结合上,同样利用 TigerGraph 的性能优势,在原有特征的基础上,基于图关系提取和业务更紧密相关的一系列图特征,从而提升套现识别能力。海量流水银行信用卡用户亿级,每月交易笔数亿级,转账交易

106、流水至少十亿级;黑样本稀缺经过有效审核的套现黑卡数量极少或没有,由规则标注的疑似样例可靠性不足;完美账单套现黑灰产提供完美账单服务,无法从明细数据看出异常交易行为;数据孤岛银行之间的交易数据没有共享,跨行交易阻断了完整资金链路的闭环,导致套现难以侦测。445.5.3整体成效TigerGraph 集群为该银行云图数据库的基础,提供了一整套图存储+图计算+图可视化的反洗钱反欺诈解决方案。业务价值方面比如,利用团伙挖掘技术挖掘信用卡申请欺诈团伙,上线初期就识别出大量高度疑似的申请欺诈团伙组织;利用 TigerGraph 图数据库构建账户间资金交易关系图,应用于反洗钱分析场景,用于发现新的可疑洗钱账户

107、,经过上线半年的监测,发现近千个可疑账户转换;同样利用 TigerGraph 图数据库构建账户间关系网络,用于发现潜伏行内的欺诈账户(卧底账户),上线初期就发现中高风险账户上千个。技术价值方面比如在一个 TigerGraph 实例中构建近 10 张子图,近 200 个类型的顶点,超一千种关系边,3500 多个属性,近 400 个查询,作为全行平台,服务分行近 20 家、近 10 个部门、50 多个应用需求。高速数据加载和建图每台计算机每小时可加载高达 50-150GB 的数据;高速并行图算法执行每台计算机每秒钟可以遍历数以亿计的点或边;能够将实时数据分析与海量离线数据处理相结合;支持云化特性,

108、提供完善的云化特性,包括弹性、可用性、多租户、自运维等;具备高可用架构,任意单个服务节点故障不会影响组件对外服务能力,保证业务连续性,具备可拓展性,根据业务的增长需求可进行服务节点横向和纵向扩展;数据访问安全性,支持基于用户角色和多图分配数据查看权限;数据遍历性能,以24核128g内存机器为例,每秒遍历800万点,1500万边;455.5.4经验与启示5.5.5企业介绍在金融行业中,基于图数据库进行相关分析是一个重要的创新手段,尤其是大规模复杂关系网络分析,更是需要使用多种图算法分析技术。该案例中的银行从其大数据创新中心开始引入图技术,并逐步扩展至全行平台,说明大型商业银行在采用图技术时,最佳

109、的实施策略是采取渐进方式,然后逐步深入和扩大。在实际业务中,由于缺少与结果高度相关的特征,同时训练的数据集又不够丰富,往往导致机器学习的准确性比较差,甚至失败。将图技术与机器学习相结合,在原有特征的基础上,基于图关系提取和业务更紧密相关的一系列图特征,可以有效提升机器学习的准确性。目前,TigerGraph 已实现 50 多类图算法技术,希望在未来能提供更多样的场景类图算法,实现多场景下高效的实时计算查询。同时,希望能与客户、合作伙伴进行更多的沟通学习,提供更多基于场景案例的培训,从而提升建模分析人员的图分析能力与实际场景应用能力。企业级可扩展图数据库 TigerGraph,其成熟技术连接了数

110、据孤岛,可进行更大规模、更深入的运营分析。全球十大银行中有七家正在使用TigerGraph 进行实时欺诈检测。在美国有超过 5000 万患者接受了护理路径建议,以帮助他们进行康复之旅。3 亿消费者通过 TigerGraph 支持的推荐引擎获得个性化推荐。TigerGraph 对 10 亿人口的能源基础设施进行了优化,以减少电力中断。TigerGraph 的成熟技术支持欺诈检测、客户 360、主数据管理(MDM)、物联网(IoT)、AI 和机器学习等应用程序。TigerGraph 总部位于加利福尼亚州红木城,中国总部位于上海,隶属于维加星信息科技(上海)有限公司。基于 TigerGraph 图技术的智能应用,该银行大幅提升了内部的风控能力,将各类可能会对个人客户或企业客户产生负面影响的风险进行有效地防控,既保护了客户的利益,也维护了社会的稳定。

友情提示

1、下载报告失败解决办法
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。

本文(前沿监管科技:2024高性能图数据库金融应用白皮书(48页).pdf)为本站 (Flechazo) 主动上传,三个皮匠报告文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三个皮匠报告文库(点击联系客服),我们立即给予删除!

温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。
客服
商务合作
小程序
服务号
会员动态
会员动态 会员动态:

拾**...  升级为至尊VIP  拾**... 升级为高级VIP

wei**n_... 升级为标准VIP pzx**21 升级为至尊VIP 

185**69...  升级为至尊VIP wei**n_...  升级为标准VIP

183**08...  升级为至尊VIP  137**12...  升级为标准VIP

 林  升级为标准VIP 159**19...  升级为标准VIP

wei**n_...  升级为高级VIP 朵妈  升级为至尊VIP

186**60... 升级为至尊VIP    153**00... 升级为高级VIP 

 wei**n_... 升级为至尊VIP wei**n_... 升级为高级VIP 

 135**79...  升级为至尊VIP 130**19...  升级为高级VIP

wei**n_... 升级为至尊VIP  wei**n_...  升级为标准VIP 

136**12... 升级为标准VIP 137**24... 升级为标准VIP

理**... 升级为标准VIP wei**n_...  升级为标准VIP 

wei**n_...  升级为至尊VIP    135**12... 升级为标准VIP

wei**n_...   升级为至尊VIP wei**n_...  升级为标准VIP

 特** 升级为至尊VIP  138**31...  升级为高级VIP

wei**n_...  升级为标准VIP  wei**n_...  升级为高级VIP

186**13...  升级为至尊VIP 分**  升级为至尊VIP

 set**er 升级为高级VIP  139**80... 升级为至尊VIP 

 wei**n_... 升级为标准VIP   wei**n_... 升级为高级VIP

 wei**n_... 升级为至尊VIP 一朴**P...  升级为标准VIP 

 133**88...  升级为至尊VIP  wei**n_... 升级为高级VIP

 159**56...  升级为高级VIP  159**56... 升级为标准VIP

升级为至尊VIP 136**96... 升级为高级VIP

wei**n_... 升级为至尊VIP  wei**n_... 升级为至尊VIP

 wei**n_...  升级为标准VIP 186**65... 升级为标准VIP 

 137**92... 升级为标准VIP 139**06...  升级为高级VIP 

130**09... 升级为高级VIP  wei**n_... 升级为至尊VIP

wei**n_... 升级为至尊VIP   wei**n_... 升级为至尊VIP

 wei**n_... 升级为至尊VIP  158**33... 升级为高级VIP

 骑**...  升级为高级VIP wei**n_... 升级为高级VIP

wei**n_... 升级为至尊VIP 150**42...  升级为至尊VIP

185**92...  升级为高级VIP dav**_w...  升级为至尊VIP

 zhu**zh...  升级为高级VIP  wei**n_... 升级为至尊VIP

136**49...  升级为标准VIP  158**39... 升级为高级VIP 

wei**n_...  升级为高级VIP 139**38...  升级为高级VIP

159**12...  升级为至尊VIP 微**... 升级为高级VIP 

 185**23... 升级为至尊VIP  wei**n_... 升级为标准VIP

152**85... 升级为至尊VIP   ask**un 升级为至尊VIP

 136**21... 升级为至尊VIP 微**... 升级为至尊VIP  

135**38... 升级为至尊VIP   139**14... 升级为至尊VIP 

138**36... 升级为至尊VIP  136**02... 升级为至尊VIP 

139**63... 升级为高级VIP   wei**n_... 升级为高级VIP 

Ssx**om 升级为高级VIP   wei**n_... 升级为至尊VIP

131**90...   升级为至尊VIP 188**13... 升级为标准VIP

 159**90... 升级为标准VIP  风诰 升级为至尊VIP  

 182**81... 升级为标准VIP 133**39... 升级为高级VIP

wei**n_... 升级为至尊VIP  段** 升级为至尊VIP 

wei**n_... 升级为至尊VIP 136**65...  升级为至尊VIP

136**03... 升级为高级VIP   wei**n_...  升级为标准VIP

 137**52... 升级为标准VIP 139**61... 升级为至尊VIP