《沈游人-RustCC-AtlasGraph.pptx》由会员分享,可在线阅读,更多相关《沈游人-RustCC-AtlasGraph.pptx(38页珍藏版)》请在三个皮匠报告上搜索。
1、新一代分布式高性能图数据库的构建北京海致星图科技有限公司 2023-06-18沈游人数据库与大数据专场海致简介企业级知识图谱开创者专业顶尖技术团队支撑专业顶尖技术团队支撑超700人团队,其中 80%为技术人员,创始团队在完成全球第一个中文知识图谱网站研发后,探索知识图谱技术在企业领域的应用。2021年,海致院士专家工作站成立,站内清华大学计算机博士生占比达90%以上。企业级数据解决方案专家企业级数据解决方案专家为建行、工行、交行、招行、上交所、深交所、中国人寿等70+银行证券保险企业、公安部、上海市公安局、武汉市公安局等100+公安机构,国家电网、国信通产业集团等电力能源行业提供数据智能产品解
2、决方案及长期服务。海致专注为政府、金融、能源等客户提供大数据处理、分析、挖掘服务,在互联网技术基础上,打造专业、易用的企业级大数据实战应用产品及解决方案。北京中关村总部武汉运维中心深圳研发中心上海应用中心专注于数据智能技术赋能中国数字经济发展专注于数据智能技术赋能中国数字经济发展海致高性能图计算院士专家工作站郑纬民郑纬民-海致科技首席科学家海致科技首席科学家中国工程院院士、清华大学计算机科学与技术系教授、中国计算机学会前理事长,中国计算机系统结构的学科带头人,我国高性能计算和存储系统等方面的泰斗和先行者。2021年3月25日,海致科技与清华大学计算机科学与技术系共同建设高性能图计算院士专家工作
3、站。高性能图计算是高性能计算、图计算两项技术融合产生的新的技术方向,满足人们对更大规模、更复杂数据的实时处理和存储需求,是计算机领域竞争新战略制高点。产学结合、协同创新,打造全球领先的国产自研图数据库AtlasGraph,培育世界级的图计算软硬件生态体系,保持对全球科技竞争的战略均衡。海致高性能图计算院士专家工作站海致高性能图计算院士专家工作站海致获得“2021年CCF科学技术奖科技进步卓越奖”CCF科学技术奖被认为是计算机科学与技术领域最具影响力的专业奖项之一,其中科技进步卓越奖是CCF科技进步奖评选中的最高级别奖项,旨在嘉奖在计算机科学、技术或工程领域具有重要发现、发明、原始创新,在相关领
4、域有一定国际影响的优秀成果,AtlasGraph的获奖证明了其技术领先性、创新性、重要性,在自主可控浪潮下,实现了对国外产品的有效替代,防止高新技术领域“卡脖子”现象的发生。海致科技集团、海致星图联合清华大学研发的“AtlasGraph大规模图数据分析平台”荣获中国计算机学会(CCF:China Computer Federation)“2021年CCF科学技术奖科技进步卓越奖”。伴随市场对于知识图谱应用的不断深入,图数据规模和应用性能之间的矛盾愈加凸显,海致针对以上背景展开了系统性的技术攻关,解决了图数据的高效存储、索引及复制难题,提出了基于图缩减的高效分析方法,并孵化出了一个大规模图数据分
5、析平台AtlasGraph。5获得获得20222022年中国电子学会科学技术奖科技进步一等奖年中国电子学会科学技术奖科技进步一等奖中国电子学会发布的2022中国电子学会科学技术奖公告,海致星图与北京邮电大学、蚂蚁科技集团有限公司、中移动信息技术有限公司联合研发的“大规模复杂异质图数据智能分析技术与规模化应用”项目,斩获“科学技术奖科技进步一等奖”,这也是国内电子信息领域的最高奖项。该奖项由数十名院士评审,历经三轮,从三百余个申报项目中遴选而出。由院士等组成的科技成果鉴定委员会认为:“该成果技术复杂度高,研制难度大,创新性强,项目成果整体达到国际先进水平,其中异质图建模与表示学习技术和超大规模图
6、学习系统处于国际领先水平。”以终为始,以行为知,这一项目从图计算所面临的挑战出发,解决了大规模图数据所产生的建模能力不足、结构知识难用、巨量数据难算等技术挑战,实现了大规模复杂异质图数据的表示学习模型、语义推荐和风险管理关键技术,构建了完整的兼具理论指导与应用检验的大规模图数据智能分析系统与平台,满足了大数据时代从复杂异质图数据中进行知识发现的重要需求。最终获得国内外授权发明专利 43 项,CCF-A 类论文 51 篇,获得 2 次国际竞赛冠军,参与了2项图计算相关标准制定。AtlasGraph架构及实现图技术简介Takeway“世界是复杂关系的总和”一张典型的知识图谱电话/同通讯录/绑定同账
7、户/.Mac地址/IP地址/wifi.亲属/同事/一致行动人/担保同地址/同设备登陆/.已签署/过期签署/意向签署/.已签署/过期签署/意向签署/.董监高/就职/实际控制人拥有/抵押/质押股权/资管计划/资金往来/担保/借贷/集团/控股/上下游.父子/组合/继承转账/大额转账/频繁转账/.拥有拥有持有登录/连接已购买/意向购买/潜在购买/.个人客户账户机构客户资产合约员工手机号设备商品商品查询/操作生活中无处不在的图图分析技术分类图查询 使用图数据库的查询语言进行点边搜索图算法 中心性算法 社区算法 路径算法 图深度学习 图嵌入 图卷积 图注意力网络 图自编码器图查询及其应用场景图查询使用图数
8、据库的查询语言进行点边的关联查询,可以快速完成传统数据库难以完成的 多度点边关联当前图的典型应用场景路径识别群体挖掘节点识别相似节点链接预测连接强度一致行动人同事关系实际控制人可能认识的人上下游同爱好的人亲属关系人与人、企业与企业、企业与人之间的复杂、潜在关系推导和挖掘为已有的分析模型增加“关系特征”维度客户贡献度客户信用分客户忠诚度客户欺诈分客户风险度违约概率客户资质集团关系社群关系欺诈团伙担保关系资金圈/链设别出带有某种共同特征的企业或个人群体舆情传导营销传导风险传导计算某个事件在关联的企业、个人之间的传递过程和传递概率图深度学习及其应用场景图嵌入将高维的图信息映射到低维向量中通过图嵌入将
9、客户关系表示为低维向量,可以结合其他客户行为特征进行机器学习训练图卷积神经网络对图结构数据进行卷积计算通过已有的企业数据,通过GCN进行半监督学习和分类,预测企业的违约概率传统的关系型数据库的存储方式丢失了事物之间的关系信息Relational TableRelational TableReal WorldReal WorldMulti-Context is Preserved with Graph AnalyticsSource:KDnuggets图技术全景图Graph Technology Landscape 2020图数据库图数据建模图计算引擎图数据集成可视化分析知识图谱解决方案图查询语
10、言欺诈检测网络安全分析社交网络分析BI工具图分析工具集图咨询服务Source:Graph Aware图数据库发展趋势AtlasGraph研发背景 业务对大图分析的诉求(千亿点、万亿边)实时风控对图库的性能挑战(OLTP毫秒级响应)海致图平台产品服务于金融、政府行业有大量业务经验积累(接近客户需求)现有开源产品无法满足要求(受限于基础架构设计,优化性能有限)新一代分布式图数据库需具备的特性特性信雅达高可用一致性(事务)高性能低资源消耗易用功能丰富AtlasGraph关键特性云原生云原生Cloud-Native Graph Database支持弹性伸缩,有效利用硬件资源,高可用,高可靠,故障自愈,
11、低成本运维HTAPHTAPHybrid Transactional/Analytical Processing,高性能图计算引擎,预置20余种图计算算法,可扩展的分析引擎支持更复杂的数据挖掘和机器学习场景MPPMPPMassively Parallel Processing架构,大规模集群分布式存储及并行计算,Shared Nothing模式支持存储计算分离高性能高性能基于Rust开发的分布式存储引擎及图计算引擎,精细的内存管理设计,内置索引系统,支持毫秒级的并发查询响应速度易用易用AQL(Atlas Graph Query Language),类SQL的图查询语言,内置上百种分析函数,面向分
12、析师友好,拥抱标准,基于openCypher向ISO GQL迈进实时大图实时大图支持万亿节点存储及流式计算引擎的结合,最新数据实时入库构图,为在线业务决策分析提供有力支撑AtlasGraph架构及实现新一代图技术应用特征简介TakeawayAtlasGraph架构概览存储层 副本管理CRAQ图原生存储索引LSM-Tree容灾保障(BR)元数据层 事务管理MVOCC计算层 CypherAST优化器图计算内存加速引擎服务接口HTTP/RPCSpark连接器Python UDF执行器索引管理一致性存储 RAFT分片管理元数据集群管理用户权限GNN应用层 Atlas图平台AtlasStudioAtla
13、sClient基础设施Docker/K8S/VM X86/ARM-基于RUST语言保证性能优势-分布式架构性能可线性扩展-针对大规模图优化的存算引擎-配合Atlas图平台,实现无代码图分析-Query性能分析模块,启发式提示优化-内置多种分析函数,面向分析师友好-MVOCC保证事务一致性-多副本管理保证数据服务高可用-在线备份提供容灾保障高速易用可靠Why Rust?Performance Blazingly fast and memory-efficient No runtime or garbage collectorReliability Guaranteed memory safety
14、“Fearless Concurrency”Productivity Modern development tools Lots of amazing librariesRust编译通过了bug比cpp少上百倍!图模型Labeled Property Graph ModelArbitrary(key,value)pairs where key identifies a property and value is the corresponding value of this propertyPropertiesTypes(or classes)of vertices and edgesLabe
15、ls查询语言:基于Cypher贴合ISO GQL Standard Incorporate by reference specifications from SQL/Framework and SQL/Foundation Capabilities needed by both SQL/PGQ(Property Graph Queries in SQL)and the GQL standard GQL Specific Capabilities2019-09 39075 Database Language GQL project approved-this is the start2021-1
16、1 CD Ballot started2022-02 CD Ballot ended and comment resolution started2023-06 DIS(Draft International Standard)Ballot starts2023-11 DIS ballot ends2024-04 International Standard类SQL语言,简单易用,面向分析师友好查询引擎:计算请求执行流程Cypher ASTUnresolvedLogical PlanLogical PlanOptimizedLogical PlanPhysical PlanProgramAPI
17、Analysis rulesOptimization rules:MATCH-pushdownPlanning StrategiesGraph ExecutionCode GenJITCost modelStorage backend(Property Graph KV store)Pushdown filterCypher(a)-:LIKES-(b)计算下推:面向图应用特征设计分布式存储FindVertexWalkVertexScanCartesianProductProjectionFilterStageStage物理执行计划物理执行计划010203将不同的执行阶段推送到对应的存储引擎,减
18、少网络传输和内存压力实际执行时,执行器等待流数据,处理后将数据推送到下一个执行器切分执行计划,将执行计划划分成不同的执行阶段内存缓存结构:加速图数据查询 由于图数据的查询通常是 IO 密集型,且访问的数据随机又分散,拥有内存缓存能起到很好的加速效果 要想让内存缓存发挥最大的作用,就要能在有限的内存中存下尽量多的图数据 例如,对于属性的存储,可以通过自行序列化/反序列化大幅节省内存 而自定义存储格式往往需要内存的精细操作,由于 Rust 允许在 unsafe 下访问裸指针,可以实现零开销读取 将Unsafe包裹,对外提供足够的接口i32i64u32u32stringstring定长变长高可用技术
19、方案基于Chain Replication(CRAQ)算法实现,进行数据副本处理,头结点写,多结点读,支持读写分离,提供更好的并发查询能力数据高可用实现Chain Replication 数据高可用方案服务高可用实现系统中Meta,TS服务采用主备架构,基于Raft算法实现租约,进行服务多活,保证图库不会出现单点故障。Raft 服务高可用方案偏向分析型的分布式事务【MVOCC事务提交】基于多版本乐观并发控制技术的分布式事务实现,在保障一致性的前提下,提供优秀的分析性能分布式事务技术方案MVOCC 处理流程全面的算法支持 覆盖全部常用算法路径计算、社区检测、相似度计算等 丰富的自研图算法环路识别
20、、链路识别、节点间全路径、发散子图识别、汇聚子图识别、金字塔子图识别与图数据库的深度结合 使用cypher语句直接调用 支持在用户筛选出的子图上计算 灵活的参数设定自研图计算系统架构、极致的性能优化 深度适应客户的系统环境和算法需求机器数量有限,通常小于10网络带宽不高(千兆、万兆以太网)需要支持各种不同类型的图计算算法 双重执行模式单机和分布式两套计算系统,在不同的使用环境中都能达到最佳性能 针对常用算法逐个设计优化方案对于常用算法,跳过固定的编程模型,分别设计最佳的计算方案例如我们自研的node2vec采样算法比现有技术快了1个数量级海致图计算平台特点AtlasML极致的性能支持CPU/G
21、PU等异构设备训练特殊设计的高性能图算子库丰富的算法库内置多种20+个GNN算法支持同构图/异构图/属性图客户的信任上线某银行反欺诈场景业务效果提升10%+灵活易用的开发平台AtlasML Python Library集成Jupyter Notebook超参数自动优化支持超参数自动调优,解放算法科学家生产力,避免繁杂的手动调参海致图神经网络平台特点Rust 语言特性助力构建高性能图数据库01利用Rust Stream 进行数据流式处理0203协程和严格的内存安全性,编译时捕获数据竞争和并发问题异步物理算子实现,异步IO数据获取01可静态分发的Trait在不带来性能损失的同时也提高代码组织性02
22、03强大的跨平台能力,在不同架构下可以准确的控制代码行为编译期间对生命周期检查确保内存安全,无GC和运行时损耗01完善的测试类型支持,包括单元测试、集成测试、基准测试等0203和文档系统以及CI/CD工具的良好集成完整的断言系统异步协程零成本抽象强大的测试框架REPL命令行客户端WebUI面向分析师,提供图模型定义、数据管理、图查询分析、服务状态监控、用户管理能力免代码,可视化定义实体、边,设计图模型。【亮点】支持模型导入导出 拖拽式关系构建 丰富的样式配置 实时图结构预览 用户授权管理 中文及显示别名支持图模型设计WebUI可视化图探索分析【亮点】K步邻居查询、属性过滤 最短路径、全路径分析
23、 按实体、边类型匹配查询 子图识别、环路识别等在线图挖掘分析 实体、边可视化统计分析 树、层次、分组等多种布局方式 基于D3自研的万级别实体展现可视化图探索分析AtlasGraph架构及实现图技术简介TakewayAtlasGraph图数据库关键特性-基于RUST语言保证性能优势-分布式架构性能可线性扩展-针对大规模图的优化的存算引擎-配合Atlas图平台,实现无代码图分析-Query性能分析模块,启发式提示优化-内置多种分析函数,面向分析师友好-MVOCC保证事务一致性-多副本管理保证数据服务高可用-在线备份提供容灾保障高速易用可靠Photo/image/chartYoung、Passion、TechieAbout teamAbout meAbout USJoin USThank you!