上海品茶

您的当前位置:上海品茶 > 报告分类 > PDF报告下载

4-3 GeaFlow:蚂蚁集团自研流式图计算引擎及其应用.pdf

编号:102306 PDF 30页 3.70MB 下载积分:VIP专享
下载报告请您先登录!

4-3 GeaFlow:蚂蚁集团自研流式图计算引擎及其应用.pdf

1、GeaFlow:蚂蚁集团流式图计算引擎及其应用周强 技术专家|01GeaFlow简介简介应用实践应用实践02GeaFlow技术架构技术架构总结和展望总结和展望目录目录CONTENT|0304GeaFlow简介01|什么是图|数据结构之图图是由顶点V集和边E集构成,因此图可以表示成G=(V,E)线、树、环、网等一切实体和关系构成现实之图哥尼斯堡-七桥问题从一起点出发走,可否一次性走过七座桥欧拉回路图的优势|维度的提升比起传统用表的方式存储信息和组织模式图能够很清晰揭示复杂的模式尤其在错综复杂的社交,物流,金融风控行业效果更为明显高效的查询、分析根据给定给的条件,无需加载无关数据更方便自然的数据建

2、模宽表(冗余)关系表(很多外联关系)通过任意类型点表示对象,边表示特定关系灵活的schema以及点边修改图的场景|社交网络加速关系查询,传统的关系型数据库基本无法实现3度关系查询协同推荐根据用户兴趣、好友等进行同类产品推荐相似度算法推荐知识图谱关系挖掘、查找共同根节点、最短路径分析等等金融风控用户行为检测、异常群体发现等传统图计算和实时图计算|图数据库离线图计算在线图存储低延迟简单查询离线图计算静态数据大规模数据集复杂计算实时图计算实时图计算实时关系数据时序增量图计算传统实时计算和实时图计算|关系数据流计算实时分析图数据流图计算实时图分析数据结构升维发展历程|流图融合计算17年研发18年支持双

3、11(支持实时反套现等)仿真能力(18年)基于流图的回溯支持黑商户判定等场景图探索能力(20年-)探索分析支持研判、血缘分析等场景动态时序图能力(20年)增量时序实时计算支持风控团伙挖掘等场景GeaFlow技术架构02|GeaFlow:蚂蚁自研的实时图计算系统|核心特性简洁DSL化研发能力融合融合一体化执行、打造实时图计算多模支持流、图等多种计算模态动态支持分布式动态图GeaFlow整体架构|Hybrid DSL(SQL+Gremlin)基于GraphView的核心API统一的执行计划以图为中心、多种计算模态融合云化的状态管理Task-Based的动态图计算框架Ray(分布式执行引擎)Grap

4、h Store(统一图存储)核心特性:动态计算|动态计算1.数据流和控制流相结合2.从静态DAG走向动态DAG优势1.按需计算,弹性扩缩2.扩宽算力,动态计算SPPUSSISSISSPPUSSISSIS核心特性:融合计算|流图融合计算传统解决思路:流计算+图计算组合计算新思路:流计算+图计算融合计算,打破传统计算的边界优势1.一体化开发2.减低运维成本流图融合计算核心特性:分布式Gremlin|Apache Gremlin是图查询领域事实标准支持子图查询、多度遍历和子图匹配简单易用g.V(1).hasLabel(person).out(knows).out(create).count()创新和

5、突破相对于业界主流的Gremlin Server的方案基于GeaFlow,构建了Gremlin分布式执行的语义核心特性:分布式Gremlin|GremlinServerGremlinServerGremlinServer分布式GeaFlow图任务单个语句仅在一个server上执行构建分布式图迭代任务Gremlin Script核心特性:一体化DSL|SQL Plus(Gremlin)优势1.一体化编程(Streaming SQL+Gremlin)2.降低数据开发门槛核心特性:离线实时一体化|图特征定义图特征上线上线观察持续运行下线30天图特征定义探索分析仿真上线持续运行实时&分析仿真一体化架构

6、针对图仿真进行合理抽象,基于图数据和历史请求进行流式回放,一套架构解决在线和分析仿真两种需求性能大幅提升提供驱动式GC策略,大大减少无效存储基于多级缓存策略,降低图分析RT和提升仿真吞吐应用实践03|金融风控:实时团伙挖掘|账户风险识别基于用户的账号网络进行风控分析,有效识别账户风险反作弊场景黑产作案无法简单通过一度关系进行风险判定,通常需要2-3以上才能做到。通过黑产的聚集性,使用社区划分、社区搜索等算法进行群组挖掘金融风控:实时团伙挖掘特点|构建账号网络金融级基于用户的账号和团伙行为,实时增量构建高可靠金融级账号网络分析决策流式增量构图和计算,实时分析发现黑产并进行在线决策账户风险识别团伙

7、从注册到作案,秒级的时效性反作弊场景团伙防控时效性也在秒级流+图打造实时图计算低延迟高吞吐基于流式数据之上的图计算打造实时仿真一体化可验证基于流式的回溯历史数据打造实时仿真一体化的能力来实现图算法可验证金融风控:实时团伙挖掘|基于Spark GraphX全量群组挖掘1.规模:亿级点边2.计算方式:分布式流式计算引擎、全量聚类算法、全图统计3.时效性:小时级基于GeaFlow增量实时群组挖掘1.规模:百/千亿级点边2.计算方式:分布式增量计算引擎、增量子图聚类、增量子图统计3.时效性:秒级流式增量团伙挖掘|事件过滤转发中间件事件前置处理流式特征调用特征计算特征预处理流式构图事件、特征-点边Gea

8、Flow子图扩展团伙挖掘子图聚类GeaFlow发送异步事件后置处理写存储增量时序图计算|IncrementalProcessSourceSourceSourceSourceGraphProcessSinkSinkSinkSinkIncremental StateBase StateSequence Graph Streaming ProcessingIterative compute效果|效果秒级实时团伙挖掘支持6+深度扩展挖掘离线实时一体化效能提升7X支持百/千亿级规模时序图计算总结和展望04|实时图计算能力|DSL化的研发能力分布式Gremlin执行解决图遍历和图计算的能力Hybrid DSL流图融合能力多种实时图的计算能力流图计算图探索时序图计算图仿真完备的实时图研发流程业务覆盖|金融场景风控社交营销300+业务场景实时图计算未来的思考|实时图+AI发挥更大价值实时图计算AI知识图谱实时知识推理图学习流式Graph Embedding非常感谢您的观看|联系邮箱:

友情提示

1、下载报告失败解决办法
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。

本文(4-3 GeaFlow:蚂蚁集团自研流式图计算引擎及其应用.pdf)为本站 (云闲) 主动上传,三个皮匠报告文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三个皮匠报告文库(点击联系客服),我们立即给予删除!

温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。
会员购买
客服

专属顾问

商务合作

机构入驻、侵权投诉、商务合作

服务号

三个皮匠报告官方公众号

回到顶部