《3.金融大数据存储实践-沈百军.pdf》由会员分享,可在线阅读,更多相关《3.金融大数据存储实践-沈百军.pdf(30页珍藏版)》请在三个皮匠报告上搜索。
1、金融大数据存储实践金融大数据存储实践2023.04/沈百军 目录大数据发展趋势大数据发展趋势存储设计和选型存储设计和选型5 5个实用案例个实用案例4 4安全与隐私更受关注分析领域快速发展 大数据趋势特点应用服务爆发数据分析将成为主流与云计算密不可分中国占据重要市场应用服务爆发爆发大数据发展趋势 数据的重要性大数据VS应用服务大数据与大数据与应用服务应用服务对比对比5 5大数据的特点大数据的特点海量的数据快速的数据流转多样的数据类型潜在价值高应用服务大数据数据量小,Request/Response数据量大,用户行为复杂单任务,单任务,资源消耗小批流一体批流一体,资源消耗大商业价值:场景丰富,逻辑
2、复杂处理对象:结构化,半结构化,非结构化系统工具:开源组件胜多处理方式:批流一体,解决吞吐问题大数据商业价值:场景单一,逻辑简单处理对象:结构化,半结构化系统工具:模式简单,相对比较少处理方式:事务处理,解决并发问题应用服务磁盘、内存、CPU高并发的JAVA应用服务架构核心是存储架构的精髓是存储的设计读本地缓存CDNJavaJVM缓存Redis缓存持久化缓存可省略必须MQJava写Redis缓存持久化缓存6 6 目录大数据发展趋势大数据发展趋势存储设计和选型存储设计和选型5 5个实用案例个实用案例存储设计的原理CAPACIDBASECAPCAP定理(定理(CAP theoremCAP theo
3、rem)一致性(Consistency)(所有节点在同一时间具有相同的数据)可用性(Availability)(保证每个请求不管成功或者失败都有响应)分隔容忍(Partition tolerance)(系统中任意信息的丢失或失败不会影响系统的继续运作)Basically Available-基本可用 Soft-state-软状态/柔性事务。Soft state 可以理解为无连接的,而 Hard state 是面向连接的 Eventual Consistency-最终一致性,也是 ACID 的最终目的。三个需求,最多只能同时较好的满足两个 CA-单点集群,满足一致性,可用性的系统,通常在可扩展性
4、上不太强大。CP-满足一致性,分区容忍性的系统,通常性能不是特别高。AP-满足可用性,分区容忍性的系统,通常可能对一致性要求低一些。原子性(atomicity)一致性(consistency)ACIDACID模型弱化模型弱化BASEBASE模型盛起模型盛起 隔离性(isolation)持久性(durability)8 8存储的选型RedisAerospike内存内存NoSqlNoSqlCassandraHBase大存储大存储KVKVMySqlGraphDB关系型存储关系型存储检索和聚合型存储检索和聚合型存储MongoDBElasticsearch9 9CephSwift对象存储对象存储Pres
5、to(HDFS)Kylin大数据大数据ClickHouseHive/Spark(批处理)存储的选型starRocks1010JanusGraphUltipa/Galaxybase/AtlasGraph图数据库图数据库Milvus向量引擎向量引擎AI算法存储的选型Neo4j1111单点PCPC架构架构PCPC存储架构存储架构什么是傲腾什么是傲腾持久性内存持久性内存?DRAM/3D Point/Flash傲腾内存,是Intel基于3DXpoint存储介质而打造的缓存设备,其主要作用是为硬盘(HDD,SSD)加速。英特尔 傲腾 持久内存和英特尔 傲腾 固态盘之间有什么区别 英特尔 傲腾 持久内存和标
6、准 DRAM 什么是无限带宽技术什么是无限带宽技术?InfiniBand(“无限带宽”)是一个用于高性能计算的计算机网络通信标准,它具有极高的吞吐量和极低的延迟,用于计算机与计算机之间的数据互连。单点集群,满足一致性,可用性的系统,通常在可扩展性上不太强大主要用于一些复杂的,高并发,高可用,而且数据量比较大的线上实时服务,一般一致性差搭建多层存储类型,可用提供高并发,高可用的,高性能的计算机网络线上服务,保证满足银行业务发展的需求的同时,更好的引领业务发展。分布式内存傲腾持久内存PMemSSD/HDDInfiniband存储服务的硬件架构1212ReadRead(索引)(索引)WriteWri
7、te存储方式存储方式Hash索引B+树索引倒排索引BloomFilter向量化引擎预计算 Log Write(后一致性)Sync Write(一致性)列式存储 行式存储 行列混合存储存储服务的软件架构1313 目录大数据发展趋势大数据发展趋势存储设计和选型存储设计和选型5 5个实用案例个实用案例服务器服务器40004000台台,总容量总容量160160PBPB,日新增数据,日新增数据140T140T,未来一年需翻倍,未来一年需翻倍交互式查询引擎KDC/Kerberos KDC/Kerberos YARNYARN(12001200台)台)GangliaZooKeeper 可视化界面可视化界面调调
8、度度平平台台Z Z+NagiosGrafanaPrometheus实时计算平台离线计算平台NoSQLNoSQL存储存储Elastic SearchHBase/MongoDBSASJupyter统统 一一 脱脱 敏敏Hue指标系统侦测客户图谱征信AI CloudB+存储存储计算计算平安银行大数据技术平台1515平安银行AI技术平台架构监控管理监控管理任务管理任务管理日志管理日志管理权限管理权限管理AI与云计算的结合以云服务的形式提供以云服务的形式提供AI的能力的能力GPU资源的统一管理利用利用GPU并行运算能力为深度学习加速并行运算能力为深度学习加速使用Kubernetes+Docker基于构建
9、基于容器的云平台资源隔离与资源限制资源隔离与资源限制;基于镜像发布基于镜像发布;弹性计算弹性计算(秒级动态扩容秒级动态扩容););HA;多租户多租户;自动化部署自动化部署支持主流深度学习与机器学习框架TF、Caffe、Pytorch、Spark、xgboot、sklearn分布式存储块存储、对象存储、分布式文件系统,支持海量训练数据块存储、对象存储、分布式文件系统,支持海量训练数据FPGA加速支持利用利用FPGA卡对深度学习算法加速卡对深度学习算法加速(正在调研评估正在调研评估)业务应用计算框架容器集群基础设施TensorflowCaffePytorchRSparkPythonOCR智能客服智
10、能推荐广告系统NLPKubernetes+DockerCPUGPU网络FPGA存储块存储对象存储文件系统1616决策决策引擎引擎规 则规 则为了满足一定业务场景,对各种变量进行逻辑处理规 则 组规 则 组规则的集合,规则组包含多条规则,按条件判断是否全满足或者部分满足决 策 树决 策 树根据规则或者规则组的运算结果,进行树状分支的逻辑逻辑判断变量变量中心中心事件驱动,提供稳定,高效的实时计算引擎,底层使用事件驱动,提供稳定,高效的实时计算引擎,底层使用FlinkFlink、E+E+2626msms性能99%4040msms性能99.9%决策引擎硬件成本较低,自研,扩展性比较好,吞吐量比较大,决
11、策引擎硬件成本较低,自研,扩展性比较好,吞吐量比较大,未来打造基于未来打造基于eventevent的实时变量计算引擎,支持大数据风控及营销的实时变量计算引擎,支持大数据风控及营销案例1:决策引擎1717通过决策引擎接入实时数据源,根据业务规则定义原子事件以及事件属性列表实时数据接入实时数据接入业务可配置业务可配置事件可订阅事件可订阅数据语言翻译,将数据翻译成业务可理解的语言,业务可根据需求自定义用户筛选规则各个对接系统可动态订阅事件,通过消息队列实时接受满足业务规则的用户客户号事件统计与监控事件统计与监控周期性统计各个事件的发生次数,监控异常事件埋点数据埋点数据交易数据交易数据业务系统业务系统
12、实时数据实时数据决策引擎决策引擎原子事件库原子事件库业务规则配置业务规则配置业务断点业务断点用户筛选用户筛选事件定义事件定义用户列表用户列表事件中心输出事件中心输出MQMQ消息队列消息队列接口服务接口服务统计统计监控监控案例1:客户事件中心18181借贷数据整合,客户视角的资金变动。灵活的查询,搜索服务体验。2基础数据全面整合优化,针对500多种借记卡交易和300多种信用卡交易。环绕客户日常生活,衣食住行,理财还款等进行分类归纳。清晰用途。客户收支月度年度分析,丰富的维度和图示,客户收支一目了然34案例2:交易明细产品介绍 功能介绍 1919借助大数据技术能力,全新打造收支分析,一方面面向客户
13、的收支查询做到业内第一,另一方面提供给内部各个业务条线使用,发挥金融数据的深层价值。客户视角的信息客户视角的信息流和资金流闭环流和资金流闭环助力助力AI客服客服多纬度的分类模多纬度的分类模型型,进行精准引流进行精准引流环绕客户用卡的安环绕客户用卡的安全和侦测渗透全和侦测渗透技术突破和创新技术突破和创新AI智能搜索等查询的时效性:实时流水分类查询5S以内借贷数据整合。在第三方支付交易的商户、产品信息和订单详情。关联交易、退款退票交易等原始交易信息。数据完整度超招数据完整度超招行行,对标支付宝对标支付宝客户视角分类、商户层分类、交易层分类等多纬度组合的模型。商户纬度分类,准确率达到80%。精准引流
14、(商城、理财、保险、贷款等)理财在途、贷款、信用卡在途(例如:已赎回未到账,已审核未放款,待还款等)一键否认交易安全锁等环绕账户安全的引导将梳理的数据,场景全面融入AI客服,提升AI客服能力。梳理银行卡签约的协议,进行整合和运营。案例2:交易明细2020交易明细收支分析API服务账单明细D+/v+明细表规则计算基本信息商户信息实时数据离线数据离线为主,实时补充离线为主,实时补充LambdaLambda架构解决方案架构解决方案 高性能:api服务3000QPS,平响50ms以内 百亿级别数据量:80亿/年*5 高可用:限流,监控,熔断,降级 按交易时间分库分表按客户号哈希均匀分片在线服务 高吞吐
15、:4000TPS,日处理3000万 低延迟:链路平均时延小于3秒 计算高效:规则计算平均深度250步,平均耗时 3ms 不重不丢:故障转移,故障恢复分级缓存异步重试队列实时计算网联案例2:交易明细-技术架构图2121个人信息个人信息客户第一视图客户综合视图客户客户360360全景图全景图身份阶层身份阶层投资偏好投资偏好财富价值财富价值生命周期生命周期生活消费生活消费金融产品及行为金融产品及行为非金融产品及行非金融产品及行为为利用银行利用银行标签和个金标签标签和个金标签,构建构建客户客户八大分类,标签八大分类,标签共共20002000余个余个 组合标签:是一组规则,判断客户符合此规则,返回布尔类
16、型 人群过滤:通过对一组规则过滤,确定客户集合 标签值查询:高并发获取客户数据案例3:标签系统2222整合行内外用户数据,建立平安银行生态中用户标签体系,为多种营销场景提供高价值,高可用的客群精准定向服务。整合行内外用户数据,建立平安银行生态中用户标签体系,为多种营销场景提供高价值,高可用的客群精准定向服务。系统架构系统架构标签系统核心基于ES提供大容量数据存储和高效的查询服务,同时支持DB,消息数据,外部接口数据接入标签数据标签数据目前已经建立起客户维度的用户标签体系,拥有上千标签,并在不断扩展。标签每周被上百次的组合,百亿次的使用此外还有产品,信用卡,贷款等多个主题平台应用平台应用标签系统
17、通过接口方式为外部80个系统提供服务,覆盖口袋A,行员A,爱客系统,UCP(微信端),BBC等主要营销渠道口袋A广告系统产品货架搜索平台数据集市加工数据集市加工分析模型分析模型白名单标签白名单标签渠道标签系统数据来源业务自有标签业务自有标签实时消息实时消息多主题基础标签多主题基础标签实时标签实时标签外部标签外部标签客户画像服务客群圈选服务客群画像分析案例3:标签系统-平台结构2323在线判定:30000+QPS,日服务量在15亿服务高可用:监控、限流、降级ES集群索引量在20Tb,单索引最大5TbHiveToES 导数时间约2.5小时整体数据时效T+17小时客户标签高达20000+在线服务标签
18、数据规则规则计算计算实时标签实时标签APIAPI服务服务客群判定客群判定客群画像客群画像离线基础标签宽表离线基础标签宽表实时消息流实时消息流客群数据批客群数据批取取离线基础标签宽表离线基础标签宽表E+E+Z+Z+案例3:标签系统-技术架构图2424营造数据生态数据资产治理降成本提产能 1分钟找到数据3分钟创建看板5分钟挖掘价值以指标驱动分析以指标驱动分析,灵活高效灵活高效原子指标派生指标衍生指标复杂指标潘多拉数据平台 指标管理与指标消费的统一平台2525实现自动跑批,节省50%ETL开发节省80%重复跑批资源和80%重复存储空间实现亚秒级指标查询(非cache情况下指标平均查询响应时间1.5s
19、,去重计数类指标平均为5.8s)支持数据模型的纬度笛卡尔加20亿+支持指标数5000+重复指标率1%Cube数据膨胀率1.3倍,低于业界3.0倍的标准Cube构建指标应用指标平台构建服务指标平台统一查询服务指标看板智能预警归因分析相关性分析指标搜索Hive离线数据集市集市业务表业务表埋点数据埋点数据标签数据标签数据统一构建服务视图管理视图管理纬度管理纬度管理跑批管理跑批管理接入适配接入适配统一查询服务查询路由clickhousekylin查询下压prestopresto查询引擎命中cuberedis案例4:指标平台2626多维度数据融合,构建网络图谱多维度数据融合,构建网络图谱客户信息金融信息
20、非金融信息非金非金信息信息金融金融信息信息客户客户信息信息欺诈风欺诈风险信息险信息证件信息住宅地址单位地址手机号年龄性别信用卡交易信息借记卡流水信息网银交易信息创新支付信息贷款信息设备类型IP信息GPS信息设备指纹信息社交信息WIFI信息事件池信息涉案交易信息伪冒授权交易案件外围卡片管制信息案例5:知识图谱2727业务能力业务能力 系统能力系统能力从身份证、银行卡等多种纬度对持卡人的交易信息进行关联分析,输出可疑人员和可疑交易交易反欺诈交易反欺诈从身份证、手机号、家庭住址、单位地址等多纬度对申请人进行关联分析结合图规则,识别图中异常信息,判断申请人信息的真实性和可靠性申请反欺诈申请反欺诈从身份
21、证、经销商、车型等多维度对贷款人进行关联分析,可视化识别故意骗贷者、欺诈者和团伙预谋性骗贷等汽融贷款反欺诈汽融贷款反欺诈追踪卡卡之间的交易路径,从源头账户/卡号/商户等关联至最后的收款方定义套现模式来识别洗钱/套现路径和可疑人员反洗钱反洗钱/套现套现根据某个或者多个可疑数据,通过关联反查模块,查询其他数据关联反查关联反查在当前图中查询任意两个实体的选中关系中查询实体的最短路径路径跟踪路径跟踪选中任意实体及相关关系,查询与该实体有相同关系的实体血缘分析血缘分析选中多个实体以及相关关系,查询这些实体之间存在那些关系群体分析群体分析当前网络图谱中查询最重要的实体骨干分析骨干分析引入聚类算法,扩展网络
22、图谱聚类分析聚类分析通过定义图数据源和查询图,得到满足的子图图规则图规则统计当前网络图谱的实体和关系统计以及实体和关系属性的统计统计分析统计分析案例5:知识图谱2828明细查询因子查询实时消息流用户行为和属性汽融放款D+ETL基本信息实体属性规则计算实体和关系因子结果查询实体和关系图查询和分析服务(OLAP)API服务(OLTP)OLTP准亿级图数据:准亿级图数据:65006500万关系,万关系,25002500万实体万实体服务高可用:监控、限流服务高可用:监控、限流准实时计算:三步图因子平均计算时间准实时计算:三步图因子平均计算时间260ms260ms异步计算:服务依赖因子结果,计算依赖异步
23、计算:服务依赖因子结果,计算依赖Neo4jNeo4j实体入图:平均实体入图:平均12.3ms12.3ms关系入图:平均关系入图:平均12.7ms12.7msOLAP千亿级图数据:千亿级图数据:48004800亿关系,亿关系,12001200亿实体亿实体风险标签:风险标签:20+20+每天命中风险标签:每天命中风险标签:5 5万万+多种图算法:骨干分析、最短路径等多种图算法:骨干分析、最短路径等多种布局算法:力导图布局、矩阵布局等多种布局算法:力导图布局、矩阵布局等案例5:知识图谱-架构图2929 如何做好一个优秀的高并发应用服务如何做好一个优秀的高并发应用服务 如何实现高并发、高存储的应用服务如何实现高并发、高存储的应用服务 如果快速检索多维如果快速检索多维CubeCube数据数据 如何构建图应用如何构建图应用