《申玉宝:HBase在大搜车金融业务中的应用实践(21页).pdf》由会员分享,可在线阅读,更多相关《申玉宝:HBase在大搜车金融业务中的应用实践(21页).pdf(21页珍藏版)》请在三个皮匠报告上搜索。
1、HBase在大搜车金融业务中的应用实践高级数据架构师申玉宝业务介绍数据大屏实践GPS 风控实践流式数据统计1234数据大屏实践车辆轨迹大屏车载 GPS 设备GPS 上报网关消息队列数据仓库(Hive)HBase(Phoenix)数据网关轨迹大屏Table:GPS.TRACESROWKEY:reverse(DEVICE_ID)+TSCOLUMNS:RK,LON,LAT,VENDOR_ID,CITY_ID,ACC.INDEX:ON GPS.TRACES(GPS_TIME,CITY_ID,VENDOR_ID)INCLUDE(LON,LAT)大屏性能优化 WebsocketF2EServerHBase
2、01:0002:0003:00WebSocketConnectQuery 01:00Send 01:00Query 02:00Send 02:00Query 03:00Send 32:00 使用 WebSocket 减少建立 HTTP 请求耗时 数据分片,减少首次请求耗时 渲染线程与数据请求线程独立,保障后续流畅实时成交大屏埋点日志MQMQConsumer基础数据库DIM(Mysql)精卫HBase(Phoenix)数据网关成交大屏Table:TRD.TGC_ORDERSROWKEY:reverse(ORDER_ID)COLUMNS:PAY_DATE,STORE_ID,STORE_TYPE,S
3、TORE_AREA,BUYER_ID,CAR_ID.INDEX:ON GPS.TGC_ORDERS(PAY_DATE,STORE_TYPE,CAR_MODEL,STORE_AREA)INCLUDE(STORE_NAME,AMOUNT)GPS 风控实践GPS风控-业务系统GPS上报网关厂商转发上报设备直连里程纠偏设备注册HBase实时轨迹特征提取(ETL)风控模型&规则引擎预警后台轨迹监控停留点分析电子围栏聚集分析.GPS风控-业务架构状态维护MQ聚集分析-GeoHash Base32编码字符串,每个字符由5bit 组成 对地球进行二维平面化,不停进行32等分 每个字符串代表地球的一个区域聚集分
4、析-计算过程上报 GPS 数据到数据网关数据纠偏入库 HBase根据最近轨迹分析出每辆车停留点(定时)根据车辆停留点,生成 GeoHash根据 Left(GeoHash,6)聚合,取出聚合点规则引擎聚合其他特征发送贷后管理人员跟进聚集分析-数据存储原始轨迹支持:按设备,时间维度查询详细轨迹聚集点支持:按区域,时间维度查询聚集数据Table:GPS.TRACESROWKEY:reverse(DEVICE_ID)+TSCOLUMNS:DEVICEIDE,TS,LON,LAT,VENDOR_ID,CITY_ID,ACC.Table:GPS.GATHERPOINTSROWKEY:reverse(TS)
5、+reverse(left(GeoHash,6)COLUMNS:TS,GEOHASH,DEVICE_ID 流式数据统计流式数据统计-业务场景业务特点:实时数据统计(10s)数据量较大(1m 100m)有并发要求(100 qps)查询维度多且易变业务数据库RDS流式数据统计 数据流埋点数据LogMQ精卫PhoenixMID数据网关业务 A业务 B业务 C.基础维表RDSCachePhoenixDM流式数据统计 数据合流合流检测订单表(主流)订单-车辆表(支流)订单 ID店铺类型车辆品牌订单金额100014S 店宝马200,00010002二手车商奥迪250,00010003新车二网奔驰320,0
6、00100044S 店特斯拉600,000订单 ID订单金额10001200,00010002250,00010003320,00010004600,000订单 ID车辆品牌10001宝马10002奥迪10003奔驰10004特斯拉订单 ID店铺类型100014S 店10002二手车商10003新车二网100044S 店订单-店铺表(支流)数据整合输出 Phoenix数据缓存数据缓存数据缓存流式数据统计 性能测试*本数据仅为大搜车内部测试,可能受测试条件影响,不代表官方标准阿里云 HBase:Master(2C4G)+CORE(4C8G)*2数据量:100 million实验条件:线上流量复制包含大量 Group 查询短路相关缓存全 Phoenix 索引覆盖并发TPSRT(ms)10139.5671.2120197.7999.8230194.17159.3640209.45192.6650220.77225.4760221.29267.7170208.50339.3180220.52358.2590220.64415.06100223.48439.98流式数据统计 服务监控