上海品茶

您的当前位置:上海品茶 > 报告分类 > PDF报告下载

2017年Fintech场景下大数据处理的挑战与实践.pdf

编号:92407 PDF 16页 1.39MB 下载积分:VIP专享
下载报告请您先登录!

2017年Fintech场景下大数据处理的挑战与实践.pdf

1、Fintech场景下大数据处理的挑战与实践2AGENDA01我看互金这6年业务/获客方式的转变 用户数、交易数的激增 风控思维的转变02风控:传统金融 VS Fintech人 VS 机器 评分卡 VS 模型 从业人员skillset03技术团队面临的挑战数据量 计算复杂度 服务可靠性04经验&实践由一起线上事故说起 Kafka HBase 其它05再过三五年行业 政策 团队 技术?3业务/获客方式的转变?线下网点,业务人员地推插卡、陌拜、线下活动开设线下门店,配置业务人员 增加门店、提高人均产能 核心业务系统?电销电话外呼客户名单获取 扩大规模、提高名单质量、提升电销人员效率、优化外呼策略 C

2、RM?互联网方式渠道、合作、流量交换更偏向互联网获客模式,导流、引流、精准客户营销、投放 提高转化率、合作渠道数量与质量 中间件、系统群、云、大数据环境?4用户数、交易数的激增?2001520162017Q3?第一单!第一千单!第一万单!?10亿!50亿!100亿!?新增50万用户/月,10亿/月5风控思维的转变?“本人”、“真实意愿”、“借款用途”、“还款意愿”、还款能力”01人工审核每一个客户电核、面审、实地,以确认用户填写的信息的真实性为主要依据结合联系人交叉验证02部分应用外部数据人工搜索开放数据一些行业内部黑名单,精准命中04自动化数据验真面部识别、身份证比对、

3、活体检测大量外围数据交叉验证将三方数据引入模型03对接专业三方数据主要用于信息验真三方数据公司的崛起05自动化审核直拒、直批+人工审核全自动化审核06“团伙识别”关系图谱6风控:传统金融 VS Fintech?人 VS 机器50件/人/天 VS 5000件/小时,全年无休 培训、初审、终定、质检 VS 只要没bug、机器够?评分卡 VS 模型feature有限,调整权重,谨慎 VS 大量数据维度&调整极快且“浪”半年一次迭代 VS 一周多次迭代&AB Test 套用规律、借鉴规律 VS 发现规律、验证规律、学习规律模型稳定、固化,模型不可识别的都为异常 VS 识别与模型的差异并进行非监督学习,

4、发现新的模型?从业人员skillset行业经验 VS 数据分析、挖掘能力 银行(信用卡、抵押贷)、小贷、保险相关从业经验 VS 机器学习、神经网络、AI 金融、统计相关专业 VS CS SAS、SQL、Excel VS Python、MR、Hive、Spark、R?7技术团队面临的挑战?数据量几百张表*几十列;百万行;二维,范式建模几十张表*几千列;千万行起;稀疏、维度建模+5TB/月(压缩后,40%)计算复杂度“在10000用户间建立单向关系网络”“在100万用户间建立双向关系图谱”“从短信中筛选特定关键字。样本不多,大概2000多万”“目前系统压力大,通知前线,压一下进件量”“系统需要加硬

5、盘,周末停机维护”24*365,SLA服务可靠性8系统架构演进“ABC”?“传统”互联网阶段关系型数据库DAS、SAN、NAS中间件系统集群,HA、LB?大数据阶段Hadoop生态集群NoSQL私有云?AI阶段混合云/公有云GPU,混合体系架构9“金融”互联网 VS“互联网”金融?Mongodb?RedishHBase?REST API?Kafka Stream?HDFSMR?Kafka?*Hive?Spark10一次线上事故Ka?a队列积压随着业务量的增加,Kafka队列的积压问题日益频繁且严峻。除了Kafka本身的运维优化外,通过监控发现网络架构问题,最终调整解决平时活动?线上参数调优Co

6、nsumer异步处理过时消息丢弃网络限流问题解决11Kafka100 MPS;95th消息大小:500KB;95th消息处理时长:0.7s;95th消息延迟:1.2s?Partition/Consumer规划Partition越多越好?Kafka借助partition提升并发能力Partition内消息有序,而partition间顺序无保障 Producer发送消息时注意partition倾斜(murmur2)Consumer数量略多于partition数量?消息压缩压缩协议:gzip、snappy、lz4?无压缩吞吐最高?考虑客户端的是否支持,Java、PHP、Python?参数调优吞吐 V

7、S 延迟 Producermax.request.sizebatch.size Consumersession.timeout.msfetch.min.bytesfetch.max.wait.ms?12HBase数据量:20TB;读取:2,000 RPS,L1:400 RPS,L2:200 RPS?集群/Region规划预置region Region倾斜 Resign越多越好?Scan时阻塞遍历?Rowkey设计HBase无外键,选择合适的字段/属性作为rowkey 若数据按时间正序/逆序,考虑将时间戳置入rowkey 使rowkey尽量均匀地分散于region中,考虑使用MD5或其它哈希算法

8、算法处理?Compaction优化合适的StoreFile大小 Compaction线程数?13其它?OLAP/OLTP边界HBase、Mongodb、MR、Spark热点数据识别、优化缓存机制,合理的超时机制、缓存性价比运维、监控ELK日志规范、script fieldsELK AlertHadoop生态部署、管理工具使用成熟的免费商业工具管理集群:Cloudera CDH、IBM Biginsights部署、扩/缩容、配置调整、监控Mongodb索引优化类似MySQL索引前缀匹配复合索引、超时索引对写性能影响较大Nginx监控响应体大小请求响应时间GC监控GC前后内存变化情况Young、f

9、ull GC频率爬虫归属地监控Kafka队列消费监控单条消息处理时长单条消息处理时效15再过三五年Fintech将成为串接上下游高新、前沿技术的完整产业链,促进并推动其它技术领域更快地进化(产业化)01行业内部更开放透明的信息共享、上报机制02持照企业可更便捷地查询公民个人/征信信息个人征信报告公共事业缴费/欠费信息公积金、社保缴费信息法院执行、失信信息学历、学位信息03“跨界”专业人才的涌现与储(zheng)备(duo)懂互联网的不(一定)懂金融,懂金融的不(一定)懂互联网PMP、Codecademy、Coursera、Github、SOF?注会、CFA?零壹、起点、一本?04机器学习、神经网络会更深度地与风控手段结合更“实用”的算法性价比更高的xPU计算架构/集群/云服务更“傻瓜”的库/语言05更成熟的数字合同技术,且受司法实践支持数字签名签发、验证电子合同的法律效力,司法鉴定、法院证据采纳区块链技术06更可靠的身份识别技术“又快又准”人脸识别、比对,官方数据库活体检测?THANKS

友情提示

1、下载报告失败解决办法
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。

本文(2017年Fintech场景下大数据处理的挑战与实践.pdf)为本站 (云闲) 主动上传,三个皮匠报告文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三个皮匠报告文库(点击联系客服),我们立即给予删除!

温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。
会员购买
客服

专属顾问

商务合作

机构入驻、侵权投诉、商务合作

服务号

三个皮匠报告官方公众号

回到顶部