《客户微细分:架起结构化数据与深度学习的桥梁-张磊.pdf》由会员分享,可在线阅读,更多相关《客户微细分:架起结构化数据与深度学习的桥梁-张磊.pdf(51页珍藏版)》请在三个皮匠报告上搜索。
1、客户微细分架起结构化数据与深度学习的桥梁张磊索信达控股有限公司 首席科学家客户微细分简介问题背景:深度学习和银行应用之间的鸿沟结构引力成像:结构化数据的离散化、图像化、特征化、状态化把握变化趋势:从有限状态到状态转移概率网络模型优化:使用图像特征和提升度来优化现有模型客户微细分是什么?通过将结构化数据进行合理的图像化,并创新地运用深度学习算法,挖掘反映客户资产偏好的深层特征,从而有效提升银行现有各个模型的准确性,并通过客户在不同图像状态之间的转移概率,预判出客户资产配置的发展趋势,为一线客户经理提供覆盖全客户的营销方向。问题产生的背景?银行已经做了客户细分,但分析做得不够细致,通常只分到几个大
2、类,缺乏对一线人员的战术支撑。人工智能这么火,但不知道怎么用到金融行业中去,监控视频、人脸识别、语音生成等技术的应用缺乏明显的业务价值,简单地将亿万特征丢给算法是不负责任的做法。有哪些特色和创新点?“数据图像化”的创新思路,在银行最重要的业务数据和深度学习算法之间的鸿沟上架起桥梁,融合了统计学、万有引力定律、空间投影、插值平滑等算法;“自动编码器”能从图像中抽取显著特征,将类似的图像聚类在一起,从而实现图像级的客户微细分;“分箱编码”和合理的聚类算法选择,在保证精度的同时,大幅提升处理效率(高达400倍)能否带来真正的业务价值?通过引入客户微细分产生的新图像特征,将上线模型(大额存单、结构性存
3、款)前10%名单的命中率提高20%40%;无论采用何种预测算法,模型均有明显提升,前5%名单的命中率最高提升3/4;直接产生的营销效益高达数百万至上千万;1.以数据图像化为桥梁2.客户的产品资产结构化数据3.数据标准化与离散化分箱4.相关分析5.太阳系与万有引力定律6.网络布局算法与斥力模型7.等高线投影与颜色映射8.一人一图像百花齐放9.图像的自动特征编码10.密度聚类为客户微状态11.状态随时间的转移概率12.状态转移全景图客户微细分简介问题背景:深度学习和银行应用之间的鸿沟结构引力成像:结构化数据的离散化、图像化、特征化、状态化把握变化趋势:从有限状态到状态转移概率网络模型优化:使用图像
4、特征和提升度来优化现有模型问题背景银行数据分析做得还不够细致,细节的忽略导致了信息的缺失宽表中常常汇总到客户级别/算法处理以客户为单位/明细计算复杂度高看到粗略的轮廓,看不到具体线条/泯泯然众人矣深度学习这么火,不知道怎么用到金融行业中去监控录像之类的分析价值低/结构化的交易记录难以直接应用于深度学习算法简单生成亿万特征丢给算法去跑是不负责任的做法深度学习银行应用深度神经网络本质上只是加了很多隐层的神经网络,为何在图像识别中效果如此出色?更多有效特征:卷积操作是关键,它能自动生成大量以前人工难以刻画的轮廓特征。这些新的特征决定了模型能达到更高的分类精度拟合更复杂的关系:网络越深,能拟合的函数就
5、可以越复杂适合图像识别卷积操作完全是从早期计算机视觉研究中获得的灵感边缘检测用到的一系列滤波器就是在做类似工作图像的非结构化特性使得难以人工构造特征,这是其它机器算法失效的主因银行数据以结构化数据为主非结构化数据(如监控视频等)分析的价值太低大量的交易明细数据未利用一方面是性能压力大更重要的是不知道如何有效利用深度学习银行应用深度神经网络本质上只是加了很多隐层的神经网络,为何在图像识别中效果如此出色?更多有效特征:卷积操作是关键,它能自动生成大量以前人工难以刻画的轮廓特征。这些新的特征决定了模型能达到更高的分类精度拟合更复杂的关系:网络越深,能拟合的函数就可以越复杂适合图像识别卷积操作完全是从
6、早期计算机视觉研究中获得的灵感边缘检测用到的一系列滤波器就是在做类似工作图像的非结构化特性导致了很难人工构造特征,这也是其它机器算法失效的主因银行数据以结构化数据为主非结构化数据(如监控视频等)分析的价值太低大量的交易明细数据未利用一方面是性能压力大更重要的是不知道如何有效利用数据图像化把结构化数据变成图像把图像再扔给深度学习客户微细分简介问题背景:深度学习和银行应用之间的鸿沟结构引力成像:结构化数据的离散化、图像化、特征化、状态化把握变化趋势:从有限状态到状态转移概率网络模型优化:使用图像特征和提升度来优化现有模型起点:银行客户的产品资产数据某银行富裕客户各月的产品资产余额月日均过去一年12
7、个月/富裕客户(AUM月日均超过5万)以上/每月500万客户包含的字段信息客户编号、年月、AUM月日均/11个一级产品余额理财,国债,活存,代理推介,薪金煲,财产险,定存,人身险,贵金属,基金,贷款我们希望了解客户的产品偏好问:我们一般用上面的数据来分析什么业务问题?答:了解客户的产品偏好。问:具体怎么分析呢?答:计算各个产品的总资产占比并排序,取最高的或前几个产品作为客户最偏好的产品。每个客户对应一条记录11种产品(产品树一级分类)对应的资产月日均余额客户有类似有不同1、3、4都有定存2没有定存,但有薪金煲3有活存定存,也有薪金煲过于简单化:占比最高是否就是客户最喜欢的?低层次思维:用一维的
8、眼光去看多维的问题。孤立的观点:忽视产品之间的关系,每种产品视作与其它产品无关。数据标准化:将余额转换为占比标准化:将余额转换为占比每个客户计算二级产品资产总和资产占比各产品资产/资产总和p_p_理财理财0.2611270.261127p_国债0.004543p_p_活期存款活期存款0.2796870.279687p_代理推介0.003543p_p_薪金煲薪金煲0.1193090.119309p_财产险0.017398p_p_定期存款定期存款0.2198390.219839p_人身险0.040769p_贵金属0.000234p_基金0.018029p_贷款0.034866全体客户汇总后的产品资
9、产占比数据离散化:分位数分箱由于0占比出现的频率极高(这很常见),取非0分位数再平均划分为10箱全体客户的各个产品资产占比按序排列,得到的100个分位数全体客户平均后的资产占比一般我们会用右侧的瓦片图来展现问题1:这种图形对业务有啥帮助?问题2:各个矩形的顺序这么排列是合理的吗?产品产品占比占比活期存款27.97%理财26.11%定期存款21.98%薪金煲11.93%人身险4.08%贷款3.49%基金1.80%财产险1.74%国债0.45%代理推介0.35%贵金属0.02%很显然,产品之间并非彼此无关对产品资产进行相关分析,得到相关系数矩阵,可以看出正负相关与强弱,例如:定存与活存、理财相关性
10、强,其次是薪金煲贵金属与其它产品的相关性都很弱从一维空间到二维空间把每个产品视为一个节点(星球),资产占比代表节点的大小把产品间的相关系数视为节点间的吸引力(万有引力)认为节点之间既有引力也有斥力相关性越高,则引力越大,反之亦然距离越近,则斥力越大,反之亦然将一维的产品资产占比数组,转换为二维的太阳系星球分布星球与万有引力构造二维的资产占比星系图每个产品是一个节点,节点的大小对应于资产占比活存、定存、理财都很大薪金煲较大贵金属最小该图用于定位各个产品星球在二维空间的坐标每个客户都会用相同的坐标系,只是节点大小不同但是这幅图像还不适合做深度学习1)没有鲜明的轮廓深度学习适合学习各种轮廓(边界形状
11、),但图中只有圆形2)难以直观看出资产偏好如果产品更细更多,一堆大大小小的球很难把握特征3)多产品偏好组合难以反映需要看到山的形状,而不是一堆石头轮廓的形成:从三维到二维的投影 轮廓的刻画:从星系图到地形图以上图的节点大小作为高度,同时用网格划分整张图片,空值的网格交点处补零然后就可以绘制出反映地形的等高线图为了方便查看,使用合适的Colormap进行染色本图反映了全体客户的总体资产偏好特征:活存和理财第一梯队,定存紧随其后,薪金煲、人身险、贷款是一堆小山头,贵金属几乎看不见每一个客户都可以同样进行图像化百花齐放,各有不同,能够明显看出客户差异也能看到相同与类似纯定存型只有定存,其它基本没有,
12、粘性差,定存到期前要警惕重财惜命型资产集中在保险产品(财险为主,辅以人身险),少量活存典型客户图像举例惜命爱基型人身险为主,剩余资产放在基金和活存上贷款型以贷款为主,少量活存典型客户图像举例高粘性基民基金和活存并重,兼顾收益和流动性;少量定存和薪金煲白领型活存和薪金煲为主,侧重流动性兼顾少量收益,基金和人身险也有少量典型客户图像举例有了这么多图像,也看到很多图像比较类似自然会想到把相似的图像聚类起来图像聚类分为两步:自动编码器+聚类算法如何对图像进行聚类?1)自动编码器(AutoEncoder)将图像压缩为特征编码1)聚类算法(Clustering)使用K-Means等算法进行聚类自动编码器(
13、AutoEncoder)自动编码器是一个数据压缩算法。它由编码器和解码器两个主要部分构成。编码器的工作是将输入数据压缩成较低维度的特征。比如,一个 28x28 的 MNIST 图像总共有 784 个像素。编码器可以将它压缩成 10 个浮点数组成的数组。我们将这些浮点数作为图像的特征。另一方面,解码器将压缩后的特征作为输入,通过它重建出与原始图像尽可能相近似的图像。实际上,自动编码器是一个无监督学习算法。在训练过程中,它只需要图像本身,而不需要标签。自动编码器的输入和输出是一样的,就是用自己来预测自己。自动编码器模型结构示意图多层的卷积神经网络,输入与输出相同,中间层为狭窄的瓶颈式编码层本例中的
14、自动编码器模型结构其中中间层(encoded)为压缩后的图像特征,训练4963个参数自动编码器建模训练好的自动编码器模型按八二比例划分训练集/验证集,经过数千轮迭代(epochs),loss=0.2801编码解码(28x28x3)(4x4x8)图像对应的特征编码生成图像特征编码之后,选择聚类算法K-Means很常用,但用在这里不适合需要人工指定聚类数目,在图像细分之前难以给出K值预期的聚类数目会较大(成百上千个),K值更难以事先给出对图像聚类算法的要求可以调整相似度阈值,但无需指定聚类数目的确能够将类似的图像聚类在一起,而非仅仅基于欧式距离尝试过AP(亲和力传播)聚类算法,效果还行,但性能太差
15、(40多分钟)最终选择了DBSCAN密度聚类算法(6秒)可以发现任意形状的聚类,对噪声点不敏感,单次数据扫描。两个核心参数:Eps-球体最小半径、MinPts-球内至少包含点数核心概念:直接密度可达、密度可达、密度连通、核心点pqp1pqo密度可达密度连通DBSCAN(基于密度的空间聚类)算法最终聚为1616个类eps=0.3,min_samples=30,algorithm=ball_tree图片样本数为10536(取频数超过10个客户所对应的分箱编码),这10536张图片覆盖了98%的客户聚类结果直接聚出910个类,另外有706张图片未能归类我们将这两部分合起来,总计总计16161616个
16、类个类,其中前910个称为常见类别,后706个称为少见类别各个类均计算出中心图像作为代表聚类效果还不错类中心定存与活存并重定存到期,全部转为活存日常消费为主(活存借记卡)尝试买些基金赎回基金,改为投资少量理财办理理财卡活存向理财和定存转移资金流动性需求变大,活期占比提高资金支出(活存减少)资金支出(活存减少)资金支出(活存减少)只剩下定存了客户(微细分图像)的动态演化客户微细分简介问题背景:深度学习和银行应用之间的鸿沟结构引力成像:结构化数据的离散化、图像化、特征化、状态化把握变化趋势:从有限状态到状态转移概率网络模型优化:使用图像特征和提升度来优化现有模型在马尔科夫链中,每一个圆圈代表相应时
17、刻的状态,有向边代表了可能的状态转移,权值表示状态转移概率。马尔科夫链前状态前状态A A后状态后状态B BA A概率概率B B概率概率置信度置信度支持度支持度提升倍数提升倍数x00900000000 x0090000000021.55%21.32%93.45%20.14%4.38 x00900000000 x90.55%16.76%1.20%0.26%0.07 x00900000000 x0020009000021.55%13.13%0.68%0.15%0.05 x00900000000 x7060000000021.55%1.42%0.60%0.13%0.42 x901
18、00000000 x90.60%16.76%83.88%13.92%5.00 x90100000000 x7060000000016.60%1.42%4.34%0.72%3.05 x90100000000 x8020005000016.60%1.16%2.09%0.35%1.80 x90100000000 x8030500000016.60%1.13%1.38%0.23%1.22 x00200090000 x0020009000012.87%13.13%89.69%11.54%6.83 x00200090000 x0050008000012.87%2.03%3.86%0.
19、50%1.90 x00200090000 x0060007000012.87%1.07%1.64%0.21%1.53 x70600000000 x901000000001.48%16.76%56.03%0.83%3.34 x70600000000 x706000000001.48%1.42%26.72%0.40%18.80 x70600000000 x009000000001.48%21.32%5.89%0.09%0.28 x70600000000 x607000000001.48%0.36%2.94%0.04%8.08 x70600000000 x707000000001.48%0.14%1
20、.51%0.02%10.54 状态转移概率00900000000纯活存型90100000000财九活一00200090000定九活一70600000000理财活期两相宜80200050000理财为先定存随后80305000000重理财兼顾薪金煲00500080000要活存更要定存00600070000定活两便60700000000活期理财两相宜70700000000理财活期平衡型70200060000理财定期两相宜93.4%1.2%0.6%0.6%83%4.3%2%1.3%89%3.8%1.6%56%26.7%5.8%2.9%1.5%49%27.6%10.5%2%状态转移全景图状态转移示例理财
21、为先定存随后现在,每个客户对应一幅图像,每幅图像对应128个特征变量那么,这些信息可以用来做什么?客户微细分简介问题背景:深度学习和银行应用之间的鸿沟结构引力成像:结构化数据的离散化、图像化、特征化、状态化把握变化趋势:从有限状态到状态转移概率网络模型优化:使用图像特征和提升度来优化现有模型模型优化结构化存款响应模型将128个图像特征变量加入结构化存款响应模型重新建模前5%名单命中率提高25%前10%名单命中率提高14%ROC提高2.2%ROC前5%提升度前10%提升度前10%命中率入选变量数深度学习变量入选数历史评分 使用老模型直接评分0.6562.682.4726.9%-历史模型 使用新数
22、据重新训练老模型0.7553.653.1934.7%19-优化模型使用新数据和新变量重新训练老模型0.7724.553.6439.6%3011模型优化大额存单响应模型将1616个图像聚类对应的提升度加入大额存单响应模型重新建模无论是哪种算法,图像聚类提升度的引入都能改善模型三种算法中,随机森林算法最优最好的模型(随机森林提升度变量)提升度最高为5.73,基线模型(逻辑回归原始变量)提升度最高为3.28模型前5%名单的命中率提高了75%模型前10%名单的命中率提高了43%未完待续接下来希望深化的工作聚类分析的深化特征刻画:对聚出来的类进行特征刻画,借鉴段剖面的思想,构建出一系列决策树,最好能减少
23、人工刻画的工作,实现自动刻画层次聚类:由于实际项目中庞大的客户数,最终的聚类数量可能成百上千,还需要对聚类进行聚类,形成层次,方便业务应用聚类筛选:提供筛选功能,筛选出满足某些条件的聚类,筛选条件可包括其它模型外变量,也需包括根据图像特征进行筛选(例如邻近节点子集)动态变化的分析静态图像只能反映某个时点的状态,在前期结果查看中就会冒出“为啥客户只有活存?为啥客户只有基金”之类的问题,这个必须要结合历史图像的演化才能准确回答除了历史沿革,还要看未来发展。未来客户图像会演变成什么样?有几种演化路径?各自的可能性有多大?什么是我们希望的?是么是需要干预的?凡此种种,都需要将客户图像视为棋局快照,图像的动态变化视为棋局的发展,从而将动态变化的分析看成AlphaGo所做的事情,从千万个棋局中学会下棋。可能涉及的算法:强化学习、蒙特卡洛搜索树、序列分析。