《用户画像的分类及应用介绍.pdf》由会员分享,可在线阅读,更多相关《用户画像的分类及应用介绍.pdf(5页珍藏版)》请在三个皮匠报告上搜索。
1、画像的分类及应介绍1画像标签介绍1.1基础属性画像标签的属性标签,通常不与在APP上的为挂钩。标签例:性别、年龄、职业、收、操作系统版本、机型、城市建设式:填写、埋点采集、建模预测、第三数据源使式:a.常分析:认知、异动归因下钻b.建模:作为复杂画像的输特征1.2业务向画像标签跟业务标(或者说KPI)强关联的标签,通常基于这样的标签找到业务的标群标签例:a.KPI强关联(以MAU为KPI时):活/低活(基于活跃天数)、活、次活、流失、沉默b.KPI弱关联:中低活跃、场景活跃偏好(TGI)、建设式:基于KPI按照距离标远近定义、基于为进复合计算(后续展开)使式:a.了解运营标进度,基于标签下钻进
2、KPI的预估,基于给定KPI找到实现路径的拆解b.锚定主要的标群,便于整体的差异化策略1.3策略向群针对特定策略建设的群标签,通常能够在AB实验中拿到较好的收益标签例:a.增益群:红包敏感的群,发放红包后ARPPU值提升b.复购群:在特定类、特定购买间隔下有复购倾向的c.未来预测群:通过模型预测未来的为/流失概率建设式:uplift模型、复购周期预测、分类模型使式:在特定策略(红包/push预)下,进预的标群,实现ROI的最化2画像标签容易被忽略的处理步骤2.1标签特征处理2.1.1数据清洗1.异常值检测:这步的法相对成熟&通,业界常的有箱形图和AVF,前者主要于数值型特征、后者主要于类别型数
3、据;2.异常值填充:检测得到的异常值种处理式是将该条记录丢弃、另种式则是将根据其偏离的向cap分位点/floor分位点的值替代(如异常值97%分位数代替);3.空值填充:根据指标的定义选择最值或最值填充即可(如Recency类指标选择最值,Frequency类选择最值)。2.1.2时间衰减处理标签的成同茶给你参照RFM模型中提供的三个维度进特征构建:1.Recency(近度):最近次登陆距今天数2.Frequency(频率):最近90天登陆天数3.Monetary(消费额,这引申为强度):最近90天APP内停留时RFM标:让距今更近的为对分数产更的影响描述描述:Frequency类的指标中有些
4、代表了过去段时间的累计为,如过去90天的总登陆次数,定义按照假如两个在这个指标上的数值相同那代表他们的活跃频次是相同的。但考虑个场景,如果A只在最近10天登陆了10次,B只在80天前登录了10次,他们的F指标都是10,可是A的活跃度直观来看应该更。如果希望数值上体现这个差异的话,可以对每天的数据乘以个权重再进求和,这个权重是个随着距今时间增加衰减的函数。解决式:如果希望数值上体现这个差异的话,可以对每天的数据乘以个权重再进求和,这个权重是个随着距今时间增加衰减的函数。2.1.3平滑处理标:增加数据的区分度问题描述:在互联的实际数据中,常常具有很强的的头部/尾效应,即绝部分会有类似的指标表现,但
5、也会有很多会有各式各样的指标表现(数量但很的分布)解决案:为了增加数据的区分度,我们可以通过log函数对原数据进处理,处理前后数据分布对如下:2.2画像结果评估在特定命题下,可以直接通过AUC、AUUC、召回等指标准确的评估。2.2.1内聚性标:理想的聚类应该具有内聚、低耦合的特点,群分层也类似:我们希望同分层的群相互间较相似,不同分层的群存在较的差异。衡量指标:存在个可以同时衡量类内聚合度和类间分离度的指标轮廓系数(SilhouetteCoefficient)。该指标越我们认为分层的结果越好。对于每个样本,我们都可计算这个指标,对样本整体求均值则可以认为是分层总体的结果。需要注意的是,这个个
6、相对指标不是绝对指标,可以于对两种分层结果的好坏、但不能衡量单种分层的质量。s=i max a,b(ii)b a iia:同类别个样本与其他样本距离的均值b:样本与最近类别中所有样本的的距离的均值2.2.2稳定性稳定的定义:a.分层标准的稳定性:引新的数据后分层标准不变,在这个场景下、即有新的群参与分层后标准不因此发变化;b.分层结果的稳定性:不同分层的表现是稳定的,例:活跃的次留率不存在过的波动。稳定性衡量指标:离散系数。离散系数等于样本的标准差除以均值,它的值越代表波动越、稳定性越低。v=x 离散系数是个绝对数值,般来说5%以下我们认为这个分层是稳定的。参照稳定性的含义,我们可以基于每个分层的表现指标(如次留率)去计算,也可以分层的边界值计算(如活跃分的75分位数)。