《虎牙实验科学实践.pdf》由会员分享,可在线阅读,更多相关《虎牙实验科学实践.pdf(25页珍藏版)》请在三个皮匠报告上搜索。
1、DataFunSummit#2023虎牙实验科学实践黄琨 虎牙 数据科学家01虎牙的数据赋能挑战02实验文化与平台能力建设03结合场景服务扩展04总结与回顾目录CONTENTDataFunSummit#202301虎牙的数据赋能挑战虎牙是一个内容供给平台,业务诉求是典型的因果推断问题内容主播内容对大盘的贡献如何制定主播激励目标推荐如何提升用户冷启效果如何提升用户长期价值增长广告投放拉新拉活的贡献如何制定推送策略提升效果因果推断问题这是一个广告投放场景如果不拉新,新用户会减少多少如果X,Y会怎么变化从因果推断三层次看数据团队的价值数据驱动科学度量指标描述核心价值AB实验可以消除混淆因子影响,帮助
2、用户科学评估广告拉新场景下的DAG图混淆因子干预目标但是AB Test只能解决一部分场景的问题外部数据无法获取广告平台AB标签无法感知围绕虎牙的业务问题,部分实验可解,部分实验不可解因果推断场景实验可解场景内容线:主播掉宝活动能否提升用户留存增长线:投放拉活可以带来多少用户增长贡献营收侧:下线非常用礼物对营收有多大影响产品线:产品瀑布流、沉浸式的改版对用户时长有多大影响音视频:上线画质增强功能能否给用户带来时长提升新的开播工具对用户体验有什么影响上线新礼物类型会对营收有什么影响主播侧流优化对直播效果是否有负向影响为达成增长目标,增长侧需要投入多少资源如何制定主播激励方案,最大化实现大盘DAU增
3、长DataFunSummit#202302实验文化与平台能力建设虎牙实验平台建设经历了三阶段32123实验文化推广阶段额外开发:AB SDK需要额外接入,场景未能全覆盖价值认可低:直觉驱动,不显著也会推实验效率提升阶段扩展服务边界实验效率:仅具备基础的T检验+Delta Method指标效率:指标by场景,制作流程较长解释性差:欠缺画像及下钻能力无法实验场景:内容侧、主播侧等敏捷实验:单日的活动需求核心挑战CUPED、多重检验方法上线底层数据重构,支持批量生产支持指标集的画像与维度拆解实验能力完善因果推断相关方法应用探索SDK优化与场景覆盖重点实验支撑,打造典型案例重点工作对于刚接触实验的用户
4、,形成典型案例是个敲门砖理想的AB过程定位:数据驱动事前:实验方案设计存在部分场景未接入ABBY场景的指标开发,复用率低事中:策略异动监控可能和业务报表数据出现不同口径只依赖显著性决策事后:指标简洁有效自助复盘较多的指标展示,单实验上百指标知道显著但是不知道为啥显著实际的AB过程定位:看数+决策初阶实验用户潜移默化:通过案例专项建立信任及合作关系,形成实验复盘模板深入业务:抽象业务指标模型+精简指标集市=重构指标体系平台能力:提供高效的实验流程,标准化实验流程建设用户初步形成实验习惯后,平台怎么帮助实现实验提效指标效率指标生产提效ETL底层与指标分级,提升指标计算效率统一可拆解字段,缩短指标配
5、置时间指标集市建设维护指标口径,对齐大盘口径生命周期管理,下线重复无用指标实验效率实验武器库方差缩减方法:CUPED,CUPED+等多种检验方法:秩和检验,MAB等假阳性控制实验观测及推全规范多重检验分流机制科学性复盘效率可读性贝叶斯ABHTE(异质性因果效应)灵活性可拆解可下钻的指标体系可筛选的用户画像可选择的统计周期虎牙落地的实验方法效果分享多重检验有效降低假阳性,但是需同时考虑二类错误用户存在偷瞄情况,实验机制值得注意CUPED可以在有限的实验周期内,提升指标灵敏度DataFunSummit#202303结合场景服务扩展拉活场景的实验数据驱动在广告平台投放广告,用户对广告感兴趣可通过点击
6、拉起虎牙app,给虎牙带来日活外部APP广告展示点击后跳转提示拉起虎牙外部APP点击后无提示跳转接入RTA可以帮助实现目标用户转化RTA服务RTA(Real Time API)是广告系统和广告组的实时判断服务,红框为RTA对比传统广告模式的差异广告主广告系统用户1、设置广告2、请求广告4、返回判断3、同步信息5、广告曝光过滤非目标用户当日活跃非流失用户目标用户已点击用户重复点击次数拉起率首启率七日沉默占比DAU次日留存拉起用户数点击用户数预期变化点击到DAU转化DAU关键指标深挖RTA接入实验结果,确定真实效果质量下降?实验用户数据目标用户数据目标用户质量持平次留修正质量持平整体指标符合预期,
7、成本指标正向目标用户指标持平,但是次留负向过滤非目标用户次留过滤拉活主启用户目标用户指标持平目标用户单价-12%实验结论支撑RTA实验4例RTA实验评估标准化结合Uplift Model,持续提升业务指标拉活的目标是DAU,因此在成本有限下,需要提升 DAU转化率=(实验组活跃 对照组活跃)/拉起用户数Uplift 的建模方式有两大类,Meta Learner(S/T/R/X)与Uplift NN常见Uplift NN简介筛选不拉就不会来的用户Uplift Model需要结合场景应用评估初期 XGB for DAU转化率流量层域设计方便采集无偏数据,科学评估结果业务指标提升不及预期定位:指标一
8、致性问题中期 XGB for 次留标准化评估流程,确定评估样本评估不同训练样本、Meta-Learner的AUUC效果现状 NN 次留预测初版DAU转化率下降原因,NN下一致性较差UPLIFT-NN效果评估 Meta-Learner TARNET EFIN NN的消偏方式擅长不同质场景建模不同时期建模方式和目标模型评估不止于AUUC虎牙拉起用户变高了 系数变高了DAU转化率变高了 转化率变高了活跃贡献=拉起数*DAU转化率AUUC=?Why NN更好?投放选择流失用户,投放久了两组用户会不同质Uplift 在多个场景得到落地虎牙是典型的双边市场,典型主播侧策略难以做AB实验用户主播因果推断场景
9、新的开播工具对用户体验有什么影响上线新礼物类型会对营收有什么影响主播侧流优化对直播效果是否有负向影响为达成增长目标,增长侧需要投入多少资源如何制定主播激励方案,最大化实现大盘DAU增长因果推断的效益评估方法在探索与落地的循环中效应评估PSM优点:方法较为通用,评估指标明确缺点:只能针对单指标建模,多指标处理存在模型biasMeta-Learner优点:可评估多指标,具备在实验平台应用的可能性缺点:严重依赖特征工程,好坏标准不唯一业界常用的是基于大数据方法的PSM和Meta-Learner,各有优缺点结合结果指标验证,PSM即使通过SMD检验,匹配后的结果也不稳定更灵活的建模方式更丰富的平衡性检验下一步是什么简单方法结合场景特性做效益评估,也能帮助业务这是一个简单的归因方法DAU预测主播激励内容价值实际应用场景DataFunSummit#202304总结与回顾实验数+100%重大迭代均走实验总结与展望统一数据集市+批量生产指标自助指标集+自助下钻+异常解读持续完善CUPED、贝叶斯AB落地实验方法探索多重检验+实验观测规范假阳控制实验做完了,我们该如何迭代?基础价值我有一个想法,该怎么做策略?专项+数据驱动深入业务这个迭代无法实验,应如何评估?因果推断探索完善武器库感谢观看