《2-2 双边市场的复杂实验设计问题.pdf》由会员分享,可在线阅读,更多相关《2-2 双边市场的复杂实验设计问题.pdf(24页珍藏版)》请在三个皮匠报告上搜索。
1、双边市场下激励策略实验设计快手数据科学 程大曦|个人介绍|程大曦 北京大学 光华管理学院 金融经济学 University of Texas at Austin Business Analytics 前蚂蚁集团 数据科学部 数据科学技术专家 实验平台数据科学功能设计 智能营销 流量分配 快手 生态分析团队 经济学家 实验设计与因果推断 流量生态策略01问题背景问题背景双边市场实验介绍双边实验的优点02激励策略的挑战激励策略的挑战激励策略度量的难点对SUTVA的违背03可选解决方案可选解决方案行业主流的实验设计方案实际使用中的局限介绍04构建综合方案构建综合方案根据场景情况构建方案目录目录CON
2、TENT|激励策略挑战什么是双边市场实验双边实验的优点01|双边市场实验介绍|双边市场双边市场:平台,即双边市场,双边市场包含两方的参与者:消费者与生产者;这两方面相互促进。双边实验双边实验:在消费者和生产者端,结合进行分组的实验方式。双边实验的优点双边实验的优点:1.可以同时检测同时检测新的策略对于消费者和生产者的影响:eg DAU 和 上传作品人数 的变化2.可以检测部分的溢出溢出和转移转移3.帮助我们更好的理解作用机制作用机制-效果主要是从消费端还是生产端产生的双边实验的例子(直播美颜)|实验组主播(有美颜功能)控制组主播(没有美颜功能)实验组观众(可以看见美颜)看见美颜 A看不见美颜
3、B控制组观众(不可以看见美颜)看不见美颜 C看不见美颜 D观众侧的溢出观众侧的溢出主播侧的溢出主播侧的溢出问题背景激励策略度量的难点对SUTVA的违背02|激励策略的难点与挑战|供给侧-消费侧生态体系内,业务时长有如下的政策性流量扶植的需求政策性流量扶植的需求:运营引入引入优质作者,但不太确定这些垂类作者在平台上表现如何;某些类型业务挖掘挖掘的特定类型作者提供流量政策扶持,予以更强的分发力度;平台意志期望发展某些特定方向,期望强化对应内容供给强化对应内容供给等相对长期,需要观察学习效应(促生产等)时间片轮转之类方法不太适用激励策略的难点与挑战 contd|作者侧的挤占作者侧的挤占:在总曝光增长
4、数量有限的情况下,实验组作者的曝光会挤占对照组实验组作者的曝光会挤占对照组作者的曝光作者的曝光。该现象出现的证据是在实验当中,作者侧冷启曝光提升幅度比读者侧冷启动曝光幅度显著更大!#$%&()*+,-$./012%3()456通过作者侧的双边网络传递通过作者侧的双边网络传递:对作者的boost通过推荐系统传递到对于用户A组曝光随实验开展各组曝光相对基线diff对SUTVA的违背|SUTVA假设假设:Stable unit treatment value assumption(SUTVA)We require that“the potential outcome observation on o
5、ne unit should be unaffected by the particular assignment of treatments to the other units”(Cox 1958,2.4).This is called the stable unit treatment value assumption(SUTVA),which goes beyond the concept of independence.(wiki)个体i 的指标只与自身在实验组还是对照组有关,与其他节点在哪个分组无关对SUTVA的违背 contd挤占|每一种激励策略,在短视频场景下可以看作一种排序算
6、法 假设对于用户i,我们用RC代表control组的ranking算法,RT代表实验组的ranking算法,RT_25%代表实验组流量为25%的时候的排序结果,RT_100%代表实验推全之后的排序结果。A到F代表不同作者的作品 假设BCDE都是被选中进行激励的作者作品;D在25%流量时实验组 我们采取在排序中加分进行激励(常用的算法测试方法)下图解释了小流量时优势的问题可选方案主流方法常见方法的局限03|方案1:逐步扩量|挤占效应会随着base组流量减少而减少 逐步扩量 10%-20%-50%-80%-99%先发优势先发优势体现在对于流量扶持而言,后期相同扶持力度的情况下,先扶持的作者会一直保
7、持一定的流量优势。!789:;?ABCD$EFGH IJ(=9:26$无法很好区分先发优势与挤占效应和实验随时间变化方案2:Budget Spliting/划分小世界|实验组作者控制组作者实验组读者新算法/策略看不见对应作品看不见对应作品控制组观读者看不见对应作品看不见对应作品旧算法/策略Liu M,Mao J,Kang K.Trustworthy online marketplace experimentation with budget-split designJ.arXiv preprint arXiv:2012.08724,2020.分割彼此分离的子世界分割彼此分离的子世界,也就是下图
8、的设计,通过彼此完全隔离,来避免在作者和读者之间出现的溢出和挤占效应一些基于聚类clustering的方案与这一方案想法类似方案2:Budget Spliting/划分小世界 contd|对效果估计的偏差幅度取决于对应场景双边网络效应的幅度和结构,尤其是在实验的小流量下弹性与全量时弹性可能存在一定差异小流量下弹性与全量时弹性可能存在一定差异 缩小了用户用户的候选池子 减小了作者可分发作者可分发的用户候选量 推荐系统通常存在规模的冷启动效应,(KLMNOP3Q+RSTUVWXYZ7-$6_,此时再增加额外的供给的效果会逐渐下降(边际供给收益递减)因此这一方法可能会高估效果这一方法可能会高估效果其
9、他方法:侧重实验分析而非设计|通过估计网络效应来矫正分析通过估计网络效应来矫正分析需要进行线性需要进行线性/其他条件假设其他条件假设Harshaw C,Svje F,Eisenstat D,et al.Design and analysis of bipartite experiments under a linear exposure-response modelJ.arXiv preprint arXiv:2103.06392,2021.Gui H,Xu Y,Bhasin A,et al.Network a/b testing:From sampling to estimationC/Pr
10、oceedings of the 24thInternational Conference on World Wide Web.2015:399-409.对每次差异较大的实验,假设难以在短周期验证综合方案根据FB的框架构建一套方案04|基于排序融合的方案构建|同时用两套排序算法进行排序同时用两套排序算法进行排序如前文所述,我们将政策扶植加权理解为一种新的排序算法。本质上我们需要保证RT_a%(0a100)的排序与RT_100%的结果一致。我们对于所有的作品同时用RC与RT两种方式进行排序,记录下对应作品的顺序 将作者分为实验组和对照组。对于实验组的作品,最终呈现给读者的排序,是两个算法排序结合
11、的结果Ha-Thuc V,Dutta A,Mao R,et al.A counterfactual framework for seller-side a/b testing on marketplacesC/Proceedings of the 43rd International ACM SIGIR Conference onResearch and Development in Information Retrieval.2020:2288-2296.融合两套排序方法|两者结合 逻辑如下:将实验组作品放在RT为其排出的位次上,将对照组作品放在RC为其排出的位次上 如果出现冲突 比如某个位
12、置RC的对照组和RT的实验组都占用 随机选择其中一个在这个位次,另一个在这之后的一个位次 其余位置随意进行填充因为我们并不关心剩下作者的指标,出于保守起见,如果是小流量实验时期,我们推荐采用RC的结果,如果是反转实验,采用RT的结果,如图所示处理排序融合中的冲突|实验组和对照组作者作品竞争同一个位置:实验组和对照组作者作品竞争同一个位置:随机shuffle出现概率很低出现概率很低:实验组=对照组=a%总流量 假设a=2top10位置当中同时出现两者的概率是(1-(1-2%)10)*(1-(1-2%)10)约为 3.3%出现位置冲突还需要两者排序为完全相同的位置,假设两个算法排序完全独立,那就是
13、1/10的概率 此时冲突的概率已经不到已经不到0.5%往往我们的改进是渐进的,所以RC和RT有一定相关性有一定相关性,所以冲突的概率更小可以先离线测试一下冲突的概率对双边指标进行效果评估|作者侧为单元的指标作者侧为单元的指标:作品数 生产作者数 进行作者侧实验曝光或观看曝光或观看VV作为单元的指标作为单元的指标:CTR EVTR 利用作者作品曝光次数提升=读者观看次数提升恒等式进行推算读者侧为单元的指标读者侧为单元的指标:进行读者侧单边实验验证其他可能的问题|保留两套排序工程侧有一定的成本保留两套排序工程侧有一定的成本是否存在更轻量级融合排序的可能算法数据隔离?算法数据隔离?部分改进的效果可能是来自于收集了更多的数据使用更大流量设计?使用更大流量设计?Preetam Nandy et al,A/B Testing for Recommender Systems in a Two-sided Marketplace 随机选择一定比例 like20%进行融合混排双边双边能否存在同时开展同时开展的可能性?欢迎加入快手|用实验设计与因果推断回答宏观用实验设计与因果推断回答宏观&微观问题微观问题欢迎向欢迎向投递简历投递简历 加入我们;实习生招募中加入我们;实习生招募中非常感谢您的观看|