《实用型因果推断方法在互联网中的实践.pdf》由会员分享,可在线阅读,更多相关《实用型因果推断方法在互联网中的实践.pdf(26页珍藏版)》请在三个皮匠报告上搜索。
1、分享人:李少斌分享主题:实用型因果推断方法在互联网中的实践录为什么需要因果推断为什么需要因果推断 因果推断是什么 因果推断如何驱动业务改善Insight Vs Science Insight 是指通过观察观察、分析分析、经验经验、直直觉觉等方式,获得对某个问题、现象、情况或事物本质的深入理解和领悟。Science 是科学是一种基于实证实证和逻辑推理逻辑推理的知识体系,以系统化、规范化和可重可重复性复性的方式来研究自然现象、社会现象和人类思维等方面的知识。-From ChatGPT从新户留存分析看Insight Vs Science Insight 访问过美妆品类的用户留存率高 访问类目数越多留
2、存率越高 有内流播放的用户留存率高 Science ABtest 匹配 PSMPSM-DID DMLDRLQuestion:如何提升小红书新用户的留存率?:如何提升小红书新用户的留存率?Data仅靠Insight和AB-test存在的问题预测预测Vs决策决策相关相关Vs因果因果 ATE Vs HTEAverage Treatment EffectHeterogeneous Treatment Effect相关性 因果性访问美妆留存率高?高留存的用户群体访问了美妆 or 美妆作品提升了用户留存率一个用户访问了美妆、访问了10个类目、使用了内流播放-高概率留存用户要提升用户留存率:增加美妆作品曝光
3、占比?内容多样性?内流功能入口前置?-?增加美妆作品曝光占比?录 为什么需要因果推断因果推断是什么因果推断是什么 因果推断如何驱动业务改善解决因果问题的科学框架流派 Joshua D.Angrist Economist Double machinelearning、Instrumental Variables、Panel Data and Fixed Effects、Regression Discontinuity Design、2SLS Donald B.Rubin Statistician Potential Outcome Model Rubin Causal ModelIPWABtes
4、t Judea Pearl Computer Scientist Causal Graph Model、Backdoor Criterion、Frontdoor Criterion、Do-calculus、Pearl Causal Hierarchy(Association,Intervention,Counterfactuals)解决因果问题的科学框架流派 Joshua D.Angrist Economist Regression、Instrumental Variables、Panel Data and Fixed Effects、DID、2SLS、Regression Discontin
5、uity Design Judea Pearl Computer Scientist Causal Graph Model、Backdoor Criterion、Frontdoor Criterion、Do-calculus、Pearl Causal Hierarchy(Association,Intervention,Counterfactuals)Donald B.Rubin Statistician Potential Outcome Model Rubin Causal ModelIPWABtest计算机科学(Causal Graph Model、DAG)WXYXZYChainFork
6、CollideZXYX 三 YX Y|ZX 三 YX Y|WX YX 三 Y|ZX、Y 既有相关性也有因果性X、Y 有相关性但无因果性示例:W为天气,X为溺水率,Y为冰激凌销量X、Y不相关,但在conditionz的情况下,X、Y相关select bias计算机科学(Causal Graph Model、DAG 与 ABtest)Question:如何提升小红书新用户的留存率?:如何提升小红书新用户的留存率?DataTXYDAGABtestTXYABtest:XY的留存率,:进入内流影响T1实验组留存率:+T0对照组留存率:ATE=T1-T0=X:性别T:是否进入内流Y:留存率计算机科学(Do
7、-Calculus Backdoor Criterion)TXYTXY干预前干预前干预后干预后X:性别T:是否进入内流Y:留存率Do-calculus推导:1.P(Y=y|do(T=t)=Pm(Y=y|T=t)(definition)2.Pm(Y=y|X=x,T=t)=P(Y=y|X=x,T=t)3.Pm(X=x)=P(X=x)P(Y=y|do(T=t)=Pm(Y=y|T=t)=Pm(Y=y,X=x|T=t)贝叶斯全概率公式=Pm(Y=y|T=t,X=x)Pm(X=x|T=t)条件概率=Pm(Y=y|T=t,X=x)Pm(X=x)=P(Y=y|T=t,X=x)P(X=x)观测数据获取因果观测数
8、据获取因果xxxxT=t计算机科学(Causal Graph Model、DAGDo-Calculus)Question:如何提升小红书新用户的留存率?:如何提升小红书新用户的留存率?DataTXYX:性别T:是否进入内流Y:留存率DAGDo-CalculusP(Y=1|do(T=1)=P(Y=1|T=1,X=1)P(X=1)+P(Y=1|T=1,X=0)P(X=0)=0.93*(87+270)/700+0.73*(263+80)/700=0.832P(Y=1|do(T=0)=P(Y=1|T=0,X=1)P(X=1)+P(Y=1|T=0,X=0)P(X=0)=0.87*(87+270)/700
9、+0.69*(263+80)/700=0.7818P(Y=1|do(T=1)-P(Y=1|do(T=0)=0.0502 0.0502 0进入内流有效,会使留存率上升进入内流有效,会使留存率上升5个百分点个百分点性别性别进入内流进入内流(T=1)(T=1)未进入内流未进入内流(T=0)(T=0)留存数留存率留存数留存率女(X=1)81(87)93%234(270)87%男(X=0)192(263)73%55(80)69%合计273(350)78%289(350)83%示例数据,与真实业务无关计量经济学(Select Bias)DAGTXYX:性别T:是否进入内流Y:留存率 Select Bias
10、潜在结果=Y1iif Ti=1Y0iif Ti=0=Y0i+(Y1i-Y0i)Ti-Yi潜在结果的线性组合EYi|Ti=1-EYi|Ti=0=EY1i|Ti=1-EY0i|Ti=1+EY0i|Ti=1-EY0i|Ti=0处理的平均因果效应选择性偏误观察结果Yi如果选择性偏误的绝对值可能会很大,可能会影响我们相要寻找的因果关系符号因果关系符号!随机实验随机实验的情况下Y0i和Ti之间独立,EY0i|Ti=1=EY0i|Ti=0计量经济学(Double Machine Learning)DAGTXY DMLTXYVU(Y-(YX)(T-(TX)Yi-EYi|Xi=0(Ti-ETi|Xi)+Y=T
11、0+g0(X)+U,EU|X,T=0,T=m0(X)+V,EV|X=0,Double/Debiased/Neyman Machine Learning of Treatment Effects-Victor ChernozhukovPSM&IPWT X|ps(x)ps(x)=P(T=t|X=x)TXY另一个常见的消除选择性偏差的方法:倾向值得分匹配(Propensity Score Matching)IPWP(Y=y|do(T=t)=P(T=t|X=x)P(Y=y,T=t,X=x)P(Y=y|T=t,X=x)P(X=x)*P(T=t|X=x)P(T=t|X=x)=x每个(Y=y,T=t,X=x
12、)的概率被1/P(T=t|X=x)放大了,因此被称为“逆概率加权”Do-Calculus统计学(Potential Outcome Model)UserTreatment(是否进入内流是否进入内流)Y留存观测值留存观测值Y0未进入内流未进入内流Y1进入内流进入内流ITE内流影响内流影响ATEATT1Yes0.90.70.90.20.20.22Yes0.80.70.80.10.10.13Yes0.70.50.70.20.20.24No0.60.60.5-0.1-0.1-5No0.20.20.40.20.2-6No0.80.80.90.10.1-ITE=Y(T=1)-Y(T=0)ATE=EY(T=
13、1)-Y(T=0)ATT=EY(T=1)|T=1 EY(T=0)|T=1CATE=EY(T=1)|X=x EY(T=0)|X=xATE=(0.9-0.7)+(0.8-0.7)+(0.7-0.5)+(0.5-0.6)+(0.4-0.2)+(0.9-0.8)=0.1176ATT=(0.9-0.7)+(0.8-0.7)+(0.7-0.5)3=0.167反事实结果机器学习预测能力倾向值得分(PS)/逆概率加权(IPW)互联因果推断建模法览 S-Learner T-Learner X-Learner R-Learner Double Robust Learner Double Machine Learn
14、ing Causal TreeCausal Forest DragenNetDRNet.MachineLearninginCausalInference互联因果推断建模法览(简述:如何处理X、Y、T关系)S-Learner/T-LearnerDouble Robust LearnerDouble Machine LearningDragonNetDRNet.Causal TreeCausal ForestX-LearnerR-Learner录 为什么需要因果推断 因果推断是什么因果推断如何驱动业务改善因果推断如何驱动业务改善因果推断如何驱动业务改善-实践1Question:如何提升小红书新用户
15、的留存率?:如何提升小红书新用户的留存率?User ActiveT-1Treat on TUser ItemUser ActiveT+1Active liftbackwardCausal AttributionPredict DAGTXYX:年龄,性别,行为等T:作品idY:留存率userpsY(1)=1,W=1Y(0)=1,W=010.110-1.120.91.1-10DAU&IPW因果推断如何驱动业务改善-实践1Question:如何提升小红书新用户的留存率?:如何提升小红书新用户的留存率?Tips:矩阵内部的每一个值代表:不同的内内容容idid对不同的用户用户idid活跃提升的贡献控制人
16、群和内容的聚合粒度聚合粒度,得到不同的干预策略(bias vs variance)贡献值 Vs 数量 Trade off推荐系统召回业务结果 项目一期:l7d新用户群体拿到了显著收益 项目二期:占比DAU10%的人群拿到了显著收益因果推断如何驱动业务改善-实践2Question:如何促进用户发布作品?:如何促进用户发布作品?总结ATEHTECredit Assignment“All models are wrong,some are useful.”-George Box致谢致谢致谢感谢李翱博士李翱博士在项目伊始给予的方向指导!感谢他一直以来在我因果推断学习之路上给与的帮助!THANK YOU欢迎加入!