《数据科学在实践中常见的数据谎言.pdf》由会员分享,可在线阅读,更多相关《数据科学在实践中常见的数据谎言.pdf(22页珍藏版)》请在三个皮匠报告上搜索。
1、数据科学在实践中常见的数据谎言度小满 郭晶数据背后真实的含义是?超过80%的牙医推荐高露洁More than 80%of dentists recommend Colgate-2007 UKs ad非唯一性选择的确:80%的牙医推荐了Colgate(高露洁)但同时:100%的牙医也推荐了Crest(佳洁士)、80%推荐了oral-B“披露的数据只是一部分”数据背后真实的含义是?药丸恐慌1995 pill scare1995年10月,英国医学安全委员会(CSM)发出警告,指出第三代口服避孕药使腿部或肺部潜在致命性静脉血栓栓塞(VTE)的风险增加了近一倍,并建议除非可能,否则改用旧药。声明中写道:
2、“众所周知,避孕药可能很少产生涉及腿部静脉的血栓形成(血栓)。新的证据表明,与其他药丸相比,某些类型的药丸在静脉中发生血栓形成的几率增加了约两倍.”在避孕药警告之前的几年里,英国堕胎率呈逐年下降的明显趋势,这一趋势一直持续到1995年前3个季度。1996年英格兰和威尔士已知的堕胎总数比1995年高出8%,增加了约13000例堕胎!第二代:15/100000第三代:25/100000风险增加:10/15=67%每10000人服用,增加1例VTE(万分之一)“只看相对变化是片面的,还要关注绝对值变化”数据背后真实的含义是?伦敦凶杀案超过纽约Londons murder rate now tops
3、New York Citys -2018 news“只看绝对值或者相对值是没有意义的”1990:184 vs 2262法官 vs 算法决策-2011年伦敦骚乱顺手牵羊者罗宾逊 超市顺走了一箱水吗,最终被判6个月约翰逊 游戏店顺走了多台游戏机,最终未被判刑人还是算法?1.相似案件前后决策不一致2.同一案件不同法官决策结果不一致1.算法降低25%犯罪率2.减少40%拘押率现行犯罪误区法官决策-统计定罪背景:1960 年代,Juanita Brooks在洛杉矶遭到一名身穿深色衣服的金发白人女性抢劫和殴打。一名目击者证实了一名目击者证实了这一描述,并补充说,这名女子扎着马尾辫,一名留着胡须的黑人男子开
4、着一辆黄色汽车将她接走,然后飞奔而去。警方随后逮捕了珍妮特和马尔科姆柯林斯,因为他们完全符合这个非常具体的描述。但是,当当局将这对夫妇介绍给警察队列中的受害者和证人时,他们都无法确定嫌疑人是袭击者。因此,一对夫妇拥有所有这些特征的几率(通过将概率相乘)是 12,000,000 分之一;所以这对夫妇不是嫌疑人的概率为十二万分之一条件概率事件A在事件B发生的条件下发生的概率。表示为P(A|B)A先发生,B后发生的概率 不等于B先发生,A后发生的概率P(A|B)=!(#%)!(%)P(B|A)=!(#%)!(#)P(B|A)=P(A|B)!(%)!(#)已知这里的一个生物有4条腿,那么它是狗的概率;
5、已知这里有只狗那么它是四条腿的概率四条腿 VS 狗哥哥弟弟、哥哥妹妹、姐姐弟弟、姐姐妹妹假设有一个家庭,有两个孩子,现在其中有知道一个男孩,请问另一个也是男孩的概率是多少1/2?概率是 1/3条件概率:被测定为阳性者,真实患病概率只有50%事件A在事件B发生的条件下发生的概率。表示为P(A|B)假设人群中有1%的人罹患此疾病,而其他人是健康的。我们随机选出任一个体P(健康)=99%;P(患病)=1%假设检验出错的概率是1%,那么所以:整群人中健康、且测定为阴性者的比率:P(健康阴性)=P(健康)*P(阴性健康)=99%*99%=98.01%整群人中得病、且测定为阳性者的比率:P(患病阳性)=P
6、(患病)*P(阳性患病)=1%*99%=0.99%整群人中被测定为假阳性者的比率:P(健康阳性)=P(健康)*P(阳性健康)=99%*1%=0.99%整群人中被测定为假阴性者的比率:P(患病阴性)=P(患病)*P(阴性患病)=1%*1%=0.01%假设检验动作实施在患病的人身上时:P(阳性患病)=99%,P(阴性患病)=1%假设检验动作实施在健康的人身上时:P(阳性健康)=1%,P(阴性健康)=99%整群人中被测出为阳性者的比率:P(阳性)=P(健康阳性)+P(患病阳性)=0.99%+0.99%=1.98%某人被测出为阳性时,实际上真的得了病的机率:P(患病阳性)=P(患病阳性)/P(阳性)=
7、0.99/1.98=50%法官决策-统计定罪?背景:1960 年代,Juanita Brooks在洛杉矶遭到一名身穿深色衣服的金发白人女性抢劫和殴打。一名目击者证实了一名目击者证实了这一描述,并补充说,这名女子扎着马尾辫,一名留着胡须的黑人男子开着一辆黄色汽车将她接走,然后飞奔而去。警方随后逮捕了珍妮特和马尔科姆柯林斯,因为他们完全符合这个非常具体的描述。但是,当当局将这对夫妇介绍给警察队列中的受害者和证人时,他们都无法确定嫌疑人是袭击者。给定:一个无辜的人那么:她恰巧具备这些特征的概率是12万分之一给定:该城市中具备这样特征的人有10个人那么:珍妮特和马尔科的无辜概率是9/10问卷真的有用吗
8、?用户真的有better offer 吗真实的业务中,当我们开始觉着我们对用户不了解的时候,常常采用的方式就是通过问卷去收集用户的反馈根据公示重新来计算一下条件概率-业务场景ADD SUBTITLE假设用户在竞品可以拿到更好的offer的占比是40%,且用户倾向于回答他的确有更好offer所以有更好offer、且没有撒谎:P(真有回答yes)=P(真有)*P(回答yes真有)=40%*100%=40%没有更好offer、且没有撒谎:P(真没有回答no)=P(真没有)*P(回答no真没有)=60%*20%=12%整群人中被测定为假阳性者的比率:P(真有 回答no)=P(真有)*P(回答no真有)
9、=40%*0%=0整群人中被测定为假阴性者的比率:P(真没有回答yes)=P(真没有)*P(回答yes真没有)=60%*80%=48%整群人中回答yes的比例:P(回答yes)=P(真有回答yes)+P(真没有回答yes)=40%+48%=88%但问卷收集完成后,回答有better offer的用户中实际上真实有better offer的机率是:P(真有回答yes)=P(真有回答yes)/P(回答yes)=0.4/0.88=45%问卷真的有用吗?用户真的有better offer 吗可能与期望的并不相同真实的业务中,当我们开始觉着我们对用户不了解的时候,常常采用的方式就是通过问卷去收集用户的反
10、馈根据公示重新来计算一下问卷结果在某些场景可以提供一些定性的信息输入,但是定量角度的业务应用和业务决策是存在很大风险的条件概率-业务场景A和B哪个更好辛普森悖论Simpsons paradox整体上,西部航空延误率是10.89%西部航空的13.27%,所以西部航空的运营效率更高吗即:趋势出现在几组数据中,但当这些组被合并后趋势消失或反转“仔细斟酌个别分组的权重”12北京市2023年人均收入XXX我被谁平均了?模型训练神奇的平均数AB实验要小心拿1%用户跑了一个试验,发现试验版本效果比对照版本好,就说试验版本更好,但实际上线后并非如此(或者是实验在一个渠道上,上线在另外一个渠道)正确的流量分割,
11、保证试验组和对照组里的用户特征是一致的,并且都具有代表性,可以代表总体用户特征辛普森悖论的启示度小满123辛普森悖论的启示神奇的平均数模型训练指标管理指标管理用户去年用户数去年留存率今年用户数今年留存率新客300w40%100w40%老客600w60%480w60%总体900w53%580w57%今年经营效率变好,用户留存/粘性提升3%模型训练P(点击文艺片,香港,男性)P(点击恐怖片,内地,男性)P(点击文艺片,香港,女性)P(点击恐怖片,内地,女性)P(点击恐怖片,内地)=0.6875P(点击文艺片,香港)=0.5652模型1对内地出产的恐怖片预测的点击率要高于香港出产的文艺片加入新的特征
12、后,完全逆转模型判断结果避免单一指标判断度小满幸存者偏差平台经营:特殊时期对用户进行额度/定价等负向操作用户心声:借钱的时候很烦的、借钱意味着不只是缺钱而且还要付出额外利息,这时候发现(平台)不借给自己或者单方面涨价/降额 但自己不得不去借钱,感觉又爱又恨,被人拿捏 了”UER们:这是一个好用户,因为XXXX有多大概率亏损的生意能够转亏为盈?春运期间火车候车大厅随机调研有多少人买到火车票降落伞的电商店铺为什么都是好评?基金整体涨幅100%?研究活跃用户的偏好可以帮助我们了解怎么才能更好的把离开我们的用户重新吸引回来吗网上搜出“民国小学生作文”,文采极好,所以:现在的小学语文教育和民国时没法比只
13、用“部分幸存者”的数据去研究整体数据(包含死亡者和幸存者)“点扎啤是因为打算喝更多”研究人员观察每名同学喝的啤酒量,并记录每种啤酒是按杯、瓶还是按扎购买的。观察到:盛啤酒的容器和啤酒的消费量之间有很大的相关性买扎啤的学生喝的啤酒量大约是买杯状和瓶装啤酒的学生的2-4倍“如果喝扎啤,就会喝的更多”(人们喝的更多是因为他们喝的是扎啤)“为了让学生少喝酒,应该禁售扎啤”因果必然相关,相关不一定是因果(相关是因果的充分但不必要条件)度小满相关性 因果性1.运动时间多久,胆固醇含量越高?辛普森悖论:对于每个年龄组来说,运动似乎都是有益的,但是对总体来看,运动似乎是有害的2.科技支出越多,自杀越多?红线是
14、美国从1999-2009年在科技领域的支出,黑线是通过上吊、窒息等方式自杀的人数。我们发现其相关系数 r=0.9978因果关系是一个事件(因)和第二个事件(果)之间的作用关系,其中后一事件被认为是前一事件的结果度小满无效数据分析案例复购用户行为3期6期12期小计用户占比未复购_提前结清15%10%13%13%未复购_按期结清15%14%9%11%复购_提前结清37%33%45%42%复购_按期结清31%40%28%30%总计100%100%100%100%一年后留存率未复购_提前结清21%18%0.02%7%未复购_按期结清33%28%0.02%15%复购_提前结清57%62%63%60%复购
15、_按期结清65%72%87%79%总计51%57%57%56%首笔期数内未复购的用户,一年后的留存率远低于大盘和复购用户12期用户如果期数内未复购,一年后的留存率会很差,接近0%未复购用户中,首笔按期还用户的留存最好复购类型用户占比一年后留存率首笔期数内复购75%70%首笔期数内未复购25%10%总计100%55%1.首笔快速结清、不再复购的原因可能是:体验不佳/offer不满/当备胎/没需求,识别早期流失原因2.识别提前/按期还款用户,按期还款用户不宜过早干预,更需要关注结清后不复购3.首选3、6期客户如果到期结清前无复购的流失概率非常高,所以结清前必须要让用户复购一次建议数据解读统计幸存者偏差第一类:一定时间之内和我产生联系的用户第二类:一定内没有和我建立联系的用户结论是:第二类用户失去联系的概率是100%因果谬论度小满用户的首次分期期内的行为是和其最后的留存率之间的关系如何避免无效数据分析?Challenge意识如果这么做了,有多大的增益度小满如何避免无效数据分析1.具备相同特质的人有多少?2.不进行负向操作能够带来多少收益,又会带来多少风险,收益大于风险的边界概率是多少1.假设基于新的发现去进行对应策略,且已知改策略的真实预测能力为p%,那么能够带来的收益是多少2.测算后,新发现在原有策略评估后的增益有多多少度小满Thanks.