《不同类型实验在搜索场景中的使用.pdf》由会员分享,可在线阅读,更多相关《不同类型实验在搜索场景中的使用.pdf(25页珍藏版)》请在三个皮匠报告上搜索。
1、DataFunSummit#2023不同类型实验在不同类型实验在搜索场景中的使搜索场景中的使王东星 腾讯 数据产品经理我简介我简介 腾讯 PCG 搜索 10+年数据产品 从 0 到 1 搭建搜狗搜索实验平台0101ABAB实验简介实验简介简单介绍AB实验及流程0202搜索实验常见问题搜索实验常见问题搜索实验常见的问题及解决法0303各类型搜索实验介绍各类型搜索实验介绍搜索常的种类型实验介绍:普通AB、词表实验、diffab、interleaving0404Q Q&A A互相交流录录 CONTENTCONTENTDataFunSummit#20230101ABAB实验简介实验简介ABAB实验简介
2、实验简介 其他名字:双盲测试、A/B?testing、AB测试、随机分组实验 基本思想:取出部分(降低风险降低风险)流量,完全随机地分给对照组和实验组,并通过统计学法得出结论(准确量化准确量化)ABAB实验简介实验简介分流Hash取模对照组实验组盘流量盘流量实验设计实验设计实验运实验运策略A策略B数据数据&结论结论ABAB实验简介实验简介 分流分流盘流量盘流量单层单层多层多层实验层实验层1 1实验层实验层2 2流量分层流量分层流量正交流量正交理论理论依据:依据:Overlapping?Experiment?Infrastructure:?More,?Better,?Faster?Experim
3、entationOverlapping?Experiment?Infrastructure:?More,?Better,?Faster?ExperimentationABAB实验简介实验简介 流程流程 提升点击率 提升订单转化率 提升GMV 提升户满意度明确标明确标提出假设提出假设创建实验创建实验运实验运实验分析实验分析实验最终决策最终决策 规划实验 实验平台创建 策略开发 实验上线 空转/AA回溯 运7-14天 结论是否符合预期 异常数据排查 复杂的实验,多维度分析 按钮红绿CTR 左图右右图左CTR A案B案的订单转化率 实验报告 Launch?Review 推全上线DataFunSumm
4、it#20230202各类型搜索实验介绍各类型搜索实验介绍各类型搜索实验介绍各类型搜索实验介绍1.Query:查询词,就是我们在搜索栏输的词,例如王者荣耀下载2.意图判断:对Query的的判断,如王者荣耀下载就是游戏意图3.结果页:搜索结果页,通常由10个卡组成,每个卡有对应的卡ID和位置等信息4.QV:Query访问(查询)次数5.卡影响:卡在搜索结果页中的例6.策略影响:策略在盘中的效例7.卡位置:卡在搜索结果页中的排序位置各类型搜索实验介绍各类型搜索实验介绍实验场景实验场景特点特点实验类型实验类型搜索结果页改版(整体样式、字号调整、圆调整)影响,全量普通AB实验卡样式改版(UI、排版、数
5、据)影响,部分流量词表实验+限定卡ID策略控制卡内容展现(元素)影响,部分流量Diffab实验算法控制排序影响较,部分流量Interleaving实验各类型搜索实验介绍各类型搜索实验介绍盘流量盘流量实验流量实验流量实验分组实验分组普通普通ABABinterleavinginterleaving词表实验词表实验diffabdiffab实验户实验户实验数据实验数据与搜索业务强耦合,涉及流量打平、缓存、命中、与搜索业务强耦合,涉及流量打平、缓存、命中、diffdiff判断、上报模块等判断、上报模块等SDKSDK能出卡的词表能出卡的词表搜索实验搜索实验 普通普通ABAB 盘选择流量,均衡分配普通普通A
6、BAB对照组对照组实验组实验组卡分隔式优化卡分隔式优化说明:展图为设计稿,仅做展说明:展图为设计稿,仅做展搜索实验搜索实验 词表实验词表实验 配置词表包+卡ID,基于词表分流和统计数据对照组对照组实验组实验组普通普通ABAB词表实验词表实验能出卡的词表能出卡的词表搜索实验搜索实验 diffabdiffab 影响、解决收益稀释普通普通ABABdiffabdiffab对照组对照组实验组实验组搜索实验搜索实验 interleavinginterleaving普通普通ABABinterleavinginterleavingUIDUID HashHash取模取模问题:问题:活跃度分流不均活跃度分流不均重
7、度户的例不均重度户的例不均优点:优点:实验周期更短实验周期更短需要样本量更少需要样本量更少搜索实验搜索实验 interleavinginterleaving实验机制实验机制&核思想核思想:不对户分组,每个户同时受两个策略的作,排除户属性的差异对策略评估的影响。统计实验指标时给每个户相同的权重,降低重度户对实验结果的影响,实验周期幅降低。InterleavingInterleaving实验层实验层ABAB实验层实验层搜索实验搜索实验 interleavinginterleaving Balanced?Interleaving、Team-Draft?Interleaving对搜索实验搜索实验 in
8、terleavinginterleaving胜出机制:胜出机制:户点击个结果时,哪个列表对应的位置(靠前),哪个得分 最终分的列表获胜,相等则为打平,不得分算法算法A A算法算法B B算法算法A A优先优先结果列表结果列表来源来源算法算法A A位置位置算法算法B B位置位置谁得分谁得分aaa a算法A11不得分bcc c算法B32算法Bcdb b算法A24算法Adbd d算法B43算法B搜索实验搜索实验 interleavinginterleaving实验实验实验指标计算实验指标计算 num?=?win?+?tie?+?lose 胜出率=?(win?-lose)?/?num 影响=?算法效的流
9、量/总实验流量 感知增益=?x*?y*?z算法算法胜出胜出打平打平落败落败影响影响感知增益感知增益A vs B345330.164785128说明:表格中为模拟数据DataFunSummit#20230303搜索实验常见问题搜索实验常见问题搜索实验常见问题搜索实验常见问题Q1Q1:实验组不命中实验?A A:缓存选错,被互斥,召回Q2Q2:流量不均衡?A A:空转期是否均衡,出卡率是否相同,实验组流量固化Q3Q3:影响极,难拿到盘收益(例如留存类指标)?A A:多个策略打包,做长期反转实验观察Q4Q4:如何避免实验相互影响A A:相同词表、相同卡实验做好互斥管理Q5Q5:个别实验指标负向?A A:核指标+类错误率低于5%可接受搜索实验常见问题搜索实验常见问题Q6Q6:指标多,数据产出慢?A A:指标溯源,分批产出Q7Q7:如何避免Trick?A A:数据从平台出,避免挑选有优势的Query跑数;Query覆盖和量级达标,排除侥幸Q8Q8:流量实验影响系统稳定性A A:接case校验平台,实验运前先校验Q9Q9:影响其他业务?A A:建各业务护栏指标关注及通知机制Q10Q10:问题处理不过来?A A:接公开,专业做专业事DataFunSummit#20230404Q Q&A A感谢观看