《2020年终大会-推荐算法:3-2.pdf》由会员分享,可在线阅读,更多相关《2020年终大会-推荐算法:3-2.pdf(25页珍藏版)》请在三个皮匠报告上搜索。
1、粗排技术体系与最新进展 王哲 阿里定向广告算法团队 大纲 粗排发展历史 粗排最新进展 总结与展望 粗排发展历史 背景介绍 大型工业排序系统一般采用多阶段级联架构,包含: 召回:1000W+ 粗排:1W+ 精排:上百 重排:上百 粗排目标: 在满足算力rt约束的情况下,选出满足后链路需求的集 合。 粗排与精排的比较: 算力rt约束:粗排打分量远高于精排,同时有较严格的 延迟约束:10-20ms 解空间问题:粗排线上打分的候选集更大,面临更严 重的选择偏差问题。 Matching Pre-Ranking Ranking tens of millions tens of thousands hund
2、reds Re-Ranking 粗排的两大技术路线 集合选择技术精准值预估技术 以集合为建模目标,选出满足后链路 需求的集合 依赖对后链路的学习,可控性较弱 算力消耗一般较小 代表技术: 多通道 Listwise,如LambdaMART 序列生成算法 集合评估器 集合生成器 以值为建模目标,直接对最终系统 目标进行精确值预估 可控性更强 算力消耗一般较大 代表技术: Pointwise 粗排的前深度学习时代(2016年以前) y = ?(Tx) Generation 3 Vector-Product based DNN Generation 4 COLD Generation 2 Logist
3、ic Regression Generation 1 Ad-wise statistical score user featuresad features ConcatConcat 0 1 x y = f(xa) y = # clicks(ad) # impressions(ad) ?(x) x = concat(xu,xa,xua) 质量分 基于广告的历史平均CTR,只使用了广告侧的信息 表达能力有限 实时性强 LR为代表的传统机器学习模型 结构简单,有一定的个性化表达能力 可以在线更新,在线服务 粗排的深度时代-向量内积模型(2016) 双塔结构,两侧分别输入user特征和ad特征,经 过DNN变幻后分别产出user向量和ad向量 user侧网络可以引入transformer等复杂结构对用 户行为序列进行建模 优点: 内积计算简单,节省线上打分算力 user向量和ad向量离线计算产出,