《2020年终大会-推荐算法:3-1.pdf》由会员分享,可在线阅读,更多相关《2020年终大会-推荐算法:3-1.pdf(19页珍藏版)》请在三个皮匠报告上搜索。
1、深度树匹配召回体系演进 阿里妈妈广告产品技术事业部 卓靖炜 检索召回技术现状 深度树匹配(TDM)技术演进 TDM业务应用实践 总结与展望 分享大纲 互联网业务中检索技术的发展 检索技术是搜索、推荐和广告的通用底层技术,是数据、算力和算法相辅相成 数据的扩张遇上算力的局限,产生了分阶段Match & Rank的算法体系 Match的核心问题:从大规模候选集合高效检索topK 单点计算消耗 所需计算次数系统性能边界 Enormous MatchRank All ItemsInterest Items Retrieval tens+thousands+millions+ 两段式Match的经典实现
2、 经典实现:基于商品的协同过滤(Item-based Collaborative Filtering, Item-CF) 也即 User-Item = User-Trigger Item Trigger Item-Item (I2I)。 Phase 1Phase 2 2. 获取历史行为 Trigger Item 3. 扩展&计算得 到TopK相似Item 1. 离线计算I2I相 似关系 两阶段无法联合优化 截断导致效果受限 模型简单,实现成本低 优势 问题 两段式检索一段式全库检索 内积模型向量检索 基于用户&商品特征的Embedding计算内积相似度,集合召回-单点打分&分类 1. 受限于内
3、积,模型能力存在局限 面向全库的一段式检索,具有一定的发现能力 优势 问题 Ux Cm Imk 1. 离线学习Item Embedding(IE) 2. 离线基于聚类&乘 积量化构建索引 3. 实时计算User Embedding(UE),在索引中查 找UE最近邻K个IE 2. 索引构建与检索目标的优化方向不一致 联合优化? l 索引构建的优化目标:最小化近似误差 l 向量检索的优化目标:最大化TopK召回率 1部分数据来自Deep Interest Evolution Network for Click-Through Rate Prediction-AAAI 2019 深度树匹配 1,如何基于树实现高效检索? 2,如何做兴趣建模保证树检索有效性? 3,如何学习兴趣模型? 4,如何构建和优化树索引结构? 10亿商品库挑Top1 10亿次-30次 树的效率 模型能力的升级,需要相应的索引结