《2020年终大会-推荐算法:3-7.pdf》由会员分享,可在线阅读,更多相关《2020年终大会-推荐算法:3-7.pdf(26页珍藏版)》请在三个皮匠报告上搜索。
1、多业务融合推荐场景下的 深度学习实践 58同城高级算法架构师罗景 提纲 双通道 多通道 多场景适配 工程实践 总结思考 场景 挑战 场景介绍:多业务融合推荐 大规模场景:UV千万量级;帖子候选集亿级别;模 型训练样本10亿级别; 多业务融合:覆盖租房,招聘,二手房,二手车, 本地生活,新房,新车等 多目标优化:涉及 连接效率 / 商业收入 /用户体验 / 用户留存 / 运营活动 等多目标平衡 58APP上海品茶猜你喜欢 面临挑战:多业务融合 召回策略:各个召回通道的业务适配 重排策略:多业务之间的流量均衡分配 展示样式:不同业务展示元素与样式的适配 排序模型:特征对齐与特征工程复杂 业务差异带来的
2、特征对齐困难 帖子属性信息差异 用户兴趣业务差异 样本中帖子特征与用户兴趣特征维度 上无法对齐 反馈特征也由于业务差异,实际效果并不理想 多业务特征工程流程/逻辑复杂 部分特征需要针对不同业务维护特有的数据流程(e.g.用户兴趣构建) 维护代价 大 存在业务特定的特征工程逻辑(e.g.匹配交叉特征) 复杂度高 双通道:行为序列兴趣模型验证 用户行为序列构建序列模型选型 序列构成:用户点击/转化行为 序列表征:帖子ID,类目,地域等 关键属性 序列长度:基于业务周期 DIN:注意力兴趣 DIEN:序列性,兴趣抽取与演化,动 态兴趣 Transformer:自注意力&多头,位置 Embedding
3、 动机:以用户行为序列作为模型的核心输入 =优秀兴趣建模能力,解决特征对齐困 难,降低特征工程代价 结论:纯序列兴趣模型的效果并不能超越已有特征工程做得比较完善的XGB模型 双通道:定制化通道引入 用户 兴趣 标签 帖子 关键 标签 帖子 标题 帖子 首图 用户 最近 搜索 词 用户 LBS 帖子 LBS 用户最 近点击 帖子关 键标签 用户最 近转化 帖子关 键标签 Concat Layer Customized Cross Layer DNNGapMultiply Embedding Layer(One-Hot / Mult-Hot / Pre-train) 特征 层 向量 化层 交叉 层 拼接 层 怎么把XGB模型中基于业务场景理解的高级特 征(e.g.匹配交叉特征)与最佳实践引入进来 通过特征工程模块构建特征,然后将这部分特征作 为数据合并入样本,进行模型训练 工程流程与逻辑仍比较