2019年超大规模深度学习在美团的应用.pdf

编号：95917

PDF 38页 5.73MB 下载积分：VIP专享

下载报告请您先登录！

2019年超大规模深度学习在美团的应用.pdf

1、超大规模深度学习在美团的应用美团点评用户平台研究员目录美团超大规模模型场景简介超大规模机器学习MLX MLX平台目标 MLX平台架构模型场景应用召回模型排序模型目录美团超大规模模型场景简介超大规模机器学习MLX MLX平台目标 MLX平台架构模型场景应用召回模型排序模型美团超大规模模型应用场景美团推荐美团搜索美团广告美团应用场景简介场景特点亿级的用户，千万级的O2O商品海量的用户行为，完整的交易闭环LBS相关的推荐模型特点百亿级别的训练数据千亿级别的模型特征秒级实时的模型反馈目录美团超大规模模型场景简介超大规模机器学习MLX MLX平台目标 MLX平台架构模型场景

2、应用召回模型排序模型超大规模模型的有效性VC维理论描述模型的学习能力：VC维越大模型越复杂，学习能力越强机器学习能力=数据+特征+模型数据海量数据：美团的亿级用户、千万级POI 特征大规模离散特征小规模泛化特征模型DNN 树模型 LR美团超大规模模型应用场景可扩展的机器学习架构基于Parameter Server架构数据并行支持超大规模训练集模型并行支持超大规模模型业界千亿级以上的机器学习平台开源：PaddlePaddle、XDL，etc.内部：Abacus、XPS，etc.Online Learning的价值用户的近期行为，更能表现意图和偏好增强新item的模型感知能

3、力更快数据反馈、更少资源消耗分钟级的数据反馈增量训练、避免batch重训带来的资源消耗关于Online LearningMLX的模型能力支持千亿级特征、千亿级样本支持计算图模式，模型结构灵活多样支持推荐、搜索、广告场景常用的深度学习模型 FTRL、FM、FFM、WDL、DCN、DeepFM、MTL等 Optimizer FTRL、AdaGrad、AdaDelta、ADAM、AmsGrad、etc Loss Function LogLoss、SquareLoss、Cross Entropy、etc 评估指标 AUC、Loss、MAE、RMSE 支持外部eval工具，计算MAP、NDC

4、GMLX的模型能力提供离线、近线、在线全流程解决方案，各阶段提供扩展方案，降低算法迭代成本；支持Online Learning，提供从近线到在线的模型数据通路；提供从召回到排序全流程的模型解决方案，为业务提供最佳实践；提供系统的平台化工具，为用户提供易用的界面操作；MLX模型能力MLX平台架构MLX平台架构基于Worker+PS架构搭建 Worker模型计算引擎（Engine）计算图框架（Graph）模型计算引擎Engine模型结构处理与PS通信交换模型参数计算图的计算计算图框架Graph计算逻辑抽象op，通过op组合形成模型结构提供正向（forward）、反向（backward）、Lo

5、ss的操作扩展模型训练框架模型可变计算路径运行阶段计算图裁剪模型训练框架应用场景离线预计算模型召回，ANN检索粗排模型，降低线上计算量分布式Sharding模型分片存储，支持超大规模模型数据并行计算，加速Optimizer计算低频特征过滤Counting Bloom Filter概率方式模型数据通路Base+Delta方式增量提供ACK机制，确保模型正确性Parameter Server 模型数据的统一管理模型结构模型参数PS的参数放置策略 Ps分布式分片的均衡，避免分片大小不一致NN网络矩阵按行切分，解决请求包不均衡问题特征按照Hash方式分布式存储模型并行调超参grid

6、searchrandom searchPS的多模型训练提高内存使用效率model group内共享特征key的存储超大规模模型-高扇出的分布式PS 长尾效应：单个分片的抖动（网络、CPU）对请求影响变大单分片4个9的可用性16分片整体可用性：99.99%16=99.84%64分片整体可用性：99.99%64=99.36%128分片整体可用性：99.99%128=98.72%Backup RequestJeff Dean在解决BigTable高扇出时提出的方案PS的长尾效应Backup Request副本1副本2PS Shard 1副本1副本2PS Shard 2副本1副本2PS Shard

7、 NPredictorreq 1req 2req NPS Reqreply 1reply 2reply N超过tBackup RequestCancel Request流式模型的通路持久化存储本地disk存储，持久化对齐kafka的数据 PS快速failoverCompaction机制，降低load数据量 Online Learning对数据流的要求不重不丢：重复的数据会使模型有偏，数据的缺失会使模型丢失重要信息数据有序性：数据乱序会导致样本穿越的现象 Log Join框架双流拼接框架，通过组合方式支持多流拼接基于Event Time的Window机制拼接方式基于Low Water

8、mark解决流乱序、流延迟等流式常见问题流式拼接框架 Low Watermark机制定义了流式数据的时钟，不可逆性 Smooth low watermark：异常数据时间跳变流式拼接 Checkpoint解决不重不丢问题外存解决大数据量性能问题在引擎中流转log key，特征数据在外存分业务场景支持轻量级predictor：仅支持模型的计算，特征由业务传入，无状态设计自定义predictor：提供业务抽象，支持业务自定义逻辑，插件化实现逻辑阶段抽象，业务根据自身需求选择性实现数据获取：根据业务的自身逻辑获取特征原始数据特征抽取：将特征数据进行转换，转换成模型所需的格式，比如离

9、散化模型计算：传入转换后的特征数据，调用模型计算引擎在线预估服务特征编码方式通过明文hash的方式编码适用于特征的动态增长不需要预分配，提高处理效率框架与实现分离提供op形式的特征抽取类逻辑一致性：在线、近线、离线特征抽取框架目录美团超大规模模型场景简介超大规模机器学习MLX MLX平台目标 MLX平台架构模型场景应用召回模型排序模型漏斗模型召回模型排序模型美团推荐场景的应用漏斗模型推荐的漏斗模型候选集召回粗排精排策略漏斗模型数千数百千万展位数十模型的设计样本&特征的设计模型的通路模型召回解决方案基于双塔的模型召回架构基于用户和item的DNN结构产

10、出用户和item两侧向量基于ANN的向量相似度检索 Item侧离线计算，形成ANN词表用户侧向量实时计算，通过ANN找出相似item向量召回模型设计LBS的负例采样与位置相关的negative sampling样本&特征设计特征设计用户侧：能设计完整的特征，个性化，实时特征Item侧：预计算带来的副作用，不能使用实时特征点击(+)仅曝光同地域全体集合分布偏差大无效信息多样本分布在线、近线、离线全流程解决方案召回模型通路粗排模型精排模型排序模型解决方案粗排阶段的特点候选集大，通常在千到万级别线上的响应时间要求高，通常在几到十几ms 简单模型计算耗时短：线性模型LR、树模型模型表达能力

11、不足，效果一般复杂模型DNN模型解决耗时是关键，利用预计算解决耗时问题效果保障：保证用户的个性化信息，降低候选集计算复杂度粗排模型精排阶段的特点候选集较少，通常在百级别线上耗时相对宽松，几十毫秒（视效果而定）精排模型的特点结构复杂，怎么有效果怎么来特征多样：历史行为、统计值、id类特征、高维交叉,etc.模型发展历程树模型：Random Forest、XGBoost小规模DNN：MLP、小规模的Wide&Deep大规模离散DNN：大规模的Wide&Deep、DeepFM、DCN精排模型1.Random Forest2.XGBoost1.MLP2.少量特征空间的Wide&Deep1.大规模离散特征的Wide&Deep2.DeepFM3.Deep Cross树模型小规模DNN大规模离散DNN 超大规模深度学习工程实现数据并行、模型并行在线、近线、离线逻辑一致性实时模型业务应用召回模型，ANN搜索粗排模型，模型预计算精排模型，大规模离散DNN总结

友情提示

1、下载报告失败解决办法
2、PDF文件下载后，可能会被浏览器默认打开，此种情况可以点击浏览器菜单，保存网页到桌面，就可以正常下载了。
3、本站不支持迅雷下载，请使用电脑自带的IE浏览器，或者360浏览器、谷歌浏览器下载即可。
4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩，下载后原文更清晰。

本文（2019年超大规模深度学习在美团的应用.pdf）为本站（云闲）主动上传，三个皮匠报告文库仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对上载内容本身不做任何修改或编辑。若此文所含内容侵犯了您的版权或隐私，请立即通知三个皮匠报告文库（点击联系客服），我们立即给予删除！

温馨提示：如果因为网速或其他原因下载失败请重新下载，重复下载不扣分。