推荐系统推理性能优化在“双十一”中的应用.pdf

编号：29562

PDF 18页 882.86KB 下载积分：VIP专享

下载报告请您先登录！

推荐系统推理性能优化在“双十一”中的应用.pdf

1、推荐系统推理性能优化在双11中的应用李晨露服务器研发部目录目录推荐系统简介推理性能优化方法实验结果总结及展望推荐系统简介搜索平台服务分发展示排序 AB-test 个性化引擎行为序列偏好预估 Embedding 排序策略图引擎用户行为用户标签商品关系商品标签实时计算平台 PORSCHE 实时日志和特征实时预测在线学习机器学习平台PAI PAI-MPI PAI-TF O D P S 用户标签销量预估离线预测 CVR模型模型更新排序模型日志join特征join训练样本展示精排粗排个性化召回关键字索引个性化索引模型和特征 H A 3 推荐

2、系统简介背景：模型迭代，用户、商品量增长计算复杂度增长首猜模型的计算量增长为去年十倍硬件资源成本高原生的算法模型在CPU-GPU异构系统中无法完全发挥出计算性能双11当天流量洪峰，单场景需要上千台服务器支持结合搜索推荐算法模型特征，从根本上对CPU-GPU异构系统的性能问题进行分析和优化，采用通用模块设计及优化、CUDA Graph、全连接层优化等多种优化策略推荐系统模型结构 Dense Net Embedding LookUp Embedding LookUp User Tables Product Tables Query Ranking scores CPU GPU

3、 Dense Net： MLP MultiHeadAttention 自定义结构推理性能优化方法量化 FP32-FP16。维持算法精度的前提下减少计算量算子融合对多个连续的算子进行融合，形成一个OP 通用模块设计及优化对于搜索业务中普遍使用的通用模块设计独立的自定义OP，例如MultiHeadAttention CUDA Graph应用使用CUDA Graph，降低整个graph的launch overhead，提升GPU利用率 MatMul融合利用cutlass工具实现MatMul与其他OP的融合，进一步提高计算密度推理性能优化方法量化量化规则：利用TensorCore，FP16量化MatMul FP32累加器维持精度 FP16量化MatMul之间的自定义op 特殊处理：使用FP32防止溢出（例如：softmax）推理性能优化方法算子融合减少kernel lau

友情提示

1、下载报告失败解决办法
2、PDF文件下载后，可能会被浏览器默认打开，此种情况可以点击浏览器菜单，保存网页到桌面，就可以正常下载了。
3、本站不支持迅雷下载，请使用电脑自带的IE浏览器，或者360浏览器、谷歌浏览器下载即可。
4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩，下载后原文更清晰。

本文（推荐系统推理性能优化在“双十一”中的应用.pdf）为本站（X-iao）主动上传，三个皮匠报告文库仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对上载内容本身不做任何修改或编辑。若此文所含内容侵犯了您的版权或隐私，请立即通知三个皮匠报告文库（点击联系客服），我们立即给予删除！

温馨提示：如果因为网速或其他原因下载失败请重新下载，重复下载不扣分。