上海品茶

您的当前位置:上海品茶 > 报告分类 > PDF报告下载

推荐系统推理性能优化在“双十一”中的应用.pdf

编号:29562 PDF 18页 882.86KB 下载积分:VIP专享
下载报告请您先登录!

推荐系统推理性能优化在“双十一”中的应用.pdf

1、推荐系统推理性能优化在 双11中的应用 李晨露 服务器研发部 目录目录 推荐系统简介 推理性能优化方法 实验结果 总结及展望 推荐系统简介 搜索平台 服务分发 展示排序 AB-test 个性化引擎 行为序列 偏好预估 Embedding 排序策略 图引擎 用户行为 用户标签 商品关系 商品标签 实时计算平台 PORSCHE 实时日志和特征 实时预测 在线学习 机器学习平台PAI PAI-MPI PAI-TF O D P S 用户标签销量预估 离线预测 CVR模型 模型更新 排序模型 日志join特征join训练样本 展示精排 粗排个性化召回 关键字索引 个性化索引 模型和特征 H A 3 推荐

2、系统简介 背景: 模型迭代,用户、商品量增长 计算复杂度增长 首猜模型的计算量增长为去年十倍 硬件资源成本高 原生的算法模型在CPU-GPU异构系统中无法完全发挥出计算性能 双11当天流量洪峰,单场景需要上千台服务器支持 结合搜索推荐算法模型特征,从根本上对CPU-GPU异构系统的性能问 题进行分析和优化,采用通用模块设计及优化、CUDA Graph、全连 接层优化等多种优化策略 推荐系统模型结构 Dense Net Embedding LookUp Embedding LookUp User Tables Product Tables Query Ranking scores CPU GPU

3、 Dense Net: MLP MultiHeadAttention 自定义结构 推理性能优化方法 量化 FP32-FP16。维持算法精度的前提下减少计算量 算子融合 对多个连续的算子进行融合,形成一个OP 通用模块设计及优化 对于搜索业务中普遍使用的通用模块设计独立的自定义OP,例如MultiHeadAttention CUDA Graph应用 使用CUDA Graph,降低整个graph的launch overhead,提升GPU利用率 MatMul融合 利用cutlass工具实现MatMul与其他OP的融合,进一步提高计算密度 推理性能优化方法量化 量化规则: 利用TensorCore,FP16量化MatMul FP32累加器维持精度 FP16量化MatMul之间的自定义op 特殊处理: 使用FP32防止溢出(例如:softmax) 推理性能优化方法算子融合 减少kernel lau

友情提示

1、下载报告失败解决办法
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。

本文(推荐系统推理性能优化在“双十一”中的应用.pdf)为本站 (X-iao) 主动上传,三个皮匠报告文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三个皮匠报告文库(点击联系客服),我们立即给予删除!

温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。
会员购买
客服

专属顾问

商务合作

机构入驻、侵权投诉、商务合作

服务号

三个皮匠报告官方公众号

回到顶部