1、推荐系统推理性能优化在 双11中的应用 李晨露 服务器研发部 目录目录 推荐系统简介 推理性能优化方法 实验结果 总结及展望 推荐系统简介 搜索平台 服务分发 展示排序 AB-test 个性化引擎 行为序列 偏好预估 Embedding 排序策略 图引擎 用户行为 用户标签 商品关系 商品标签 实时计算平台 PORSCHE 实时日志和特征 实时预测 在线学习 机器学习平台PAI PAI-MPI PAI-TF O D P S 用户标签销量预估 离线预测 CVR模型 模型更新 排序模型 日志join特征join训练样本 展示精排 粗排个性化召回 关键字索引 个性化索引 模型和特征 H A 3 推荐
2、系统简介 背景: 模型迭代,用户、商品量增长 计算复杂度增长 首猜模型的计算量增长为去年十倍 硬件资源成本高 原生的算法模型在CPU-GPU异构系统中无法完全发挥出计算性能 双11当天流量洪峰,单场景需要上千台服务器支持 结合搜索推荐算法模型特征,从根本上对CPU-GPU异构系统的性能问 题进行分析和优化,采用通用模块设计及优化、CUDA Graph、全连 接层优化等多种优化策略 推荐系统模型结构 Dense Net Embedding LookUp Embedding LookUp User Tables Product Tables Query Ranking scores CPU GPU
3、 Dense Net: MLP MultiHeadAttention 自定义结构 推理性能优化方法 量化 FP32-FP16。维持算法精度的前提下减少计算量 算子融合 对多个连续的算子进行融合,形成一个OP 通用模块设计及优化 对于搜索业务中普遍使用的通用模块设计独立的自定义OP,例如MultiHeadAttention CUDA Graph应用 使用CUDA Graph,降低整个graph的launch overhead,提升GPU利用率 MatMul融合 利用cutlass工具实现MatMul与其他OP的融合,进一步提高计算密度 推理性能优化方法量化 量化规则: 利用TensorCore,FP16量化MatMul FP32累加器维持精度 FP16量化MatMul之间的自定义op 特殊处理: 使用FP32防止溢出(例如:softmax) 推理性能优化方法算子融合 减少kernel lau
1、下载报告失败解决办法 2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。 3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。 4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
基于 GPU 的机器翻译推理性能优化.pdf
GPU 加速的数据处理在推荐系统中的应用.pdf
5-3 图神经网络在推荐系统中的应用.pdf
2-6 图表示学习技术在药物推荐系统中的应用.pdf
三个皮匠报告专业的行业报告下载站,每日更新,欢迎大家关注!
copyright@2008-2013 长沙景略智创信息技术有限公司版权所有 网站备案/许可证号:湘B2-20190120
专属顾问
机构入驻、侵权投诉、商务合作
三个皮匠报告官方公众号
验证即登录,未注册将自动创建三个皮匠报告账号
使用 微信 扫一扫登陆