上海品茶

您的当前位置:上海品茶 > 报告分类 > PDF报告下载

TurboTransformers:高效的 Transformer 线上推理系统.pdf

编号:29539 PDF 39页 4.50MB 下载积分:VIP专享
下载报告请您先登录!

TurboTransformers:高效的 Transformer 线上推理系统.pdf

1、TurboTransformer : 高效的Transformers GPU服务系统 腾讯微信模式识别中心 高级工程师 Jiarui Fang 方佳瑞 日程日程 动机 系统设计 计算优化 内存优化 服务优化 接口使用 性能指标 2020/12/2 背景:背景:TransformerTransformer模型模型 Attention结构更适合变长序列处理 易于并行 ,优于RNN, CNN 长依赖,任意两个位置之间距离为常数 Attention is All your need Encoder+Decoder结构解决NMT问题 BERT 只有Encoder结构的预训练模型 2020/12/3 造轮

2、子动机造轮子动机 (1)(1):业务需求多:业务需求多 Transformer是业界最成功的NLP网络结构 Bert Serving在模式识别中心广泛应用,两条Query之间相似度 比对,文章摘要,情感分类,机器翻译, 对于其极致工程实践大有必要 2020/12/4 frozen model dataset TrainingServing NLP算法研发到上线流程 CPU/GPU server 造轮子动机造轮子动机 (2)(2):计算需求大:计算需求大 Transformer模型需要多计算资源来响应 2020/12/5 seq_length=40, batch = 1 image= 3x224

3、x224 Bert-encoder 结构图 image = 3x300 x300 造轮子动机造轮子动机 (3) (3) :相关工作无法满足需求:相关工作无法满足需求 2020/12/6 输入大小变化 (batch_size, seq_length) 用户请求from_seq_length不定 Beam Search解码时target_seq_length自增 计算低延迟 易于开发 1 2 4 应对输入变化的能力 计算不需要根据输入尺寸对计算图预优化 应对变化的内存分配 CPU/GPU上高性能推理计算 兼容训练框架的模型加载和调用方式 NLP计算框架需求NLP计算框架特点 需求是什么? 服务高吞吐3CPU/GPU上高性能网络服务 造轮子动机造轮子动机 (3) (3) :相关工作无法满足需求:相关工作无法满足需求 2020/12/7 Can we have cake and eat it to

友情提示

1、下载报告失败解决办法
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。

本文(TurboTransformers:高效的 Transformer 线上推理系统.pdf)为本站 (X-iao) 主动上传,三个皮匠报告文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三个皮匠报告文库(点击联系客服),我们立即给予删除!

温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。
会员购买
客服

专属顾问

商务合作

机构入驻、侵权投诉、商务合作

服务号

三个皮匠报告官方公众号

回到顶部