杭州下沙大学生品茶群(杭州想约的加我,网坛)

上海品茶

TurboTransformers：高效的 Transformer 线上推理系统.pdf

上传人：li

编号：29539

2021-02-07

39页 4.50MB

《TurboTransformers：高效的 Transformer 线上推理系统.pdf》由会员分享，可在线阅读，更多相关《TurboTransformers：高效的 Transformer 线上推理系统.pdf（39页珍藏版）》请在三个皮匠报告上搜索。

1、TurboTransformer : 高效的Transformers GPU服务系统腾讯微信模式识别中心高级工程师 Jiarui Fang 方佳瑞日程日程动机系统设计计算优化内存优化服务优化接口使用性能指标 2020/12/2 背景：背景：TransformerTransformer模型模型 Attention结构更适合变长序列处理易于并行，优于RNN, CNN 长依赖，任意两个位置之间距离为常数 Attention is All your need Encoder+Decoder结构解决NMT问题 BERT 只有Encoder结构的预训练模型 2020/12/3 造轮

2、子动机造轮子动机 (1)(1)：业务需求多：业务需求多 Transformer是业界最成功的NLP网络结构 Bert Serving在模式识别中心广泛应用，两条Query之间相似度比对，文章摘要，情感分类，机器翻译，对于其极致工程实践大有必要 2020/12/4 frozen model dataset TrainingServing NLP算法研发到上线流程 CPU/GPU server 造轮子动机造轮子动机 (2)(2)：计算需求大：计算需求大 Transformer模型需要多计算资源来响应 2020/12/5 seq_length=40, batch = 1 image= 3x224

3、x224 Bert-encoder 结构图 image = 3x300 x300 造轮子动机造轮子动机 (3) (3) ：相关工作无法满足需求：相关工作无法满足需求 2020/12/6 输入大小变化 (batch_size, seq_length) 用户请求from_seq_length不定 Beam Search解码时target_seq_length自增计算低延迟易于开发 1 2 4 应对输入变化的能力计算不需要根据输入尺寸对计算图预优化应对变化的内存分配 CPU/GPU上高性能推理计算兼容训练框架的模型加载和调用方式 NLP计算框架需求NLP计算框架特点需求是什么？服务高吞吐3CPU/GPU上高性能网络服务造轮子动机造轮子动机 (3) (3) ：相关工作无法满足需求：相关工作无法满足需求 2020/12/7 Can we have cake and eat it to