《TurboTransformers:高效的 Transformer 线上推理系统.pdf》由会员分享,可在线阅读,更多相关《TurboTransformers:高效的 Transformer 线上推理系统.pdf(39页珍藏版)》请在三个皮匠报告上搜索。
1、TurboTransformer : 高效的Transformers GPU服务系统 腾讯微信模式识别中心 高级工程师 Jiarui Fang 方佳瑞 日程日程 动机 系统设计 计算优化 内存优化 服务优化 接口使用 性能指标 2020/12/2 背景:背景:TransformerTransformer模型模型 Attention结构更适合变长序列处理 易于并行 ,优于RNN, CNN 长依赖,任意两个位置之间距离为常数 Attention is All your need Encoder+Decoder结构解决NMT问题 BERT 只有Encoder结构的预训练模型 2020/12/3 造轮
2、子动机造轮子动机 (1)(1):业务需求多:业务需求多 Transformer是业界最成功的NLP网络结构 Bert Serving在模式识别中心广泛应用,两条Query之间相似度 比对,文章摘要,情感分类,机器翻译, 对于其极致工程实践大有必要 2020/12/4 frozen model dataset TrainingServing NLP算法研发到上线流程 CPU/GPU server 造轮子动机造轮子动机 (2)(2):计算需求大:计算需求大 Transformer模型需要多计算资源来响应 2020/12/5 seq_length=40, batch = 1 image= 3x224
3、x224 Bert-encoder 结构图 image = 3x300 x300 造轮子动机造轮子动机 (3) (3) :相关工作无法满足需求:相关工作无法满足需求 2020/12/6 输入大小变化 (batch_size, seq_length) 用户请求from_seq_length不定 Beam Search解码时target_seq_length自增 计算低延迟 易于开发 1 2 4 应对输入变化的能力 计算不需要根据输入尺寸对计算图预优化 应对变化的内存分配 CPU/GPU上高性能推理计算 兼容训练框架的模型加载和调用方式 NLP计算框架需求NLP计算框架特点 需求是什么? 服务高吞吐3CPU/GPU上高性能网络服务 造轮子动机造轮子动机 (3) (3) :相关工作无法满足需求:相关工作无法满足需求 2020/12/7 Can we have cake and eat it to