1、TurboTransformer : 高效的Transformers GPU服务系统 腾讯微信模式识别中心 高级工程师 Jiarui Fang 方佳瑞 日程日程 动机 系统设计 计算优化 内存优化 服务优化 接口使用 性能指标 2020/12/2 背景:背景:TransformerTransformer模型模型 Attention结构更适合变长序列处理 易于并行 ,优于RNN, CNN 长依赖,任意两个位置之间距离为常数 Attention is All your need Encoder+Decoder结构解决NMT问题 BERT 只有Encoder结构的预训练模型 2020/12/3 造轮
2、子动机造轮子动机 (1)(1):业务需求多:业务需求多 Transformer是业界最成功的NLP网络结构 Bert Serving在模式识别中心广泛应用,两条Query之间相似度 比对,文章摘要,情感分类,机器翻译, 对于其极致工程实践大有必要 2020/12/4 frozen model dataset TrainingServing NLP算法研发到上线流程 CPU/GPU server 造轮子动机造轮子动机 (2)(2):计算需求大:计算需求大 Transformer模型需要多计算资源来响应 2020/12/5 seq_length=40, batch = 1 image= 3x224
3、x224 Bert-encoder 结构图 image = 3x300 x300 造轮子动机造轮子动机 (3) (3) :相关工作无法满足需求:相关工作无法满足需求 2020/12/6 输入大小变化 (batch_size, seq_length) 用户请求from_seq_length不定 Beam Search解码时target_seq_length自增 计算低延迟 易于开发 1 2 4 应对输入变化的能力 计算不需要根据输入尺寸对计算图预优化 应对变化的内存分配 CPU/GPU上高性能推理计算 兼容训练框架的模型加载和调用方式 NLP计算框架需求NLP计算框架特点 需求是什么? 服务高吞吐3CPU/GPU上高性能网络服务 造轮子动机造轮子动机 (3) (3) :相关工作无法满足需求:相关工作无法满足需求 2020/12/7 Can we have cake and eat it to
1、下载报告失败解决办法 2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。 3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。 4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
高效且高度可配置的大模型推理引擎与服务-史树明.pdf
系统精简之道如何以极低风险高效清理线上无用代码_马阳阳.pdf
推荐系统推理性能优化在“双十一”中的应用.pdf
“高效机房”与建筑能源系统的低碳探讨.pdf
NVIDIA 助力构建安全和高效的推荐系统.pdf
2018年如何快速构建高效的监控系统-贺强.pdf
黄蔚-构建完整的云上用户触达系统-高效营销实践.pdf
6、HDC+2022+简单高效的OpenHarmony编译工具链系统-public.pdf
小红书-计强斌-小红书高效引流自动回放比对系统的实践.pdf
一个高效的超大规模向量近似最近邻搜索系统-陈琪 .pdf
三个皮匠报告专业的行业报告下载站,每日更新,欢迎大家关注!
copyright@2008-2013 长沙景略智创信息技术有限公司版权所有 网站备案/许可证号:湘B2-20190120
专属顾问
机构入驻、侵权投诉、商务合作
三个皮匠报告官方公众号
验证即登录,未注册将自动创建三个皮匠报告账号
使用 微信 扫一扫登陆