上海品茶

您的当前位置:上海品茶 > 报告分类 > PDF报告下载

低门槛开发AI:全栈AI平台开发新体验.pdf

编号:101955 PDF 22页 1.68MB 下载积分:VIP专享
下载报告请您先登录!

低门槛开发AI:全栈AI平台开发新体验.pdf

1、低门槛开发AI腾讯云TI平台资深产品经理刘翃全栈AI平台开发新体验人工智能落地的业务挑战腾讯云TI平台公有云的开发新体验腾讯云TI平台的架构解读目录人工智能落地的业务挑战AI落地面临的挑战:从0做机器学习太麻烦成本投入大计算资源、存储、网络计算框架算法模型调优业务相关度高业务相关度中业务相关度低CPU GPU ASIC FPGA机器学习:分类、聚类、回归特征工程、关联规则 深度学习:CNN RNN DNN 框架搭建难算法门槛高手动优化难算法效果比对超参数调优样本数据打标“门槛高、投入大、周期长”是客户痛点,市场亟需机器学习平台产品化会利用海量已获得授权数据以及复杂深度学习网络进行业务模型训练追

2、求高精度业务效果市面开源推理加速框架,加速效果一般,且易用性较差,需投入极高人力接入开源加速框架易用性差模型产出效率低,复杂模型训练会持续1-2周训练周期长推理机器成本高,复杂模型单卡推理时延达到500ms+推理时延高降低训练时间、提升模型产出效率训练阶段提升推理性能、降低机器成本推理阶段AI落地面临的挑战:企业降本增效的痛点和需求痛 点背 景需 求性能强大灵活计费敏捷管理降低门槛兼容性高腾讯云TI平台提供标准化的模型开发,部署与运维流程,缩短模型开发部署的迭代周期丰富的算法框架及预置算法,场景化自动学习,使用者无需从0到1构建模型支持多种主流算法框架,可构建、发布、管理不同类型/场景/厂商的

3、算法服务弹性按量计费,预付费包月,适合多种规模企业的计费诉求基于自研加速服务TI-ACC,支持大规模的训练推理加速,针对同样的backbone模型加速效果具备优势腾讯云 TI 平台是基于腾讯先进 AI 能力和多年技术经验,面向开发者、政企提供的一站式AI开发服务平台,致力于打通包含从数据获取、数据处理、算法构建、模型训练、模型评估、模型部署、到 AI 应用开发的产业+AI 落地全流程链路,帮助用户快速创建和部署 AI 应用,管理全周期 AI 解决方案,从而助力政企单位加速数字化转型并促进 AI 行业生态共建。腾讯云 TI 平台系列产品支持公有云访问、私有化部署以及专有云部署。基于自研加速服务T

4、I-ACC,支持大规模的训练推理加速,针对同样的backbone模型加速效果具备优势腾讯云TI平台公有云的开发新体验一站式AI开发服务平台:帮助各行各业实现降本增效模型服务服务管理弹性服务定时调度TI-ACC推理加速模型推理加速比模型管理数据接入大数据平台分布式文件存储对象存储支持存算分离数据接入周期缩短关系型数据库数据加工图像检测标注图像分割标注目标跟踪标注数据增强标注成本降低图像分类标注模型训练Notebook建模任务建模TIKitTI-ACC训练加速算法开发效率提升自动学习腾讯云弹性算力集群*数据接入周期缩短及标注成本降低量化数据为内部测试结果80%70%50%2倍+持续扩充的高精度场景

5、化低门槛模型生产工具多样化建模工具:快速上手生产模型大幅度降低模型生产门槛,业务人员+数据科学家AI集成开发利器资深算法工程师自动学习专业的算法调试及模型生产工具TI-KIT开发工具包所见即所得的训练任务驱动器资深算法工程师任务式建模专业的多框架调试运行环境资深算法工程师IDE开发环境核心优势:TI-ACC训练加速CV&推荐场景主流模型训练加速效果优异加速效果在CV、推荐等模型训练场景中,为算法工程师提供数据IO、计算、通信等多阶段训练加速能力,一般可提升30%+训练性能产品能力支持PyTorch、TensorFlow、MMDet、MMCls框架支持DDP、PS、Horovord分布式训练工具

6、提供简单、封装完善的数据IO优化、自适应混合精度优化、DDP&PS通信优化接口函数硬件环境模型接口功能原生框架训练速度(examples/sec per V100)TI-ACC优化速度(examples/sec per V100)TI.GN10.20XLARGE320(80C320G V100*8)ResNet50(MMCls)数据IO优化+自适应混合精度优化70.8(PyTorch)379.2TI.GN10.20XLARGE320(80C320G V100*8)*2Wide&Deep(NVIDIA DeepLearningExamples)PS通信优化59.5(TF)124核心优势:TI-A

7、CC推理加速在CV场景主流模型推理加速效果优异加速效果产品能力支持TorchScript、Detectron2、Frozen Graph、Savedmodel、MMDetection等主流模型格式;支持原生框架子图切分、深层性能优化、INT8量化&FP16&无损3种优化级别、固定&动态2类输入维度模型优化、输出加速测试报告等功能;在CV等模型推理场景中,为算法或运维工程师提供模型推理加速能力,加速比两倍以上;硬件环境模型模型格式功能Batchsize原始模型推理速度(ms)TI-ACC优化速度(ms)加速比TI.GN7.2XLARGE32(8C32G T4*1)ResNet50(MMCls)2

8、24*224TorchScriptFP16+固定输入维度优化8274.65.9xCenterNet(优图内部业务团队提供)640*640TorchScript170.634.35.0 xVision Transformer(优图内部业务团队提供)224x224TorchScript28.910.52.8xTI.GN10.2XLARGE40(8C40G V100*1)GRCNN(Detectron2)600*600-1440*1440Detectron2FP16+动态输入维度优化1128651.97x客户案例介绍:某头部社交电商(训练加速)方案batchsize训练成本速度samples/s加速

9、比例客户baseline128010w/月256001腾讯GPU方案128010w/月368031.43百亿特征、TB规模推荐模型CPU训练,成本较高;深度定制版本tensorflow,存在大量自定义算子,切换框架成本高;加速效果好:基于以上解决方案,支持客户训练加速43%,推动购买300卡服务器;接入成本低:训练加速兼容原生TensorFlow框架,客户仅以较低成本便可接入使用;背景解决方案提供CPU+GPU异构训练方案,充分发挥硬件特性;打造计算异步Pipeline,减少算法流水线整体计算开销;研发fp16压缩通信,使得通信量减半;腾讯优势CPU/GPU混合异步训练uniquesparse

10、特征处理lookupltem feaCPUGPUDense特征处理DNNfill落地实践某商品识别云服务提供商(推理加速)某AI商品识别云服务提供商,商品识别业务场景对识别精度要求较高,使用了Detectron2框架;推理规模较大,并且没有专门人力研发模型推理加速。本身使用Detectron2框架、Python部署,希望低门槛接入优化;高精度模型推理时延较高,高达100ms+,占整体服务的时延比例高,因此模型推理消耗机器成本较高,希望降本增效;提供TI-ACC-Detectron2加速服务,客户无需进行模型转换即可低成本接入模型推理加速到推理服务代码;提供动态维度以及FP16加速优化,满足客户

11、模型动态维度输入、推理加速以及精度无影响需求;无需进行模型格式转换和适配,低成本接入使用,0.5天便无缝接入测试;加速效果优于客户baseline和友商方案,模型推理性能相比客户baseline提升100%左右,服务QPS提升45%;方案模型机型加速比QPS客户baseline商品识别模型(Detectron2)V1001.0 x40TI-ACC加速方案1.97x58背景痛点&需求解决方案取得效果腾讯云TI平台的架构解读推理服务系统设计架构解读:技术挑战与思考从0构建AI能力开销大满足业务要求的AI能力构建难AI能力生产及应用成本高持续服务运营需保障高可靠,高性能,高扩展性基础设施搭建耗时久难

12、度高基础设施运维成本高通用AI能力准召率难以达到业务预期基础设施运维成本高大规模AI训练算力资源投入大AI推理服务算力资源投入大提供场景化建模工具,快速满足垂类业务场景准召要求低门槛垂类场景自动建模评测工具提供加速工具,为客户降本增效依托TI-ACC加速能力,加速模型训练及推理,减少训练及推理算力资源开销业务高频调用推理服务,稳定性要求高业务存在高峰低谷,自动化提供完善的服务运营工具依托云原生监控体系,构建可视化服务监控管理利用容器底座能力,构建强业务属性的自动弹性扩缩容能力搭建3高托管式AI平台,提升开发服务效率模型构建模型加速建设挑战技术思考TI内部网关 APISIXCAM权限计费平台AP

13、I 3.0网关数据中心任务建模逻辑后台Notebook逻辑后台模型优化架构解读:技术拓扑训练任务调度管理Spark/tf/mpi/pytorch/TI-ACC加速 operator计费后台(billing)计费回调(fee)计费额度(quota)sts服务日志时间检索监控推送API网关公网CLB内网CLBNotebook网关推理POD自定义服务PODwebhookNotebook POD自定义训练任务PODwebhookTKE/EKS for 推理TKE/EKS for 训练公共服务gpu虚拟化gpu虚拟化云原生Autoscaler集群自动伸缩Kafka推送发布推理服务发布训练任务访问推理服务

14、,http协议访问Notebook,交互式界面schedulerscheduler模型服务自研VPC公有云VPC数据标注自动学习模型仓库资源组差异化优势:TI平台的加速能力快速落地增加1-2行代码加速(TI-ACC-Training)提交训练任务生成模型训练代码模型优化(TI-ACC-Inference)启动在线服务生产环境调用填写模型信息,新建优化任务即可推理加速建模方式任务式建模Notebook选择内置加速框架安装Tikit SDK套件模型导入来自自动学习来自训练任务来自COS(第三方模型)#DDP通信加速为例import tiacc_training.torch.distributed

15、as tdisttdist.init_tiacc_training()效果并行训练大batch收敛差异化优势:TI-ACC-Training底层技术介绍模型训练加速:通过fp16/XLA计算优化、通信优化、并行训练、显存优化等方法对模型训练进行加速,减少模型迭代周期,降低训练成本计算优化/通信优化:自适应FP16/XLA混合加速、混合计算图机制、自适应梯度融合技术、层级Topk通信压缩并行训练/显存优化:混合并行技术、反向图显存优化技术、超大batchsize训练、自适应LR收敛策略并行方式最大batchsizeFC通信量训练时长数据并行(baseline)322.9GB175h混合并行(TI

16、-ACC)1601.1MB20hResNet50百万类别分类模型支持亿级分类数大规模模型训练自适应FP16/XLA混合加速混合计算图机制计算优化通信优化差异化优势:TI-ACC-Inference底层技术介绍通用模型转换能力:通过子图切分,支持对PyTorch,TensorFlow 等原生框架模型进行推理加速。计算优化:提供图优化、静态算子融合、低精度优化等优化方法,降低模型复杂度与计算量。深层性能优化技术:结合硬件架构深度优化基础OP,并针对场景实现多种融合OP,降低非计算密集类算子的开销。fp32-int8 渐进量化Post Train常量折叠针对架构深层性能优化子图切分图优化基于小量样本

17、数据,统计数值分布,迭代求解各层最优量化区间QAT 分阶段量化策略逐层增加量化操作,解决深层神经网络梯度失真问题原始Residual Block56x5656x5656x5656x5628x2828x28Conv Kernel:3x3Stride:1Conv Kernel:1x1Stride:1Element WiseConv Kernel:1x1Stride:2Conv Kernel:1x1Stride:2优化后Residual Block56x5628x2828x2828x2828x2828x28Conv Kernel:3x3Stride:2Conv Kernel:1x1Stride:1E

18、lement WiseConv Kernel:1x1Stride:1Conv Kernel:1x1Stride:1Pooling Kernel:1x1Stride:228x28显存高速缓存寄存器原生框架PartitionConvertTIACC IRTIACC NetworkGPUX86NPU为开发人员提供最熟悉的代码开发工具,支撑开源开发习惯熟悉的开发工具为业务人员提供开箱即用的AI业务工具,降低学习成本简单易用的AI业务工具依托核心加速能力,最大限度减少算力资源开销依托加速降本增效依托云上资源弹性能力,最大限度降低算力使用成本依托云资源弹性使用免去用户自建管理链路,依托平台管理AI开发流程依托平台管理AI资产以低门槛践行AI开发资源门槛使用门槛管理门槛谢谢观看THANKS谢谢观看THANKS

友情提示

1、下载报告失败解决办法
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。

本文(低门槛开发AI:全栈AI平台开发新体验.pdf)为本站 (云闲) 主动上传,三个皮匠报告文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三个皮匠报告文库(点击联系客服),我们立即给予删除!

温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。
会员购买
客服

专属顾问

商务合作

机构入驻、侵权投诉、商务合作

服务号

三个皮匠报告官方公众号

回到顶部