2019年基于Kubernetes的58同城深度学习平台.pdf

编号：96969

PDF 43页 3.69MB 下载积分：VIP专享

下载报告请您先登录！

2019年基于Kubernetes的58同城深度学习平台.pdf

1、中国软件技术大会CHINA SOFTWARE TECHNOLOGY CONFERENCE基于Kubernetes的58同城深度学习平台关于我曾就职于计算所、腾讯地图现任58同城AI Lab后端架构师AI平台负责人智能问答机器人智能写稿机器人特征工程在线预测模型训练人工智能平台 WPAI深度学习机器学习智能语音机器人智能语音分析平台目录背景总体架构集群管理离线训练在线推理背景介绍58同城是包含多种业务的生活服务平台C端用户平台B端用户帖子帖子AI算法开发流程介绍特征工程模型训练在线预测特征工程模型训练&评价在线预测58人工智能平台（Wuba Platform of AI，WPAI）中台赋能业务，

2、构建统一的AI平台GPU资源统一调度模型统一管理提高算法开发效率功能传统机器学习&深度学习支持特征工程、模型训练、在线预测58人工智能平台Spark MLlib/DMLC/机器学习DNN/CNN/RNN/深度学习LR/FM/XGBoost/TensorFlow/PyTorch/Caffe/特征工程模型训练在线预测推荐、搜索、广告传统算法图文、语音识别感知类AI算法智能客服、语音机器人认知类AI算法五八人工智能平台深度学习平台架构GPUCPUETCDCalicoDcokerNvidia-DockerKubernetesDNNCNNRNN镜像中心监控中心日志中心Web管理层算法层集群管理层Ten

3、sorFlowPyTorch资源申请任务管理模型管理在线推理服务硬件层自定义Memory文件系统K8S集群管理资源类型Online-GPUOnline-CPUOffline-GPUOffline-CPUK40P40T42080tikubectlMasterapiserverapiserverapi serverschedulercontrollermanagerschedulercontrollermanagerWEB UIETCDETCDETCDNodeKubeletKube-proxycontainercontainercontainerPODcontainercontainerconta

4、inerPODNodeNodeNodeInternet训练资源管理P40K40CPU内存部门私有资源P40K40CPU内存部门共有资源任务提交检查部门私有资源是否充足检查部门共有资源是否充足检查集群共有资源池资源充足：提交到部门私有资源池禁止提交排队任务不超过运行任务20%排除任务超过运行任务20%不充足禁止提交Kubernetes：ResourceQuota+PriorityClass不充足推理资源管理WEB后台Kubernetes Java ClientKubernetesAPI ServerDeployment模型部署/迭代Deployment创建/更新创建更新Node KubeletT

5、ensorflowServingTensorflowServingTensorflowServingTensorflowServingTensorflowServing自定义ServingNode.KubeletTensorflowServingTensorflowServingTensorflowServingTensorflowServingTensorflowServing自定义ServingNode KubeletTensorflowServingTensorflowServingTensorflowServingTensorflowServingTensorflowServing自定

6、义Serving创建/销毁创建/销毁创建/销毁用户线上资源申请资源申请审核亲和性调度集群资源监控-Prometheus+Grafana离线训练设计内存CPUP40K40调试环境训练环境KubernetesTensorFlow单机TensorFlow分布式PyTorch单机迭代训练模型评测tensorboardApt-proxyPypi-proxyTF/PyTorch+Jupyter代码编辑、调试、保存文件系统(WFS、HDFS、WOS)Web系统Jupyter Web任务管理POD资源监控tensorboard日志查看PyTorch分布式离线训练使用流程准备样本数据代码调试创建训练任务执行训练

7、日志、tensorboard查看调试环境在线代码编辑、调试、保存等功能调试环境调试环境网络文件系统（WFS）K8S PVK8S PVCBindingContainer(TF/PyTorch+Jupyter)K8S PVK8S PVCBindingContainer(TF/PyTorch+Jupyter)K8S PVK8S PVCBindingContainer(TF/PyTorch+Jupyter)Jupyter Web1POD1POD2POD3Jupyter Web2Jupyter Web3Jupyter Web3登录权限验证TensorFlow分布式训练WEB系统HDFS for trai

8、ning data&save modelKubernetesTensorflow TrainningTensorflow TrainningAPIDNSAutoScaleKubeDNSKubeDNS Tensorflow TrainningRCPS0-PodServicePS0-SvcPS0RCPS1-PodServicePS1-SvcPS1RCPSN-PodServicePSN-SvcPSNRCworker0-PodServiceworker0-Svcworker0RCworker1-PodServiceworker1-Svcworker1RCworkerX-PodServiceworker

9、X-SvcworkerXPyTorch分布式训练镜像中心Kubernetes训练日志WOS用户模型HDFS/WFS用户模型训练数据训练程序启动程序日志收集程序模型收集程序Rank=0训练程序启动程序日志收集程序模型收集程序Rank=1训练程序启动程序日志收集程序模型收集程序Rank=nWEB系统PyTorch分布式训练007080007080Top-1 Accuracy(%)Epochs分布式训练resnet50 8 GPU4GPUImageNet ILSVRC2012数据集在线推理设计ClientServingClientSCF（五八自研RPC框架

10、）ServingServingServing我们的方案缺点：灵活性不够，接入方工作多设计思想在线预推理架构通用预测接口协议解析流量转发/负载均衡模型1解析jar包模型2解析jar包模型n解析jar包SCF服务业务方线上请求：模型ID +预测数据（Object）Jar包热加载pod2podnpod1模型1预测实例pod2podnpod1模型2预测实例pod2podnpod1模型n预测实例TensorFlowServingPyTorchgRPC Serving自定义模型gRPC ServingWeb管理系统KubernetesJar包推送模型部署、扩缩容模型1协议实体模型n协议实体在线推理-接口通

11、用性设计SCF服务作为流量接入层协议解析开放给业务方兼容不同模型的多种协议实体解决第三方实体无法序列化/反序列化问题减小网络传输包大小SCF ClientRequest(List)Response(Object)解析jar包热加载实体解析SCF ServerTensorFlow模型1TensorFlow模型2PyTorch模型自定义模型在线推理使用流程创建推理任务上传协议解析jar包测试环境部署并测试线上实例部署申请RPC服务调用TensorFlow在线推理SCF服务TensorFlowServingTensorFlowServingTensorFlowServing协议解析Jar包SCFRe

12、questPredictRequestPredictResponseSCFResponseGPUCPUkubernetes管理部署WEB系统集群操作流量转发MemoryJar包加载TensorFlowServingTensorFlowServingTensorFlowServing.PyTorch在线推理通用预测接口协议解析JavagRPC Client预测实例层SCFKubernetesSeldonPython gRPC Server用户模型POD前/后处理程序PyTorchSeldonPython gRPC Server用户模型POD前/后处理程序PyTorchSeldonMessag

13、e在线推理-自定义模型支持通用预测接口JavagRPC ClientJavaC+GogRPC Server自定义模型程序PODJavaC+GogRPC Server自定义模型程序POD预测实例层SCF镜像中心Kubernetes自定义模型程序基础镜像自定义模型镜像镜像制作在线推理性能优化GPUTensorRTGPU上模型混合部署CPUIntel Math Kernel Library（MKL）Intel OpenVINOTensorRTGPU上推理优化-TensorRTLayer&Tensor Fusion 计算图优化后计算图纵向融合横向融合消除拼接层并行执行Weight&Activation

14、 Precision Calibration TensorRT常见使用方案FrameworkIntegrationUFF ONNX Model ImportNetworkDefinition APICustomFrameworkTensorRTOptimizer平台选用方案TF-TRTTF SavedModelTF-TRT Containerparsetf-trt optimizeTensorRT inference graphSave as SavedModelOptimizedTF SavedModelTF-Serving 1.13+平台TF-TRT实现镜像中心(TF-TRT镜像、TF-S

15、erving-1.14镜像)HDFS(TensorRT优化程序、模型部署程序)PODpull并启动TF-TRT镜像拉取TF-TRT优化程序下载并组织模型文件WOS加载模型执行TensorRT优化将优化后graph保存为SavedModel，保存于挂载的emptyDir目录下InitContainerContainerpull并启动TF-Serving1.14镜像拉取模型部署程序判断emptyDir下是否有优化后的模型加载优化后模型并启动服务，否则下载原始模型并加载启动硬件资源(GPU、CPU、内存、emptyDir)平台TF-TRT实现TF-TRT优化效果-Resnet50-v1单张P40卡R

16、esnet50-v1模型对比：数据集ImageNet5万张图片，BatchSize为8FP32精度下性能提升1.8倍，INT8精度下性能提升3.2倍准确率：FP32 76.29%VS INT8 76.09%TF-TRT优化效果-OCR检测GPU型号：Nvidia P40模型TensorRT平均耗时（ms）QPSCPUGPU使用率TensorRT相对提升平均耗时QPSOCR检测NO354775.2/6100%YES1941254.5/699%-44.92%+62.34%GPU上模型混合部署TF-ServingModel1ModelnTF-ServingModel1Modeln请求接入层POD1

17、POD2RPC远端调用CPU上推理优化-MKL-DNNIntel Math Kernel Library for Deep Neural Networks(Intel MKL-DNN).MKL-DNN应用效果示例CPU型号Intel(R)Xeon(R)CPU E5-2620 v4 2.10GHz模型类型镜像版本平均耗时/msCPU资源/核数MKL相对提升申请资源使用资源耗时CPU资源OCR识别CPU220124.7CPU-MKL110128.3-50.00%+176.60%低质文本识别CPU528.684.6CPU-MKL252.287.6-52.29%+165.22%应用示例：智能客服自动问答模型

友情提示

1、下载报告失败解决办法
2、PDF文件下载后，可能会被浏览器默认打开，此种情况可以点击浏览器菜单，保存网页到桌面，就可以正常下载了。
3、本站不支持迅雷下载，请使用电脑自带的IE浏览器，或者360浏览器、谷歌浏览器下载即可。
4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩，下载后原文更清晰。

本文（2019年基于Kubernetes的58同城深度学习平台.pdf）为本站（云闲）主动上传，三个皮匠报告文库仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对上载内容本身不做任何修改或编辑。若此文所含内容侵犯了您的版权或隐私，请立即通知三个皮匠报告文库（点击联系客服），我们立即给予删除！

温馨提示：如果因为网速或其他原因下载失败请重新下载，重复下载不扣分。