《五分钟微调“漫画风” Stable Diffusion.pdf》由会员分享,可在线阅读,更多相关《五分钟微调“漫画风” Stable Diffusion.pdf(13页珍藏版)》请在三个皮匠报告上搜索。
1、五分钟微调“漫画风”Stable Diffusion徐之浩阿里云智能容器服务研发工程师基于云原生AI套件动手实践AIGC应用Contents目录01ACK云原生AI套件介绍02AIGC模型微调实验演示ACK云原生AI套件介绍云原生AI工程化落地最优路径01云原生AI产生背景随着AI技术快速发展和应用,AI工程化向云原生架构演进。数据管理平台服务部署平台算法建模/训练平台资源管理平台AI工程化算法工程师/数据科学家AI平台/K8S运维人员数据业务OCRFace-ReImage-ReMultimedia AINLPTTSAIGCLLM电商社交游戏自动驾驶传媒金融医疗健康科学计算人工智能机器学习深度
2、学习更大的算力需求更高的稳定性要求更快的创新和迭代交付 资源管理分散 生产流程割裂、效率低 团队协作、共享困难传统架构 资源池化:弹性、灵活 生产流程高效闭环 多角色协同,加速迭代云原生架构云原生AI套件产品定位容器服务ACK提供的云原生AI技术和产品方案,以云原生技术与架构加速AI工程化落地。开发探索数据准备模型构建模型训练模型推理调优提效持续发布弹性阿里云异构资源CPUGPUFPGAASICRDMA100GEthCPFS/NAS/OSS持续优化异构资源效率高效运行AI等异构负载ACK云原生AI套件Service MeshServerlessAI应用开源框架FasterTransformer
3、MegatronK8s运维人员IaaS运维人员AI平台运维人员算法工程师数据科学家云原生AI套件能力优势云原生AI套件四大分层能力模块,分别具备不同的优势特性,充分满足不同角色、不同架构层级、不同业务阶段的需求。云原生AI套件异构算力管理AI任务管理AI数据加速AI工程管理成本分析资源管理运维监控诊断资源接入资源弹性伸缩HPA!Cluster AutoscalerGPU共享调度与隔离资源调度与共享任务提交运行任务调度任务弹性数据集管理数据访问加速数据集编排命令行工具控制台AI工程化IaaSK8sACK ProACK ServerlessACK EdgeACK!#$%&%()%*+CPU/GPU
4、拓扑感知调度用户自建 AI 平台阿里云 AI 服务开源 AI 框架与模型三方 AI 优化方案PaaSJupyterLabPipelinesKubeflow任务队列弹性配额调度Batch任务调度ECS/ECI GPU!弹性推理弹性训练数据集弹性数据集监控多数据源接入自动化数据流应用协同编排混合云数据加速Serverless数据加速可扩展的分布式缓存引擎降低大规模GPU管理复杂度智能削峰填谷,减少GPU资源浪费最大化提升GPU利用率多类型任务快速提交和编排多种策略满足复杂调度场景提升任务运行效率和优化成本数据抽象和统一接入管理数据缓存预热加速访问数据使用的简化和自动化屏蔽底层复杂性,简化任务管理可
5、视化配置、管理、监控集群AI生产效率和体验优化Arena SDKArena CLIAI运维控制台AI开发控制台LLMOpsMLOps云原生AI套件使用流程两类角色通过命令行工具和控制台简便操作,高效协同集群大盘开发、调试一键发布服务ACKPytorchTensorflowGPU NodegpugpuPytorchTensorflowGPU NodegpugpuDatasetSchedulingvolumevolumearenaArenaCLI/SDKSLB负载均衡用户AI运维控制台数据集一键加速成本分析作业大盘Scaling提交、管理训练任务定时任务工作流编排模型评测用户权限配额管理低延时LB
6、直通pod蓝绿发布、服务化运维算力、数据的弹性、加速GPU大盘运维管理员数据科学家/算法工程师GPU共享调度AIGC模型微调实验演示使用云原生AI套件控制台能力02体验云原生AI套件开发控制台Step 1:部署云原生AI套件云原生AI套件-开发控制台帮助数据科学家简便地开发、训练模型,支持:查找集群资源Jupyter notebook开发调试模型代码提交、管理训练任务执行定时任务管理数据集和训练代码源管理模型评估模型质量发布模型推理服务体验云原生AI套件开发控制台Step 2:创建Jupyter Notebook开发环境体验云原生AI套件开发控制台Step 3:开发调试AI模型体验云原生AI套件开发控制台Step 4:验证AI模型效果THANKS