《释放算力潜能加速 AI 应用构建.pdf》由会员分享,可在线阅读,更多相关《释放算力潜能加速 AI 应用构建.pdf(28页珍藏版)》请在三个皮匠报告上搜索。
1、释放算力潜能,加速 AI 应用构建赵庆杰(卢令)Serverless 基础架构团队负责人Serverless为AI创新提速Contents目录01AI 应用的发展趋势以及面临挑战 02Serverless 技术加速 AI 应用的构建03Serverless AI 应用案例AI 应用场景极速增长百花齐鸣的AI 应用市场竞争下,“迭代速度”成为关键因素之一AI 技术概览异构计算GPUCPUNPUFPGA资源调度资源虚拟化分布式调度基础设施:数据存储与高性能网络模型训练AI 计算开发者领域AI 工具算法框架AI Studio算法库AI 在线应用(推理)AI应用PaaS 平台网关鉴权快速部署服务依赖A
2、I 应用面临的挑战AI 应用的构建复杂,且需要多环境部署支持,需要与非 AI 应用集成随着 AI 应用功能逐渐丰富,调用链路长极大影响问题的快速发现 AI 应用组件无法复用,持续重复造轮子,浪费资源成本,如绿网能力,队列等网关通用能力,安全鉴权,限流保护,多协议支持,防护攻击等AI 计算力面临的挑战GPU 资源紧缺且成本高,需要持续保有购买卡型不统一导致算力不统一,进而影响应用层架构随着计算规模的提升,容错能力也越来越重要大数据的读取,以及模型的快速加载,对于底层的技术要求越来越高硬件复杂度经常听到的问题?“GPU 太贵,型号那么多,换代快,怎么架集群”“找不到 GPU机器用”资源管理复杂度调
3、度效率复杂度“机器利用率太低了!那么多机器都闲着”“听说GPU很快,但是我们工程师用起来反而比 CPU 慢”全系统优化复杂度Serverless AI 应用解决方案不同角色,在 AI 场景下的诉求如何高效率低成本落地如何方便快捷部署使用工程相关算法相关接口相关 工程能力比较强,更希望有一个平台可以提升整体的研发效能,降低运维成本;往往和实验室/公司内的设备有强关联,需要有安全保障等;负责 AI 应用平台建设和管理负责 AI 模型开发调试通过 API 等对接口进行工程化封装 算法能力比较强,希望有一个好用的 AI 模型管理平台;希望可以在本进行开发调试、线上进行测试的时候,有一个便捷的环境等;工
4、程能力比较强,更希望有一些项目案例等,可以帮助业务快速的发布和上线;有完整的应用开发、调试、发布流程等;AI 开发者模型相关工程相关算法相关接口相关电商软件开发教育医疗创作函数计算NASAPI GWRDSGreenWebMQARMSModelScopeHugging Face通义千问 App Store其它模型 Plugin旅游行业Serverless 开发中心模型/应用生态函数计算 AI 场景特定能力AI 场景/行业三步上手最佳实践,一键模型托管,上手门槛降低 80%;极致弹性 CPU+GPU 实例赋能 AI 应用降本提效;上手简单,降本提效上手简单,降本提效Model Scope,Hugg
5、ing Face 开源生态联动;LangChain 等 AI 开源框架与阿里云产品高集成;最佳实践,心智强化最佳实践,心智强化拥抱开源,开放生态拥抱开源,开放生态场景化案例库应用全生命周期管理Composer应用多环境管理BaaSFaaS函数计算 MaaS应用流水线10+应用场景,50+应用案例,一键部署,快速体验;覆盖 2W+AI 应用开发者,打造阿里云函数计算 AI 第一心智;场景化 AI 应用Serverless 开发平台 AI 场景函数计算是构建现代化高可用 AI 应用最短路径,是 AI 应用的最佳实践Serverless GPUServerless GPU虚拟化技术虚拟化技术算力强隔
6、离,显存强隔离故障强隔离GPU100%兼容原生应用业务流量Serverless GPUServerless GPU两级资源池两级资源池热资源池:避免 Node 级别 ScaleOut 引起的分钟级别冷启动。资源供给:FC GPU/IaaS GPU两级资源池共同保证 GPU 资源供给。使用成本:FC GPU资源池平台持有,用户只为真实使用付费。Serverless GPU 按请求付费热资源池,实时弹性,平台持有,用户零成本免费额度:函数计算为首次开通服务的用户提供免费试用额度:GPU试用额度:前100万GB*秒GPU资源使用免费。注意:免费额度不包含公网出流量。领取后 3 个月有效期。计费项单价
7、函数调用次数0.002元/万次GPU 使用量0.00005元/GB*秒Serverless GPU 按请求付费实例节点共享存储(对象存储 oss)典型负载模式:一次性提交大量任务,启动数百-数千实例处理 共享存储带宽有限,大规模实例启动打满带宽 共享存储延时 10-20 ms,比块存储慢 10X 以上挑战 镜像中存在大量冗余数据,按需加载远端数据 结合多种存储服务构建层次化的缓存体系 通过负载感知的方式最大化缓存效果思路实例节点共享存储(OSS,延时 10-20 ms)L1 缓存,云盘,延时几十 us应用启动 tracing 数据驱动块存储预取负载感知的缓存管理策略,目标 L1 命中率 90%
8、IO 实时公平流控 块存储的性能,共享存储的成本 GB 级镜像启动开销 3 秒,业界领先 SD 78GB 模型启动 20 秒 最大镜像支持 15 GB结果L2 缓存,跨机器传输,延时 5 ms针对 Serverless 系统高度优化,以应用为粒度进行组网大并发启动性能 7X 提升Micro VMVMMMicro VMVMMCloud DiskCloud DiskGB 级镜像实例秒级启动顶会论文顶会论文Usenix ATC 2020:DADI Block-Level Image Service for Agile and Elastic Application DeploymentUsenix
9、ATC 2021:FaaSNet:Scalable and Fast Provisioning of Custom Serverless Container Runtimes at Alibaba Cloud Function ComputeAI 应用的集成:一键部署 AI 应用函数计算NASPAIGreenWebOSSAI 应用场景/行业基于开源模型和通义千问进行图片生成,旅游攻略等内容生成内容电商数据归因分析、内容生产、话术整理等直播预料问答教育/客服Serverless 开发平台基础能力应用管理多环境流水线/CICD可观测能力WebIDEAI 场景特定能力场景化模板案例排队模型内容安全默
10、认 API/UI基础模型管理构建现代化高可用 AI 应用最短路径ModelScopeHuggingFaceCivitai通义千问其它大模型Custom(自定义)Custom(自己项目)云市场通义千问应用市场其它大模型 Plugin 函数计算 AI 开发模式开发者函数计算Serverless 开发平台AI 应用场景消息中间件绿网硬盘挂载数据库对象存储私有网络 应用案例上传模型上传代码用户API 调用UI 使用代码仓库啥都没有,思路探索AI 场景将会提供 Stable Diffusion,LangChain,OCR 等多种形式的 AI 应用案例,用户可以一键选择,快速部署,直接使用HuggingF
11、ace/ModelScope热门场景/热门模型有模型,有代码,随时可用用户只需提供 HuggingFace、Modelscope的模型地址/创空间地址,即可快速构建 AI 应用,并天然具备 API 调用能力或 UI 使用能力针对行业内热门应用、场景、模型,提供定制化 UI,进一步提升使用体验,例如 Stable Diffusion 应用提供包括模型管理在内的应用管理页面只有模型、只有代码、或有模型又有代码的用户,可以使用通用的 Serverless 应用管理能力/Web 应用管理能力,帮助用户更好,更方便的使用函数计算应用管理可观测应用流水线云上开发 模型管理域名管理安全管理开发流程多环境Se
12、rverless AI 应用案例您的工作负载是在线还是离线任务?您的工作负载对延迟是否敏感?您的工作负载对 GPU集群的利用率高吗?您的 GPU 工作负载是否有成本高、弹性慢、运维复杂的困扰?选择自建 GPU 集群选择【函数计算+GPU】异步调用模式(支持异步任务状态管理)选择【函数计算+GPU】同步调用+准实时推理(自动弹性伸缩,有秒级冷启)YesNo在线离线NoYesNoServerless 函数计算 GPU 应用场景选型指南(针对推理)秒级延迟毫秒级延迟选择【函数计算+GPU】同步调用+实时推理(GPU 预留+自动弹性伸缩)60%我很有钱降本提效Stable Diffusion WEB
13、UIStable Diffusion 后台专属 Stable Diffusion 环境 Serverless函数计算平台Serverless 应用中心一键部署 SD 应用大语言模型知识库应用Serverless函数计算平台Serverless 应用中心一键部署知识库应用GLM优秀的开发者体验提效降本的现代应用心智AI 应用一键部署,快速上手;AI 应用一键多环境划分,标准 GitOPS 流程;ModelScope 一键托管;AI Plugin 一键发布到通义千问;阿里云函数计算与应用中心,具备与生态连通,与开源结合,快速上手、一键部署的完整通路,优秀的开发者体验。高效能低成本进行 AI 应用的
14、开发与部署是无数 AI 开发者/企业的重要关注点,Serverless 架构凭借高资源利用率与按量付费模式,以及服务端免运维的开发者心智,成为一众 AI 开发者/企业的首选;秒级弹性大规模 GPU 集群按量付费降本提效应用中心一键部署GPU 资源免维护如何快速体验、快速上手如何方便快捷的部署使用如何高效率、低成本落地如何高可用、高性能运行人人都可以拥有自己“专属”的 AIGC 环境极致弹性的 CPU+GPU 实例完备的开发者套件完备的开发者套件,是开发者将 AI 应用部署到云原生架构必不可少的一环,在这一部分,阿里云 Serverless 架构拥有 Serverless Devs,应用中心等完
15、备的开发者套件,可以帮助开发者从 0 到 1 再到 N,将业务 Serverless 化,并提供全生命周期管理能力。GPU 实例是 AI 领域不可或缺的计算资源,在高昂的成本下,可弹性,且可极致弹性的 GPU 实力成为 AI 应用不可获取的部分。阿里云函数计算拥有极致弹性的 GPU 实例,以及大规格的函数计算性能实例,这部分是承载 AI 应用稳定、高性能推理的重要环节。AIGC 应用场景企业级内部设计平台使用中心化批量出图模式AI创作设计解决方案合作SD WebUI Serverless GPU函数与用户映射阿里云SD WEBUI服务秒级创建和销毁支持1人多卡调度,按量使用,即开即用模型/图片
16、统一管理专属性能加速定制插件AK 校验企业自主设计平台portal内部账号体系与阿里云大账户打通团队成员的账单可以结算到人SD API 处理Serverless GPUFC 异步队列提供WEBUI api/diffuser api 两种api调用方式API异步队列调用秒级资源动态弹性伸缩动态切换lora、controlnet模型亲和调用API接口对接个性化 C 端APP/web 调用Stable Diffusion 与平台集成实践方案Serverless WebUI-方案优势解析优势项社区webui自建webuiServerless WebUI部署方式台式PC安装,需要3090/4090等桌面
17、级显卡支持,用户自行安装部署webui购买GPU服务器搭建webui服务,用户自行安装部署webui一键拉起,预置好标准镜像,即开即用模型、插件管理开源安装后,git下载到本机,需要用户diy,概率性存在因网速、环境等原因下载插件时卡死开源安装后,git下载到本机,需要用户diy,概率性存在因网速、环境等原因下载插件时卡死预置中英双语版本、controlnet、pix2pix等常用插件,模型、插件、输出图片等目录支持挂载为oss共享存储目录,可统一管理和维护,webui服务重启不受影响性能优化webui原生提供lowvram、xformer等加速方式ecs提供AIACC加速器默认支持模型以及镜
18、像加速能力企业级特性单机版,不具备企业级特性需要自建调度系统,处理用户与GPU实例之间的对应关系,将用户调度到指定webui服务,但是无法实现在一个webui服务上实现多卡调度1.多人团队可通过独享 SD 函数,使用互不干扰2.支持单服务多卡集群按使用量弹性伸缩,保证集群使用率3.提供账号体系,支持用户鉴权,按用户身份区分可看到的模型、图片成果4.按请求收费,按使用量收费,毫秒计费特殊辅助插件跟社区一致跟社区一致1.模型及对应的高质量提示词自动关联提示2.基于模型的提示词扩展3.训练/finetune插件,隔离训练/出图使用资源服饰穿搭实践LoRA训练Tag 生成|编辑训练ControlNet
19、成果展示1成果展示2智能客户聊天智能客户聊天如企业客服,通过与呼叫中心/聊天机器人服务结合,可自动基于企业知识库就客户提出的问题进行聊天回复;大语言模型知识库应用场景社区自动问答社区自动问答如RocketMQ开源知识社区,专门针对RocketMQ领域的知识问答及代码示例;如游戏社区使用游戏的信息(例如游戏介绍,游戏攻略等)构建社区知识库,自动回复社区成员提供的问题;医疗领域问答医疗领域问答如罕见病专业知识回复,有限医疗资源情况下进行自助服务;如中医知识问答,针对海量的中医知识进行归纳汇总,解答病患问题;儿童保健及护理,儿童常见病咨询,营养咨询等电商平台搜索问答电商平台搜索问答如使用商品信息搜索
20、,使用商品信息构建商品数据库,消费者可通过检索+问答的方式快速了解商品的详细信息;如特定商品检索,如节日礼物,周年庆,亲情礼品等,根据特定信息进行定制检索,快速触达用户IT/HR IT/HR 系统智能问答系统智能问答如使用企业内部 IT/HR 使用手册构建企业知识库,企业内部员工可通过该知识库快速解决在 IT/HR 上遇到的问题。智能教育辅导智能教育辅导如使用教材和题库构建不同教育阶段的知识库,模拟和辅助老师/家长对孩子进行教学。大语言模型知识库的基本原理私域数据向量化私域数据向量化将非结构化内容进行向量处理01输入提示词预埋输入提示词预埋将用户的输入问题,跟系统问答的预埋提示词整合作为大模型
21、输入02大模型结果输出解构化大模型结果输出解构化对大模型输入的内容进行结构化输出03基本流程技术细节架构图l 1.LLMl 2.embeddingl 3.controlled text generation知识库问答UnstructuredLoader本地文档内部数据TextTextSplitterTextChunksEmbeddingVectorStoreVectorSimilarityQueryVectorTop KRelatedChunksEmbeddingPromptTemplatePromptLLMResponseQuery知识问答领域知识专家利用大模型技术实现云原生资源配置的交互式
22、创建、修改与应用等,提升资源维管效率集成云原生已有的系统诊断能力,面向业务应用构建具备全栈技术能力的辅助诊断助手面向云原生中间件产品,实现云原生动态脚手架应用快速构建,降低业务应用构建门槛面向云原生打造云原生知识大脑资源生成面向容器,生成云原生资源配置应用构建面向中间件,构建云原生业务应用故障诊断面向应用,整合全栈故障诊断能力用户身边 0 成本的“高级技术专家”,致力于提升云原生产品使用体验、降低云原生应用生产门槛函数计算产品 基于云原生大模型智能问答实践整体系统架构知识库清洗/分块特征提取知识多路召回GatewayPilot Server场景识别KubernetesPOP 服务接口Prome
23、theus大语言模型知识图谱审计日志场景服务接口输出渲染通义千问llama2(微调)ARMS 应用监控接口应用脚手架构建服务知识召回模型生成插件调用知识大脑接入服务中枢系统(评估中)认证授权对话接口公开数据内部数据已接入/实现模块支持扩展模块阿里云产品模块Widget开发IDE云服务图例LLM ProxyPlugin Server统一知识大脑访问接口内置插件扩展插件云原生大模型践行可扩展架构设计,便于更多的云原生产品因大模型技术而受益函数创建代码自动生成创建一个函数,当发现ARMS应用下线时发送一个消息到消息队列云原生大模型云原生大模型请输入您的问题触发器配置:触发器类型:应用实时监控服务事件
24、类型:arms:Agent:OffLine调用方式:异步调用函数代码:创建函数def handler(environ,start_response):logger=logging.getLogger()logger.info(Publish To Test Topic)status=200 OK触发器自动配置利用大模型快速理解用户诉求,匹配合适的触发器设置、生成满足业务诉求的脚手架代码监控运维Serverless 函数监控大盘Serverless 函数操作终端对话式监控&Ops方式现有监控方式现有操作方式ChatOps通过云原生大模型对话式唤起现有Serverless监控面板,面向应用整合常见Ops操作Serverless监控图表云原生大模型辅助诊断云原生大模型执行操作THANKS