《9-3 云原生 AI 开发生产平台 IDP 的设计与实现.pdf》由会员分享,可在线阅读,更多相关《9-3 云原生 AI 开发生产平台 IDP 的设计与实现.pdf(22页珍藏版)》请在三个皮匠报告上搜索。
1、 2022 白海科技 版权所有云原生 AI 开发生产平台 IDP 的设计与实现2022-09-17蒋善文,IDP平台负责人 2022 白海科技 版权所有2了解白海白海科技是一家云原生AI基础软件平台服务商,致力于新一代云原生AI开发生产平台的开发和建设,助力企业大规模算法模型生产、降本增效,加速企业智能化转型与创新。团队在AI开发生产平台的建设方面具有丰富经验,自2015年起先后采用Zeppelin、Jupyter和Kubeflow等开源工具构建AI开发生产平台服务客户,2021年开始自研打造AI开发生产基础软件平台白海科技自主研发的云原生AI智能开发平台IDP(Intelligent Dev
2、elopment Platform)主要服务数据科学家、算法工程师、大数据工程师,通过易用性自研IDE、高性能任务调度引擎等AI基础软件,帮助其降低算法开发和数据分析的门槛、提高开发效率和资源利用率;通过提供可供算法开发人员和业务分析人员协作分析的统一平台,促进跨团队协作,从而加速AI的落地和业务价值的发挥。白海科技坚持自主创新,技术突破,在核心领域积累专利、软件著作权、技术创新等共十余项。新一代AI开发生产平台助力企业算法模型生产,降本增效,加速创新让AI更简单,更快速,更高效信息来源:白海科技 2022 白海科技 版权所有3目录1AI开发生产平台的现状和趋势如何?2IDP的产品理念和技术设
3、计新在哪里?2022 白海科技 版权所有4AI开发生产平台分类信息来源:白海科技集成式机器学习平台AI基础软件平台代表产品核心特征用户导向,按需使用,专业轻量流程导向,全面集成,厚重复杂数据准备模型开发模型训练模型部署各功能子产品集成于同一平台模型开发Studio数据准备功能包/插件模型部署功能包/插件.唯一交互界面SagemakerPAIModelArtsBMLJupyterLabIDE计算引擎开发平台AI开发生产平台IDP(智能开发平台)ML 2022 白海科技 版权所有5集成式机器学习平台信息来源:文献检索,白海科技机器学习框架(TensorFlow/PyTorch/PaddlePadd
4、le/Mindspore etc.)云计算虚拟化平台云原生容器服务大数据计算引擎基础硬件(CPU/GPU/FPGA/NPU)及网络通信设施基础设施机器学习平台行业应用面向互联网、金融、零售、工业、政府、安防等行业的AI解决方案服务数据管理与准备模型开发计算与训练推理部署与运维数据接入数据集管理数据处理数据标注数据探索高级探索/场景推荐特征库交互式建模-Notebook可视化建模自动学习Pipeline调度管理分布式训练弹性计算资源模型调试模型评估推理优化模型转化模型可解释模型发布:SDK/API发布多版本管理AI市场数据集共享算法共享模型共享核心子产品 2022 白海科技 版权所有6AI基础软
5、件平台JupyterLab开发工具(IDE)数据管理训练与计算部署与应用高易用性的云原生IDE领先的交互式开发环境由Spark引擎起步,并以此为为核心进行延伸布局高性能的任务调度引擎起步时的核心功能信息来源:企业官网,文献检索;白海科技IDP 2022 白海科技 版权所有7集成式平台化与基础软件的模块化随着AI 应用的深入,“集成”不再是企业选择工具首要要求,反而寻求定制化的、一流的工具来提供灵活的解决问题的方案这导致了整个 AI 堆栈的模块化,客户灵活选择AI开发生产基础软件模块,自行组建适合组织发展目标的AI开发生产平台目前,市场正在走向以基础软件平台为代表的的模块化和“集成式”平台化的平
6、衡点信息来源:海外独角兽,文献检索;白海科技AI基础软件平台 2022 白海科技 版权所有8AI开发生产平台未来发展趋势技术升级软件演进信息来源:白海科技云原生简单化Gartner预测,到2025年,云原生平台将成为95%以上新数字倡议的基础,而在2021年这一比例只有不到40%产品设计要简单、简单、再简单,简洁易用、低学习成本是算法工程师爱上产品的理由 2022 白海科技 版权所有9目录1AI开发生产平台的现状和趋势如何?2IDP的产品理念和技术设计新在哪里?2022 白海科技 版权所有10IDP:新架构 新理念新一代AI开发生产平台,新在哪里?新架构新理念基于IDE的插件式架构丰富的数据科
7、学和AI插件,一站式便捷满足用户需求开发与运行(训练和推理)资源隔离,高性能支持大规模分布式计算易用高性能 2022 白海科技 版权所有11新架构:基于IDE的插件式架构,满足数据科学和AI全流程工作需求IDE(集成开发环境)数据准备插件工作流管理插件.模型管理插件计算引擎丝滑适配性能加持数据源高效接入IDP StudioIDP(Intelligent Development Platform)简单轻量按需调取适配丝滑降本增效云原生唯一交互界面,符合开发人员使用习惯 2022 白海科技 版权所有12新理念:创新资源调度与管理理念信息来源:白海科技开发运行(训练与推理)计算资源传统开发生产工具开
8、发运行(训练与推理)共享计算资源池IDP几乎不消耗资源高效支持大规模分布式计算开发与运行(一体无法支持大数据量的计算与建模资源利用低效,算力成本高高效资源利用,降低算力成本依托IDP Engine 2022 白海科技 版权所有13新架构和新理念指导下的IDP:由IDE和高性能调度引擎,实现易用和性能的兼顾数据科学家/算法工程师/大数据工程师/业务分析师IDP Engine 高性能任务调度引擎IDP Studio-IDE集成开发环境监控系统企业安全IDP信息来源:白海科技算法框架基础设施与数据源IDP Wind 2022 白海科技 版权所有14IDP的定位:帮助数据科学家/算法工程师简化非核心的
9、工作,提升效率安装环境/库包接入数据数据探索算法选择与模型设计模型训练分布式训练程序设计模型评估与测试模型工程化模型发布与应用数据准备及模型开发模型训练模型应用数据探索算法选择与模型设计易用的IDE,简化环境管理和数据接入工作,提高算法开发核心工作效率高性能任务调度引擎,提升效率和性能;智能单机和分布式执行,简化操作模型训练模型评估与测试模型发布与应用数据准备及模型开发模型训练模型应用易用的IDE,同时支持交互式开发和工程化IDP:面向数据科学家和算法工程师的新一代AI开发生产平台,聚焦易用的IDE和高性能任务调度引擎,提升算法开发和训练效率,提升计算性能,降低时间和计算资源的消耗算法开发生产
10、传统流程IDP简化环境配置等工作,让开发者更专注算法开发和训练的核心工作 2022 白海科技 版权所有15IDP的具体功能数据接入与管理模型开发模型训练模型应用数据源结构化半结构化非结构化流式数据管理 元数据管理 文件管理 存储管理 存储转化Notebook交互式编程SQL与数据可视化环境和版本管理分布式训练资源调度与管理断点续跑与自动休眠预置算法可视化工作流构建与管理分享与协作分析模型评估与测试模型发布*场景应用精准营销游戏开发游戏运营智能制造生物医药科研IDP功能*模型发布根据根据客户需求进行针对性适配信息来源:白海科技数据探索模型管理 2022 白海科技 版权所有16IDP Studio
11、IDP StudioPython&SQLIDP库(IDP Lib)Notebook机器学习数据科学BI流式分析产品功能模块信息来源:白海科技IDP Studio介绍功能特征自研易用的AI IDE:内置多种算法开发库包和代码片段,提供代码辅助功能;通过灵活安装的插件式架构,助力算法开发人员一站式完成数据准备、模型构建、模型训练、模型管理和发布等工作,无需切换多个平台,并可将可视化结果与业务分析师进行跨团队共享深度支持Python与SQL语言支持算法与业务分析团队跨团队协作同时支持交互式编程和工程化天然内置丰富的AI开发生产和管理相关工具,以提升效率多角色协同天然内置的工具:加速AI开发生产预置代
12、码片段模型管理可视化工具(数据可视化/Tensorboard/Wandb)工作流管理数据源集成代码辅助 2022 白海科技 版权所有17IDP EngineIDP EngineIDP Studio产品功能模块信息来源:白海科技IDP Engine介绍功能特征高性能的分布式任务调度引擎:IDP Engine包括集群管理和高性能计算引擎两大核心功能,对数据预处理、数据探索、机器学习、深度学习、推理等工作统一调度,对单机版进行性能优化,智能分布式执行,帮助企业提升算法开发效率,降低计算资源使用成本。数据源接入与管理任务管理资源管理配置管理依赖管理通信协议状态管理环境管理用户管理IDP StudioP
13、ytorchTensorflowXGBoostPostgreSQLIDP Wind开放框架训练/运行中支持断点续跑和自动休眠高吞吐量,提升分布式计算性能Task级别的资源调度通过Zero-copy进行高效的数据传输同一套代码智能运行单机和分布式 2022 白海科技 版权所有18IDP Wind大规模深度学习框架-IDP Wind:自动选择高效的并行策略包括:数据并行、模型并行、流水并行。用户只需要少量代码就能够完成大规模深度学习模型的高效分布式训练高吞吐,低延时信息来源:白海科技 2022 白海科技 版权所有19IDP的产品与技术特征高性能易使用Notebook交互式编程与工程化的融合 升级交
14、互式编程环境,天然支持智能代码辅助、环境管理、版本管理、变量管理、SQL、跨团队协作等 支持可视化工作流管理、模型管理、模型发布等,在同一环境下实现开发和生产动态支持单机和分布式的融合高整合与兼容性:天然集成数据源、常用数据科学家库包、预置代码片段、可视化工具等安全稳定开放协同高容灾能力:支持故障自动恢复,通过断点续跑和自动休眠(Hibernate)能力,可以保存任务中断及停止后的状态企业级安全:通过SSO、RBAC功能,为客户提供企业级的安全保障高性能分布式计算:高吞吐量,数据、代码、模型、编译等四维智能融合精细化资源管理:具备资源隔离、任务调度功能,支持抢占式调度和计算资源的自动扩容 根据模型场景做资源的预分配,实时监测资源和任务状态,进行动态迁移 自动休眠(Hibernate)和进程(process)级别的断点续跑,减少资源浪费跨团队协作:算法和业务分析团队高效分工协作生态开放:支持客户选择多云部署 IDP Studio将打造开源项目,与广大开发者协同创新加速产品迭代 2022 白海科技 版权所有20产品界面信息来源:白海科技 2022 白海科技 版权所有21目录1AI开发生产平台的现状和趋势如何?2IDP的产品理念和技术设计新在哪里?2022 白海科技 版权所有谢谢