《龙明盛-人工智能工程化软件研发.pdf》由会员分享,可在线阅读,更多相关《龙明盛-人工智能工程化软件研发.pdf(31页珍藏版)》请在三个皮匠报告上搜索。
1、人工智能工程化软件研发龙明盛 清华大学演讲嘉宾龙明盛清华大学软件学院长聘副教授清华大学长聘副教授、软件学院机器学习研究组负责人,国家优秀青年科学基金获得者,入选北京市科技新星和清华大学良师益友。主要研究领域为机器学习理论、算法与模型,专注于迁移学习、深度学习、科学学习及其在自然科学和软件工程中的应用。以第一或通讯作者发表Nature正刊/子刊和JMLR、TPAMI、ICML、NIPS、ICLR论文40余篇,谷歌引用2.6万次,三篇论文入选ICML和NIPS最具影响力论文。担任ICML、NIPS、ICLR、ICCV和CVPR(资深)领域主席,TPAMI和AIJ编委。获教育部技术发明一等奖、北京市
2、科技进步一等奖、IJCAI-FTL时间检验奖,入选机器学习全球高影响力学者、爱思唯尔中国高被引学者、全球前2%科学家。演讲嘉宾目 录CONTENTS1.引言:人工智能工程化方法论2.人工智能大模型研发案例3.人工智能大模型研发挑战4.清华数为Anylearn系统介绍5.Anylearn对大模型研发的支撑6.总结与展望:工业大模型底座团队介绍PART 01团队介绍工 业 数 据 软 件DWF数据管理机器学习数据处理应用开发“清华数为”大数据系统软件团队是专注工业大数据系统软件的科研与工程团队。团队先后研制了工业物联网时序数据库IoTDB、低代码开发工具DWF等产品,覆盖工业数据采集、管理、处理、
3、分析与应用全生命周期。团队带头人:王建民教授引言:人工智能工程化方法论PART 01人工智能工程化方法论CRISP-DMMLOpsML workflow 9 stages在数据、模型和服务层面上的持续迭代是智能软件研发的关键词。而人工智能工程化的核心在于标准化的研发流程和管理方法,通过体系化、规模化的分工协作和资产综合治理,提高研发质量和应用落地效率,推动人工智能技术为产业持续赋能。154人工智能大模型研发案例PART 02人工智能气象领域大模型研发成果NowcastNet短临极端降水预测大模型Nature正刊&专题报道通过全国62位一线预报员评测,性能大幅超过DeepMind中国气象局业务系
4、统(SWAN3.0)上线11人工智能气象领域大模型研发成果Corrformer短期气象预报大模型首个全球自动站协同预报大模型完成全球数万台自动气象站预报仅需1秒入选Nature子刊(NMI)封面未来24小时真实观测Corrformer预报结果欧洲数值模式预报结果8人工智能气象领域大模型研发成果“北京冬奥会是展现国家形象、促进国家发展、振奋民族精神的重要契机。”习近平为2022北京冬季奥运会提供场馆风速、温度预报,助力赛程规划、运动员备战,为北京冬奥会顺利开展发挥重要支撑作用。实现基于实时气象观测的10分钟级风速、温度预报。在2022北京冬奥会场馆平均风速预报中,比主流数值预报误差下降23%,补
5、齐了气象实时预报方面的短板。Autoformer短期时序预测大模型唯一分钟级预报产品并在26站实时运行误差比数值模式降低23%获国家气象中心科技进步一等奖7人工智能大模型研发挑战PART 03大模型时代人工智能工程化挑战研发过程中的产物必然形成大量资产如何管理与追溯?如何复用?大模型的研发资产近百TB处理后的数据集近千个模型参数文件缺乏集约式的存储和管理数据集、预训练模型等资产碎片化资产间难以形成有机关联人员难以形成资产意识、重复造轮子2大模型时代人工智能工程化挑战前人工作复现和新方案研发必然涉及大量迭代实验如何记录与对比?如何分析与改进?大模型的研发迭代近万次大大小小的实验数千次算法代码变更
6、几千份case study结果研发过程缺乏顶层设计实验记录难以保证全面、客观经验和知识难以沉淀10大模型时代人工智能工程化挑战研发工作必然由多人团队协作开展如何组织与分工?如何沟通与汇报?大模型的研发团队项目管理、方案设计、前人工作复现数据收集、清洗、转换缺乏组织和共享机制依赖“人传人”难以形成有效的沟通进度管理难以透明化3清华数为Anylearn系统介绍PART 04清华数为Anylearn清华数为Anylearn是一款大数据机器学习研发管理系统。支持数据集、算法族、模型库等资产管理,支持机器学习研发过程管理、知识沉淀、模型迁移,满足资源统筹利用、团队高效协作等人工智能工程化需求。Anyle
7、arn核心概念体系 标准化机器学习资产管理与开发过程管理体系数据对象模型存储算法代码存储实验任务对象模型对象算法对象数据集对象资产元信息库代码仓库数据集存储指标、日志、监控数据准备模型训练模型验证模型导出模型仓库数据源智能模型开发过程自动调参组织管理者数据科学家模型研发人员责任人分配确权访问人员参与跟踪与调用高效率可追溯可复现资产管理-资产关联查询-算法版本管理-模型版本管理-模型血统-数据版本管理-数据血统过程管理-组织关系管理-过程分工管理-团队项目管理-用户权限管理-可视化图表-研究报告Anylearn核心概念体系数据存储数据存储数据处理开发数据处理开发数据处理流水线数据处理流水线模型开
8、发模型开发模型训练&验证模型训练&验证元信息管理(数据/算法/模型/训练任务/模型服务/执行环境/人员)元信息管理(数据/算法/模型/训练任务/模型服务/执行环境/人员)代码/模型存储代码/模型存储代码/模型版本控制代码/模型版本控制模型生成流水线模型生成流水线模型部署模型部署模型监测模型监测数据版本控制数据版本控制模型迭代模型迭代 方法论 实践 规范工具数据理解和准备模型构建和评价模型部署和迭代团队协作研发监管标准化机器学习研发过程管理Anylearn机器学习研发管理 可追溯、可搜索、可对比、可复现算法算法关联训练任务训练元信息(超参数、执行环境)算法代码版本对比训练输出模型Anylearn
9、线上系统运行情况 主要用户 大数据系统软件国家工程研究中心 清华大学校内师生 自2021年8月上线以来 累计增加共享数据集413个超100TB 累计用户算法代码库7523个 累计形成共享模型1029个 累计训练任务数量5万余次 累计执行训练时间超30万小时建成高可用的GPU算力集群,部署Anylearn机器学习研发管理系统线上公开长活环境,共享池化多种类异构GPU,稳定支撑了多个人工智能项目的研发工作与多次教学任务(公网访问地址:https:/ 雷达回波外推基础模型研究 冬奥风速预测模型研究 制造任务智能调度方法研究 新能源风速预测模型研究支撑人工智能教学任务 深度学习作业平台2学期共74人
10、大数据基础教学平台25人 软件工程实践与探索训练平台10人Anylearn线上系统运行情况建成高可用的GPU算力集群,部署Anylearn机器学习研发管理系统线上公开长活环境,共享池化多种类异构GPU,稳定支撑了多个人工智能项目的研发工作与多次教学任务(公网访问地址:https:/ 05Anylearn助力领域大模型研发几千次复现和方案记录每一次代码变更资产通过训练任务形成有机关联Anylearn助力领域大模型研发近万次实验记录十万小时GPU训练时长在线查看模型效果Case studyAnylearn助力领域大模型研发多个项目并行推进多人分工合作研发团队共享资源总结与展望:人工智能软件研发支撑
11、平台工业大模型底座PART 06Anylearn工业大模型底座展望地球气象基础模型智能软件世界模型工业求解科学模型晶圆检测软件开发农业新能源交通大飞机装配船舶汽车Anylearn工业大模型底座大模型研发过程管理节点1节点2节点31 2 3 4 5 16 21 2 3 14 251 12 23 3分布式高效数据读取云侧训练云侧推理API训、推、用一体大模型研发资产管理缺陷检测、智能编译、自动驾驶灾害天气预测、全球协同预报、气候推演CAE前处理与求解、组合优化求解9116边、端侧推理1.Amershi,S.,Begel,A.,Bird,C.,DeLine,R.,Gall,H.,Kamar,E.,N
12、agappan,N.,Nushi,B.,&Zimmermann,T.(2019).Software Engineering for Machine Learning:A Case Study.International Conference on Software Engineering:Software Engineering in Practice(ICSE-SEIP),291300.2.Idowu,S.,Strber,D.,&Berger,T.(2022).Asset Management in Machine Learning:State-of-research and State-o
13、f-practice.ACM Computing Surveys,55(7),1-35.3.Kreuzberger,D.,Khl,N.,&Hirschl,S.(2023).Machine Learning Operations(MLOps):Overview,Definition,and Architecture.IEEE Access,11,3186631879.4.Merritt,R.(2020).What is MLOps?NVIDIA Blog.https:/ a Standard Process Model for Data Mining.International Conferen
14、ce on the Practical Applications of Knowledge Discovery and Data Mining.6.Wu,H.,Hu,T.,Luo,H.,Wang,J.,&Long,M.(2023).Solving High-Dimensional PDEs with Latent Spectral Models.International Conference on Machine Learning.7.Wu,H.,Xu,J.,Wang,J.,&Long,M.(2021).Autoformer:Decomposition Transformers with A
15、uto-Correlation for Long-Term SeriesForecasting.Advances in Neural Information Processing Systems.8.Wu,H.,Zhou,H.,Long,M.,&Wang,J.(2023).Interpretable weather forecasting for worldwide stations with a unified deep model.Nature Machine Intelligence,5(6),602611.9.Wu,J.,Ma,H.,Deng,C.,&Long,M.(2023).Pre
16、-training Contextualized World Models with In-the-wild Videos for ReinforcementLearning.(pre-print).https:/arxiv.org/abs/2305.18499.10.Your Ultimate Guide to ML Experiment Tracking.(n.d.).Comet.Retrieved August 10,2023,fromhttps:/ nowcasting of extreme precipitation withNowcastNet.Nature,619(7970),526532.参考文献感 谢 聆 听