《姜鑫、蒋晓峰-基于AIFlow的机器学习工作流最佳实践.pdf》由会员分享,可在线阅读,更多相关《姜鑫、蒋晓峰-基于AIFlow的机器学习工作流最佳实践.pdf(38页珍藏版)》请在三个皮匠报告上搜索。
1、姜鑫&蒋晓峰基于基于AIFlowAIFlow的机器学习工作流最佳实践的机器学习工作流最佳实践实时机器学习实时机器学习AIFlowAIFlow 介绍介绍最佳实践最佳实践#2#3RoadmapRoadmap#4#1#1#1实时机器学习实时机器学习离线机器学习工作流离线机器学习工作流Feature StoreApplicationQueueArchived DataBatchFeature GenSample StoreOfflineTrainingModel StoreModelValidationInferenceService实时机器学习工作流实时机器学习工作流Feature StoreApp
2、licationQueueArchived DataBatchFeature GenStreamingFeature GenSample StoreOfflineTrainingOnline TrainingModel StoreModelValidationInferenceService基于事件的工作流调度基于事件的工作流调度Feature StoreApplicationQueueArchived DataBatchFeature GenStreamingFeature GenSample StoreOfflineTrainingOnline TrainingModel StoreMod
3、elValidationInferenceServiceEventEventEventEventEventEvent#2 2AIFlowAIFlow 介绍介绍AIFlowAIFlow 概览概览AIFlowAIFlow 是是一个事件驱动的工作流框架,它允许在工作流里混合部署流作业和批作业,并一个事件驱动的工作流框架,它允许在工作流里混合部署流作业和批作业,并且针对实时机器学习场景进行了适配且针对实时机器学习场景进行了适配,旨在解决实时机器学习的工作流管理问题。旨在解决实时机器学习的工作流管理问题。仓库地址仓库地址:https:/https:/ 特性特性元数据管理元数据管理事件驱动事件驱动引擎无关
4、引擎无关工作流管理工作流管理AIFlow 架构AI Flow SDKConfigAI Flow APIDependenciesGRPC ClientBlob ManagerAI Flow ClientTranslatorJob GeneratorAI Graph(AI Nodes)Workflow(Jobs)GRPC EndpointAI Flow SDKAI Flow ServerMeta ServiceProjectWorkflowDatasetModelMetricArtifactScheduler ServiceBlob ManagerWorkflow ParserWorkflow,D
5、ependenciesDBEvent BasedSchedulerLocalCeleryNotificationWorkflow Define&CompileExecuteSDK#1#2#3工作流定义工作流定义 用户自定义processor 指定processor之间的依赖关系运维接口运维接口对workflow的启停等操作对job的启停等操作.元数据管理元数据管理ModelDataset工作流定义与编译Data EdgeControl EdgeJob1Job2Job3AI GraphWorkflowExample1Example2TransformTrainExample3Validation
6、Example3ValidationExample1Example2TransformTrainExample3ValidationExample3Validation运维接口#1#2命令行命令行 aiflow workflows start-execution aiflow jobs stop-execution aiflow db upgrade WebWeb UIUI页面操作workflow、job元数据管理WorkflowWorkflowProjectProjectDatasetDatasetModelModelMetricMetricArtifactArtifact服务端架构GRPC
7、 EndpointAIFlow ServerMeta ServiceProjectWorkflowDatasetModelMetricArtifactScheduler ServiceBlob ManagerWorkflow ParserWorkflow,DependenciesDBEvent BasedSchedulerLocalCeleryNotificationAIFlow ServerGRPC EndpointAIFlow ServerMeta ServiceProjectWorkflowDatasetModelMetricArtifactScheduler ServiceBlob M
8、anagerWorkflow ParserWorkflow,DependenciesDBMetaMeta ServiceService 元数据的持久化和管理SchedulerScheduler ServiceService提交workflow到调度器运维WorkflowNotification ServerEvent(Key=“Model1”,Version=1,Type=“Model Generated”,Value=“Model1 URL”)PluggableNotification ServerListen(Key=“Model1”)Send(Key=“Model1”,Type=“Mod
9、el Generated”,Value=“Model1 URL”)Notification Server是AIFlow的消息中心,负责事件的分发。Notification Server#1#2#3可查询的消息队列可查询的消息队列 Key,Event-type,Namespace精确一次精确一次消息精确一次地发送给调度器高可用高可用支持横向扩展和自动FailoverSchedulerScheduler#1#2#3事件驱动事件驱动 有收发事件的能力 任务的启停等操作均由事件触发分布式调度分布式调度任务可以运行在多个worker上可扩展可靠性强可靠性强异常重启后可以自动状态恢复基于事件调度的基于事件
10、调度的AirflowAirflowOperatorDAG DefinitionDAG ExecutionOperatorOperatorOperatorOperatorOperatordependenciesJob StatusEvent&ConditionTaskTaskTaskDBJob status basedSchedulerNotificationServiceEvent basedScheduler引擎无关Job Plugin InterfaceBash JobPython JobFlink JobOthers接口定义接口定义 Job Generator Job Controlle
11、rFlinkFlink JobJob PluginPlugin#1#2#3流批统一流批统一 在机器学习的各个阶段,离线和在线两种场景只需一份代码丰富的数据源支持丰富的数据源支持Flink 生态多种connector丰富的算子支持丰富的算子支持Flink MLdeep-learning-on-flink基于基于FlinkFlink的实时机器学习工作流的实时机器学习工作流Feature StoreApplicationQueueArchived DataBatchFeature GenStreamingFeature GenSample StoreOfflineTrainingOnline Tra
12、iningModel StoreModelValidationInferenceServiceEventEventEventEventEventEvent#3 3最佳实践最佳实践阿里巴巴基于阿里巴巴基于 AIFlowAIFlow 的实时推荐方案的实时推荐方案离线推荐系统架构T+1 更新搜推广业务消息队列推理服务模型中心离线存储样本拼接离线模型训练模型验证样本存储实时用户行为特征存储静态特征用户、商品等特征样本数据历史用户行为阿里巴巴搜推广在线机器学习流程搜索/Search/Search推荐/Rec/Rec广告/Ads/Ads移动端PC端在线预测特征计算样本拼接模型训练时效性:大促期间,全流程实
13、时更新灵活性:根据需求,随时调整特征和模型可靠性:系统稳定、高可用,上线效果保证实时推荐系统演进实时推荐系统演进#1#2#3特征计算特征计算 静态 T+1 特征计算到实时特征计算样本生成样本生成离线 T+1 样本生成到实时样本生成模型训练模型训练离线训练 T+1 更新到增量训练实时更新实时推荐系统架构搜推广业务消息队列推理服务特征存储模型存储离线存储静态特征计算实时样本拼接离线模型训练模型验证实时特征计算样本存储实时模型训练历史用户行为实时用户行为消息队列阿里云企业级实时推荐解决方案搜推广业务历史用户行为实时用户行为(浏览、点击、购买等)DataHubMaxCompute(离线存储)MaxCo
14、mpute(静态特征计算)实时计算 Flink(实时特征计算)Hologres(特征存储)Hologres(样本存储)实时计算 FlinkPAIPAI-EAS(推理服务)PAI(模型存储)实时计算 Flink(实时样本拼接)DataHubDataHubPAI-Alink(Flink ML)PAI-Tensorflow(在线模型训练)PAI-Alink(Flink ML)PAI-TensorFlow(离线模型训练)MaxConpute(样本存储)(模型验证)基于事件的基于事件的 AIAI 工作流(工作流(FlinkFlink AIFlowAIFlow)搜推广业务历史用户行为实时用户行为(浏览、点
15、击、购买等)DataHubMaxCompute(离线存储)MaxCompute(静态特征计算)实时计算 Flink(实时特征计算)Hologres(特征存储)Hologres(样本存储)实时计算 FlinkPAIPAI-EAS(推理服务)PAI(模型存储)实时计算 Flink(实时样本拼接)DataHubDataHubPAI-Alink(Flink ML)PAI-Tensorflow(在线模型训练)PAI-Alink(Flink ML)PAI-TensorFlow(离线模型训练)MaxConpute(样本存储)(模型验证)基于基于 AIFlowAIFlow 的实时深度学习训练的实时深度学习训练 PAIPAI-ODLODLPAIPAI-ODL ODL 基础架构基础架构PAIPAI-ODLODL 实时训练模型校正实时训练模型校正PAIPAI-ODLODL模型回退及样本回放#4 4RoadmapRoadmap1.1.EventBasedSchedulerEventBasedScheduler 贡献到贡献到AirflowAirflow 社区社区2.2.丰富内置算子丰富内置算子3.3.丰富丰富pluginplugin实现实现4.4.提高运维效率提高运维效率5.5.提供更多实时工作流最佳实践提供更多实时工作流最佳实践RoadmapRoadmapTHANKS