上海品茶

您的当前位置:上海品茶 > 报告分类 > PDF报告下载

4-1 决策智能:任务与技术概览.pdf

编号:102378 PDF 34页 3.79MB 下载积分:VIP专享
下载报告请您先登录!

4-1 决策智能:任务与技术概览.pdf

1、张伟楠上海交通大学http:/决策智能:任务与技术概览欢迎关注动手学强化学习https:/ 决策智能前沿论坛2分享内容 决策智能技术概览 强化学习的基础概念和思维方式 强化学习的落地现状与挑战两种人工智能任务类型3p预测型任务 根据数据预测所需输出(有监督学习)生成数据实例(无监督学习)p决策型任务 在静态环境中优化目标(优化问题)在动态环境中采取行动(强化学习)决策智能的任务和技术分类4环境特性白盒环境变量和目标之间的关系可以用具体公式表示黑盒环境变量和目标之间的关系无法用具体公式表示静态环境环境没有转移的状态单步决策运筹优化(混合整数)线性规划非线形优化黑盒优化神经网络替代模型优化贝叶斯优

2、化动态环境环境有可转移的状态多步决策动态规划MDP直接求解树、图搜索强化学习策略优化Bandits、序贯黑盒序贯决策p根据决策环境的动态性和透明性,决策任务大致分为以下四个部分,对应具体的技术方案5运筹优化(Operational Research)生产排期例子变量:每个时段生产的物品和量 约束:生产物品、生产环境的依赖 目标:成本p运筹优化任务往往可以由数学公式直接写出,是典型的白盒环境,以常见的混合整数规划问题为例目标约束变量6黑盒优化(Black-box Optimization)工业制造例子:一套生产线500个参数可以调整,需要找到合适的参数,使得产出零件的坏件率最低;但开启生产线后一

3、段时间才能计算坏件率。p黑盒优化任务往往无法由数学公式直接写出输入和输出的对应关系,主要面临的挑战包括无显式解、收敛性等问题优化的目标函数未知、甚至评估也不容易在一定范围内寻找最优变量7序贯决策(Sequential Decision Making)绝大多数序贯决策问题,可以用强化学习来解p序贯决策中,智能体序贯地做出一个个决策,并接续看到新的观测,直到最终任务结束智能体动态环境机器狗例子:操作轮足和地形持续交互,完成越过障碍物的任务8分享内容 决策智能 强化学习的基础概念和思维方式 强化学习的落地现状与挑战9强化学习定义p通过从交互中学习来实现目标的计算方法p三个方面:感知:在某种程度上感知

4、环境的状态 行动:可以采取行动来影响状态或者达到目标 目标:随着时间推移最大化累积奖励观察(observation)行动(action)奖励(reward)智能体(agent)10强化学习交互过程p在每一步t,智能体:获得观察Ot 执行行动At 获得奖励Rtp环境:获得行动At 给出奖励Rt 给出观察Ot+1pt在环境这一步增加奖励观察行动智能体环境!独特性:策略不同,交互出的数据也不同!11在与动态环境的交互中学习有监督学习无监督学习强化学习预测模型固定的数据智能体动态环境12一个智能体的例子:MIT机器狗Margolis et al.Rapid Locomotion via Reinfor

5、cement Learning.Arxiv 2205.02824,2021.https:/ 即,一直到时间t为止的所有可观测变量 根据这个历史可以决定接下来会发生什么 智能体选择行动 环境选择观察和奖励p状态(state)是一种用于确定接下来会发生的事情(行动、观察、奖励)的信息 状态是关于历史的函数!=,#,#,#,!$,!$,!$,!=(!)14强化学习系统要素p策略(Policy)是学习智能体在特定状态的动作决策 确定性策略(Deterministic Policy)=()随机策略(Stochastic Policy)p奖励(Reward)一个定义强化学习目标的标量,能立即感知到什么是“

6、好”的(,)=!=!=)p环境(Environment)预测下一个状态!=#$%=|#=,#=!=#|#=,#=预测下一个(立即)奖励奖励观察行动智能体环境!价值-策略的动态规划求解(白盒动态环境)15p价值是一个标量,用于定义对于长期来说什么是“好”的p给策略定义价值函数:从某个状态和动作开始,获得的累积奖励期望&(%,%)=()+5!(!()5!)*(*,)&(,)=(+)+(%)+,(,)+|+=,+=,Bellman等式立即奖励时间折扣状态转移下一个状态的价值p基于函数,改进策略;基于上式,更新函数(策略迭代的动态规划)SARSA强化学习方法(黑盒动态环境)16p对于当前策略执行的每个

7、(状态-动作-奖励-状态-动作)元组pSARSA更新状态-动作值函数为,+(+%,%(,)状态,执行动作观测到奖励转移到下一个状态状态,执行动作SARSA算法17注:在线策略时序差分控制(on-policy TD control)使用当前策略进行动作采样。即,SARSA算法中的两个“A”都是由当前策略选择的SARSA示例:Windy Gridworld18注意:随着训练的进行,SARSA策略越来越快速地抵达目标p每步的奖励=-1,直到智能体抵达目标网格p无折扣因子价值和策略近似19p假如我们直接使用深度神经网络建立这些近似函数呢?p深度强化学习!-(,)-(|)-(,)-(|)价值函数近似策略

8、近似a1a2s13.24.1s20.81.2s32.3-0.3价值函数表格a1a2s10.20.8s20.40.6s30.90.1策略表格20深度强化学习的崛起 2012年AlexNet在ImageNet比赛中大幅度领先对手获得冠军 2013年12月,第一篇深度强化学习论文出自NIPS 2013 Reinforcement Learning WorkshopVolodymyr Mnih,Koray Kavukcuoglu,David Silver et al.Playing Atari with Deep Reinforcement Learning.NIPS 2013 workshop.深度

9、强化学习21p深度强化学习 利用深度神经网络进行价值函数和策略近似 从而使强化学习算法能够以端到端的方式解决复杂问题Volodymyr Mnih,Koray Kavukcuoglu,David Silver et al.Playing Atari with Deep Reinforcement Learning.NIPS 2013 workshop.Q函数的参数通过神经网络反向传播学习端到端强化学习22标准(传统)计算机视觉深度学习标准(传统)强化学习深度强化学习深度强化学习使强化学习算法能够以端到端的方式解决复杂问题从一项实验室学术变成可以产生GDP的实际技术Slide from Serge

10、y Levine.http:/rail.eecs.berkeley.edu/deeprlcourse/static/slides/lec-1.pdf深度强化学习带来的关键变化23p将深度学习(DL)和强化学习(RL)结合在一起会发生什么?价值函数和策略变成了深度神经网络 相当高维的参数空间 难以稳定地训练 容易过拟合 需要大量的数据 需要高性能计算 CPU(用于收集经验数据)和GPU(用于训练神经网络)之间的平衡 p这些新的问题促进着深度强化学习算法的创新输出:行动行动价值多层全连接网络多层卷积网络输入:直接观察在 Atari 环境中的实验结果24“Human-Level Control Th

11、rough Deep Reinforcement Learning”,Mnih,Kavukcuoglu,Silver et al.(2015)The performance of DQN is normalized with respect to a professional human games tester(that is,100%level)normalized performance=DQN score random play scorehuman score random play score25深度强化学习的研究前沿多智能体强化学习分散式、去中心化的人工智能模仿学习无奖励信号下跟

12、随专家做策略学习目标策动的层次化强化学习长程任务的中间目标是桥梁的基石基于模拟模型的强化学习模拟器的无比重要性强化学习大模型探索以大的序列建模方式来完成序贯决策任务离线强化学习训练过程中智能体不能和环境交互26强化学习大模型:从序列建模来看强化学习任务Chen et al.Decision Transformer:ReinforcementLearning via Sequence Modeling.NeurIPS 2021.Transformer的架构Decision Transformer的基本架构CQLDecision Transformer在一些离线强化学习的任务中已经取得很不错的效果

13、27强化学习大模型:从序列建模来看强化学习任务Meng,Linghui,et al.Offline Pre-trained Multi-Agent Decision Transformer:One Big Sequence Model Conquers All StarCraftII Tasks.arXiv:2112.02845(2021).p数字大脑研究院、中科院和高校团队于2021年11月发布首个多智能体强化大模型MADT,使用一个GPT模型完成多个星际争霸对战任务。离线训练效果预训练微调效果MADT架构MADT训练流程28强化学习大模型:从序列建模来看强化学习任务Reed et al.A

14、 Generalist Agent.Arxiv 2021.pDeepMind于2022年5月发布Gato决策大模型,使用同一个GPT网络(11.8亿参数)同时完成约600个任务 采样每个任务的专家数据 使用完全有监督学习离线训练 使用部分专家轨迹做prompt29分享内容 决策智能 强化学习的基础概念和思维方式 强化学习的落地现状与挑战30强化学习的落地场景 无人驾驶 游戏AI 交通灯调度 网约车派单 组合优化 推荐搜索系统 数据中心节能优化 对话系统 机器人控制 路由选路 工业互联网场景 31快递仓库分拣机器人Tech China32强化学习技术在体育场景的新尝试https:/ M.Le,P

15、eter Carr,Yisong Yue and Patrick LuceyData-Driven Ghosting using Deep Imitation LearningMIT Sloan Sports Analytics Conference(SSAC),2017(Soccer)33无人驾驶归控https:/ et al.SMARTS:Scalable Multi-Agent Reinforcement Learning Training School for Autonomous Driving.CoRL 2020.专门为训练无人驾驶场景下的多智能体规控AI的模拟器34强化学习技术落地的挑战人对于AI的更高要求p强化学习要求机器做出决策,改变世界,这其实是赋予了AI更大的权力,反过来也就对强化学习算法有了更高的要求p高仿真度模拟器和安全强化学习技术决策场景千变万化p任务多种多样,目标、数据、效率要求等皆不同p需要算法团队对具体的场景任务比较了解算力的极大需求pTrial-and-error学习机制导致强化学习比起预测型深度学习模型需求的数据量和相应的算力都更大(大12个数量级)p一个统一的、高效的、服务强化学习的计算平台很重要

友情提示

1、下载报告失败解决办法
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。

本文(4-1 决策智能:任务与技术概览.pdf)为本站 (云闲) 主动上传,三个皮匠报告文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三个皮匠报告文库(点击联系客服),我们立即给予删除!

温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。
会员购买
客服

专属顾问

商务合作

机构入驻、侵权投诉、商务合作

服务号

三个皮匠报告官方公众号

回到顶部