1-1 表征强化学习研究及应用.pdf

编号：102342

PDF 17页 3.10MB 下载积分：VIP专享

下载报告请您先登录！

1-1 表征强化学习研究及应用.pdf

1、表征强化学习研究与应用华为诺亚方舟实验室李栋Security Level:目录1.背景2.强化学习研究3.强化学习业务落地Huawei Proprietary-Restricted Distribution31.背景强化学习工业界进展强化学习学术界进展ICLR2021词云图Covariant，视觉输入的RL机械臂控制应用于制造，物流仓储，零售等领域。强化学习短视频精细推荐用户观看时长提升10%+，流量分发场景效率提升100%强化学习MOBA游戏AI取得与职业选手相当的Elo分值强化学习芯片布局6小时完成布局，质量超过/匹配人类专家，可用于ASIC/TPU芯片强化学习相关挑战赛强化学习算法发

2、展路线图Huawei Proprietary-Restricted Distribution42.1 强化学习基本概念强化学习关键要素智能体通过与环境交互，基于环境反馈信号以试错式学习方式学习最优策略。关键概念：状态，可以为离散或连续状态，低维或高维动作，可以为离散或连续动作奖赏信号 =(,)状态转移模型(+1|,)Andrey MarkovS1S2S3(+1|,)(+1|,)a1a2马尔可夫性，+1与1无关vs.High rewardLow rewardLow-dim stateDiscrete actionHigh-dim stateContinuous action通常未知Huaw

3、ei Proprietary-Restricted Distribution52.1 强化学习基本概念强化学习关键要素智能体通过与环境交互，基于环境反馈信号以试错式学习方式学习最优策略。关键概念：状态，可以为离散或连续状态，低维或高维动作，可以为离散或连续动作奖赏信号 =(,)状态转移模型(+1|,)观测=(|)，智能体所看到的真正世界！Andrey MarkovS1S2S3(+1|,)(+1|,)a1a2S1S2S3(+1|,)(+1|,)a1a2o1o2o3End-effector position:x,yToy1 position:x,yToy2 position:x,y马尔可夫性

4、，+1与1无关Huawei Proprietary-Restricted Distribution62.1 强化学习基本概念强化学习关键要素智能体通过与环境交互，基于环境反馈信号以试错式学习方式学习最优策略。值函数：状态值函数(V函数):贝尔曼方程=,+,(),=,+,(,)强化学习优化目标：优化控制策略，最大化期望累积奖赏回报动作值函数(Q函数):Richard BellmanS1S2S3(+1|,)(+1|,)a1a2通常未知-蒙特卡洛估计马尔可夫性，+1与1无关Huawei Proprietary-Restricted Distribution72.2 强化学习的挑战样本生成估计值函数

5、/环境模型策略提升采样慢!游戏世界采样1000 x wall-clock1x wall-clock现实世界采样挑战：数据效率低，难以直接在现实世界学习“9600 TPUs were used and over 60 000 years of StarCraft 2 wasplayed,costing 26 million for dedicated,uninterrupted TPUs.”https:/ Proprietary-Restricted Distribution82.3 强化学习的挑战数据效率低如何提升数据利用率？从表征学习角度的思考End-effector position:x

6、,yToy1 position:x,yToy2 position:x,yMocoSimCLRYann LeCun:Self-supervised learningalgothmsthose that generate labelsfrom data by exposing relationshipsbetween the datas parts,believed to becritical to achieving human-levelintelligence.Yoshua Bengio:Reveal the way high-level semantic variables connect

7、 withhow the brain processes information.Prof.LeCun,Bengio at ICLR 2020.Huawei Proprietary-Restricted Distribution92.3 强化学习的挑战数据效率低如何提升数据利用率？从表征学习角度的思考状态表征学习：RAD,CURL使用对比学习辅助视觉输入特征学习；策略/动作表征学习：策略扩展值函数PeVFA（自研）；任务空间表征学习：对比元强化学习方法CCM（自研）；奖赏/Goal表征学习：UPN学习planning-based reward表征，RIG生成imaginary goal完成g

8、oal space表征；时序对比表征学习：TCN,mfTCN从时序角度对同一事件构建多视角对比表征任务；MDP过程一致性表征学习：Deep MDP学习Bisimulation metric。RAD:RL with augmented dataPeVFA:Policy extended value function approximatorCCM:Contrastive Context Meta-RLRIG:RL with imagined goal SPR:self-predictive representationDeep MDP(Laskin,et al,2020)(Gelada,et a

9、l.2019)(Schwarzeret al.,2021(Nair et al.,2018)Huawei Proprietary-Restricted Distribution102.3 强化学习的挑战数据效率低如何提升数据利用率？SPR(Self-Predictive Representation)基于自监督方式学习具备良好前向预测能力的隐空间核心思想：时序预测+数据增广EncoderTransition modelPredictive headPrediction lossSchwarzer,et al.Data efficient reinforcement learning with

10、 self-predictive representation,ICLR 2021Huawei Proprietary-Restricted Distribution112.3 强化学习的挑战数据效率低如何提升数据利用率？利用环境模型时序前向+逆向推演，引入更丰富梯度信号 Learning via Forward Prediction时序前向推演可学习到强语义特征的隐空间结构Model-free：SPRModel-based：Dreamer Learning via RetracingIntuition：同一套物理运动规则（transition）约束着环境的运行，前向推演和逆向推演互为补充，

11、符合同一套MDP的约束同一个世界，同一套物理规则Yu et al,Learning State Representations via Retracing in Reinforcement Learning,ICLR 2022.Huawei Proprietary-Restricted Distribution122.3 强化学习的挑战数据效率低如何提升数据利用率？利用环境模型时序前向+逆向推演，引入更丰富梯度信号 Learning via Retracing 前向预测Optimization：Maximize ELBOReconstruction errorRegularization b

12、etween variationalposterior and predictive priorYu et al,Learning State Representations via Retracing in Reinforcement Learning,ICLR 2022.Huawei Proprietary-Restricted Distribution132.3 强化学习的挑战数据效率低如何提升数据利用率？利用环境模型时序前向+逆向推演，引入更丰富梯度信号 Learning via Retracing 逆向预测：Cycle-Consistency World ModelReverse

13、action approximator前向预测逆向预测Optimization：constrain the deviation of the retraced states from the original statesBisimulation metric based loss:Yu et al,Learning State Representations via Retracing in Reinforcement Learning,ICLR 2022.Huawei Proprietary-Restricted Distribution142.3 强化学习的挑战数据效率低如何提升数据利

14、用率？利用环境模型时序前向+逆向推演，引入更丰富梯度信号 Learning via Retracing 逆向预测：Cycle-Consistency World Model“不可逆”状态自适应截断Q函数的变化是隐空间距离的一种体现Q函数滑窗检测不可逆状态，该状态不接入回环一致性优化过程Yu et al,Learning State Representations via Retracing in Reinforcement Learning,ICLR 2022.Huawei Proprietary-Restricted Distribution152.3 强化学习的挑战数据效率低如何提升数据

15、利用率？利用环境模型时序前向+逆向推演，引入更丰富梯度信号 Learning via Retracing 实验验证CCWM前向预测更准确Yu et al,Learning State Representations via Retracing in Reinforcement Learning,ICLR 2022.Huawei Proprietary-Restricted Distribution162.3 强化学习的挑战数据效率低如何提升数据利用率？利用环境模型时序前向+逆向推演，引入更丰富梯度信号 Learning via Retracing 实验验证CCWM状态隐空间中前向逆向模式的一

16、致性自适应截断的影响Zero-shot TransferR:reward,M:mass,S:stiffness,F:friction技术应用算法研究总结数据高效的强化学习算法多模态与交互行为模仿学习算法多模态/多智能体交互多智能体信用分配学习TripleGAIL/CoDAIL多样性策略生成基于强化学习的调度优化自动驾驶华为音乐、短视频推荐策略迁移元强化学习Q-value Decomposition认知一致性ARN/Multi-actionPBT分层强化学习芯片优化Yang et.al,NeurIPS 2021.Mu et.Al,NeurIPS 2021Fu et.al,AAAI 2021.Fei et.al,IJCAI 2020.Liu et.al,ICLR 2020.Yang et.al,ICML 2020.Mao et.al,AAAI 2020.Wang et.al,AAAI 2020.Shen et.al,IJCAI 2020.Ma et.al,NeurIPS 2021.基于模型的强化学习求解器优化

友情提示

1、下载报告失败解决办法
2、PDF文件下载后，可能会被浏览器默认打开，此种情况可以点击浏览器菜单，保存网页到桌面，就可以正常下载了。
3、本站不支持迅雷下载，请使用电脑自带的IE浏览器，或者360浏览器、谷歌浏览器下载即可。
4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩，下载后原文更清晰。

本文（1-1 表征强化学习研究及应用.pdf）为本站（云闲）主动上传，三个皮匠报告文库仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对上载内容本身不做任何修改或编辑。若此文所含内容侵犯了您的版权或隐私，请立即通知三个皮匠报告文库（点击联系客服），我们立即给予删除！

温馨提示：如果因为网速或其他原因下载失败请重新下载，重复下载不扣分。