《如何利用强化学习技术提高游戏可玩性和真实性-黄鸿波.pdf》由会员分享,可在线阅读,更多相关《如何利用强化学习技术提高游戏可玩性和真实性-黄鸿波.pdf(30页珍藏版)》请在三个皮匠报告上搜索。
1、如何利用强化学习技术提高游戏的真实性和可玩性黄鸿波西山居 AI技术专家2008年获得高级职业资格证2012年开始接触AI,以Numenta公司的HTM(Hierarchical Temporal Memory)算法入门AI2016年开始研究深度学习框架TensorFlow2018年出版TensorFlow进阶指南 基础、算法与应用一书2020年获得谷歌开发者专家称号(GDE,Google Developer Expert)目前在西山居技术中心负责AI团队建设什么是强化学习强化学习与传统游戏 AI 的区别强化学习在游戏中的应用游戏中的强化学习架构方案游戏强化学习的一些经验总结我们的成果展示什么是
2、游戏强化学习AlphaGOAlphaGO腾讯觉悟腾讯觉悟AIAIAlphaStarAlphaStar2016年强化学习训练出来的AlphaGo战胜世界围棋冠军李世石DeepMind训练的强化学习机器人在星际争霸比赛中完胜人类玩家腾讯训练的觉悟AI在英雄联盟比赛中完胜人类玩家强化学习是一种机器学习范式,它训练代理的策略,以便它可以做出一系列决策。代理的目的是根据对环境的观察来输出动作。这些行动将导致更多的观察和回报。当代理与环境交互时,培训涉及大量的反复试验,并且每次迭代都可以改进策略。在游戏中,采取行动或执行行为的代理是游戏代理(Agent)。考虑游戏中的角色或机器人,它必须了解游戏的状态,玩
3、家在哪里,然后基于此观察,应根据游戏的情况做出决定。在强化学习中,决策由奖励决定,奖励在游戏中可以作为高分提供,也可以提供给达到特定目标的新水平。关于游戏情况的最酷的事情是,在游戏的压力下训练了代理的策略。例如,它可以了解受到攻击时的处理方式,或如何行为以达到特定目标。强化学习与传统游戏AI的区别强化学习强化学习传统传统AIAI灵活性灵活死板拟人性行为更接近人千篇一律强度调节每个人的对战强度不一样只有几个预定的强度强化学习在游戏中的应用用深度强化学习训练的AI来寻找构建的3D环境存在的漏洞深度强化学习AI应用到3A游戏的自动导航基于深度强化学习的AI可以用来帮助生成地形,环境,可以生成千变万化
4、的环境。游戏中的强化学习架构方案游戏强化学习的一些经验总结前处理(action mask)如果不存在敌人,取消攻击,并屏蔽攻击动作如果没有暴露时,屏蔽沙漏、魔王和盾以及静止动作如果地图中没有技能,或技能距agent较远,或者背包技能不满足升级条件,屏蔽电池 由于之前的重排操作,agent 更倾向拾取沙漏技能动作空间移动-移动方向离散成16个方向攻击-攻击方向直接锁定为目标方向,攻击蓄力为模型主动学习,使模型更加灵活捡道具-通过奖励函数结合道具距离进行排序奖励类型奖励类型奖励值奖励值 拾取星辰0.1拾取技能1使用技能1探测到技能1攻击1击杀1血量1游戏持续时间-0.000001探测0.5我们的成果展示使用魔王反杀三段攻击探测+拾取道具攻击+探测+拾取道具