游戏AI Bot的拟人化和风格化：AIGA赋能游戏探索.pdf

编号：155399

PDF 36页 4.70MB 下载积分：VIP专享

下载报告请您先登录！

游戏AI Bot的拟人化和风格化：AIGA赋能游戏探索.pdf

1、游戏游戏AIAI BotBot的拟人化和风格化的拟人化和风格化：AIGAAIGA赋能游戏探索赋能游戏探索人机协作万物有灵 2023/06/18胡裕靖主要内容主要内容大纲从从AIGCAIGC到到AIGAAIGA游戏游戏AI BotAI Bot拟人化和风格化研究进展拟人化和风格化研究进展RLHFRLHF微调游戏微调游戏AI BotAI Bot模型模型1从从AIGCAIGC到到AIGAAIGAAIGCAIGC时代时代AIGCAIGCAIGC：AI Generated ContentAI Generated Content对话对话代码代码办公文档办公文档图片图片AIGCAIGC时代时代AIGC对于游

2、戏三维模型（三维模型（From From 网易瑶台）网易瑶台）AIGCAIGC于游戏：于游戏：原画，服装，人脸，表情，三维模型，对话，关卡，剧情，道具，数值，美术资源（美术资源（FromFrom 网易丹青约网易丹青约）AIGCAIGC时代时代AIGC对于游戏NPCNPC开放式对话（开放式对话（From From 逆水寒手游）逆水寒手游）文字捏脸（文字捏脸（From From 逆水寒手游）逆水寒手游）AIGCAIGC于游戏：于游戏：原画，服装，人脸，表情，三维模型，对话，关卡，剧情，道具，数值，AIGCAIGC时代时代AIGC对于游戏关卡生成关卡生成武器生成（武器生成（From Galactic

3、 Arm Race GameFrom Galactic Arm Race Game）AIGCAIGC于游戏：于游戏：原画，服装，人脸，表情，三维模型，对话，关卡，剧情，道具，数值，场景建筑生成场景建筑生成http:/ AIGCAIGC时代时代AIGAAIGAAIGA？AI Generated ActionAI Generated ActionGame AI BotGame AI Bot暗黑破坏神：雇佣兵控制暗黑破坏神：雇佣兵控制全明星街篮派对全明星街篮派对FIFA&FIFA&实况：队友控制实况：队友控制永劫无间永劫无间逆水寒逆水寒老头环：老头环：BossBoss控制控制AIGCAIGC时代时代

4、AIGA网易伏羲的网易伏羲的AIGAAIGA2游戏游戏AI AI BotBot拟人化、风格化拟人化、风格化拟人化拟人化AIAI、风格化、风格化AIAI研究价值和现状极大影响玩家游戏体验和心流，但还没有形成方法论极大影响玩家游戏体验和心流，但还没有形成方法论通过通过Reward ShapingReward Shaping做到拟人化行为做到拟人化行为拟人化：让游戏中的AI Bot具有玩家行为特征，去机器人化（多）风格化：生成行为风格丰富多样的游戏AI Bot但调但调RewardReward的过程耗时耗力的过程耗时耗力22%35%53%0%15%30%45%60%DistanceHP Diff.59

5、%100%79%0%25%50%75%100%125%DistanceGame Dur.HP Diff.多联盟训练多联盟训练+Reward Shaping+Reward Shaping、进化算法、进化算法+多目标优化多目标优化方法成本较高、实用性较差方法成本较高、实用性较差拟人化拟人化AIAI、风格化、风格化AIAI研究内容AI AI BotBot拟人化拟人化、（、（多）风格化研究多）风格化研究效果评估都有较强主观性难以量化拟人、多风格的评价标准-提出标准炼丹问题，case by case，现有技术成本高-更实用、自动化的通用技术方案提升业务效果2-1拟人化拟人化拟人化拟人化AIAI、风格化、

6、风格化AIAI拟人化指标评判指标评判指标基本含义基本含义评判方法评判方法客观性客观性从统计学角度统计学角度衡量Bot与人类玩家行为的匹配性单状态、轨迹匹配率动作分布匹配率多样性多样性衡量Bot行为的多样性行为的多样性，以适配不同风格玩家策略熵局间动作分布竞技性竞技性衡量Bot的策略强度策略强度游戏胜率领域相关指标领域相关指标针对特定游戏的相关指标特定游戏的相关指标，例如针对特定游戏可以设计相关移动切换频率、技能连招释放情况等游戏相关指标匹配率位置热力图分布连招释放率图灵测试图灵测试主观人为评判主观人为评判专家或众包评测拟人化指标设计方案拟人化指标设计方案结合主客观特性，设计五类评判指标拟人化拟

7、人化AIAI、风格化、风格化AIAI拟人化指标通过雷达图雷达图方式进行可视化展示可以清晰的区分出不同算法的差异清晰的区分出不同算法的差异（BC、RL）Behavior Cloning（BC）vs Reinforcement Learning（RL）拟人化指标可视化效果拟人化指标可视化效果拟人化拟人化AIAI、风格化、风格化AIAI拟人化技术方案方案动机方案动机拟人化要保证BotBot的行为与人类相一致的行为与人类相一致-BCBC（模仿学习）只采用BC算法容易造成BotBot强度受限强度受限 -RLRL（强化学习）BC和RL联合优化方案，同时兼顾拟人性和AI Bot强度=?+?方案实现方案实现收

8、集玩家优质数据收集玩家优质数据收集大量玩家数据玩家数据清洗过滤针对算法模型的SA数据集构建BotBot模型设计模型设计初始Bot模型设计拟人化网络结构优化1.基于游戏日志，收集玩家行为数据，为算法优化提供数据基础为算法优化提供数据基础2.拟人化算法网络设计拟人化算法网络设计3.拟人化算法离线策略优化拟人化算法离线策略优化BC+RLBC+RL联合优化联合优化=?+?min?s.t.?=0转化模型优化：优化目标优化目标：问题问题：超参数如何设置？解决办法解决办法：自动化参数优化基于规则进行参数优化低于目标胜率时降低BC权重，更多优化强度高于目标胜率时增大BC权重，更多优化拟人性拟人化拟人化AIAI

9、、风格化、风格化AIAI拟人化技术方案方案实现：方案实现：BC+RLBC+RL联合优化联合优化=?+?更多胜率优化更多胜率优化更多更多BCBC优化优化训练过程中胜率变化情况，并不会被训练过程中胜率变化情况，并不会被BCBC带着往下掉带着往下掉拟人化拟人化AIAI、风格化、风格化AIAI拟人化效果BC+RLBC+RL联合优化联合优化拟人化效果（整体指标）拟人化效果（整体指标）DonicDonic-整体拟人性整体拟人性SethSeth-整体拟人性整体拟人性ValanValan-整体拟人性整体拟人性L33L33拟人性提升拟人性提升拟人化拟人化AIAI、风格化、风格化AIAI拟人化效果BC+RLBC+

10、RL联合优化联合优化拟人化效果（领域相关指标拟人化效果（领域相关指标）DonicDonic-领域相关指标领域相关指标SethSeth-领域相关指标领域相关指标ValanValan-领域相关指标领域相关指标L33L33拟人性提升拟人性提升拟人化拟人化AIAI、风格化、风格化AIAI拟人化效果BC+RLBC+RL联合优化联合优化支持根据设定目标进行自动化调节支持根据设定目标进行自动化调节传球次数传球次数目标值目标值=0.8=0.8传球次数传球次数目标值目标值=1.2=1.2（人类玩家）（人类玩家）传球次数传球次数目标值目标值=0.2=0.2L33L33拟人性提升拟人性提升拟人化拟人化AIAI、风格

11、化、风格化AIAI拟人化效果可视化效果展示可视化效果展示BC+RLBC+RL联合优化联合优化L33L33拟人性提升拟人性提升问题（问题（Question&ProblemQuestion&Problem）：主观上）：主观上经常经常并不能够并不能够看出看出来哪里变来哪里变好了，客观指标和主观感觉有时候差异比较大，怎么办？好了，客观指标和主观感觉有时候差异比较大，怎么办？2-2多风格化多风格化拟人化拟人化AIAI、风格化、风格化AIAI行为风格评估风格变量风格变量基本含义基本含义以篮球游戏为例以篮球游戏为例StateState策略在State维度上的风格体现球员移动轨迹分布、位置热力图ActionA

12、ction策略在Action（技能）维度上风格体现挡拆次数、投篮次数分布、盖帽次数分布、大招释放次数EffectEffect策略在效果维度上的风格体现两分球得分率、三分球得分率、防守成功率行为风格的量化评估行为风格的量化评估能够体现能够体现BotBot行为风格的变量有哪些？行为风格的变量有哪些？拟人化拟人化AIAI、风格化、风格化AIAI多风格技术方案想要同时提升多个风格维度上的多样性比较难想要同时提升多个风格维度上的多样性比较难逆水寒血河逆水寒血河-Bot-Bot行为行为风格描述雷达图风格描述雷达图逆水寒血河逆水寒血河-Bot-Bot行为行为风格多样性风格多样性游戏游戏AI BotAI Bo

13、t多风格化，重点在多风格化，重点在“风格化风格化”，而不是，而不是“多多”拟人化拟人化AIAI、风格化、风格化AIAI多风格技术方案模型策略往往在风格维度上呈现某种分布，并不会单一取某个值模型策略往往在风格维度上呈现某种分布，并不会单一取某个值经过经过预预训练后训练后BotBot的移动风格分布的移动风格分布移动风格：每局游戏上移动风格：每局游戏上BotBot的移动次数的移动次数可根据需求，规定lazylazy风格（移动风格（移动1010次）次）和activeactive风格（移动风格（移动2525次）次）的指标标准算法自动筛选出lazy和active风格的样本，用self-imitation

14、learningself-imitation learning将风格极致化将风格极致化BreakoutBreakout游戏游戏Lazy BotLazy BotActive BotActive Bot拟人化拟人化AIAI、风格化、风格化AIAI多风格技术方案方案流程方案流程预训练预训练：RL训练，保证一定的模型强度和样本多样性风格认定风格认定：根据需求确认目标风格和指标标准风格极化风格极化：self-imitation learning（SIL）强度优化强度优化：SIL的同时用RL保证强度=?+?同拟人化方案类似，只用同拟人化方案类似，只用self-imitation learningself-

15、imitation learning会使得会使得BotBot的强度受限，因此还需引入的强度受限，因此还需引入RLRL拟人化拟人化AIAI、风格化、风格化AIAI多风格技术方案三分风格三分风格AI Bot拟人化拟人化AIAI、风格化、风格化AIAI多风格技术方案两分两分风格风格AI Bot拟人化拟人化AIAI、风格化、风格化AIAI多风格技术方案挡拆风格挡拆风格AI Bot3RLHFRLHF微调游戏微调游戏AI BotAI Bot模型模型拟人化拟人化AIAI、风格化、风格化AIAI现有方案不足客观指标客观指标主观感觉主观感觉VSVS模型训练客观指标绝大部分客观指标，无法直接用于模型优化绝大部分客

16、观指标，无法直接用于模型优化客观指标，无法完全反映拟人化（风格化）程度客观指标，无法完全反映拟人化（风格化）程度拟人化拟人化AIAI、风格化、风格化AIAI现有方案不足现有方案现有方案不足之处不足之处：BC+RL（SIL+RL）是在宏观的数据分布层面宏观的数据分布层面进行优化人对于拟人化（风格化）的判定并非是统计意义上的人对于拟人化（风格化）的判定并非是统计意义上的Probably Probably Approximately CorrectApproximately Correct，而是纠错（挑刺），而是纠错（挑刺）10000次决策里9999都对了，但有1次不对就会导致模型负面判定就会导致模

17、型负面判定直接从主观反馈中学习？直接从主观反馈中学习？让模型从人的纠错或反馈中去学习：让模型从人的纠错或反馈中去学习：Reinforcement Learning from Human Feedback(RLHF)Reinforcement Learning from Human Feedback(RLHF)拟人化拟人化AIAI、风格化、风格化AIAIRLHF拟人化实验AI Bot的跟防距离优化的跟防距离优化采用标注工具对不同行为序列片段进行pair-wise比较选择跟防更好的片段，给以正向的信号反馈RLHFRLHF标注工具标注工具RLHF训练过程中Bot跟防距离变化情况拟人化拟人化AIAI、风格化、风格化AIAIRLHF拟人化实验库里跟防效果展示库里跟防效果展示左：左：RLHFRLHF后；右：后；右：RLHFRLHF前前拟人化拟人化AIAI、风格化、风格化AIAI游戏AI Bot通用生产pipeline数据采集RLHF微调预训练（自）模仿学习+强化学习反馈标注RLHF训练一旦全流程闭环，一旦全流程闭环，AIAI工程师可以做到零介入或少介入工程师可以做到零介入或少介入THANK YOUTHANK YOU人工智能，点亮游戏未来

友情提示

1、下载报告失败解决办法
2、PDF文件下载后，可能会被浏览器默认打开，此种情况可以点击浏览器菜单，保存网页到桌面，就可以正常下载了。
3、本站不支持迅雷下载，请使用电脑自带的IE浏览器，或者360浏览器、谷歌浏览器下载即可。
4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩，下载后原文更清晰。

本文（游戏AI Bot的拟人化和风格化：AIGA赋能游戏探索.pdf）为本站（张5G）主动上传，三个皮匠报告文库仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对上载内容本身不做任何修改或编辑。若此文所含内容侵犯了您的版权或隐私，请立即通知三个皮匠报告文库（点击联系客服），我们立即给予删除！

温馨提示：如果因为网速或其他原因下载失败请重新下载，重复下载不扣分。