20231125 王文冠_watermark.pdf

编号：155519

PDF 65页 8.87MB 下载积分：VIP专享

下载报告请您先登录！

20231125 王文冠_watermark.pdf

1、G R A D U A T I O NR E P O R TT E M P L EF O RZ H E J I A N GU N I V E R S I T Y知识与大模型驱动的具身智能王文冠浙江大学人工智能省部共建协同创新中心人工智能研究所知识与大模型驱动的具身智能知识与大模型驱动的具身智能感知决策交互推理规划知识与大模型驱动的具身智能专家模型与领域知识库大规模数据三维场景理解视觉语言导航行为规划感知决策交互推理规划通用大模型+专家小模型多模态AI大模型领域任务小模型调度知识与大模型驱动的具身智能目录01基于大-小模型协同的具身交互03知识和大模型双驱动的智能规划0402知识和数据双驱动的

2、智能推理基于BEV 3D感知的具身决策知识与大模型驱动的具身智能目录01基于BEV 3D感知的具身决策基于大-小模型协同的具身交互03知识和大模型双驱动的智能规划0402知识和数据双驱动的智能推理Birds-Eye-View Scene Graph for Vision-Language Navigation,ICCV,2023基于BEV 3D感知的具身决策目标：基于2D相机视角，构建BEV（鸟瞰图）感知，实现具有3D场景感知能力的具身导航智能体问题：目前具身导航智能体大多基于2D视角进行规划决策，缺乏3D空间感知能力方法：输入2D环视图，经视角转换模块投影得到BEV特征，通过3D目标

3、检测及空间占用预测感知3D空间，提升性能经过沙发左转，然后立即右转，通过左侧的门进入卧室。2D2D-鸟瞰图特征编码鸟瞰图特征编码3D3D目标检测目标检测空间占用预测空间占用预测导航规划场景拓扑图场景拓扑图基于BEV 3D感知的具身决策2D2D图像特征图像特征基于基于注意力机制注意力机制3D3D体素特征体素特征池化压缩池化压缩鸟瞰图特征鸟瞰图特征鸟瞰图构建方法2D2D-鸟瞰图特征编码鸟瞰图特征编码 2D环视图-BEV特征：经视角转换模块投影到3D体素空间中，通过池化压缩得到BEV特征视角转换模块基于注意力机制实现，并引入相机内外参的几何先验Birds-Eye-View Scene Graph

4、for Vision-Language Navigation,ICCV,2023基于BEV 3D感知的具身决策经过沙发左转，然后立即右转，通过左侧的门进入卧室。2D2D-鸟瞰图特征编码鸟瞰图特征编码3D3D目标检测目标检测空间占用预测空间占用预测导航规划场景拓扑图场景拓扑图场景布局细粒度的几何信息通过3D目标检测和空间占用预测任务，增强导航智能体对场景布局的理解，捕捉细粒度的几何信息Birds-Eye-View Scene Graph for Vision-Language Navigation,ICCV,2023基于BEV 3D感知的具身决策在导航过程中，基于BEV特征构建实时的场景拓扑

5、图，为当前场景构建全局地图2D2D-鸟瞰图特征编码鸟瞰图特征编码3D3D目标检测目标检测空间占用预测空间占用预测导航规划场景拓扑图场景拓扑图存储场景信息经过沙发左转，然后立即右转，通过左侧的门进入卧室。Birds-Eye-View Scene Graph for Vision-Language Navigation,ICCV,2023基于BEV 3D感知的具身决策常规内容页标题微软雅黑 30号字2D2D-鸟瞰图特征编码鸟瞰图特征编码3D3D目标检测目标检测空间占用预测空间占用预测导航规划场景拓扑图场景拓扑图经过沙发左转，然后立即右转，通过左侧的门进入卧室。网格级决策空间(t)拓扑决策空间(t

6、)局部决策全局决策完备的决策空间：基于场景拓扑图的全局决策空间+基于BEV特征的局部决策空间Birds-Eye-View Scene Graph for Vision-Language Navigation,ICCV,2023基于BEV 3D感知的具身决策指令：经过沙发左转，然后立即右转，通过左侧的门进入卧室。实时3D目标检测实时空间占用预测Birds-Eye-View Scene Graph for Vision-Language Navigation,ICCV,2023知识与大模型驱动的具身智能目录01基于BEV 3D感知的具身决策基于大-小模型协同的具身交互03知识和大模型双驱动的智

7、能规划0402知识和数据双驱动的智能推理DREAMWALKER:Mental Planning for Continuous Vision-Language Navigation,ICCV,2023Towards Versatile Embodied Navigation,NeurIPS,2022(Spotlight,接收率5%)基于世界模型的推理决策语言理解：理解句子结构和含义，并推断隐含信息（冷笑话）心智理论：理解他人有自己的信念、欲望和意图，并产生同情物体存继性：理解物体即使在看不见的情况下也会继续存在世界模型总结了人类关于周围环境的一般知识推理计划决策解释高级认知技能支撑空间推理

8、：包括距离、方向和视角等概念理解物体和位置之间的关系基于世界模型的推理决策DREAMWALKER:Mental Planning for Continuous Vision-Language Navigation,ICCV,2023Towards Versatile Embodied Navigation,NeurIPS,2022(Spotlight,接收率5%)指令指令：前往餐厅，在餐桌前待命智能体构建世界模型，对未来进行预演借助世界模型，智能体可以通过“预测未来”生成大量可能的路径并择优执行基于世界模型的推理决策已有观测借助世界模型，智能体可以通过“预测未来”生成大量可能的路径并择优执行基

9、于世界模型的推理决策观测预测逆投影重投影生成神经网络世界模型基于世界模型的推理决策规划决策：利用世界模型预测未来的状态，使用蒙特卡洛树搜索对大量可能的方案进行评估基于世界模型的推理决策知识和数据双驱动的智能推理视觉溯因推理“地面潮湿”“女孩背着书包匆匆离开”“女孩将要上课迟到”视觉溯因推理：在视觉场景下，利用不完整的事实推断出最合理的假设。Visual Abductive Reasoning.CVPR,2022;Knowledge-Driven Visual Abductive Reasoning.PAMI(under review)知识和数据双驱动的智能推理视觉溯因推理深度视觉编码器感知理解

10、因果知识图谱知识提取多步解码器级联推理解码器解码器置信度Visual Abductive Reasoning.CVPR,2022;Knowledge-Driven Visual Abductive Reasoning.PAMI(under review)知识和数据双驱动的智能推理部分事实序列深度视觉编码器感知理解因果知识图谱知识提取多步解码器级联解码解码器解码器置信度深度特征感知理解：基于深度视觉编码器，理解当前的部分事实观测，提取深度特征Visual Abductive Reasoning.CVPR,2022;Knowledge-Driven Visual Abductive Reason

11、ing.PAMI(under review)知识和数据双驱动的智能推理部分事实序列深度视觉编码器感知理解因果知识图谱知识提取多步解码器级联解码解码器解码器置信度深度特征相关知识知识提取：利用观测事实的深度特征，检索外部因果知识图谱（CausalBank）中的相关知识人受到伤害乘救护车至医院治疗CausalBank:Guided Generation of Cause and Effect,IJCAI,2020Visual Abductive Reasoning.CVPR,2022;Knowledge-Driven Visual Abductive Reasoning.PAMI(under r

12、eview)知识和数据双驱动的智能推理部分事实序列深度视觉编码器感知理解因果知识图谱知识提取多步解码器级联解码解码器解码器置信度深度特征相关知识人受到伤害乘救护车至医院治疗合理假设“行人被牛撞伤”级联解码：融合视觉深度特征与相关因果知识，对未观测事实进行迭代优化、级联推理，最终得到合理假设Visual Abductive Reasoning.CVPR,2022;Knowledge-Driven Visual Abductive Reasoning.PAMI(under review)知识和数据双驱动的智能推理她站上了冠军领奖台并向观众招手.一位女运动员走上了跳板并跃入空中.视觉溯因推理观测一观

13、测二主流模型：她跳了下去Visual Abductive Reasoning.CVPR,2022;Knowledge-Driven Visual Abductive Reasoning.PAMI(under review)知识和数据双驱动的智能推理她站上了冠军领奖台并向观众招手.一位女运动员走上了跳板并跃入空中.视觉溯因推理观测一观测二主流模型：她跳了下去知识驱动模型:她跳下跳板，高质量完成跳水动作Visual Abductive Reasoning.CVPR,2022;Knowledge-Driven Visual Abductive Reasoning.PAMI(under review)

14、知识和数据双驱动的智能推理她站上了冠军领奖台并向观众招手.一位女运动员走上了跳板并跃入空中.视觉溯因推理观测一观测二主流模型：她跳了下去知识驱动模型:她跳下跳板，高质量完成跳水动作Visual Abductive Reasoning.CVPR,2022;Knowledge-Driven Visual Abductive Reasoning.PAMI(under review)知识与大模型驱动的具身智能目录01基于BEV 3D感知的具身决策基于大-小模型协同的具身交互03知识和大模型双驱动的智能规划0402知识和数据双驱动的智能推理基于大-小模型协同的具身交互LANA:A Language-C

15、apable Navigator for Instruction Following and Generation,CVPR,2023Learning to Follow and Generate Instructions for Language-Capable Navigation,PAMI(under review)目标：基于多模态大模型和动作决策及语言交互小模型，构建交互式具身智能体问题：目前具身智能体不具有双向语言交互能力，缺乏规划和推理方法：使用多模态大模型进行推理，动作预测与语言交互小模型负责具体任务执行和双向语言交互基于大-小模型协同的具身交互LANA:A Language

16、-Capable Navigator for Instruction Following and Generation,CVPR,2023Learning to Follow and Generate Instructions for Language-Capable Navigation,PAMI(under review)目标：基于多模态大模型和动作决策及语言交互小模型，构建交互式具身智能体基于大-小模型协同的具身交互LANA:A Language-Capable Navigator for Instruction Following and Generation,CVPR,2023Lea

17、rning to Follow and Generate Instructions for Language-Capable Navigation,PAMI(under review)目标：基于多模态大模型和动作决策及语言交互小模型，构建交互式具身智能体基于大-小模型协同的具身交互LANA:A Language-Capable Navigator for Instruction Following and Generation,CVPR,2023Learning to Follow and Generate Instructions for Language-Capable Navigatio

18、n,PAMI(under review)室内搜救基于大-小模型协同的具身交互LANA:A Language-Capable Navigator for Instruction Following and Generation,CVPR,2023Learning to Follow and Generate Instructions for Language-Capable Navigation,PAMI(under review)？基于大-小模型协同的具身交互LANA:A Language-Capable Navigator for Instruction Following and Gene

19、ration,CVPR,2023Learning to Follow and Generate Instructions for Language-Capable Navigation,PAMI(under review)室内搜救基于大-小模型协同的具身交互LANA:A Language-Capable Navigator for Instruction Following and Generation,CVPR,2023Learning to Follow and Generate Instructions for Language-Capable Navigation,PAMI(under

20、 review)？基于大-小模型协同的具身交互LANA:A Language-Capable Navigator for Instruction Following and Generation,CVPR,2023Learning to Follow and Generate Instructions for Language-Capable Navigation,PAMI(under review)室内搜救基于大-小模型协同的具身交互LANA:A Language-Capable Navigator for Instruction Following and Generation,CVPR,

21、2023Learning to Follow and Generate Instructions for Language-Capable Navigation,PAMI(under review)常规内容页标题微软雅黑 30号字知识与大模型驱动的具身智能目录01基于BEV 3D感知的具身决策基于大-小模型协同的具身交互03知识和大模型双驱动的智能规划0402知识和数据双驱动的智能推理知识和大模型双驱动的智能规划目标：基于大语言模型、视频任务小模型和外部知识，构建智能规划智能体问题：目前智能体难以解决真实动态世界中的任务，缺乏认识世界、规划任务和调度外部知识的智能方法：基于大语言模型

22、智能体，自主执行任务分解、视频任务小模型调度以及外部知识查询来求解任务智能任务规划：视频理解、知识问答、场景编辑等输入视频问题/任务描述电影中描述的英雄是谁？请移除右后方的人物。哆啦A梦GPT输出编辑后视频答案英雄指的是Mr.Poirot，他是一个私人侦探。已调度Inpainting工具移除了右后方的人物。DoraemonGPT A new agent for solving real-world tasks automatically知识和大模型双驱动的智能规划DoraemonGPT A new agent for solving real-world tasks automatically

23、空间-时间推理巨大的规划空间特定领域的知识关门还是开门？怎么样去分解任务？现象背后的原理是什么？解决真实世界任务的挑战知识和大模型双驱动的智能规划DoraemonGPT A new agent for solving real-world tasks automaticallyMCTSPlannerQuestion(Task)MultipleSolutionsLoopTask-relatedSymbolic MemorySourceSpaceTimeSolution 1Solution 2MemoryConstruction新智能体：哆啦A梦GPT知识和大模型双驱动的智能规划DoraemonG

24、PT A new agent for solving real-world tasks automaticallyQuestion(Task)MCTSPlannerQuestion(Task)MultipleSolutionsLoopTask-relatedSymbolic MemorySourceSpaceTimeSolution 1Solution 2MemoryConstruction大语言模型驱动的规划器：将任务分解为一系列子任务并探索不同的解决方案新智能体：哆啦A梦GPT知识和大模型双驱动的智能规划DoraemonGPT A new agent for solving real-wo

25、rld tasks automaticallyMCTSPlannerQuestion(Task)MultipleSolutionsLoopTask-relatedSymbolic MemorySourceSpaceTimeSolution 1Solution 2MemoryConstruction符号记忆：记住与任务最相关的信息新智能体：哆啦A梦GPT知识和大模型双驱动的智能规划DoraemonGPT A new agent for solving real-world tasks automaticallyMCTSPlannerQuestion(Task)MultipleSolutionsL

26、oopTask-relatedSymbolic MemorySourceSpaceTimeSolution 1Solution 2MemoryConstruction工具包：用于执行子任务和查询专业知识新智能体：哆啦A梦GPT知识和大模型双驱动的智能规划DoraemonGPT A new agent for solving real-world tasks automatically0.观测视频以及对需要解决任务的描述视频问题输入：知识和大模型双驱动的智能规划DoraemonGPT A new agent for solving real-world tasks automatically1.

27、多啦A梦GPT自动提取与任务最相关的信息知识和大模型双驱动的智能规划DoraemonGPT A new agent for solving real-world tasks automatically1.多啦A梦GPT自动提取与任务最相关的信息，包含空间相关（spacespace-dominant dominant）或时间相关（timetime-dominant dominant）知识和大模型双驱动的智能规划DoraemonGPT A new agent for solving real-world tasks automatically2.给定一套工具包，多啦A梦GPT将任务分解为一系列子任

28、务知识和大模型双驱动的智能规划DoraemonGPT A new agent for solving real-world tasks automatically2.给定一套工具包，多啦A梦GPT将任务分解为一系列子任务知识和大模型双驱动的智能规划DoraemonGPT A new agent for solving real-world tasks automatically2.给定一套工具包，多啦A梦GPT将任务分解为一系列子任务知识和大模型双驱动的智能规划DoraemonGPT A new agent for solving real-world tasks automatically2

29、.给定一套工具包，多啦A梦GPT将任务分解为一系列子任务知识和大模型双驱动的智能规划DoraemonGPT A new agent for solving real-world tasks automatically2.给定一套工具包，多啦A梦GPT将任务分解为一系列子任务，直至得到最终答案知识和大模型双驱动的智能规划DoraemonGPT A new agent for solving real-world tasks automatically3.像人类一样，多啦A梦GPT可以自动探索不同的解决方案，比如查阅参考书籍。知识和大模型双驱动的智能规划DoraemonGPT A new agen

30、t for solving real-world tasks automatically3.像人类一样，多啦A梦GPT可以自动探索不同的解决方案，比如查阅参考书籍，得到更好的答案。知识和大模型双驱动的智能规划DoraemonGPT A new agent for solving real-world tasks automatically4.也可以考虑更多可能策略，比如调用搜索引擎，Google。知识和大模型双驱动的智能规划DoraemonGPT A new agent for solving real-world tasks automatically4.也可以考虑更多可能策略，比如调用搜索

31、引擎，Google。知识和大模型双驱动的智能规划DoraemonGPT A new agent for solving real-world tasks automatically5.最终，多啦A梦GPT自动解决了困难任务，并为用户提供了多种解决方案。知识和大模型双驱动的智能规划DoraemonGPT A new agent for solving real-world tasks automatically5.最终，多啦A梦GPT自动解决了困难任务，并为用户提供了多种解决方案。知识和大模型双驱动的智能规划DoraemonGPT:A new agent for solving real-wor

32、ld tasks automatically答案 1(更简洁)The experiment done in the video is Elephant toothpaste.The chemical principle behind it is that the yeast breaks up the hydrogen peroxide molecules,creating oxygen gas and water.To replicate this experiment at home,please gather the following materials:hydrogen peroxi

33、de,yeast,warm water,dish soap,food coloring,and a bottle.Then,mix the yeast and warm water together and let it sit for a few minutes.Next,pour the hydrogen peroxide into the bottle and add a few drops of dish soap and food coloring.Finally,pour the yeast mixture into the bottle and watch the foam er

34、upt.The demonstration is called Elephants Toothpaste because the chemical reaction produces a large foamy eruption resembling toothpaste for an elephant.Here are the simplified step-by-step instructions to replicate it at home:1.Gather the required materials:30%hydrogen peroxide,liquid dish soap,dry

35、 yeast,warm water,a plastic bottle(1-liter soda bottle),a small funnel,and safety goggles.2.Set up the experiment in a safe,well-ventilated area.Wear safety goggles to protect your eyes.3.Pour 1/2 cup of 30%hydrogen peroxide into the plastic bottle.答案 2(更详细)自主求解结果输入真实世界视频任务多啦A梦GPT自动解决了困难任务，并为用户提供了多种

36、解决方案。人-机共生进一步研究动态三维世界中的人类智能行为，支撑智能体社会化应用面向复杂三维场景建模人类行为动作多智能体动态规划知识和AI大模型驱动的智能规划59前去工作高层意图：1.起床2.去卫生间洗漱3.在厨房吃早饭4.低层任务规划：三维动作执行1.人类行为规划知识和AI大模型驱动的智能规划60前去工作高层意图：1.起床2.去卫生间洗漱3.在厨房吃早饭4.低层任务规划：发现冲突:卫生间正被使用2.根据执行情况动态调整规划知识和AI大模型驱动的智能规划61前去工作高层意图：1.起床2.去卫生间洗漱3.在厨房吃早饭4.低层任务规划：发现冲突:卫生间正被使用2.根据执行情况动态调整规划知识和AI大模型驱动的智能规划62前去工作高层意图：1.起床2.在厨房吃早饭3.去卫生间洗漱4.低层任务规划：发现冲突:卫生间正被使用2.根据执行情况动态调整规划知识和AI大模型驱动的智能规划6364知识和AI大模型驱动的智能规划前去工作高层意图：1.起床2.在厨房吃早饭3.去卫生间洗漱4.低层任务规划：3.执行规划直到实现目标2023/11/2965谢谢

友情提示

1、下载报告失败解决办法
2、PDF文件下载后，可能会被浏览器默认打开，此种情况可以点击浏览器菜单，保存网页到桌面，就可以正常下载了。
3、本站不支持迅雷下载，请使用电脑自带的IE浏览器，或者360浏览器、谷歌浏览器下载即可。
4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩，下载后原文更清晰。

本文（20231125 王文冠_watermark.pdf）为本站（张5G）主动上传，三个皮匠报告文库仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对上载内容本身不做任何修改或编辑。若此文所含内容侵犯了您的版权或隐私，请立即通知三个皮匠报告文库（点击联系客服），我们立即给予删除！

温馨提示：如果因为网速或其他原因下载失败请重新下载，重复下载不扣分。