《胡杏-面向复杂问题的智能自主设计探索.pdf》由会员分享,可在线阅读,更多相关《胡杏-面向复杂问题的智能自主设计探索.pdf(57页珍藏版)》请在三个皮匠报告上搜索。
1、面向复杂问题的智能自主设计探索 胡杏 中国科学院计算技术研究所研究员演讲嘉宾胡杏中国科学院计算技术研究所 研究员博士生导师,主要研究方向为高效安全的智能计算系统以及基于智能技术的计算系统自动化构建。多次担任MICRO、DAC等体系结构和人工智能旗舰会议的程序委员会委员,获得国家级和中国科学院级青年人才计划。目 录CONTENTS1.智能自主设计:从计算到设计2.智能自主设计的方法和挑战3.极致开放的智能自主设计:开放场景编程4.展望智能自主设计背景:从计算到设计PART 01计算问题理论基础丘奇图灵论题Alonzo ChurchAlonzo Church:LamdaLamda演算演算Allen
2、 TuringAllen Turing:图灵机:图灵机图灵机计算过程1.有限指令2.有限步骤结束,得到正确的答案可有效计算的问题函数演算过程=侧重语言和逻辑侧重物理和机器可有效计算的问题基于Machine OP的程序物理可执行的计算空间(Machine OP)问题描述 I/O数据输入验证条件物理计算程序设计问题刻画可执行、可验证、可理解、可修正构建映射:,使得 ,(,()成立定义自然语言描述的功能和设计约束集合、验证条件(,)可执行的操作集合解决可计算问题的过程从计算到设计可有效计算的问题生成基于machine OP的程序Machine可执行的OP空间是否可以智能自主设计?可有效计算的问题基于
3、Machine OP的程序物理可执行的计算空间(Machine OP)问题描述 I/O数据输入验证条件问题描述 I/O数据输入验证条件来自现实场景任务的挑战描述抽象程度验证准确度解空间大小评价任务复杂性的几个维度智能自主设计的挑战:来自现实场景中的任务超大的解空间32位CPU102998 1010540空间大小蛋白质药物新材料1048 10125 10300 C程序智能自主设计的挑战:来自现实场景中的任务超高的准确度要求需要运行10亿次测试(每条测试有1万条指令)才能保证Intel P4 CPU芯片99.99999999999%的准确率目标检测80%问答系统90%图像分类90%语音识别90%V
4、S开放多样的抽象输入从用户的输入输出样例中生成程序B=A:3+-+A3:6+-+A6:9 从用户的自然语言描述中生成程序 add two chairs 5 spaces apart 炒一盘番茄鸡蛋从与环境的交互中生成程序 智能自主设计的挑战:来自现实场景中的任务传统程序合成的限制可有效计算的问题生成基于machine OP的程序Machine可执行的OP空间I/O数据输入验证条件传统程序合成的成功依赖于精心设计的DSL/GrammarDSL设计与程序的表达能力和搜索空间大小紧密相关Heuristic搜索算法自顶向下、自底向上、剪枝、搜索空间表示明确且有意义的约束一般要求可以通过SMT验证Lis
5、t processing样例传统程序合成的程序规模远远小于实际场景里的问题规模生成正确率与语法树大小的关系Shi23传统程序合成的限制智能自主设计的方法和挑战PART 02深度强化学习大模型AlphaTensorAlphaFoldAlphaGo20142022专精大众智能新时代的两大里程碑自底向上可有效计算的问题生成基于machine OP的程序Machine可执行的OP空间问题描述I/O数据输入验证条件自顶向下问题空间表示转换解决描述复杂度问题问题空间语义分解减小搜索空间搓工具构造功能更复杂、更多样的可计算载体优化搜索方法寻找更有价值的搜索空间快搜索智能自主设计的范式能自顶向下来解决问题的核
6、心驱动:LLM!智能自主设计的范式自顶向下能自顶向下来解决问题的核心驱动:LLM!语言表征学习人类通识经验智能自主设计的范式自顶向下基于LLMs的智能体设计以AutoGPT为代表的大模型解决方案大模型擅长任务分解,尤其是流程类的任务分解智能自主设计的范式自顶向下智能自主设计的范式自顶向下以AutoGPT为代表的大模型解决方案让AutoGPT查询资料学习AutoGPT智能自主设计的范式自顶向下基于大模型和代码生成的自然语言机器控制Code as Policies:Language Model Programs for Embodied Control智能自主设计的范式自顶向下基于大模型和代码生成
7、的自然语言机器控制https:/code-as-policies.github.io/智能自主设计的范式自顶向下https:/ Harnad.1990.The symbol grounding problem智能自主设计的范式自顶向下仍需要大量的人为抽象和手工设计AutoGPT针对各种应用适配插件Code as policies中需要手工API实现人为问题抽象和Reward APILanguage to Rewards for Robotic Skill Synthesis 可有效计算的问题生成基于machine OP的程序Machine可执行的OP空间问题描述I/O数据输入验证条件自顶向下问
8、题空间表示转换解决描述复杂度问题问题空间语义分解减小搜索空间问题:脱离环境、不可执行智能自主设计的范式智能自主设计的范式自底向上深度强化学习的复杂问题探索https:/ OP的程序Machine可执行的OP空间问题描述I/O数据输入验证条件自顶向下问题空间表示转换解决描述复杂度问题问题空间语义分解减小搜索空间搓工具构造功能更复杂、更多样的可计算载体优化搜索方法寻找更有价值的搜索空间快搜索无法保证正确、可执行、可验证搜索效率低、解迁移性差智能自主设计的范式可有效计算的问题生成基于machine OP的程序Machine可执行的OP空间问题描述I/O数据输入验证条件智能自主设计的范式自顶向下问题空
9、间表示转换解决描述复杂度问题问题空间语义分解减小搜索空间搓工具构造功能更复杂、更多样的可计算载体优化搜索方法寻找更有价值的搜索空间快搜索利用强先验利用强搜索PART 03极致开放度的智能自主设计任务:开放场景编程指令遵循(Instruction Following)通过自然语言指令交互使智能体在环境中完成指定任务“我的世界”中指令遵循任务Build houseShear Sheep 一些模拟环境机器人的指令遵循任务关键挑战:语义世界和环境世界的鸿沟极致开放度要求的智能自主设计:开放编程关键挑战:稀疏奖励、空间大、轨迹长数据重标成功失败Hindsight Generation for Exper
10、ience Replay(HIGhER自底向上的指令遵循:强化学习Pre-Trained Language Models for Interactive Decision-Making(LID),NeurIPS2022关键挑战:稀疏奖励、空间大、轨迹长模仿学习人类演示数据策略序列模型与训练自底向上的指令遵循:强化学习+模仿学习LLM 具身智能:以“我的世界”为例以程序生成的形式完成原本是强化学习的任务规划探索空间生成子空间程序更新代码库https:/ 具身智能可有效计算的问题生成基于machine OP的程序Machine可执行的OP空间问题描述I/O数据输入验证条件语义世界和环境世界的鸿沟L
11、LM Embodied Agents挑战可有效计算的问题生成基于machine OP的程序Machine可执行的OP空间问题描述I/O数据输入验证条件猜想验证归纳归纳语言对齐的技能库Self-driven Grounding:Large Language Model Agents with Automatical Language-aligned Skill Learning,arxiv23子任务分解自动语言对齐的强化学习Self-driven Grounding:Large Language Model Agents with Automatical Language-aligned Ski
12、ll Learning,arxiv23自动语言对齐的强化学习l 验证结果示例自动化对齐:猜想验证足所有子目标和任务完成,每个子目标及其检查函数作为成功“对齐”的经验被收集Discover the green keyNext to the green keySelf-driven Grounding:Large Language Model Agents with Automatical Language-aligned Skill Learniv23l 归纳聚类结果l 成功验证过的子目标根据语义聚类,每类训练对应的泛化技能Go next to a objectPick up a objectd
13、iscover a objectSelf-driven Grounding:Large Language Model Agents with Automatical Language-aligned Skill Learning,arxiv23自动化对齐:归纳利用对齐技能程序生成完成更复杂的人类指令程序生成Discover red key后没有直接寻路过去,导致pick失败debugging反馈Self-driven Grounding:Large Language Model Agents with Automatical Language-aligned Skill Learning,ar
14、xiv23自动化对齐:演绎l BabyAI环境l 格子世界l 基于模板生成的自然语言指令集合l 包含一系列从简单到复杂的任务l 多种组合性物品,颜色/形状/种类l 寻路,捡/放物品,开门等l 组合任务Self-driven Grounding:Large Language Model Agents with Automatical Language-aligned Skill Learning,arxiv23自动化对齐在虚拟环境中的实验演示模仿演示模仿LLM+基础action空间Self-driven Grounding:Large Language Model Agents with Aut
15、omatical Language-aligned Skill Learning,arxiv23自动化对齐有效提升搜索效率和泛化能力展望:从程序生成的角度看具身智能PART 04语义世界模拟环境世界真实环境世界从语义世界到物理世界LLM问题空间分解高层次代码生成交互接口底层解的归纳总结高效搜索底层可执行解底层搜索语义对齐的高效搜索优化问题形式化表示语言对齐的计算操作交互基础设施代码基础设施数据基础设施智能自主设计模式新抽象交互编程基础设施49LLM+code generation(nowadays)How to?1 Are automated debugging techniques actu
16、ally helping programmers?2 Expertise in debugging computer programs:A process analysis大模型自然语言代码生成方法不能通过稳定交互完成复杂任务新抽象交互编程基础设施50普通程序:随着交互进行程序向正确性收敛自然语言程序:大模型具有难预测性和不稳定性针对编程错误进行的修正和针对复杂任务进行的分解无法像传统编程的debugging过程一样起到修正结果的作用,导致programming+interaction programming意味着大模型难以随着交互进行逐渐明确用户意图,是一种低效交互def func(numb
17、ers,reverse=False):return sorted(numbers,key=lambda x:x,reverse=reverse)numbers=input(Enter a list of numbers separated by spaces:).numbers=func(numbers,reverse=False)flag=False.def func(numbers,reverse=True):return sorted(numbers,key=lambda x:x,reverse=reverse)numbers=input(Enter a list of numbers
18、separated by spaces:).numbers=func(numbers,reverse=True)flag=True.“Replace False in the 6th line with True.”大模型的难预测性和不稳定性导致无法通过交互保证正确性收敛基于抽象语义和确定性流程的自然语言编程框架51通过分离控制数据流和功能来定义交互框架,明晰用户意图ANPL:The Abstracted Natural Programming Language兼顾语义明确性和编程复杂度NeurIPS-23 Di Huang,Ziyuan Nan,Xing Hu,Pengwei Jin,Sha
19、ohui Peng,Yuanbo Wen,Rui Zhang,Zidong Du,Qi Guo,Yewen Pu,Yunji Chen.“ANPL:Compiling Natural Programs with Interactive Decomposition”.Neural Information Processing Systems(NeurIPS),2023440 man-hours Human studies 19 primary Pythoners System A:ANPL System B:ChatGPT Random orders of A/B W/Python,400 ta
20、sks(28.25%)A:75.0%B:58.4%C:23.5%(A without interaction)D:16.8%(B without interaction)W/O Python,40 tasks(141.67%)A:89.9%B:37.2%C:40.2%(A without interaction)D:12.5%(B without interaction)对于熟练使用Python的用户,ANPL能提升16.6%解题率对于不熟练使用Python的用户,ANPL能提升52.8%解题率NeurIPS-23 Di Huang,Ziyuan Nan,Xing Hu,Pengwei Jin
21、,Shaohui Peng,Yuanbo Wen,Rui Zhang,Zidong Du,Qi Guo,Yewen Pu,Yunji Chen.“ANPL:Compiling Natural Programs with Interactive Decomposition”.Neural Information Processing Systems(NeurIPS),2023基于Human Studies的任务数据集?DARC:A Recursive Decomposition Dataset of ARC Taskshuman分解策略300可执行程序用户的交互历史旨在促进相关领域发展:LLMs
22、,programming languages,human-computer interaction,and cognitive scienceANPL可以用于编写相对的复杂任务54NeurIPS-23 Di Huang,Ziyuan Nan,Xing Hu,Pengwei Jin,Shaohui Peng,Yuanbo Wen,Rui Zhang,Zidong Du,Qi Guo,Yewen Pu,Yunji Chen.“ANPL:Compiling Natural Programs with Interactive Decomposition”.Neural Information Proc
23、essing Systems(NeurIPS),2023 LS-8 CPU 一个简易的8-bit CPU模拟器(written in Python)Robot controller 一个可以完成line-following任务的机器小车 Text editor 一个具有insert,delete,undo,copy/paste等功能的文本编辑器 Nave MAGIC card game 一个简单的万智牌(2个玩家的卡牌游戏,实现对战机制以及具有不同功能的卡牌)MLIR(Multi-Level Intermediate Representation)可复用可扩展的多层次编译架构、减少构建特定领域
24、编译器的开销系统领域带来的启发https:/www.lei.chat/posts/mlir-codegen-dialects-for-machine-learning-compilers/placeBlockfindInventoryItemequipitemByName.idpositionVec3gotoplaceItem“build”“build a 5*5 stone square.”智能体的抽象能力构建物理机器控制感知交互物理世界模拟世界对齐基础设施数据基础设施Open X-Embodiment:Robotic Learning Datasets and RT-X Models环境数据任务数据placeBlockfindInventoryItemequipitemByName.idpositionVec3gotoplaceItem“build”“build a 5*5 stone square.”程序数据THANKS