上海品茶

您的当前位置:上海品茶 > 报告分类 > PDF报告下载

北京智源人工智能研究院:人工智能的认知神经基础白皮书(105页).pdf

编号:60256 PDF 105页 5.88MB 下载积分:VIP专享
下载报告请您先登录!

北京智源人工智能研究院:人工智能的认知神经基础白皮书(105页).pdf

1、 人工智能的认知神经基础Brain and Machine Intelligence 智源人工智能的认知神经基础重大研究方向 编著 白皮书| 北京智源人工智能研究院 2022 年 1 月 搭建脑科学与人工智能的桥梁 智源研究院院长 黄铁军 智源研究院 2021 年度人工智能的认知神经基础白皮书如期和大家见面了!延续去年的传统,今年的白皮书盘点了神经科学、认知科学、智能技术等相关领域的重要进展;同时,与去年不同的是,除了从认知科学和神经科学两大领域系统梳理重要进展及对人工智能的启示外,今年还集中介绍了类脑视觉、脑机接口和交叉学科技术这三个方向的热点和趋势,以飨读者! 脑科学对人工智能的重要性不言

2、而喻。 把人工智能这个概念送上历史舞台的1956 年达特茅斯夏季研讨会共讨论了七大问题,问题 3 就是“神经网络:一群神经元是如何形成概念的?”,我认为这是人工智能需要回答的最重要的问题,也是脑科学需要回答的最重要的问题。 “一群神经元”,这是神经科学的研究对象,“形成概念”,这是认知科学的研究对象,这个最重要的问题,正是认知科学和神经科学的连接点。认知科学研究智能现象,主要采用自顶向下的方法,神经科学研究脑的结构,主要采用自底向上方法。 认知科学和神经科学都属于脑科学,它的研究对象是脑及其智能现象,被称为“自然科学的最后疆域”,进展速度不如人工智能那么让人眼花缭乱。这是因为,人工智能是一门技

3、术,目的是构造越来越智能,因而越来越复杂的系统,它的进步比较容易看得到。相比之下,生物神经系统是个盘根错节的黑暗丛林,生物智能是复杂的动力学现象,还缺乏有效的数学工具,因此任何一点儿进步都十分艰难。 人工智能并不能因为进步快而沾沾自喜。 当前人工智能系统和生物神经系统相比, 还是小巫见大巫。 例如智源研究院去年发布的人工智能大模型 “悟道 2.0”,参数规模达到 1.75 万亿,但还不到人类大脑连接数量的 2%,而且其基本单元和连接方式都比生物系统简单得多。视觉是研究人员最多、应用最广的方向,但是已有视觉模型都难望生物视觉之项背,今年热点是视觉大模型,如果要在像素级进行视觉空间关系训练,集合全

4、球算力都不够,更逞论时空关系联合训练。 说到算力,人们往往会说强大的人脑是个低功耗系统,这是认识错位。用人工智能的术语来说,人脑的低功耗是“推理”过程低功耗,而不是“训练”过程低功耗。人脑是亿万年进化的产物,进化就是一种训练过程,大自然训练出人脑这个复杂网络,消耗了巨量太阳能,相比之下,全球算力功耗算得了什么呢? 推 荐 语 这就是人工智能离不开脑科学的原因。以“机器学习+大数据/复杂环境+大算力”模式训练大规模智能模型,确实可以解决不少问题,但天下没有免费的午餐,强大智能是以巨大训练成本为前提的,训练人脑花费的“天价”,人类付得起吗?因此,借鉴生物大脑这个已经训练成功的“蓝本”,模拟生物大脑

5、的精细神经结构和信息加工机理,却可能是实现更强大、更通用人工智能的最短路径。 借鉴脑科学研究成果,并不是说默默等待脑科学最新进展,事实上,脑科学大量已有进展尚未在人工智能领域得到有效利用。例如,目前人工神经网络所用的神经元模型,还是 1943 年的麦卡洛克-皮茨(M-P)模型,训练的理论依据,还是 1949 年提出的赫布学习规则(Hebb Learning Rule)。在脑科学领域,有许多与智能行为密切相关的认知范式、神经活动机理等“宝藏”等待人工智能领域研究者开发和利用, 并以此推动生物智能启发的人工智能模型算法研究新范式。 因此,智源研究院于 2020 年 8 月,设立“人工智能的认知神经

6、基础重大研究方向”,就是要促进脑科学和人工智能的交叉,促进两个领域学者的交流和合作。 作为认知神经基础重大研究方向的重要成果,智源生物智能开源开放平台已经在去年正式上线。同时智源研究院还在去年设立了生命模型研究中心,从模拟高精度生命系统的角度开展交叉领域前沿探索。 为了进一步加强脑科学和人工智能的合作, 架起连接脑科学与人工智能的实际桥梁,我专门造了一个新词:“智元(Wiston)”,意思是具有独立智能功能的基本神经回路。事实上,脑科学已经发现了很多“智元”,例如这份报告第 2章提到的位置细胞和网格细胞、第 3 章提到的吸引子网络、赢者通吃网络,众所周知的视皮层简单细胞和复杂细胞,以及近期热门

7、的记忆痕迹细胞等,已经遍及感知、定位、学习、决策、记忆等多种智能。可惜的是,这些进展都没跳出“细胞/神经元”这个神经科学术语,因此我提出“智元”概念,就是要把相对独立的智能和实现这种智能的一群神经元 (及其网络连接) 作为一个整体单元。 以 “智元”作为基本单元构造的人工智能系统,将是可解释、可预期和可信任的。 当然更重要是,从“智元”开始,我们就已经开始回答“一群神经元是如何形成概念的?”这个最重要的问题了。 1 前 言 近年来人工智能技术得到了快速的发展,引起了各界的广泛关注。随着计算机算力和大数据可及性的快速提升, 以深度人工神经网络为核心的人工智能系统在物体识别、自然语言处理等领域取得

8、了令人瞩目的成绩,在围棋、星际争霸等竞技游戏中一骑绝尘,甚至在蛋白质结构解析、提出和解决数学难题等方面展现出超越人类专家的潜力。但目前的人工智能与通用智能之间,还存在巨大的能力鸿沟。而大脑作为通用智能的唯一样本,为人工智能的发展提供了重要参照。智源 “人工智能的认知神经基础”重大方向(Brain and Machine Intelligence)旨在从生物脑如何实现智能的角度,对于人工智能的发展提出有启发的问题,提供可资借鉴的原理、模型、算法和系统实现方案,从而促进类脑智能的发展,推动人工智能向人类水平,甚至超越人类的水平逐渐逼近。每年发表的白皮书就是我们的尝试之一,希望通过它向大家梳理脑科学

9、、认知科学和类脑智能方向上最值得关注的动态和进展,并分享我们对于这些方向未来发展趋势的思考。 计算神经科学的先驱,英国科学家 David Marr 曾经提出,可以从三个层面理解脑的工作原理,首先是计算的层面 (Level of Computation) , 即脑在做什么计算,以及为什么要做这个计算;其次是表征 /算法的层面 (Level of Representation/Algorithm),即脑在计算过程中的信息如何表征,选择什么算法来实现计算目标;最后是物理实现的层面(Level of Implementation),即脑选择什么样的硬件实现形式来执行这些计算。今年的白皮书中,上述三个层

10、面的研究进展都会有所涉及。 在计算层面, 我们重点介绍了具身认知 (Embodied Cognition) 理论和全局工作空间(Global Workspace Theory, GWT)理论。与当前主流人工智能主要基于被动观察与识别,往往不具有具体物理形态的范式不同,具身认知认为,认知过程无法脱离身体而进行,推广开来,整个环境和个体的行为同样是认知的重要组成部分。个体通过感知外部环境,进行决策,生成相应动作与环境交互,以此改变环境,这个过程周而复始,促成了智能的形成和发展。全局工作空间理论则是 2 由美国心理学家 Bernard Baars 在上世纪 80 年代作为一种意识模型而提出的认知架构

11、, 后来发展为 “全局神经元工作空间” (Global Neuronal Workspace, GNW) 。GNW 如同一个分布式路由器, 同各个脑区的众多神经元存在关联, 从而可以放大、维持信息,并提供给各个处理模块使用,从而实现全局的信息共享和处理。 在表征/算法层面,我们今年聚焦于脑中认知地图的表征以及神经流形这两个重要的研究领域。 位于脑中海马体及其邻近脑区中存在表征空间特征的位置细胞(Place cell)和网格细胞(Grid cell),近年来的研究揭示这一系统可能不仅涉及空间记忆与导航,而且可能参与了物理空间认知以外的信息处理,比如图片空间、嗅觉空间,甚至关系空间的表征,提示脑中

12、可能用一套通用的机制在处理一系列表面上截然不同, 但是具有深刻共性的信息维度。 神经流形(Neural manifold)则是利用动力学的理论和观点来理解众多神经元构成的群体如何开展高效计算的有力工具。 通过流形向量场这一精确的数学语言对神经电生理信号进行分析已经开始回答很多有关神经群体编码的关键问题。 在物理实现层面,我们重点介绍了受生物视网膜启发的动态视觉传感器(Dynamical vision sensor,简称 DVS)和脉冲摄像头(Spiking camera)。与传统的视觉传感器不同, 这两类模拟视网膜的感知设备能够将图像信息转化为脉冲事件流进行表征,具备高动态范围、高时间分辨率、

13、低能量消耗以及高像素带宽等特性。相应的,我们也系统地梳理了适宜于处理脉冲事件流信号,并可以开展运动目标快速探测、有效跟踪和精确识别的类脑视觉计算模型和算法。 在上述三个方面的内容之外, 我们还针对脑科学与类脑智能研究中近年来涌现的新技术,特别是脑机接口技术、新型脑成像、连接组学与数据处理方法等进行了梳理和介绍。脑机接口通过对于脑活动信息的检测和调控,在脑与外部世界间建立直接的信息通讯接口。这一技术的发展,有望对于人与环境、人与人的交互方式带来根本变化,从而引起社会、经济、教育、军事、医疗等众多领域的颠覆性变革。新型脑成像、连接组学与数据处理方法,展现了以往观察不到的神经活动细节,解析了神经网络

14、中各部分的相互作用机制,从而促进人们进一步理解神经系统的设计原则。 3 编写白皮书的过程是我们一年一度盘点神经科学、认知科学、智能技术等相关领域重要进展的过程,也是我们不断思考什么是智能,以及如何发展类脑智能的过程。希望这些努力能让对于这些领域的进展感兴趣,也对回答这些问题感兴趣的读者有所收获。与此同时,经过人工智能的认知神经基础方向各位同仁一年多的努力,智源生物智能开源开放平台(Bio-Intelligence Opensource Platform, BIOSP)已经在 2021 年正式上线,该平台旨在通过开源开放数据、模型、算法、软件工具等一站式科研资源的方式,为认知科学、神经科学和计算

15、科学及相关交叉领域的研究人员、 学生和相关从业者搭建一个服务智能科学研究的平台型基础设施, 进而推动和支撑国内脑启发的通用智能研究工作。希望每年一版的白皮书和不断完善的开源开放平台能够助力中国脑-智研究的交叉融合,促进类脑通用智能的早日实现。 4 目 录 前前 言言 . 1 1 第第 1 1 章章 认知科学对人工智能的启示认知科学对人工智能的启示 . 6 6 1.1 具身主义认知科学的兴起 . 7 1.1.1 符号主义与联结主义认知科学 . 7 1.1.2 具身认知与强化学习 . 8 1.1.3 多智能体交互与共识主动性 . 11 1.2 全局工作空间理论 . 12 1.2.1 人类的认知架构

16、 . 12 1.2.2 元认知与元学习 . 18 1.2.3 深度学习与全局隐空间理论 . 22 1.3 总结与展望 . 23 第第 2 2 章章 神经科学进展神经科学进展 . 2828 2.1 单神经元编码与抽象表征 . 29 2.1.1 从位置细胞,网格细胞到物理世界的神经编码 . 29 2.1.2 从物理空间到抽象空间的神经编码 . 31 2.2 神经元群体编码:神经流形 . 34 2.2.1 什么是神经流形 . 34 2.2.2 有关神经流形的实验发现 . 36 2.2.3 流形的维度 . 38 2.2.4 流形与线性解码的关系 . 40 2.2.5 流形上的动力学 . 43 2.2.

17、6 流形向量场和循环神经网络 . 45 2.2.7 总结和展望 . 46 第第 3 3 章章 类脑视觉类脑视觉 . 5151 3.1 类脑视觉从采集信号开始 . 52 3.2 类脑视觉的基本计算模型 . 54 3.2.1 运动目标快速探测的类脑模型 . 54 3.2.2 运动目标预测跟踪的类脑模型 . 56 3.2.3 运动目标识别的类脑模型 . 58 3.3 总结与展望 . 60 第第 4 4 章章 脑机接口技术与应用脑机接口技术与应用 . 6464 4.1 脑机接口技术及其发展趋势 . 65 4.2 植入式脑机接口芯片 . 66 4.2.1 高通量低功耗技术 . 67 4.2.2 无线化技

18、术 . 68 4.2.3 未来展望 . 69 4.3 柔性电极植入机器人 . 69 4.3.1 国际研发进展 . 70 4.3.2 国内研发进展 . 71 4.3.3 面临的挑战 . 72 5 4.4 脑机接口技术的应用 . 72 4.4.1 下行脑机接口 . 73 4.4.2 上行脑机接口 . 76 4.4.3 未来展望 . 79 4.5 总结与展望 . 79 第第 5 5 章章 交叉学科技术进展交叉学科技术进展 . 8282 5.1 高精度高信息量的数据获取方法 . 83 5.1.1 稀疏解卷积通过计算提高成像分辨率 . 83 5.1.2 多色成像揭示系统全景组分 . 86 5.1.3 脑

19、连接组反应组织设计原则 . 87 5.2 智能化数据处理手段 . 92 5.2.1 更智能的图像数据处理 . 92 5.2.2 智能化的生物大数据分析 . 94 5.3 总结与展望 . 97 结结 语语 . 101101 6 第1章 认知科学对人工智能的启示 近年来,人工智能领域在第三次浪潮爆发后经历了快速的发展,许多特定领域的专用人工智能算法已经大幅度超越了人类的水平, 并在工业生产和社会生活中得到了广泛的应用。尽管如此,主流的观点仍然认为,目前深度学习算法的本质依然是海量数据驱动的统计学习, 距离人类更加复杂的高级认知功能仍然存在本质上的差别。如何弥补这种差异,从而推动人工智能从弱人工智能

20、到强人工智能的转变,已经成为许多从业者开始思考并着手解决的重大难题。 认知科学(Cognitive Science)是一门研究认知如何工作的交叉学科,自诞生之初便与人工智能有着密不可分的关系。 认知科学的相关理论数次推动了人工智能的发展,而人工智能作为人类模拟大脑功能的尝试,其本身也可以看作是认知科学理论的一种实践和验证。在本章中,我们将简要介绍认知科学的具身主义流派以及可能对实现通用人工智能具有一定指导意义的全局工作空间理论, 并对它们与人工智能的关系做一些简单梳理。 7 1.1 具身主义认知科学的兴起 1.1.1 符号主义与联结主义认知科学 在探索智能的道路上,现代意义的认知科学主要经历了

21、两个时代:符号主义时代(Symbolism)和联结主义时代(Connectionism)1。符号主义尝试通过操作具有特定含义的符号来实现“智能”, 这一思想被后人概括为物理符号系统,典型的例子是 Alan Turing 在 1936 年提出的图灵机概念(图 1.1 左) ,通过读写头在纸带上标记二进制信息(有孔和无孔)来实现相应的计算功能。图灵机概念的成功让以 Allen Newell 和 Herbert A. Simon 为首的研究者们相信,通过对符号进行操纵,有限的符号最终可生成无限的信息,最终实现智能。符号主义浪潮推动了电子计算机的发展,使其在 20 世纪的战争、工业、甚至我们的生活中被

22、广泛使用,而基于符号主义的人工智能也取得了专家系统、计算机推理等诸多辉煌的成就尽管当时许多研究者认为真正意义上的人工智能近在眼前, 但符号主义在那些不适定问题(ill-posed problems)上却屡屡受挫,止步不前。 图 1.1 左:符号主义的代表图灵机; 右:哲学家 William James 在 1890 年提出的最早的连接主义模型1 人们开始意识到, 古典认知科学所倡导的符号主义衍生出的产品与人脑的智能相差甚远。要实现智能,应该让机器的运作机制向人脑的神经元机制靠拢,由此,受神经科学的发展推动,联结主义时代到来,虽然人工神经网络的雏形早在1890 年已经由哲学家 William J

23、ames 提出(图 1.1 右) 。相比于物理符号系统直接读取特定的符号信息,人工神经网络尝试读取输入源的统计形态信息,并以表征的形式在输入和输出信号之间建立统计关系,以达到学习和预测的目的。在经 8 历了几次起起落落之后,当前,由联结主义思想衍生出的深度神经网络(Deep Neural Network, DNN)已取得了巨大成功, 尤其在人脸识别、 图像重建等领域,深度神经网络为人们的生产生活提供了许多便利。 值得注意的是,符号主义与联结主义虽然源自不同的哲学思想,但并不意味着两者水火不相容。基于联结主义的神经网络虽然能够很好的解决图像分类、识别、语音识别、语义理解等任务,但其背后的原理和可

24、解释性问题一直困扰着人们, 而符号主义有着更深刻的哲学和数学基础,在处理串行等问题上更加简洁有效。因此,近年也有一些研究者尝试构造混合模型,以综合这两者的特长。 历史上, 人工智能的几次繁荣和低谷都与符号主义和联结主义认知科学的发展密切相关(图 1.2) 。虽然基于联结主义思想的深度神经网络目前还处在发展的高峰,但受限于样本量小、泛化能力差、能耗大、语义理解欠缺等瓶颈,当前的深度神经网络所达到的“智能”与人们所向往的类脑通用智能还相差甚远。 那么, 我们如何做才能实现这样的智能?结合神经科学近年来的重要发现,我们认为,以 Lawrence Shapiro 为代表的学者提出的具身主义浪潮会在不远

25、的将来到来。 图 1.2 符号主义与联结主义相关文献数量随时间的变化,修改自2 1.1.2 具身认知与强化学习 古典认知科学中的三明治模型(sandwich theory)认为,由智能驱动的认知过程可以视作一个由感知、思考、和动作(sense-think-act)这 3 个独立的 9 元素所构成的回路1(图 1.3) ,通常人们主要关注的是其中的 Think,却有意无意的将另外两部分弱化。而具身认知(Embodied cognition)认为,人的认知过程无法脱离身体而进行,推广开来,整个环境和个体的行为同样是认知的重要组成部分,个体(agent)通过感知外部环境,产生思想并通过计算后,生成相

26、应动作与环境交互,以此改变和影响环境,这个过程周而复始,这就是智能。 图 1.3 古典认知科学中的三明治模型1 地球上的动物经历了几亿年的演化(Evolution)而表现出了显著的具身智能,这使得它们能够在复杂的环境中生存、学习,并与其他个体、其他物种和环境进行交互。 在行动中,动物为了趋利避害往往会更加频繁的采取对自己有利的行为策略。经过一段时间的学习之后,这些行为被强化(reinforce) ,甚至变成习惯而固定下来,这种学习方式称为强化学习(Reinforcement Learning) 。在强化学习中,智能体不断与环境进行交互并得到反馈(Feedback) ,通过试错(trial-an

27、d-error)的方式去总结哪些行动可能会带来更好的收益(Reward) ,以便于更好的适应环境。如果我们把时间尺度放大,在个体的强化学习之外,自然或环境本身还会提供一种优化算法,即通过自然选择筛选种群,并通过基因突变来避免陷入局部极值点。 基于具身认知, 李飞飞团队提出了一个同时包含这两者的计算框架, 称为深度进化强化学习(Deep Evolutionary Reinforcement Learning, DERL)3。在该框架下,智能体可以在多个复杂环境中执行不同的任务。在这项研究中创建的具身智能体可以在平地、 多变地形等不同环境中执行巡视、 导航、 避障、 探索、逃脱、爬坡、推箱子和控球

28、等多种不同的任务(图 1.4) 。DERL 为计算机模拟实验中大规模具身智能体的创建打开了一扇门, 这有助于获得有关学习和进化如何 10 协作以在环境复杂性, 形态智能以及控制的可学习性之间建立复杂关系的科学见解。 此外, DERL 还减少了强化学习的样本低效性的情况。 智能体的创建不仅具有所需使用的数据更少的优势,而且还可以泛化解决其他多种形式的新任务。 图 1.4 具身智能体能够在不同环境中执行多种任务3. 无独有偶,DeepMind 团队也进行了相似的研究4,通过自动生成大量不同的环境和游戏目标, 智能体可以接受各种各样任务的训练 (图 1.5) , 在大规模的开放(Open-Ended

29、)环境中,智能体甚至学会了举一反三,做到了现有深度神经网络难以做到的零样本学习(Zero-Shot Learning) 。强化学习和进化对于具身智能体和通用智能的重要性可见一斑。 图 1.5 Open-Ended Learning 中的开放环境 XLand4 具身智能体的一个显著特征是可以利用不同的感觉器官获取环境的信息进行整合,并执行多种不同的任务。例如,动物们可以通过视觉、听觉、触觉等不 11 同的感官获取环境信息,并进行觅食、逃跑、迁徙等等。而当前的人工智能大多只能执行非常单一的或者少数任务,即便是 DeepMind 宣称的可以执行几百万种不同任务的智能体, 仍然有具体任务相似性太高的缺

30、陷。 与之形成鲜明对比的是,生物智能体能够执行的任务种类要多得多,并且通常涵盖多种不同的认知功能。 在认知科学中, 我们经常通过不同的任务范式去研究人类智能的一些特征甚至缺陷。这些任务范式通常是为了特定实验目的定制的, 然而其中的一些单一任务对于目前的人工智能而言仍然有一定的难度, 更不用说让智能体同时完成多种任务。值得一提的是,在智源的生物智能开源开放平台中,我们开放了 30 多种不同的人类认知行为范式, 实验主题包括客体识别、 注意、 记忆、 语言、 数量感、音乐、空间认知等,每种任务都包含大量人类被试的行为数据。我们认为,这些任务可以供新的具身智能体在开放环境中学习用, 也可以作为测试任

31、务评估训练后的智能体的认知能力,并与人类智能进行对比。我们希望这批数据能够为人工智能发展多任务能力提供一些帮助。 1.1.3 多智能体交互与共识主动性 在具身认知中,与其他个体的交互也是智能体与环境交互的重要组成部分,不同智能体之间可能存在合作、竞争等不同的交互模式。社会认知(social cognition)通常主要关注多个个体之间,或者个体与群体之间的交互行为。例如,两个或多个个体间可重复进行的社会决策往往在博弈论(Game Theory)的框架下进行研究。 这些理论对于多智能体交互固然具有重要的意义,但在大量智能体同时活动的环境中, 智能体之间进行直接对话的方式往往并不能达到好的效果,甚

32、至难以完成。 在一些低等动物中,尽管每个个体的智能非常有限,但众多个体组成的群体却能涌现出一定的智能(群体智能) 。例如,鱼群能够结队行进,防御捕食者,提高觅食成功率;蚂蚁搬运食物时往往走的是最短的路径等等。 每只蚂蚁在它走过的路径上都会留下信息素,并尽可能沿着信息素浓度高的路径前进,而信息素会随时间挥发,于是最短路径上信息素的浓度更高。 人们借鉴这种现象创造了蚁群算法和粒子群优化等算法, 并且这种现象在无人机编队等多智能体互动中也得 12 到了充分的关注。 在宏观层面,共识主动性不仅仅出现在低等动物中,根据其定义,人类在社会活动和文明的进程中也会通过共识主动性机制与其他人进行间接的交互, 尤

33、其在互联网时代,任何人对于互联网环境都可以造成直接或间接的干预,从而可能对其他人造成或多或少的影响。科研社区、开源社区以及基于区块链技术的金融社区等等都体现出了人类社会中的共识主动性,而在可以预见的将来,当元宇宙普及之后,这种作用可能会更加明显。 在微观层面, 大脑的智能也可以看作功能相对单一的大量神经元涌现出的群体智能。同鸟群和鱼群类似,通常只有临近的神经元之间存在直接交流,信息通过这种局部的交互也能够传遍大脑并进行计算加工。事实上,神经生物学的研究表明,神经元的生长发育、突触的建立可能也体现了一种共识主动性:神经元通过发放神经递质、 代谢产物等改变其附近的微环境,并利用组织液中的化学物质决

34、定自己的行为,从而与环境中的其他神经元进行间接交互。甚至已经有研究者开始考虑在人工神经网络中加入共识主动性机制。 1.2 全局工作空间理论 1.2.1 人类的认知架构 伴随着具身主义思想的发展,以及多智能体交互需求的不断上升, 促使了对环境中个体的认知架构研究。科学家们一直试图将人类的心智(Mind)理论化,并通过形式化建模的方式来构建认知架构。以实现人工智能。 认知科学和神经科学近几十年的研究已经表明, 大脑是模块化的, 不同的区域具有特异的不同功能,例如人脑的梭状回面孔区(fusiform face area, FFA)负责面孔的识别,韦尼克区 (Wernickes area) 负责语言语

35、义理解, 额叶眼动区 (frontal eye fields, FEF)负责扫视运动等等。那么,这些区域如何相互配合,完成“在嘈杂的人群中看到熟人,听到他说话时盯住嘴巴,同时利用嘴型和不甚清楚的声音听懂他在跟你打招呼并走过去聊天” 这样的日常行为呢?这就涉及到了我们将要介绍的全局工作空间理论(Global Workspace Theory, GWT)6,7。 13 图 1.6 GWT 认知架构的功能框架草图5 全局工作空间理论是由美国心理学家 Bernard Baars 在上世纪 80 年代提出的一种认知架构, 它最初作为一种意识模型而被提出, 是现代认知科学的一个重要理论。该理论认为,大脑可

36、以分成一些具有特定功能的模块,当感知觉输入或任务需求激发了某些模块的响应之后,这些响应会相互竞争,通过选择性注意机制,某些信息会进入全局工作空间,并在不同模块之间进行广播(broadcast) ,以此完成不同模块之间的信息交流,并合作完成不同的任务。而当信息进入全局工作空间并分发到其他模块时, 意识就此产生 (图 1.6) 。 GWT 理论通常可以用 “剧场隐喻” (theater metaphor)来理解8(图 1.7) 。在“意识剧场”中,选择性注意像聚光灯一样照亮了舞台上的一个区域。这个亮点揭示了意识的内容: 演员们进行表演、演讲或者相互交流。导演、编剧、场景设计师等工作人员藏在幕后的黑

37、暗中,他们塑造了舞台上的可见活动,但它们本身是不可见的。舞台中正在上演的内容也被播送给同样处在黑暗中的观众(即大脑的其他部分) 。 14 图 1.7 GWT 的剧场隐喻8 Dehaene 和 Changeux 等人提出了一个全局工作空间架构的神经元版本,即所谓“全局神经元工作空间” (Global Neuronal Workspace, GNW)9,10。在他们的模型中,一些局部的、专用的、模块化的皮层区域构成了一个单独的计算空间,各个模块可能具有各自的层级结构,但不同部分可以并行、分布式处理特定的信息,如感知觉、运动、记忆等等。第二个计算空间是由一些广泛分布的兴奋性神经元(称为 GNW 神经

38、元)和具有长程连接的轴突组成,能够通过下行连接选择性地调动或抑制特定模块传入的信息。在他们的模型中,这种分布式的神经元群体具有自下而上接收信息并将自上而下的信息传输给任何一个处理器的能力, 从而选择和广播信息 (图 1.8) 。 这种大范围广播允许不同的认知模块都能够接收到信息,被认为有助于未知问题的解决,例如通过调动不同的信息处理模块进行竞争或合作,从而更容易找到解决问题的路径。 15 图 1.8 Global Neuronal Workspace 11, 12 GNW 的激活是非线性的,具有“全或无” (all-or-none)的特性,即一旦有信息进入,便会迅速诱发全局工作空间的广播,这称

39、作“引燃” (ignition) ,这种现象已经在人和动物的实验中得到了证实(图 1.9) 。引燃可能由外部刺激所触发,例如黑暗里的一盏灯、周围车辆的鸣笛;或者受正在执行的任务相关脑区触发,例如在回忆时发生“知晓感” (feeling of knowing) ,话到嘴边却无法提取记忆内容; 甚至可能在休息时自发随机产生。 GNW 还具有独占性 (exclusive) ,某群神经元的激活能够抑制其余的神经元, 如果某个模块的信息激活了全局的活动模式,其他模块的信息将无法进入全局工作空间,因此全局工作空间只能够串行处理信息,并且不同子系统之间会存在竞争。这种机制符合意识的一些特征,例如状态单一,

40、容量有限、 顺次发生, 也能够解释诸如非注意盲视 (Inattentional Blindness) 、注意瞬脱(Attentional Blink)等认知现象。 GNW 如同一个分布式路由器,同各个脑区的无数神经元存在关联,从而可以放大、维持信息,并提供给各个信息处理模块和丘脑皮层环路使用。大脑的前额叶皮层(prefrontal cortex, PFC) 、背外侧前额叶皮层(dorsolateral prefrontal cortex, DLPFC) 、下顶叶皮层(inferior parietal cortex) 、前颞叶皮层(anterior temporal cortex) 、前后扣带

41、回皮层(anterior/posterior cingulate cortex, ACC/PCC) 、楔前叶(precuneus)等脑区,各自有其独特的功能和连接模式,但相互之间存在广泛的连接,任何一个区域获取的信息都可以迅速提供给其他脑区。这些脑区之间密切的双向连接为引燃(ignition)创造了条件,从而能够触发突然的、集体的协同活动在全脑广播。 16 图 1.9 猕猴和人脑中的引燃13 2017 年,Christof Koch 团队在小鼠的屏状核(claustrum)发现了三个巨大神经元(Giant Neuron)14,这些神经元跨越大脑的两个半球,缠绕在整个大脑周围,与大脑负责感觉信息

42、、负责行为反应的许多区域都有连接,在神经元层面符合全局工作空间的特征,被认为可能是意识的开关。 GWT 不仅仅是一个概念模型,Dehaene,Changeux 等人提出的神经元动力模型(Dehaene-Changeux Model, DCM)即为 GNW 的一种计算机模拟15。通过分别建模单个神经元、丘脑皮层柱网络和具有长程连接的由网络组成的网络(图1.10) ,DCM 模拟了生物脑中观测到的丘脑-皮层震荡,以及网络自发或刺激诱发的引燃(ignition)等现象。 17 图 1.10 Dehaene-Changeux 模型15 Franklin 等人在全局工作空间理论的基础上构建了一个更加通用

43、的认知架构,称为学习型智能分配代理(Learning Intelligent Distribution Agent, LIDA) ,是一种生物学启发的综合性、可以计算实现的概念模型16。LIDA 模型以 LIDA 认知循环(cognitive cycle)为基础(图 1.11) 。LIDA 把认知循环看作是一个认知原子,其中包含了更高层次的认知过程、思考、推理、问题解决、计划、想象等。每个认知循环分为三个阶段:感知理解阶段、注意阶段以及动作选择和学习阶段,各个阶段分别由若干相互作用的模块构成,如图 1.11 所示。在每个认知周期中,LIDA 智能体首先通过更新其对环境外部和内部特征的表示,尽可

44、能好地理解其当前的状况(current situational model) 。通过一种竞争过程, 它决定哪些信息最需要注意, 并将这些信息广播, 使其成为当前意识的内容,于是智能体能够选择适当的行动去执行。需要指出的是,LIDA 认知循环中的各个模块并不与大脑中的功能模块直接对应, 它们更多的是一种思维或心智意义上的功能模块。虽然模块在图中用明显的边界表示,但它们有非常丰富的交互,可能很难清晰的拆分开。另外,在 LIDA 模型中,除了意识和行为选择部分以外,其他过程都可以异步、并行的处理。 LIDA 模型实现并充实了全局工作空间理论,并且涵盖了人类认知的很大一部分, 为许多认知过程提供了合理

45、的解释,被认为有可能作为理解心智如何运作的工具。同时,LIDA 框架被认为可能对通用人工智能(AGI)的实现具有重要的帮助17,18。除此之外,Blum 等人还基于 GWT 构建了意识图灵机(Conscious 18 Turing Machine, CTM,图 1.12) ,认为可以用于构建具有意识的人工智能系统。 图 1.11 LIDA 模型中的认知循环19 图 1.12 意识图灵机(CTM)20 1.2.2 元认知与元学习 现代计算科学的创始人艾伦 图灵 (Alan Turing) 和约翰 冯 诺依曼 (John von Neumann)认为, 机器最终能够模仿包括意识在内的大脑的所有能力

46、,而当前的深度学习和人工智能所解决的计算问题主要与人脑中的无意识认知加工相对应。意识似乎是实现通用人工智能(AGI)的过程中无法避开的一个话题,针 19 对机器能否拥有意识的问题,Dehaene 等人提议将人类的意识相关计算分成三个水平21。 无意识加工(unconscious processing, C0)包括了大部分人类的智能,例如知觉恒常性、 语义提取、 决策、 学习等, 大多在潜意识或无意识状态即可完成。图 1.13(上)展示了面孔加工中潜意识下的视觉不变性(subliminal view-invariant) , 如果首先呈现同一个人的面孔进行阈下刺激, 即便是完全不同视角的照片也能

47、促进面孔信息的加工,并降低 FFA 区域的激活强度,这种现象称为潜意识启动(subliminal priming) 。图 1.13(下)的双眼抑制实验中,阈下刺激也能够进行有效的证据积累, 从而影响正确率和反应时间。 此外, 在强化学习中,即使线索、奖励等信号低于意识的阈值,人类的学习过程也能继续进行。 图 1.13 无意识加工的研究示例21 事实上,由于人类意识的独占性和顺序性,必然有大量复杂的计算和推断过程需要在无意识层面进行,而这些无意识计算可以在大脑的不同区域异步、并行发生。当前的人工智能已经能够完成大部分 C0 级别的计算过程,例如面孔和客体识别、语言理解等等,甚至在许多方面已经超越

48、了人类的水平。 在 Dehaene 等人看来,意识包含了两种不同类型的信息加工。 第一种意义的意识(consciousness in the first sense, C1)称为总体可用性(global availability) ,主要对应意识的传递意义,即有意识的信息需要进一步的处理 20 时,不同的大脑功能模块都可以获取。例如,对于“司机意识到燃油指示灯亮起来”这一场景, “燃油指示灯亮起来”这个信息可以被记忆、回想,可以被谈论,还可以用于规划接下来的行动等等。C1 可以看作是一种解决信息共享问题的信息处理架构,无意识计算模块(C0)的信息被整合、筛选,进入意识的全局工作空间,从而可以在

49、不同模块之间进行分享。 除此之外,他们认为还存在第二种意义的意识(consciousness in the second sense, C2) ,即所谓自我监控(self-monitoring) 。如果说 C1 意识反映了其具有访问外部信息的能力,那么 C2 意识则通过其表征自己的能力来体现。具体来说, 这是一种能够监控自己的信息加工过程, 并获得其状态和信息的能力。这种意识与通常所说的内省(introspection)相对应,即认知神经科学和心理学中的“元认知” (metacognition) 。 元认知,即“对认知的认知” (cognition about cognition, knowi

50、ng about knowing) ,最初由美国教育心理学家 Flavell 提出, 指的是个人对自己认知活动的认识(监控)与调节(控制)过程,而 C2 意识主要指的是元认知监控过程。人类大脑在做出任何决定的时候,都会同时评估该决策的可信度,于是人类对自己的选择或多或少会感到一定的自信。自信程度(confidence)是元认知相关研究中经常采用的所谓第二类任务(type 2 tasks)中需要被试主动汇报的一个行为指标,它可以被定义为对一个决定或计算是否正确的主观概率。类似的概念在学习、记忆等任务中都存在,例如对所学知识的信任程度(judgement of learning, JOL) 、记忆

友情提示

1、下载报告失败解决办法
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。

本文(北京智源人工智能研究院:人工智能的认知神经基础白皮书(105页).pdf)为本站 (X-iao) 主动上传,三个皮匠报告文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三个皮匠报告文库(点击联系客服),我们立即给予删除!

温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。
会员购买
客服

专属顾问

商务合作

机构入驻、侵权投诉、商务合作

服务号

三个皮匠报告官方公众号

回到顶部