您的当前位置：上海品茶 > 报告分类 > PDF报告下载

报告预览

【会议集】2022北京智源大会观点报告.pdf

编号：111493

PDF 202页 25.78MB 下载积分：VIP专享

下载报告请您先登录！

【会议集】2022北京智源大会观点报告.pdf

1、编写委员会智源社区内容团队策划李梦佳主编李梦佳熊宇轩戴一鸣钱曙光常政廖璐执行组（排名不分先后）编辑组熊宇轩肖健任黎明王光华沈磊贤孙晨张虎杨依帆胡雪瑜周致毅梁子李佳伦陈旭白鹏路啸秋路梦康马瑞军顾胜宇王辉牛梦琳姜蔚蔚刘延龙成小会李洋崔靖男徐树皓王惠娟付思雯【智源人工智能的认知神经基础团队博后】在过去三年里，由北京智源人工智能研究院（以下简称“智源研究院”）主办的北京智源大会见证了 AI 领域的跨越式发展，成为了业内兼具专业性、权威性、丰富性的品牌活动。今年的大会上，来自海内外的专家纷纷发表了最新的研究进展。其中，图

2、灵奖得主 Adi Shamir 深入阐述了凹槽流形最新理论，揭秘了对抗性样本奥秘；强化学习之父 Richard Sutton 提出了利用经验启发 AI 发展的思路，将 AI 从利用数据到利用经验的过程分为四个发展阶段，提出了未来构建真正 AI（Real AI）的发展方向；梅宏院士介绍了群体智能研究的历史与最新进展，并讨论了如何构造基于探索-融合-反馈机制的群体智能模型；Meta AI 西雅图研究负责人 Luke Zettlemoyer 从团队工作出发，讲述了万亿参数后，大模型是否会持续增长，以及当前如何更好地利用语言模型。在这第四个年头里，AI 各领域的技术和产业趋势风云变幻，出现了诸多新的拐

3、点。在自然语言处理领域，预训练大模型进展迅猛，在以视觉-语言多模态大模型（如CLIP、DALL-E 系列等）为代表的下游任务上取得了惊艳的性能，形成了新的研究热点。大模型在隐知识、可解释性方面有较大进展与突破。与此同时，情感计算识别技术也已成为研究热点，在抑郁线索、精神压力分析等方面发挥着重要的作用。产业化方面，伴随着 Hugging Face 等公司的强势崛起，人们在工程+产业结合方面取得了一轮又一轮的新突破。除了通过大模型学习通用知识表征，如何以人类为模板，充分利用低资源数据进行小样本学习，也是极具前景的研究方向。前言在视觉领域，随着 Transformer 被引入计算机视觉领域，视觉基

4、础模型研发迎来了又一个新的高潮。一时间，基于视觉 Transformer 的骨干模型设计、自监督学习、模型扩展、下游应用等研究井喷式爆发。2021到2022年，Swin Transformer、ViT 等突破性工作层出不穷。在强化学习领域，强化学习算法在仓储物流、共享出行、电网优化调度等现实场景中有着广泛的应用。在围棋、Atari、星际争霸等游戏中战胜顶尖人类选手后，游戏场景下的强化学习研究朝着多样化、多智能体协同决策的方向发展，如何让智能体在复杂多变环境下的游戏中取得超越人类的表现成为一个颇具挑战的问题。认知神经领域，AI与脑科学的碰撞和交融还有无限的空间。脑科学的第一性原理正在成为AI创新

5、的认知神经基础。Karl Friston 认为，主动推断是知觉行为的第一性原理，如强化学习、主动学习、贝叶斯最优推断等很多和知觉行为相关的算法均可以从这一原理推得。而未来，在无数的基本原理之上，想要真正实现通用人工智能，还需要基于大脑中的无数细节对复杂的真实世界进行表征和模拟。AI for Science 领域，在分子动力学模拟、开源软件和药物设计方面均有诸多体现，以图神经网络为代表的先进机器学习算法在这些领域掀起了颠覆性革命。机器学习与科学模型的有机结合，给传统的科学领域带来了新的发展机遇，也正在推动科研范式的创新。在产业落地方面，人工智能技术催生了自动驾驶、生物制药、生命健康等产业领域的飞

6、速发展。未来，人工智能技术将成为元宇宙概念的支柱性技术，实现虚拟与现实的智能互联。那时，AI将无处不在。CONTENTS共筑九鼎智能花开：智源发展报告智源研究进展142231 35 40444648 开幕式及全体大会/特邀报告01报告一：The Increasing Role of Sensorimotor Experience in Artificial Intelligence 报告二：如何构造人工群体智能？报告三：A New Theory of Adversarial Examples in Machine Learning 报告四：Improving Multimodal Eval

7、uation and Exploring Foundational Language and Vision Alignment 报告五：Improving Robot and Deep Reinforcement Learning via Quality Diversity,Open-Ended,and AI-Generating Algorithms 报告六：Large Language Models:Will they keep getting bigger?And,how will we use them if they do?报告七：大规模AI计算系统的挑战和机遇报告八：Travels

8、 and Travails on the Long Road to Algorithmic Fairness52 67 80 90 95114专题论坛 01/预训练大模型论坛专题论坛 02/芯片前沿技术论坛专题论坛 03/自动驾驶论坛专题论坛 04/类脑计算论坛专题论坛 05/主宾国论坛：中国-以色列人工智能创新专题论坛 06/产业论坛丨中关村昇腾人工智能产业分论坛第一天/专题论坛2022年，自动驾驶仍是科技巨头们的必争之地。与自动驾驶相关的算力、算法、感知、执行、数据成为 AI 打通更多垂直领域的核心能力。业界基于实时数字孪生技术实现的自动驾驶仿真，正在加速自动驾驶落地；生物制药领域，AI

9、新药研发热度不减，多款来自人工智能设计的药物已进入临床阶段，资本大量涌入，数字疗法等新兴业态也逐渐抢占市场，此时更需要审慎地看待市场预期；元宇宙大爆发之后，为了实现零距离世界的愿景，AI、DAO、虚拟化成为了三大支柱技术。同时 AR 头戴显示设备作为元宇宙最重要的外设硬件，在工业场景下也萌生了更广阔的外延。本届智源大会在参会人数方面创历届之最，3万专业观众注册，10万线上观看，覆盖六大洲数十个国家。特邀嘉宾囊括图灵奖得主、哥德尔奖得主、戈登贝尔奖得主、机器学习鼻祖、强化学习奠基人、自由能原理之父等泰斗级人物，中美英各国院士，更有 DeepMind、OpenAI、Meta、Hugging Fa

10、ce 等知名机构的代表专家。5月31日，智源研究院发布了最新进展：目前精度最高的智能线虫“天宝”诞生，迈出智能生命关键一步；发布 AI 芯片生态实验室和九鼎智算平台；大模型产业落地加速。当天智源研究院首次承办以色列主宾国论坛。6月1日，青源学术年会召开，发布七大方向年度进展与前沿问题报告.智源社区特此整理了全体大会专家的主要观点，供各界人士参考，洋洋洒洒十几万字，道尽当今AI领域的最新研究趋势和亟待解决的关键问题，以飨读者。119 130146 157 1 225 专题论坛 07/人工智能伦理、治理与可持续发展论坛专题论坛 08/智能信息检索与挖掘论坛专题论坛 09/机器

11、学习论坛专题论坛 10/AI for Science 论坛专题论坛 11/青源学术年会专题论坛 12/人工智能的认知神经基础论坛专题论坛 13/智能的物质基础论坛专题论坛 14/AI 与元宇宙论坛专题论坛 15/人工智能新基建论坛234 244 263287 296 308332350368380 专题论坛 16/AI 与生物医药产业论坛专题论坛 17/AI 赋能生命健康论坛专题论坛 18/神经计算与生物智能论坛专题论坛 19/强化学习与决策智能论坛专题论坛 20/AI 开源共享论坛专题论坛 21/图神经网络论坛专题论坛 22/AI 平台与系统论坛专题论坛 23/视觉模型论坛专题论坛 24/A

12、I 开放研究论坛（暨 AI Open 期刊年度交流会）专题论坛 25/自然语言处理论坛第二天/专题论坛第三天/专题论坛智源简介392智源研究院介绍智源大会介绍CONTENTSCONTENTS1智源研究进展共筑九鼎智能花开：智源发展报告【黄铁军|北京大学智源研究院院长】5月31日，为期三天的“北京智源大会”线上开幕。作为综合、前沿、专业的内行人工智能大会，智源大会已连续举办4届，成为国际人工智能交流亮眼名片。今年，Adi Shamir 等图灵奖得主领衔200余位人工智能顶尖专家，除开幕式与特邀报告外连开3天26场硬核论坛，覆盖学术前沿、技术创新与产业应用。在大会上，智源研究院发布了最新进展：

13、目前精度最高的智能线虫“天宝”诞生，迈出智能生命关键一步；发布AI芯片生态实验室和九鼎智算平台；大模型产业落地加速。23科学技术部副部长李萌和北京市人民政府副市长靳伟出席大会并发表重要致辞。李萌副部长在致辞中指出，人工智能过去几年已经取得了一系列成果，当前发展正处在一个重要的节点，出现了许多新的特征，既面临发展困境，也孕育着突破的机遇，有很多理论和实践问题需要科学家、企业家、工程师做出研判选择，以推动人工智能走向更加健康的发展之路。智源大会设置专题论坛讨论关乎人工智能未来发展的重要议题，具有十分重要的意义。目前，科技部与北京市正在共同推动落实中关村新一轮先行先试改革部署。李萌表示：“我们希望加

14、强能力和生态构建，使人工智能发展成为北京国际科技创新中心建设的战略支点。智源研究院成立以来，取得了很多重要的研究成果，聚集了一批高水平研究人才，探索了开放合作建生态，青年人才挑大梁，集中力量办大事等独特的做法，已经成为引领中国人工智能发展的重镇。希望持续加强原始创新和产业生态建设，为中国乃至全球人工智能健康发展做出更大的贡献。”靳伟副市长在致辞中对智源大会给予了高度评价：“北京智源大会聚焦人工智能发展前沿，连接国际国内顶尖专家，已成功举办三届，广受关注、成果丰硕。本届北京智源大会围绕科研与产业重大命题，搭建思想碰撞平台、发布重大创新成果、深化国际交流合作，必将为全球人工智能发展发挥积极作用。”

15、当前，北京市正在加快建设国际科技创新中心，推动实施中关村新一轮先行先试改革，为北京人工智能发展提供了新的机遇。靳伟表示：“我们将紧抓创新范式变革机遇，深耕大模型+大算力，推动人工智能基础理论研究和关键核心技术攻关不断取得新突破；将发挥创新平台作用，支持新型研发机构开拓进取，深化与国内外创新主体的交流合作，打造开放协同的创新体系；将加快建设世界领先科技园区，为企业集聚发展、人才干事创业提供更优环境，充分释放北京人工智能发展潜力。开幕式由智源研究院理事长张宏江主持。智源研究院院长黄铁军以“共筑九鼎智能花开”为题发布2022智源研究院进展报告，分别从挑战最基础的问题和最关键的难题、营造全球最佳学术和

16、技术创新生态和共同推动人工智能产业发展和深度应用三方面，重点介绍了智源工作进展。黄院长表示：智源当前在科研方面的布局主要包含三个层次：前沿算法模型探索、“九鼎”智算平台和基础软硬件生态、智能+生命健康。初步探索出了科研创新机制“智源模式”，目标是交出两张“代表作”：持续产出国际领先的卓越科技创新突破，建立自由探索与目标导向相结合的科研体制和创新生态。“天宝1.0”高精度智能线虫诞生迈出智能生命关键一步智源研究院天演团队重磅发布天宝1.0（MetaWorm）生物精度最高仿真秀丽线虫，高精度模拟秀丽线虫全部302个神经元及连接关系，迈出智能生命关键一步。45结合高精度神经系统模拟与肌肉动力学关键技

17、术，“智能线虫”经过训练已经在仿真环境中动态蠕动前行，初步表现出类似生物线虫的趋利（食物）避害（毒物）能力。下一阶段将实现避障、觅食等更复杂的智能行为。秀丽线虫（Caenorhabditis elegans）是探索生命智能的典型模式动物，近20年三次诺贝尔获奖工作都是围绕秀丽线虫实验展开。秀丽线虫仅约1mm长，靠302个神经元，已具备感知、觅食、逃逸、交配等各种复杂智能行为。天宝1.0以秀丽线虫为蓝本，是目前为止生物精度最高的仿真秀丽线虫，在智能表征能力、三维动态仿真环境、生物功能重现等维度上实现了五个层面的突破：1.完成了秀丽线虫全部302个神经元及连接关系的精细建模，神经元结构模拟采用多舱

18、室模型，单神经元舱室最多2313个，神经元生理模拟支持14种离子通道。2.对106个感知运动神经元组成的嗅觉和运动神经环路完成了高精度建模，高精度还原了五类神经元（感觉神经元、中间神经元、指令神经元、头部运动神经元及身体运动神经元）电生理动力学。3.构建了由具有解剖学意义的96块肌肉控制、3341个力学计算单元构成的秀丽线虫身体。4.构建了适合线虫智能训练的三维流体动态实时仿真环境，场景尺度达到线虫身长1300倍，CPU单核条件下单线虫单次仿真时间快于0.1秒，支持线虫群体仿真。5.实现了仿真秀丽线虫与仿真环境的全闭环模拟，训练出由高精度神经系统控制的、与环境实时交互的秀丽线虫，能够像

19、真实线虫一样嗅探并控制身体蠕动到感兴趣的目标。天宝1.0是天演人工智能生命模拟工程的第一步，未来，天演团队将继续完善高精度生命模拟仿真平台，持续实现模式动物和重要生物器官的精细模拟，构建生命智能模型并挖掘生物智能机制机理，启发和探索新一代人工智能，从果蝇、斑马鱼、小鼠直至最高智慧的人类大脑。6789共建AI芯片生态实验室九鼎智算平台赋能AI科研与产业九鼎平台旨在打造 AI 科研创新的基石与试验场，目标向上支撑未来十年的计算新范式，包括通用智能大模型、AI for Science 等；向下致力于为产学研加速融合、软硬件协同创新、国产AI芯片生态建设提供强大基座。目前，九鼎平台在建1000P 算力

20、，每服务器400Gbps 高速互连能力的高性能环境。与传统商业云计算专注于“推理”任务不同，九鼎平台发力探索满足大规模混合计算任务的调度方法，在科研的“训练”任务上表现更加优秀。此外，作为混合架构云平台，九鼎将支撑多家厂商 AI 加速芯片，探索通过自动适配的新方法，让每一款异构计算芯片发挥其最佳运算能力，以提升整体平台效能，降低 AI 异构加速芯片的产业化难度。基于九鼎平台大规模科研计算实践环境，智源联合华为、昆仑芯科技、海光信息、天数微芯、燧原科技等多家国内 AI 芯片公司，北大、清华、中科院计算所等相关科研团队，共建 AI 芯片生态实验室，旨在加速国内 AI 芯片的生态发展和应用落地。通过

21、搭建 AI 芯片的产学研平台，推动测试、标准、创新、应用等方面合作，从而加速国内 AI 芯片满足大规模应用部署的条件，通过软硬件协同创新实现在性能上的突破，并为未来通用智能大模型、AI for Science 等新的计算范式做好准备。大模型产业落地加速生活、艺术、语言多面手继 OPPO、好未来、淘宝、搜狗之后，智源悟道大模型在美团落地。经过对比实验，在搜索广告、智能助理、评价标签三大应用场景上带来明显改善，其中在搜索广告上带来2.7%的收入增长。1011美团自然语言处理中心负责人武威介绍道：消费者感知的大模型应用，是更精准的需求匹配服务体验：比如在应用中搜索“登记照”，在优化后，在头部推荐了“

22、婚纱照服务”，而非优化前的“新生儿摄影”大模型带来的应用优化，明显更懂消费者基于怎样的需求心理进行“登记照”的搜索，提供精准选项。在人工智能生成应用方面，悟道亦带来新惊喜：悟道 CogView 文图生成模型变身“写实主义画家”，画面生成真实如同摄影直拍。相对目前AI绘图中常见的科幻、艺术风格，追求真实生成效果难度更高，需要满足更高的语义对齐要求。小动物的毛发丰盈细腻，纤毫毕现未来是否能成为商业渲染的补充方式，降低高品质虚拟图像产生的难度与花费？想象潜力巨大。不止静态画面，悟道还能生成视频。一句话，为你展现经典电影画面，或者让世界名画“活”起来看！绿巨人咆哮暴走，蜘蛛侠飞檐走壁，蒙娜丽莎嫣然微笑

23、，梵高的星空璀璨律动更多应用效果可联系悟道团队体验。此外，智源大模型团队积极开展国际技术交流合作，目前正在携手埃及阿拉伯科技与海运学院、埃及亚历山大图书馆，共建世界最大阿拉伯语数据集，共同开展阿拉伯大模型研制和应用开发。1213智源大会：国际 AI 交流闪亮名片智源模式支撑欣欣向荣科学生态圈开幕式后，2022智源大会全面开启图灵奖得主、海内外院士、产学 AI 领袖将悉数亮相全体大会和26场专题论坛，与参会学者分享深度交流，碰撞思想。作为首位开场嘉宾，强化学习先驱、DeepMind 杰出研究科学家 Richard Sutton 率先带来特邀报告“The Increasing Role of Se

24、nsorimotor Experience in Artificial Intelligence”。随后，梅宏院士分享了“如何构造人工群体智能”的主题演讲，并与北航计算机教授吴文峻进行了一对一互动交流。下午，图灵奖得主 Adi Shamir 和 Hugging Face 研究负责人 Douwe Kiela 两位国际嘉宾还带来了精彩的特邀报告。同时，预训练大模型论坛、芯片前沿技术论坛、自动驾驶论坛、类脑计算论坛、以色列主宾国论坛、中关村昇腾人工智能产业论坛等7场专题论坛也陆续开启。每年的智源大会，都会吸引几万人工智能专业人士，受到广泛认可。这一顶尖 AI 内行交流平台，已成为链接国内外人工智能顶

25、尖学者，进行前沿思想研讨的顶尖专业交流平台。大会分享嘉宾一直遵循严格的内行荣誉邀请制，以保障分论坛也有不逊色于主论坛的高端分享嘉宾与规格品质。每年智源大会，大部分论坛都由智源学者、产业合作者共同组织，是智源学术与产业生态圈携手绘制的杰作。在过去的三年间，500余位以图灵奖得主为代表的顶尖 AI 专家在这里激扬思想，数万名专业人士注册参会，覆盖30多个国家和地区。今年，智源大会首次将以色列列为大会主宾国，特设专门论坛，亦是国际化风格的重要彰显。营造欣欣向荣的 AI 生态圈，激发北京、中国、乃至世界的人工智能思想活力，背后是在探索成长中的“智源模式”。作为创新型研究院，智源研究院在运行机制探索中，

26、形成了集中力量办大事、青年人才挑大梁、开放生态育创新的独特智源模式。“天宝1.0”线虫模型、悟道大模型等科研成果，九鼎平台基础设施，则是瞄向重大科学问题前瞻布局，汇聚顶尖科学家团队，机制灵活快决策大力推进的典型代表。团队中，35岁以下青年人才充分挑起大梁、充分历练与成长。在生态创新方面，除了智源大会，还形成了智源学者、智源社区、青源会等层峦叠嶂、欣欣向荣的 AI 生态圈，从顶尖学者到青年才俊，从前沿思想到一线实践。智源学者汇聚近百位人工智能学者，自由探索勇闯 AI 无人区；智源社区吸引10万 AI 内行，每年举办逾百场学术交流活动；青源会则囊括海内外600+青年才俊，密切交流。作为活跃的青年科

27、研人才学术交流组织，今年智源青源会承办青年学术年会，并邀请机器学习先驱 Michael I.Jordan、张宏江博士两位前辈，与两位青年学者宾大助理教授苏炜杰和斯坦福博士后雷理晔共话“青年科研人才的职业发展之路”，相信对于刚步入科研或在科研道路上遇到瓶颈的青年学者们有重要的启示和指引作用。1415特邀报告报告一一、背景：经验对于智能发展的重要意义Sutton 认为，智能体与外部世界发生交互，向其发出动作，并接收感知（带来的反馈）。这种涉及到经验的交互，是强化学习中正常的感知方式。也是让智能体尝试预测外部世界时所采用的正常途径。然而，这种方法在监督学习中并不多见，而监督学习是当前最为常见的机器学

28、习类型。机器学习中并不涉及普通经验（Ordinary Experience），模型也不会从不同于普通经验的特殊训练数据中学习。事实上，在运行时，监督学习系统根本不学习。演讲中，Sutton 提出了一个核心问题：智能最终是可以被什么来解释？是客观的术语（Objective terms），还是经验的术语（Experiential terms）？前者包含外部世界的状态、目标、人、地点、关系、空间、动作、距离等不在智能体中的事物，后者则包含感知、动作、奖励、时间步等智能体内部的事物。Sutton 认为，尽管研究者通常会在交流和写论文时思考客观的概念，但是现在应当更加关注有关智能体与外部世界交互过程中产

29、生的经验。The Increasing Role of SensorimotorExperience in Artificial Intelligence【Richard Sutton|DeepMind 杰出研究科学家，强化学习奠基人】为了进一步介绍经验对于智能体的重要意义，Richard Sutton 提出，随着经验逐渐被重视，一共经历了四个阶段。1617二、经验在AI发展的历程1.智能体（Agenthood）智能体的含义是拥有/获得经验。在人工智能发展的早期阶段（1954-1985年），大多数AI系统只是用来解决问题或回答问题。如果要达到恰当的目标状态，其解决方案就是一个行动序列，确保 A

30、I 能够从启动状态达到目标状态。这其中没有感知和行动的存在，因为整个外部世界是已知、确定、封闭的，所以并不需要让 AI 感知和行动。研究者知道什么事情会发生，所以只需要构建一个解决问题的计划，让 AI 来执行即可，人类知道这样就能解决问题。2.奖励（Reward）奖励（Reward）是以经验的形式来描述 AI 的目标。这也是当前提出的一种有效方法，能够构建 AI 的所有目标。这也是 Sutton 与其合作者提出的方法。奖励被认为是目前较为充分的一种假说智能及其相关的能力都可以被理解为是服务于最大化奖励的结果。然而 Sutton 认为，这一思路是需要被挑战的。奖励并不足够实现智能。奖励仅仅只是一

31、个数字、一个标量，它并不足以解释智能的目标。来自头脑之外，仅用单一数字表达的目标，显得太小、太还原，甚至太贬低（人类的目标）了。人类喜欢把目标想象得更宏大，如照顾家庭、拯救世界、世界和平、让世界更美好。人类的目标比最大化快乐和舒适更为重要。正如研究者发现奖励并不是很好的构建目标的方法，研究者也发现了通过奖励构建目标的优势。奖励构建的目标太小，但是人们可以在其中取得进展目标可以被良好、清晰地定义，且易于学习。这对于通过经验构建目标而言反而是个挑战。Sutton 认为，经验，是指对感觉-运动经验的数据中发现的模式产生的知识和理解。3.经验状态（Experiential State）状态指的是对客观

32、世界的一种符号化的描述（反映），能够和世界本身的情况匹配。另一种状态是信念状态（Belief State），在这种概念中，状态是一种概率分布，表示的是离散世界的状态，其对应的方法被称为POMDPs（Partially observable Markov decision process）存在隐藏状态变量，其中部分是可观察到的，可以使用马尔科夫决策过程进行建模。以上的方法均是客观的状态，与经验相距甚远，是研究者一开始尝试描述世界状态的方法。而与之不同的，是经验状态。Sutton 认为，经验状态指的是整个世界的状态根据经验来定义。经验状态是过去经验的总结，能够预测和控制未来将会获得的经验。这种构造

33、过去经验，预测未来的做法，在研究中已有体现。例如，强化学习任务之一雅达利游戏中，研究者会用最后四帧的视频构建经验状态，然后预测之后的行为。LSTM 网络中的一些方法，也可以被认为是从某种经验状态中进行预测。回看经验状态，它是可以递归更新。经验状态是整个过去发生事情总结的函数，由于AI需要每时每刻访问经验状态，实现对接下来发生事件的预测，所以经验状态的更新是递归式的：当前时刻只访问上一时刻的经验状态，而上一时刻经验状态是对过去所有发生过的事件的总结。到了下一个时刻，也只访问此时此刻的经验状态，而这个经验状态也是对过去发生的所有事件的总结。Sutton 把世界知识分为两类，一是关于世界状态的知识；

34、二是关于世界状态转换的知识。有关世界状态转换知识的案例是世界预测模型。它可以是抽象的状态，在经验状态中可以被抽取出来。由于预测是以整个行为为条件进行的，所以在选择模型中，智能体也可以选择停止某个策略，终结某种条件。有时候，使用对于旋律的迁移模型，可以预测进行了某个行动后的状态。有了这种能够延伸行为的模型，其知识所表示的规模也可以非常的大。例如，可以根据一个行为，预测世界状态，然后根据状态再预测下一个行为.以此类推。1819下图显示了智能体经验状态的构造过程。其中，红色箭头表明智能体基础工作信号，包括：感觉、行动、奖励等。蓝箭头标注的是经验状态（表征）的方向，从感知中输出，其负责对每个时间步更新

35、其经验状态。更新的状态会被用来为行动制定策略，或进行其他更新。4.预测性知识（Predictive Knowledge）知识，如“乔拜登是美国总统”，“埃菲尔铁塔在巴黎”等，都是对于外部客观世界的一种描述，并不是经验性的。但是，类似于“做某事预计花费X小时”这类知识，是经验知识。经验知识和客观知识之间存在着巨大的差异，这也是对于 AI 研究具有挑战性的一点。以往的 AI 研究倾向于将知识视为一种客观项，尽管近期已经有一些研究从经验的角度来看待问题。早期的 AI 系统没有经验，也就无法进行预测。而更现代一些的 AI 将知识视为客观的存在。更为先进一些的是概率图模型，但是很多时候其研究的是两件同时

36、发生的事情之间的概率，而预测面向的应该是一连串序列事件。基于对序列事件的预测是具有明确语义属性的知识。如果某事情被预测会发生，AI 就可以将预测和实际结果对比。而这种预测模型，可以被认为是一种新的世界知识，即预测性知识。而在预测性知识中，Sutton 认为最前沿的就是通用价值函数（General Value Function）和选择模型（Option Model）。2021总结经验在 AI 研究中的发展历程，Sutton 表示，经验是世界知识的基础，人类本身是通过感知和行动来认识和影响世界的，经验是人类获得信息、采取行动的的唯一方式，而且是人类离不开的。遗憾的是，由于经验过于主观化和个人化，人

37、类仍然不喜欢用经验的方式去思考和表达。经验对于人类太过陌生、反直觉、短暂、复杂。而经验也是主观、私人的，与他人进行交流，或者进行验证几乎是不可能的。Sutton 认为，经验对于 AI 十分重要。一是经验来自于 AI 的日常运行过程，获得这些经验是无成本的、自动的。同时，AI 领域有大量的数据用于计算，因此经验提供了通向了解世界的道路，如果世界中的任何事实都是经验性的，那么 AI 可以从经验中学习对世界的认识，并在经验中进行验证。总结而言，Sutton 认为，过去70年的AI发展历程中，AI 逐渐在增加对经验的重视获得经验、根据经验设定目标、并根据经验获得状态和知识。在每一个阶段，对于人类更为陌

38、生的经验研究正在变得更加重要，而且其具有接地气（Grounding）、可学习和可扩展的优势。三、未来 AI 利用经验的方法Sutton 认为，目前对于经验利用方面，AI 还未完成阶段三和四，但是这种趋势向前会越走越远。Sutton 认为，将一切都归于经验，是通向真正 AI 的可行路径。尽管非常具有挑战性，但这是能够理解数据流，实现智能的图景。最后，Sutton 进一步凝炼重视感知运动经验的四个阶段，形成一句标语：“数据驱动着人工智能，而经验就是终极的数据。如果能利用好经验，我们就可以更快速有力地推动人工智能发展。”2223如何构造人工群体智能？【梅宏|中国科学院院士】中国科学院院士梅宏介绍了群

39、体智能研究的历史与最新进展，并讨论了如何构造基于探索-融合-反馈机制的群体智能模型，举例说明了群体智能规律在自组装、拼图、知识图谱构建等任务中的应用。群体智能研究前世今生群体智能是科学家长期关注并研究的自然现象。早期的研究工作观测到，很多低等社会性生物群体中有一种看似矛盾的现象：不具备智能或者能力非常有限的个体所构成的群体展现出远远超出个体能力的智能行为。这种在低等社会性生物群体层面上展现出的智能通常被称为群体智能（Swarm Intelligence）。基于环境激发效应，群体智能的现象形成过程如下：个体在环境中留下的踪迹会被群体中的其他个体感知到，并刺激这些个体在环境中留下新的踪迹，从而不断

40、产生正反馈。环境激发效应描述了个体之间通过环境形成间接交互的机制。群体智能研究当前的群体智能研究主要针对物理空间中低等生物的群体智能现象展开，普遍采用观察现象-发现规律-解释现象的科学研究方法。通常而言，传统的群体智能研究动作较少关注现象规律的应用，仍停留在解释规律和现象的层面，需要更好地将这些规律用于构造求解特定问题的人类群体智能系统中。实际上，早年间计算机领域的科研人员已经在演化算法中将生物群体中的规律应用于优化问题求解，网络空间中的群体智能互联网技术的不断发展促进了网络空间中人类群体智能系统探索的成功实践。近年来，人类群体智能在网络空间中的 RNA 分子结构设计、维基百科、数据集构建、开

41、源软件等方面得到了广泛的体现。然而，现有的互联网空间中的群体智能本质上是对互联网跨时空汇聚能力的利用。人们基于互联网的通讯能力，针对特定问题精心设计群体力量的利用方案，但对于群智规律和机理的认识和探讨则较为缺乏。群体智能规律的工程应用从工程技术学科的角度出发，研究人员试图利用群体智能规律解决实际问题。为了实现这一目的，需要研究以下问题：（1）群体智能的形成机理是什么？（2）群体智能能否成为求解问题的基本方法之一？（3）如何构造求解特定问题的人类群体智能系统？（4）群体智能的能力边界在哪里？理想形态的群体智能具有两种基本的性质，即智能放大效应和规模可扩展性，规模庞大的群体可以有效放大个体的智能。

42、可以将群体智能理解为一种利用群体力量求解复杂问题的方法，无法仅依靠个体有效求解这种复杂问题，即存在1+12的放大效应。群体智能的定位与理解目前形成的网络空间的群体智能现象仍然处于相对比较初级阶段，与低等生物大群体完成的跨越式的智能程度提升差距较大。研究者也无法确保群智现象可以在人们的控制下重复发生。同时，物理空间群智机理探索和网络空间的应用实践仍缺少有效的结合。网络空间关注如何利用群体的力量，物理空间则主要针对低等生物群智现象的观察和解释，目前还鲜有将二者结合的工作。其中群体由一组具有预定行为规则的简单虚拟个体构成。在传统的群体智能研究场景下，阻碍人们利用规律构造人类群体智能系统的主要原因在于

43、：（1）对群体智能形成机理缺乏充分理解，尚无权威共识。（2）物理空间受限，阻碍了人类群体智能的形成。特邀报告报告二2425从微观层次上看，群体智能呈现出两种基本原理：（1）自上而下：当问题能够被很好分解时，不同个体之间可以进行分工协作，从而发挥每个个体的长处，大大提升整体效率。（2）自下而上：个体都可以看到部分片段，具有关联性的不同信息片段融合后自然形成信息增加。宏观层次上的群体智能是由大量持续出现微观层次群体智能现象（问题分解、群智汇聚等）复合形成的。凯文凯利在失控一书中写道这是：一种由默默无闻的零件通过永不停歇的工作形成缓慢而宽广的创造力。宏观群体智能的基本原理包含以下三点：（1）探索：

44、群体中的个体自主地对当前问题进行探索，得到该问题的一组信息；（2）融合：所有个体探索到的信息通过某种方式被融合；（3）反馈：融合活动产生的群体信息通过某种方式反馈给个体，刺激个体进行持续地探索。理解群体智能的构造性模型传统的群体智能研究（如环境激发效应）大多关注事后解释。在这里，研究者则尝试人工构造求解特定问题的群体智能系统。基于群体智能的自组装研究者研究能否采用探索-融合-反馈的基本原理，通过构造性模型，实现大规模群体在非中心控制情况下的自我成型。群体智能的构造性模型 EIFL 如上图所示，信息激发、信息融合、信息反馈循环中，梅宏院士首先尝试有效激发每个个体提供问题相关信息片段的积极性，再对

45、不同个体提供的信息进行有效融合，最后考虑如何将融合后的信息有效地反馈给每个个体。基于探索-融合-反馈机制的群体拼图过程如上图所示。拼图问题是一类复杂问题的典型代表，这类问题无法通过自上而下、集中控制的方式进行有效求解，不具有中间层次的可分解性，只能采取自下而上的方式求解。基于群体智能的拼图梅宏院士团队借鉴昆虫的趋光性设计了一种人工光场进行信息的融合和反馈。团队根据每个个体的当前位置确定光场状态，光场驱动个体进一步改变位置。基于群体智能的知识图谱构建知识图谱是人工智能领域的研究热点。目前，研究者还不能完成对专业领域的知识图谱的自动化构建，必须要求大量人类专家的参与。研究者尝试基于探索-融合-反馈

46、的群体智能技术研发能够帮助知识图谱构建的工具。在探索阶段，每个参与者根据自己的理解构建个体知识图谱，个体与个体之间的联系表现为节点和节点之间的带标签有向图。在每次探索活动中，个体根据自己的探索结果提供知识片段，建立并完善实体及其属性信息。针对未定义的实体/关系类型进行自定义补充。在融合阶段，可以通过熵最小化形成对齐个体知识图谱。在多人协同构建知识图谱时，平台将多人构建的知识主动融合，形成群体知识图谱。2627该研究关注的科学问题是：互联网环境下，软件开发群体智能的形成、度量、调控。该科学问题又可以被分解为以下三个重要的子问题：面向软件开发的互联网群体智能形成核心因素是什么？如何对群智化软件开发

47、的质量和效率进行量化度量分析？如何对于群智化软件开发能不能进行有目的的调整、影响和控制？软件是一种具有复杂逻辑结构的人造知识制品，规模和复杂性持续增长，开发困难性不断增加。研究者试图研究能否将群体智能用于软件的生产和持续演化。在国家自然科学基金委支持下，由梅宏院士牵头的团队联合北京大学、国防科技大学、北京航空航天大学、南京大学、北京理工大学开展了基于互联网群体智能的软件开发方法研究。基于群体智能的软件开发该研究包含5项具体的研究内容：（1）群智化软件开发基本原理与技术框架（2）软件开发中海量信息的融合与反馈（3）面向特定类型软件制品（代码、模型）的群智化构造（4）群智化软件开发效用度量与优化（

48、5）群智化软件开发支撑环境与示范应用。研究工作从两个视角展开：（1）群智一般性原理：探索群体智能一般性原理在软件开发问题中的应用。（2）群体软件开发现状：从群体软件开发现状出发发现问题，提升群智能力。2829以版本库为核心的群体软件开发是目前被广泛采用的软件开发方式，已经存在探索-融合-反馈的循环回路。以提升 EIF 回路的效率为目标，梅宏院士团队从以下三个方面展开了研究：（1）代码变更智能融合（2）代码变更智能分解（3）代码变更智能分析与反馈代码管理中的群体智能研究软件建模与模型转换是软件开发的核心创造活动，模型是现实的抽象。代码是模型在特定运行环境中的实例化，存在大量琐碎的实现细节。研究者

49、试图探索以模型为核心、基于群体智能的软件开发方式。具体而言，会面临以下五项技术挑战：（1）如何基于现有软件代码制品构造模型（2）如何将多维度的模型进行组织和管理（3）如何对外提供模型的查询和复用服务（4）如何支持模型与代码之间的一致演化（5）如何基于模型资产库构造与演化软件软件建模中的群体智能研究3031当下的开源平台汇聚群智的能力仍然不足。在没有符合要求的国产开源平台进行测试的情况下，研究者采用了众包测试平台开展了一系列实验。研究者根据测试问题特殊性，建立了人机协同机制，以测试报告为核心的迭代式的探索融合反馈回路，支持群体构成、测试需求及策略等动态调整。软件测试中的群体智能研究在梅宏院士看来

50、，群体智能是一种自然现象，是自然产生的。对群体智能机理的认识非常重要，利用好群体智能机理具有更加重要的工程意义。基于互联网群体智能的软件开发方法研究在群体智能构造性模型（EIFL）、人工群体智能（ACI）等方面取得了一定进展，在下游任务中进行了构造 ACI 系统的初步探索。未来，梅宏院士团队将针对特定问题领域进一步探讨 ACI 的构造、评估，并探索群体智能的能力边界。希望面向软件开发场景，构造覆盖权全生命周期的系统。总结与展望A New Theory of Adversarial Examplesin Machine Learning【Adi Shamir|以色列魏兹曼研究所教授，2002年图

51、灵奖得主】2002年图灵奖获得者 Adi Shamir 教授提出了一种凹槽流形（dimpled manifold）解释了机器学习中的对抗性样本的性质及其存在的原因，为理解深度神经网络的工作原理提供了全新的思路，对该领域具有开创性的意义。针对对抗性样本存在的原因，现有的许多研究给出的解释过于直观，并未从数学上给出令人信服的解释。为此，Adi Shamir 提出了一种凹槽流形（dimpled manifold）理论。假设神经网络的输入是 n 维空间内的向量，向量每一个维度分别代表特定的语义，其值处于0-1之间。所有的自然图像都位于嵌入在大的 n 维空间的低维流形上。这样的流形是十分光滑的，图像之间

52、存在边界，局部流形之间的分布可能是非均匀的。流形对图像嵌入到整个输入空间中的方式给出了一些约束。相较于原始输入向量，自然图像可以以极小的质量损失被压缩到非常小的尺寸。特邀报告报告三在缺乏对低维流形先验知识的情况下，深度神经网络试图在 n 维空间中生成（n-1）维的决策边界，从而将空间分成两个部分。决策边界不必一定连接在一起，可以分成若干段，决策边界的质量仅仅由其在 k 维图像流形上的性能决定（k 远小于 n）。决策边界只需要在空间中的很小一部分上具有非常好的性能即可，在其它部分网络可以选择位于任意位置的决策边界，此时网络不必添加额外的惩罚。网络可以利用额外的 n-k 个维度，从而使其在流形上的

53、性能更好（例如，更好地描述猫和牛油果酱的图片）。正是由于较小的 k 维图像流形和较大的 n 维空间之间的错误匹配导致了对抗性样本的产生。网络的训练由2个连续的阶段组成。在第一个阶段，网络在训练早期的若干 epoch 上不过多考虑标签，快速地让决策边界靠近图像流形。接着，在第二个阶段，网络重点关注训练样本的标签，此时决策边界开始产生一些凹槽，从而调整决策边界的形状细节。同时，随机初始化的深度神经网络在第一个 epoch 之前拥有一个方向随机的初始决策边界。3233Adi Shamir 认为，网络经过训练后创建的决策边界就好像在图像流形上引入了一些凹槽。决策边界的大部分非常接近图像流形，但是在某类

54、的图像的下方创建了一个小的凹槽，而在另一类图像的上方创建了一个小的凸起。从评测任务和评价指标上看，我们似乎解决了所有的问题，但实际的问题要比这些评测任务复杂得多。对话环境充满各种可能性，要确保所说的话与其它相同语言社会中的说话者和倾听者者兼容一致，考虑宏观演进过程的先验、对文化的先验，以及个人经验。这意我们在该领域遭遇了评测基准或评价指标的危机。3435假设流形上散落着许多蓝色和红色的点，分别代表不同类别的图像。对于随机初始化的深度神经网络而言，决策边界在 n 维空间中的方向也是随机的。初始情况下，决策边界并不能很好地区分两类数据点，但是我们可以移动决策边界进行调整。这种牵引力会作用于数据点周

55、围的区域，而不是仅仅作用于数据点的局部。所有的牵引力试图利用不符合理想情况的数据点，将随机初始化的决策边界在训练初期的数个 epoch 中快速朝着图像流形移动。对抗性扰动演化的方向大致垂直于图像流形。初始状态下，决策边界位置是随机的。随着决策边界逐渐贴近图像流形并生成一些凸起和凹槽，一些对抗性样本试图朝着决策边界的另一侧的方向移动。这些点移动的方向并不是从某一类的中心指向另一类的中心，而是朝着完全不相同的、垂直于局部图像流形的方向移动。在训练过程中，网络倾向于朝着图像流形产生大的梯度。图像流形相对来说十分扁平，在大多数地方十分扁平，并且具有一些较为和谐的边缘，而流形往往不会剧烈变化。较小的梯度

56、会使决策边界在训练样本处产生距离很远的凸起或凹槽，难以适应于周围训练样本标签的冲突，从而导致网络的准确率较低。而当梯度较大时，决策边界只需要移动较小的距离即可对网络决策产生很大的影响。将为了得到对抗性样本，旧的思维图景假设我们将图像朝着另一个类移动很远的距离，而凹槽流形理论假设我们只需将图像沿着垂直于流形的方向移动很短的距离。此外，旧的思维图景认为对抗性样本是图像流形上的真实图像，而凹槽流形理论认为对抗性样本是图像流形外的伪图像，他们不需要具备某类图形的特征。Improving Multimodal Evaluation and Exploring Foundational Language

57、and Vision Alignment【Douwe Kiela|Hugging Face 研究负责人】近十年来，人工智能技术突飞猛进，以令人难以置信的速度发展着。著名的 MNIST 数据集发布于2000年前后，机器学习研究者们花费了近20年才在该数据集上取得饱和的性能。但是，GLUE 任务几乎一经发布就被解决了。特邀报告报告四因此，视觉-语言等多模态任务需要新的评估设置。通常而言，好的评估设置应该具有以下特性：（1）数据质量高，几乎没有标注误差（2）构建成本可接受（3）任务具有足够难度（4）足以区分模型的性能（5）与真实场景接近，对现实用例具有代表性（6）有简单直接的评测方法除此之外，针对多

58、模态任务的评估设置还应该做到：（1）不被某一种特定的模态所主导，各模态的数据较为均衡（2）能真正评测模型在多模态数据上的性能，而非仅利用单一模态。为此，Douwe Kiela 等人在 NeurIPS、CVPR 等顶级会议上提出的新型多模态评测任务Hateful Memes、AdVQA、Minoground。在 Hateful Memes 任务中，Kiela 等人通过替换表情中的图像，检测模型对视觉和语言数据的理解能力。如果分类器可以区分上述图片，对其进行正确的分类（令人厌恶/不令人厌恶），就可以真正具备多模态推理和理解的能力，而非仅仅利用单一模态的表层特征。为构建 Hateful Meme 数

59、据集，Kiela 等人首先选择了经过训练的标注者，从而确保标注的质量，但是这些标注者的数量较少且费用较高。在构建数据集的过程中，良性混杂因素十分关键。标注者们将符合要求的表情中的背景图像替换，将替换背景后的表情及标注者赋予的标签（是否令人厌恶）存储到数据中。对于令人厌恶的图像，他们还分别创建了良性文本混杂因素和良性图像混杂因素，进一步创建了更多不令人讨厌的表情。3637首先，标注者针对图像提出一个问题，并将该问题输入给图像。接着，标注者查看模型的答案是否合理。如果模型的答案合理，则不使用该图像和问题；反之，验证人员将再次确认图像和问题是否有意义。若通过验证，则由人类回答者给出问题的合理答案。最

60、终，图像、问题、答案会被存储到数据集中。在整个过程中，模型并不知道正确的答案。Douwe Kiela 等人首次在构建数据集的回路中同时引入人类和模型，在Dyna Bench平台上实现了动态的对抗性 VQA 数据收集。在视觉方面，图像被划分为若干个图块（patch），这些图块会被输入给 ViT 等视觉 Transformer 模型，并通过顶层的分类头完成图像识别任务。在该过程中，研究人员将图块作为词例（Token），通过掩码图像建模（MIM）训练模型。在语言方面，文本被划分为若干个词例（Token），这些词例被输入给 Transformer 模型，通过标准的掩码语言建模（MLM）训练，顶层的 N

61、LP 任务头会被用于完成 MNLI（多类型自然语言推理）等任务。基于上述单一模态的表征，Kiela 等人构建了一个 Transformer 多模态编码器，将单一模态进行早融合，通过掩码多模态建模完成 VQA、Hateful Memes 等任务。此外，Kiela 等人还采用了与 CLIP 类似的全局对比损失，从而确保各模态的表征被对齐。3839为了探寻 CLIP 成功的原因，Kiela 等人借鉴 NLP 领域中的思路，利用 Winograd 方法测试了 CLIP 的性能。Kiela 等人通过不同的语序组织相同的词语构成两句不同的句子，将其输入给模型，通过模型生成的图像检测模型是否能够真正进行视觉

62、-语言组合推理。Kiela 团队在FLAVA：基础性的语言和视觉对齐一文中提出了对上述评测任务的解决方案。从头开始训练了一个多模态预训练模型。Kiela 等人将图文对多模态数据和图像、文本单一模态数据输入给 FLAVA 模型，针对不同的任务（全局对比损失、MMM、MIM、MLM）设计了各种损失，希望模型能够完成多模态推理、语言理解、视觉识别等任务。Go-Explore 可以提高虚拟机器人在部件受损时的适应能力，训练 Go-Explore 时，首先不添加故障，使用 MAP-Elites 方法列出机器人不同移动方式的影响因素，通过贝叶斯优化得到理想状态下的移动解，然后令机器人的一条腿停止工作添加故

63、障，机器人在深度强化学习下完成新状态的适应性学习。应用时，机器人既可以在未损坏的理想状态下运行，也可以适应一定程度的部件损坏。4041Improving Robot and Deep ReinforcementLearning via Quality Diversity,Open-Ended,and AI-Generating Algorithms【Jeff Clune|OpenAI 研究主管，不列颠哥伦比亚大学副教授】【研究背景及意义】机器人部件受损时适应新状态的能力较差，为了让其具备类似自然界残疾动物的环境适应能力，Jeff Clune 团队基于质量多样性的深度强化学习算法提出了 Go-E

64、xplore 模型，使机器人部署时适应能力以及鲁棒性大幅度提升，同时在极具挑战性的蒙特祖玛的复仇游戏中跑分取得新的世界纪录。【研究方法】Jeff Clune 认为极具挑战性的问题可以转化成一系列直接或间接指向原始问题的其他问题，从而降低解决问题的难度，基于此提出了 Go-Explore 模型。Go-Explore 模型基于 MAP-Elites 方法主要分为两步，第一步寻找全部解，从存档中随机选取一个状态开始探索，发现新解时更新存档，循环执行直至找到全部解。第二步鲁棒化，采用深度强化学习在最佳轨迹上模仿学习将系统的解逐步迭代至稳定，保证系统的鲁棒性。Go-Explore 在蒙特祖玛的复仇游戏中

65、训练时，首先初始化机器人，从存档中选择一种状态开始探索空间并将结果返回，然后基于上一次的结果重复探索更多空间，当发现更优路径时将原有结果替换，重复循环直至得到最优解为止。特邀报告报告五从单元格开始运行时，首先需要对大型空间合并，不同状态映射到相应的单元格内，然后不限定游戏领域知识进行图像下采样，再按照目标解的参数要求学习，完成后返回学习的单元格并重置状态。为了防止迭代出现学习因素脱离现象，Go-Explore 采用从局部开始连续探索学习，不断扩大知识领域实现对待学习因素的全面表征。4243在实验环节中，没有陷阱和负面条件下，经典的深度强化学习算法在蒙特祖玛的复仇中可以获得0-2500分，之后很

66、多算法可以优化至11500时会遇到瓶颈。Go-Explore 模型在不添加专业游戏领域知识时得分是人类平均水平的四倍，添加后可以获得180万分的新世界纪录。【总结及展望】Jeff Clune 团队基于质量多样性的深度强化学习算法提出了 Go-Explore 方法，可以解决 Atari 游戏目前未解决的问题，部分游戏跑出新世界记录，同时可以帮助机器人提高部署能力，尤其是部件受损后可以尝试克服困难保持原始功能。未来 Go-Explore 的研究方向将从像素中学习，现阶段采用的下采样等通用学习改成像素学习，值得关注的地方有自动编码、预测工作以及一些辅助任务，此外，还可以将 Go-Explore 推广

67、到更多的下游应用场景。Zettlemoyer 教授首先介绍了其团队在语言模型稀疏化方面的工作。当前的模型规模已经接近计算设备的极限，训练时更新模型所有的参数变得越来越困难，想要将模型变得更大，必须将模型稀疏化。Base Layers 在不引入额外损失函数和超参数的情况下，实现了专家专门化和均衡化，并且保证了很高的计算效率。DEMix Layers 设计了不同领域的专家，具有优秀的模块化特性。4445Large Language Models:Will they keep getting bigger?And,how will we use them if they do?【Luke Zettl

68、emoyer|Meta AI 西雅图研究负责人，华盛顿大学计算机科学与工程学院 Paul G.Allen 教授】预训练语言模型能够显著提高模型在自然语言处理任务上的性能。预训练语言模型的规模又不断增大的趋势，模型规模的增长趋势是否会持续，如何利用规模不断增长的模型、其它模型预训练的监督方式成为了当下的研究热点。Zettlemoyer 教授表示目前语言模型的规模还在继续增长，更多的算力仍会被投入，未来稀疏化的模型可能会得到重大突破。语言模型是字符串的分布零样本学习或是少样本学习都能够利用语言模型，其利用程度取决于效率和代码的开放程度。其它结构或模态的监督方式也值得进一步的研究。特邀报告报告六其次

69、，Zettlemoyer 教授指出了使用预训练模型时存在表面形式竞争的问题，并介绍了与此有关的两个工作。研究者们发现采用条件点互信息（PMI）去调整输出概率能帮助模型在语言建模问题上提升效果。此外，在提示微调时引入噪声通道模型也有利于改善模型。最后，Zettlemoyer 教授强调了开放科学和模型共享的重要性，并指出预训练模型能接收多种监督信号，包括图像、HTML 文档而不只是文本。4647大规模 AI 计算系统的挑战和机遇【周斌|华为昇腾计算 CTO】【研究背景及意义】随着近年来对“大模型”的需求越来越高，对于大规模 AI 计算系统的需求同样越来越高。目前大规模 AI 计算存在着四个趋势：

70、（1）从“大模型”走向“超大模型”，参数量呈指数倍增长态势；（2）从单模态走向多模态、多任务融合，AI 具备更高阶认知技能；（3）人工智能走向与科学计算的深度融合；（4）大模型及 AI+HPC 的发展催生更大的AI计算集群。同时，周斌介绍，大规模 AI 计算存在着四个挑战：（1）训练大模型对于 AI 集群系统提出更高要求；（2）异构集群的算力、带宽不匹配，同步协同训练会造成性能劣化；（3）训练大模型对于 AI 框架提出更高的要求；（4）“AI+科学计算”对于集群的多范式混合计算及混合精度方案提出更高要求。【研究方法】针对大规模 AI 计算的趋势和挑战，周斌结合了华为昇腾团队做出了探索，提出了九

71、项思考：（1）AI 计算架构创新及全栈系统的协同优化。昇腾 NPU 采用达芬奇架构专为 AI 计算设计，千亿大模型并行代码数量降低80%，调优时间缩短60%，推理效率提升50%，模型加速60%。（2）基于 Transformer 增强加速库，通过加速库对端到端性能提升20%，对 MoE Router 性能提升40%。（3）利用异步训练发挥计算中心的算力以提升模型的训练性能。（4）推进集群技术，以更大算力规模基础设施支持人工智能创新发展。昇腾布局的组网规模目前已经达到10万量级，随着光网络的引入，会更大规模地拓展通信集群规模，提升效率。（5）逐渐加速算力网络发展，实验跨域分布式并行连通。（6

72、）支持“AI+科学计算”的前沿特性，为高性能科学应用提供计算新范式。昇腾推出了科学计算套件 MindScience，其中 MindElec 在手机电磁仿真性能提升10倍，MindSPONGE 在生物制药化合物模拟效率提升50%。（7）以多样性的计算融合架构，助理极简开发，释放极致性能。昇腾构建了元戎、昇思、多瑙、北冥等多种基础和应用使能的多样性架构，通过 MindStudio 构建工具链实现统一调度。（8）以统一调度器，为多样性集群提供应用与资源的最佳匹配。昇腾使用多维度智能调度，在吞吐量上提升了25%，能耗降低了30%。（9）把 AI 编译器拓展到集群支持，在编译中实验通用分布式并行及

73、内存优化。昇腾构建了 MindSpore，连接了用户和大规模集群，简洁高效地调度。【总结及展望】最后，周斌表示，未来的大规模AI计算系统会有更大的规模，更高的密度，更快的速度，更灵活多样的模式，更简单的开发和调试以及更好的软硬件协同优化。特邀报告报告七4849Travels and Travails on the Long Roadto Algorithmic Fairness 【Cynthia Dwork|美国科学院、工程院双院士，哥德尔奖获得者】【研究背景及意义】1979 年，B.D.Underwood 首次使用临床决策（clinical decision）代替了统计推断方法，她认为这是两

74、种不同的论证事实的方法。这篇文章涉及许多在今天仍然备受关注的问题，包括决策预测（decision to predict）。同时，她也提出了一个问题，如果要使用统计方法，应当如何选择作为决策基础的属性和特征。这个问题，一直伴随我们至今。2021年夏天，微软硅谷研究室开启了对该领域的探索。首先研究的是关于算法公平的定义，研究人员同时也确定了两种主要的公平性保证（fairness guarantee）：个体公平性保证和群体性公平保证，这恰好与30年前 Underwood 的说法相呼应。但群体公平是经不起推敲的，因为它们有时会隐藏真正的情况。为了填补群体公平与个体公平之间的鸿沟，2016年到2017年

75、，两个独立的研究团队尝试弥补群体公平与个体公平之间的差距，Cynthia 将他们的研究称为“多重 X 框架”（Multi-X），在这个框架中，研究人员并不像以往那样，只研究两个群体之间的公平性保证，而是要研究大量的任意交叉群体。【研究方法】1.风险预测：AI 的定义问题风险预测会给个体实例分配一些0到1的数字，这些数字通常被称为“概率”。例如“今晚下雨的可能性为80%”或者“明天下雨的可能性是多少？”，这里的“明天”就是一个个体实例，预测因子（predictor）会给它安排一个概率。而困难之处就在于，不可重复事件的“概率”定义是什么？也就是 AI 的定义问题。这是一个经典的问题，定义是描述后续

76、一切算法的基础。Cynthia 及其团队通过一项关于肿瘤的研究，研究了预测因子的概率分布。他们给定一个肿瘤样本，并观察它 DNA 中的某些位置，之后观察其他实验样本，结果显示，与相同位置上信息相同的样本中，70%是可转移性的。如果再观察其 DNA 中的其他位置，又发现有 40%是不可转移的。由这个实验不能得出给定样本的转移概率是多少，但说明了算法中肿瘤的表征在训练和测试的过程中，始终影响着结果，从而证实了表征的重要性。Cynthia 还介绍了实时设置和批量设置中的校准，校准也是公平性保证的因素之一，但它只揭示了真实情况，并没有给出任何纠正不公平的措施。所以这里引入了“多重校准（multi-ca

77、libration）”的概念。特邀报告报告八50512.结果不可分辨性的层次结构团队首先创建一个伪随机发生器，在此基础之上，Cynthia 等人定义了“结果无差别”的概念。他们通过区分两种分类因子本来不能分辨的因素，来查看区分能力。他们做了两个实验，一个使用的是伪随机算法，将它的预测结果与实际生活中的结果配对。另一个也是使用伪随机算法做预测，但是这次，是从概率为 p 的伯努利分布中求出一个结果，再将二者配对。Cynthia 团队的要求是左右两边得到的概率应当能被区分出来。而他们的结果显示实验并不能对二者进行有效的区分，所以被称为“结果无差别”。3.算法支撑集和广泛校准（scaffolding

78、sets and pan-calibration)最后介绍的是如何选择预先指定的研究对象的集合 C，以及，如何决定某个群体 G 是否应当包含在 C 中。Cynthia认为，如果有精力和时间，并能够得到相关的显著性，G 中的成员很可能是可以被征服（subju-gated）的。但是“框外”（outside the box）的部分又该如何理解呢？答案是要弱化对 C 的不可知论的学习（weak agnostic learning of C），换句话说，只要 C 是可行的即可。实际上，对于这个问题，我们可以找到一个中等大小的集合，在这个集合上，多重校准可以帮助我们很好地接近自然属性。【总结及展望】Cyn

79、thia 与她的团队致力于研究算法公平，为此他们定义了预测因子得到的概率，通过实验得到了一个结果无差别前提下的四层分类器来区别能力分级，虽然他们的实验结果并不能支持他们的理论，但也给这个研究方向提供了一些思路。未来他们也将沿着这个方向做进一步的探索。整理：戴一鸣、崔靖男、熊宇轩、马瑞军、胡雪瑜、路梦康、牛梦琳Cynthia 的实验结果并不能支持他们的理论。但 Cynthia 认为他们的实验给这个研究方向提供了一点思路。定义一旦被确定，研究者就可以马上看到创建定义层次结构的方法，或者根据给出的信息，发现越来越强的验证需求。因此他们给出了四个区别能力分级。5253预训练大模型论坛专题论坛【研究背景

80、及意义】预训练语言模型已经成为自然语言处理（Natural Language Processing,NLP）任务的基石，王金刚指出，美团搭建了预训练平台（MT-BERT），基于通用语料进行预训练，并针对美团业务数据进行领域适配和微调，目前该平台已经被广泛地用于美团的实际业务场景中，支持了60多个业务部门的2万多组预训练实验，涵盖搜索/推荐/广告、智能客服/助理、内容社区和企业办公等场景。大模型存在推理时间长、上线部署困难的问题，美团采用模型压缩来解决大模型落地“最后一公里”挑战。预训练模型压缩及悟道 GLM 在美团落地实践【王金刚|美团高级算法专家】01报告一【研究方法】在高压缩比需求的模型压

81、缩中，单步蒸馏效果较差，通常引入助教模型（Teacher Assistant Model）来优化压缩效果，美团设计了一种自动助教寻优的模型压缩方案AutoDisc，通过定义助教评价指标挑选出与学生模型表现正相关的优异助教模型作为中间过渡；同时通过自动搜索策略解决手动设计中耗时耗力的问题；此外还进一步通过迭代式多教师蒸馏策略提升最终效果，在 GLUE Benchmark 数据集上以0.5G 的 GLOPs 取得了80.1的 GLUE Score。【总结及展望】经过美团 NLP 中心和悟道 General Language Model（GLM）团队合作，通过 AutoDisc 方案将百亿 GLM

82、模型压缩为面向不同需求的小模型，并在美团搜索广告（广告收入日均提升2.7%）、酒店智能助理（日均帮助商家回答5200+用户咨询，节约服务人力）和评价标签（涵盖70多万商户，81%用户认可该功能高效选店）等业务场景中落地。【研究背景及意义】猎聘平台是一个面向中高端人才的招聘平台。截止为止，已经累计了7000多万用户，在线职位500多万，验证企业有100多万家，猎头有20多万，集团涵盖求职招聘、猎头、企业内部培训、在线调研等业务。猎聘多面团队，是一个聚焦在面试环节的部门，近期团队设计了一种高效的“多面智能”的线上批量面试人才甄选方案，为企业招聘降本增效。截至目前，该方案已经服务了6000多家客户、

83、完成了20多万次面试。预训练模型在数字面试官领域的应用【莫瑜|猎聘技术副总裁】报告二【研究方法】猎聘所推出的3D 数字面试官“陶思睿”，是和悟道团队合作的一项产品。招聘方在使用这项产品时，面试前可以根据需求定制面试间，如数字面试官的着装、声音等，以及个性化面试问题。在面试中，数字面试官可以对候选人进行自主提问以及对面试后续阶段的 Q&A 环节进行自主答疑。在面试后，数字面试官会针对面试的情况对候选人进行全面评估。数字面试官背后有多项技术支撑，如基于文语转换（Text to Speech），Transformer 等算法实现3D 数字人驱动，并融入情感分析模块，使得语音、面试表情、身体动作更加协

84、调。还有针对面试中的智能追问，使用结构化面试 STAR 原则，将追问任务转化为多标签任务，通过聆听回答，进一步挖掘候选人潜在能力。猎聘还使用行业数据进一步训练 Sentence-BERT 用于定制 Q&A 智能问答，使得数字面试官的识别准确率提升9%。此外还构建了猎聘知识图谱，使用智源 CPM 大规模预训练模型生成问题，目前已用于智能推题功能当中。【总结及展望】智源大规模预训练模型已经成熟地用于猎聘数字面试官“陶思睿”，在今后会落地于更广泛的实际招聘场景中。5455【研究背景及意义】当前预训练模型可以分为自编码、自回归、编码器-解码器三类模型，自然语言任务可以分为自然语言理解、无条件生成、条件

85、生成三类，然而没有预训练框架能够在所有任务上取得最佳性能。随着预训练语言模型规模的增加，预训练高昂的计算成本使得针对不同的下游任务开发不同的模型变得不可行。GLM:通用语言模型的训练与微调【杜政晓|清华大学计算机系博士生】报告三【研究方法】针对以上问题，团队提出了统一的针对自然语言理解和生成的通用预训练框架 GLM（General Language Model），适配不同类型的下游任务。他们将自然语言理解任务转化为了条件生成任务，因此理解与生成任务均可以用自回归填空模型解决。针对三类下游任务，团队设计了 token-level、sentence-level、document-level 三种不

86、同的基于自回归填空的预训练目标，并且改进了自注意力机制。自回归填空的挑战之一是对位置进行编码信息，团队提出了二维位置编码，每个字符用两个位置 id 来编码，第一个位置id表示在损坏后的文本中的位置，第二个位置 id 表示在填空内部的相对位置。针对分类任务、生成任务分别进行模型微调。【总结及展望】实验证明，15%的填空比例对下游自然语言理解任务表现良好。在 SuperGLUE、seq2seq、文本填空、语言建模任务上，GLM 与其他大规模预训练模型相比能取得 SOTA 效果。他们还训练了百亿参数规模的 GLM，具有中英两个版本，在理解与生成任务上也取得 SOTA 效果，并且可以有效地在不同类型的

87、任务中共享预训练的参数。目前，该框架在美团、猎聘、OPPO 都已经实际落地应用，取得了很好的效果。【研究背景及意义】近年来，超大规模语言模型高速发展，DeepMind 研究发现，训练充足的小稠密模型能击败训练不足的大型稠密模型。团队本次研究，解决的是千亿稠密模型 GLM-130B 训练中的稳定性、模型架构、并行计算这三个问题。GLM-130B：稠密双向千亿中英模型训练进展【曾奥涵|清华大学计算机系本科生】报告四【研究方法】在稳定性方面，FP16精度下，超大规模语言模型训练非常不稳定，主要原因有 Attention score 爆炸问题，他们设计了去掉偏置或者用 FP32精度的 Softmax

88、解决这个问题。同时，团队还调小 Embedding 层梯度，缓解前期 Embedding 层梯度过大的问题。在模型架构方面，数百亿/多模态混合精度（FP16）训练中，Pre-LN 架构仍然出现训练不稳定的情况，团队选择 DeepNorm 架构，使用相对编码 RoPE 方法，有效且容易地实现了双向相对注意力，并引入了 GLU（Gated Linear Unit）线性门控单元。在并行计算方面，采用 ZeRO 优化器在数据并行组内分摊优化器状态，采用4路张量并行，8路流水并行等方式。模型的训练目标是填空任务，在字符级别训练填空能力，在文档级别训练生成能力，在多任务上训练零样本能力。【总结及展望】实验

89、表明，在多任务有人工提示标注的数据集上训练，有助于提升模型在稀有任务上少样本/零样本的能力，目前整体模型训练目标完成约43%，达到175B字符量，暂未遇到不稳定问题。团队还考虑在千亿模型的基础上扩展部分数据并行组为专家并行组，根据数据并行组数的不同，最高允许万亿、十万亿的稀疏模型训练。5657【研究背景及意义】2020年后，学界和业界均对大规模预训练模型持有较大关注。虽然大模型能力强、效果好，但从最近几年的论文统计中来看，大模型的使用比例依然不高，其核心症结在于大模型可控性与功能性方面依然存在问题，计算代价也较大。可控、持续的预训练语言模型 CPM-3【韩旭|清华大学计算机系博士生】报告五【研

90、究方法】为了解决上述问题，使大模型真正能实用起来，团队提出了 BMTrain、BMCook、BMInf 三个高效的预训练模型加速框架，分别在训练、压缩、推理三方面进行加速。在模型层面，面向生成可控性进行数据增强，通过抽取关键词、事件语义角色、知识图谱三元组、风格等可控因素，设计文本生成、改写、缩写、扩写等多样化的预训练任务，促成预训练模型多样化的功能实现。在模型结构上，采用预训练 prompt，多段组合模式、简化 Transformer 结构、实现相对位置编码，与预训练任务的设计相匹配。【总结及展望】实验表明，参数初始化方式的改进、预训练中的动态遮蔽策略、输入输出 Embedding 层参数共

91、享，能够加强模型半精度稳定性以及模型生成性能。整体训练完成后，CPM-3模型虽然只有6.9B 参数规模，但在摘要、匹配、续写、扩写、改写等任务上都取得较好效果，超过了 CPM-2（10B），尤其在零样本/小样本的实验场景下。基于关键词或者事件的可控生成效果也很好，能实现较高的控制要素覆盖。在 CPM-3的基础上，团队构建了一个开放社区 CPM-Live，全程直播 CPM 大模型的训练过程，并会在后续训中逐步增加模型规模、数据、任务、语言方面的强化，训练需求也会参考社区意见进行修正，并通过高效压缩实现多粒度模型版本的发布。【研究背景及意义】超大规模预训练模型（如GPT-3）相比于传统模型，具备更

92、通用、更强大的知识存储能力，还具备很强的小样本学习（Few-shot Learning）能力，这得益于提示学习（Prompt Learning）的帮助。提示学习通过将下游任务转化成为预训练任务相接近的生成式学习，在使用相对很少的参数量，可以取得比微调（Fine tuning）更好的效果。连续提示学习的发展【刘潇|清华大学计算机系硕士生】报告六【研究方法】在传统的提示学习中，通过采用人工模板将知识三元组转化成一句填空题的形式来训练模型，这种方式十分脆弱，一个词的改变会导致模型的准确率大打折扣。为了获取更优的 Prompt 模式，AutoPrompt 提出，在离散的字符层面做 Prompt 搜索。

93、然而实际的模型是连续的，因此刘潇团队提出了在连续化输入向量上进行约束的方法，用梯度去自动搜索连续空间中的知识模板。该方法在 LAMA 数据集上同模型提升近20个百分点。在自然语言理解（Natural Language Understanding,NLU）任务上能够明显提升 GPT 和 BERT 的效果。【总结及展望】Prompting 具有强大的小样本能力但调整困难，而 Prompt-tuning 不需要人力调整，但缺乏通用性。因此刘潇提出了深度连续提示微调，具备全规模通用性，仅使用0.1%的参数，在330M10B 规模的模型均与 Fine tuning 相匹敌。该项成果已发表在 ACL 20

94、22中。5859【研究背景及意义】目前多语言图文预训练主要有两种途径，第一种是图片、多语言文本分别编码，通过对比学习的方式计算图文相似度。第二种是采用多语言多模态编码器对图片、文本一起编码，输出的是一个匹配或不匹配的二分类结果。但是这两类方法有都有缺陷：一是训练资源消耗大，二是模型在预训练阶段未见的语言上效果不佳。从图文检索到多语言多模态理解【胡安文|中国人民大学信息学院博士生】报告七【研究方法】针对这两个缺陷，团队提出了多语言学习 MultiLingual Acquisition（MLA）模型，主要思路是将已经训练好的单语言图文预训练模型动态拓展成多语言图文模型。首先固定原有的图片编码器与语

95、言编码器参数，再额外训练一个多语言编码器，这个编码器继承原有语言编码器中绝大多数参数，为新语言添加了一个共享的多语言词嵌入模块，对每个新语言设计独立的Language Acquirer 层，加在 Transformer 编码器层最后。训练第一阶段任务是Native Language Transfer，对齐源语言与新语言，训练第二阶段任务是Language Exposure，将新语言与图片拉进，两个阶段分别用了不同的损失。【总结及展望】实验表明，在不微调、微调一种目标语言、微调所有目标语言三种情况下，模型均能取得最佳效果。在训练参数方面，相比已有多语言图文模型，MLA 模型参数最小，使用计算资源

96、最少。在多语言视频检索任务中也取得了最佳效果。在稀有语言少样本情况下，MLA 模型也能取得最佳效果。同时，他们还将图文检索式模型拓展成了视觉、文本、音频多模态模型，在视频检索与视频描述生成任务上均取得最佳效果。【研究背景及意义】CogView2的研究工作是在 CogView 基础上进行的，CogView 存在生成速度慢、计算复杂度高、单向的问题。为了解决这些问题，他们提出了更快更好的文到图生成模型 CogView2，实现更快更好的生成效果。CogView2主要基于层次化、局部性、并行性设计。CogView2:Faster and Better Text-to-ImageGeneration v

97、ia Hierarchical Transformers【丁铭|清华大学计算机系博士生】报告八【研究方法】为了解决生成速度问题，团队认为生成速度慢并不是因为模型参数大，而是自回归的引起的，所以先将一幅图由160 x160像素转化为480 x480像素，然后经过局部并行自回归（Local parallel autoregressive）步骤生成，分多步 mask 后逐步恢复，图片被切分成若干块，块与块之间、块的对角线都并行生成，可以极大提升速度。为了解决训练复杂度高的问题，团队将全局注意力改成局部注意力，并且使用 CUDA kernel 降低计算代价。为了解决单向问题，单向指的是如果图像扣除一部

98、分，原有模型没法补全，他们改进了注意力矩阵的遮挡方式，使得模型能完成文本指导的图像填充任务。【总结及展望】实验结果表明，CogView2模型生成的图片与真实的图片相比，人类有30%以上的概率对CogView2模型生成的图片评价更高。CogView2受到了 LSTM 与 GPT-3作者的高度评价，整体模型水平处于国际并跑水平。6061【研究背景及意义】视频生成目前主要有三个挑战，一是视频是很多帧的图片，整个序列长，计算消耗大；第二个是文本-视频数据比较少，尚未覆盖很多领域；第三个是文本与视频片段的一对多关系。CogVideo:Large-scale Pretraining forText-to-

99、Video Generation via Transformers【丁铭|清华大学计算机系博士生】报告九【研究方法】为了解决数据不足与计算消耗大的问题，他们使用 CogView2做了一个增量训练，没有改变CogView2的参数，仅加了一个含有帧时序信息的3D local/swin 注意力块，这样也可以减少训练代价。为了解决文本到视频片段一对多、不一致的问题，他们将不同的帧设置成不同的token，训练中尽量使得不同帧与文本对齐，这是第一阶段的关键帧生成，在此基础上，还增加一个插帧步骤，插帧可以有多次，直至图片衔接连贯，整体视频效果较好结束。实验样本展示目前生成效果已经很好。【总结及展望】目前这项

100、工作受到了国内外的广泛关注与好评，处于国际领跑的地位。团队下一步工作重点是更好的文本到图片生成，实现更好的分层建模，更快的生成速度。此外在文本到视频生成问题上，重点关注更流畅更长的视频生成。【研究背景及意义】机器整合视觉与语音信息，并能够关联回答问题达到人类水平的研究具有重要意义，这项研究需要有效的视听场景理解与时空推理。视音场景分析与多模态学习机制探究【卫雅珂|中国人民大学高瓴人工智能学院博士生】报告十【研究方法】团队构建了视音问答 AVQA（Audio-Visual Ques-tion Answering）任务数据集 MUSIC-AVQA，提供了涵盖音频、视觉和视听问题的 Q-A 对，由音

101、乐表演场景组成，视觉中的发声物体与音频具有很好的关联性，包含丰富的视听成分。他们从空间、时间感知角度出发，提出了视音时空问答模型，模型包括 Spatial grounding 模块与 Temporal ground-ing 模块，Spatial grounding 模块用基于注意力机制的声源定位来学习跨模态之间的关联，Tempo-ral grounding 模块用问题的特征做查询，分别在视觉与音频时序上将与问题高度相关的片段捕捉。最后将视音特征融合，得到多模态的联合表征进行问题的预测。【总结及展望】实验表明，多模态感知和有效的时空推理能够促进 AVQA 任务，模型能很好解决细粒度的场景理解和时

102、空推理问题。演讲一：【研究背景及意义】在多模态学习机制探究任务上，广泛使用的多模态学习框架是编码器分别编码不同模态，然后将特征拼接，再进行联合训练。但是，其中单一模态编码器是否被很好训练还缺乏关注。【研究方法】为了探究这一问题，研究者在 VGGSound 数据集上进行实验，结果表明，联合训练的多模态模型中，单一模态的编码器效果比单模态训练的编码器效果低，并在音频、视频各自模态存在训练不充分、不平衡问题。为了深度探讨这一问题，他们分析不同模态数据本身存在的差异，并且分析前馈-反向传播过程，发现模态间存在优化不平衡现象，即整体多模态模型优化好，但某一个单一模态优化不充分。为了缓解多模态的不平衡训练

103、，他们提出了 OGM-GE 的方法，OGM（On-the-fly Gradient Modu-lation）即动态梯度调整，做法是通过削弱容易学习模态的梯度放慢整体多模态模型学习的进程，使得各个模态都有更多时间训练。GE（Generaliza-tion Enhancement）即泛化增强，引入额外的随机噪声增强梯度的噪声，使得模型更具备泛化性。【总结及展望】实验表明，与其他融合方法相比、与其他任务相关方法相比，效果均有提升。该方法在复杂的视听时间定位任务上保持有效性。OGM-GE 方法不仅可以插入基础融合策略中，也可以插入现有的多模态模型中，具有良好通用性。演讲二：6263【研究背景及意义】近

104、年来预训练模型的规模呈指数趋势增长，这对于算力的需求越来越高，同时也面临诸多挑战。大规模算力是大模型训练的基础设施，其中并行训练系统是核心技术，主要存在着两大难点：（1）面对多级并行计算设备，编程困难；（2）面对复杂硬件连接拓扑，性能优化困难。训练大模型的分布式系统【何家傲|清华大学计算机系博士生】报告十一【研究方法】何家傲所在团队基于新一代神威超级计算机，在3700万核上训练了一个百万亿级预训练稀疏大模型“八卦炉”。“八卦炉”基于混合专家（Mixture-of-Experts,MoE）模型，由于神威超级计算机每个节点6核共享同一片内存，设计了基于6核组的算子库 swTensor，同时完善了训

105、练框架 swPyTorch。此外，还采取了针对神威网络拓扑感知的混合并行策略，分块并行优化器，逐层混合精度策略和完全负载均衡策略完成全栈适配调优。【总结及展望】该工作发表在 ACM SIGPLAN PPoPP 2022。【研究方法】何家傲所在团队针对 MoE 模型专家并行方式存在的性能问题，提出了对动态预训练模型性能建模与优化的系统FasterMoE。针对负载不均，拖慢整体进度的问题，设计了影子专家技术；针对粗粒度操作效率低下问题，设计了细粒度调度策略；针对通信量大，网络堵塞问题，设计了拓扑感知的专家选择策略。FasterMoE 在单轮迭代速度上比 FastMoE 提升了5倍，收敛速度快了2倍

106、，并且这些优化已经集成到首个基于 PyTorch 的分布式 MoE 训练框架FastMoE 中。【总结及展望】该工作发表在 ACM SIGPLAN PPoPP 2022。【研究背景及意义】在大规模训练的 Transformer 架构的模型中，观察到两个现象：（1）对于80%的输入，仅仅激活了少于5%的前馈网络（Feed Forward Network,FFN）中的神经元，剩下的95%的神经元在某一个输入的情况下都是抑制的。（2）没有始终对所有输入都保持不激活状态的无效神经元。这些表现跟人脑的稀疏表示非常相像，而混合专家（Mixture-of-Experts,MoE）模型也是类似的稀疏化建模

107、。大规模预训练模型专家化技术【张正彦|清华大学计算机系博士生】报告十二【研究方法】因此，张正彦所在团队针对这些现象，对 Transformer 的前馈网络中的线性层做矩阵切分，切分的每个模块可以看做是一个专家模型，然后根据输入去自动筛选使用哪些专家模型参与了计算，提出了 MoEfi-cation。针对不同尺度的 T5模型在不同的数据集上进行了测试，对于越大的 T5模型，仅仅激活5%的前馈网络中的神经元就可以和全部激活的 FFN 相比拟。【总结及展望】MoEfication 这项工作得出以下三个结论：（1）在大规模 Transformer 中，存在着像人脑一样稀疏激活的特性；（2）前馈网络可以等

108、价为混合专家模型；（3）由前馈网络转化后的混合专家模型也存在着跟传统混合专家模型有类似的表现。张正彦相信 MoEfication 能够进一步帮助后续关于混合专家模型的研究。这项工作已发表在 ACL 2022 Findings 上。6465【研究背景及意义】深度神经网络（Deep Neural Network,DNN）虽然已经在计算机视觉（Computer Vision,CV）和自然语言处理（Natural Language Processing,NLP）等多个领域中表现出了非凡的成功，但其容易受到对抗样本（Adversarial Example）攻击的特性，使其在现实应用中面临着可靠性（Rel

109、iability）和安全性（Security）的挑战。为了解决这个问题，相关研究者提出了一系列对抗鲁棒性学习算法（Adversarial Robust Learning Algorithm）。然而，尽管这些方法可以使得训练后的模型达到接近于零的鲁棒训练误差（Robust Training Error），但所有的现行相关算法都会导致较大的鲁棒泛化鸿沟（Robust General-ization Gap）。Robust Generalization Requires Exponentially Large Models【李柄辉|北京大学信息学院图灵班本科生】报告十三【研究方法】为了探究这个问题，

110、研究团队从深度神经网络的表达能力（Expressive Power）的角度出发，对该现象进行了理论分析。具体来说，对于具有良好可分性数据的二分类学习任务，虽然通过温和过参数化，网络规模关于数据维度 d 和训练样本个数 N 呈线性增长的 ReLU 网络足以实现高鲁棒训练精度，但除非其网络规模大小关于数据维度 d 呈指数增长，否则其鲁棒泛化误差存在恒定下界。即使数据是线性可分的，这意味着实现较小的标准泛化误差（Standard Generalization Error）非常容易，依然可以证明，为了实现鲁棒泛化性，神经网络仍需要exp(d)）大小的网络规模。此外，当数据具有低维流形结构时（流形维度k

111、远小于d），实现低鲁棒泛化误差所需的神经网络的规模上界可以被改进到exp（O(k)）。尽管如此，为了实现鲁棒泛化性，其网络规模同样存在关于 k 呈指数增长的下界。因此，维度灾难是不可避免的。【总结及展望】李柄辉同学所在的研究团队通过理论研究表明，虽然温和过参数化的 ReLU 网络足以取得高鲁棒训练精度，但为了实现鲁棒泛化性，神经网络需要指数级大小的网络规模(网络参数量)。因此，实现鲁棒泛化性的困难可能源于实际模型的表达能力。【研究背景及意义】混合专家模型（Mixture-of-Experts,MoE）存在着计算负载不均衡的问题，理想状态下 MoE 是一个专家处理某一类的事情，每一个专家的输入相

112、对均衡。然而在实验观察中发现，在 MoE 中，很多专家较不活跃的，而且有少量专家是极其不活跃。在对不同专家计算最大平均差异（Maximum Mean Discrepancy,MMD）时发现，专家间具有较高的同源性。基于张量分解的预训练语言模型高效扩容策略研究【高泽峰|中国人民大学高瓴人工智能学院博士后】报告十四【研究方法】高泽峰团队提出了基于矩阵乘积分解的混合专家模型MPOE，用共享参数（Sharing Parameters）方法来解决计算负载不均衡的问题。MPOE 通过引入量子物理的矩阵乘积分解（Matrix Product Opera-tor,MPO）方法，将一个张量拆解为中心张量和辅助张

113、量，其中中心张量占总参数量的90%以上。通过该框架可以将原始的 MoE 拆解成中心张量和辅助张量，然后共享不同专家的中心张量。由于共享中心张量后参数更新频次过高，会导致过拟合的风险，MPOE 通过梯度掩码设定阈值，超过该阈值后对中心张量进行参数更新，没有超过阈值则不进行参数更新。【总结及展望】通过使用 MPOE 方法，在自然语言理解（Natural Language Understanding,NLU）任务上训练的 T5模型和在自然语言生成（Natural Language Generation）任务上训练的 GPT2模型都取得了优异的效果。6667【研究背景及意义】在2020年底，智源研究院

114、发布了第一个中文预训练模型（Chinese Pretrained Models,CPM），CPM 在下游任务效果优异，具有强大的少样本学习（Few-shot Learning）能力和文本创作能力。大模型仍存在算力消耗大，开发门槛高，适配下游任务困难等多项挑战，智源大模型加速创新中心为了应对这些挑战，让大模型飞入千家万户，开发了大模型开源工具链 OpenBMB。OpenBMB大模型开源工具链【曾国洋|智源大模型加速创新中心副主任】报告十五【研究方法】OpenBMB 体系中，初步形成了三个开源工具包 BMTrain，BMCook 和 BMInf。BMTrain 实现了以下功能：（1）稳定的 ZeR

115、O Stage 3优化加速；（2）支持 Loss Scaling 技术支持的半精度训练；（3）支持模型的 offloading 和 checkpointing，节约显存消耗；（4）采用了基于 AVX512等 SIMD 矢量化编程实现 CPU 算子；（5）采用 NCCL 实现异步通信。BMTrain 贴合 PyTorch 使用习惯，上手门槛低，且配套完善的模型检测调试工具，同时支持 OpenPrompt、OpenDelta 等微调工具。BMCook 大模型后处理工具包，提供了模型量化、模型蒸馏、模型专家化和模型剪枝工具，联合使用模型量化、稀疏和压缩算法，使模型推理计算获得10倍的加速，具有易用性

116、。BMInf 大规模高效推理工具包，通过运用模型量化推理、显存内存智能调度技术，仅用单块显卡就可以进行百亿参数大模型推理，具有适配性高、调度高效的优点。BMInf 进行的性能上测评，相比 Pytorch 等传统的框架推理速度提升明显，同时针对显存和内存的调度机制，能够在更低的资源消耗上把大模型给跑起来。【总结及展望】最后，曾国洋表示欢迎大家使用 OpenBMB 开源社区，并提出宝贵的建议，推动社区的发展。整理：路梦康、白鹏芯片前沿技术论坛专题论坛02AI 芯片作为人工智能的基础硬件，近年来需求加速释放，当前国内人工智能芯片发展具有巨大的空间，而如何提升芯片算力，实现架构创新仍是亟待解决的挑战。

117、在智源大会芯片前沿技术论坛上，来自杜克大学、清华大学、北京【研究背景及意义】存量计算的研究近些年来在国内十分火热。一直以来，芯片内部的体系计算与数据存储是分开的，当需要进行计算的时候要把数据从存储单元传输到计算单元当中，这个过程所消耗的资源十分巨大。让计算跟存储发生在同一个地方，恰好与冯诺依曼体系的思想相对。高效人工智能系统的软硬件协同设计【陈怡然|杜克大学教授】报告一【研究方法】关于存内计算，第一个想法是将神经网络参数在存储地进行计算，避免数据搬运。例如将参数存在一个特殊纳米芯片上，器件上的阻值可以通过电流或电压变化来进行编程，表现一个参数。而对于较大的矩阵形式，一个高效的方式是将所有输入与

118、输出令其在某些交叉节点上进行连接，向量乘以矩阵可以视作电压，电压经过电流产生一个合并的电流就是统计学意义上的和。对于数字并行和模型并行而言，这两种方式并不矛盾。如果将参数映射到不同的计算单元上，每个计算单元仍可能采用不同的并行方式。大部分并行方式是通过模型并行的方式来操作，而少部分是数字并行。只有集成不同并行的分布方式，才能使得在整个算力全部被表达的情况下，所有数字与数字恰好达到一个稳态平衡，整体能效最高。如果是单一表达，有的计算单元空缺就会拖累了整个计算过程。【总结及展望】软硬件协同设计，有很多参数需要考虑，包括软硬协同、电路具体架构设计、以及算法本身针对硬件的优化。陈怡然团队内部做了很多年

119、的积累，从 2012 年开始研究神经网络在不同硬件上的表达，后来又转向研究架构设计、分布式设计，到自动化设计等。大学、中国科学院计算技术研究所、伦敦帝国理工学院，以及昆仑芯科技芯片等学术和产业界专家就芯片前沿技术和产业进展进行了汇报和探讨。6869【研究背景及意义】目前的人工智能对于算力的要求越来越高，但是芯片算力提升越来越难，满足不了需求。提升芯片算力的一大挑战在于数据的读取和传输，在整个系统中所占用的时间和消耗的能量都是非常高。基于忆阻器的存算一体技术【吴华强|清华大学教授】报告二【研究方法】近些年来人工智能研究提出向大脑学习，这也指导着芯片界如何在硬件端提升计算性能。用忆阻器来作为计算器

120、件，其核心优势是可以模拟一些突触的功能，同时具备存算一体特性，可以大幅提升计算的速度和能效。基于忆阻器的新计算范式，采用的架构是存算一体架构，其核心计算部分是一种模拟计算的思路。在基于忆阻器的存算一体芯片中，处理器、内存、外存演变为存算一体的阵列。存算一体架构有很多进展，但是业界的发展亟需更大规模的芯片，只有实际解决一些复杂问题后，才能证明存算一体的计算范式具备很强的生命力。最早的时候，模拟计算占据计算领域的很大一部分，早期的模拟计算是有存算一体的雏形的，主要参数直接存储在计算本地。但当发展到集成电路以后，模拟计算弊端逐渐显现：参数无法重新配置，计算功能单一。然而在2010年以后，随着忆阻器的

121、出现，模拟计算加上存算一体架构再次兴起，其电阻可调特性，解决很多传统模拟计算的参数难以配置的问题。从2010年开始吴华强团队开始研究忆阻器器件，现在他们与代工厂合作，不断改善工艺。同时该团队还配合硬件，研制了存算一体的编译器、网络配置和软件工具链。总之，基于忆阻器的存算一体计算系统挑战很大，吴华强团队希望通过这种底层器件到编译器的创新实现新的计算系统，对用户却不用更换现有的编程语言，在边缘计算和云计算中提升计算效能。【总结及展望】展望未来，吴华强团队希望做大规模的基于忆阻器的存算一体芯片，并在复杂问题中得到应用，未来可以结合更多新型神经元器件，甚至做成三维集成技术，提升芯片整体性能。【研究背景

122、及意义】摩尔定律的停滞不前以及功耗的限制需要架构方面的创新，领域专用处理器是一种可能的解决方案。领域专用处理器有诸多优势，从硬件的角度来讲其可以进行更为高效的并行设计，具备更为高效的内存架构，以及更为高效的数据表示形式。从软件角度来说可以把复杂的编译器简单化，设计一个针对特定领域的应用程序。智能芯片的软硬件协同设计【梁云|北京大学长聘副教授、智源青年科学家】报告三【研究方法】梁云教授最近几年主要关注的领域就是张量的应用。张量这一类数据被广泛是用在各个领域，例如深度学习、图像处理，还有推荐系统等等。对于张量的计算可以使用循环来表示，具备两个特点：一方面，由于可以使用循环表示，使得计算过程非常规整

123、，但需要巨大的计算量。另一方面，虽然不同的计算可以使用循环表示，但是其在张量的大小和累加的方式上有所区别。梁云教授认为，软硬件协同的专用芯片设计方法存在以下几个挑战：1）如何进行软硬件的划分，究竟哪部分映射到到硬件，哪部分映射到软件？目前软硬件的划分还是手动划分的。2）如何高效设计硬件？目前还是手动开发底层的RTL代码。3）如何高效设计软件？目前还是手动开发底层软件代码。梁云教授提出敏捷的软硬件设计框架，通过高层次的抽象，高效的算法，自动化的工具自动生成软硬件的设计，降低设计门槛，并且提升能效。【总结及展望】在 DSA 的概念下，软硬件协同设计愈发重要，目前梁云教授团队所开发的工具都已在gi

124、thub上开源https:/ AI 芯片的一些高能效的发展趋势。高能效机器学习处理层：跨层次设计趋势【刘勇攀|清华大学电子系长聘教授】报告四【研究方法】目前，工业界出现的一个趋势就是采用异构集成的方式，打破智能芯片在算力提升、能效提升方面的僵局。【总结及展望】刘勇攀教授团队的研究角度是如果未来打造一款高能效，具有高性价比的 AI 芯片，可能的模式就是这种分久必合，要跨层次协同。芯片设计不但要进行算法和架构的设计，还要考虑电路与器件的协同。这样的思想会为未来的 AI 算力能效提供几个数量级的增加空间，其前景是大有可为的。一个技术突破是刘勇攀教授团队近期的工作，其归根结底就是在 SRAM 存算一体

125、的基础上解决计算问题。无论是稀疏，还是低比特的推理和训练，都是从算法和架构上的优化。其实整个高效芯片的发展可以总结为分久必合，合久必分。在设计上就是要将许多东西结合在一起，自下而上地将器件和电路融合在一起。7273【研究背景及意义】神经网络以模拟大脑抽象的结构在现代的社会里面发挥了十分重要的作用。对于人工智能，训练是最主要的工作，然而训练所花费的资源开销也比较大。对于深度学习训练，低比特位宽是一个有效手段。如果在计算方面使用较低的比特，模型所占的存储空间就会下降。对于智能处理器，相当于可以使用在面积上小得多的芯片承载同样数量的数据。支持量化训练的深度学习处理器【杜子东|中国科学院计算技术研究所

126、副研究员、智源青年科学家】报告五【研究方法】量化训练需要通过统计信息获得量化参数。由于权值在整个训练过程当中变化频繁且剧烈，需要动态统计信息。此外，权值更新必须要保持比较高的精度。对于这个问题，可以从三个角度出发解决。第一个是局部量化。过去可以看到对数据的量化需要针对层或者针对整个网络进行，而局部量化就可以进一步细化，比如针对一个通道进行，这样所需要的数据量就小很多，比如可以放在片上，从而可以在片上完成量化。第二个方面，是基于误差估计的多路量化，既然事先不知道针对哪个数据量化是合适的，就可以先做一次量化之后，将量化前后数据的均值偏移做一个估计，通过域值重新确定量化后的数据位宽。第三个是进行原位

127、权值更新。在进行高比特的较高精度的权值更新的时候，由于权值更新数据在片上，而所需要更新的原始权值数据在内存里，而更新这个过程则需要在片上完成，需要不停在内存和片上之间做数据传输。一个简单且高效的想法，就是将权值更新过程直接在原始权值附近完成，只需要把权值更新数据传递到存储附近就可以，从而可以节省存储单元和计算单元之间的互相访问。【总结及展望】杜子东团队所提出的支持量化训练的深度学习架构针对高精度要求，提出三个策略支持在线量化训练，避免重复数据访问，提升硬件处理性能。【研究背景及意义】指令集是处理芯片生态的基石。指令集架构是计算机系统中硬件和软件交互的标准规范，实际上对于软件，比如操作系统、编译

128、器的原始程序都是通过编译器编译为了代码，通过代码输送到硬件来执行。RISC-V国内外发展现状【唐丹|中国科学院计算技术研究所高级工程师】报告六【研究方法】唐丹团队将开源芯片分为三个层次，第一，需要一个开源的设计，要打造一款芯片首先需要一个开源的指令集。第二，要基于指令集进行处理器的设计和实现，并将其开源。第三，不仅将处理器的 IP 开源，还要将设计 CPU 所用到的工具和流程进行开源，这就形成了开源芯片这样一个定义。RISC-V 指令集采用模块化设计，更加精巧灵活，且开源免费。唐丹团队也认为，基于开放免费的指令集才能实现开源芯片，才能开发免费的微架构设计，才能构建开源芯片的社区。7475【总结

129、及展望】唐丹团队之所以提出开源芯片的理念，实际上是因为开源在芯片领域也可以对产业形成一定的推动作用。通过开源芯片可以赋能新产业，使得真正有用的芯片造福世界。【研究背景及意义】目前上层 AI 生态十分繁荣。基于神经网络的 AI 算法之所以发展得好，是因为底层的处理器为其计算提供了坚实的支持。目前摩尔定律逐渐正在失效，传统的处理器结构已经不能满足支持了，研究机构也逐渐在结合自己的场景和需求研制人工智能芯片。昆仑芯 AI 芯片：让计算更加智能【漆维|昆仑芯科技芯片研发总监】报告七【研究方法】目前，AI 芯片的四大挑战，一是算法的多样性，二是行业巨头英伟达的存在，三是客户需求日益严苛，四是实际的应用落

130、地。针对上述挑战，自2018年开始，昆仑芯展开自己的 AI 处理器研发计划。7677以昆仑芯第二代的芯片架构 XPU-R 为例，其核心的两部分是 CLUSTER 和 SDNN。CLUSTER 是通用计算单元，有 SIMD 指令集，支持标量和向量计算，具有良好的通用性和可编程性。SDNN 是面向 AI 运算的加速单元，主要是支持卷积等高频高算力需求的算子。SDNN（软件定义神经网络引擎）是自研核心张量计算单元，加速卷积和矩阵乘的计算。此外，所构建的软件栈决定了产品是否能快速在多个业务线能够做到大规模的量产落地。昆仑芯团队所构建的完善的 SDK，包括底层的驱动、运行时库，再到上层的深度学习框架，以

131、及图编译的引擎，结合不同的用户需求做到快速实现和部署。【总结及展望】目前昆仑芯 AI 2代是7nm 工艺，目前正在规划4nm 以下的三代芯片和四代芯片，团队还将在通用的前提下，结合具体的应用场景，兼顾实际的使用性能。【研究背景及意义】监督学习是通过学习模型参数的方式，最小化损失函数。一个适合推理的损失函数应该是普适且易于计算的。深度神经网络是一种典型的图结构，如何在硬件中实现对这种图结构的运算加速是一个值得研究的问题。Datapath for Deep Neural Networks in Hardware【George Constantinides|伦敦帝国理工学院教授】报告八【研究方法】二

132、值化神经网络是一种完备的函数结构，其为使得神经网络在硬件上的运算加速，变得更为方便。但是，精准地优化神经网络依赖于有限精度的数据类型，随着网络深度的增加，低精度的网络往往能提供更为精准的效果。Constantinides 团队提出的 LUTNet 是为了在 FPGA 上进行深度学习设计的。LUTNet 通过布尔类型的变量进行训练，并搭配相应的优化方法，在 CiFar-10数据集上实现了优异的性能。【总结及展望】通过量化连续分类器来设计离散分类器，其性能或许是最佳的。Constantinides 团队设计的 LUTNet 可以通过有限的改变，学习辅助的布尔结点，达到良好的分类性能。7879梁云

133、|北京大学长聘副教授、智源青年科学家杜子东|中国科学院计算技术研究所副研究员、智源青年科学家漆维|昆仑芯科技芯片研发总监刘勇攀|清华大学电子系长聘教授石侃|中国科学院计算技术研究所副研究员AI 芯片未来发展圆桌讨论通过算力的堆砌是否是 AI 未来的发展方向？刘勇攀教授认为技术的发展要符合经济学规律，但目前的深度学习大模型依赖于大规模算力，逐渐演化为了贵族人的游戏。真正有影响力的技术一定是人人享用、高性价比且对社会与重大贡献的技术。梁云教授认为，从硬件的角度，盲目堆砌算力性价比非常低，但对于 AI 模型开发者来讲，可能就是追求高精度，反而不是很在意功耗。杜子东研究员指出，模型的大小和硬件的性

134、能是一个迭代发展的循环过程，只要能使得技术迭代发展下去都有其积极的一面。漆维老师认为，大模型可以提升泛化能力，突破传统模型所不能覆盖的业务场景，但回归工业化的时候，还是要更多关注经济。如何看待跨层优化的本质逻辑？刘勇攀教授认为，跨层次类似于模型软硬件之间互踢皮球，原本划分的架构约束算力与能效的提升，在单独一层的工作所获得的收益逐渐降低，就需要打破僵局，跨层次进行架构重组。杜子东研究员认为，之所以需要跨层次，就是因为在原先层次的发展收到限制，需要将上下层的核心串联起来，寻找新的优化空间，激发更多的效能。在未来，通用的 EDA 工具还是领域专用的优化会变得更主流？梁云教授认为，EDA 其实是交叉学

135、科，云计算、大数据的发展都会为 EDA 带来一些新的机遇，今后每一个方向的发展都会需要一些新的 EDA 范式的出现，从而解决不同专用领域的问题。通过算力的堆砌是否是 AI 未来的发展方向？漆维老师认为，AI 芯片的落地，指的是能够在客户端大规模地使用。每个公司根据自身所处业务领域的不同，对于 AI 芯片的需求也不尽相同。在面向落地的过程中，昆仑芯团队也会与合作伙伴共同搭建生态，为不同的客户需求提供落地需要。谈到落地，还需要考虑面对个性化的需求所研发的产品是否具备推向主流市场的潜力，当迈过这个鸿沟，产品才算真正在市场站住了脚。整理：周致毅8081自动驾驶论坛专题论坛032022年，是自动驾驶行业

136、发展最为关键的一年，乘用车辅助驾驶的竞争正式进入下半场，其他场景的自动驾驶也将正式进入商业化元年。目前，L1和 L2级别的智能汽车已经实现商业化应用，而 L3和 L4级的自动驾驶功能实现仍然颇具挑战。具有更高智能性、接近人类驾驶自动驾驶已经成为下一代人工智能的重要载体，2017至2021年，以 AI 技术为基础的高等级自动驾驶系统呈增长趋势，但由于 AI 有普遍的黑箱特征，即基于数据训练出来的“黑箱”自动驾驶模型，无论在感知层面还是在决策层面上，都存在数据是否完备、数据是否正确、模型架构是否优越、验证是否充分等问题。也正因为“黑箱”的难以解释性，使公众对自动驾驶持谨慎态度。陈虹教授对“黑箱”的

137、可解释性问题的前沿性研究为此方向提供了思路。可解释自动驾驶决策系统初步探索【陈虹|同济大学电子与信息工程学院院长】报告一水平的高级别自动驾驶汽车，是该领域每一个企业、每一个团队追求的理想和目标。在智源大会自动驾驶论坛上，来自清华大学、同济大学、西安交通大学，以及来自腾讯、地平线等的学术和产业界专家就自动驾驶的技术路径以及当前面临的挑战进行了探讨。陈教授采用“事后可解释性（Post-hoc）”的一种解释方式，设计一个可解释的归因模型来近似AI训练出来的大数据模型，通过可解释的归因模型来分析机器学习模型为什么给出这样一个决策。陈虹教授认为，归因模型可以采用“Shapley value”的方式设计，

138、“Shapley value”来自合作搏弈问题。当机器学习训练出的模型做出了最终决策，就可以对其所有输入的贡献度给出量化指标。团队采用 DQN 神经网络，并将基于高速公路驾驶环境的仿真器生成的数据集送入 DeepSHAP，计算一些特征的 Shapley value 的值，来解释自动驾驶的决策（如下图）。最后，正如陈虹教授报告中所提，对于 AI 在自动驾驶领域的可解释性问题研究虽然刚刚起步，但该方向的研究一定会提高人类对自动驾驶的可信度。8283自动驾驶是人工智能领域的最重要的战略性技术之一，近20年以来，正经历着从辅助安全到自动驾驶再到自主驾驶/协同智能不断演变与发展的重要阶段。薛建儒老师总结

139、了自主智能、无人驾驶的技术路线，包括现在已有串联流水计算框架的问题，以及基于认知地图的场景理解、情境预测和驾驶方法等。从自动驾驶到自主驾驶的路径探索【薛建儒|西安交通大学人工智能与机器人研究所教授】报告二薛老师结合课题组从2012年开始的研究经历，分析了现有的流水线架构的优缺点。流水线架构使得“从感知到运动”问题可以被划分多个子问题逐个求解，但缺点也日益明显，如现有的问题表征和计算相对整个驾驶任务而言并非是最优的，局部最优并不等于把它组合起来形成全局最优，而且这种架构在开放动态环境里会碰到越来越难以解决的一些问题。如何在开放动态交通环境中生成安全、健壮、敏捷、灵巧的驾驶行为，仍在探索中。大脑对

140、信息的处理是以任务为中心的，可借鉴大脑的认知机理来构建“从感知到运动”的计算模型，从感知到计算被划分成多个任务与子任务模块，每个模块都是一个神经网络，这些神经网络像大脑里存在多个不同的脑区一样被链接起来，以此实现认知地图的场景理解、情境预测和驾驶决策。最后，薛建儒老师认为，真正实现自主驾驶，需要构建一个直觉性的认知计算框架，借鉴大脑的认知机理，目前这一方向正在快速发展，还有很大的提升空间。8485汽车的发展将从上半场的电动化，转为下半场的智能化，未来两年是智能化的关键窗口期,智能驾驶和智能坐舱，逐渐成为用户选择的焦点，且中美在智能化这块上有超越欧洲、引领整个行业发展的趋势。边博士从企业定位出发

141、，就“智能网联汽车发展、东风智能网联规划与智能网联研究探索”三个角度进行了分享。智能网联汽车发展，从技术路线来看，高阶自动驾驶是目前汽车行业难度最大、复杂度最广、全球汽车行业亟须突破的一个重大领域，同时是欧、美、日、中国等主要经济体的发力点。从行业发展来看，过去几年，互联网及科技企业与整车企业深度合作，跨界进入汽车产业成为整车生产制造商，已经趋于常态化。从产业的角度出发，智能汽车的复杂度涉及数十个部委。东风智能网联研究和探索【边宁|东风领航项目负责人】报告三东风智能网联于去年4月17日启动“跃迁行动”，主要包括新能源跃迁和智能驾驶跃迁。现在“软件定义汽车”或者“软件赋能汽车”的观点让东风智能正

142、在尝试IEEI服务框架，包括坐舱自动驾驶、V2X 和基于服务架构的数据流的情况。在智能网联研发探索方面，东风自动驾驶在做的高阶自动驾驶，主要包括闭环、导航驾驶、召唤功能、V2X 整体协同，以及应用到高阶自动驾驶的 L3+的 TJP、HWP、自主泊车，以及技术积累的影子模式八部分。边博士从企业定位出发，介绍了从企业角度如何看现在的自动驾驶技术的发展以及如何从企业角度在自动驾驶赛道中规划与实施。自动驾驶商用的前提是要保障安全，因此自动驾驶技术的测试验证就成了应用的必要条件。苏奎峰团队提出基于实时数字孪生技术实现的自动驾驶仿真可以助力并加速自动驾驶落地。实时孪生是利用感知、建模、仿真、控制等技术将物

143、理空间数字化，变成一个数字空间，在这数字空间中进行描述、诊断、预测、决策生成、反馈控制策略，进而实现虚拟与现实融合的集成，集成意味着虚拟和现实是双向互动。实时孪生助力自动驾驶落地【苏奎峰|腾讯自动驾驶业务负责人】报告四苏奎峰博士强调实时数字孪生中的“实时”不只是计算的实时，也是虚拟和现实能够同步映射的实时性，仿真推演的实时；另外车路协同仿真系统的测试验证也充满挑战：如何对路侧感知和车端感知进行融合孪生；如何区分自车和他车；如何在云端进行“Who am I”服务等等。在实时孪生仿真系统中，可以单独基于摄像头，也可以利用雷达和摄像头融合感知，生成仿真场景，利用现实世界的实时交通流，比如复杂路口无保

144、护左转，这些场景在云端验证自动驾驶算法。如果做大规模的城市级仿真，需要考虑两个维度：一个维度是让实时还原城市交通模型，可以提升整体交通效率；其次是可以在城市仿真平台上，在虚拟孪生环境中，放上几千台甚至上万台自动驾驶汽车，对其进行测试，同时还可以实时上传现实环境数据，利用云端分布式仿真环境来支撑自动驾驶仿真验证。8687【研究背景及意义】高级别自动驾驶汽车决控功能面临交通环境动态性、交通参与者随机性、道路约束复杂性的难题，其历经了专家规则型、监督学习型和类脑学习型三个设计阶段。强化学习通过探索试错实现自主进化，是类脑学习型决控系统设计的一种重要手段。李教授讨论了使用强化学习的类脑学习型决控系统设

145、计，介绍了驾驶数据与车辆模型混合驱动的策略梯度强化学习方法，为自动驾驶决控策略的高效迭代与自我进化奠定了基础。混合强化学习及其自动驾驶应用【李升波|清华大学车辆与运载学院副院长】报告五【研究方法】针对高动态、高密度、高随机的城市道路交通工况，李教授提出了具备高实时、可扩展能力，且满足安全约束的自动驾驶汽车的集成式决控（Integ-rated Decision and Control，IDC）架构（Guan et al.,IEEE Cybernetics,2022）。该架构包括静态路径规划和动态优选跟踪两个模块。前者依托场景静态信息自适应生成候选路径集，具备场景扩展能力；后者结合动态交通信息构造

146、约束型轨迹跟踪问题，以实现路径优选和安全控制指令优化。为保证决控实时性，利用约束型强化学习离线求解得到路径优选与避撞跟踪策略，实现了高效在线应用，其中为平衡求解效率与性能，提出数据与模型混合驱动的策略梯度强化学习方法（Guan et al.,Arxiv,2021），研究了驾驶数据与车辆模型在策略梯度层面的融合机理，揭示了数据与模型策略梯度估计偏差上界存在的指数型相对大小规律，据此设计了混合加权与混合状态两种策略梯度估计手段，推导了混合策略梯度算法（Mixed Policy Gradient，MPG）。【总结及展望】IDC 架构具备计算效率高、可扩展性强、行驶安全性优的特点，自动驾驶实车实验表明

147、，IDC 可实现混合交通流信控交叉路口下32种真实交通场景的安全通行，平均通行时间小于35 s，平均单步决控耗时小于15 ms。MPG 算法具备收敛速度快，渐近性能优的特点，强化学习标准验证平台结果表明，与 DDPG、TD3、SAC 等基准算法相比，MPG 在所有测试任务上实现了收敛速度与渐近性能的综合提升，在轨迹跟踪控制任务上，与 SAC 算法相比，求解速度提升4倍；与 ADP 算法相比，求解性能提升93.1%。8889黄畅博士总结了团队过去几年在自动驾驶技术的研发实践；讨论了高效普惠的自动驾驶技术需要软硬结合的 AI 计算架构；AI 研发基础设施如何支持上述方案开发并部署在 AI 架构上。

148、对于带来更好的驾乘体验，黄畅团队在自动驾驶架构设计中采用了“端+云”的方案，在车端采用了多传感器多模态融合，在时间和空间上进行充分融合。团队认为感知和地图融合可以通过深度神经网络完成，过程几乎不需要任何规则，且结果可被量化和评估，因此在整个架构中，多任务神经网络可在 Low-level、Semantic-level 和 Structure-level 层面上对场景进行实时解析，将自动驾驶相关的计算都在车端低延迟高效率的执行，完成本地决策。在云端构建了一套自动化的标注系统和 AI 算法高效率训练迭代系统，融合了大量机器学习、人的经验知识，转换成规则算法以及部分有必要的人工标注或审核，使它能够自动

149、化产出丰富的结构化标注信息。通过云端算法迭代和车端本地感知决策相结合，实现自动驾驶技术的持续快速迭代和量产落地。自动驾驶技术及其 AI 计算架构的实践【黄畅|地平线联合创始人&CTO】报告六对于车端的 AI 计算架构，地平线通过软硬件联合优化，构建 BPU 计算架构并实现多项核心技术突破。BPU 设计聚焦最新神经网络架构，协同优化实现极致计算效率；并且在架构设计时考虑了应用场景，支持不同自动驾驶场景下的 AI 算子，满足各种场景需要；在神经网络结构设计时，考虑硬件架构设计特点，最大化硬件资源利用。除此之外，在硬件架构设计时充分考虑算法演进的趋势，预留灵活的可编程性，在此基础上进行软硬联合设计、

150、协同优化和工程验证，保证性能前提下实现软硬解耦。为支持算法开发并部署在 AI 芯片架构上，地平线打造开放易用的 AI 芯片工具链和软件2.0开发基础设施 AIDI 平台。地平线过去几年聚焦 AI 研发基础设施，积累了大量 knowhow，主要解决数据问题，包含标注、训练、优化、性能分析、部署等的闭环，以及车载基础 TogetherOS 操作系统。自动驾驶最终目标一定要满足人类生产生活过程中多场景的应用，一个数据驱动的全场景全工况自动驾驶量产解决方案是有必要的。智行者创始人张德兆博士认为算法、算力、数据构成了无人驾驶大脑铁人三项。算法，即自动驾驶软件平台，需要实现从感知、决策规划到控制的全栈自动

151、驾驶算法的开发；算力即硬件平台，自动驾驶领域算法和硬件是需要长期互相耦合、互相优化的一个过程，所以软硬件一体的自动驾驶解决方案才是最终形态；进入 AI 时代之后数据尤为重要，因此应有一个自动驾驶数据闭环系统，数据系统应包含多场景数据，开放结构化的场景、半封闭非结构化场景以及三维场景。全场景自动驾驶技术的思考【张德兆|北京智行者科技有限公司 CEO&董事长】报告七上图是智行者无人驾驶大脑系统架构，分为车端和云端两部分。车端由基础功能和业务软件两部分组成，其中基础功能是自动驾驶基础相关的硬件和软件。硬件包括中央控制器、导航系统以及传感器；系统软件主要是跟外部合作，包括操作系统、中间层等软件；基础功

152、能则包括感知、定位、决策规划等功能软件。另有工具链，可进行数据挖掘、高精地图部署、传感器标定等。顶层系统架构模块化即用搭积木的方式做无人驾驶。自动驾驶基础软件与各个业务软件的解耦以及数据闭环，是实现多场景下自动驾驶应用的重要手段。整理：李佳伦9091类脑计算论坛专题论坛04类脑计算是国际半导体协会确定的后摩尔时代两个最有前途新技术之一（另一是量子计算），是借鉴脑科学基本原理，打破“冯诺依曼”架构束缚，发展的新型计算技术。当前欧盟、美国等均斥巨资长期支持此研究，该研究也是中国脑科学计划的主要研究内容之一。但是这项仿生视觉片上系统芯片【吴南健|中国科学院半导体所研究员，中国科学院大学教授】报告一【

153、研究背景及意义】吴南健针对新一代感存算一体的视觉芯片设计领域，为了解决视觉芯片中传感、处理、存储和传输的数据量大、算法处理实时性要求高和功耗大等问题，剖析了视觉芯片架构演进的过程，引入了全脉冲型仿生视觉系统芯片的概念，视觉图像获取、处理、存储和传输均采用脉冲形式的信号，有效地平衡了视觉芯片的计算能力、存储容量和能耗的关系，使视觉芯片可实现模仿和超越人类视觉系统的功能，部分性能实现了国际领跑。【研究方法】吴南健将人的视觉系统机理引入视觉芯片设计过程中，视觉芯片集成了仿视网膜图像传感器和仿视皮层的智能图像处理器，可实现边缘计算型感存算一体化的仿生视觉片上系统芯片。针对视皮层神经元和突触数量多，而芯

154、片具有运算和传输速度快的特点，必须采用集成电路时分复用技术来模仿人的视皮层，实现边缘型的视觉芯片。吴南健认为视觉芯片包括视觉图像获取、图像增强、特征提取、图像识别四个功能，由于类视网膜【总结及展望】吴南健介绍了团队近几年设计灰度型和全脉冲型仿生视觉芯片的创新成果，芯片可实现每秒1千帧至10万帧的图像获取和船、人脸等目标检测，精度可以超过百分之九十几，部分性能超过同时期国际同行的成果。吴南健认为未来视觉片芯片将进行向高性能感存算一体视觉系统芯片发展，采用左、右脑融合架构、三维堆叠和基于新材料的一体化集成方法会成为趋势；芯片的智能化将从简单的识别检测向语义理解、情感计算等更高的认知能力方向发展。研

155、究目前处于起步阶段，尚未形成公认技术方案。本论坛邀请学界和业界的专家从为什么（why）？做什么（what）？和怎样做（how）？全面探讨本领域最新进展、面临的主要挑战和可能的解决方案，以及未来广大的应用潜能。的视觉传感器、视觉处理器和存储器分别采用不同设计方法和实现工艺，通常采用视觉像素阵列和视觉处理器分离的架构；采用二维处理单元阵列、一维处理单元阵列和处理器分别完成不同的视觉图像处理功能；用近存储处理的方式实现高速的大容量数据交互。视觉传感器可以获取脉冲或灰度图像，多级异构方式的处理器可以完成图像增强处理、基于传统的计算视觉和深度视觉神经网络的图像特征提取和识别检测，可实现超过每秒1千帧图像

156、获取和分类检测的性能。基于动态忆阻器的高阶复杂度类脑计算【杨玉超|北京大学教授，智源青年科学家】报告二【研究背景及意义】杨玉超指出现有计算系统的复杂性与适应性以及所表现出来的智能水平都是来自于软件层面，是人来赋予的。而人类等生物智能系统每一个层级都有内在复杂性和适应性，或者智能计算能力。比如在细胞层面上，突触具有丰富的可塑性，神经元具有非常复杂非线性计算功能等等。引入忆阻器动力学特征可以增强硬件计算系统的功能；随着器件的复杂性更高，在实现类似功能的情况下用更少的器件或者更小规模电路，从而大幅度降低硬件开销。【研究方法】利用相变忆阻器的电导漂移特性可以高效地实现强化学习中资格迹函数的计算，通过器

157、件的简单操作实现软件中非常复杂的计算功能，并可以应用于离散空间和连续空间的强化学习问题。二阶忆阻器构建的储备池（Reservoir）所具备的短时可塑性和非线性可以将时间维度输入信息投射高维的空间，输出的高维向量通过突触层进行处理，从而实现高精度的分类和识别。进一步地堆叠硬件构建多层储备池，可以获得更强的、层次化的信息处理能力。三阶忆阻器中的混沌现象，可以用来高效求解优化问题，同时避免陷入局部的极小值。根据连续空间或者离散空间的优化问题能量函数，将其一阶导数映射到忆阻器阵列组成的暂态神经网络上。通过阵列对角线上忆阻器的自反馈使得网络处于混沌的状态，而随着自反馈连接强度降低暂态的混沌逐步收敛，最终

158、成功找到问题的最优解。忆阻器多种特性的结合可以用来高效地实现 AI 系统的不确定性量化。利用忆阻器多值特性，实现高效的卷积层及预测网络，对分布内的样本进行高精度的推断。同时利用特定状态下的随机性构建扩散网络，用来捕捉模型不确定性，从而对分布外的样本进行识别。与 GPU 相比，利用忆阻器动力学特征的不确定性量化实现在时间和能效方面实现500倍和100000倍以上的提升。9293【研究背景及意义】通常，水分子、波浪、洋流等不同尺度上水的运动有着不同的规律，就是所谓的尺度分离。在特殊的高温高压状态下，水分子构成大小不一的集团，最小从几个分子所构成的小集团，最大到整个系统所构成所有分子，都共同参与密度

159、的涨落，不再有尺度的分离并受到相同规律的制约，此时就处在一种临界状态。临界状态是从无序到有序的边界，它的特殊性就在于系统的宏观特性在这个边界发生剧烈的转变，变成有序的超临界状态或者无序的亚临界状态。神经科学的实验证实，大脑皮层正是组织于临界状态。而自组织临界状态（Self-organized Criticality）理论揭示了自然界中临界状态产生的原因，即通过适当的动力学调控机制，系统会自发地向临界状态演进。临界状态与神经网络中的信息传递【余山|中科院自动化所研究员，智源研究员】报告三【研究方法】余山团队认为，人工神经网络所处的状态对其性能的发挥具有非常重要的作用。以连接权重的谱半径（spec

160、tral radius）为1来表征存储池计算模型（reservior)的临界状态，他们证实模型处于临界状态时错误率最低，稍微偏离临界状态就会导致错误率成倍的提高。同时，余山团队正在研究人工神经网络中信息逐层传递过程中出现的梯度消散问题与系统临界状态的关系。他该团队利用突触可塑性的原理，设计了表征神经网络与临界状态距离的损失函数，使得网络在训练过程当中自发地朝着临界状态演进。该方法可以有效克服深层网络中的梯度消散问题，促进神经网络的学习，并避免了 batch normalization 计算等额外开销。【总结及展望】临界状态是脑在处理信息过程中普遍存在的机制，余山团队认为将自组织临界等神经网络动

161、力学机制和神经形态芯片结合将是很有前景的研究方向。【研究背景及意义】类脑（brain-inspired）计算试图探索脑科学的奥秘并用机器模拟生物神经网络的结构和能力，与人工智能、计算神经科学等关系密切。大规模类脑计算平台建设对于类脑计算的研究与应用具有非常重要的意义。10亿神经元类脑云平台【蔡炎松|中国电子科技南湖研究院类脑实验室主任】报告四【研究方法】南湖类脑云平台构建在由1600个类脑计算单元（BCUs）所组成的大规模低延迟网络之上，可以分为基础设施即服务（IaaS），平台即服务（PaaS）和软件即服务（SaaS）三个层次。类脑云托管服务通过虚拟化方式来管理计算、存储和网络等资源；容器化的

162、编排工具和作业调度支持多样化的深度学习和脑仿真任务；在线 IDE 服务为用户提供开箱即用的开发环境和图形化的界面，并可以通过 colab UI 自定义深度学习模型和脑仿真网络。南湖统一软件框架支持深度学习、脉冲网络学习和局部学习等计算范式，同时支持大规模生物神经网络和【总结及展望】展望未来，南湖云平台预计在2022年第三季度支持大规模脑仿真和预训练模型的推理；在2022年底实现深度学习模型的训练，以及脑仿真和机器学习相统一的 colab 开发环境。随机网络的仿真。南湖局部学习算法库，支持预测编码（predictive coding）和均衡传播（equilib-rium propagation）

163、等新颖的局部学习方法，仅仅依靠局部信息实现网络权重的更新。该局部算法框架也对已有算法（均衡传播）框架提速两倍。南湖类脑云团队通过创新资源分配方案和通信机制实现了更低的通信时延，成功实现在猕猴视觉皮层网络仿真上达到最优速度。除此之外，类脑云平台概念验证任务中，手势识别以及基于 yolov3的图像识别等多种神经网络应用的性能评估中获得最优的能效比。9495【研究背景及意义】在人工智能发展的今天，面对各行各业多元化业务需求，为更好解决算力困境、场景困境、能耗困境等问题，灵汐科技开展了类脑计算领域的研究，研发并量产了 KA 200类脑芯片，KA 200灵活应变的强大功能可大幅加速各种应用的创新，可以广

164、泛应用在传统AI应用、脑科学和脑仿真，以及异构融合类脑计算等领域中，该研究成果两次登上Nature期刊，填补国内类脑计算相关领域的空白。KA 200赋能类脑计算【华宝洪|北京灵汐科技有限公司副总经理】报告五【研究方法】类脑计算，是借鉴生物神经系统的信息处理模式和结构的计算理论、体系结构、芯片设计以及应用模型与算法的总称。利用类脑计算，人类可以实现机器的自感知、自适应以及自驱动。类脑计算既适用于处理复杂环境下非结构化信息，又有利于发展自主学习机制，甚至有望最终发展出人类大脑的创造性，进化出新的智能体，打开通用人工智能的大门。类脑计算的核心要素包含：稀疏、时空相关、抗噪音、以及近似计算四个特点。【

165、总结及展望】灵汐科技将深耕类脑计算领域研究，研发出更多技术先进、性能优异的类脑产品，秉承开源开放、合作共赢的宗旨，积极与合作伙伴构建和发展类脑生态，研发开源脑仿真平台和类脑计算训练框架，引导并支撑类脑计算的应用落地，与合作伙伴一起促进类脑产业发展。灵汐科技类脑芯片 KA 200，是类脑计算领域的智慧成果。KA 200基于全新的存算一体、众核并行、异构融合架构，能高效支持深度学习神经网络、生物神经网络和大规模脑仿真。整个单芯片在稠密模式下集成25万神经元和2500万突触，在稀疏模式下可扩展支持200万神经元和20亿突触的集成计算。运行时，计算能力可以达到16TflopsFP 16，32 Tops

166、INT 8，最高功耗不超过14瓦，最低功耗仅为1瓦。整理：王光华、马瑞军主宾国论坛：中国-以色列人工智能创新专题论坛05利用人工智能解释多智能体决策【Sari Kraus|Professor of Computer Science at Bar-Ilan University】报告一【研究背景及意义】多智能体环境通常可以由自动系统和人类组成。在这个环境中做出决定的人工智能系统应该在可能相互冲突的智能体偏好之间取得平衡。通常把这个人工智能系统称为一种“原则”，而这种原则做出的决定很有可能并不能让所有人都满意。因此，多智能体系统中解释决策虽然具有挑战性，但重要性毋庸置疑。相较于 XAI，可解释的多

167、智能体系统环境（xMASE）除了需要解释人工智能系统的黑箱，还需要考虑到公平、嫉妒和隐私等属性，以提高用户的满意度。【研究方法】解释偏好驱动的日程安排Sarit 与 J.P.Morgan 的团队联合开发了 EXPRESS 系统，该系统能够在有限的资源下，给员工分配他们去办公室的日子，并就未满足的偏好给出可用的调度解释。由于很难满足所有员工的要求，所以这里的原则是按照员工提交的偏好的重要性类型进行排序。在测试系统性能时，研究人员给出了三个EXPRESS系统的解释和三个由人类专家做出的解释，然后让人类主体选择他们喜欢的解释，并进行排名，结果显示，排行的前三名，该系统的解释被选择的次数能排到前三，这

168、也很好地表明，对于一个完整的调度使用系统而言，正式生成的解释必须能够向人类解释这个系统。9697多智能体强化学习强化学习在多智能体系统中非常重要。然而，一旦我们完成了学习并产生了策略所有智能体的联合策略，就很难理解发生了什么，因为这涉及到了组合的性质，可扩展性等等。因此，他们首先建立了一个策略的抽象（abstraction），观察抽象情况的状态，以搜索和救援为例，会产生两种类型的解释：一个是策略总结，通过搜索抽策略的策略图，寻找最可能的路径，提取智能体合作任务序列，然后生成一个图表展示给用户。另一种类型的解释是基于查询的解释。他们对116名参与者进行的用户研究，并且发现：向用户提供解释时，研究

169、者们不仅希望看到他们是否对解释感到满意，而且希望知道多智能体系统是否帮助了他们。通过实验，他们得到结论，当使用多智能体解释时，与单智能体解释相比，有更多的问题被正确回答，在这种情况下，用户对系统提供的解释很满意。【总结及展望】Sarit 与她的团队以及合作伙伴们开发了EXPRESS系统，并有效验证了在这个系统的解释性。同时他们通过对用户的满意度反馈的调查，研究基于查询的多智能体解释，并发现多智能体系统因为回答问题的正确率更高，而更加受用户欢迎。9899博弈论在智能体应用的数据科学挑战【邓小铁|北京大学教授】报告二【研究背景及意义】本文关注的是当人们拥有私人数据时，数据科学对人工智能体的博弈论方

170、法的挑战。2018年生效的一般数据保护条例以及本次的新冠疫情，分别揭示了数据安全的重要性，和人们对经济和社会活动数字化的迫切需求。二者之间形成一种博弈关系。因而一个问题顺势出现：博弈论中是否有关于数据隐私以及数字化的问题可以研究？【研究方法】无政府状态下的市场价格这个问题在算法博弈论中有很多研究。解决均衡（equilibrium）这样的问题要考虑两个方面，一是个人效用的优化，二是社会福利的优化。于是，数据隐私成为社会个体和社会效用最大化的问题。第二价格拍卖在这里，可以观察人们的价值分配，并得到一个启示性的原则（revelation principle）个体能够增加的预期效用不应超过他在诚实

171、和服从的情况下得到的效用。【研究方法】基本的拍卖中，如何学习分配？利用迈尔森吸纳的贝叶斯认识论，研究买方的最优策略。他们观察买方是否如实地提交了数据，最终发现这个案例和过去谈及真实性拍卖时的先验假设不一样。这个例子在贝叶斯拍卖模型和重复拍卖模型方面给了他们一个相当新的理解。它向人们展示了在隐私和共同先验优化以及共同先验大均衡方面的理解。他们也关注了赞助搜索拍卖这样的单项拍卖。数据隐私成为社会个体和社会效用最大化博弈的关键。比如竞标分配的变化会达到竞标博弈的均衡。隐私数据同时，还有隐私数据影响，如不同的私人数据使事情结果不同这个现象。以市场均衡为例，参与者如果有隐私数据，那么当他悄悄改变偏好时

172、，均衡会被破坏。【总结及展望】通过算法和数据的博弈，研究者试图进行信息动态化，他们的目标是如何保持社会和经济效益与数据隐私相结合的要求。在他们的研究中，可以看到在交换经济里效用报告分配改善了均衡，同时在数据隐私法要求下的学习也会改变博弈论问题，机器学习在市场博弈中会越来越有用。他们目前正在研究社会福利的优化和与数据隐私要求的限制，以及市场理论会在这些方面产生什么。100101机器学习能发现自然规律吗？【Yair Weiss|Professor of Computer Science at the Hebrew University】报告三【研究背景及意义】近年来，机器学习越来越多地用于预测任务

173、和自然语言处理，于是能否用机器学习来进行科学发现就成为下一步的应用目标。很多人的乐观地认为可以利用一些技术，如深度自动编码器来进行科学发现，但这种方法得到的“科学发现”并不符合数学逻辑。本文所做的研究反驳了这个不合理的观点，并找到一种更为合理的方法，使得应用机器学习进行科学发现成为可能。【研究方法】第一部分，Yair 首先反驳了近年来，人们不合理的乐观观点。Yair 认为作为整个研究路线的动机，约翰内斯-开普勒可被看作第一批数据科学家之一，因为他的工作同样是分析别人的数据得到自然规律。而他所做的工作，在今天开来就是非线性降维。目前，人类已经成功地通过分析高维数据 x，正确找出潜在映射 g 和潜

174、在的低纬表征 z。所以人们相信机器学习也能发现正确的表征，并训练一个自动编码器来重建高维数据，来得到相应的潜在低维表征 z。然后利用这些得到的 z 进行研究。但这种做法是不符合数学逻辑的，因为自动编码器得到的低维数据未必就是真正的 z。Yair 给出了三年前的一篇 ICML 的最佳论文，来佐证他的观点。第二部分，同时，Yair 与他的团队也在进行实验，并展示了他们的一些结果乐观的实验。自动编码器求解时要解除纠缠问题，之前人们试图添加正则器来解决，但实验表明正则器的作用有限，Yair 等人认为，在两个假设下，多智能体环境下的解除纠缠是可能的。这两个假设，一个被称为局部等值。这是一个人们在数学中经

175、常使用的假设。另一个则是非常经典的非高斯性假设。在这两个假设以及无限数据下，他们得到了一个可能性定理。他们的实验表明，假设局部等距的方法能在基线自动编码器失败的情况下取得成功。【总结及展望】Yair 与他的团队提出了在局部等值假设，非高斯性假设以及无限数据下的一个可能性定理，这个定理为应用机器学习来进行科学发现目标的实现提供了合理的可能性。未来，他们将继续研究其他可以优化实验结果的假设。102103最优运输的机器学习应用【查宏远|香港中文大学（深圳）校长学勤教授】报告三【研究背景及意义】最优传输是一类古老的数学问题，当下在机器学习领域被广泛应用。18 世纪，法国数学家蒙日（Monge）提出了著

176、名的最优传输问题：概率分布和定义在两个不同的空间 X 和 Y 上，将 X 中 x 处的单位质量移动到 Y 中 y 处的代价为 c(x,y)，我们需要找到满足该约束的最优传输映射。随后，Kantor-ovich 将该问题松弛到允许 x 被映射到 Y 中多个位置，从而将其转化为了一个无限维线性规划问题。在许多机器学习应用中，最优传输依赖于 Wasserstein 距离的形式实现，该距离被用来衡量两个概率分布之间的差异。其中，c(x,y)可以是欧氏距离的平方。相较之下，KL 散度等度量方法忽略了底层空间的度规结构。围绕最优传输问题，查宏远教授针对能量模型的联合估计和隐式生成模型、没有对应关系的

177、回归问题、从聚合数据中学习随机动力学和高维 Fokker Planck 方程的数值解等问题展开了研究。【研究方法】能量模型的联合估计和隐式生成模型假设是参数为的能量函数，随机变量 x 的归一化的密度函数，其隐式生成模型可表示为：给定独立同分布的样本和经验分布，我们旨在学习能量模型。数据的负对数似然可写作其中，我们可以较为容易地对关于数据的期望进行采样，但是很难对关于当前能量模型的期望进行采样。为此，查宏远教授团队尝试使用 MCMC 或生成模型采样。假设有显式的能量模型和隐式前馈模型，令 S 为 Stein 差异（Stein Discrepancy），查宏远教授团队试图求解下面的

178、联合优化问题：通过优化正则参数，我们可以同时得到互补的显式和隐式生成模型。对应关系未知的回归问题在非线性回归问题中，Y 是关于 X 和 Z 的因变量，为未知参数，为噪声。考虑（X,Y）和 Z 之间的对应关系未知的情况，即我们将该问题涉及的两个数据集定义如下：上述两个数据集中数据点的对应关系、排列未知，代表某一个对象的特征。此类问题在联邦学习等场景下十分普遍。为了求解满足的和，我们将优化目标重写为其中，。令 S 为对应于的排列矩阵，则Birkhoff 定理指出，当（X，f）为紧致系统，且 X 是第二可数的，则 Rec(f)。因此，我们可以求解下面的优化目标：在通过交替最小化方法优化

179、该目标时，算法很可能陷入局部最小值。为此，查宏远教授团队提出固定 w，通过变量消除法令，将优化目标转化。104105由于 LP 解的存在，查宏远教授进一步对该目标进行了熵正则化，令，其中。至此，我们得到了可微的目标函数，可以通过最优传输得到其梯度。从集合数据中学习随机动力学Ito 扩散问题可写作：。其中，g 为漂移系数，为已知的扩散系数。令p(,t)为的密度函数，则Fokker-Planck 方程可写作我们的目标是根据给定的数据估计漂移系数 g。从集合数据中学习随机动力学在这里我们考虑使用两种数据的情况：（1）轨迹数据：从轨迹中采样离散样本（2）集合数据：从p(,t)中采样。该技

180、术可以被用于单细胞 RNA 的测序问题中。针对集合数据，在时刻，给定，我们要计算真实时间边缘概率期望和模型预测值之间的 Wasserstein 距离：为找到最优的，整体的目标函数是所有时刻观测情况下的 Wasserstein 距离之和。此处的 Wasserstein 距离可以通过 Fokker-Planck 方程计算：查宏远教授团队采用欧拉-丸山方法从预测的时间边缘概率分布中采样：高维 Fokker Planck 方程的数值解Fokker-Planck 方程（FPE）是密度的抛物型演化方程（Parabolic evolution equation）：在随机微分方程中，是标准的布朗运动

181、。是 Ito 扩散问题的时间边缘分布，假设漂移系数是势函数 V 的梯度。假设的维度很高，无法进行时间离散化。由于 Fokker-Planck 方程可以被看做梯度流，在给定 V 的情况下，可通过下面的方法计算相对熵函数：其中，为吉布斯分布。在 Wasserstein 流形（所有概率分布的二阶矩有限）上的该相对熵函数的梯度流可以到处下面的 FPE：查宏远教授团队提出了参数化的 FPE，旨在通过前馈的近似时间边缘分布、t 时刻的 FPE 的解；为参数构建常微分方程（ODE），并求其数值解。此外，参数化的 FPE 是有限维的 ODE，相较于原始的 FPE（无限维 ODE）实现了降维。查宏远教

182、授团队为在每个时刻 t 构建了生成模型。为此，查宏远教授构造了 Wasserstein 流形的有限维参数化的子流形，推导出了相对熵在该子流形上的梯度流，设计了时间离散方法来计算其解。令，我们有【总结及展望】最优传输技术在机器学习领域应用广泛，查宏远教授团队将该技术成功应用于能量模型的联合估计和隐式生成模型、对应关系未知的回归问题、从集合数据中学习随机动力学和高维 Fokker Planck 方程的数值解等课题中，有助于解决联邦学习、RNA 测序等领域的实际问题。106107【研究背景及意义】Yoav Goldberg 介绍了他在机器阅读理解基准方面的相关工作。EMNLP 2021中的

183、一篇论文调查了60个机器阅读理解的英语数据集。关于什么是理解文本，社区总结出的答案是，能够回答关于该文本的问题。机器阅读理解的实用任务和挑战性基准【Yoav Goldberg|Associate Professor of Bar Ilan University】报告五【研究方法】Yoav 提出，文本理解的基准应该是“完全基于文本，基于所有文本，只基于文本。文本理解的核心是探索文中实体之间的关系。研究者标记了文本中的所有实体，它们之间存在一定的联系，经过 NLP 处理过，比如 SRL语义角色标签，这些关系可以通过动词来调节。但 Yoav 认为，QA 在测试机器文本理解方面存在一些问题。首先，有些

184、问题不需要了解文本，通过世界知识也能够回答，比如下文中提问的伊朗的总统是谁。其次，人为创造的问题通常可以通过词汇的相似性来回答，比如提问，谁被允许应征入伍？可以看到几乎完全相同的措辞出现在课文中。第三，有些问题可以通过捷径和启发式的方法得到答案。比如提问抗议是在哪里发生的。其中，“where”暗示需要回答一个地点，而文中只有一个地点名词，因此即使并不理解全文也能够回答。最后，每一个问题可能会有多种答案。人类会随意选择一个正确的答案，但机器的答案会受到数据集情况的影响。综上所述，回答问题不能等同于理解文本，而应该是同时理解文本和问题，因为问题本身也带有附加的提示信息。第二，共指关系，即所指代的意

185、思相同。判断共指关系比动词关系更难，在 NLP 领域，这是一个众所周知的成熟任务。第三种，由介词关系调节，诸如 in，on，of，under，with 等连接词连接构成的关系，这当中也分为显性关系和隐性关系。人们在阅读时可以下意识地识别出介词指代的关系，读出字里行间的意思，但是对于机器来讲就非常困难，因此恢复这种潜在的介词关系也是一个核心的语言理解任务。108109对此 Yoav 所在团队发表了名为“Text-based NP Enrichment”的工作。输入为一个文本和一系列实体名词。输出为能连接他们的介词。前提是这些文本属于自然文本，无人为的提问，很难通过启发式的方式“作弊”，大部分是明

186、确的答案。数据情况如下，一个稍长的文本，当中所有的名词性短语（NP），以及共指关系链（相同的实体）。点击一个 NP，就会出现围绕着这个词的各类关系短语。比如 expulsion，会出现 expulsion of students，expulsion by university 等短语。这是人类在阅读时能自动判断出的内容。在相关测试中，团队搜集了大量新语段，其中有大量的电影对白和 Reddit 帖子，包括大约5000个文档，大约10000个段落和大约100万个 NP-NP 关系。相关的测试排行榜中，人类性能达到94%，开箱即用的 NLP 模型表现不佳，只有56%。表明模型表现还有巨大的增长空间。

187、【总结及展望】总结来看，问题回答对于机器阅读理解评测来讲并不最优解。Yoav 团队认为，恢复实体之间的介词关系是一个更好的判断机器阅读理解能力的方法。如果机器能做到这一点，那就意味着可以更好地理解文本。这种判断基准更加自然、全面、有难度且有用。（相关数据集和排行榜http:/yanaiela.github.io/TNE/）110111邓小铁|北京大学教授查宏远|香港中文大学（深圳）校长学勤教授卢宗青|北京大学研究员Sari Kraus|Professor of Computer Science at Bar-Ilan UniversityYair Weiss|Professor of Comp

188、uter Science at the Hebrew UniversityYoav Goldberg|Associate Professor of Bar Ilan University人工智能涉及计算机视觉、自然语言处理、强化学习等多个子领域。近期，Deep-Mind 等机构试图将各种技术相结合，构建更通用的智能体。这条道路是否可行？Weiss：如今，许多研究领域之间的距离越来越近。例如，许多计算机视觉和自然语言处理的报告内容都有很多相似之处。一方面，研究的工具趋同令人遗憾；但另一方面，不同领域之间有了共同的研究语言，交互变得更加容易了。Goldberg：自然语言理解和交流沟通有赖于与现实世

189、界的交互。监督学习需要大量的标注数据，带来了人工标注成本，智能体可以更便捷地提供更多的训练数据，我们乐见其成。Kraus：DeepMind 主要尝试在游戏环境下整合这些技术，训练模型。但是游戏环境被定义地很理想，很多工作的成功都是由于超参数的选择或对大量计算资源的使用。人们距离创造能够自主学习的通用智能体还很远。即使是在游戏中，通过强化学习训练智能体下围棋也需要向智能体给定游戏规则和环境，需要进行大量的训练。但是，我们确实也需要考虑各种各样的可能性。查宏远：近年来，强化学习与自然语言处理的结合十分成功，我们可以向系统给出目标，最终根据这些指令得到策略。此外，Google、Facebook、微软

190、等机构的研究者也通过向系统给出自然语言描述得到生成的图像，类似的工作还可以被扩展到视频生成领域。自然语言是模糊抽象的，这也许比向智能体给定严格的规则更恰当。在过去，计算机视觉、自然语言处理、强化学习等领域相对独立。近年来，越来越多的工作将其结合起来，例如：使用视频作为控制机器人的输入；将强化学习与自然语言处理技术结合，学习机器语言。这有望成为人工智能领域的新的主流研究范式，催生更通用的智能体。圆桌讨论112113当下的开源社区和数据共享机制还存在很多问题。例如，一些医学数据很难被公开，涉及到政策、隐私等约束。我们可以采用哪些技术获取更多可用的数据，并共享它们？Goldberg：大模型和海量数据

191、都很重要。我自己参与到了开源和数据共享运动中。代码开源在人工智能领域很普遍。而就数据而言，确实存在一些法律、隐私问题，其中有一些担忧是合理的。此外，在自然语言处理领域中，专用模型也十分重要。我们很难真正接触并探索 GPT-3这种大模型，尽管现在情况有所好转。查宏远：在中国，获取医学领域的数据相对困难。由于隐私、行政障碍等问题，许多医院并不愿意分享他们的数据。联邦学习在一定程度上可以在不将数据从本地取出的情况下实现协作，这十分有用。中国的监管者也采取了一些措施，但是医院发布的数据并不能满足研究者的需求，许多真正有用的数据并没有发布。因此，中国的研究者还很少开展多中心的医学研究，而这十分重要。此外

192、，研究者们对生成模型也有极大的兴趣，推动了科学仿真等领域的发展。如今，人们利用人造合成数据帮助许多下游应用，例如：实现更鲁棒的图像分类。未来，人造合成数据的应用潜力还很大。邓小铁：实际上，中国官方机构曾耗费巨大的成本收集数据。但是人们并不知道怎么利用这些数据。而医疗机构的数据则较为私有，一些医院不愿意其它的研究者使用这些数居。Weiss：我和 MIT 的研究者一同收集的一些数据集曾经因为一些政治上的原因没能得以公开。如今公众也越来越关心自己的数据将被如何使用。我并不建议处于研究生涯早期的研究者开发新的数据集，只有大的机构和财团有能力做这件事。卢宗青：一些研究机构将数据视为自己的而资产，我们需要

193、设计一些机制激励各方参与到数据收集和分享中。Weiss 教授提到，通过机器学习发现自然规律时有一些大的问题，能否更详细地解释一下？Weiss：我和神经科学的研究人员有所合作，他们从利用猴子做的实验中收集了海量的数据，希望我能够帮他们分析数据，找到数据中的低维表征；还有一些医学研究人员希望我们能帮助他们找到攻克癌症的方法。作为人工智能研究人员，我们可以为他们的科学发现提供工具。除了数据和算法研究上的合作，中国和以色列还能在哪些方面开展合作？邓小铁、查宏远、Weiss：国际课题申报、学生的联合培养、交换研究的思路和意见。数据偏移、分布外数据对构建更通用的机器学习算法是否是最重要的问题之一？Weis

194、s：泛化性是机器学习领域的经典问题。但是这种说法可能过时了，这仍然是数据分布的问题。深度学习算法对于分布中的无关变量十分敏感，我们不能为算法的失败找借口。Goldberg：在讨论分布外问题时，我们首先应该明确定义什么是分布，然后才能知道什么是分布内，什么是分布外。假设我们有一些图像数据，我们如何描述其分布、特征、采样过程。整理：牛梦琳、李梦佳、熊宇轩114115产业论坛中关村昇腾人工智能产业分论坛专题论坛张迪煊指出人工智能在从局部探索走向千行百业的过程中，也暴露出算力昂贵、人才稀缺、开发难度大等问题。因此，打通 AI 技术生态与AI商业生态便成了重中之重，而这需要政、产、学、研、用协同联动，持

195、续打造极致性能、极简易用的全场景人工智能平台，以根深促叶茂，夯实数字经济发展基础。昇腾 AI 新生态，向上共赢新时代【张迪煊|华为昇腾计算业务总裁】06报告一【研究背景及意义】当前人工智能从单模态有监督学习迈向多模态自监督学习，多模态预训练大模型研究逐渐增加，同时遇到很多挑战，如：多模态语义鸿沟、多模态差异性大、跨域多、复杂度高等。自动化所团队训练的“紫东太初”多模态大模型可以实现以文搜图，精准实现图像搜索，以及不同模态之间自动的转换，整体性能全球领先，在 ACM MM 2021年和 ICCV 2021预训练模型和场景理解都取得了第一名的成绩。同时还创建了多模态人工智能产业联盟推动科研和行业的

196、快速发展。“紫东太初”多模态大模型技术探索与实践【王金桥|中国科学院自动化所武汉人工智能研究院】报告三【研究方法】自动化所团队训练的“紫东太初”多模态大模型首先通过图像、文本和语音进行跨模态统一表征和学习，投影到同一个特征空间，在进行弱相关自监督学习，实现 Token 级别、模态级别和样本级别自监督相互的自监督学习。然后采用海量弱相关图文音还有视频数据，进行多种模态之间数据直接进行训练。有效学习机器对知识、目标、场景、实体的认知。【总结及展望】自动化所团队训练的“紫东太初”多模态大模型整体效果实现全球领先水平。周瑞指出人工智能在中关村产业生态方面目前已经囊括了企业服务领、智能医疗领域、智能金

197、融领域、智慧交通以及智能视听在内的多个领域，产业优势明显；在服务体系方面提出“4+2”体系服务双创主体，“4”是科技服务股权投资、科技金融服务、科技专业服务以及科技园区发展，“2”是区域协同创新以及国际创新网络；在空间落位方面中设置了人工智能产业聚集区，保证相关产业发展的便利性；在专业平台方面中关村拥有大量专业硬性服务平台，特别是细分领域的服务平台，助力人工智能其产业快速发展。中关村人工智能生态创新分享【周瑞|北京中发展智源人工智能科技发展有限公司，董事长兼总经理】报告二116117【研究背景及意义】格灵深瞳是一家擅长三维计算机视觉和行为识别技术的计算机视觉公司，将视觉技术和大数据分析技术与应

198、用场景深度融合赋能数字化转型和智能基建行业。目前我国车路协同发展不平衡，道路硬件基础设施的智慧水平低，为了提高道路对于行车信息识别能力和精度，格灵深瞳将计算机视觉和毫米波雷达融合，帮助高速公路、十字路口等基础设施实现超视距、智能化检测。同时为了解决当前体育教学中，教师难以一对多精准教学以及学生锻炼缺乏科学性和趣味性的问题，将人工智能引入体育教育场景，基于专业数据集开发出不同体育教育细分场景的肢体和动作检测应用，帮助体育教育朝智能化、个性化方向发展。公司连续两年实现经营性盈利，并成功 A 股上市。AI 应用创新持续推动算力需求升级【赵勇|格灵深瞳 CEO】报告四【总结及展望】格灵深瞳与华为合作将

199、计算机视觉和毫米波雷达融合，让道路具备在夜晚、大雾、下雪、下雨等极端天气环境中超视距检测车辆信息的能力。同时，在人工智能赋能体育教育行业时，建立全世界最大三维人体运动数据库，并提供相应的肢体和动作检测算法，减轻教师的教学压力，提高教学效果。【研究背景及意义】人工智能触觉有多维感知，分布式感知的特点，在触觉测量时多个测量变量之间容易出现干扰和互扰，导致测量误差。为此他山科技提出了多功能层的触觉感知算法模型，同时开发的触觉专用芯片性能处于行业领先水平。人工智能触觉基于应用方向分为主动触觉和被动触觉。主动触觉可以用在机器人或者机械臂主动动作部件中，如灵巧手，以及元宇宙或者混合现实概念的触觉相关应用中

200、；被动触觉用于空间中多层人机智能交互及材质识别等领域。人工智能触觉与产业化应用【马扬丨北京他山科技有限公司 CEO】报告六【研究方法】马扬认为人工智能触觉需要专用的分布式数模混合类脑芯片支持，能够全功能模拟人体三类神经元，传入对应感知，中间对应计算，传出对应控制。同时，逻辑四核硬件架构兼具神经态感知和拟神经态的计算和控制，满足应用的同时降低神经元网络以及样本训练需求。基于触觉的分布式类脑芯片可通过训练具备不同的功能。对比人工智能视觉常见的单芯片大黑盒式的解决方案，触觉更适合采用小黑盒，对不同层次的芯片功能进行独立定义及训练，在实际应用中通过标准化大规模批量生产降低芯片本身的应用成本。【总结及展

201、望】他山科技致力于人工智能触觉行业，技术在行业内处于先进行列，开发出全球第一款数模混合 AI 触觉芯片：红宝石（Ruby）芯片。李科认为这一轮人工智能产业发展主要得益于算力、算法和数据三个方面，随着模型越来越大，多模态数据数据量的要求也在逐渐变高，挑战主要来自数据标注、语码转换、政策法规影响，以及数据生成方面。李科认为可以依靠深厚的行业经验，采用更多国标标准来应对这些挑战。用数据创新唤醒 AI 算法生命力【李科|北京海天瑞声科技股份有限公司副总裁】报告五118119张存燕认为人工智能技术的发展、产业持续稳定和繁荣，离不开开发者人才源源不断的输入。华为今年推出了首届昇腾 AI 创新大赛，基于原生

202、创新昇腾全栈软硬件平台，将大赛打造成为具有国际影响力的人工智能领域年度例行旗舰赛事并且培养人工智能开发者人才，让大赛成为开发者智慧与创意迸发的竞赛擂台、风采与魅力展现的绽放舞台、生态各方观点与思想碰撞的交流平台。2022年昇腾 AI 创新计划【张存燕|华为昇腾生态发展部副部长】报告七整理：马瑞军专题论坛07在人工智能发展日趋深入的今天，伦理问题日益成为人工智能治理当中难以回避的议题。据不完全统计，迄今为止，全球范围内已出台的人工智能伦理（治理）准则已超过上百个，这些准则在多大程度上在人工智能治理实践中发挥了作用？人工智能伦理问题能否通过特定的治理工具得到解决？对于人工智能伦理，各国之间在认识与

203、实践层面上是否存在差异，又会对其治理带来怎样的影响？本论坛的主讲嘉宾，【研究背景及意义】在新一代人工智能发展的过程中，伦理问题备受各界关注，各国的政府、学术组织、国际组织以及企业界都在共同推动人工智能伦理治理的发展，促使该领域逐步从单纯的理念研究走向了落地实践。本报告面向人工智能伦理治理的实践环节对以下三点进行介绍：1）当下全球人工智能伦理治理的现状；2）中国的伦理治理实践；以及3）对中国伦理治理如何从理念走向实践的思考与分析。人工智能伦理治理从理念到实践的分析与思考【赵志耘|科技部中国科学技术信息研究所党委书记、所长，科技部新一代人工智能发展研究中心主任】报告一人工智能伦理、治理与可持续发

204、展论坛既有来自国内外高校和研究智库的资深学者，也有具备丰富实践经验的政策专家，他们将为大家介绍从人工智能治理认知逻辑与框架范式、人工智能伦理治理动机与方向、不同文化背景下的人工智能伦理认识、到中国人工智能治理现状与举措、人工智能评测平台构建等前沿议题，并展开圆桌对话，相信他们的智慧分享和思想碰撞能够给我们带来全新的启发与收获。主办单位：北京智源人工智能研究院承办单位：清华大学人工智能国际治理研究院、人工智能治理研究中心（北京人文社会科学研究中心）120121【总结及展望】该报告首先介绍了全球范围内人工智能的治理准则，特别是伦理治理的进展现状，也论述了中国政府、机构和企业在人工智能伦理治理方面所

205、做的工作。最后从全生命周期视角系统地论述了人工智能伦理治理今后应当如何实践。该工作对于指导全球的人工智能伦理治理实践的落地有重要意义。【研究背景及意义】随着人工智能技术的发展，AI 治理成为各国政府、国际组织、学术界和工业界所关注的重要领域，那么美国、欧洲和中国在 AI 治理上有哪些硬性或指导性的行为？硬法与软法在实践过程中孰更有效？他们的行为之间有什么可以互相借鉴的地方？本报告旨在对以上问题进行解答。人工智能治理的软硬法：三种途径【Wendell Wallach|卡内基理事会资深研究员，清华大学人工智能国际治理研究院学术委员】报告二【研究方法】1.人工智能治理的硬法与软法硬法（hard

206、law）指的是政府、立法机构、或国际组织通过制定有明确要求的法律和规定来确定AI治理过程中各主体的权利和责任。与之对应，软法（soft law）则是指各机构所推出的那些不具强约束力的、更加灵活多变的、指向具体专业情境的行动准则。一般而言，软法会包括：标准、指导方针、专业行为准则、实验室实践规范、安全保障原则、甚至学术文档发行准则等各方面。软法并非新事物，新的是我们如何在治理机制中运用软法，尤其是过程软法（process soft law）如工程设计中价值因素的嵌入（value added design），或者说使机器具有价值敏感性。对于软法而言，主体的自我治理、伦理委员会或技术机构监督、工程师

207、的价值嵌入设计等是主要的表现形式。2.各国在 AI 治理上的工作中国、欧盟和美国都非常重视人工智能的治理工作。中国在2021年提出的个人信息保护法以及2022年3月份提出的网络空间管理建议都是一些非常有前瞻性的导则；欧盟在软法的推广上也十分迅速，如2018年通用数据保护条例的设定，让各主体在进入欧盟市场之前便会进行 AI 风险的评估；而美国的 AI 治理则与美国在科技上的创新精神纠缠在一起，美国迅速的科技发展使得相应的政策管理显得有些落后，当下美国在缓慢地推进硬法，与此同时各公司和学术机构也在自觉地推进软法。另外，卡尔波普尔、迈克波兰尼都曾讨论过科学的不可预测性，那么它是可以治理的吗？人工智

208、能促进了创新和生产效率提升，同时我们也必须考虑到对公民的保护，这两个因素都必须被纳入思考范围。因此这就要求我们在一定程度上放缓步伐，运用软硬法完善治理，让我们在科学技术发展和执行伦理治理达成某种平衡。在中美科技可能脱钩的国际背景下，我们需要呼吁治理中不同价值的存在。综合来看，各国之间的互相交流和合作、国际非政府组织对 AI 治理的关注以及稳健的推进机制是实现AI治理越来越重要的措施。【总结及展望】本报告以 AI 治理中的硬法和软法作为切入点，以全球视野系统介绍了中国、欧盟以及美国在 AI 治理上的发展脉络、彼此的优势和劣势以及可能互补的地方，该报告从第三方的角度凸显了中国 AI 治理在世界背景

209、下的优缺点，引人深思。【研究方法】1.全球人工智能伦理治理现状据不完全统计，目前全球已经发布100多个人工智能伦理治理的相关文件。各国政府、国际组织、学术界和产业界四方已在宏观战略、具体措施层面上对人工智能伦理治理进行部署，并已产生出一批代表性文件和成果。在政府层面，美国发布总统行政令以推行可信赖的人工智能；欧盟提出人工智能法案进行风险分级人工智能处理；日本确定了“以人为中心”的人工智能社会原则。国际组织如联合国教科文组织和世卫组织也在AI技术的使用原则和健康数据收集等问题上提出建议。在学术界和工业界，斯坦福大学、兰德公司、IEEE、IBM、微软等高校、协会和公司也在 AI 算法的公平性、健康

210、度量、伦理治理、如何构建负责任 AI 等问题上提出建议。2.中国人工智能伦理治理举措与实践中国政府高度重视AI伦理治理工作，并从以下四个方面进行推进：1）成立新一代人工智能发展规划推进办公室、人工智能治理专业委员会、人工智能伦理分委会等各项组织以推进相关工作；2）发布新一代人工智能治理原则新一代人工智能伦理规范等实施治理文件，并研究起草人工智能伦理高风险清单以推进相关的监管工作；3）在新一代人工智能重大项目中部署人工智能伦理治理相关的问题研究；4）积极拓展同联合国教科文组织的合作、参与支持全球人工智能峰会、各大城市人工智能国际会议的举办并设立伦理治理分论坛。在学术界和工业界，北京智源研究

211、院、商汤、旷视、百度等机构和公司也对 AI 伦理治理进行了探索。3.人工智能伦理治理从理念到实践的分析与思考AI 伦理治理的基本宗旨是在保障人的尊严和权利的基础上让AI可以为社会的可持续进步发挥巨大作用，具体应从政策引导、原则规范、立法约束、标准制定等方面进行治理。该过程会因技术发展而循环往复，因此应当对其规律、边界进行把控，获得发展与治理的平衡，最终在鼓励引导与审查监督下实践伦理治理。122123报告九【总结及展望】本报告介绍了人工智能的发展趋势、人工智能产业的发展趋势、人工智能治理发展趋势，以及构建人工智能评测平台的基本思路。报告还将国内外大量的人工智能治理方案总结归纳为相关知识图谱，并进

212、行了相应的分析，提出构建人工智能评测平台体系造福人类。报告的判断和研究，对未来人工智能治理发展具有重要意义。【研究背景及意义】基于人工智能发展趋势判断：一是人工智能发展将势不可挡，弱人工智能普及速度加快，通用（强）人工智能技术可能会预期到来；二是人工智能自身产业与赋能产业发展的主旋律不变，人工智能产品将无处不在，智能时代的格局将逐步形成；三是未来国际竞争，除人才竞争外，人工智能“技术+规则”的竞争已成为定局；四是构建人工智能评测平台（体系），将造福未来。构建人工智能评测平台，造福未来【李仁涵|国家新一代人工智能治理专业委员会委员，上海交通大学人工智能研究院首席顾问教授】报告三【研究方法】1.

213、人工智能技术发展趋势研判：一是深度学习的基础理论不断深化，通用人工智能将成为一个长期发展趋势，自监督学习成为近期技术研究热点；二是人工智能技术将探索复杂系统中的数据与机理融合建模；三是多种人工智能技术将进一步跨媒体深度融合；四是智能机器人将进一步与人融合，并带来无限的发展空间与新场景的应用；五是人工智能芯片、类脑计算、量子计算等新型计算系统可能将实现技术变革；六是以深度学习框架为核心的开源平台将进一步大幅度降低人工智能技术的开发门槛等。在发展的同时，需要我们高度重视的是：从信息科技发展史看，尽管信息科技发展异常迅猛，但基本上安全可控。而人工智能发展却缓慢曲折，安全问题层出不穷。这两者的差别在于

214、，从信息革命开始，信息的三大理论就已经建立，即图灵机理论（1936）、香农的通讯理论（1948）、维纳的控制论（1948）。正因为有了坚实的理论基础，从而引导信息技术健康的发展。然而人工智能的发展则相反，它的基础理论至今没有建立。尽管经历了第一代 AI 的符号主义模型（知识驱动）和第二代 AI 的亚符号（连接）主义模型（数据驱动），但它们均具有很大的局限性，不能构成 AI 的理论基础。由于缺乏理论指导，AI 的发展处于难以控制的局面。2.人工智能产业发展趋势研判：一是人工智能产业发展将进入第二个阶段，未来将形成新的“爆发力”；二是随着技术不断融合于场景将推动数据服务向精细化方向转变；三是人工智

215、能物联网（AIoT）赋能实体经济，万物互联融入更多场景；四是人工智能更加深入大众生活等。3.人工智能治理发展趋势研判，随着人工智能技术发展，社会属性问题也伴随而来。主要有：一是安全问题，已经发生，主要涉及到国家安全、社会安全、经济安全、个人安全等方面；二是伦理问题，也已经发生，主要涉及到人们的隐私、公平、透明、歧视、就业等；三是不可控或变异安全问题，尚未发生，属于非常规问题，未来如果出现，有可能会不可控，对人与社会造成伤害等。为此，国际社会非常重视人工智能智能治理的问题，提出“技术+规则”的治理模式。截止2022年4月30日，我们总共收集了国际国内与人工智能治理有关的文本，共187个件，主要来

216、自国际组织，如：联合国、国际标准组织、A有代表性的地区和国家等。文本内容主要包括人工智能战略、规划、原则、宣言、法律法规、指南、标准等等，并进行了归类，并研判：国际人工智能治理工作正在加速可操作化；国际有关标准组织制定人工智能的标准进入了一个“井喷期”。当前对我国的启示是：急迫需要建立相应的“规则”，好处一是让人工智能可以持续健康发展；二是有利于国际接轨与全球化发展。即，使人工智能产品进出国门都有规则可依，相互尊重，找到合作发展的共同点。总之，未来人工智能治理的落地需要强大的基础设施支撑构建人工智能评测平台体系，谁拥有，谁即把握为未来。124125【研究背景及意义】算法偏见问题由来已久，有时甚

217、至会造成严重后果。这一问题可以通过技术和伦理规范来解决。然而，对于什么是日本人眼中的歧视的讨论则较少。此外，因为不存在普世的公平定义，日本的文化和西方文化中关于偏见与歧视的观念可能有所不同，而相关研究很多是在美国做的，有可能存在一些偏见，本研究关注亚洲情境。人们会对种族偏见、性别偏见和带有细微差异的偏见案例有不同的看法。研究旨在回答两个问题：算法察觉歧视有什么关键因素？日本人是如何看待算法偏见的？什么是日本人眼中的歧视？来自/对于算法偏见的含义【佐仓统|东京大学大学院情报学环教授前田春香|东京大学大学院交叉信息研究科博士生】报告四【研究方法】1.日本民众歧视观念问卷调查结果初报通过调查问卷

218、在线上召集了5000个参与者，问卷设计了十个相关案例用于评估算法偏见，划分为种族歧视和性别歧视两大类。用户在阅读每个案例之后需要判断案例描述是否属于歧视。调查中引入了价值观描述（对歧视敏感度、对科技的乐观态度、对人工智能的恐惧以及动物权利）和引入专业量表的方法（现代种族主义量表、性别差异量表）。调查结果显示，在涉及到种族歧视的案例1-5中，日本民众回答是种族歧视的答案数量远超过非种族歧视的受访者数量，但受访者本身的种族和结果并不具有直接相关性。在设计到性别歧视的案例6-10中，受访者性别对性别歧视的判断有很大影响，男性受访者有时无法在性别歧视案例上做出明确判断，而女性受访者会直接把相关案例识别

219、为属于性别歧视。【总结及展望】报告旨在通过一份调查问卷来阐明亚洲场景下日本人对歧视的看法，这一调查结果将帮助我们根据人口统计学信息来构思并制定专门针对用户、供应方或程序员的伦理教育项目。【研究背景及意义】人工智能具体技术应用在中国非常活跃，一方面带来很多的方便，可以提高各方面的效率，但是另外一方面也带来一些治理问题。人工智能伦理问题分析与解决思路【薛澜|清华大学文科资深教授，人工智能国际治理研究院院长，国家新一代人工智能治理专业委员会主任】报告五【研究方法】1.总结了人工智能在近些年的发展情况对比中美欧人工智能论文发表数量、专利申请及被授予情况、人工智能领域私人投资量，人工智能技术应用在中国

220、非常活跃，涉及到公众个人层面、行业层面、社会层面。例如金融领域运用人工智能技术精准地判断农户资金需求和潜在信贷风险、蚂蚁集团将人工智能用于保险理赔、智能网联汽车落地、人工智能赋能医疗设备等。这些例子说明人工智能就像第二次工业革命的电力技术，成为一个广谱技术，渗透到人类生活的方方面面。2.分析具体人工智能伦理争议案例亚马逊开发的监控员工行为系统分析员工表现，根据指标判定解雇员工，这是新的“摩登时代”，人工智能用于监控员工的时间、空间是不合适的。再如人脸识别涉及到个人信息收集、使用、共享，引发了诸多担忧，有潜在地被修改误用风险。因此，【总结及展望】解决人工智能伦理问题之道包括：健全人工智能伦理与

221、安全的治理体系；推进法律法规、标准规范的落地实施；建立多主体参与的对话机制，跟踪技术发展前沿，发现新的安全和伦理问题；建立人工智能前沿研究和应用的伦理评估、预警及管控机制；加强对人工智能研究及应用各相关利益主体的伦理教育，提高伦理意识；积极培育健康的智能文化与数字人文思想；加强人工智能前沿进展的科学传播和伦理普及，提高公众的认知水平。2.延伸问题讨论对于种族歧视和性别歧视的公众认知有何不同？根据种族主义量表和性别差异量表中可以获知，日本不同受访者的态度在种族歧视方面的差异不是很明显，但在性别歧视上的差异却特别明显。那么，人为歧视和机器歧视的公众认知有何不同？有些人认为，特别是在公平和歧视的研

222、判上，人类行为和价值观应该是指导原则，人是参考标准，而人的态度导致相应的歧视。根据研究，我们发现全部以人的态度为准则是不够的，例如在公平方面通过人的行为标准评估机器行为或许是不合适的。总之，歧视是一个非常复杂且敏感的话题，研究表明人类和机器之间的歧视感知是非常不同的，而我们也因其特殊性应该更多地考虑亚洲场景，研究亚洲场景下的歧视问题。人工智能在提升效率的同时，也带来诸多隐忧，治理是必要的。3.讨论人工智能伦理治理途径人工智能治理经历技术层面、环境变革层面、社会认知和适配层面、文化层面才能形成一个相对稳定的治理范式。同时，治理是一个利弊权衡，过程中还必须考虑区分不同种类的问题，如经济类的成本收

223、益问题、技术可替代性问题、与社会行为规范的适配问题、技术预见和评估问题，需要不同的研究和分析，才能为治理提供可靠的依据。人工智能伦理治理是全方位的，既需要健全相关治理体系，又需要推动法律法规标准规范出台，既要有多主体参与的对话机制，又要建立评估预警管理机制。此外，加强伦理教育，提高公众的伦理意识，普及对人工智能相关认知水平，才能使人工智能真正造福人类。126127【研究背景及意义】人工智能的发展仍然没有超越图灵当年的设想和预判，它的基本原理是对人的某些智力功能的模仿。所以，在人工智能研究和应用中，人仍然起决定性作用。这构成人工智能治理的一个基本出发点，在此基础上得出：人工智能伦理治理是一种新型

224、问题，需要探索新的治理模式。人工智能伦理治理：一种新型问题及其创新挑战【陈小平|中科大机器人实验室主任，CAAI人工智能伦理治理工委会主任，全球人工智能理事会执行委员】报告六【研究方法】1.理解科学实践中的人工智能图灵作为人工智能之父和计算机科学之父，提出以“图灵测试”来检验“图灵假说”，该假说认为：推理、决策、学习、理解、创造等人类智力功能都可以用计算机模仿。在功能模仿中，机器思维的工作原理和人的思维原理可以相同，也可以不同。所以人类必须对模仿结果进行检验。图灵测试的根本意义在于，提出以人的接受为检验准则。70多年来，人工智能的实际发展符合图灵的功能模仿观。例如，AlphaGo Zero 主

225、要运用了四项关键技术：新型决策论规划模型（理论框架）、蒙特卡洛树搜索（自博决策机制）、强化学习（胜率估计反推机制）、深度学习（反推结果储存），前三项都属于功能模仿，第四项属于原理模拟+功能模仿。基于这些技术的集成，AlphaGo Zero 的每一个落子都依据落子胜率估计做决策，这种决策的原理与人类下棋的决策原理完全不同，因为人类无法算出所有落子的胜率估计。这就说明，AlphaGo Zero 的工作原理与人不同，但模仿了人类下围棋的功能，且远远超越了人类。不过，AlphaGo Zero 获得成功的最大原因在于，它利用落子胜率估计做决策，绕开了以往围棋 AI 的决策依赖于对手策略的困境。这个改变发

226、挥了决定性作用，这种作用我称之为“封闭化”。目前，AI 不会做封闭化，只有人才会。所以在人工智能研究和应用中，人的作用是决定性的。2.分析人工智能伦理治理的三类挑战人工智能伦理治理包括三类挑战性问题合理性问题、可控性问题和重大相关问题。如果人工智能的某一项应用在伦理上的负效应接近或超过可容忍范围，则该应用存在合理性问题，如用户隐私、数据安全、算法公平等都属于合理性问题。如果人类无法控制一种人工智能的持续存在和未来发展方向，出现了不可控的人工智能，则人类就遇到人工智能的可控性问题。重大相关问题指的是人类面临的与人工智能相关的重大社会问题，如无用阶层、数字鸿沟、人的发展等。传统治理模式仍然适用于合

227、理性问题，但需要针对人工智能的新情况进行新探索。对于可控性问题和重大相关问题，需要探索新的治理模式。【总结及展望】报告在总结人工智能发展技术逻辑的基础上，提出关于人工智能治理的新见解，将人工智能治理划分为合理性问题、可控性问题和重大相关问题三类挑战性问题，并对不同类型的挑战提出针对性的应对策略。3.在人工智能治理方面进行新探索针对可控性问题，应设立人工智能的新研究分支可控性研究，系统地回答不可控人工智能是否具有科学可能性，如果有应如何应对风险。针对重大相关问题，因其不可逆性，不能完全依靠事后治理模式，应构建新型创新模式，统筹 GDP 可度量效益与不可度量效益，以更好地引导未来社会的发展方向。例

228、如，“公义创新”是一种统筹两种效益的新型创新模式。针对合理性问题，需要从伦理、用户、管理等角度做出综合性研判，形成共识，在此基础上制定技术标准。同时，还应加快推进技术伦理研究，研发出更符合伦理的人工智能新技术。128129梁正|清华大学人工智能国际治理研究院副院长赵志耘|科技部中国科学技术信息研究所党委书记、所长，科技部新一代人工智能发展研究中心主任李仁涵|国家新一代人工智能治理专业委员会委员，上海交通大学人工智能研究院首席顾问教授薛澜|清华大学文科资深教授，人工智能国际治理研究院院长，国家新一代人工智能治理专业委员会主任陈小平|中科大机器人实验室主任，CAAI人工智能伦理治理工委会主任，

229、全球人工智能理事会执行委员Wendell Wallach|卡内基理事会资深研究员，清华大学人工智能国际治理研究院学术委员圆桌讨论Wendell Wallach：人工智能讨论的不仅仅是技术，还可能有许多相互作用和价值影响。所以我们需要培养的是有敏感伦理意识的工程师，让他们知道技术需要达到什么水平，正在设计的技术中已经包含了哪些价值观，根据他们正在使用的设计框架，可能会引入哪些价值观，这些价值观被引入社会时会如何影响不同的人群。在技术选择上需要做出权衡。我们需要培养一批能够带领个人开发者，团队开发者和工程师团队的老师，培养有伦理意识和判断力的学生。用例学习是一个有效的方法，更重要的是，教育和道德教

230、育的质量是需要由社会来界定，我们需要时刻听取社会的反馈。人工智能伦理教育应当如何开展？谁是教育的主体？谁是教育的对象？赵志耘：目前的人工智能的伦理治理，它是在全生命周期有体现的。去年我们发布的新一代人工智能伦理规范，这个伦理规范充分考虑了从 AI 研发到应用整个全生命周期各类活动，包括研究开发、设计制造、实验应用到进一步监管评价等。落实的关键是我们各个参与的主体，也就是从研发到应用，多个主体需要联动，从全生命周期研发主体，应用主体，供应的主体，管理的主体等，各类主体联动起来，都要有伦理的意识，把伦理的规范转化到实际的操作规则中去，嵌入到各个主体活动当中去。如何将伦理治理嵌入到 AI 研发到应用

231、的全生命周期？中国在这方面有何经验实践？李仁涵：短期来看通过设计特定的治理工具只能解决一小部分人工智能伦理治理问题，这是由于伦理的“柔性”特质导致的。面对伦理的“柔性”特性带来的困难，一种解决思路是构建一些“提示性”的工具来进行治理。当然，在构建评测工具时也可以在隐私保护这样相对而言比较刚性的伦理问题上寻找突破口。除此之外，各方的合作和交流是构建起这样的评测平台的重要依据。人工智能伦理问题能否通过特定的治理工具得到解决？在人工智能评测平台中如何考虑伦理问题如隐私保护？薛澜：伦理问题毕竟是社会问题，其治理（或管理）常常会因为人的角度不同、信息不对称而产生分歧，伦理治理的要义就是：如何去构建交流平

232、台让各方主体充分交流，最终解决分歧，找到解决之道。当然，由于价值观的不同，即使充分交流分歧也可能难以解决，这时求同存异的思想便十分重要。因此，一旦有各方可接受的点，尽量降低技术的负面影响、构建起可以快速更新迭代的敏捷治理机制就成了非常重要的解决途径。伦理是可以被治理的吗？伦理问题在新兴技术治理中究竟应当如何看待和处理？陈小平：AI 伦理问题与其他领域的伦理问题最本质的差异在于其技术逻辑不同，即过去的技术（如100年前的自动化技术）其优势更多体现在体力劳动的替代上，而专用人工智能则是在思维上远远超过人（如 Alpha-Go 之于围棋）。因此会有一些哲学家预测说：未来除去做人工智能的人和做决策的人

233、以外，世界97%以上的人都将没有工作。这便是技术逻辑的差异。未来专用人工智能会在各个领域上蚕食人类的工作份额，而通用人工智能（当下可能性不大但不排除理论可能性）更是会产生取代人类的可控性风险。除此之外，人工智能的出现也将改变社会 GDP 导向的创新逻辑，这也是以往技术所不能达到的。由于以上的两种区别，因此对待人工智能的伦理治理不得不采用一种区别于以往的旧技术时代治理模式的新模式，该模式的实现还需要进一步地思考。人工智能伦理问题与其他领域的伦理问题有何本质差异？这种差异又对其治理范式提出了何种要求？梁正在与发言专家对话时指出：人工智能伦理教育不是单向的，而是多元主体之间的互动和建构过程。中国在人

234、工智能治理方面进行了多种形式的试点示范，如开展人工智能社会实验和设立人工智能创新发展实验区，部分借鉴了新兴技术的“沙箱监管”理念。人工智能伦理治理除了需要自上而下的引导，也需要自下而上的创新，如国内外已出现的提供伦理治理工具和服务的公司以及AI治理挑战赛等。新兴技术治理可以充分借鉴历史上已有的经验，通过技术与制度之间的相互调适来找到其平衡点。人工智能伦理治理面临的可控性问题和重大相关问题，可能需要通过建立人机协作与共生的新型数字文明才能最终得到解决。编辑：梁子、沈磊贤审改：梁正，李洋130131【研究背景及意义】为了发掘预训练模型在中文通用多模态数据上的理解能力，文继荣教授带领团队并发布了系

235、列中文多模态通用预训练模型-文澜。继去年智源大会发布6.5亿图像-文本数据训练得到的图文多模态模型文澜2.0，时隔一年，卢志武教授和宋睿华副教授在本次报告上介绍了文澜团队的最新研究进展，不仅联合快手发布了1千万视频-文本数据训练得到的视频文本多模态模型文澜3.0，并且展示了在文澜模型基础上丰富多彩的下游任务和创新应用。【研究方法】1、文澜模型神经网络可视化的发现保持文本编码器和图片编码器模型参数不更新，输入文本和随意一张噪声图片，通过反复迭代，利用梯度下降的方式更新噪声图片。最终噪声图片收敛之后的可视化结果表示文澜模型能够真正理解文本中想要描述的抽象表示。为了进一步研究文澜模型的可解释性，通

236、过引入对抗网络，更加直观地测试文澜模型对图片和文本的理解程度。特别地，通过挑选现实中不存在的词语，让文澜模型描述出相对应的图像，从而验证文澜模型对语义背后真正的理解能力。通过这些例子，卢老师认为，预训练并不是通过记忆的方式积累大量的数据集，而是能够在一定程度上对预训练的内容有更高层次和抽象的理解。这部分的研究工作已经发表于Nature Communications，论文链接为：https:/ 审改：梁正，李洋智能信息检索与挖掘论坛专题论坛08文澜多模态大模型在检索方面的最新进展【卢志武|中国人民大学教授宋睿华|中国人民大学长聘副教授】报告一“智能信息检索与挖掘”为智源重大研究方向，在这一领域

237、寻求理论突破的同时，从工业的角度在特定的下游任务上实现算法效率的提升也至关重要。在智源大会智能信息检索与挖掘论坛上，来自中国人民大学、清华大学、中科院计算所、MSRA等的学者针对文澜大模型的最新进展，个性化新闻推荐、搜索引擎等方面进行了汇报。1321332、多模态创作卢老师团队根据文澜模型跨模态的特点，利用文本检索出 TOP-K 个镜头，再对 K 个镜头进行拼接生成最终的视频。具体做法是：（1）镜头选取，利用已经预训练好的文澜模型来实现文本检索镜头；（2）镜头评价，利用以歌词特征和视频序列特征作为输入训练语义一致分类器和以视频序列特征作为输入训练内容一致分类器，利用学习好的两个分类器进行镜

238、头评价；（3）生成视频，则是通过贪心算法让分类器判别出最合适的序列。该成果已被整合至微信小程序“布灵剪辑工作室”，依据用户输入的文本自动剪辑视频。3、文澜3.0的特点卢老师团队认为虽然文澜2.0 采用高效的双塔结构，但是和单塔结构结构对比，存在文本内容和图片内容理解不够深刻的问题，原因在于-两个模态的交互不够。对此，卢老师团队在文澜3.0 版本实现了符号（token）级、样本级、任务级三个层次的模态交互，促进双塔网络之间的信息交互。通过在分辨率上调整以及抽取短视频前4s 重要帧的做法，模型的文本-视频检索指标比之前模型提高约19%。1341354、1千万的视频-文本大模型还可以做什么？宋睿华

239、老师认为视频数据的评论能够有效的代表用户观看视频后内心的真实想法，利用一千万的视频数据训练视频文本多模态大模型，设计有趣的下游应用，例如让机器狗对视觉环境具有自然反应，让 AI 可以看到周围环境与人进行多模态对话等等，这类集合多种模态内容的交互和理解，将给人工智能特别是多模态大模型提出新的挑战和机会。【总结及展望】在北京智源研究院的资助下，文澜模型的诞生对多模态预训练领域带来突破性进展，真正能学习到语言数据和视觉数据的高级抽象表示，6月1日相关论文Towards Artificial General Intelligence via a Multi-modal Foundation Model

240、发表在 Nature 子刊自然通讯杂志，受到国际同行的广泛关注。文澜3.0进一步学习到视频和文本的语义关系，通过让机器狗产生自然反应以及让 AI 能够进行多模态交互和对话的创新应用，让大家感受到文澜多模态大模型的进化，未来的多模态领域通过大规模预训练的方式将更好地释放人工智能抽象感知的潜力。136137【研究背景及意义】微软亚洲研究院首席研究员谢幸博士介绍了微软的深度学习新闻推荐框架以及推荐预训练模型带来的挑战和其团队的相关工作。他认为在当前数据量越来越多，获取也越来越方便的时代背景下，预训练大规模新闻推荐系统的诞生是必然的。但同时，大规模数据的训练和处理给推荐系统带来了新的挑战：（1）隐私保

241、护；（2）训练效率；（3）推荐公平性。负责任的个性化新闻推荐【谢幸|MSRA 首席研究员】报告二【研究方法】1、隐私保护、训练效率、推荐精准度三难问题如何平衡？在隐私保护方面，谢幸博士为了保护好用户隐私的同时提高训练效率，其团队提出了将新闻推荐系统的新闻编码部分仍然放到服务器上，但是将用户编码的过程应用到客户端完成，这种做法在保护用户隐私的同时，并没有损失模型预测的精准度，而且将模型在客户端的训练消耗和通讯消耗下降了2个数量级。2、提高大规模预训练效率的团队工作在训练效率方面，谢幸博士介绍了当前团队优化训练效率的三个方向。（1）他利用中心化新闻编码将所有训练实例中的数据统一编码，将重复的新闻

242、数据统一优化成同一个新闻实例表征，并将表征分别作为不同用户行为序列中的新闻表征供模型学习。（2）将行为序列长度相似的用户编成一组，减少填充数据带来的开销。（3）将反复出现过的新闻表示放入快查表中，用历史已经编码好的新闻表示代替当前同一新闻的表示，避免将同一新闻反复编码带来的训练开销。1381393、推荐公平性的相关研究在推荐公平性方面，谢幸博士介绍了当前推荐系统存在公平性问题，即模型的推荐可能会加重用户的兴趣偏好倾向。对此，他介绍了公平性推荐的用户模型，设置有偏差和无偏差两个子模型同步进行学习，将无偏差的特征用于无偏差模型的训练，在上线的新闻推荐系统里只使用无偏差子模型作为在线服务的推荐系统

243、。这种模型结构在保持很好推荐结果的同时，公平性能提高到和随机推荐的结果相近似。140141【总结及展望】预训练大规模新闻推荐系统的诞生是必然的，谢幸博士介绍了团队在负责任的个性化新闻推荐上的工作，从隐私保护、训练效率、推荐公平性三个方面阐述了微软团队在个性化新闻推荐上的成果，相关的开源推荐系统框架已经成为 GitHub 平台推荐系统领域收获最多点赞的项目。【研究背景及意义】殷大伟博士针对工业界搜索引擎中涉及的检索和排序两个阶段难以充分利用语义信息的问题，重点介绍了百度搜索引擎融合预训练语言模型的语义召回系统。传统的语义检索方法具有难以获取文档对应有效的语义表示，大规模低频查找难以识别以及如何在

244、千亿级别网络规模下进行系统部署等挑战，传统的语义排序具有难以对长文本建模，计算代价昂贵以及预训练模型与排序无关等问题，而百度搜索团队提出的预训练模型可以较好地解决上述问题，搜索效果在业界取得了领先地位。Pre-trained Language Model in Baidu Search【殷大伟百度高级总监】报告三142143【研究方法】针对语义搜索部分，百度搜索团队通过引入基于多嵌入聚合双向编码器的多注意力机制捕捉更加细粒度的搜索查询语义信息；同时从搜索日志和人工标注的数据中构建正样本和负样本数据，在批处理中引入随机负样本，从而使得预训练语言模型和实际搜索场景对齐能够识别大规模的低频搜索查询；

245、为了能够更便捷地部署到千亿级别网络环境，还采用了文档级别嵌入维度的压缩算法。针对语义排序部分，百度搜索团队构建了 Pyramid-ERNIE 系统和 QUITE 算法，从而能够快速提取文档与搜索相关的摘要实现查询和文本之间相关性的高效计算，同时采用基于树形结构的五分类点击校准模型实现大规模样本中的噪声和偏置问题，为了解决预训练语言模型分数与其他组件分数的不一致的问题，使用人工标注查询-文档相关性预测的微调策略，从而稳定线上各种组件的排序信号。实验证明，基于预训练语言模型的语义搜索和语义排序算法，在线上和线下测试都取得了较好的实验效果，在实际应用场景下可以获得更加精细的语义召回效果。【总结及展望

247、练模型关键是设计什么样的预训练任务，在设计预训练模型的过程中，只有在特定的上下游环境分析相关性概念才有比较大的价值。郭嘉丰老师从实用主义、信息检索领域特色以及学科探索三个角度分析，阐明针对特定应用任务设计相对应的预训练模型可以进一步推进对信息检索领域的认知。徐君老在信息检索领域，是否有必要专门做针对应用的预训练语言模型？殷大伟老师从百度及工业界的角度出发，认为目前在工业界预训练语言模型仍然是传统信息检索方法的一种补充，很难完全取代传统的信息检索方法，同时信息检索领域的大一统语言模型有一定的研究前景。郭嘉丰老师认为预训练模型的流程更接近人脑处理的过程，在近期的实践探索中可以发现大一统的语言模型是

248、非常有潜力但也具有很大挑战。刘奕群老师认为预训练的语言模型更加符合目前类人智能的方式。窦志成老师认为围绕信息检索的任务，端到端的大模型是很有必要的，现在的搜索引擎存在上下游任务分离的问题，而端到端的语言模端到端的信息检索模型是否具有可用性？师认为信息检索的要求和目标和NLP是不一样的，如果能够针对特定应用领域构建与上下游任务更加接近的预训练模型，会实现相比于通用预训练模型更好的精度效果。窦志成老师认为通用语言模型在文档和用户表示等层面有所欠缺，推动预训练语言模型在信息检索领域的应用发展具有重大的经济影响力和社会影响力。型语义空间可能比传统的信息检索方法更有潜力。谢幸老师认为大规模场景下的预训练

249、模型，可以和系统研究人员合作实现跨领域的合作机会，同时在预训练语言模型的训练过程中需要思考信息检索的语言和共性。卢志武老师认为传统的信息检索方法难以结合多模态的信息，但是基于预训练模型的多模态信息使得大规模检索能够部署到手机端。宋睿华老师认为信息检索领域的三阶段方法可以看作一个上游任务，在考虑端到端语言模型的同时也应该保留三阶段方法的灵活性。整理：徐树皓、路啸秋146147【研究背景及意义】研究的课题为深度学习与传统算法设计互相改进，通过深入挖掘以数据驱动的深度学习和以知识驱动的算法设计的优点，将彼此的优点相互迁移，使两种方法互相吸收，共同进步。最终使得深度学习具有传统机器学习方法在小样本数据

250、上的拟合效果，而传统机器学习方法也可以通过参数优化的方式智能地学习算子。该技术难点在于方法的可泛化性和理论依据。机器学习论坛专题论坛09深度学习与算法设计的对偶性Duality between Deep Learning and Algorithm Design【宋乐|百图生科首席 AI 科学家】报告一【研究方法】在将传统算法思想融合到深度学习方面，一个例子是将碱基配对等生物学知识作为先验，迁移到深度学习模型中，通过这种方式设计的模型在 RNA 预测任务上，可以实现在较小数据集上实现更高的精度，显示了从传统算法设计中引入的先验知识的思想可以极大地提升 RNA 二级结构预测的效率。另一方面，在使

251、用深度学习方法学习传统算法的算子部分时，以稀疏恢复问题为例，传统机器学习方法需要手动设计损失函数中的超参数惩罚系数，但通过深度学习方法可以自动学习这一向量。实验结果证明这种设计可以在更少的数据上更快地实现目标效果。148149另一个例子，是借助传统算法，理解深度学习的表征能力和生成能力与模型的收敛性和稳定性的关系。在理论上可以证明，无论采用什么样的优化算法，模型能力的上边界与自身的收敛性或稳定性有着特定的关系。150151【总结及展望】深度学习和传统算法的融合是当下重要的趋势，区别在于：深度学习的参数根据数据学习得出；而传统算法的算子由人为设计，具备一定的结构化先验知识。百图生科团队使用神经

252、网络方法来学习传统机器学习算法中以往使用手工设计的算子，为深度学习算法加入更多的结构信息，在更少的数据上更快地实现较好的性能。另一方面，深度学习算法也被用于增强现有的传统算法，提高超参数的复杂性，提高传统算法的灵活性。此外，在其他有监督或无监督的任务中，也可以使用类似的策略学习机器学习算法中本来需要手动设计的算子。上述做法的优势在于，可以极大地增强模型的表现力和泛化性，其上限都高于手工设计。152153针对鲁棒深度学习问题的样本加权方法【孟德宇|西安交大教授】报告二李普希兹对抗鲁棒网络【王立威|北京大学教授，智源研究员】报告三【研究背景及意义】研究的课题是使用对样本进行加权的方法提高在有偏数据

253、上深度学习模型训练的鲁棒性。目前的难点在于：传统的样本加权方法需要根据任务和数据的特点进行个性化的设计，对于类别不平衡问题，权重随损失函数增大而递增；对于带噪标签问题，权重随损失函数增大而递减。但是在现实世界的数据中，两种数据有偏的情况往往是同时存在的，因此传统样本加权方法并不适用，需要提出新的自适应的方法。【研究方法】MW-Net：使用双边优化方法，直接从无限超参空间中学习超参数。对这个优化任务，以模型的损失函数为输入，使用多层感知机（MLP）来实现训练。在类不平衡、带噪标签和真实世界三种数据集上，都得到了优于传统 SOTA 模型的效果。此外，实验结果证明权重与损失函数不单调同步变化，说明

254、MW-Net 可以实现自适应调整样本权重。CMW-Net：将问题从学习超参重新构造为学习计算超参的方法，对不同类的样本学习不同的计算方法。使用每一类的样本数目作为类的特征，再加上软标签监督的方法，实现对常见类、中等类、少见类不同的权重分配策略，并得到了超过之前 SOTA 模型的指标效果。【总结及展望】西安交大的团队提出了使用神经网络动态学习样本加权方法的 MW-Net 和 CMW-Net 模型，在多种数据集上都取得了超越传统模型的效果。在未来的研究中，孟老师认为可以使用元学习的范式来扩展“学习如何学习”的方法，将模型扩展到半监督或弱监督，甚至一般领域迁移的学习任务下，并有望构建更为深刻的超越传

255、统统计学习的泛化理论研究工作。【研究背景及意义】当前的深度学习模型鲁棒性较弱，面对对抗扰动时很容易产生巨大的预测误差。当前网络模型往往李普希兹常数过大，导致鲁棒性差，LipNet 则严格限制李普希兹常数小于1，从而得以提高模型鲁棒性。【研究方法】LipNet 使用 -dist neuron，用无穷范数实现神经元的计算，这可以使李普希兹常数限制在1以下，鲁棒性和表现能力的理论上限都有保证。由于直接使用梯度下降的方法会出现稀疏性的问题，因此需要使用特殊的优化方法，一个典型的实现方法是从 L1范数开始计算，逐渐增加到无穷范数。在多个数据集上都取得了与现存 SOTA 模型可相媲美的效果，并能具有较快的

256、速度。154155离线强化学习【张伟楠|上海交大副教授】报告四【研究背景及意义】离线强化学习是智能体在训练过程中不与环境进行交互的强化学习范式，在现实世界中有很强的实用意义。离线强化学习中的重点问题是外延误差，即当前策略使训练状态走到了训练集支撑之外的情况。【研究方法】本教程中重点介绍了解决插值误差问题的 BCQ、BC、AWR、BAIL、MOReL 方法，接下来介绍了 Trans-former 模型在离线强化学习中的应用。BCQ 方法限制策略只能使行为限制在训练集批次出现的分布内。BC 方法直接模仿训练集的行为。AWR 方法在 BC 方法的基础上增加了基于优势的权重。BAIL 方法学习训练集中

257、表现逼近上限的行为，避开外延差问题。MOReL 方法学习了一个 Pessimistic MDP(P-MDP)，限制行为在分布内。【总结及展望】北大团队提出了 LipNet 方法，能够通过限制神经元的李普希兹常数实现神经网络鲁棒性的增强，在多个数据集上都取得了与现有 SOTA 模型可相媲美的指标效果，而且用时迅速。156157Transformer 在离线强化学习任务上的应用：在 Upside-Down RL 的基础上，Decision Transformer 将强化学习任务重构为序列任务，使用了 Trans-former 模型的解码器（decoder）部分学习强化学习的策略。Trajector

258、y Transformer 则直接使用 Transformer 模型构建了整个强化学习任务的 world model。DeepMind 提出的 Gato 模型则是在强化学习各子任务上的通用模型，将不同任务都视作序列到序列任务，对每个任务手工制定不同的方法，将得到的序列通过一个 Transformer 模型的解码器部分。对不同任务类型用不同的掩码方法实现输出预测和损失函数的计算。【总结及展望】离线强化学习不需要学习过程在训练过程中与环境实现交互，这是符合现实世界假设的。当前离线强化学习中使用了很多有监督学习的思路，Transformer 也被应用到离线强化学习任务中，基于海量的数据来做训练。未来

259、研究的方向：构建更好的世界模型。收集更多数据。构建更好的 decision transformers 的目标表征。实现零样本上的迁移学习。解决多智能体决策任务。整理：周致毅、王惠娟【研究背景及意义】多尺度建模是科学研究中的重要工具。在微观领域，分子动力学模拟是连接物质宏观性质和粒子微观状态的重要工具，但在建模所有原子间的相互作用时，传统方法无法实现快速精准的高维函数建模。王涵研究员与合作者提出采用深度学习方法，从模型、数据、高性能优化等角度入手，突破了传统方法的局限，实现了上亿原子规模的具有第一性原理精度的分子动力学模拟，处于国际领跑水平。AI for Science 论坛专题论坛10基于深度

260、学习的分子动力学模拟【王涵|北京应用物理与计算数学研究所特聘研究员】机器学习与科学模型的有机结合，给传统的科学领域带来了新的发展机遇，也正在推动科研范式的创新。为了探讨交流的科学智能领域近年来的发展现状及趋势，洞悉当下 AI for Science 研究背后的深刻规律，本次专题论坛邀请到了一批前沿学者，来讨论 AI for Science 带来的新机遇和挑战。报告一【研究方法】王涵研究员首先回顾了传统的分子动力学建模方法，如下图所示。Top down 模式，基于假设和实验观测建模势函数，速度快但可信度相对较低；Bottom up 模式，通过量子力学的第一性原理建立势函数，虽然准确，但计算开销非

261、常高昂。158159接着，王涵研究员从模型、数据、高性能优化以及应用等方面介绍了基于深度学习的解决方法。在模型构造方面，王涵研究员介绍了深度势能方法，这是一个对第一性原理势函数的精确表示，具有扩展性和对称不变性等特点。在此基础上，王涵研究员还解释了深度势能模型如何在小体系小数据中学习到足够泛化的模型，并进一步提出了深度势能模型的长程版本，如下图所示。在数据生成方面，介绍同步学习方法 DP-GEN。该方法能自动生成满足特定精度要求的最小训练数据集。相比于经验势，DP-GEN 开启了通过探索构型和化学空间持续改进深度势能的可能性。针对高性能优化，通过物理模型+深度学习+高性能计算的组合，深度势能方

262、法实现了第一性原理精度的亿级分子动力学模拟，极大地缩短了计算时间。160161最后，王涵研究员介绍了深度势能模型在水的相图计算问题中的应用。【总结及展望】王涵研究员团队将深度学习方法应用于分子动力学模拟问题中，提出了深度势能模型和基于同步学习的数据生成方法，结合高性能计算，实现了第一性原理精度的亿级规模模拟。未来，王涵研究员团队将着眼于预训练模型、预训练数据库构造，以及高性能优化等问题。国产开源密度泛函理论软件 ABACUS 介绍【陈默涵|北京大学研究员】报告二【研究背景及意义】原子尺度的不同模拟方法难以同时兼顾精度和效率，因此适用于不同的科学问题，也限制了科学上更多的应用。以密度泛函为代表的

263、第一性原理计算方法被应用于材料、能源、化学等各个领域。密度泛函软件长期被欧美垄断，ABACUS 是国内独立开发、功能完整的开源密度泛函软件，陈默涵研究员首先介绍了软件开发、开源平台的相关工作。其次，介绍了在 ABACUS 中实现深度学习辅助的密度泛函方法，可以实现更大尺寸，更高精度的分子动力学模拟的工作。【研究方法】陈默涵研究员首先介绍密度泛函理论的基本概念，密度泛函理论将材料中的所有电子作为一个整体来近似处理，大大简化了薛定谔方程的计算量。而密度泛函公式中的关键项交换关联泛函，其近似度直接影响着系统总能量的预测精度，如下图所示。162163陈默涵研究员以液态水的局域结构为例，指出随着研究的深

264、入，更高精度的近似方法不断被提出，但也带来了更大的计算量和计算开销。陈默涵研究员提出可以使用深度学习方法，在低精度的近似下获得高精度的预测结果。接着陈默涵研究员介绍了 ABACUS 软件开发的发展历史和相关工作，如下图所示。ABACUS 是面向深度学习和新硬件的下一代国产密度泛函理论软件。此外，陈默涵研究员还介绍了 ABACUS 在开源社区和生态方面的发展和未来愿景，如下图所示。最后陈默涵研究员介绍了基于 AI 密度泛函方法 DeePKS，该方法使用深度神经网络实现了低精度近似下的高精度输出，并展示了 DeePKS+ABACUS 实现单个水分子体系和扩展体系的效果。164165【总结及展望】陈

265、默涵研究员及其合作者一起开发了国内功能完整、自主开发的密度泛函软件 ABACUS，突破了欧美国家的长期垄断。未来 ABACUS 将建设开源社区，面向深度学习和下一代硬件，实现促进交流、人才培养等目标。药物设计中的大规模机器学习实践【柯国霖|深势科技机器学习算法负责人】报告三【研究背景及意义】蛋白结构和小分子模型是药物设计领域的两个主要场景。在蛋白结构方面，数据相对充足，并且随着机器学习技术的发展，蛋白结构预测方法应运而生，AIphaFold 成功实现了输入蛋白序列对其相应三维结构的精准预测，但是其核心训练代码和训练数据未开源，且存在模型结构复杂、存储数据代价巨大、所基于的 JAX 框架未被开发

266、者熟知运用等问题。在小分子模型方面，因有标注的数据量相对短缺，大规模预训练技术被广泛使用。但这些预训练技术都忽略了关键的3D 信息，导致效果不好，且应用范围受限。因此，在药物设计中，应用大规模的机器学习实践，实现预测蛋白结构，并完善分子预训练模型，可以进一步提高对蛋白结构和分子模型的认知，对于创新药物设计方法、提高药物疗效具有重要意义。【研究方法】深势科技针对药物设计领域在蛋白结构和小分子模型两个场景中分别提出了具体的解决方案：在蛋白结构方面，深势科技提出了 Uni-Fold 方案用于蛋白结构预测，并相继更新了三个版本。该方案基于 AIphaFold 复现、重构和改进：第一，解决数据代价巨大问

267、题，对数据进行稀疏处理和压缩，并动态地在内存中解压，存储消耗降低了50倍；第二，提高训练效率，该方案对算法框架进行了整体的重构，使用 PyTorch 框架和融合算子，训练速度相较于 JAX 框架提升了2倍；第三，提高训练稳定性，该方案加入对 bfloat16的随机进位和额外的损失函数，提高模型的训练稳定性，收敛速度提升2.5倍；第四，实现了蛋白质复合物的结构预测，精度超过 AlphaFold。在小分子模型方面，深势科技提出了 Uni-Mol 方案用于3D 预训练分子模型。该方案基于标准的 Trans-former 实现，加入了3D 空间位置编码、等变坐标预测等模块，直接处理3D 的输入和输出信

268、息。该方案是第一个直接处理3D 分子预训练的模型，包含小分子预训练和蛋白口袋预训练两个模块，在分子性质预测、分子构象生成、蛋白小分子结合构象预测等任务上均取得目前的最好成绩。【总结及展望】深势科技针对蛋白结构和小分子模型分别提出了 Uni-Fold 方案和 Uni-Mol 方案。Uni-Fold 对AIphaFold 实现了速度和精度的双超越；Uni-Mol 是首个直接处理3D 信息的分子预训练模型。深势科技会对这两个方案做持续的迭代改进，也会继续探索大规模机器学习在药物设计中的实践和应用。166167王涵|北京应用物理与计算数学研究所特聘研究员陈默涵|北京大学研究员柯国霖|深势科技机器学习

269、算法负责人王磊|中国科学院物理研究所研究员圆桌讨论中国科学院物理研究所研究员王磊认为，AI 技术对物理中偏向基本层面的问题也会有所帮助，例如多电子薛定谔方程的求解、统计物理中自由能的计算等。但这些问题很难直接转化为现有的机器学习问题，而需要发展基于变分原理（而非学习）的新的理论和计算方法。在这个方向上，生成型模型与统计物理、多电子波函数关系非常密切，值得关注。此外，微分编程将现有的机器学习基础和模拟手段结合也是非常好的切入点。北京应用物理与计算数学研究所特聘研究员王涵认为，深度学习缺乏数学理论方法，在机器学习领域中，对工作分析误差来源比较困难，其背后有非常多的可能性，在实际工作中缺乏科学的数

270、学理论指引，希望能够尽早有一些实际且完善的理论来指导机器学习；此外，DFT 软件非常重要，目前有很多类似的短板需要补齐。北京大学研究员陈默涵认为，DFT 软件等短板需要补齐，近年来国家提高对软件发展的重视，但 DFT 软件不可能实现一蹴而就、短期超车的突破，需要兼顾算法局部和全局视野，推进教学改革、培养交叉型人才。深势科技机器学习算法负责人柯国霖认为，在 AI for Science 领域解决问题的关键在于，需要与各个领域的专家交流讨论、借鉴学习、取长补短，明确真正的问题是什么。并且，要找到正确、合适的方向，朝着目前可以落地、可以被真正解决的问题的方向发力才有效果。整理：孙晨、顾胜宇在6月1日

271、上午的演讲中，清华大学副教授，智源青年科学家刘知远介绍了青源会目前的发展情况，以及近年来在专业交流、活动组织分享、重大问题研讨等方面的成果。刘知远表示，首届青源会会员共有90余位，邀请包括：信息检索与挖掘、机器学习、自然语言处理、体系结构与芯片、数理基础、认知神经基础、海外会员这几个方面的相关会员。在众多会员的支持下和智源社区日常运营专业支持下，在过去一年多时间里开展了非常多特色活动，包括：青源 Talk 18期、青源 Seminar、青源 Live、青源 Salon、青源 Workshop、青源通讯以及学术年会等丰富多彩的特色活动。此外，也支持青源会会员进行相关学术专著出版。青源学术年会专题

272、论坛11青源会进展介绍及新会员加入仪式【刘知远|清华大学副教授，智源青年科学家】为促进青年学者交叉方向交流与合作，孕育有引领意义的创新成果，构建开放包容的青年新星研究社区，发挥青年学者之间的协同效应，青源会自成立以来，开展了丰富的系列学术交流活动。2022年6月1日全天，第二届青源学术年会在2022北京智源大会期间召开。本次年会，邀请了机器学习奠基人、加州大学伯克利分校教授 Michael Jordan、智源研究院理事长张宏江博士，与两位青年学者共话“青年学者职业之路”。多位青源会代表分享了自然语言处理与知识图谱、信息检索与挖掘、机器学习与数理基础、计算机视觉、体系结构与高性能计算、AI+X、

273、AI 伦理安全与治理等七大方向年度领域进展与前沿问题报告；哈佛大学教授 Sham M.Kakade 与著名青年学者、普林斯顿大学计算机科学系助理教授陈丹琦在今年的青源学术年会上做了邀请报告。智源社区也支持青源会定期发布相关成员的阶段性工作进展，也希望成为会员内部互相了解、深入沟通的渠道。智源社区也会进行相关会员的访谈支持，了解成员的所思所想，及时去进行支持和交流。刘知远表示，到明年，仍然希望围绕着开心探索智能本质的初心，在学术活动、荣誉体系、交叉研究、社区系统、学术出版、成员体系等方面继续深入开展工作。希望在未来一年内顺利完成执委会交接，让青源会发展得越来越好。随后，青源学术年会举办青源会新会

274、员加入仪式。今年开始，青源会开展第二届会员纳新工作，征集186位国内外青年学者提名，经过各方向会员投票和邀请确认，共有70位专家学者成为第二届会员。新会员由青源会执委根据研究方向分别进行了介绍。168169The Provable Effectiveness of Policy Gradient Methods in Reinforcement Learning强化学习中可证有效的策略梯度方法【Sham M.Kakade|华盛顿大学戈登-麦凯教授，MSR-NYC 首席科学家】报告一【研究背景及意义】强化学习是人工智能的一大基础研究领域，当前面临着三个方面的重要挑战。一是环境对于智能体本身是未知

275、的；二是任务分类如果不合理，可能使机器人受到负影响，即惩罚；三是数据有着非常高的规格。例如，在 OpenAI 的单手还原魔方案例中，人们不仅需要设定让机器人去组装魔方，还需要知道机器人具体会怎样操作（如挪动哪一根手指或拼接哪一块组件）。【研究方法】在演讲中，Kakade 教授介绍了名为自然策略梯度法（Natural Policy Gradient,NPG）的强化学习方法，NPG 会对强化学习的策略进行参数化，对策略的结果进行评估。其采用随机化的方式，利用数据驱动智能体的决策和行为，在大体量空间中效果较好，且适合应用，易于优化且具有良好的泛化能力。【总结及展望】Kakade 教授期待未来能够推动

276、本领域的跨国交流与合作。Kakade 教授认为，借助自然策略梯度法，可以帮助研究者对进行智能体的策略进行优化，尽可能规避错误。通过数据的对比和案例，该方法强有效，还具有优化泛化的灵活性，具有良好的预测效果，特别在推动智能体探索环境的时候，如果能够和已有方法耦合配套使用，不仅能够进行探索，其优势还能直接体现在优化维度方面。演讲中，Kakade 教授还介绍了策略梯度法中的一些具体的技术和案例。170171Michael Jordan|加州大学伯克利分校教授，智源研究院学术顾问委员张宏江|智源研究院理事长苏炜杰|宾夕法尼亚大学副教授雷理骅|斯坦福大学助理教授青年学者职业之路对话Michael

277、 Jordan 认为，盲目追逐热点并不明智，他本人经常做些与别人差异甚远的事。尽管有些热点是共同关注的，但也许有一些非常有趣的问题被忽视了。Michael Jordan 建议青年学者在一定程度上避免追逐热点。例如，深度神经网络固然很好，但研究者甚众，想要在此领域脱颖而出也并非易事，很难寻找到新的问题。此外，大公司在这一领域也具有一定优势。Michael Jordan 认为应该思考决策、不确定性量化、分布变化、对数据收集和分享的经济激励、多方决策场景下的竞争机制。这些都是现实世界中客机器学习领域下一个热门话题是什么？青年学者是否需要了解其他学科的知识？观存在的重要问题，有深远的影响，目前的研究工

278、作也相对较少。张宏江认为，盲目追逐热点往往会误导注意力，青年学者应该专注于自己热爱的领域。同时，当大的浪潮到来之后，也要理解产生这些热点问题的原因，这样才能做出更有影响力的工作。苏炜杰认为，对于初级研究者而言，只想追逐热点问题会让研究十分艰难，因为在同一方向上，始终有人处于领先地位。应该跟从内心的指引，而不是盲目追逐热点。况且，人们也很难预测下一个热点问题是什么。研究计划发生改变的时候应该怎样应对？何保持研究的兴趣和热情？Michael Jordan 认为，研究者需要明白：人们不可能只做一件事情，要持续学习新的知识，虽然并不期望能立刻产生研究思路。但可能过了5年、10年，才会看到它们与研究者现

279、在思考问题的联系。同时，他建议人们还要学会跳出学术界，始终记得自己不仅仅是”数学家”，也是解决现实社会中涌现出的现实问题的”问题解决者”。要构建预测、分配、经济、交通、商业、法律、娱乐等领域的系统，解决其中的优化、经济、计算、平台等问题。此外，人工智能技术往往并不是放之四海皆准的，需要针对不同的场景、约束条件、数据量、数据类型、目标等情况进行设计。研究者不能简单粗暴地应用技术，需要更加了解要解决的问题本身，有的放矢。张宏江认为，“问题解决者”这个说法很好。有的问题来源于课本，有的问题来源于科学论文，而有的问题则来源于现实应用。在新一代的华人研究者群体中，不乏很优秀的”数学家”，他们可以很好地解

280、决已经被定义好的问题，提升准确率和性能。然而，发现问题和定义问题才是更重要的。研究者可以通过观察、阅读、与人交流，根据当前解决的问题、交互的应用来定义新的问题。不要轻视“简单”的应用，在没有了解其背后的奥秘时就忽略它们。苏炜杰表示，他的一些重要工作的灵感偶然来源于两个不同的领域甚至学科。历史上，一些重要的思想也是由此产生的。青年学者应该如何平衡潜心研究和宣传社交？Michael Jordan 认为，不要为宣传而烦恼。他并不相信所谓的宣传（力量）。他本人也并不使用 Twitter、Facebook 等社交平台，也许这反而为他带来了一些信誉。研究者的工作能够被其他人所熟知，重要的是因为有些人看到了

281、论文中扎实的部分，并以此为基础展开了自己的工作。当然，做学术也需要开放。可以参加一些会议，与从事类似工作的人取得联系，并与他们合作。同时，Michael Jordan 批判了追求引用的行为，引用量通常不能说明什么。一篇论文引用量高，可能是因为它首次讨论了某些问题，但它不一定提出了很严谨的观点。甚至，一篇论文的引用量高可能是因为其中有某些错误，人们将其作为反例。青年学者不应过于分心于社交媒体，应该更加关注在你的领域里严谨治学的那一群人。张宏江表示，在人工智能时代，有很多公司会大张旗鼓地宣传他们的工作。但是青年研究者不应该因此过于分心。研究者们不该在每个课题上浅尝辄止，不断切换自己的研究课题。要做

282、到不忘初心，在自己热爱的领域持续耕耘，不断地积累，持续发表学术成果，在学术会议等场合向自己的同行倡导这些工作。如果做出了好工作，研究社区中的同行才会认可，才能够建立学术声誉。例如，Geoffrey Hinton 用很多年研究神经网络。在深度学习火爆之前，除了同样坚守神经网络研究的人，很少有人知道他的工作。只有持之以恒才能成功！172173对跨学科研究者有什么建议？Michael Jordan 认为目前跨学科研取得了巨大的成功。机器学习在医疗健康、计算化学等领域得到了广泛应用，在交通等商业领域也具有应用前景。同时，经济学也融入到了跨学科研究中，目前研究者们已经用到了一些经济学度量方法。博弈论、拍

283、卖设计都是经济学和统计学结合的经典范例，如果再加上计算机科学，将迸发出巨大的能量。此外，解决工业界问题的过程中，需要来自多个领域的科学课研究者通力合作，解决企业业务中遇到的实际问题，也取得了显著的效果。张宏江表示，2022北京智源大会设有“AI for Sc-ience”专题论坛，这也是智源研究院重点发力的领域。这些研究具有巨大潜力，需要科学家、数据分析师、领域专家的协作。近年来，这些领域取得了一些突破，催生了一些新的公司。对于青年学者而言，跨学科研究是建功立业的好课题。但需要注意的是，将两个二流的研究结合在一起无法得到一流的成果，研究者需要精通一到两个领域。仅仅对两个领域都略懂皮毛并简单地做

284、加法是无法取得成功的。如何提升研究品味？苏炜杰认为，从长远来看，只有时间会告诉研究者怎样的品味才是最棒的。他本人在本科阶段接受了代数、几何、拓扑学等方面的纯数学训练，这对他的研究“品味”有很大的影响。时至今日，他的研究兴趣在很大程度上仍受到数学的驱动，喜欢尽可能简单的思路，看到事物背后最本质的原理。雷理骅表示，他曾经在 Michael 的组里从事研究工作，经常思考未来的研究方向以及如何对某些事务做出改进，这很有趣，也有一定的影响。他认为，跟上科学家们的脚步，是提升研究品味的好方法。Michael Jordan 也认为，数学会让研究者在一生中具有很好的研究“品味”，具有很好的数学上的洞察力。学习

285、数学不是为了“炫技”，而是为了将复杂的问题独立成相对简单的问题。找出某些问题成立的条件，从而保证将问题尽可能简化。张宏江表示，要想拥有好的研究“品味”，要学会将问题适度简化，寻找到问题的核心因素。此外，还要具有更加开放和包容的心态。开放的心态对于养成良好的研究“品味”十分重要。怎样在取得研究突破和紧跟趋势实现职业晋升之间取得平衡？Michael Jordan 认为，在评价体系方面，中美两国有很大的差异。至少从结构上来说，美国一些好大学的评价和晋升机制可能更健康一些，只需要6-10名在领域内具有崇高声望的人知晓研究者的工作，对其贡献有很高的评价就可以让你晋升。他们不会将论文数以及发表论文的刊物或

286、会议作为硬性指标。现在，越来越多的美国的优秀大学采取了这种评价和晋升机制。上述晋升方式建立在以学术声誉为基础的信任之上，为你写推荐信的人需要足够客观公正。这样就可以建立一个信任网络。一些中国的合作者被要求在特定的会议/刊物上发表论文，他们感到了很大的约束，这也会阻碍中国的发展。这样的制度可能会让一些中国的青年教师仅仅以达到“过关”的最低标准为目标，这并不是一件好事。张宏江表示，中国顶尖大学在评价机制上也已有所改变，大趋势是向好的。在清华、北大这样的顶尖高校里，青年学者的晋升道路和职业生涯是令人鼓舞的。当然，其它高校的评价机制可能会统计论文数，并设置一个“评价矩阵”。中国的青年学者不应只追求满足

287、评价机制的要求，不要将时间浪费在提升论文数量和引用量上，应该力求做出伟大的工作。在清华、在北大、在智源，研究者并不需要玩这种“游戏”。当然，论文数量也是重要的。但一篇优秀的论文，可能比许多篇普通论文加起来更重要。一方面，需要对这种评价机制进行改革；另一方面，在中国，如果研究者所处的单位足够优秀，也不需要在这方面过于担心。研究者都想做出突破性的贡献，冒险解决具有挑战性的问题是否明智？Michael Jordan 认为，研究者不仅要将自己定位为“问题解决者”，还要尽力为社会做出贡献，成为有用的人。许多学者沉醉于小的学术社交圈，享受科研的思路，享受对学生带来的影响。但实际上，应该让这些努力对社会有所

288、影响。研究者的目标应该是做出与社会相关的工作，解决真正有意义的问题。有的研究者并没有发表很多成果，但他们的工作影响了医疗、教育、气候等关键问题，那么他们的人生和职业生涯也很有价值。张宏江表示，纵观中国的计算机科学发展史，目前青年学者身处于最好的时代。不要为自己的研究生涯过度担心，环境一直在改善。青年科学家要对社会产生积极的影响，这对其所处的研究领域也是大有助益的，有助于学生的成长和制度的构建。174175Can We Make Large Language Models Smaller?【陈丹琦|普林斯顿大学助理教授】报告二【研究背景及意义】“Making large models small

289、er”这是很多语言模型研究人员的学术追求，针对大模型昂贵的环境和训练成本，陈丹琦老师重点提及了基于记忆增强的TRIME算法和基于粗细粒度联合剪枝和逐层蒸馏的CofiPrun-ing算法。前者能够在不改变模型结构的基础上兼顾语言模型困惑度和检索速度方面的优势；而后者可以在保证下游任务准确度的同时实现更快的处理速度，具有更小的模型结构。【研究方法】近年来，自然语言处理领域正在迅速被大语言模型所主导。自从GPT 3问世以来，语言模型的规模呈现指数级增长。大型科技公司不断发布越来越大的语言模型。近期，Meta AI发布了OPT语言模型（一个蕴含了1750亿参数的大型语言模型），并向公众开放了源代码。研

290、究学者们之所以如此推崇大语言模型，是因为它们出色的学习能力和性能表现，但是人们对于大语言模型的黑盒性质仍了解甚少。向语言模型输入一个问题，通过语言模型一步一步地推理，能够解决非常复杂的推理问题，比如推导出计算题的答案。但与此同时，大型语言模型也存在着风险，特别是它们的环境和经济成本，例如：GPT-3 等大规模语言模型的能源消耗和碳排放规模惊人。面对大语言模型训练成本昂贵、参数量庞大等问题，陈丹琦博士团队希望通过学术研究缩减预训练模型的计算量并且让语言模型更有效率地适用于下层应用。为此重点介绍了团队的两个工作，一个是一种语言模型的新型训练方法称之为TRIME，另一个是一种适用于下游任务的有效模型

291、剪枝方法称之为CofiPruning。Training Language Models with Memory Augmentation 传统语言模型的训练流程如下：给定一段文档，将其输入到Transformer编码器中得到隐向量，进而将这些隐向量输送到softmax层，该层输出为由V个词嵌入向量组成的矩阵，其中V代表词汇量的规模，最后可以用这些输出向量对原先的文本进行预测，并与给定文档的标准答案进行比较计算梯度，实现梯度的反向传播。然而这样的训练范式会带来以下问题：（1）庞大的Transformer编码器会带来高昂的训练代价；（2）语言模型都输入长度固定，Transformer的计算量规模会

292、随着序列长度的变化呈平方级增长，因此对于长文本来说很难控制语言模型的规模；（3）如今的训练范式是将文本投影到一个固定长度的向量空间内来预测接下来的单词，这种训练范式实际上是语言模型的一个瓶颈。为此，陈丹琦老师团队提出了一种新的训练范式TRIME，主要利用批记忆进行训练，并在此基础之上提出了三个共享相同训练目标函数的语言模型，分别是TrimeLM，TrimeLMlong以及TrimeLMext。TrimeLM可以看作是标准语言模型的一种替代方案；TrimeLMlong 针对长范围文本设计，类似于Transformer-XL；TrimeLMext结合了一个大型的数据存储区，类似于kNN-LM。

293、在前文所述的训练范式下，TRIME首先将输入文本定义为，然后将输入传送到Transformer编码器中，得到隐向量，经过softmax层之后得到需要预测的下一个单词，在整个训练范式中可训练的参数为和。陈丹琦老师团队构建了一个基于批记忆的语言模型训练方法，主要思想是针对相同的训练批（training batch）构建一个工作记忆（working memory）。针对给定文本预测下一个单词的任务，TRIME的思想与对比学习十分类似，不仅仅考虑利用softmax词嵌入矩阵预测下一个单词出现概率的任务，还新增了一个模块，在这个模块中考虑所有出现在训练记忆（training memory）

294、中且与给定文本需要预测的单词相同的所有其他文本。176177TRIME的推理阶段几乎与训练过程相同，唯一的区别在于可能会采用不同的测试记忆，包括局部记忆（Local memory），长期记忆（Long-term memory）和外部记忆（External memory）。局部记忆指的是出现在当前片段中的所有单词，并且已经被注意力机制向量化；长期记忆指的是由于输入长度限制导致无法直接获取但与待处理文本来源于相同文档的文本表示，外部记忆指的是存储所有训练样本或者额外语料库的大型数据存储区。因此整个TRIME的训练目标函数包括两个部分：（1）基于输出词嵌入矩阵的预测任务；（2）在训练记忆（train

295、ing memory）中共享同一个待预测单词文本的相似度，其中需要衡量相似度的向量表示是在通过最终前馈层的输入，采用缩放点积衡量向量相似度。算法希望最终训练的网络能够实现最终预测的单词尽可能准确，同时同一训练批内共享同一个待预测单词的文本尽可能相似，以使得证在训练过程中让所有的文本记忆表示通过反向传播实现端到端的神经网络学习。算法的实现思想在很大程度上受到2020年提出的稠密检索（dense retrieval）所启发，稠密检索在训练阶段对齐正查询和相关文档并且利用同一批内的文档作为负样本，在推断阶段从大型数据存储区中检索相关文档。综上所述，传统的语言模型在训练阶段和测试阶段都没有利用记忆；

296、连续缓存方法只在测试阶段采用了局部记忆或者长期记忆；k近邻语言模型在测试阶段采用了外部记忆；而针对TRIME算法的三种语言模型，在训练阶段和测试阶段都采用了记忆增强的方式，其中TrimeLM在训练阶段和测试阶段都采用了局部记忆，TrimeLMlong在训练阶段针对相同文档的连续片段放入同一批训练，在测试阶段结合了局部记忆和长期记忆，TrimeLMext在训练阶段针对相似文档放入同一批训练，在测试阶段结合了局部记忆、长期记忆和外部记忆。Structured Pruning Learns Compact and Accurate Models模型压缩技术被广泛应用于大语言模型，让更小的模型能够更快

297、地适用于下游应用，其中传统的主流模型压缩方法为蒸馏（Distillation）和剪枝（pruning）。对于蒸馏而言，往往需要预先定义一个固定的学生模型，这个学生模型通常是随机初始化的，然后将知识从教师模型传送到学生模型中去，实现知识蒸馏。例如，从原始版本的BERT出发，经过通用蒸馏，即在大量无标注的语料库上进行训练之后，可以得到基础版本的TinyBERT4，针对基础版本的TinyBERT4，还可以通过任务驱动的蒸馏方法得到微调过的TinyBERT4，最终得到的模型在牺牲轻微的准确度基础之上可以比原先的BERT模型更小且处理速度更快。然而这种基于蒸馏的方法也存在着一定的缺陷，例如针对不同的下游

298、任务，模型的架构往往是固定不变的；与此同时需要利用无标注数据从零开始训练，计算代价太大。178179【总结及展望】大型语言模型如今取得了非常喜人的实际应用价值，但是由于昂贵的环境和经济成本，隐私和公平性方面的困扰以及难以实时更新的问题，导致大型语言模型仍有很多待改进之处。陈丹琦老师认为，未来的语言模型或许可以用作大型的知识库，同时在未来语言模型的规模需要大幅度削减，或许可以利用基于检索的语言模型或者稀疏语言模型来代替稠密检索，模型压缩的工作也需要研究者们重点关注。针对传统蒸馏和剪枝方法存在的局限性，陈丹琦老师团队提出了一种名为CofiPruning的算法，同时针对粗粒度单元和细粒度单元进行剪枝

299、，并设计了一个逐层蒸馏的目标函数将知识从未剪枝模型传送到剪枝后的模型中去，最终能够在保持超过90%准确率的基础之上实现超过10倍的速度提升，比传统的蒸馏方法计算代价更小。陈丹琦老师团队希望能够在粗粒度单元和细粒度单元同时剪枝，从而兼具两种粒度的优势。除此之外，为了解决从原始模型到剪枝模型的数据传送，CofiPruning在剪枝过程中采用逐层对齐的方式实现知识的传送，最终的目标函数包括了蒸馏损失和基于稀疏度的拉格朗日损失。对于剪枝而言，往往需要从一个教师模型出发，然后不断地从原始模型中移除不相关的部分。在2019年提出的非结构化剪枝可以得到更小的模型但是在运行速度方面提升很小，而结构化剪枝通过移

300、除例如前馈层等参数组实现实际应用的速度提升，例如2021年提出的块剪枝可以实现2-3倍的速度提升。180181New Advances in(Adversarially)Robust and Secure Machine Learning对抗鲁棒和安全机器学习的新进展【张弘扬|加拿大滑铁卢大学助理教授】报告三【背景】机器学习中的鲁棒性问题一直以来受到人们的关注。特别是在自动驾驶等领域，如果对系统进行对抗样本攻击，自动驾驶可能会对接收到的图像进行错误的分类，最终造成事故。例如，将行人的图像加入扰动后，可能让自动驾驶系统认为前方没有人。要提高机器学习模型的鲁棒性，存在一种 Trade-off需要在

301、模型的自然精确度和鲁棒性之间取得平衡。如果追求极高的鲁棒性，则模型的自然精确度会下降；同时，如下图右下角所示，我们试图优化自然精确度损失函数和鲁棒性损失函数的非负线性组合，但是自然精确度和鲁棒性损失函数是不可微分的，这给模型的优化带来了困难。【演讲内容】在演讲中，张弘扬博士主要介绍了近年来在机器学习鲁棒性领域的研究情况，特别是其团队提出的 TRADES 方法，以及其在对抗防御方面的方法，具体可分为经验防御（Empirical Defense）和认证防御（Certified Defense）两大方向，以及在这两个方向应用的案例及应用。在经验防御方面，TRADES 方法总体上可以理解为：将模型的精

302、确度优化损失函数和鲁棒性优化损失函数结合，采用梯度下降的方法进行学习调优，从而在保证精确度损失不大的情况下，提升模型的鲁棒性。如图所示，TRADES 是一种全新的损失函数，其主要由两部分组成：其中表示的是传统模型中的目标函数，采用梯度下降的方法提升模型的精确度，而表示的是鲁棒性的目标函数，重点在于降低模型对样本和其对抗样本预测之间差异最大的样本，通过梯度提升的方法获取最大的损失。而整个损失函数则采用梯度下降的方法来进行优化，最终实现精确度和鲁棒性之间的统一。182183对于认证防御而言，这一方法主要是通过对每个对抗样本的周围进行随机采样，寻找能够影响模型性能的边界，从而确定模型鲁棒精确性的

303、认证下限。张弘扬表示，通过在 CIFAR-10数据集（有8个级别的密集对抗攻击）进行测试，模型能够在保持精确度的前提下，实现56.6%的鲁棒准确率。随后他举出了一系列案例，说明了 TRADES 在国际竞赛、基准构建等方面的应用。184185【总结及展望】张弘扬博士期待 TRADES 方法能够更广泛地应用于对抗样本的研究中，包括视觉、图像等领域，为对抗样本基准等方面做出更多贡献。在这一领域，张弘扬博士团队将 TRADES 方法应用于随机平滑上，发现 TRADES 能够取得最高的认证鲁棒精确度性能。186187通过将三个基本原则植入自组织映射（Self-Organizing Map）网络，配合 A

304、lexnet 网络，结果显示模型对面孔具有编码选择性，即使面孔被遮挡，负责编码面孔的神经对遮挡面孔表现为活动逐渐上升的过程，而对非面孔则是逐渐下降的过程。与此同时，模型预测了神经对遮挡面孔的识别时间存在差异，表现为被遮挡的比例越大，识别时间越长。通过脑电实验证实，该现象可以被人脑 VTC 活动显著预测。该报告展现了一个以发掘第一性原理为核心实现脑启发的示例。寻找第一性原理的过程就像是一个寻找智能载体并建模的过程，也是一个 implementation 的过程。复杂来源于简单，找到第一性原理，是我们理解脑启发 AI 的一个关键。人类视觉皮层对物体的编码选择性是大脑进行遮挡物体识别的基础，例如，即

305、使一张人脸被口罩、帽子等遮挡，我们仍立刻可以识别这是一张人脸。然而，遮挡物体识别是当前利用深度学习技术进行物体识别领域时面临的普遍问题，例如将遮挡面孔识别成是一般的其他物品。因此，从认知神经科学出发，探究人脑腹侧颞叶（Ventral temporal lobe，VTC）区域对遮挡面部识别的工作机制，揭示其背后的智能基础，将会极大推动脑启发 AI 识别模型或算法创新。为此，我们筛选了神经科学里面的三个基本原则来提升 AI 在识别被遮挡物体上的效能：第一，连线最小的原则（wiring cost minimization），即脑神经是以布线最小为原则来进行布线；第二，神经激活传导原则，即通过特定高斯

306、函数参数来模拟轴突长度和激活扩散过程；以及第三，模块化（modularity）约束原则，即信息由特定模块编码和封装。人工智能的认知神经基础论坛专题论坛12视觉皮层的物体选择性编码原则【刘嘉丨清华大学教授，智源首席科学家】构建人工智能与脑科学之间的桥梁，促进两者的双向互动与螺旋发展，是交叉领域研究的主要目标。脑科学里面有哪些核心的“第一性原理”，正在成为AI创新的认知神经基础？人工智能技术有哪些应用和实践，正在成为探索生物大脑“智能的奥秘”的有力工具？站在交叉学科的十字路口，通往通用人工智能有哪些可行路径？报告一在“2022北京智源大会-人工智能的认知神经基础”主题论坛上，来自于智源研究院人工智

307、能的认知神经基础重大研究方向的科学家同国内外行业专家一起，通过跨学科的学术研讨和交叉讨论，分享了他们对于以上问题的探索和思考。188189从神经的稀疏编码到数学超分辨率显微镜【陈良怡丨北京大学未来技术学院教授，智源研究员】报告二稀疏编码在数学与神经科学领域已有较多的研究。2006年陶哲轩等证明了只要原始信号足够稀疏，在信号的频域空间，由完整频谱的任意一部分均能以接近于100%的可能性恢复出原始信号，也就是由不完整的频谱恢复出完整的频谱。在本次报告中，陈良怡教授向大家介绍了一些神经科学中的稀疏编码现象，并介绍了当前领域内的一些观点，认为大脑也有可能在利用压缩感知的方法对信息进行处理与传递。神经编

308、码的稀疏性使得神经系统能够更有效的传递和分类高维信息，扩大记忆的存储能力,节省能量，提升泛化推理能力。受到稀疏性对信号传输和恢复重要性的启发，陈良怡教授及其合作团队利用稀疏性基本原理突破荧光超分辨率的衍射极限。他们利用图像的稀疏性与连续性两个先验条件，结合迭代解卷积，大大提高了荧光成像的分辨率，和原先基于物理原理和荧光探针特定特性的超分辨率方法截然不同。利用这一新算法，第一次实现了在活细胞上对核孔复合体的60nm 结构进行观察（以往只能观察到90nm 的结构）。成像分辨率的提升对研究神经科学、临床领域问题都有很大的帮助。例如，利用这一新算法，能够更有效的观察 Tau 蛋白在老年痴呆患者脑中是从

309、何处起始、富集和传播。稀疏性是一个基础性的原理，它对于信息的传递与恢复具有很重要的意义,在神经系统的信息加工中同样具有重要意义。借鉴人类学习抽象规则的认知范式，实现神经网络的推理泛化能力【宋森|清华大学教授，智源研究员】报告三抽象推理是智能的基本问题之一。抽象规则学习是在输入中寻找可推广的模式，并能够脱离对具体例子的依赖，从而可以达到更好的可推广性和泛化性。尽管神经网络在一些视觉任务中已经达到了人类水平，但其推理能力仍然远远落后，尤其是在无监督（规则未知）的情况下。生物智能中，即使是很小的婴儿也具有很好的抽象规则学习能力。研究表明七个月大的婴儿就可以发现声音里的一些语法规律。而如果是空间上的视

310、觉序列，更小的婴儿（3-4个月）也可以学到其中的规则模式。不只是人类，有实验表明猴子在空间序列规则识别任务中也可以很快的学习到物体的空间序列规则。这些都表明抽象的规则学习在生物智能中是一个普遍且重要的能力。受认知科学的启发，宋森教授团队首先设计了一个更像人类学习规则的任务，该任务旨在通过试错的方式来学习抽象规则。然后构建了一种新的架构来解决此任务，该架构主要根据先前的试验结果学习规则的表征，其对规则构建一个嵌入向量表征，通过对比模块和规则模块分别进行规则的猜测和规则表征的动态修改，使得该结构可以快速适应没有见过的规则组合，从而学习到规则，实验表明网络在推广能力和泛化性上都有明显的提升。其次，我

311、们提出通过内部推理的过程来学习更鲁棒的规则表征。该方法关键思想是将学到的规则重复应用到不同的实例中，以期对规则有一个全面的理解(即更鲁棒的表征），在瑞文测试中相比于其他方法表现出更好的推广和泛化能力。因此，抽象规则的学习能力对于提高人工神经网络的推广和泛化能力具有重要作用。190191连续吸引子神经网络-一种神经信息表征的正则化模型【吴思|北京大学教授，智源研究员】报告四大脑中存在海量的神经元，神经元之间通过突触形成网络，神经系统基于网络动力学实现神经计算。建模大脑神经计算和表征的典型模型为吸引子网络，包括离散吸引子和连续吸引子网络。离散的吸引子网络，如 Hopfield 模型，被广泛地用来解

312、释大脑的联想记忆功能，其吸引子是离散的。在连续吸引子网络，吸引子在网络状态空间中紧密排列，形成了一个低维的，平滑的流形，故连续吸引子网络可以被用来编码和表征连续的刺激变量，被广泛地用来建模大脑的头朝向系统，运动方向和空间位置的表征等。近年来，连续吸引子结构在大脑中的存在被广泛地证实，比如，最近的实验发现果蝇的编码头朝向的系统具有连续吸引子动力学性质。连续吸引子网络已经成为一个标准的，用于神经信息表征的正则化模型，其有着很好的计算特性。第一，连续吸引子网络可以用于编码图片之间具有相似性的语义表征，借助深度神经网络，这种连续吸引子表征可以从真实图片数据中学习得到；第二，在连续吸引子网络的动力学中引

313、入一种神经负反馈机制后，其原本稳定的波包状态会在平滑的流形空间移动，形成行波，并实现对外部移动刺激的预测追踪；第三，结合神经负反馈机制，连续吸引子网络可以实现动物觅食过程产生的莱维飞行现象，并可以帮助理解神经系统如何实现高效的记忆检索。吴思教授在分享中提到其课题组最近的研究还建立起连续吸引子网络动力学和机器学习算法之间的联系，其发现连续吸引子网络可以实现群等变表征，也可以在引入神经元适应性机制后，实现高效的哈密顿采样。总的来讲，现有的机器学习算法主要基于数据驱动的方式学习得到概念表征，而连续吸引子网络等则基于知识驱动的方式，建立起了这些概念表征之间的关联。未来这两种方法或许可以更加紧密地结合在

314、一起，创造更好的智能算法。大脑的抽象符号表征（从智人进化看 AI 种的语义理解）【余山|中国科学院自动化研究所研究员，智源研究员】报告五近年来基于深度学习的自然语言处理取得了长足进展，大模型的成功更是极大提高了人工智能在语言任务中性能，但是单纯基于符号层面的统计模型从本质上会面临“中文屋子”困境,即难以理解符号在真实世界的语义。相比而言，人类不仅能熟练的掌握语法，也能理解语言符号的真实含义，所以能够通过符号传递丰富的信息，比如从少量文字联想到具体的场景。这种能力差异的实质是什么？比较重要的是 Stevan Harnad 提出的符号接地（sym-bol grounding）能力，就是我们大脑具有

315、将抽象的符号与真实世界的事物进行关联的能力，从而可以将符号主义和连接主义的方法紧密融合在一起。通过核磁共振的扫描也发现，当给被试呈现不同的单词时，大脑不仅仅会激活负责语言的区域，还会激活几乎整个大脑的所有区域，这说明大脑能够将抽象的语言和具象的感官、运动、情绪等众多表征相关联。从人类进化的过程看，语言能力是智人发展的中后期才具有的能力，一个重要的判断依据是近10万年以来，壁画或有意义的抽象符号在智人所留下遗址或遗物中的出现。这种人类所独有的符号化表征能力在心智形成、想象、规划、使用工具等高级智能功能及行为中也具有重要作用。如果排除人类抽象符号语言能力，那么我们的智能水平可能与较高等的非人灵长类

316、动物并没有太大的区别。因此我们希望未来能进一步通过借鉴大脑的抽象符号表征能力来解决符号接地的问题，从而促使人工智能上一个新的台阶。192193知觉学习：机制、功能及其增强【方方|北京大学教授，智源研究员】报告六知觉学习是感知系统适应外界环境的一种典型现象，是指对物理刺激的知觉通过反复练习或者经验而产生的持续稳固的变化。知觉学习表现为对知觉特征和客体的分辨和识别能力在自身无意识下逐渐提高，并在数月乃至数年间稳定保持。知觉学习的机制、功能及其增强是知觉学习研究的核心，探索知觉学习的机制、功能及增强手段有助于揭示人类认知增强乃至智能的普适性机理，也有望为类脑计算和类脑智能增强带来全新的突破口。方方教

317、授团队首先采用面孔知觉学习和运动知觉学习范式，以人类为研究对象，结合心理物理及磁共振的技术手段，系统性地探究知觉学习的认知神经机制。其次，结合经颅磁刺激技术的一项研究表明通过训练可以让另外一个脑区（V3A）对其他的脑区（MT）实现功能性的替代，这项研究有潜力应用到未来的相关治疗当中。并且，知觉学习可以有效提升空间注意分辨率，改变V2的群感受野从而减轻视觉拥挤效应。此外，在增强知觉学习方面，基于心理物理和 fMRI 的研究表明，当与一个能力较强的队友进行双人知觉学习时能够有效提高学习速度和幅度；通过对比不同频段、不同位置穿颅交流电刺激（tACS）对知觉学习的影响，发现只有对视皮层施加10Hz 电

318、刺激时可以让被试学的既快又多，且学习效果可保持14个月。主动推断：知觉行为的第一性原理【Karl Friston|英国伦敦大学学院教授】报告七知觉是人脑对接收到的外界刺进的反应，是包含一系列的感觉信息的加工过程。Karl Friston 认为主动推断（Active Inference）是知觉行为的第一性原理，很多和知觉行为相关的算法均可以从这一原理推得，比如强化学习，主动学习，贝叶斯最优推断，贝叶斯最优设计等。主动推断可以基于最小化预期自由能实现，其本质上是在优化智能体对外部世界的信念。比如，一个猫头鹰饿了，那么接下来会做什么，很显然，其会去寻找食物。从目标函数优化的角度来看，猫头鹰需要基于当

319、前的状态，采取动作，优化其状态-动作价值函数。但 Karl Friston 认为猫头鹰首先面临的问题是基于当前的状态，搜寻解决方案，不同的方案具有不同的不确定度，比如食物出现的位置，这些不确定度属于信念的一部分。故猫头鹰的目标函数不是关于状态的函数，而是关于自身对状态的信念的函数。主动推断从简单地考虑“如果我这样做会发生什么”的信念转变为“如果我这样做，我会相信发生什么”的信念。Karl Friston 进一步指出利用预期自由能的递归形式可以高效地实现对未来行动和结果的深度树搜索。其以小鼠在 T 型迷宫寻找食物奖赏为例，展示了主动推断可以帮助解决智能体探索-利用困境这一难题。194195大脑精

320、细仿真，揭开生物智能的结构基础【杜凯|北京大学人工智能研究院助理研究员】报告八在 Ramon Cajal（西班牙神经学家，1906年诺贝尔生理学或医学奖得主）之前，神经科学还停留在哲学和神学层面，Cajal 提出了“信息是如何在神经细胞胞体与树触之间流动的”理论，开启了近代神经科学。神经计算则通过建立合理模型模拟了神经细胞处理信息的过程。神经计算的实现主要两条道路：点模型和精细神经模型。点模型虽然是过去半个世纪以来的主流模型，并且是现在的深度学习模型的源头，但是无法真实反应神经细胞树突的强大计算能力，相对而言，精细神经模型在这方面有巨大的潜力。比如说，最新的研究表明，单个精细神经元模型的计算能

321、力相当于一个5-8层的深度学习网络。简单的说，精细神经模型整合了包括 Hodgkin-Huxley 模型和电缆理论（Cable Theory），并且开发了相应的数值计算方法。当前，精细神经元模型已经产生了包括树突计算理论等诸多成果。人们发现神经细胞能够通过树突计算实现被动滤波、兴奋性与抑制性信号相互作用、动作电位反向传播、非线性信号整合等诸多功能，而非线性的信号整合又产生了树突脉冲现象、树突平台电压等现象，这些现象已经在生理上有被明确观察到。另一个重要的例子，树突棘计算理论被认为与生物学习记忆机制存在关系。基于树突计算理论，Hin-ton 等人提出了 NGRAD 框架，该框架中前馈与反馈信号可

322、以同时互补干扰的传递，实现信道复用。人们发现简化的树突模型可以实现信道复用，树突可塑性可以实现多层神经网络计算，进而单个复杂树突神经元可以具备多层神经网络计算能力。因此，杜凯研究员认为，基于树突计算与单神经元已经具备了复杂的计算能力，而复杂神经元的大规模高精度模拟将成为未来计算神经科学的重点研究方向之一，进而推动对智能科学的探索。此外，杜凯研究员在回答观众提问时也提到，未来 AGI 的实现一定需要“真实世界模拟”（real wor-ld simulation）。而大脑进化出无数个细节，就是为了适应“真实世界”（real world）的复杂环境。所以，在无数的基本原理（principles）之外

323、，还需要大脑里面的无数个细节对复杂的“真实世界”（real world）进行表征和模拟。从这个角度来讲，复杂神经元的大规模高精度模拟将成为“真实世界”模拟的基础条件。196197为具体推动这方面的探索，我们提出了一个“3+1”的路线图。首先第一点是通用智能的认知神经标准库，即我们需要一个来自于神经生物学的数据基础，这也是“具身”的基础。通过这些神经的数据、行为的数据、认知的数据，我们才能洞悉大脑是怎么工作的，我们的身体是怎么与环境怎么交互的，从而才能理解产生智能的过程和底层机理。第二点就是通用智能的训练环境。我们认为只有一定的环境才可以真正产生我们相应的智能，需要把环境作为计算的一部分。比如，

324、在不同的宇宙里面可能智能的表现形式是完全不一样的，这是因为不同环境下的物理原则可能不同。所以，智能体所处的训练环境不同，最终产生的智能表现形式也是不一样的。我把这部分称为“图灵测试2.0”，它是让智能体基于这个物理环境进行演化并产生智能的关键。我们认为第一点的生物数据和和第二点的图灵测试合并起来就对应到前面所说的“具身（Embodied）”这部分。最后，我们可以根据大脑数据来调整这个演化系统。我们把这一点称之为“通用智能的风洞”。这部分主要有两个作用，第一个是利用大脑数据来给智能体启发，比如我们可以把已有关于人类的行为范式作为一种预设的知识嵌入到智能体里面，类似于生物的基因一样，把这个先天的基

325、因的作用加入进去。由此，智能体在这个 open-ended 环境中不断演化并最终实现通用智能。我个人认为这个是通向 AGI 唯一正确的一条道路，也是我们现在在不断努力和尝试的方向。通用智能演化系统，AGI 的可能实现路径【刘嘉丨清华大学教授，智源首席科学家】报告九“如果说我们比别人看的更远一点，是因为我们站在巨人的肩上，”牛顿从科学探索的角度，我们认为找出智能产生的“第一性原理”，是从逻辑原点出发去推演更高层级智能认知行为的关键。其中我认为有两个重要的核心观点：第一，智能只有通过进化（Evolution）才可以实现真正地理解；第二，进化仅仅发生在物理世界（Physical World）的约束

327、rd in enough”(“Powerful reinforcement learning agents could constitute a solution to artificial general intelligence.”)请问各位老师评价和看待这一观点？Reward是否真的Enough？以及有何补充。以下内容为圆桌环节部分观点摘要，非逐字转录，供各位读者参考。人工智能与脑科学的双向互动与螺旋发展之AI for Brain Science第一，技术应用层面，与会专家认为主要体现在以下几个方面：1.在生物医学工程领域，利用 AI 技术做动物里面的连接组学，比如利用计算机视觉技术识别

328、电镜切片，重构神经元之间的连接等。2.在生物数据的处理上，原来用深度学习去处理像 EEG 或 fMRI 数据的时候任何人之间的数据差别是很大的（会导致模型很难迁移），但是现在有了元学习（Meta-learning/learning to learn）之后，就可以很容易解决人与人之间数据差别过大的问题。3.还有大家经常用深度学习，尤其是循环神经网络来拟合神经的数据，再把这里面得到连接的和我们大脑里面记录到的一些数据进行比较，试图来理解大脑的工作原理。4.人工智能技术在多组学分析领域，比如基因转录组的分子成像数据都是分布在不同的维度上，表现出不同的形式，这时我们就可以利用深度学习去做数据的

329、降维和特征抽取，从而将高维的数据映射到可以理解的维度上，这对于理解基因的表达会非常有帮助。此外，陈良怡教授举例表示，我们在利用深度学习技术去处理脑科学的一些数据的时候，有时候容易过于强调人工智能 Data-driven 的特性，在这一点上，可能需要更多引入物理或化学模型的先验知识，这可能是会对提高 AI 模型性能比较有帮助。刘嘉教授认为，奖励（Reward）从进化层面来讲就是生存（Survive）和繁衍（Reproduction）。生物的繁衍需要持续不断的奖励，但什么样的奖励可以构成有效的、能够推动智能体不断繁衍进化的损失函数，取决于所处的环境和具体的任务。“适者生存”可能只是定义了其中的一

330、种，而另一种是“生”的对面“死”。在精神分析领域，弗洛伊德早期提出过一种理论叫“生本能”。他从动物的角度讲包括人在内的所有动物都是为了更好的生存下去，这是进化的一个动力，从这个意义上，“Reward”可能是“Enough”的。但与“生本能”相对应的还有一个“死本能”。我对这两个“本能论”的理解是，对于个体来说，死亡永远是一个很糟糕的事情，人们能希望够活的越长越好。但是，从群体进化的角度来看，死亡可能是很好的事情，它能够推陈出新，实现群体的进化。所以回到我们刚才所讲的奖励（Reward），可能只是从单个智能体的角度来考虑的。而如果考虑多智能体的情况，比如蚂蚁的协同共生性（Stigmer-gy）、

331、人类作为群体的进化等，可能要从多个智能体的角度重新看待。“Reward is enough”这个观点需要进一步完善其在从多智能体情况下的适用性。杜凯研究员认为，“Reward is enough”这个说法在计算科学机器学习的框架下，利用强化学习算法的方法可以解决一部分实际问题。但是从神经科学的基层逻辑来看，如果我们要拓展到去解决真实世界（real world）或在模拟的真实世界环境中去解决一些实际问题的话，“Reward is enough”可能还是存在一些局限性。宋森教授认为，从哲学角度来讲，“奖励最大化”对生存来讲是一个很重要的原则，但是具体到我们现在所说的 reward-based le

332、arning 这样一个具体的函数还是很不一样的，因为从基因到物种结构上的变化中间的过程是非常复杂且最重要的，同时还需要考虑环境等因素的影响，这些在进化过程中可能都需要考虑进去。吴思教授认为，这句话本身比较狭隘，需要具体到实际应用中去看我们要用什么样的网络结构的算法来实现这样一个观点。陈良怡教授同样认为，“Reward is enough”，仅适用于特定的环境和情形。余山研究员认为“Reward”只是表明说目标函数很重要，但并没有提供很有有价值的信息。第二，科学探索层面：刘嘉教授认为，AI 技术提供了一个独立于生物智能系统的智能的参照系。利用这个参照系，我们可以找这种人工智能系统和生物智能系统的

333、最大公约数，对比在这两种系统里面，哪些东西是 AI 特别能解决的，从而帮助我们的研究去问一些真智能的问题，同时从人类的角度来讲，哪些是人类特别容易解决而AI解决不了的，从而帮助我们判断人工智能的下一步发展究竟应该从哪些方面出发，去从人脑或者生物智能体得到启发。所以，人工智能和大脑两个智能的载体可以互为参照系，这对于我们提出一些关于智能的本质或者智能的原理等“真问题”会特别有帮助。余山教授以“机器学习里面的灾难性遗忘问题”为例，表示原来脑科学家是没有问过这样的问题的，但是在 AI 系统中这个是一个非常重要的问题，是需要特殊的设计才可以解决的。所以我们才问脑子是怎么解决这个问题的，我们能不能从中找到一些机理性的启发。其他例子如大脑如何做符号化的表征，脑子为什么有这样一套强大的自然语言处理机制，可以实现符号接地的能力。所以，如果能够把 AI 系统和神经科学交融起来互相促进互相启发，会是非常有价值

友情提示

1、下载报告失败解决办法
2、PDF文件下载后，可能会被浏览器默认打开，此种情况可以点击浏览器菜单，保存网页到桌面，就可以正常下载了。
3、本站不支持迅雷下载，请使用电脑自带的IE浏览器，或者360浏览器、谷歌浏览器下载即可。
4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩，下载后原文更清晰。

本文（【会议集】2022北京智源大会观点报告.pdf）为本站（会议专家）主动上传，三个皮匠报告文库仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对上载内容本身不做任何修改或编辑。若此文所含内容侵犯了您的版权或隐私，请立即通知三个皮匠报告文库（点击联系客服），我们立即给予删除！

温馨提示：如果因为网速或其他原因下载失败请重新下载，重复下载不扣分。