《16机器学习.pdf》由会员分享,可在线阅读,更多相关《16机器学习.pdf(52页珍藏版)》请在三个皮匠报告上搜索。
1、116机器学习2 AAAI 主席 YolandaGil:思虑周全的人工智能为数据科学和科学发现构建新型合作伙伴关系整理:智源社区罗丽在北京 2020 智源大会机器学习专题论坛上,AAAI 主席、南加州大学信息科学研究所副主任 YolandaGil 作了题为“Thoughtful Artificial Intelligence:Forging a New Partnership for Data Science and Scientific Discovery”(思虑周全的人工智能:为数据科学和科学发现构建新型合作伙伴关系)的主题报告,为我们介绍了“Thoughtful AI”在零散数据整合和跨
2、学科研究中的重要作用,同时提出了设计 AI 系统需要遵循的七条原则或七大研究领域对构建有效的 AI 合作伙伴关系的重要影响。YolandaGil,南加州大学信息科学研究所副主任,美国人工智能协会(AAAI)第 24 任主席,美国计算机协会(ACM)会士,人工智能特别兴趣小组前任主席,毕业于卡内基梅隆大学,曾在美国国家科学基金会计算机科学与工程理事会咨询委员会任职。正式演讲前,YolandaGil 首先介绍了“Thoughtful Artificial Intelligence”的概念、人工智能的应用以及人工智能在科学领域的发展和研究现状。YolandaGil 表示,人工智能应该具有具备推理和思
3、考其正在采取的步骤和过程是否合理的能力,以便它可以传达其思想、改善思想,并提出新的思维方式和学习思考问题的方式,YolandaGil 认为,“Thoughtful Artificial Intelligence”是研究 AI 系统如何成为数据科学和科学研究合作伙伴的一个好方法,在接下来的几十年,她非常希望能够看到 AI 科学家的出现,以及 AI 科学家、数据科学家、工业界和不同学科的科学研究人员的合作。推荐系统、无人驾驶汽车、足球机器人、IBM Watson、问答游戏、帮助改善搜索的针对性最佳人类知识图谱以及 AI 会话系统等机器学习系统和机器人技术是已经成熟的人工智能技术。AI 成功的前景中
4、,有两种不同的线程3彼此互补且相互作用,一个是数据线程,数据线程是从大量数据和大量的观察中学习;另一个是有关世界知识、有趣的实体知识和任务知识的知识线程,如 IBM Watson、知识图和会话系统,知识对于启用 AI 应用程序具有强大作用。图 1:成熟的 AI 应用科学中人工智能的应用是 YolandaGil 的研究重点。例如,推荐系统技术在勘测气候数据时非常强大;位于海底的自动驾驶机器人能够自动进行实验并收集数据;通过生物学和化学方法可以实现实验室设备自动化的机器人自动化;科学知识图谱中的大量工作文本提取,解决了工厂的大项目,其中包括许多不同的兴趣实体,整合制药公司,解决问题并理解科学的工作
5、流程。图 2:科学中的 AI4科学中的 AI 跨越了两个传统,在数据线程和知识线程中有着悠久的历史,在数据分析和知识推理方面也具有悠久的发展历史。AI 的先驱者 Herb Simon,Feigenbaum 和 Bruce Buchanan 等人以不同方式的两个方面研究从 AI 的角度看待科学,如图(3)左图所示。之后,YolandaGil 介绍了不同科学杂志中有关“Al Transformations Science”的研究,如图(3)右图所示。其中,左上方的研究是,致力于计算可持续性和环境可持续性的数据线程,使用机器学习和约束优化技术研究自然环境;右上方的研究是,用深度学习改善蛋白质结构预测
6、;左下方的研究在 AI 中使用知识图谱的知识线程,以及毒理学推动知识发现的研究。右下方是关于词的文本学习,以获取大量文献知识的研究。可以发现,人工智能是一门贯穿所有领域的渗透科学。图 3:AI 研究学者与研究文献YolandaGil 的演讲内容主要包括四个方面:图 4:YolandaGil 的演讲内容5(1)知识技术越来越重要(2)Al 提供系统的、正确的、无偏见的方法和严格的报告(3)人工智能擅长整合有关复杂系统的零碎知识,追求跨学科前沿(4)“Thoughtful AI”将利用知识技术建立有效的 AI 伙伴关系一、知识技术越来越重要知识技术越来越重要,一方面是通过大量的大规模知识库的工业采
7、样,知识库能够捕获不同类型的知识,这些知识与不同目的和应用相关,所以它非常强大。YolandaGil 认为可以将数据作为开放的知识库,开放的知识库对科学具有重要的影响,是一种非常重要的知识工艺。在越来越多的应用研究中,工业规模知识图谱、知识库和自然语言等被得以广泛地应用。在过去 3、4 年中,从文本常识知识中提取常识成为了一种新的研究热点,YolandaGil 所在的研究所在这些领域中已经做了很多研究。YolandaGil 表示,在计算机视觉的研究中,知识标题的提取将忽略对图片的描述,视频使得研究者对对象以及所观察到的关系的准确表示变得越来越困难。在机器学习和数据科学中,需要使用用户能够理解的
8、知识和术语来解释系统在做什么,它是理论指导数据科学的重要方向,也可以通过使用物理知识来约束机器学习系统正在学习的内容,使它满足相关的物理定律。在某些领域的理论研究中,越来越多的知识技术贯穿其中,因此,在获取知识和保持知识更新方面仍存在很多挑战。研究人员表示,具有“维基百科知识量”的理论研究中,这种规模的资源扩展和状态更新将是一项非常艰巨的任务。因此,可以考虑尝试获取与某个领域相关的知识,或与总体有关的兴趣实体的知识。获取所有知识是一个巨大的挑战,但是拥有像 Wiki 数据之类的资源,或者像 Wiki 数据一样获取大量知识的资源对某种理论研究是很有用的,这也表明了知识技术的重要性。二、Al 提供
9、系统的、正确的、无偏见的方法和严格的报告人工智能提供了一种非常独特的方法来查看任何领域的数据和知识。那么人类是如何研究和使用数据的?其中又存在着哪些问题呢?1.人类是非系统的。有一项研究表明,使用文本提取系统来编译化石记录中已知的所有内容,然后将它们与自动化系统进行比较时,发现人工提取需要大约 10 年的时间,与手动提取数据相比,即使文本提取仍是一种不完美的技术,但人工智能系统仍更具系统化、更加完善,机器能够从人类错过的文章中提取很多有用东西,不完善的 AI 系统比人类做得好。2.人类会犯错误。在一篇文献中,作者在整理影响不同国家经济衰退的因素时,实际上将一些国家排除在外,这使得一些偶然的重要
10、信息可能被排除在分析之外。3.人类存在偏见。YolandaGil 引用另外一个实例说明了人类在数据研究中存在偏见。一个观察古气候记录的视觉和人工智能系统能够观察到过去几个世纪的气候数据,并提出一些可以解释气候趋势的假设,这些是正在研究相同数据的科学家的论文中从未提及的。而当 YolandaGil 问及科学家有关假设时,得到的回答是,“这是一个很好的假设,我只是没有提及它,我认为我在论文中讨论的那些假设足够好。”可以看出,在某种程度上,研究人员确实存在偏见,而我们拥有很多可能性并且能够加以探索。4.人类会遗漏重要信息。实际上,人们写论文时会漏掉许多重要信息,YolandaGil 将其称为不良报告
11、。书面论文很难再现和复制,YolandaGil 及其团队已经做了一些研究,用于量化复制论文的工作量。人工智能系统的科学遗产或出版物可以进行某些数据分析和研究,这些研究可以以更加系统、正确和公正的方式提出一些可能的解释和假设,并能够对 AI 系统的运行进行严格的实际报告。就保持严格性而言,人工智能系统确实可以改变规则。6YolandaGil 认为,虽然我们离拥有极富创造力的 AI 系统还很遥远,但是在很多领域中,人工智能系统可以以更好的方式帮助我们做研究。在蛋白质组学和基因组学的研究中,AI 系统会自动提供一个假设,并自动查看可用于检验该假设的数据类型和方法,并得到结果,AI 系统能够对结果进行
12、推理,然后生成修订的假设(如果适用)以及该假设的一些置信度值。在这些研究中,人类分析很难做得透彻,而 AI 系统可以做到真正尝试测试每个搜索引擎,检查每个可能的选项并在搜索和优化科学方面做得更好。那么,我们是否可以认为,如果机器能够执行指令,那么如果我们给机器以科学的指导,它们就可以更加彻底而正确地分析大量可用数据。答案是否定的,我们还需要花费了大量的时间来阅读文章和书籍,以了解科学家是如何提出问题,如何回答问题以及需要考虑采用哪种机制。YolandaGil 表示互联网人工智能科学家设计的真正的“Thoughtful System”,需要经历研究科学并彻底实现科学的运动。三、人工智能擅长整合有
13、关复杂系统的零碎知识,追求跨学科前沿人工智能不仅会对分析特定学科的数据产生巨大影响,也会使科学研究发生巨大变化,零碎知识和系统是非常复杂的,需要从事跨学科研究,这对人们来说是非常具有挑战性的。所以,如果想要了解大脑区域复杂系统,比如了解大脑,或了解地球健康的生态系统,亦或是了解宇宙历史,为了整合各种知识和数据,我们需要非常认真地对待 AI。图 5:合著网络演化一个世纪以前,一位科学家只对应一篇论文一位作者,而在二十世纪初,出现了共同作者和简单的合著网络,之后又出现了越来越多的合著团体。科学正变得越来越复杂,那么 Al 如何帮助我们解决问题?7图 6:蛋白质组学研究图为蛋白质组学图片,每个颜色不
14、同的区域分别表示不同的蛋白质组实验室的不同专业见解,每个不同的方框展示了不同的实验方法。可以看到,没有一个实验室能结合所有方法进行研究,而人工智能具备各种专业领域的知识。在进行科学审查时,要求科学家拥有其团队成员所具有的所有专业知识,而大多数人是需要合作分析数据。而 Al 系统可以与人类合作,帮助我们收集零散知识并进行跨学科科学的研究。以 YolandaGil 及其团队的项目研究为例,为了解食物供应及短缺,YolandaGil 及其团队在项目研究时整合了不同的学科模型。渔业取决于气候,依赖于水模型、农业模式以及农作物经济价格,每个学科的模式都是不同的,而集成模型或中等模型的建立需要花费数月或数
15、年的时间,而且大部分是手工完成的,并且需求量在不断增加,它们在本质上有很大的不同,YolandaGil 发现需要从回答模型建立方式的问题,考虑的变量,使用的数据类型以及模型的运行方式等方面来思考模型的构建。而人工智能能够跨越不同学科,每个不同模型可以代表不同的过程,如何使用模型?一个模型如何从其他模型获取什么样的数据?哪些参数可以探索?可以用某个模型研究哪些物理变量等,人工智能能够把复杂问题组装起来,在科学上以更有效的方式整合模型,帮助我们研究跨区域因果关系。在不同实验室、不同群体和不同学校的研究中,高度交叉的学科和知识是分散的,很难将其整合起来,而 AI 系统能够在整合有关复杂系统的零碎知识
16、中发挥更大的作用。四、人工智能的研究方向演讲的最后一部分是关于“ThoughtfulAI”的研究方向,YolandaGil 认为,“ThoughtfulAI”的研究将真正改变 AI 系统与人类的合作关系。对科学家来说,拥有科学合作伙伴会带来一系列更严格的要求,因为他们想要进一步真正地理解、解释和辩论一些问题,而人机交互是其中最重要的问题,在人机交互中,人类可能在某些任务上做得好,而计算机更擅长8其他任务。以 Garry Kasyanov 提出的自由式象棋为例,Garry Kasyanov 曾表示,一个玩家可以是任何人与计算机的组合,任何超级计算机和任何数量的人,这些人将代表整个团队中的一个计算
17、机,而人类又将与另一个玩家竞争。那么我们如何设计出人机交互的最佳玩家呢?很明显,人机交互的最佳玩家并不是拥有最好的计算机和最优秀的大师的最佳组合团队,而是对国际象棋具有中等知识并且知道应该由那个人来制作那个游戏,应该使用哪个计算机程序来制作所要玩的游戏,以及一个好的流程来确定谁负责整体玩家的进步。因此,需要用最好的计算机,在最先进的算法中使用最优秀的人,人机交互的最佳玩家是人机互动和相互补充产生的最佳结果。那么,在 AI 系统中拥有科学合作伙伴需要遵循什么原则?人工智能系统需要做什么来帮助我们解决这些大的问题?演讲中,YolandaGil 详细阐述了“ThoughtfulAISystems”所
18、包含的 7 条原则,并表示,在科学研究和数据科学中,这些原则将帮助我们建立有效的 AI 伙伴关系。图 7:“ThoughtfulAISystems”所包含的 7 条原则1.理性原则。“ThoughtfulAISystems”的第一个原则是理性原则,它要求 AI 系统具有确定其行为的知识,这意味着它们必须具有一定的可预测性,必须能够理解系统从知识到行为的运行方式。AI 科学家使用的知识是与特定行为相关联的知识,这样才能回答诸如 Al 系统是否理解水流理论或其他任何理论,并确定其答案的问题。2.语境原则。在科学中,AI 系统包含他们正在执行的任务,提供的数据集和算法等其他指标,AI 系统对他们所要
19、回答的问题的类型,问题的相关性,问题的目的和意义具有“自己的想法”。在科学中我们可以提出什么样的问题?这些问题遵循什么样的模式?不同学科遵循的方法是什么?思考科学家回答不同问题所遵循的过程和问题是什么?他们会看到什么样的数据?遵循什么样的方法?这些都是非常重要的问题,但它们不仅仅是一个问题,更重要的是要了解有关问题的来源。3.主动原则。AI 系统能帮助我们解决非常复杂的问题,而且并不需要我们教他们所有知识,并向他们解释一切,AI 系统在学习方面具有非常强的自我驱动能力。他们能够在每天晚上学习所有知识,并从头开始阅读文献,然后重建他们所知道的一切知识。他们能够将自己从文献中学到的新知识整合到已知
20、的知识中,并能够运用9判断力将所有知识整合到该系统的工作方式中。AI 系统能够通过自我指导和自我询问学习和回答一些问题,能够在新方法出现时能刷新自己的知识。4.网络原则。Al 系统应存在于一个包含网络资源和科学资源的知识网络生态系统中,他们可以在其中自由地访问服务,访问数据库,访问不同类型的工作流知识,即各种不同的知识方式,无需某种连接性和能力,以便他们及时回答正在出现的问题,而且可以将结果放入该科学记录网络中。能够与其他事物建立联系非常重要。5.衔接原则。在科学中,解释 Al 系统中的重要信息是非常有必要的,科学家们不仅希望能够听到有关结论的解释,而且还希望能够听到这一发现与文献中所知信息之
21、间的联系,这就是扩展。扩展对科学非常重要,而 Al系统应该能够阐明联系并把他们的发现传达给不同的听众。AI 系统可以从不同的角度展示来自不同工作领域的人的回答,可以将其与其他研究或已知的方法联系起来,AI 系统了解自己的发现背景,发现的重要性以及如何与其他工作进行对比和整合的方式。6.伦理原则。伦理原则非常重要,涉及范围也相当广泛。对 AI 系统来说,其行为和运行产生的结果会受到伦理的范围和局限性的约束。只能访问某种类型的数据或某种特定类型的观点在科学中尤其重要,因此,将知识融入观念非常重要。7.系统原则。系统原则是 Al 系统的第七大研究领域,是为特定任务或目的创建系统。研究者可以通过训练系
22、统使其完成多个任务,但在将 AI 系统视为应该能够组成的系统或者将其作为不同层次的抽象系统等方面仍有很多工作要做。链接不同的 Al 功能非常重要,而 AI 科学家能够解释,提出,设计和计划这些系统应该具备的多个功能。因此,能够将不同 AI 系统集成在一起非常重要。YolandaGil 表示,这 7 条原则是人工智能研究中非常重要的研究领域,它们将使 AI 受益并推动 AI 成为科学和Al 系统的有效合作伙伴,具有更广泛的范围和应用空间。五、结语机器学习是人工智能领域的研究热点,其目标是希望计算机能像人一样进行学习,从样本数据中学到知识和经验,然后用于实际推理和决策。人工智能数据科学中数据驱动的
23、研究使我们进一步了解到知识技术的重要性,人工智能系统可以为我们提供更系统的正确的、无偏见的方法来分析任何数据和知识,并进行科学的、严格的报告,在整合复杂系统零碎知识和跨学科研究中,人工智能系统具有重要作用,YolandaGil 提出的设计 AI 系统需要遵循的七条原则或七大研究领域对构建有效的 AI 伙伴关系,分析有关数据信息和知识具有重要作用。Q&A:主持人:有教授表示,情感是人类智能中的一个重要因素,那么您认为,在 AI 系统设计中是否可以将情感作为一个重要原则。YolandaGil:我认为这是一个非常有趣的观点,事实上,在演讲中我谈到人类是有偏见的人,在某些场景中,我认为有一种情感在科学
24、中是非常重要,那就是顽固,这种决心和顽固的情感在某些研究和系统设计中或许是最重要的情感。但在通用智能中我认为这个问题是非常具有针对性,比如有研究人员已经开发出情感驱动的框架,这对开发虚拟人类非常重要,特别是在医学领域。10 卡耐基梅隆大学邢波:一个标准化、可组合的机器学习蓝图整理:智源社区孙超邢波本次的演讲主题是A Blueprint of Standardized and Composable Machine Learning(一个标准化、可组合的机器学习蓝图)。邢波,卡耐基梅隆大学机器学习系副主任,美国新泽西州立大学分子生物学和生物化学博士,美国加州大学伯克利分校计算机科学博士,主要研究集
25、中在机器学习和统计学习的方法论和理论,大规模计算机系统和架构的开发。邢波曾经担任过美国统计协会期刊应用统计年鉴的副主编,同时也是机器学习杂志和机器学习研究杂志的执行主编,曾经在 2014 年担任 ICML 的主席。在报告中,邢波总结了自己近几年的研究工作,详细向我们介绍一套关于机器学习的底层理论应用公式,他从机器学习的微观层面,包括损失函数、优化器、模型架构、理论知识,构建了一套机器学习的蓝图理论,并将其实例化,应用于人工智能领域。下面我们对邢波的这套机器学习蓝图框架作详细介绍。以下是智源社区编辑整理的邢波报告内容。一、机器学习蓝图是什么样的:HowaboutablueprintofML众所周
26、知,AI 已经被用于解决很多任务和问题,如目标识别、内容生成、计算生物学、健康保健,自动驾驶汽车等,如图 1 所示。人们对机器学习寄予很高的期望,很多学者致力于研究机器学习,他们采用了各类神经网络模型,如图 2 所示。然而机器学习需要处理大量的数据,并且往往很多数据会超出你的认知范围,有时候单点数据也可能需要大量的经验积累。所以,对于机器学习研究者而言,即便有丰富的研究经验,想要做好机器学习研究,也需要大量的工作。图 1:机器学习应用场景11图 2:常见神经网络模型人们很难根据个人经验或创造力在一些事情上进行导航,如迷宫。但是可以假设一套关于机器学习的设计蓝图,通过不同的算法及相关公式去处理不
27、同的问题。基于此,邢波建立了一个蓝图支架,该支架包含 3 个分量,如图 3 所示:一个是损失函数,给系统训练设定目标;一个是模型架构,神经网络需要非常大的库,需要设计模型架构来进行探索;再一个是优化器。作者用这样一些简单的维度和理论去绘制一个机器学习蓝图,应用于现在或者将来,从而避免随机或者费时的相关工作。图 3:机器学习蓝图组成二、机器学习标准公式:Thestandardequation邢波根据相关实例提出了标准公式,如图 4 所示:第一个公式定义了一个损失函数,给出了目标分散和作为参考量的差值计算,然后需要一个约束条件整合各类不同的数据和实践,该条件可以用于某个规则或者作为其它的限制条件或
28、者成为分隔边界等。等效地将约束条件公式写为最下行公式的形式,可以看到该公式包含 3 个部分,第一个部分为经验,包括外来的正则化、数据样例或者计算规则等;第二部分是分歧项,实际上是建立一个训练中的动态,像老师和学生之间的相互作用,把一个模型当作老师,另一个模型当作学生,学生会逐渐学12习靠近老师,达到一个收敛的效果,老师当然对自己的知识存在不确定性,因此第三部分是一个熵的术语。邢波从物理相关的研究中获得启发,得到该公式,并运用该标准公式以一个简单的方式进行了重现熟知的算法工作。图 4 标准公式三、基于标准公式下的一些机器学习算法介绍接下来,邢波列举了在标准公式基础上实现的相关算法,主要涉及主动学
29、习、增强学习、对抗学习。假设存在一个非常庞大的学习框架需要主动学习,在标准公式下,主动学习有一套新的公式和理论,但是和其他公式没有太大的区别,只是需要重新定义这些特征函数和经验函数。如图 5(a)所示的一个区间函数,确定了数据的存在和缺失,在一些数据库中,缺失数据出现后将会造成一定的不确定性,需要通过预测调整。图 5(b)为增强学习,同样证明了标准方程的普遍性。增强学习不局限于数据,还拓展到环境空间等状态,根据质量及要求增加了奖励函数,事实上使用增强函数,重点需要做的是重新定义经验函数和质量函数的关系。在虚拟学习方面已经变得非常流行的对抗学习,如图 5(c)所示,也是在标准公式下构建的,它主要
30、利用概率下降函数,被广泛应用,包括内容生成方面的应用。图 5(a):主动学习13图 5(b):增强学习图 5(c):对抗学习邢波列举出很多使用标准公式的算法例子。如图 6 所示,包括数据扩充、重新加权、约束驱动学习、好奇心驱动、知识升华等,本质上他们都是以标准公式为基础,只是会因为定义以及经验函数的不同导致一定的差异。图 6:基于标准公式的算法复现14关于优化求解器方面的介绍如图 7 所示,优化求解器现在还无法像标准公式一样作为很多应用的主损失计算。但目前为止,在某些方面已经比较接近了,像梯度下降函数可以提供一个简洁的公式作为解算器,缩小计算的损失。目前优化求解器的算法主要有反向传播、凸对偶性
31、拉格朗日算法、整数线性规划以及梯度下降函数等。图 7 优化求解器四、模型架构机器学习蓝图的最后一部分为模型架构。模型架构主要包括三个部分,分别是神经网络设计、图像模型设计以及组成架构。如下图所示,图 8(a)显示各神经网络组成部分之间互相联系,编码器、解码器、嵌入器等可以通过输入 FFNetwork、RNN、Transformer、WordEmbeder、PositionEmbeder 等生成分类器、编码解码器等,同时用一种非常简单的方式将他们进行组装;图 8(b)为图像模型设计,人们较为了解可以通过小的组块构建更大的模型;图 8(c)多组结合构建深度神经网络,有时会集成神经网络和图像网络,得
32、到混合图像或者多因子图像,形成一个多模型或者多目标的网络架构。图 8(a):神经网络组分15图 8(b):图像模型设计图 8(c):模型架构五、机器学习蓝图综述综上,如图 9 所示,机器学习蓝图主要包括 4 个部分:首先是函数,本文最起初谈到的标准公式,也是该蓝图的核心部分;再者是算法,在标准公式基础上的可替代优化算法、梯度下降函数等;再一个是模型架构;有了以上三点,再结合相关理论,构成了本文的所描述的机器学习蓝图概念。从目前来看,这个蓝图还只是重现之前的一些经典算法,但是或许在将来,机器学习可能会从这个公式开始构建,以这个公式的损失函数、收敛性等,构建更多的实践和算法。16图 9 机器学习蓝
33、图综述结语邢波老师的这场关于机器学习蓝图框架的演讲,实际上非常深入地向我们解释了机器学习的底层架构,让我们更加深层次地认识到我们平时所用到的机器学习是如何实现的,各个计算方程、函数无不经过大量实验,最终得到可以被应用的结论。17 哥伦比亚大学 John Wright:几何学及对称学在非凸优化问题中的应用整理:智源社区钱小鹅John Wright 本次的演讲主题是Geometry and Symmetry in(some!)nonconvex problems(几何学及对称学在非凸优化问题中的应用)。John Wright,哥伦比亚大学电气工程系副教授。他于 2009 年 10 月获得伊利诺伊大
34、学香槟分校(University of Illinois at Urbana Champaign)电气工程博士学位,并于 2009-2011 年在微软研究院工作。他的研究领域是高维数据分析。最近,John Wright 的研究集中在开发从不完整和损坏的观测中稳健地恢复结构化信号表示的算法,并将其应用于成像和视觉的实际问题。他的工作获得了许多奖项和荣誉,包括 2009 年因其在人脸识别方面的工作而获得的伊利诺伊州莱梅尔森创新奖、2009 年 UIUC 马丁研究生优秀研究奖、2008-2010 年微软研究奖学金以及 2012 年柯尔特最佳论文奖。在研究方面,John Wright 正在开发高维数据
35、稳健分析工具,并将其应用于视觉数据分析问题,如图像和视频压缩、人脸和对象识别。其工作强调寻找即使在数据不可靠(噪声或损坏)的情况下也能表现良好的方法,并且这些方法带有正确性的证明。本次讲座,John Wright 为我们分享了从卷积中恢复信号的反卷积问题。盲反卷积应用非常广泛,包括神经科学、显微镜技术、天文学、信号处理等,他在分享中提到,利用基于非凸优化的方法,在一定条件下,可以将目标短信号和稀疏信号恢复到该模型固有的符号移位对称性。这种对称性在形成反卷积的优化过程中起着核心作用。图 1:John Wright一、盲反卷积及非凸优化盲信号处理(BsP)是目前信号处理中最热门的新兴技术之一,它具
36、有稳定的理论基础和许多方面的应用潜力。Bss的目标是在没有任何或很少关于源信号和混合知识的前提下,从一组混合(观测)信号中恢复原始的信号。在考虑时间延时的情况下,观测到的信号应该是源信号和通道的卷积,对卷积混叠信号进行盲分离通常称为盲反卷积。18为什么将其称为盲反卷积呢?我们不妨从它的数学定义上入手。不妨设00*yax=,其中 a0为短信号,x0为较长的稀疏信号,随着计算机视觉的发展,我们发现在图像去模糊中出现了一个非常相似的结构,其中 y 为模糊图像,a0为模糊核,x0为目标清晰图像,由于使得目标更加模糊,因此我们将其取名为盲反卷积。不难看出,如果我们已知 y 来计算 a0和 x0,那么该问
37、题将会有多解出现,因此,在计算之前,通常需要添加一些约束条件来控制解的唯一性亦或其他的性质,从而使得得到的数值解更具有物理意义。John Wright 本次分享的约束条件主要为:a0的稀疏性条件以及 x0简短性条件,称之为 Short-and-Sparse-Deconvolution(SaS)。SaS 模型出现在许多应用中,一类应用涉及到在数据集中寻找基础的模体(在有重复数据集中寻找到一组构建该数据集的基础集合),这个模体问题一般会出现在脑神经科学研究中的细胞外棘突分类和钙成像,其中观察到的信号显示重复的短神经元兴奋模式,该兴奋模式关于时间或空间具有稀疏性。类似地,在纳米材料研究中产生的电子显
38、微镜图像常常显示重复的模体。SaS 反卷积的另一个重要应用是图像去模糊。通常,模糊内核相对于图像大小(短)较小。在自然图像去模糊中,通常假设目标图像具有相对较少的锐边,因此具有稀疏导数。在科学图像去模糊中,例如在天文学和地球物理学 中,目标图像通常是稀疏的,无论是在空间域还是小波域,这又导致了 SaS 模型的变体。SaS 反卷积问题的变体也出现在工程的许多其他领域。例如通信中的盲均衡,声音工程中的去冗余和图像超分辨率。所有这些应用都导致了稀疏盲反卷积问题的推进和研究。稀疏盲反卷积的主要算法方法涉及非凸优化。反卷积的非凸公式可以通过几种概率形式(ML/MAP、VB 等)导出,也可以简单地从启发式
39、中导出。例如,在图像去模糊中,内核 a 可以建模为驻留在单纯形上。这些单独从建模来看是很自然的,但在优化方面存在问题:单纯形上反卷积的自然公式允许全局最小值(对应于尖头卷积核 a=),它们没有提供关于基本事实的信息。解决这个问题的实际方法包括利用额外的数据优先级或通过边缘恢复或多尺度优化进行初始化,以避免不重要的尖头全局最小值。相比之下,出于对 MAP 和 VB 方法的仔细比较,1,2建议用 Unit Frobenius norm 来代替 a 的约束,也就是说,考虑约束在高维球体上。这个选择可能更适合某些科学应用,比如显微镜,在这些应用中,内核 a 可以有负数。对于图像去模糊,可以假设 a 是
40、非负的,并且从建模的角度来看,球体约束似乎不太自然。John Wright 首先为我们分享的即为球面约束稀疏盲反卷积的几何性质,其目标是了解基于非凸优化的简单算法何时能够准确地恢复卷积核 a 和稀疏信号 x。这一目标是由上述应用(尤其是显微镜数据分析)驱动的,在这些应用中,信号 x 存在着强烈的物理稀疏性,且求解得到的数值解具有很好的物理意义。这些应用激发了大量关于 SaS 问题变体的算法工作。相比之下,能够解释算法何时以及为什么成功的理论相对较少。John Wright 在这些方面做了很多工作,假设 a 是短核,x 是稀疏随机支持的情况下进行算法展开,通过对某些(理想化)案例的理论分析和大量
41、的数值实验证明,在满足这些假设的情况下,所提出的算法能够正确地恢复一个,这些结果源于球面约束稀疏盲反卷积的一个显著的几何性质:尽管问题仍然是非凸的,但每个局部极小值 a 非常接近于基真核 a0的有符号移位截断。这一观察结果为球面约束如何促进稀疏盲反卷积提供了一个几何解释。John Wright 提到,本次分享的基于非凸优化的算法,核心是在球体上最小化目标函数,使用的优化方法为bilinear lasso。John Wright 将这个过程抽象为数学中的非线性优化问题,不妨假设(a)为目标函数,那么如19果使用 bilinear lasso 方法进行优化,那么有如下表达式:图 2:数学模型表达在
42、图 2 中的(2.1)-(2.3)中,约束 a 具有 l2 范数。这个约束打破了 a 和 x 之间的尺度模糊性。此外,约束流形的选择对计算有着惊人的强烈影响:如果 a 被约束到单纯形,问题允许全局最小值。相反,球约束公式的局部极小值通常对应于基本真实值 a0的移位(或移位截断)。bilinear lasso 方法优化目标函数已广泛应用于图像去模糊,在研究的过程中,学术界对稀疏反卷积的几何结构逐渐有了较为全面和深刻的见解,特别是对 A 的各种约束对伪局部极小值存在与否的影响。在图像去模糊中,通常使用的单纯形约束(a 0 和 a 1=1)由问题的物理结构自然产生。令人惊讶的是,单纯形约束的反卷积允
43、许极小的全局极小值,在这个极小值处恢复的核是一个尖峰,而不是目标模糊核。随后,科研人员将 l2 正则化应用于 a,并观察到这种替代约束给出了更可靠的算法,以及球面上简化目标 的几何性质,证明了在 x0有一个非零项的稀释极限下,的所有严格局部极小值都接近 a0的符号位移截断。通过在球面上采用不同的目标函数(基于 l4 最大化),科研人员证明了在球体的某一区域上,每个局部极小值都接近于 a0的截断有符号位移,即 sla0 对窗口。John Wright 的核心优化问题与此非常相似,然而,在更简单的移位非相干假设下,John Wright 提出的算法得到了 a0和相对稠密 x0的更精确数值解。Joh
44、n Wright 为我们展示了他及其团队在该领域的研究成果:1)单移位几何为了直观的了解(a)的性质,我们首先将图 2 中所抽象出的目标函数形象化的在 a0真实值附近叠加一个单移位。如图 3,即为(a)的函数图,其中:目标函数在 a0上是强凸的;在非常接近 a0的单移动区域 sla0 处有一个局部极小值;20图 3:(a)的目标函数单移位示意图2)双移位几何接下来,我们在 sl1a0 和 sl2a0 两个不同位移的线性跨距附近可视化目标函数(a)。更精确地说,我们在球面Sp_1 和线性子空间的交点附近绘制(a)及其线性子空间。图 4:(a)的目标函数双移位示意图同样,我们观察到:在每个移位 s
45、la0 附近有一个局部极小值;这些是 sl1,l2附近唯一的局部极小。特别地,目标函数 在任何 110la sa+220la sa的迭加处沿 sl1,l2呈现负曲率,其权重 a1和 a2是平衡的,即|a1|a2|;函数 在远离子空间 sl1,l2的方向上显示正曲率;213)多移位几何最后,我们在多移位几何上做目标函数 的构想,如下:图 5:(a)的目标函数多移位示意图同样,在每个有符号移位附近有一个局部极小。在位移的大致平衡叠加下,目标函数呈现负曲率。因此,唯一的局部极小值接近有符号位移。4)子空间并集几何结果表明,这些性质在每一个子空间上都得到,这些子空间跨越了几个移位 a0。实际上,对于每
46、个子集定义线性子空间均满足上述的结果。如图 6,假设子空间 是由集合 索引的移位 sla0 的线性跨度构成,那么由几何理论表明,在概率很高的情况下,(a)函数在 不太大的任何 S附近都没有虚假的局部极小值,例如|4p0。将所有这些子空间组合成一个几何对象,定义子空间的并集:图 6:(a)的目标函数子空间并集几何示意图22图(6)给出了该组的示意图。我们声称:在附近,所有局部极小值都在符号位移附近。的值在远离的任何方向上增长。John Wright 根据上述的四个几何结果,最终解释到:在两个关键假设下,上述观察结果中可以看到两个通用的结果:第一,稀疏率 足够小(相对于 p0的移位相干);第二,信
47、号长度 n 足够大;二、两步算法及实验结果受 的每个局部最小值都是地面真实值 a0的有符号移位截断的几何性质的启发,John Wright 提出了一个可靠恢复真实值 a0的两阶段算法。在第一阶段,算法恢复一些有符号移位截断的真值,下一阶段从该部分恢复中推断出真值。具体算法如下:图 7:非凸稀疏盲反卷积算法最后,John Wright 为我们展示了算法在合成数据和真实数据上的性能。无噪声数据:通过循环生成 m=256256 的无噪声观测信号 an Sk1 xn 2 n=1 n=1 大小为 k 卷积核与具有伯努利分布的随机激活信号之间的卷积。我们在图 8(a)的左边绘制了不同内核大小 k 和稀疏度
48、的内核恢复误差。图上的每个点是 20 个独立测量值的平均值。该算法在蓝色区域表现出色,但在红色区域开始失败,在红色区域,要么内核大,要么底层激活信号密集。在典型的 STM 测量区域的下方是白色虚线,在该区域内,提出的算法获得了令人满意的性能。噪声数据:用 m 维随机激活映射对 k 维(k/m=0.14)的固定核进行卷积,并叠加高斯噪声。研究测试了该算法在不同稀疏度 和噪声功率下的性能。结果如图 8(b)所示:在满足稀疏性约束的情况下,该算法实现了信号恢复,并对噪声具有鲁棒性。23图 8:噪声数据评价 显微镜数据分析将该算法应用于从 NaFeCoAs 获得的实验显微镜数据。我们在图 9 中显示的
49、结果表明,所提出的算法设法恢复缺陷傅里叶域中波纹的缺失细节,这些波纹编码了工作中电子的物理散射过程。图 9:STM 数据分析从左至右:显微图像,提取卷积核(缺陷模式),以及它们各自的傅立叶幅度图像。图像去模糊在图像去模糊数据集上测试该算法,通过求解来恢复卷积核。为了明确区分算法的不精确性和通用模糊核模型,对三类模糊图像进行了实验:(i)由锐化图像和模糊核卷积生成的合成模糊图像;(ii)在干净的合成模糊图像中加入高斯噪声产生的噪声模糊图像(信噪比=100);以及(iii)使用相机抖动拍摄的真实模糊图像。由于移位的模24糊性,我们考虑了所有可能的移位,对恢复的模糊核的精度进行了评估。核恢复误差累积
50、分布如图 10 所示。图 10:图像去模糊数据分析从合成(左)、有噪(中)和实(右)模糊图像中恢复的模糊核误差的累积分布结果显示,该算法对这三类图像都有较好的卷积核恢复效果,但对去模糊图像的改善不明显,尤其是对真实图像。这可能是由于(i)该数据集中的卷积核在图像上不是严格一致的,(ii)非盲反卷积算法利用自然图像梯度的重尾分布,对恢复的卷积核的精度不太敏感。三、结语本此讲座,John Wright 主要为我们分享的内容为:当核函数为单位 Frobenius 范数时 SBD 非凸优化问题的全局几何性质。在这种情况下,John Wright 发现所有的局部极小值都是良性的,在某种意义上,它们接近于
51、基真值的符号移位截断。基于这一认识,John Wright 提出了一个两阶段的算法,利用隐藏在局部极小中的信息来恢复真实解。这个问题揭示了在用几何方法分析 SBD 问题时所面临的挑战。对于具有更强对称性的问题,类似的方法产生了对函数几何和恢复保证的全局理解。John Wright 指出,SBD 中的弱对称性将对这个问题遇到的困难做出重要贡献。最后,John Wright 为我们展示了诸多实验结果,其对局部极小值的刻画贯穿于卷积字典学习问题,并且通过对所提出的算法稍加修改,也可以有效地解决卷积字典学习问题。然而,该部分的理论证明尚未完整,他提到,大家有兴趣的话可以继续深入研究,希望通过完整的证明
52、过程了解可以有多少种内核,或者哪些类型的内核是可恢复的,这可能是字典学习问题中常见的假设。在科学测量中,通常我们还会遇到的另外两个问题是分辨率极限和测量误差,这启发我们考虑(i)是否有可能将盲反卷积和超分辨率过程结合在一起;(ii)是否可以提出一种鲁棒的盲反卷积算法来自动排除噪声条目。参考文献1 David Wipf and Haichao Zhang.Revisiting bayesian blind deconvolution.arXiv preprint:1305.2362,2013.2 Haichao Zhang,David Wipf,and Yanning Zhang.Multi-i
53、mage blind deblurring using a coupled adaptive sparse prior.IEEE Conference on Computer Vision and Pattern Recognition(CVPR),January 2013.25 北京大学教授林宙辰:基于学习的优化算法整理:智源社区沈磊贤在第二届北京智源大会“机器学习”专题论坛中,北京大学信息科学技术学院林宙辰教授做了题为Learning based Optimization的报告。林宙辰是 IAPR/IEEE Fellow,中国图象图形学学会机器视觉专委会主任,获国家自然科学杰出青年基金资助
54、,曾在 2015 年 ImageNet 大规模视觉识别竞赛(ILSVRC)场景分类项目上获得冠军,他的主要研究方向为机器学习、模式识别、计算机视觉、图像处理、数值优化等。在报告中,林宙辰简要概述了基于学习的优化算法工作原理,以及在图像去噪、非盲反卷积等方向上的应用;他认为在传统优化算法的基础上引入学习机制,算法的收敛速度可以得到显著提高。以下是智源社区编辑整理的林宙辰演讲内容要点。以下是智源社区编辑整理的林宙辰演讲内容要点。一、优化问题的复杂度众所周知,在传统优化方法中,对于不同类型的问题,解决这些问题的复杂性存在下界,尽管某些场景中下界尚不准确,但是无论如何,问题复杂性的下界一定是存在的。例
55、如,对于广泛应用在不同类型问题中的确定性梯度下降和随机梯度下降(凸或非凸),它们的下界都显示在下表的底部。图 1:优化问题的复杂度及其下界表中可以看出复杂度的下界通常依赖于一些全局参数,例如目标函数梯度的 Lipschitz 系数 L、目标函数的强凸性(strong convexity)参数等。但很显然,仅凭这类全局参数无法从细节处展现问题的本质,无法提供局部特性的具体信息,因此,如果仅考虑问题的全局性质就无法使问题快速地收敛。林宙辰总结了影响优化算法收敛性的几个因素。首先是优化问题本身的结构,约束还是非约束问题、凸问题还是非凸问题,这些差别都会导致最终的收敛性有很大的差异;其次是优化算法中的
56、参数选择,即使是相同类型26的算法,选择不同的参数也会带来不同的收敛性。例如,对相同的加速梯度下降算法,如下图所示,参数的选择是否合适,会导致收敛速度存在2(1/)Ok和(1/)Ok的差别。图 2:加速梯度下降算法及收敛性对比最后一个影响算法收敛性的因素是数据的特性。对于下图所示的弹性网问题(Elastic Net problem),如果 A 没有特殊性质,并且用交替方向乘子法(Alternating Direction of Method of Multipliers,ADMM)求解,则其收敛速度仅为(1/)Ok,是次线性(sublinear)的。但如果 A 具有受限等距性质(Restric
57、ted Isometric Property),如下图所示,则可以证明收敛速度是线性的。图 3:弹性网问题收敛速度对比在上述的三个因素中,由于所研究的问题是具体已知的,所以无法更改问题的结构,但是可以从另外两个因素入手,通过更改参数、考虑更多细节或数据特性,机器学习可以很好地改善优化机制求解问题的过程。这也是基于学习的优化方法的研究动机。二、基于学习的优化算法:概述林宙辰简要概述了基于学习的优化的工作原理。他认为,如果优化算法的某些部分与数据相关,那么它就可以称为基于学习的优化算法。基于学习的优化算法不同于自适应算法,自适应学习仍然需要在使用时自己确定一些参数,而基于学习的优化方法通常必须向算
58、法提供数据,以更好地训练算法。在基于学习的优化算法中存在几种范式,如下图所示。第 0 类范式直接学习优化算法。这种希望机器学习可以做任何事情的想法很明显是不可能的。因此这种范式下的工作很有限,但也确实存在一些现有研究,如下图的下方所示,通过强化学习或 LSTM 学习梯度下降,但上述工作中所用到的p函数和kg函数非常复杂,很难对其进行分析,所以没有理论上的保证。只在一些非常简单的任务(例如回归问题)上仅获得了一些经验性的成功。27图 4:基于学习的优化算法的三种范式第 1 类研究范式是在传统算法中使用基于学习的优化方法。实际上这种研究范式考虑了优化的基本结构,仅调整了一些参数,因此仍然可以确保收
59、敛。第 2 类研究范式是使用机器学习算法来预测解。如果预测得到的结果很好,则接受,否则拒绝。这种思路仍在传统的优化框架中,但加了些纠正的措施,因此仍然可以保证收敛。这里用到的预测算法可以来自第 0 和第 1 范式中的方法。(PPT 中有 typo)接下来,林宙辰对后两种研究范式做了详细阐述,并介绍了在这两个方向的研究工作。三、基于学习的优化算法:第 1 范式首先是第 1 范式:在传统算法中使用可学习的参数。如下图所示,它包括三个步骤,首先将传统算法的迭代展开为 DNN 或更通用的计算图。每个 cell 上的计算不仅限于激活函数,附近 cell 之间的关系也可以像 DNN 一样不只是线性组合;接
60、着,在传统算法中引入可学习的参数,这意味着需要允许一些参数根据数据进行更改。最后一步是向算法提供一些数据进行训练,以便找到合适的参数。图 5:第 1 类范式的研究思路林宙辰介绍了这方面的相关研究工作。如下图所示,将 RNN 用于 LASSO 问题(Sprechmann et al.TPAMI 2015);将 LSTM 用于稀疏编码问题(Zhou et al.AAAI 2018);使用一些受优化启发(optimization inspired networks)的网络来解决图像恢复问题(Gregor&LeCun,ICML 2010;Zhang et al.CVPR 2018;Yang et al
61、.NIPS 2016)等。这类问题基本上都是稀疏表示的问题。28图 6:代表性工作但林宙辰认为,现有的工作大多是启发式的。而对于分析基于学习的优化方法的收敛特性,这类研究非常有限,已有的有 Chen 等人在 2018 年的工作,但是该证明仅适用于 LASSO 问题,不能推广到其他问题,并且研究中考虑的大多数是无约束的问题。图 7:Chen 等人在 Lasso 问题上的工作基于以上分析,林宙辰介绍了他在该方向的研究,如下图所示,考虑()f g和()g g都是凸函数的优化问题,且变量Z和E是线性耦合的。图 8:林宙辰在第 1 范式中的研究使用传统的线性化 ADMM,可以通过如下图所示的五个迭代步骤
62、中解决此问题。(由于时间限制,未对线性化ADMM 进行详细介绍)。迭代步骤中有一个特殊操作 prox,称为邻近算子(proximal operator),具体定义见图右侧。给定输入x,称()fproxxa为()f g函数在x点的邻近算子。图 9:线性化 ADMM29接着,林宙辰介绍了将上述的传统方法变为 learnable 方法的思路。流程如下图所示。假设有优化问题221min()2zf zAzb+,首先对平方部分进行线性化,并得到迭代式:11()ktfkkzproxztA Azb=上式为函数()f g的临近算子,而1()ktA Azb是平方部分的线性化结果。容易证明临近算子是单调递增的,即输
63、入增加,输出也将增加。而 DNN 中的激活函数通常是单调递增,至少单调不减的,因此,上述临近算子可以用来充当 DNN 中的激活函数。将上式中的临近算子替换成任意单调不减的激活函数V,将固定的TtA替换成可学习的矩阵1kW,得到了更加宽泛的结果,如下所示:111()TkkkkzzWAzbV=图 10:可微的临近算子利用以上思路可以将传统的线性化 ADMM 更改为可学习的版本,两者的对比如下图所示,用参数化激活函数代替临近算子(实际上可以进一步放宽到更通用的非凸函数),将A替换为可学习的矩阵,并用逐元素乘法替换矩阵上的均匀缩放。总之,可学习的版本引入了更多灵活的变量,算法可以更好地适应给定的数据。
64、图 11:可学习的线性化 ADMM30下图给出了迭代过程的计算图。在输入端可以随机生成一些输入,或者将实际问题的数据作为输入;至于输出为 dual gap。由凸分析可知 dual gap 总是非负的。如果 dual gap 变为零,则获得最优解。图 12:迭代过程接着林宙辰进一步分析了上述算法,指出该方法与传统算法相比确实具有优势。主要体现在三个方面,如下图所示。首先,基于学习的方法每多迭代一次,网络的输出值与真实解的距离将减小,并且最终将减小为零。这意味着即使该方法是基于学习的,最终也可以获得真实的解。这是一个很好的理论保证。其次,在某些条件下,算法的收敛速度可以提高到线性。此外,如果传统方
65、法线性 ADMM 和新方法都迭代 k 次,那么基于学习的算法提供的解将会一直优于传统算法给出的解。图 13:基于学习的 LADMM 算法的优势31下图为模拟结果。绿色、蓝色和红色曲线表示传统的 LADMM 算法,黑色曲线表示基于学习的优化算法。可以看到基于学习的优化算法使用少于 LADMM 10 倍的迭代次数达到了更低的目标函数值,将速度提高了十倍以上。图 14:算法模拟结果下图是对自然图像去噪的实验。可以看到,为获得相同的 PSNR,新方法仅用了 15 次迭代,这意味着将速度提高了大约 100 倍。从视觉比较上也可以看到基于学习的算法与传统算法之间的巨大差异。图 15:自然图像去噪实验结果四
66、、基于学习的优化算法:范式 2接着,林宙辰介绍了第二项工作,基于学习的优化方法中的第 2 类范式,即使用机器学习算法来预测解。主要包括以下步骤,首先预测解,然后,检查解的好坏,即存在一个监视条件,如果满足监视条件,则接此解;否32则,将选择传统解。图 16:第 2 类范式研究思路传统算法中已经有一些使用监视机制的工作,例如,对于非凸型 APG 问题,如下图所示,将临近算子+1kv和+1kz作比较,选择其中目标函数较小的方案。但是这类机制尚未在基于学习的优化方法中使用。图 17:传统算法中的监视机制林宙辰将基于学习的优化算法应用在逆问题的研究中。逆问题(inverse problems)研究的是
67、如何在给定y和噪声n的情况下恢复真实数据x。比如下面的照片为模糊的版本,即yn+,为了将其恢复为清晰图像,即x,可以制定一个抽象的目标函数()()fg+gg,其中()f g是数据保真度项;()g g是正则化,描述了 x 上的一些先验信息。图 18:图像逆问题传统的加速或不精确的近端梯度算法由kv和x组成,如下图所示,kv可以加速或不加速,x可以是精确的也可以是不精确的,因此它们之间将有四个组合。33图 19:传统近端梯度算法下图为近端梯度算法的结构。可将其分为前向更新和后向更新两个部分。其中,1kx+可以抽象地写作()kgfAAxo,其中gA和fA为抽象算子,如果随机选择它们,显然不能保证算法
68、收敛。因此,我们只将它们的输出结果作为优化算法预测的解。为了保证收敛,后续设置了纠正机制。图 20:近端梯度算法的结构下图为基于学习的优化算法的显式版本。包括三个部分:预测(predict)、监视(monitor)和校正(correct)。由于在校正阶段显式地使用了目标函数来比较哪种解更好,称之为显式版本。如果经过比较,预测的解更好,就采用,否则,仍然选择传统解,并通过后向更新来更新。图 21:基于学习的优化算法(显示)上述基于学习的优化算法是收敛的。从直觉上讲,最坏的情况下,算法总是选择传统的解,而传统算法是收敛34的。在一般情形下,如预测的解更好,则该算法应该也可以收敛。林宙辰也给出了一些
69、严格的分析。下图证明了迭代具有足够的下降属性,借助该属性可以证明迭代的任何聚点都是目标函数()xy的关键点,因此,在较弱的意义下算法可以认为是收敛的。图 22:算法收敛性证明此外,林宙辰还介绍了基于学习的优化算法的隐式版本。它依然由预测,监控和校正三个部分组成。同样也可以证明迭代具有足够的下降特性,并由此可以证明收敛。但是如下图所示,预测和监控环节有所不同。图 23:基于学习的优化算法(隐式)35图 24:算法收敛性证明林宙辰通过具体示例介绍了基于学习的优化算法在图像恢复逆问题上的应用。首先是非盲反卷积(non-blind deconvolution.),即给定模糊图像,恢复原本的清晰图像。在
70、此问题中,非盲意味着模糊核是已知的。因此,y是模糊核,z是标注值(ground truth)。具体计算过程如下图所示。图 25:非盲反卷积问题下图是将基于学习的优化算法(显式和隐式版本)与邻近梯度算法进行比较的模拟。可以看到迭代次数比传统方法少得多。这意味着基于学习的优化算法实际上是线性的,而且传统算法只是次线性的。图 26:结果对比36下图是一些定量比较和定性比较,可以看出基于学习的方法比传统的图像恢复方法具有更高的 PSNR 和 SSIM,但计算所需的时间却少得多。图 27:非盲反卷积问题定性比较图 28:非盲反卷积问题定量比较基于学习的优化算法同样也可以应用于盲反卷积,这意味着模糊核是未
71、知的。从下面的对比图可以看出,所提方法产生了更加清晰的地面真实图像。37图 29:盲反卷积问题结果比较 1图 30:盲反卷积问题结果比较 2基于学习的优化算法还可以用来去除图像上的雨水条纹。从下图可以看出,所提方法比传统算法和纯粹基于深度学习的算法要好得多。图 31:雨痕去除问题结果比较五、总结最后,林宙辰对报告做了以下总结:1.长期以来,优化算法一直促进机器学习的发展,如今借助机器学习的思想也能帮助解决优化问题。优化算法和机器学习可以相互受益,两者之间的交叉融合可以使两个领域更健康、完整地发展。2.在传统优化算法的适当部分引入学习机制,可以显著提高算法的收敛速度并得到更好的信息处理效果。基于
72、学习的优化算法能够更好地适应数据,将是传统优化算法的有益补充。3.如果研究止步于应用而没有任何理论分析,那么这些算法的价值是有限的,每个人都可以想到。但如果要有理论上的保证,那就困难得多。特别是对收敛速度的分析,是非常少见且重要的。同时,林宙辰希望他在基于学习的优化领域汇报的成果,可以引起优化同行们的更多关注。38 旷视首席科学家孙剑:视觉计算前沿进展智源社区季葛鹏在第二届北京智源大会机器学习专题论坛中,旷视首席科学家、旷视研究院院长、西安交通大学人工智能学院首任院长、智源研究员孙剑博士,带来了视觉计算前沿进展的主题分享。孙剑曾两次获得 CVPR 最佳论文奖(2009 年和 2016 年),谷
73、歌学术引用超 14 万(截止 2020 年 8 月),拥有 40 多项美国或国际专利,于 2010 年被 MIT Technology Review 评选为全球 35 岁以下杰出青年创新者即TR35。深度卷积神经网络四大核心要素是什么?深度学习实践中的挑战有哪些?计算机视觉应用中的核心难点是什么?产品落地应用过程中关键性问题又有哪些?让我们带着好奇与疑惑,同孙剑一起,就近期视觉计算领域的前沿技术展开深度研讨与思考吧!图 1:视觉计算前沿进展一、背景介绍随着深度学习的进步、计算存储的扩大、可视化数据集的激增,计算机视觉方面的研究在过去几年发展可谓是日新月异,特别是在自动驾驶汽车、医疗保健、零售、
74、能源、语言学等诸多领域,计算机视觉的应用都越来越广。视觉是人类获取信息的最主要的方式,在视觉、听觉、嗅觉、触觉和味觉中,视觉接受信息的占比高达80%。早在 1966 年,一位人工智能领域的先行者,时任麻省理工学院教师的马文 明斯基(Marvin Minsky)教授,突发奇想地为学生布置了一个暑假作业:“让计算机看懂世界”。自此,这成为了像 Marvin 这样敢于创新的学者对于未知世界探索的一小步,也成为了人类对于计算机理解视觉信息的一大步。伴随着计算机领域基础设施的快速发展和人类对于计算机理解并处理视觉信息能力的无限向往,经过长时间的演变,计算机视觉已经无处不在。39图 2:图像表示的历史发展
75、孙剑指出,计算机视觉中存在很多问题,最为核心的问题就是“如何识别图像中的物体”,而在这个过程中最为核心问题就是“如何求取一个图像的表示(Image Representation)”,以至于人类能够在计算机中完成这样一个使命。图 3:深度卷积神经网络时至今日,最具统治力地位的方法就是我们所常见的深度卷积神经网络(DeepConvolutionalNeuralNetwork),这种网络有两个显著的特点:第一是包含多次非线性变换,即把一张图片变成计算机可以识别的东西;第二是可自动学习的参数,即端到端的自动学习的任务。40二、深度卷积神经网络深度卷积神经网络最早源于八十年代,是来自日本的 Fukush
76、ima 教授首次提出的。从第一次使用卷积神经网络完成数字图像识别,深度学习到今天已经成为了非常流行的工具,这经过了很长的发展历程(如图 4 所示)。图 4:深度学习的历史发展孙剑指出,深度卷积神经网络有四个核心因素:卷积操作类型(Convolution)、整个网络的深度(Depth)、卷积层的宽度(Width)和输入的大小(Size)。大多数的研究工作基于这四个因素展开。图 5:卷积神经网络:核心因素412.1卷积操作类型(Convolution)常用的基础卷积核大小有 5x5、3x3、1x1(如下图所示);后来发现可以通过分组卷积(Grouped Convolution)将 3 3 卷积、1
77、 1 卷积分成很多组,减少卷积操作中的冗余部分,使卷积更高效。另外一个近些年在卷积方面的思路是深度卷积(Depth-wise Convolution),可以把深度卷积看作是分组卷积的极致,在计算量小的网络非常高效。基于之前的思想,旷视研究院提出了 ShuffleNet V1 1算法,在 Grouped Pointwise 操作中引入 Shuffle 操作,用于交换通道之间的信息,同时保持十分低的复杂度(如下图所示);图 6:ShuffleNet V1 中的卷积2019 年提出旷视研究院提出 ShuffleNet V2 2,在前者的基础上引入卷积平衡的概念,通过 Channel Split 和P
78、artial Convolution 的改进,有效避免网络的碎片化和减少元素级别运算的操作(如下图所示)。图 7:Shuffle V2 中的卷积42最新的卷积研究方向叫“动态卷积”。动态卷积的卷积核和参数与输入特征是相关的。例如,在 Channel-wise Mixture 3工作中,引入了多个卷积核的线性组合,其系数是动态的(如下图所示)。图 8:Channel-wise Mixture 中的卷积2.2网络的深度(Depth)谈及神经网络的深度,孙剑介绍到,首先在历史上网络的深度曾经是深度神经网络研究工作中非常大的障碍,学者们发现深度神经网络非常难训,很多人相信深层神经网络是训练不好的。其次
79、,就是若干年前大家很难重现深度神经网络的结果,这两点原因造成它当年不能被广泛使用。网络深度的核心变革最早可以追溯到 2012 年提出的八层神经网络 AlexNet。AlexNet 斩获了 ILSVRC 2012的冠军,其性能远远超过当时非神经网络方法。2014 年提出的 VGG 系列网络,实现了对于 19 层网络的突破,并斩获了当年 ILSVRC 2014 的亚军,而同年的冠军则由来自谷歌研究员提出的 LeNet 致敬版本GoogLeNet 所拿下。最具划时代意义的网络,要数来自微软亚研院(孙剑团队)提出的 ResNet-152,这也是第一个超过 100 层的神经网络。43图 9:ResNet
80、 的设计ResNet 是一种残差(Residual)网络,其核心思想是残差连接(Residual Connection),即学习从一种信号到另外一种信息之间的变化量(残差映射函数),这样可以让优化任务变得更加简单,并有效避免当网络变深时,在梯度反向更新过程中的梯度退化问题。残差网络不仅可以用于图像识别,还被应用到了 AlphaGo Zero 象棋决策过程、NLP 领域(Transformer、BERT)等。2.3网络的宽度(Width)图 10:从 Kernel 角度看网络的宽度深度网络的宽度指每一层有多少神经元和通道,即表达能力。最近的一项被称为 Neural Tangent Kernel
81、的研究4,给神经网络提供了一个新的解释,该工作从 Kernel 的视角看待神经网络,指出一个深度神经网络如果44充分宽,则可以等效一个确定性的 Kernel 方法。这是一个很有价值的理论研究方向,值得进一步探索。图 11:过参数化的泛化在另外一项关于宽度的研究5中,研究人员发了一个区别于传统思维的现象,在传统思维中,如果网络容量非常小的时候会产生欠拟合(Under-fitting),过于复杂可能会过拟合(Over-fitting),但是如果继续增大且到达一个阈值时称为过参数化(Over-parameterized),这时训练与测试 error 会继续下降。这个现象的背后说明不能使用参数量来衡量
82、网络的容量,而应追求更为本质的东西是否具有更优的平滑特性。此外该研究也说明,使用更深的网络、增加数据、增大网络容量,神经网络的性能会不断的增加,甚至可能超过人的性能。举个例子,旷视在 2015 年推出的刷脸支付,也被 MIT 在 2017 年评为“十大创新性突破技术”。人脸支付这个应用场景通过大量数据,首次超过人的性能。图 12:通道剪枝45Channel 数量的变大虽然会提升网络性能,但同样也会带来很高的计算复杂度,严重制约了实际应用。因此学者们希望降低 channel 数量,并同时保证性能,提出通道剪枝(Channel Pruning)技术去掉冗余的通道。图 13:元剪枝在发表于 Neur
83、IPS 2019 的 Meta Pruning 6工作中,旷视研究院提出通过训练一种 Meta 网络,来学习如何去修剪另一个网络,这是操作另外一个网络的网络,该方法取得了非常好的效果。2.4网络的尺度(Size)神经网络的 Size 指输入图像的大小,包括网络内部不同阶段特征图的大小。这个参数在标准的神经网络设计过程中一般都是固定的,而在旷视研究院去年的研究工作 7中,我们发现可以动态改变网络在训练与推理过程中每一层的大小,非常利于性能的提升。图 14:神经网络架构搜索46如果对以上 Convolution、Depth、Width 和 Size 四个因素进行联合优化,便有了一个全新的方向:神经
84、网络架构搜索(NAS)。基于 NAS 思想孙剑团队还提出了非常大且容易训练的网络,名为 Singe Path One-Shot NAS8,该方法会首先训练一个 SuperNet,然后直接从中采样出一些子网路,它们可以直接继承 SuperNet 的权重,无需重新训练便可以找到很多性能优良的子网络。三、深度学习中的关键挑战在深度学习研究与开发中,保证网络结构、深度学习框架、计算设备三要素的协同设计,是决定整个系统能否高效运转的关键。旷视基于自身快速迭代的业务需求,从 2014 年开始研发深度学习框架天元(MegEngine),并于 2015 年投入使用。该框架凭借训练推理一体化、动态图静态图结合、
85、兼容并包、灵活高效可拓展等特性,在 6 年来一直支撑着整个旷视的学术研究与工程研发。旷视所有算法均基于天元(MegEngine)进行。旷视在 2020 年 3 月份把深度学习框架天元 Alpha 版本开源给人工智能社区内所有的开发者使用,6 月上线了Beta 版本,并将于 9 月发布正式版本。图 15:MegEngine 架构图深度学习的研发挑战非常大,虽然人们对其给予厚望,但是它并不能实现大家对人工智能所有的梦想。为此,孙剑还列举了若干关键性问题和挑战:第一,理论化的理解。如何解释在超大模型与相对于模型参数而言较少的数据的情况下,网络依然能够得到很好的泛化性能?这需要对今天的深度学习模型有更
86、好的理论解释。第二,架构设计:在今天大量研究人员的时间都花在调模型结构上。第三,可解释性:深度学习模型被诟病的一点是说它是黑盒子,不具有很好的解释性。第四,对抗攻击:涉及到模型可靠安全性的一些方面。47第五,联邦学习:当数据来源不同,又有隐私要求时,如何联合训练系统。在深度学习可解释性问题上,孙剑还介绍了旷视研究院近期的最新工作球面优化动力学理论 9。该研究发现,在深度学习中,带批归一化和权重衰减的网络在优化过程中受两个“力”的控制,一个是离心力,另一个是向心力,它们分别受不同的机制来驱动。文章证明,在神经网络的训练过程中,一直在更新一个参数的角度,从而达到稳态。旷视研究院对这个参数角度给出了
87、一个非常严格的推导公式,而且这个公式与大量的实验几乎完美吻合。该工作的意义在于:解释了 BN 对梯度消失或爆炸时的抑制;同时也指出优化可以跳出小的局部极小;很好的解释了在这种随机梯度下降的方法中,如果不改变学习率,为何网络不收敛。四、机器视觉机器视觉中的核心问题主要分成四类:分类、检测、分割和序列学习。4.1Classification(分类)最经典的分类任务就是猫狗识别,即识别视觉场景中是猫还是狗。在这个领域中最大最经典的数据集之一就是ImageNet。分类任务及其衍生应用非常多,包括交通监控、医学图像、自动驾驶和机器人等等。4.2Detection(检测)检测任务中不仅需要识别物体类别,还
88、需要提供物体的位置信息,即:是什么?在什么位置?这是很多应用的基本前提。图 16:R-CNN48在深度学习领域,最早的检测任务方法是 R-CNN 10。该方法首先基于传统方法将原图中所有可能的物体裁出来,然后将每个裁剪部分送入神经网络,判定其属于哪个类别,以及其边界框的形态。虽然 R-CNN 取得了非常不错的性能,但其弊端在于,每次操作都会有几千个框,计算量十分大。图 17:SPP针对这个问题,孙剑团队在 2014 年提出 SPP 11,缓解了 R-CNN 中计算量的问题。该方法无需对原图进行裁剪,而是先对图像进行一次卷积操作,进而对特征图进行裁剪。对于这些裁剪的特征,后面就可以接很小的神经网
89、络,既达到了同样的性能,速度也提高了 100200 倍。图 18:Faster R-CNN49之前提到的 Proposal 方法都是基于传统方法来做的,那么是否能够利用深度学习实现整个过程的自动学习过程?孙剑团队在 2015 年提出 Faster R-CNN 12,实现了从 feature map 中直接获取 Proposals,并引入Anchor 的概念让整个系统都可以使用深度学习来进行,这样的方法还能使得系统更加高效。当然,后面还可以接上掩膜(Mask),即何凯明在 2017 年的工作 Mask R-CNN,证明检测和分割同时做可以获取更好的效果。除了之前提到的二阶段方法(Two-stag
90、e)外,另外还存在一阶段方法(One-stage)。这类方法以 SSD 13、YOLO 14、RetinaNet 15为代表,即直接回归物体的类别概率和位置坐标值,无需 Region Proposals,准确度稍低,但它因为其效率很高,且在硬件上容易实现,所以在工业界得到了最广泛的使用。当然,最近 Anchor-free 的方法打破之前 Anchor-based 的禁锢,即丢弃掉 Anchor 的概念,对于图像中的每一个点进行回归和预测,同样取得了不错的性能。这类工作有 DenseBox 16、FCOS 17等。图 19:检测的基本流程最后,孙剑对于检测流程进行了一个总结:基于上述基本检测框架
91、,还有更细的技术创新,例如框的正负样本的定义、训练的损失函数,方是否使用多尺度、是否多机训练等。它们使得使得整个检测流程越来越丰富。目前,衡量物体检测最权威的数据集是 MS COCO,它由微软创立。从 2013 年创建以来,到 2019 年,COCO的精度不断提高。旷视在 COCO 挑战赛上取得三连冠,分别是在 2017 年(52.5 mAP)、2018 年(56.1 mAP)和 2019 年(61.2 mAP)。50图 20:MegDet2018 年,旷视提出第一个大 mini-batch 的物体检测器 MegDet 18。它首次支持使用超大 mini-Batch 来训练物体检测器,能够在多
92、机系统上加速整个训练系统 16 倍,从图中可以看到,这套系统大大加速了创新周期。为进一步增大数据集容量,旷视与北京智源人工智能研究院一起创建了 Objects365 V2 数据集,它是目前世界上最大的精标物体检测数据集,包括 365 种常见物体,两百万张图像,三千万人工标注框。了解更多信息可以直击这里:https:/www.objects365.org/。图 21:Object365 的 BERT 式预训练51那么如此大数据集是否能够带来大的收益?答案是肯定的。孙剑指出,经过类似于 BERT 的预训练工作,在Objects365 上面得到的预训练特征可以在加速检测、分割等下游任务收敛速度的同时
93、,显著提高其性能上界。图 22:如何检测出多个预测另外,值得一提的是,针对物体检测领域一个非常困难的问题遮挡问题,孙剑团队在 CVPR2020 上提出一种模型 19,能够通过 1 个检测框预测多个物体,完美解决上图中的刀叉重叠问题。对此孙剑表示:“做好计算机视觉不仅仅是用深度学习这么简单,深度学习只是一个工具,面对具体问题的时候研究人员需要更好的理解问题、更好的建模,才能够把问题解决。”五、机器视觉应用中的核心难点在报告的最后,孙剑对于当前计算机视觉应用落地过程中存在的多个关键性问题,进行了总结:1.长尾分布问题/小样本问题。因为机器学习方法并不能保证对很稀少的样本进行准确的分类,这也是人工智
94、能之所以和大家期望有差距的核心原因之一。2.自监督学习。背后的原因是标注训练样本太少,是不是可以通过没有人工标注的大量数据进行学习?如何通过定义自监督任务学习很好的特征,这是非常有希望的方向。3.遮挡问题。虽然解决遮挡问题的方法有了一些进展,还是有很多问题需要解决。4.视频中做物体检测、跟踪的关联问题。当前帧的物体和下一帧的物体如何能够关联起来?例如给定几辆车,如何在视频中跟踪几辆车,这个目前人工能力远远超过算法能力,在实际视频分析中非常有用。5.视觉控制问题。尤其是在机器人这个领域,即不但要获取视觉信息,还要控制另外一个装置做一些行动,能和物理世界进行交互。6.极高精度的深度学习。深度学习精
95、度虽然很高,但是有些场合要求非常高的精度,那么怎么把它使用起来,依然值得研究。52Reference1 Shufflenet:An extremely efficient convolutional neural network for mobile devices.CVPR,2018.2 ShuffleNet V2:Practical Guidelines for Effcient CNN Architecture Design.ECCV,2018.3 Conditional Convolution via Channel-Wise Mixture.ArXiv,2019.4 Neural T
96、angent Kernel:Convergence and Generalization in Neural Networks.ArXiv,2018.5 Reconciling modern machine learning practice and the bias-variance trade-off.ArXiv,2019.6 MetaPruning:Meta Learning for Automatic Neural Network Channel Pruning.NIPS,2019.7 Resizable Neural Networks,2019.8 Single Path One-s
97、hot Neural Architecture Search with Uniform Sampling.Arxiv,2019.9 Spherical Motion Dynamics of Deep Neural Networks with Batch Normalization and Weight Decay.ArXiv,2020.10 Rich feature hierarchies for accurate object detection and semantic segmentation.2013.11 Spatial Pyramid Pooling in Deep Convolu
98、tional Networks for Visual Recognition.TPAMI,2015.12 Faster R-CNN:towards real-time object detection with region proposal networks.NIPS,2015.13 SSD:Single Shot MultiBox Detector.ECCV,201614 You only look once:Unified,real-time object detection.CVPR,2016.15 Focal loss for dense object detection.CVPR,2017.16 Densebox:Unifying landmark localization with end to end object detection.ArXiv,2015.17 FCOS:Fully Convolutional One-Stage Object Detection.ICCV,2019.18 MegDet:A Large Mini-Batch Object Detector.CVPR,2018.19 Detection in Crowded Scenes:One Proposals,Multiple Predictions.ArXiv,2019.