上海品茶

您的当前位置:上海品茶 > 报告分类 > PDF报告下载

中国人工智能学会:2015年中国机器学习白皮书(70页).pdf

编号:75823 PDF   DOCX 70页 1.23MB 下载积分:VIP专享
下载报告请您先登录!

中国人工智能学会:2015年中国机器学习白皮书(70页).pdf

1、中国机器学习白皮书中国机器学习白皮书中国人工智能学会中国人工智能学会二二一五年十一月一五年十一月1中国人工智能系列白皮书编委会中国人工智能系列白皮书编委会主任:李德毅执行主任:王国胤副 主 任:杨放春谭铁牛黄河燕焦李成马少平刘宏蒋昌俊任福继杨强委员:陈杰董振江杜军平桂卫华韩力群何清黄心汉贾英民李斌刘民刘成林刘增良鲁华祥马华东马世龙苗夺谦朴松昊乔俊飞任友群孙富春孙长银王轩王飞跃王捍贫王万森王卫宁王小捷王亚杰王志良吴朝晖吴晓蓓夏桂华严新平杨春燕余凯余有成张学工赵春江周志华祝烈煌庄越挺中国机器学习白皮书编写组中国机器学习白皮书编写组组长:陈松灿高阳组员:黄圣君李武军薛晖俞扬余志文詹德川詹志辉张利军张

2、敏灵庄福振2目录第 1 章 引言.1第 2 章 主流机器学习技术进展.32.1 度量学习.32.2 多核学习.72.3 多视图学习.102.4 集成学习.142.5 主动学习.182.6 强化学习.22第 3 章 新兴机器学习技术选介. 273.1 迁移学习.273.2 深度学习.313.3 统计关系学习.343.4 演化学习.36第 4 章 大数据时代的机器学习. 414.1 并行机器学习.414.2 哈希学习.464.3 在线学习.48第 5 章 结束语.521第 1 章 引言“机器学习” (Machine Learning)是人工智能的核心研究领域之一, 其最初的研究动机是为了让计算机系

3、统具有人的学习能力以便实现人工智能1。 机器学习领域奠基人之一、 美国工程院院士 T. Mitchell教授在其经典教材Machine Learning中所给出的机器学习经典定义为“利用经验来改善计算机系统自身的性能”2。一般而言,经验对应于历史数据(如互联网数据、科学实验数据等) ,系统对应于数据模型(如决策树、支持向量机等) ,而性能则是模型对新数据的处理能力(如分类和预测性能等) 。因此,机器学习的根本任务是数据的智能分析与建模。随着信息技术不断向网络化、 低成本方向发展, 人们在社会生活、科学研究等各个领域中的数据正以前所未有的速度产生并被广泛收集、存储。如何实现数据的智能化处理从而充

4、分利用数据中蕴含的知识与价值,已成为当前学术界与产业界的共识。正是在这样的大趋势下,机器学习作为一种主流的智能数据处理技术,其作用日渐重要并受到了广泛关注。例如,美国科学院、工程院两院院士 T. J. Sejnowski 等人 2009年在Science上撰文指出,机器学习正成为发展新的学科的基础之一3;美国政府 2012 年公布的大数据研究发展计划中,将机器学习作为核心支撑技术;在我国制定的国家中长期科学和技术发展规划纲要(2006-2020 年)中,以机器学习为核心的“智能”关键词在目录中 6 次出现。特别值得一提的是,计算机界最高奖图灵奖在 2010年与 2011 年连续两年授予机器学习

5、领域的两位杰出学者 (L. Valiant,2010 年度;J. Pearl,2011 年度) ,这标志着机器学习经过 30 余年的蓬勃发展,现已成为计算机科学中最重要和最活跃的研究分支之一。本白皮书旨在简要阐述当前机器学习领域的研究和应用现状, 主2要包括三方面内容: 第 2 章对机器学习领域主流学习技术的研究进展进行了介绍,包括度量学习、多核学习、多视图学习、集成学习、主动学习以及强化学习;第 3 章对近年来新兴的机器学习技术做了选介,包括迁移学习、深度学习、统计关系学习以及演化学习;第 4 章对大数据时代一些重要机器学习技术进行了介绍,包括并行机器学习、哈希学习以及在线学习。在内容组织上

6、,各章节主要包括背景介绍以及相关技术进展, 并在必要时对所涉及的产业应用及未来可能的研究方向进行了讨论。3第 2 章 主流机器学习技术进展2.1 度量学习度量是计量的准则。脱离度量,收集的数据、分析的结果也就丧失了物理意义和现实指征。 而距离的度量对众多机器学习方法的性能都起到了决定性作用:例如在分类方法中,K 近邻分类器、使用了高斯核的核方法;在聚类方法中,K 均值聚类、谱聚类方法都与距离度量密切相关。一般来说,对于任意样本 x, y, z 而言,距离度量函数需要满足自反(任意样本到自身的距离为 0) 、对称(x 到 y 的距离等于 y 到 x 的距离) 、非负(任意样本对之间的距离大于等于

7、 0)以及直递(三个样本之间的距离满足三角不等式)等性质。为了适应不同的具体应用场景, 人们提出了诸如闵可夫斯基距离 (欧几里得距离、 曼哈顿距离、切比雪夫距离均为其特例) 、马氏距离、海明距离等距离度量函数,并针对某些特定问题,提出了一些衍生距离度量,例如,动态时间规整距离 DTW4, 推土机距离 EMD5等。随着机器学习应用面的日益拓展, 通过人工设计或定义特定的衍生距离度量函数未必吻合面对的问题,因此,通过学习获得问题相关的度量成为研究主题, 卡内基梅隆大学机器学习系的邢波教授于2003年提出了距离度量学习6。在随后的 10 余年里,各类距离度量学习方法不断被提出,并在诸如社交网络连接预

8、测、强化学习的状态连接学习、信息检索与推荐、身份验证、甚至医疗效果评估等方面都获得了广泛应用。对距离度量学习的研究首先始于对马氏距离的深入探讨。 对于任意两个 d 维样本,其马氏距离的平方定义为.其中 M 是度量矩阵,并且为了保持距离的非负对称性,M 应当为对4称半正定矩阵。一般的距离度量学习针对度量矩阵 M 展开。例如:E.Xing等人提出的距离度量学习方法在已知某些样本在语义层面相似、某些样本相异的语境下,通过引入必连(must-link)和勿连(cannotlink)约束集概念(分别记为 和,即相似样本组成的样本对属于必连约束集、相异样本对属于勿连约束集) ,学习出一个满足给定约束的度量

9、矩阵,为此设法学到一个 M,使相似样本间距离尽量小、同时相异样本间距离尽量大,即优化如下式所列的约束优化问题6:其中限定 M 半正定。考虑到度量矩阵的对称正定性,必然存在正交基 P,使得,也即对度量矩阵 M 的学习,等效于学习一个线性空间变换矩阵 P。更进一步地,若 M 是一个低秩矩阵,那么存在正交基,该正交基可以作为降维矩阵使用。也即低秩距离度量学习可以衍生出一个降维方法。图2-1 给出了对距离度量学习(等效于对空间进行线性变换)前后 3 近邻分类结果变化的示意图。图图 2-1 距离度量学习前后距离度量学习前后 3 近邻分类效果示意图,问号为测试样本,训练样本近邻分类效果示意图,问号为测试样

10、本,训练样本分属于红、黑两个类别。左侧为各向同性的欧氏空间,测试样本根据多数投票分属于红、黑两个类别。左侧为各向同性的欧氏空间,测试样本根据多数投票应当分类为黑;右侧为度量学习后的空间,可以发现某些特征组合对近邻选取应当分类为黑;右侧为度量学习后的空间,可以发现某些特征组合对近邻选取的作用得到了放大的作用得到了放大/缩小,从而导致缩小,从而导致 3 近邻分类结果出现差异,分类为红。近邻分类结果出现差异,分类为红。必连、勿连约束往往来自于样本的标记信息,而且约束所有的样5本,故而使用必连、勿连约束的距离度量学习方法往往是全局度量学习方法,此类方法的代表还有:将必连约束刻画为等价关系的相关成分分析

11、7; 使用对数行列式(logdet)差异度作为正则项的信息论度量学习8;全局距离度量学习也被多个知名研究团队推广到在线学习环境910。图图 2-2 LMNN 学习前后,黄色圆点为同类训练样本,其他异色方块为类别不同学习前后,黄色圆点为同类训练样本,其他异色方块为类别不同的样本。的样本。LMNN 学习得到的度量旨在局部区域将同类样本点拉近、异类样本点学习得到的度量旨在局部区域将同类样本点拉近、异类样本点排斥开排斥开,并在同类和异类样本之间建立一个边界区域以便于并在同类和异类样本之间建立一个边界区域以便于 kNN 取得较好的分取得较好的分类效果。类效果。不同于这些全局度量学习方法, Weinber

12、ger 和 Saul 提出了一种利用邻域内三元关系进行度量学习的方法 LMNN11,图 2-2 给出了LMNN 方法的直观示意。在 LMNN 中所有的约束关系都限于某个样本的局部邻域,故此类方法也被称为局部距离度量学习方法。自LMNN 提出后,局部距离度量学习方案得到众多研究者的青睐,多种扩展方案被分别提出,例如,能处理多任务的 mt-LMNN16,可在不同集簇中学习多个度量的 mm-LMNN12等; 在局部距离度量学习方面, Huang 等人提出了能够处理一定噪音和错误的鲁棒度量学习方法RML13;Chechik 等人借鉴 LMNN 的思想,直接对内积形式的相似6度利用局部约束加以学习,并将

13、相关算法运用于大规模图像检索,取得了很好的效果14; 利用与局部距离度量学习类似的思想, 研究者不仅针对马氏距离度量矩阵进行学习,甚至对前述的 EMD 距离进行了学习,例如-LMNN 就针对与直方图类特征对应的 EMD 距离进行学习15; 在局部信息和性质的利用方面, 有些研究者甚至为每个样本都学习了合适的距离度量16。随着数据收集手段的提升,大数据时代已经开启。在大数据情境下,距离度量学习和降维之间的关系得到了研究者的关注。事实上,早在2003年Goldberger等人提出的NCA一文中就明确指出距离度量学习和降维之间的关系17,Bellet 等人在 2005 年就明确指出:几乎每种线性距离

14、度量学习方法都对应着一类降维策略18。 在意识到距离度量学习和降维的关系之后, 研究者们提出了很多能够直接进行降维或者利用降维能力简化计算的距离度量学习方法。例如,Shi 等人提出在有限基上进行距离度量学习, 其中仅需学习一组基的线性组合系数即可,从而消减了距离度量学习的计算量19。值得注意的是,除了降维之外,距离度量学习研究者们也设计出了独到的高维数据处理方法, 如 Qian 等人于 2014 年提出了一种基于随机投影的距离度量学习方法,通过随机投影降低数据维度,并通过对偶空间的基重构获得原空间的距离度量20;Schultz 和 Joachims、以及 Gao 等人都提出了学习一个对角距离度

15、量矩阵代替学习完全的度量矩阵的替代方案等2122。 此外, 最近兴起的稀疏学习技术在距离度量学习研究中也获得了运用23。距离度量学习同样在计算机视觉、 信息检索和生物信息学相关领域受到关注。在计算机视觉领域,距离度量学习除了被用于图像分类24、物体识别25、视觉追踪26之外,还在一些计算视觉的本质问题,如图像表示方面等,被加以利用;信息检索的结果对距离和相似度的定义十分敏感,因此这方面的工作也相对丰富2728;对 DNA 和蛋白7质分子的结构分析涉及诸如编辑距离和 DTW 方面的研究,度量学习在这些特殊距离度量处理方面也有对应的研究工作2930。2.2 多核学习核方法是机器学习中一类强有力的统

16、计学习技术, 被广泛应用于分类、回归、聚类等诸多领域。核选择是核方法的关键内容,因其是提高核方法泛化性能的重要一环。多核学习(Multiple KernelLearning,MKL)通过利用多个基本核的组合代替单核,将核选择问题转化为对组合系数的选择,有效地改进了核方法。其最早应用于生物信息学领域,例如在蛋白质功能预测与定位、蛋白质分子间的交互预测等问题中,由于来自异构源的数据具有不同的特性,可以通过多个基本核矩阵的线性组合实现异构数据源的融合, 基于此训练分类器取得了很好的性能。构造多核模型,最基本的方法就是考虑多个基本核函数的凸组合:1( , )( , )MiiiKKxx,0i,11Mii

17、其中( , )iK x 是基本核函数,M 是基本核的总个数,i是组合系数,条件0i可以确保由此产生的Gram矩阵是半正定的。 因此, 在MKL框架下, 样本在特征空间中的表示问题转化为基本核与组合系数的选择问题31。 在这个由多个特征空间构建的组合空间中, 利用了各个基本核的特征映射能力, 通过将异构数据的不同特征分量利用对应的核函数进行映射,使数据在新的特征空间中得到更好的表达,能显著提高分类性能31。MKL 的本质问题就是,如何得到这个组合的特征空间,即如何通过学习得到组合系数31。近年来,研究者们提出了一系列 MKL 算法,主要侧重于算法的优化求解和性能提高两个方面。Lanckriet

18、等人考虑组合系数和分类器参数的联合优化, 提出了基于二次约束二次规划问题的 MKL 算法32,但是算法仅适用于具有少量样本和核的小规模问题。Bach 等人进一步提出了一种新对偶形式,8将其刻画为二次锥规划问题,可利用 Moreau-Yosida 正则化,采用序列最小优化算法求解33。 Lanckriet 等人通过在核矩阵中综合考虑训练样本和测试样本,利用半定规划技术实现了核矩阵的学习问题,也为MKL 提供了一种渐近直推式算法34。Sonnenburg 等人在多核矩阵锥组合的基础上, 将 Bach 等人的对偶形式改写为半无限线性规划问题,可利用线性规划方法迭代求解组合系数和分类器参数, 并可推广

19、到回归、单类分类等学习问题35。但是,这种迭代算法在收敛到一个合理解之前, 需要过多的迭代运算, 计算效率仍然不高31。 Rakotomamonjy等人用一种自适应的 l2-范数正则化方法来考虑 MKL 问题, 每个核矩阵的组合系数被包含在经验风险最小化问题中,并利用 l1-范数约束以提高解的稀疏性36,然后采用了一种基于分块 l1-范数正则化的算法来求解,显著提高了算法的收敛速度和效率37。Xu 等人认为求解大规模多核学习的次梯度下降方法和半无限线性规划方法均存在不足:前者仅利用了当前解的梯度,后者在割平面模型中得到的近似解有可能远离最优解。因此,扩展了最初为非光滑目标函数优化而设计的水平方

20、法,利用了之前迭代过程中的所有梯度,通过向水平集投影对解进行修正,从而克服了这两种方法的缺点38。Xu 等人进一步利用 MKL 和分组 Lasso 之间的一致性优化组合系数,得到了一个闭式解, 从而提出了一种新的MKL求解方法并可推广到lp-范数的情况39。Vishwanathan 等人利用序列最小优化算法训练以 lp-范数平方或Bregman 散度为正则化的线性 MKL, 保持了算法简单性和高效性40。Jin 等人基于贪婪坐标下降算法, 提出了一种新的稀疏 MKL 算法, 不但保持了解的稀疏性,而且在适当的条件下能够达到几何收敛率41。除了研究如何高效求解 MKL 优化问题,研究者们还从核的

21、非稀疏性以及组合方式等角度出发,深入探讨了提高 MKL 算法性能的方法。在多核学习中最常用的是组合系数的 l1-范数约束,其优势在于可提高核组合的稀疏性31。然而,Kloft 等人认为尽管稀疏的核组合9能够提供很好的可解释性并提高计算效率, 但当某个问题多个特征编码间具有正交性时, 稀疏性可能导致有用信息的丢失和泛化性能的下降31。因此,他们通过对组合系数引入 l2-范数约束,提出了非稀疏的 MKL 算法,显著提高了 MKL 算法在抗噪声和特征集冗余方面的鲁棒性31。此后,Kloft 等人又将 l2-范数约束推广到任意的 lp-范数,采用牛顿下降法和割平面法求解,进一步增强了 MKL 的通用性

22、和鲁棒性42。另一个可能的拓展是探索核的组合方式或混合范数组合31。Varma 和 Babu 研究了核的非线性组合,将 l1-范数约束推广至任意的可微函数约束,提出了推广的 MKL 算法43。Jain 等人进一步提出了一种谱投影梯度下降优化算子,通过考虑步长选择中的二阶信息,采用了一个非单调步长选择策略, 有效地提高了该算法的鲁棒性和计算效率44。 Hinrichs 等人将 l1-范数和 l2-范数约束推广至二次函数带权约束,嵌入了核中的聚类结构,以挖掘核间的高阶信息45。Cortes 等人在回归问题中研究了核的多项式组合问题, 采用了投影梯度下降算法求解优化问题46。近年来,多核学习已被成功

23、应用于机器学习的许多领域,如多示例学习、 半监督学习、 增量学习等4748, 并在生物特征识别、 无人机、信息检索等领域得到了广泛应用。例如,在虹膜图像检测方面,研究者利用多核学习, 融合了频谱能量分布、 奇异倒谱直方图等多个特征,有效地提高了检测效果。在医学诊断方面,多核学习可克服采用单一核函数所导致的多个检测指标很难同时兼顾的问题, 充分发挥了多个核函数不同的刻画能力,提高了检测算法的泛化能力和鲁棒性,较好地提升了诊断的准确度和敏感度,为医学诊断提供了更准确的信息。在无人机故障诊断方面,多核学习在单核的基础上,进一步融合了无人机平飞时俯仰角速率、 爬升和下滑两种纵向飞行模态时速率陀螺发生冲

24、击、偏差、卡死、乘性故障时俯仰角速率等多源数据信息,达到了更高的故障诊断准确性。在高光谱遥感图像分类方面,多核学习实10现了空间特征和光谱特征的联合分类, 分别从高空间分辨率的可见光图像和高光谱分辨率的高光谱图像中提取空间特征和光谱信息, 构建多特征多核学习模型, 有效地提高了空谱特征可利用性和高光谱遥感图像分类效果。尽管多核学习取得了上述诸多优越性能, 但其仍存在一些问题亟待解决。首先,基本核的选择和组合方式缺乏理论依据。多核学习中的很多方法都是基于有限个基本核的线性组合加以讨论, 基本核的选择也大都是启发式的。当面对一些复杂问题时,这些方法未必有效,有限个核函数融合的决策函数的性能也不可能

25、达到处处最优。 将多核学习由有限核向无限核扩展,以及考虑基本核的非线性组合方式,是一个重要的研究方向,现有的相关研究才刚刚起步。此外,目前的多核学习大多选择满足 Mercer 条件的正定核为基本核,但在实际应用中存在着大量的不定核, 将不定核与多核学习相结合具有重要的理论与应用价值。其次,在“大数据”背景下,如何将多核学习扩展至大规模学习问题中需要进一步研究。对于大规模数据集,由于涉及到多核矩阵的快速求解、高维多核扩展矩阵的各种分解等问题,通常的多核学习方法的学习效率会很低, 如何提高其学习速度值得我们进行深入的探讨。2.3 多视图学习伴随着 “大数据” 时代, 数据的采集越来越呈现出多源异构

26、特性,在越来越多的实际问题中存在着大量对应着多组数据源的样本, 即多视图数据。如图 2-3 所示49,每个因特网网页可被表示为其所含文档和指向它的超链接; 一幅网页图像可被表示为其周围的文本和视觉信息;3D 物体的图像可能来源于不同的视角;视频片段可被表示为声音信号和视频帧;语言文件在不同的语言中具有不同的表示等等。这些不同视图的数据中蕴含着大量的先验知识, 如何从中获取更多的有用信息以有效地指导学习, 即设计有效的多视图学习模型正逐步成为11机器学习的研究热点之一。图图 2-3 多视图数据多视图数据多视图学习与多核学习之间具有天然的联系, 这是因为不同的核函数自然地对应着不同的视图, 多核学

27、习为多视图学习提供了一种融合不同视图数据和不同结构数据的有效方式。除此之外,典型的多视图学习模型还包括协同训练和子空间学习。协同训练是最早的多视图学习范式之一,由 Blum 和 Mitchell 于1998 年提出50。其来源于半监督学习问题,算法首先利用有标号样本在两个视图上分别训练一个朴素贝叶斯分类器, 然后每个分类器从无标号样本中选出若干预测置信度较高的样本进行标记, 并将其加入到另一个视图的有标号样本数据集中, 随后用扩充后的有标号数据集在每个视图上重新训练分类器,直至达到某一终止条件50。Nigam 和Ghani 进一步在两个视图上利用期望最大化算法,对无标号样本赋予一个可变的概率标

28、记,而非一个明确的类标号,有效地提升了算法性能51。Sindhwani 等人将最大化无标号样本上的一致性刻画为两个希尔伯特空间中的协同正则化问题,通过选取不同的正则化框架,如12Tikhonov 正则化、 流形正则化等, 优化不同视图上数据的一致程度和光滑程度52。Zhou 和 Li 进一步将协同训练的思想推广至回归问题,提出了协同回归算法53。Bickel 和 Scheffer 研究了无监督情况下的协同训练算法,提出了 k-means、k-medoids 等经典聚类算法的多视图学习模型54。子空间学习假设所有视图都由一个潜在的子空间产生, 进而直接利用所有的视图,以期获得这样的子空间。典型相

29、关分析是运用最为广泛的多视图降维算法,其为每组视图数据寻找一个投影向量,使两组视图数据在投影后的低维空间中相关性最大, 本质上属于无监督方法。在有监督的情况下,Yu 等人将样本数据作为一个视图,样本的类标号作为另一个视图, 有效地将类信息引入到了降维过程中55。 但是,这种方法本质上属于单视图学习范畴,并非真正的多视图学习。Sharma 等人将多种经典的监督和无监督特征抽取方法刻画成二次约束二次规划的特殊解形式,进而提出了广义多视图分析算法,推广了有监督的典型相关分析方法56。Zhou 等人利用典型相关分析,提出了只有一个有标号样本的半监督学习算法, 其通过度量无标号和有标号样本之间的相似性,

30、 将若干具有最高和最低相似性的无标号样本分别选为正类和负类样本,进而可应用传统的半监督学习方法求解57。除了典型相关分析算法,多视图子空间学习方法还包括多视图 Fisher判别分析、多视图谱嵌入、多视图度量学习等。在过去的十年中,多视图学习取得了长足的发展,并拓展出很多新的研究领域,诸如异质多视图学习、多态学习等。异质多视图学习不仅假设每个学习任务的特征来源于多个视图(特征异质) ,更假设不同的学习任务之间通过一个或多个共享的视图相关联 (任务异质) 。He和Lawrence提出了一个基于图的框架以利用多个任务和视图的信息,但是这个框架是直推式的,不能预测未见样本,而且只能处理具有非负特征的问

31、题58。Zhang 和 Huan 利用协同正则化,保证学习器13在不同视图的无标号样本上彼此一致59。 但是, 该算法要求所有的任务都彼此相似,这显然是不合理的。Jin 等人进一步提出了一个共享结构学习框架,打破了上述限制,其从多个相关任务的共同视图上学习共享预测结构, 并利用不同视图上的一致性提高性能60。 多态学习研究不同模态样本之间的学习问题, 比如图像和语句之间的关联就可刻画为多态匹配问题。Hodosh 等人利用核典型相关分析算法挖掘图像和语句之间的共享特征空间, 但是基于浅层表示的图像和语句通常具有高度的非线性性,导致了模态间的关联很难被挖掘61。Ma 等人进一步使用卷积神经网络刻画

32、图像、 将语句中的词组成不同的语义片段,学习图像和语义片段之间的匹配关系和相互作用,取得了很好的性能62。伴随着理论研究的发展, 多视图学习亦被广泛应用于许多产业领域。例如,在垃圾网页检测中,多视图学习可综合利用基于内容作弊和基于链接作弊的多网页特征,对垃圾网页进行更有效地检测;在微博话题检测中, 多视图学习可整合微博中的文本语义关系和社会化关系, 克服传统的基于纯文本话题检测方法的不足; 在网络入侵检测中,多视图学习可针对多种不同的入侵类型,如拒绝服务、网络嗅探、远程非法登入、非法权限提升等,在特定的属性空间中进行检测,以获得更好的检测效果;在跨语言信息检索中,对同一个自然语言描述对象,多语

33、言的信息表示是该对象赋予不同语言符号系统的字符串表示,可自然地表示为该对象的多个视图,这些视图在本质上是语义等价的, 多视图学习可充分利用这些视图的信息, 取得较好的检索性能。虽然目前多视图学习在理论分析和应用研究上取得了一定的进展,但其仍然存在值得进一步研究的问题:第一,视图的构造、分析和评价。多个不同的视图是多视图学习的根本,其性质不可避免地将对多视图学习的性能产生关键影响。如何构造多个视图数据、如何评价多个视图数据的有效性等一系列问题, 都是多视图学习中的重要研14究内容。第二,多视图学习框架的建立。协同训练、多核学习和子空间学习提供了三种不同的多视图组合方式, 但目前对于三者的研究仍是

34、相对独立的, 如何建立一个融合不同方法优点的多视图学习框架亦值得深入研究。第三,多视图研究领域的扩展。立足于实际问题,异质多视图学习、 多态学习等新兴研究领域的出现为多视图学习提供了更加广阔的发展前景,而目前对于这些领域的研究仍处于起步阶段,对其的深入探索必将为多视图学习提供更多的发展机遇。2.4 集成学习与单一的学习模型相比, 集成学习模型的优势在于能够把多个单一学习模型有机地结合起来,获得一个统一的集成学习模型,从而获得更准确、稳定和强壮的结果。近年来,各种各样的集成学习模型相继被提出,并应用于各种类型的数据集中6364。集成学习能够把多个单一学习模型所获得的多个预测结果进行有机地组合,从

35、而获得更加准确、稳定和强壮的最终结果。集成学习的 原 理 来 源 于 PAC 学 习 模 型 ( Probably Approximately Correctlearning) 。Kearns 和 Valiant 最早探讨了弱学习算法与强学习算法的等价性问题65, 即提出了是否可以将弱学习算法提升成强学习算法的问题。如果两者等价,那么在学习概念时,只要找到一个比随机猜测略好的弱学习算法,就可以将其提升为强学习算法,而不必直接去找通常情况下很难获得的强学习算法。近年来,研究人员在集成学习方面,特别是分类集成方面进行了大量的探索和创新。大部分的集成学习模型都可以归为三大类:分类集成学习模型、半监督

36、集成学习模型和非监督集成学习模型。监督集成学习模型,又称为分类集成学习模型(classifier ensemble),包括一系列常见的分类技术,如:bagging66、boosting67、随机森林68、随机子空间69、旋转森林70、基于随机线性预测器的集成技术71、 神经网络集成技术72等等。 一方面, Adaboost算法是学习过程集成的典型例子。 它在学习过程中不断地调整训练样15本的权重,从而把多个弱分类器有机地结合成一个强分类器。另一方面,bagging 技术是学习结果集成的典型例子。它通过合适的投票机制把多个分类器的学习结果综合为一个最具代表性的结果。如:图2-4 显示了学习结果集

37、成的基本框架图。当给定一个训练集,集成学习首先通过一系列的数据映射操作,如:采样、随机子空间、扰动、投影等,生成多个不同的新训练集。新训练集之间,以及新训练集与原训练集尽可能不同。这样,我们才能够探索样本在相对稳定的类结构下的不同的表现形式。与此同时,要确保新训练集仍然保持原有的相对稳定的类结构。然后,集成学习采用新训练集训练一种或多种基本分类器,并通过选择合适的投票机制,形成组合分类器。最后,运用组合分类器对测试集中的样本进行预测,获取这些样本的标记。图图 2-4 Bagging 集成基本框架图集成基本框架图图 2-5 显示了 Adaboost 集成基本框架图。 当给定一个原始训练集,Ada

38、boost 算法首先赋予训练集的每个样本相等的权重系数, 然后用这图图 2-5 Adaboost 集成基本框架图集成基本框架图16些样本训练一个弱分类器,并对原始训练集的样本进行预测,接着更新训练集样本的权值。标记预测错误的样本,权重减少;标记预测正确的样本,权重增加。最后,Adaboost 获得权值更新的训练集。算法不断地重复之前的步骤,不断生成新训练集,不断训练新的分类器,直到获得一组分类器。 这组带权重系数的分类器将用于预测测试集中样本的标记,并获得最终结果。图 2-6 显示了随机子空间集成基本框架图。当给定一个原始训练集,该算法首先对属性维进行随机采样,生成一组随机子空间;然后在子空间

39、中生成相应的训练集, 并用不同子空间下的一组新训练集来训练出一组分类器。在测试阶段,首先把测试集中的样本投影到相应的子空间中,然后用子空间的分类器预测样本标记,最后通过合适的投票机制把所有的预测结果进行综合,从而获得最终结果。半监督集成学习模型包括多视图学习模型、 共性最大化学习模型等。非监督集成学习模型,又称为聚类集成(cluster ensemble)或一致性聚类(consensus clustering), 最早由 Strehl 所提出。 经过多年的研究,大量的聚类集成学习模型被提出来,如:基于图论的聚类集成算法、基于多次谱聚类的聚类集成算法、混合模糊聚类集成算法等。图图 2-6 随机子

40、空间集成基本框架图随机子空间集成基本框架图17然而集成学习模型的性能往往受到外在环境(如:样本空间和属性空间)和内在环境(基本分类器的参数和基本分类器的权重)的影响。但是传统的集成学习模型没有考虑到这些因素的综合影响,没有考虑到如何寻找最优的集成学习模型。 而多角度自适应集成学习模型不但能够考虑到集成模型的内在环境, 而且能够把握集成模型和外在环境之间的关系73。 自适应集成模型之间会根据解决问题的需要进行一定的信息交互,不断地进行调整,直到达到最佳的状态。多角度自适应集成学习模型将在传统集成学习模型的基础上, 从多个不同角度加入自适应学习过程,从而获取最优的集成学习模型。国际上与集成学习模型

41、的相关研究工作还很多, 以上只是列举了部分经典的研究工作的情况。 国内许多著名的专家学者也在集成学习模型上做了很多的研究, 如: 周志华教授的团队等, 在此不一一列出。如需了解更多信息,可参考周志华教授关于集成学习的新书74。集成学习未来的发展趋势主要有两大块: 集成学习模型的优化和集成学习模型的并行化。在大数据时代,数据来源各有不同,大数据的海量多元异构特性已经成为大数据智能处理的瓶颈。 如何对多元数据进行融合和挖掘成为大数据智能处理函需解决的问题。 集成学习非常适合用于多元数据融合和挖掘,在集成学习里,集成器由一组单一的学习模型所构成,每一个学习模型都可以对应每一个来源的数据,并自动地提取

42、该数据源所蕴含有价值规律。因此,集成学习能够提供一个统一的框架用于分析异构性极强的多元数据, 实现多元数据的融合、建模和挖掘,并从中寻找出有价值的数据语义,为政府的决策提供支持。然而,由于大数据的海量特性,使得集成学习模型的并行化处理技术变得日益重要。 利用高性能服务器集群实现集成学习模型的并行化处理将成为集成学习未来发展趋势之一。集成学习作为一种提升学习系统泛化性能的常用技术, 在诸多领域有着广阔的应用前景。在美国 NETFLIX 电影推荐比赛中,基于集18成学习的推荐算法获得了第一名。在多次 KDD 和 ICDM 的数据挖掘竞赛中,基于集成学习的算法都取得了最好的成绩。集成学习算法已成功应

43、用于智能交通中的行人检测、车辆检测等,图像和视频处理中动作检测、人物追踪、物体识别等,生物信息学蛋白质磷酸化位点预测、基因组功能预测、癌症预测等,数据挖掘中的脑电数据挖掘、数据流挖掘等。例如,在生物信息学领域,Yu 等人75成功地把集成学习模型应用于预测蛋白与酶绑定的磷酸化位点。 在数据挖掘领域, Zhu等人76把集成学习模型与主动学习相结合,应用于数据流的模式挖掘。在多媒体领域,Xu 等人77把集成学习模型用于检测交通视频中的行人。2.5 主动学习机器学习主要研究计算机如何利用经验数据提高自身性能。 充分和高质量的数据是有效学习的基础和关键。在传统的有监督学习中,要求用于训练学习模型的数据均

44、是已标记的。一般认为,已标记的数据越多,标记越精准,基于这些数据训练得到的模型也越高效。大数据时代为机器学习提供了丰富的原材料, 使其发挥着越来越重要的作用,成为当前最热门的研究领域之一。然而,大数据提供机遇的同时也带来了严重的挑战,其中最典型的便是数据质量低下。在许多实际任务中, 我们可以轻松获取大量数据, 但这些数据大部分是未标注的。比如在图像分类任务中,绝大部分用户上传照片缺乏准确的语义标签。 因此如何从仅有少量标记的大数据中学习出有效模型是一个极具挑战的重要问题。一个最直接的解决方案是先人工标注好所有数据再进行模型训练。 面对海量数据时这种方案将耗费大量人力物力, 显然是不现实的。实际

45、上,在某些现实任务中,即使标注少量数据也需要昂贵的代价。比如在语音识别任务中, 一个熟练的语言学家对一段 1 分钟的语音数据进行语素级标注将耗费近 7 小时78。19一个更合理的方案是挑选一部分数据进行标注。实际上,不同数据样本对于学习模型的贡献度是不一样的, 如果我们能够选取一部分最有价值的数据进行标注, 有可能仅基于少量数据就能获得同样高效的模型。为了实现这一目标,关键在于如何选择出最有价值的数据样本并去获取它们的标记信息。 主动学习就是研究这一问题的一种机器学习框架。其核心任务是制定选择样本的标准,从而选择尽可能少的样本进行标注来训练出一个好的学习模型79。目前主要有三种主动学习场景:基

46、于数据池的主动学习、基于数据流的主动学习以及基于合成样本查询的主动学习79。 下面将分别对这三种主动学习场景进行介绍。基于数据池的主动学习是最常见的一种场景, 其假设所有未标记数据已经给定,形成一个数据池。主动学习算法迭代进行,每一次从未标记数据池中选择样本向专家查询标记, 并将这些新标注的样本加入训练集,模型基于新的训练集进行更新,进而进入下一次迭代;基于数据流的主动学习假设样本以流的形式一个一个到达, 因此在某时刻当一个样本到达的时候,算法必须决定是否查询该样本的标记。这种场景在一些实际应用中也比较常见,比如数据流源源不断产生,而又无法保存下来所有数据时,基于数据流的主动学习就更为适用;基

47、于合成样本查询的主动学习并不是从已有样本中选择来查询标记信息,而是直接从特征空间里合成出新的样本进行查询。由于新合成的样本可能是特征空间里任意取值组合产生的, 因此在某些应用问题中可能导致人类专家也无法标注这些合成样本。比如在图像分类任务中,任意像素取值合成的一幅图片可能并不能呈现出清晰的语义。主动学习的关键任务在于设计出合理的查询策略, 即按照一定的准则来选择被查询的样本。目前的方法可以大致的分为三种策略:基于信息量的查询策略、 基于代表性的查询策略以及综合多种准则的查询策略。20基于信息量的查询策略是最为常见的, 其基本思想是选择那些能最大限度减少当前模型不确定性的样本进行查询。具体而言,

48、信息量又可以通过模型预测的置信度80、 模型错误率下降期望81、 委员会投票82等多种形式进行度量。 这类方法选择样本时只基于现有的已标记样本,忽略了大量的未标记样本中蕴含的数据分布信息,可能导致采样偏差问题; 基于代表性的查询策略倾向于选择那些更能刻画数据整体分布的未标记数据进行标记查询。 这些方法往往通过聚类83或密度估计84等无监督技术来评估样本的代表性, 由于忽略了已标记样本因此整体性能也可能会依赖于聚类结果的好坏; 综合多种准则的查询策略能够同时考虑选择样本的信息量和代表性, 能够有效避免采样偏差和依赖聚类结果的问题。 近年来已有研究者从不同角度提出综合多种查询准则的主动学习方法,并

49、展示出较好的实验性能8586。随着主动学习的广泛应用, 一些实际任务中的新设置和新条件促进了主动学习技术的进一步延伸和发展。 比如, 在多标记学习任务中,一个样本可以同时具有多个标记,这时查询方式(即以何种方式查询所选样本的监督信息) 对主动学习性能非常关键87。 此外在一些任务中,提供标记信息的不再是一个专家,而是一群可能提供错误信息的用户, 这时如何从带有噪音的数据中获取正确的标记信息变得非常重要88。还有一些任务中,可能标注每个样本的代价不一样,这使得主动学习算法在选择样本的时候不仅要考虑样本可能带来的价值, 还要考虑标注它可能花费的代价89。 这些新的主动学习设置和形式正引起越来越多的

50、关注,使得其应用前景更为广阔。随着大数据时代的来临,数据分析任务变得更加困难,同时也为主动学习的进一步发展和应用提供了巨大的机遇。首先,数据规模庞大但是质量低下,具有精确标记信息的数据尤其稀少。因此如何从海量数据中选择最有价值的部分数据进行人工标注成为了一个常见的重要步骤,这也恰是主动学习研究的内容。其次,数据分析任务的难21度越来越高,许多学习任务仅仅依靠机器已经难以达到实用的效果。因此, 人与机器在学习过程中进行交互成为了一种更有效更现实的方案。在这样的背景下,主动学习可能会发展出更多新颖的设置,从传统查询样本标记衍生出更多的查询方式, 从用户获取更丰富的监督信息。最后,随着数据来源的多样

51、化趋势,主动学习在流数据、分布式学习、众包等场景下的研究和应用将会受到更多的关注。在产业应用方面,CrowdFlower 是一家专门通过网络用户收集和标注数据的公司,其创始人兼 CEO、毕业于斯坦福大学的 LukasBiewald 曾领导 Yahoo 日本的搜索团队,是一位对主动学习非常熟悉且推崇的业界人士。他在最近的一次报告中称,主动学习是现实应用中最好用的机器学习技术之一, 能够非常简单地嵌入实际任务并带来显著效果。OREILLY 最近发表了一篇专门关于主动学习的报告,名字是“Real-WorldActive Learning” 。该报告中列举了许多主动学习的真实应用案例。Stitch F

52、ix 是一家为女性提供时尚建议的在线购物网站,成立于 2011 年,在 2014 年估值为 3 亿美元。该公司通过机器学习算法将客户资料与结构化的服饰特征进行匹配, 从而提供个性化的时尚建议和推荐。同时,该公司有近 1000 名时尚专家,在算法遇到困难时进行人工干预,一方面为客户提供更精准的推荐,一方面增加了标注数据使得算法性能不断提升。Google 地图能够提供准确的地图服务,其背后实际上也采用了主动学习技术。Google 强大的算法会根据卫星图、航拍图以及街景车拍摄的图片提取出相关的特征并提供较为准确的服务, 但是仍然会出现错误的地方,需要人工进行标注。特别是对于那些街景车无法到达的路外地

53、点, 人工标注提供了重要的帮助。 GoDaddy 公司有一个叫“Get Found”的服务产品,为商家提供管理和呈现他们信息的在线平台。该服务中一个关键技术问题是识别同一商家的不同别名。算法能够识别一些简单的别名,而对于那些机器难以识别的别名,则需要22寻求人工帮助。 该产品中就是利用主动学习技术在最有价值的数据上获取人工标注从而提升算法匹配性能。此外,在垃圾邮件过滤、搜索引擎结果优化等常见产品背后, 都用到了主动学习技术来选择性的获取人工标注,以此提高算法性能。2.6 强化学习机器学习任务可以划分为监督学习、 无监督学习、 和弱监督学习。监督学习面临的数据样本有完整的标记, 即每一项观察都有

54、与之对应的决策,机器从这样的样本中可以直接学习到从观察到决策的映射。无监督学习面临的数据样本完全没有标记, 机器需要从数据中发现内部的结构信息。弱监督学习的目的,与监督学习一致,然而其获得的样本并没有完整的标记。从标记缺失的形式和处理方式的不同,又可以分为半监督学习、主动学习、多示例学习多标记学习、和强化学习。半监督学习中,只有少量的样本具有标记;主动学习中,机器可以询问真实的标记,但需要考虑询问的代价;多示例学习中,一个对象表示为一组样本的包,而标记只在包的层面上,在样本的层面上却没有标记;多标记学习中,一个样本对应一组标记,因此需要处理巨大的标记组合空间问题; 强化学习中, 机器需要探索环

55、境来获得样本,并且学习的目的是长期的奖赏,因此样本的标记是延迟的,下面我们详细介绍。强化学习研究学习器在与环境的交互过程中, 如何学习到一种行为策略, 以最大化得到的累积奖赏90。 与前面我们提到的其它学习问题的不同在于, 强化学习处在一个对学习器的行为进行执行和评判的环境中:环境将执行学习器的输出,发生变化,并且反馈给学习器一个奖赏值;同时学习器的目标并不在于最大化立即获得的奖赏,而是最大化长期累积的奖赏。强化学习的设定可用图 2.7 来表示。例如在俄罗斯方块游戏中,学习器所处的环境为游戏规则,学习器根据当前游戏的状态输出动作,以游戏得分作为每一次动作的奖赏,学习器需23要最大化最终的奖赏总

56、和。图图 2.7 强化学习设定强化学习设定由于强化学习框架的广泛适用性, 已经被应用在自动控制91、 调度92、金融93、网络通讯94等领域,在认知、神经科学领域,强化学习也有重要研究价值,例如 Frank 等人95以及 Samejima 等人96在Science 上发表了相关论文。强化学习也被机器学习领域著名学者、国际机器学习学会创始主席 T. G. Dietterich 教授列为机器学习的四大的研究方向之一97。强化学习的目标是最大化累积奖赏,这一点与马可夫决策过程(MDP)的目标一致,因此强化学习也常常用 MDP 来建模。一个MDP 定义为四元组, 其中 S 表示环境状态的集合; A 为

57、“动作”集合,即学习器的输出值域;T 为转移函数,定义了环境的根据动作的转移;R 为奖赏函数,定义了动作获得的奖赏。MDP 寻找最优动作策略以最大化累计奖赏。当 MDP 的四元组全部给出且 S 和 A为有限集合时, 求解最优策略的问题即转变为求解每一个状态上最优动作这一优化问题,而该优化问题通常可以通过动态规划来求解:在最终时刻,只需要考虑立即获得的奖赏,即可得知每个状态最优动作获得的奖赏;这一时刻状态的最优奖赏,随后用于求解退一时刻状态的最优动作和最优奖赏。这一关系即著名的 Bellman 等式90。因为MDP 四元组全部已知,实际上并不需要与环境交互,也没有“学习”的味道,动态规划就可以保

58、证求解最优策略。强化学习通常要面临的难题是,对于学习器,MDP 四元组并非全部已知,即“无模型” (model-free)。最常见的情况是转移函数 T 未24知以及奖赏函数 R 未知, 这时就需要通过在环境中执行动作、 观察环境状态的改变和环境给出的奖赏值来学出 T 和 R。 我们可以把强化学习方法分为基于值函数估计的方法和直接最大化累计奖赏的直接策略搜索方法。基于值函数估计的方法试图在与环境交互的过程中估计出每一状态上每一动作对应的累积奖赏,从而得出最佳策略。这一类方法的代表有时序查分学习方法 SARSA98和 Q-Learning99。基于值函数估计的方法由于其目标并不是直接求得策略, 而

59、是通过值函数的学习来得到策略,即最终的策略是选择值函数大的动作,因此在较复杂的任务上会出现“策略退化”的现象100,即虽然值函数估计较准确,但得到的策略却不好。 直接最大化累计奖赏的直接策略搜索方法则不依赖于对状态上累积奖赏的估计,而直接优化策略获得的累积奖赏。这一类 方 法 的 代 表 有 使 用 策 略 梯 度 方 法 优 化 参 数 化 策 略 的REINFORCE101方法, 以及使用演化算法等全局优化算法来搜索策略的 NEAT+Q102方法等。强化学习在实际问题上的广泛使用还面临诸多挑战, 主要包括特征表示、搜索空间、泛化能力等方面的问题。经典强化学习的研究中,状态和动作空间均为有限

60、集合,每一个状态和动作被分别处理。然而,一方面许多应用问题具有连续的状态和动作空间,例如机械臂的控制;另一方面即使对于有限状态空间,状态之间也并非没有联系,例如棋盘上走棋有位置关系。因此如何将状态赋予合适的特质表示将极大的影响强化学习的性能。 这一方面的工作包括使用更好的特征编码方式102103104等,而近期得益于深度学习技术的发展, 特征可以更有效的从数据中学习, Google DeepMind的研究者在 Nature 上发表了基于深度学习和 Q-Learning 的强化学习方法 Deep Q-Network105,在 Atari 2600 游戏机上的多个游戏取得“人类玩家水平”的成绩。一

61、方面可以看到特征的改进可以提高强化学习25的性能, 另一方面也观察到, Deep Q-Network 在考验反应的游戏上表现良好,而对于需要逻辑知识的游戏还远不及人类玩家。由于强化学习关于累积奖赏的优化目标,涉及多步决策,这使得策略的搜索空间巨大、累积奖赏目标极其复杂,优化非常困难。一方面需要研究更加有效的优化方法,例如使用 Cross-Entropy 等方法进行优化106107。另一方面,通过引入模仿学习108109,可以极大的缓解这一问题。模仿学习中,存在能做到接近最优策略的“教师”,并且由“教师”进行示范,提供一批演示样本,这些样本可用于直接指导每一步的动作,因此可以借助监督学习帮助强化

62、学习。同时模仿学习的另一作用是从演示样本中学习奖赏函数,称为逆强化学习110111112,从而可以在应用问题中免去对奖赏函数的定义,例如 IJCAIComputers and ThoughtAward得主斯坦福大学Andrew Ng教授使用逆强化学习进行运动轨迹规划113。经典的强化学习研究多假设学习器处在稳定环境中,即 MDP 四元组都是固定不变的,学习器在这样的环境中进行学习,学习到的策略也只在相同的环境中进行使用和评价。 经典的强化学习研究在车床控制、工业机器人等稳定环境中取得了成功的应用。然而随着强化学习的应用向更多的领域拓展,面对的环境更加复杂,以往的限定条件下的假设不再成立。例如在

63、自动驾驶中,不同配置的车辆驾驶到各种各样的地形,某一种车辆在某一种地形上学习到的策略可能难以应对。IJCAI Computers and Thought Award 得主、AAAI Fellow、美国德克萨斯奥斯丁大学 Peter Stone 教授也发文指出限定条件下的强化学习算法面临领域过配问题(domain overfitting), 限定条件下设计的算法只能用于特定领域、而难以通用103。对此问题,已出现了一些关于强化学习领域迁移的研究114115116。总之,强化学习的发展是以满足越来越广泛的应用需求为方向,除了上面阐述的工作,最近在奖赏反馈延时方面也出现一些工作,试26图解决在线应用

64、中实际获得奖赏的过程存在延时、 难以精确得知环境奖赏具体来自哪一步动作的问题117。值得注意的是,在国际上,强化学习是机器学习领域的重要分支,以 ICML 2015 为例,专门的强化学习占两个session, 另外Bandit学习session和两个在线学习session中大半也是关于强化学习的工作。 然而国内强化学习方面的研究相对较为冷淡,在顶级会议上发表的强化学习工作较少。27第 3 章 新兴机器学习技术选介3.1 迁移学习在传统分类学习中, 为了保证训练得到的分类模型具有准确性和高可靠性,都有两个基本的假设:(1) 用于学习的训练样本与新的测试样本满足独立同分布;(2) 必须有足够可用的

65、训练样本才能学习得到一个好的分类模型。但是,在实际应用中我们发现这两个条件往往无法满足。首先,随着时间的推移,原先可利用的有标签样本数据可能变得不可用,与新来的测试样本的分布产生语义、分布上的缺口。另外,有标签样本数据往往很缺乏,而且很难获得。这就引起了机器学习中另外一个重要问题, 如何利用少量的有标签训练样本或者源领域数据, 建立一个可靠的模型对具有不同数据分布的目标领域进行预测。近年来,迁移学习已经引起了广泛的关注和研究118。迁移学习是运用已存有的知识对不同但相关领域问题进行求解的新的一种机器学习方法。它放宽了传统机器学习中的两个基本假设,目的是迁移已有的知识来解决目标领域中仅有少量有标

66、签样本数据甚至没有的学习问题。迁移学习广泛存在于人类的活动中,两个不同的领域共享的因素越多, 迁移学习就越容易, 否则就越困难, 甚至出现“负迁移”,产生副作用。比如:一个人要是学会了自行车,那他就很容易学会开摩托车;一个人要是熟悉五子棋,也可以轻松地将知识迁移到学习围棋中。但是有时候看起来很相似的事情,却有可能产生“负迁移”,比如,学会自行车的人来学习三轮车反而不适应,因为它们的重心位置不同。近几年来,已经有相当多的研究者投入到迁移学习领域中,每年在机器学习和数据挖掘的顶级会议中都有关于迁移学习的文章发表, 比如, ICML, SIGKDD, NIPS, IJCAI, AAAI, ICDM

67、以及 CIKM等。28近十几年来,很多学者对迁移学习展开了广泛的研究,而且很多集中在算法研究上,即采用不同的技术对迁移学习算法展开研究。基于特征选择的迁移学习方法是识别出源领域与目标领域中共有的特征表示,然后利用这些特征进行知识迁移。Jiang 等人119认为与样本类别高度相关的那些特征应该在训练得到的模型中被赋予更高的权重, 因此他们在领域适应问题中提出了一种两阶段的特征选择框架。第一阶段首先选出所有领域(包括源领域和目标领域)共有的特征来训练一个通用的分类器; 然后从目标领域无标签样本中选择特有特征来对通用分类器进行精化从而得到适合于目标领域数据的分类器。Dai 等人120提出了一种基于联

68、合聚类(Co-clustering)的预测领域外文档的分类方法 CoCC,该方法通过对类别和特征进行同步聚类,实现知识与类别标签的迁移。CoCC 算法的关键思想是识别出领域内(也称为目标领域)与领域外(也称为源领域)数据共有的部分,即共有的词特征。 然后类别信息以及知识通过这些共有的词特征从源领域传到目标领域。Fang 等人121利用迁移学习对跨网络中的协作分类进行研究,试图从源网络迁移共同的隐性结构特征到目标网络。该算法通过构造源网络和目标网络的标签传播矩阵来发现这些隐性特征。基于特征映射的迁移学习方法是把各个领域的数据从原始高维特征空间映射到低维特征空间,在该低维空间下,源领域数据与目标领

69、域数据拥有相同的分布。 这样就可以利用低维空间表示的有标签的源领域样本数据训练分类器,对目标测试数据进行预测。Pan 等人122提出了一种新的维度降低迁移学习方法, 他通过最小化源领域数据与目标领域数据在隐性语义空间上的最大均值偏差(Maximun Mean Discrepancy),从而求解得到降维后的特征空间。在该隐性空间上,不同的领域具有相同或者非常接近的数据分布,因此就可以直接利用监督学习算法训练模型对目标领域数据进行预测。Blitzer 等 人123提 出 了 一 种 结 构 对 应 学 习 算 法 (Structural29Corresponding Learning, SCL),

70、该算法把领域特有的特征映射到所有领域共享的“轴”特征,然后就在这个“轴”特征下进行训练学习。Yeh 等人124提出一种新的领域适应性方法解决跨领域模式识别问题。他们使用典型相关分析方法(CCA)得到相关子空间作为所有领域数据的联合表示,并提出核典型相关分析方法(KCCA)处理非线性相关子空间的情况。特别地,他们提出一种新的带有相关性正则化的支持向量机方法, 可以在分类器设计中加入领域适应性能力从而进行领域适应性模式分类。在迁移学习中, 有标签的源领域数据的分布与无标签的目标领域数据的分布一般是不同的, 因此那些有标签的样本数据并不一定是全部有用的。 如何侧重选择那些对目标领域分类有利的训练样本

71、?Jiang等人125提出了一种实例权重框架来解决自然语言处理任务下的领域适应问题。他们首先从分布的角度分析了产生领域适应问题的原因,主要有两方面:实例的不同分布以及分类函数的不同分布。因此他们提出了一个最小化分布差异性的风险函数,来解决领域适应性问题。Dai 等人126扩展 Boosting学习算法到迁移学习中, 提出了TrAdaBoost算法。在每次迭代中改变样本被采样的权重,即在迭代中源领域中的样本权重被减弱,而有利于模型训练的目标领域中的样本权重被加强。他们还用 PAC 理论分析证明了该算法的有效性。根据是否从多个源领域数据学习, 迁移学习算法又可以分为单个源领域以及多个源领域的迁移学

72、习。Gao 等人127解决了不同模型的一致性问题。 这两个多源领域学习的工作很好地处理了多个模型的集成问题。为了更加深入地挖掘、开发各个源领域数据的内部结构或者数据分布, Zhuang 等人128提出了一致性正则化框架, 在这个框架下,局部的子分类器不仅考虑了在源领域上可利用的局部数据, 而且考虑了这些由源领域知识得到的子分类器在目标领域上的预测一致性。 最近,Zhuang 等人129130提出基于深度学习自动编码机的迁移学习算30法,迁移学习效果得到了进一步提升。迁移学习已在文本分类128、文本聚类131、情感分类123、图像分类132、协同过滤133等方面进行了应用研究。香港科技大学 Qi

73、angYang 实验室还做了一系列的室内定位的迁移学习方面的工作。迁移学习作为一个新兴的研究领域,还很年轻,主要还是集中在算法研究方面,基础理论研究还很不成熟,因此值得我们进一步的研究。迁移学习最早来源于教育心理学,借用美国心理学家贾德(Judd,C.H.) 提出的“类化说”学习迁移理论来讨论下目前机器学习领域迁移学习研究存在的几个挑战性问题。首先,贾德认为在先期学习 A中获得的东西,之所以能迁移到后期学习 B 中,是因为在学习 A 时获得了一般原理,这种原理可以部分或全部运用于 A、B 之中。根据这一理论,两个学习活动之间存在的共同要素,是产生迁移的必要前提。这也就是说,想从源领域中学习知识

74、并运用到目标领域中,必须保证源领域与目标领域有共同的知识, 那么如何度量这两个领域的相似性与共同性,是问题之一。第二,贾德的研究表明,知识的迁移是存在的,只要一个人对他的经验、知识进行了概括,那么从一种情境到另一种情境的迁移是可能的。知识概括化的水平越高,迁移的范围和可能性越大。把该原则运用到课堂上,同样的教材采用不同的教学方法,产生的迁移效果是不一样的,可能产生积极迁移也可能产生相反的作用。即同样的教材内容,由于教学方法不同,而使教学效果大为悬殊,迁移的效应也大不相同。所以针对不同的学习问题,研究有效的迁移学习算法也是另一个重要问题。 第三, 根据贾德的泛化理论,重要的是在讲授教材时要鼓励学

75、生对核心的基本概念进行抽象或概括。抽象与概括的学习方法是最重要的方法,在学习时对知识进行思维加工,区别本质的和非本质的属性,偶然的和必然的联系,舍弃那些偶然的、非本质的元素,牢牢把握那些必然的本质的元素。这种学习方法能使学生的认识从低级的感性阶段上升到高级的理性阶段, 从31而实现更广泛更成功的正向迁移。也就是说在迁移学习的过程中,应该避免把非本质的、偶然的知识,当成本质的(领域共享的)、必然的知识,实现正迁移。所以,如何实现正迁移,避免负迁移也是迁移学习的一个重要研究问题。针对以上讨论分析,未来的迁移学习研究可以在以下方面进行努力。第一,针对领域相似性、共同性的度量,研究准确的度量方法;第二

76、, 在算法研究方面, 对于不同的应用, 迁移学习算法需求不一样。因此针对各种应用的迁移学习算法有待进一步研究;第三,关于迁移学习算法有效性的理论研究还很缺乏,研究可迁移学习条件,获取实现正迁移的本质属性,避免负迁移;最后,在大数据环境下,研究高效的迁移学习算法尤为重要。目前的研究主要还是集中在研究领域,数据量小而且测试数据非常标准,应把研究的算法瞄准实际应用数据,以适应目前大数据挖掘研究浪潮。尽管迁移学习研究还存在着各种各样的挑战,但是随着越来越多的研究人员投入到该项研究中,一定会促进迁移学习研究的蓬勃发展。3.2 深度学习自从 Hinton 教授 2006 年在著名期刊 Science 上发

77、表深度学习134一文以来,深度学习已受到了学术界和工业界研究人员的广泛关注。鉴于深度学习对大数据处理的有效性,斯坦福大学、多伦多大学、清华大学等许多著名大学都有学者在从事深度学习的理论研究,而谷歌、微软、百度等知名公司也投入了大量的资源研发深度学习应用技术。在数据和计算资源足够的情况下,深度学习在许多领域中体现出占据支配地位的性能表现,如语音识别135136、视觉对象识别137138139、自然语言处理140141142等领域。传统的方法是通过大量的工程技术和专业领域知识手工设计特征提取器,因此在处理未加工数据时表现出的能力有限;另外,多数的分类等学习模型都是浅层结构,制约了对复杂分类问题的泛

78、化能32力。而深度学习作为一种特征学习方法, 把原始数据通过一系列非线性变换得到更高层次,更加抽象的表达,这些都不是通过人工设计而是使用一种通用的学习过程从数据中学习获得。 深度学习主要通过建立类似于人脑的分层模型结构, 对输入数据逐级提取从底层到高层的特征,从而能很好地建立从底层信号到高层语义的映射关系。相比传统的方法, 具有多个处理层的深度学习模型能够学习多层次抽象的数据表示,也受益于计算能力和数据量的增加,从而能够发现大数据中的复杂结构,从而在语音识别,图像分类等领域取得了最好结果,同样也成功应用于许多其他领域,包括预测 DNA 突变对基因表达和疾病的影响143144,预测药物分子活性1

79、45,重建大脑回路146等。图图 3-1 典型卷积网络结构典型卷积网络结构其中,深度卷积神经网络138(如图 3-1)在处理图像,视频,语音和音频方面表现出优异的性能,这是一种前馈式神经网络,更易于训练,并且比全连接的神经网络泛化性能更优。卷积神经网络以其局部连接,权值共享,池化和多网络层四个特征非常适用于处理多维数组数据的,最典型的是具有三个颜色通道的彩色图像。自二十世纪九十年代以来, 卷积神经网络被成功应用于检测, 分割, 识别以及语音,图像的各个领域。比如最早是用时延神经网络147进行语音识别以及文档阅读148,其是由一个卷积神经网络和一个关于语言约束的概率33模型组成,这个系统后来被应

80、用在美国超过百分之十的支票阅读上;再如微软开发的基于卷积神经网络的字符识别系统以及手写体识别系统149; 近年来, 卷积神经网络的一个重大成功应用是人脸识别150。而 Mobileye 和 NVIDIA 公司也正试图把基于卷积神经网络的模型应用于汽车的视觉辅助驾驶系统中。如今,卷积神经网络用于几乎全部的识别和检测任务, 最近一个有趣的成果就是利用卷积神经网络生成图像标题。也正是因为卷积神经网络易于在芯片上高效实现151152,许多公司如 NVIDIA, Mobileye, Intel, Qualcomm 以及 Samsung 积极开发卷积神经网络芯片,以便在智能手机,相机,机器人以及自动驾驶汽

81、车中实现实时视觉系统。虽然深度学习在理论和应用上取得了一定的进展, 但仍有一些问题亟待解决。 第一、 深度学习模型都是非凸函数, 理论研究存在困难。第二、深度学习模型训练耗时,需要设计新的算法进行训练,或者采用并行计算平台来加快训练速度。 如何克服深度学习的局限性从而提高模型的性能是未来一段时间值得研究的问题。 深度学习的动机源于脑科学。随着认知神经学的发展,科学家发现了许多与人脑动态学习相关的特性,如:神经元自组织特性、神经元之间的信息交互特性、人类认知的进化特性等, 而这些特性将为深度学习模型的构建提供更多的启发,促进深度学习的进一步发展。是否能够利用认知科学的一些新进展,构造更好的深度学

82、习模型也是值得我们探讨的问题。目前,人类已经走进大数据时代。大数据是信息科技领域的研究热点。如何从大数据中挖掘出有价值的规律,为政府和企业的决策提供支持成为新一代信息技术亟需解决的问题。 而以深度学习为代表的人工智能技术是大数据智能处理的关键算法。 深度学习已经成功应用于各种领域。比如:在计算机视觉领域,深度学习已成功用于处理包含有上千万图片的 Imagenet 数据集。在语音识别领域,微软研究人员通过与 Hinton 合作,首先将深度学习模型 RBM 和 DBN 引入到语34音识别声学模型训练中, 并且在大词汇量语音识别系统中获得巨大成功,使得语音识别的错误率相对减低 30%。在自然语言处理

83、领域,采用深度学习构建的模型能够更好地表达语法信息。各大 IT 公司也非常关注深度学习的应用前景,纷纷成立相关的实验室。2012 年,华为成立诺亚方舟实验室,运用以深度学习为代表的人工智能技术对移动信息大数据进行挖掘,寻找有价值的规律。2013 年,百度成立深度学习研究院,研究如何运用深度学习技术对大数据进行智能处理,提高分类和预测等任务的准确性。国际 IT 巨头 Google、Facebook 等也成立了新的人工智能实验室,投入巨资对以深度学习为代表的人工智能技术进行研究。 Hinton 等多位深度学习的知名教授也纷纷加入工业界, 以深度学习为支撑技术的产业雏形正逐步形成。3.3 统计关系学

84、习传统机器学习模型假设数据是独立同分布的 (independent andidentically distributed, iid),也就是说,数据样本之间相互独立,不存在任何关系。然而,在很多实际应用中,尤其是最近出现的像Facebook、微信和微博这种社交网络应用中,数据样本之间是有关系的,也就是说,样本之间是不独立的。例如,互联网上网页之间存在超链接关系,学术论文之间存在引用关系,社交网络中的对象之间存在各种各样的关系,人与人之间存在着通信关系,蛋白质之间存在各种交互关系。我们把这种样本之间存在关系的数据叫做关系数据(relational data),把基于关系数据的机器学习叫做统计关系

85、学习(statistical relational learning, SRL)。由于关系数据在互联网数据挖掘、社交网络分析、生物信息学、经济学、恐怖和恶意行为预测、以及市场营销等各个领域不断涌现, 统计关系学习已经成为一个具有重要科学意义和应用价值的研究课题153。目前主流的统计关系学习方法可以大致分为以下五类154:基于35个体推理模型的方法(IIM), 基于启发式联合推理的方法(HCI), 基于概率关系模型的方法 (PRMs) , 基于概率逻辑模型的方法 (PLMs) ,以及基于隐因子模型的方法(LFMs)。基于个体推理模型的方法 (IIM 方法) 从关系信息中抽取出特征,并将关系数据转

86、化成适合传统机器学习算法的特征向量形式, 然后用传统学习算法来进行分类。 由于 IIM 方法忽略了关系数据中样本之间的相关性, 分类性能往往比较差。 另外, 这类模型主要用于分类任务,而不适合于链接预测等其它统计关系学习任务。因此,IIM 方法实用性不是很强; 基于启发式联合推理的方法 (HCI 方法)利用有关系的样本之间的相关性, 采用启发式的循环迭代方式对多个样本同时进行分类。由于考虑了有关系的样本之间的相关性,这类方法在实际应用中取得了比 IIM 方法更好的分类性能。但是,HCI 方法主要用于联合分类,而不适合于其它统计关系学习任务。因此,HCI 方法的实用性也比较有限。概率关系模型 P

87、RMs 通过拓展传统的图模型来对样本之间的相关性进行建模155。典型的 PRMs 包括关系型贝叶斯网络(RBNs) 、关系型马尔可夫网络(RMNs)和关系型依赖网络(RDNs)。基于概率关系模型的方法 (PRMs 方法)从概率统计角度对关系数据进行建模, 能很好地处理不完整和不精确数据。但是,学习一个图模型需要进行结构学习和参数学习。结构学习是对变量之间的各种依赖关系进行确定, 是一个组合优化问题, 因此复杂度非常高。 另外, RMNs 和 RDNs的参数学习也没有收敛和快速的方法, 实际应用中往往采用一些近似的逼近策略。因此,PRMs 方法的一个主要缺点是学习速度慢,只适合于小规模数据的处理

88、。概率逻辑模型 PLMs 将概率引进一阶谓词逻辑, 能够很好地对关系数据进行建模156157158。代表性的 PLMs 有概率 Horn 溯因(PHA),贝叶斯逻辑编程(BLP),马尔可夫逻辑网络(MLNs) 。PLMs 的底层建36模工具还是基于图模型, 因此基于概率逻辑模型的方法 (PLMs 方法)也具有 PRMs 方法的学习速度慢的缺点,只适合于小规模数据的处理。基于隐因子模型的方法(LFMs 方法)将统计学中的隐因子模型引进统计关系学习。其中,常用的矩阵分解算法对应于某个 LFM 的一个最大似然估计或者最大后验估计。因此,矩阵分解方法可以看成LFMs 的一种特例。大部分 LFMs 方法

89、具有相对于观察到的链接数的线性复杂度,学习速度远远超过 PRMs 方法和 PLMs 方法,能很好地对较大规模数据进行建模。 因此, 包括矩阵分解这个特例在内的 LFMs方法已经发展成为目前统计关系学习算法的主流, 具有比其他方法更广阔的应用前景。近年来,大数据应用中的关系数据呈现出下面两个特性: (1)动态性: 数据是随着时间的推移不断变化的, 例如, 在一个社交网络中,随着时间推移, 可能有成员退出, 也可能有新成员加入; (2) 海量性:随着数据采集设备自动化程度的不断提高, 很多应用中的数据已经从TB(TeraByte)级迅速发展到 PB(PetaByte)级甚至更高的数量级,对这些超大

90、规模数据(大数据或海量数据)的分析和处理将给统计关系学习研究带来极大的挑战。 目前已有的统计关系学习方法不能很好地对动态关系数据进行建模和分析,因此,设计在线学习模型以实现对动态关系数据的有效建模是统计关系学习的一个研究热点159。另外,目前大部分统计关系学习模型都是集中式的,也就是说,都是基于单机实现的, 无论在存储还是计算方面, 都不能实现对海量数据的处理。因此, 设计超大规模分布式学习算法以实现对海量关系数据的有效建模是另一个值得深入探索的研究热点160。此外,将统计关系学习理论和方法应用到知识图谱(knowledge graph)是最近发展起来的一个新的研究热点,已经引起了越来越多研究

91、人员的关注161。3.4 演化学习演化学习基于演化算法提供的优化工具设计机器学习算法。 演化37算法起源于上世纪 50 年代162163,经过半个世纪的发展,今天广义的演化算法还包括模拟退火算法164、蚁群算法165、粒子群算法166等等,成为启发式优化算法的一个重要家族。演化算法通常具有公共的算法结构:1. 产生初始解集合,并计算解的目标函数值;2. 使用启发式算子从解集合产生一批新解,并计算目标函数值,并加入解集合;3. 根据启发式评价准则,将解集合中较差的一部分解删除;4. 重复第二步,直到设定的停止准则满足;5. 输出解集合中最优的解。不同的演化算法,主要在于其启发式算子、评价准则、停

92、止准则等部件的设计不同。演化算法通常维护一个解的集合,并通过启发式算子来从现有的解产生新解,并通过挑选更好的解进入下一次循环,不断提高解的质量。可见,演化算法进行优化的过程不依赖于梯度等信息,也常被称为 0 阶优化方法、无梯度(derivative free)优化方法、黑箱优化方法等; 也因此能够用于处理非凸、 高度非线性、 组合优化、目标函数未知等问题。演化算法已经被用在众多领域中,显示出演化算法解决复杂优化问题的优越性。在化学工业上,演化算法被用于设计化学反应控制,有效提高了反应产量165。在无线电制造领域,美国 NASAAmes 研究中心的研究者使用演化算法设计高性能天线,并强调演化算法

93、能够突破人的思维局限, 获得更好性能的天线设计167。演化算法领域的著名学者、美国 Standford 大学的 Koza 教授等人与2003 年发表的文章168总结了由演化算法产生的 “与人匹敌” 的设计,涵盖了量子算法的设计、通讯协议的设计、机器人足球赛的应用、蛋白质鉴定的应用、 滤波器的设计、 电子电路的设计、 天线的设计等等,并强调了演化算法的几项电路设计得到了比已登记的专利设计更好的性能。 美国UCSC大学和NASAAmes研究中心的学者在Science16938上介绍了与用户交互的智能互联网网页, 并指出这种智能网页的主要技术就是演化算法。 该文章还举例介绍到一家网页广告公司使用演化

94、算法成功提升了广告点击率。据报道日本新干线的 N700 列车车头形状使用了演化算法进行优化, 使得新一代的列车能够以高时速低能耗运行。与此同时,机器学习任务中存在大量的复杂优化问题有待解决,这就使得机器学习与演化算法的结合, 即演化学习有了自然的动机和天然的条件。实际上,在机器学习发展初期,就已经开始出现演化学习的研究170171,并且一度成为机器学习中的热门领域。很多学者已经尝试将演化算法应用于分类、聚类、规则发现、特征选择等等诸多机器学习与数据挖掘问题上172,下面以聚类和人工神经网络的学习为例做简要介绍: 演化聚类:聚类将样本划分为多个类别,以使得给定的评价指标(例如类内距越小越好、类间

95、距越大越好等)最优。寻找最优聚类通常是 NP 难的任务。演化算法可以直接优化数据的划分进行聚类。如图 x.1 的数据包含 8 个样本,如果希望聚类为 3 类,可设定解空间为 0,1,28,例如 0,0,1,1,1,2,2,2 对应了图中的聚类,表示第 12个样本为一类,第 35 个样本为一类,第 68 个样本为一类。启发式算子可包括变异算子:将每一位以一定的概率 (例如 1/8) 改变为0,1,2 中的随机值;以及交叉算子:交换两个解的部分元素。这样图图 3-2 聚类示意数据聚类示意数据1276854339的处理方法虽然可行,但当样聚类数量较大时,搜索空间很大。另一种处理方法可优化聚类中心,并

96、设定聚类中心位于现有样本上,对于图 3-1 的数据,可设定解空间为0,18,例如1,0,0,1,0,0,1,0,其中 1表示该样本为一个类中心;得到类中心后,通过最近类中心归类,将每一个样本都分配给距离其最近的中心,从而得到一个聚类。该方法将类中心的优化任务交给了演化算法,聚类的其他过程可以更加高效;但由于使用类中心归类,需假设聚类的凸性。详细的综述可参见文献173。 演化神经网络:寻找最优神经网络同样是 NP 难的任务,演化算法在神经网络的网络结构和权值优化上都可以帮助寻找更优的解。以神经网络结构优化为例,网络结构可以编码为 0-1 邻接矩阵,如图3-3 所示。对于一个给定的邻接矩阵,可以使

97、用 BP 算法等对网络的权值进行训练,得到的网络,在数据上的拟合程度可以作为对邻接矩阵好坏的评价指标。于是就可以用演化算法来优化邻接矩阵,其目标函数为进一步使用 BP 算法训练权重后的数据拟合程度。更多的相关工作可见174。1 1 10 1 11 0 01 1 01 1 10 0 1图图 3-3 演化神经网络中的结构编码示意演化神经网络中的结构编码示意从上面的例子可以看出,由于演化算法的简单易用,演化学习可以处理很多麻烦的优化问题, 从而有可能取得更好的学习性能。 然而,由于演化算法作为优化算法的理论性质缺失,其优化效率高低、求得解的逼近程度如何、启发式算子有何效用等等问题难以有严格的答案,演

98、化学习也因此缺乏有效的理论解释。最近,演化学习在理论基40础方面得到发展。针对演化算法的理论分析工具开始出现175176,演化算法求解的逼近性能开始得到了揭示177178,启发式算子的效用也逐渐被了解179。值得一提的是,近来演化学习方法在理论上和实验上都显出超越经典学习方法的潜力180181。同时,在大数据环境下,演化学习的进一步发展也面临挑战:当学习模型变得复杂、面临的数据增长迅速、对模型训练时间的要求苛刻时,演化学习如何能够进行有效、高速的优化,还有待深入的研究。41第 4 章 大数据时代的机器学习4.1 并行机器学习经过多年的发展,互联网已获得巨大的成功。由此,人们可以在不同时间与地域

99、获取自己希望获得的数据。随着数据量的激增,如何有效获得并通过机器学习技术来更好地利用这些数据已成为信息产业继续兴旺发展的关键。因此,机器学习算法和技术就成为解决这类问题的有力工具。在中小规模问题上, 机器学习已经从理论研究阶段逐渐上升到了实际应用阶段。但是在大规模的实际应用中,特别是在大数据环境下的大数据体量大、结构多样、增长速度快、整体价值大而部分价值稀疏等特点,对数据的实时获取、存储、传输、处理、计算与应用等诸多方面提出了全新挑战。 传统的面向小数据的机器学习技术已很难满足大数据时代下的种种需求, 并且使用单个计算单元进行运算的集中式机器学习算法难以在在大规模的运算平台上执行。因此,在大数

100、据时代,突破传统的思维定式和技术局限,研究和发展革命性的、可满足时代需求的并行机器学习的新方法和新技术, 从大数据中萃取大价值,具有重要的学术和应用价值182。目前, 机器学习应用非常广泛的很多领域都已经面临了大数据的挑战。如互联网和金融领域,训练实例的数量是非常大的,每天会有几十亿事件的数据集。另外,越来越多的设备包括传感器,持续记录观察的数据可以作为训练数据,这样的数据集可以轻易的达到几百TB。再如亚马逊或者淘宝上的商品推荐系统。每天都很多用户看到了很多推荐的商品,并且点击了其中一些。这些用户点击推荐商品的行为会被亚马逊和淘宝的服务器记录下来,作为机器学习系统的输入。输出是一个数学模型,可

101、以预测一个用户喜欢看到哪些商品,从而在下一次展示推荐商品的时候,多展示那些用户喜欢的。类似的,42在互联网广告系统中,展示给用户的广告、以及用户点击的广告也都会被记录下来,作为机器学习系统的数据,训练点击率预估模型。在下一次展示推荐商品时, 这些模型会被用来预估每个商品如果被展示之后,有多大的概率被用户点击。从这些例子我们可以看出来,这些大数据之所以大,是因为它们记录的是数十亿互联网用户的行为。而人们每天都会产生行为,以至于百度、阿里、腾讯、奇虎、搜狗这些公司的互联网服务每天收集到很多块硬盘才能装下的数据。 而且这些数据随时间增加,永无止境。传统机器学习技术在大数据环境下的低效率以及大数据分布

102、式存储的特点使得并行化的机器学习技术成为了解决从大规模、海量数据中学习的重要途径。由此可见,并行机器学习是随着“大数据”概念和“云计算”的普及而得到迅速发展的。大数据给并行机器学习带来了需求;云计算给并行机器学习带来了条件。所谓并行机器学习,就是在并行运算环境下(例如云计算平台) ,利用大量运算单元合作完成机器学习任务,通过扩大时间单位内使用的运算单元规模,减小整个任务的完成时间,其主要目的有二:(1)处理在单个运算单元上在可容忍的时间范围内无法解决的超大规模问题;(2)充分利用多运算单元的优势,提高机器学习效率,减小整个任务的完成时间。在大数据环境下进行并行机器学习算法的研究在近年来得到了高

103、度的关注和快速的发展。从目前主要技术进展来看,并行机器学习算法的研究在以下一些方面取得了重要的成果。第一,并行化编程技术的研究。目前比较流行的研究是通过MapReduce、MPI、CUDA、OpenMP 等并行编程模型对传统的机器学习技术进行并行化的改造和拓展183,出现了如并行聚类算法、并行分类算法、并行关联规则挖掘算法和神经网络并行化算法等等。由43于各种并行化技术的通用性和效率不一样, 不同的机器学习算法在并行化的过程中必须结合自身特点以及被处理问题的特点而选择合适的并行化技术。在云计算时代,云计算平台为机器学习算法的并行化提供了强大的并行与分布式处理平台。 因此结合云计算平台在大数据环

104、境下开展并行与分布式机器学习算法的研究与应用已经成为了机器学习领域的一个重要方向184。一个典型的例子就是 Zhao 等人185于 2009 年最早提出了适用于大数据聚类的多节点并行 K 均值算法PKMeans,给出了基于 Hadoop 云平台的并行聚类算法的具体并行方法和详细策略。第二,学习数据的并行化处理研究。面对超多样本和超高维度的数据进行学习和挖掘, 传统的机器学习和数据挖掘方法无论是在处理时间上还是在求解性能上都失去了实际的应用价值。另一方面,传统机器学习方法大多数都需要将学习样本和挖掘对象装载到内存中, 然后再进行处理。但是在大数据环境下,大数据已经不可能在单一的存储节点上进行集中

105、存储,这就给学习过程带来了困难和挑战,分布式存储成为了必然的选择。 如何针对大数据本身的特征进行高效分拆以及对分拆后的处理结果进行高效组装, 这是能够有效利用并行化机器学习技术对大数据分拆后得到的小数据进行求解的关键。 并行化机器学习技术的本质在于每一个并行运行的算法处理一些可解的数据, 因此大数据的分拆是并行化机器学习技术能够在大数据环境下使用的前提。大数据的分拆问题可以理解为一个优化问题。随机拆分、平均拆分、 基于实验设计方法的拆分等各种方法都可以在一定意义上为并行化的机器学习技术提供可解的数据输入。然而,这些拆分方法不一定是最优的,如何对大数据进行最优分拆是一个困难问题。作为一种高效的全

106、局最优化方法, 计算智能优化方法一直以来都被研究者认为是能够辅助机器学习技术提高性能的有效途径。然而,面对大数据的分拆, 由于传统集中式的计算智能方法在处理时间上和规模容纳上存44在严重的效率瓶颈, 分布式计算智能算法成为了在大数据时代下实现问题优化的新途径。通过分布式计算智能算法,可以为大数据的最优分拆提供有效的手段, 并使得大数据成为并行机器学习技术可解的数据输入, 最终将并行机器学习技术得到的结果进行高效组装而实现对大数据应用问题的求解。 分布式计算智能优化方法与并行机器学习技术进行有机结合, 将是并行机器学习技术未来重要发展方向之一186。第三, 并行算法协同处理技术的研究。 一些高准

107、确性的学习算法,基于复杂的非线性模型或者采用非常昂贵的计算子程序。 在这两种情况下,将计算分配到单个处理单元是大数据机器学习算法的关键点。单台机器的学习过程可能会非常慢,采用并行多节点或者多核处理,可提高在大数据中使用复杂算法和模型的计算速度。 但是如何在多个处理单元上对这些机器学习算法进行协同成为了制约学习效率的关键因素。 很多应用, 如自动导航或智能推荐等, 都需要进行实时预测。在这些情形下由于推理速度的限制,需要推理算法的并行化。决定系统计算时间的因素一般有两个:一是单任务的处理时间,该情况下计算时间的缩短可以通过提高系统单机的处理能力和吞吐量来解决; 另一个因素是时延,在绝大多数应用场

108、合,任务由多个相互关联的进程组成,不同进程的处理时间长短不一,任务整体的处理实际有待于各个进程的结果,如某一进程处理时间延长会造成时延,整个任务的处理速度会随着时延的增加快速下降。例如,自动导航需要基于多个传感器做出路径规划的决策;智能推荐需要综合用户的特征分析、历史记录等。 因此, 如何对这些分布在不同处理单元的并行程序进行协同,提高学习效率,成为了并行机器学习算法的一个重要研究内容187。并行机器学习技术因其作为解决大数据挖掘和学习的重要手段,得到各级政府部门和国内外 IT 厂商的高度重视。目前,多核技术和计算机集群技术的实现,使得单个任务在成百上千,甚至数万个计算单元上同时运行变得可行。

109、我们可用的计算资源在飞速发展。虽然单45个计算单元运算能力的提高已经逐步陷入停滞状态,尤其在 PC 机的处理器上,纳米级的颗粒度已经难以逾越。但是新的处理器多核技术给我们带了巨大的改变。在如今的个人电脑 CPU 市场,各大厂商都已经意识到这个领域的广阔市场,将多核 CPU 作为主流产品,大幅提高了个人电脑的性能。而在大型机领域,近年来国内陆续上线多个超级计算中心, 一台普通的超级计算机的运算单元数量已经增加到几万甚至更多。这些都给并行机器学习技术的研究、发展和应用提供了重要的支持。目前, 大规模并行化的机器学习算法不仅在理论研究和算法设计方面引起了学术界的广泛关注, 而且在软件系统开发和产业应

110、用方面已经由学术界和工业界形成了相应的成果,产生了积极的影响。例如中科院计算所开发了基于云计算的并行分布式数据挖掘工具平台(PDMiner)188。PDMiner 开发实现了各种并行数据挖掘算法,比如数据预处理、关联规则分析以及分类、聚类等算法。PDMiner 在处理数据规模上可以支持 TB 级别、具有很好的加速比性能,可以有效地应用到实际海量数据挖掘中。此外,在 PDMiner 中还开发了工作流子系统,提供友好统一的接口界面方便用户定义数据挖掘任务,并且开放了灵活的接口方便用户开发集成新的并行数据挖掘算法。 清华大学设计了面向大规模文本分析的主题模型建模方法 WarpLDA,可以实现数十亿文

111、本上的百万级别主题模型学习189。微软提出了用于图数 据 匹 配 的Horton-QueryingLargeDistributedGraphs(http:/ 开 源 工 具 包 DMTK - Distributed Machine Learning Toolkit(https:/ ;Google 提出了适合复杂机器学习的分布式图数据计算 Pregel 框架,但不开源;CMU 提出了GraphLab 开源分布式计算系统。百度的大规模机器学习技术搭建了一个容纳万亿特征数据的、分钟级别模型更新的、自动高效深度学习46的、高效训练的点击率预估系统。百度相关技术负责人表示: “百度的并行机器学习技术让百

112、度走在世界前列,甚至比谷歌做的还要好,谷歌目前做的是二分类、并行化,处理百亿特征,分钟级别。这些,百度通过自己的创新也已达到,百度的技术可以容纳百亿数据特征,让特征学习效率提升千倍,模型分钟更新,训练速度提升十倍。 ”4.2 哈希学习哈希学习(learning to hash)通过机器学习机制将数据映射成二进制串的形式,能显著减少数据的存储和通信开销,从而有效提高学习系统的效率3。哈希学习的目的是学到数据的二进制哈图图 4-1哈希学习示意图哈希学习示意图希码表示,使得哈希码尽可能地保留原空间中的近邻关系,即保相似性。具体来说,每个数据点会被一个紧凑的二进制串编码,在原空间

113、中相似的两个点应当被映射到哈希码空间中相似的两个点。图 4-1 是哈希学习的示意图,以图像数据为例,原始图像表示是某种经过特征抽取后的高维实数向量,通过从数据中学习到的哈希函数 h 变换后,每幅图像被映射到一个 8 位(bit)的二进制哈希码,原空间中相似的两幅图像将被映射到相似(即海明距离较小)的两个哈希码,而原空间中不相似的两幅图像将被映射到不相似(即海明距离较大)的两个哈希47码。使用哈希码表示数据后,所需要的存储空间会被大幅减小。举例来说,如果原空间中每个数据样本都被一个 1024 字节的向量表示,一个包含一亿个样本的数据集要占用 100 GB 的存储空间。相反,如果把每个数据样本哈希

114、到一个 128 位的哈希码, 一亿个样本的存储空间只需要 1.6 GB。单台机器(包括配置很高的单台服务器)处理原始表示时,需要不断地进行外内存交换,开销非常大。但如果用哈希码表示,所有计算都可以在内存中完成,单台普通的个人电脑(PC)也能很快地完成计算。由于很多学习算法,比如 k 近邻(kNN)、支持向量机(SVM)等的本质是利用数据的相似性,哈希学习的保相似性将在显著提高学习速度的同时,尽可能地保证精度。另一方面,因为通过哈希学习得到的哈希码位数(维度)一般会比原空间的维度要低,哈希学习也能降低数据维度,从而减轻维度灾难问题。此外,基于哈希学习得到的二进制哈希码可以构建索引机制, 实现常数

115、或者次线性级别的快速近邻检索,为上层学习任务的快速实现提供支撑。因此,哈希学习在大数据学习中占有重要地位。随着大数据概念的广泛普及,哈希学习研究在近几年也取得了很大的进展,研究者从非监督哈希学习、监督哈希学习、多模态哈希学习等方面进行了系统的研究193-197,并在信息检索、计算机视觉和多媒体领域得到了广泛应用198-203。目前大部分哈希学习研究的思路为:针对某个机器学习场景(比如排序学习场景)或者应用场景,只要以前没有人尝试过用哈希学习的思想来加速学习过程,就可以考虑把哈希学习用进去,然后在一个传统模型(这个传统模型不用哈希学习)解决不了的数据或者应用规模上进行实验验证。 从解决实际问题的

116、角度来讲, 这些工作虽然初步,但还是很有研究价值的, 毕竟为大数据中传统模型不能解决的问题提供了一种可行的解决思路。但从哈希学习本身的研究来讲,目前大部分工作还没有从哈希学习问题的本质上进行考虑。因此,哈希学习虽48已被广泛关注并在某些应用领域取得了初步成效,但研究才刚刚开始,问题本质和模型构建有待于进一步深入思考,模型参数的优化方法有待于进一步探索。另外,大部分学习场景和应用领域到目前为止还只出现很少的哈希学习方法, 有的场景和应用甚至还没有研究者进行哈希学习的尝试。例如,推荐系统是个很大的应用方向,但到目前为止这方面采用哈希学习的工作还不多。因此,怎样将哈希学习的思想和方法拓展到新的学习场

117、景和应用领域, 用来解决传统方法在遇到大数据时不能解决的问题,将是非常有意义的工作。特别值得一提的是,很多分布式机器学习的瓶颈在于节点间的通信开销。因此,将哈希学习引入到分布式机器学习算法, 并验证哈希学习在减小通信开销方面的有效性,也是非常有意义的研究方向。4.3 在线学习传统的机器学习算法是批量模式的, 假设所有的训练数据预先给定,通过最小化定义在所有训练数据上的经验误差得到分类器204。这种学习方法在小规模规模上取得了巨大成功,但当数据规模大时,其计算复杂度高、响应慢,无法用于实时性要求高的应用。与批量学习不同,在线学习假设训练数据持续到来,通常利用一个训练样本更新当前的模型,大大降低了

118、学习算法的空间复杂度和时间复杂度,实时性强205。在大数据时代,大数据高速增长的特点为机器学习带来了严峻的挑战,在线学习可以有效地解决该问题,引起了学术界和工业界的广泛关注206207208209。早期在线学习应用于线性分类器产生了著名的感知器算法210,当数据线性可分时,感知器算法收敛并能够找到最优的分类面。经过几十年的发展,在线学习已经形成了一套完备的理论,既可以学习线性函数,也可以学习非线性函数,既能够用于数据可分的情况,也能够处理数据不可分的情况211。下面我们给出一个在线学习形式化的定义及其学习目标。在线学习可以定义为学习器和对手之间的博弈:49在每一个时刻 ,学习器从决策空间选择一

119、个决策,同时对手选择一个损失函数,这样学习器在当前时刻遭受损失;根据遭受的损失, 学习器对当前的决策进行更新, 从而决定下一时刻的决策。学习器的目的是最小化 个时刻的累计损失,即。以线性分类为例,在这种情况下,学习器所选择的决策就是分类平面,对手选择的损失函数则是一个训练样本上的分类误差, 学习器的目的是最小化在 个训练样本上的累计误差。在分析在线学习算法的效果时,我们通常将在线学习的累计误差与批量学习的累计误差相比较, 将其差值称为遗憾(regret) 。因此,在线学习最小化累计误差也等价于最小化遗憾,遗憾的上界也就成为衡量在线学习算法性能的标准。根据学习器在学习过程中观测信息的不同, 在线

120、学习还可以再进一步分为:完全信息下的在线学习212和赌博机在线学习213。前者假设学习器可以观测到完整的损失函数, 而后者假设学习器只能观测到损失函数在当前决策上的数值,即。依旧以在线分类为例,如果学习器可以观测到训练样本,该问题就属于完全信息下的在线学习,因为基于训练样本就可以定义完整的分类误差函数;如果学习器只能观测到分类误差而看不到训练样本, 该问题就属于赌博机在线学习。由于观测信息的不同,针对这两种设定的学习算法也存在较大差异,其应用场景也不同。与赌博机在线学习相比, 完全信息下的在线学习观测到的信息更多,因此相对容易。由于损失函数是已知的,因此可以计算其梯度、海森(Hessian)矩

121、阵等信息,辅助学习器更新决策。在线梯度下降是针对该设定最常用的算法,该算法利用损失函数的梯度更新当前的决策。理论可以证明,当损失函数是连续凸函数时,在线梯度下降可以达到最优的遗憾上界214;当损失函数是强凸函数时,可以达到的遗憾上界205。其他常用的学习算法还包括在线牛顿法215、正则化最优决策法216、在线核学习217等。50虽然完全信息下的在线学习已有大量成熟算法, 但在许多现实应用中,学习器能够观测到损失函数的这种假设并不成立,使得这些算法不能被直接应用。以在线广告推荐为例,当学习器向用户推荐广告后,可以得到用户是否点击该广告的反馈,但是用户产生该反馈的机制学习器并不知晓。这种情况就是赌

122、博机在线学习的研究范畴。之所以被称为赌博机在线学习, 是因为这类研究最早被用来建模赌场中的多臂赌博机问题218。由于观测的不充分, 赌博机在线学习存在探索和利用两者之间的困境213。一方面,为了准确地估计损失函数的结构,学习器需要尝试更多的新决策;而另一方面,为了最小化遗憾,学习器又倾向于选择能最小化损失函数的决策。与完全信息相比,赌博机在线学习更加复杂,学习算法达到的遗憾上界也更大;并且难以设计通用的学习算法,需要针对不同的函数类型、不同的随机假设设计不同的算法219。置信上界220221和指数加权222223是用来解决探索和利用之间困境的常用策略,前者适用于损失函数是随机产生的情况,后者针

123、对非随机情况。对于多臂赌博机问题,假设存在 个臂,已知的遗憾上界是224和222,分别对应于随机和非随机情况。对于 维线性函数, 已知的最优遗憾界分别是224和223。 对于 维连续凸函数,已知的最优遗憾界分别是226和227。一方面,在线学习存在丰富的理论研究,侧重于从理论上刻画算法的遗憾上界;另一方面,在线学习也有广阔的应用场景,并被成功应用于许多实际问题中。 完全信息下的在线学习主要被应用到在线分类205、在线物体识别228等反馈充分的问题中,主要目的是降低训练复杂度,提高算法实时性。赌博机在线学习主要应用于商品推荐206、广告投放207、网络路由229等反馈受限问题中,主要目的是支持模

124、糊决策,在探索和利用之间寻找最优的平衡。在解决这些实际问题时,51又会发现一些新的问题,产生新的研究方向,促进在线学习算法和理论的发展。完全信息下的在线学习研究前沿包括非凸函数在线学习、非线性函数在线学习等问题。 赌博机在线学习的研究热点主要围绕如何将算法和理论拓展到弱反馈场景,比如基于比较的赌博机。52第 5 章 结束语本白皮书从主流机器学习技术、 新兴机器学习技术以及大数据机器学习三方面对机器学习的研究和应用现状做了有选择的简要介绍。机器学习经过 30 余年的发展,目前已成为计算机科学中研究内涵极其丰富、新技术、新应用层出不穷的重要研究分支。国际上关于机器学习的主要学术会议包括每年定期举行

125、的国际机器学习会议(ICML) 、国际神经信息处理系统会议(NIPS) 、欧洲机器学习会议(ECML)以及亚洲机器学习会议(ACML)等,主要学术期刊包括Machine Learning 、 Journal of Machine Learning Research 、 IEEETransactions on Neural Networks and Learning Systems等。此外,人工智能领域的一些主要国际会议(如 IJCAI、AAAI 等)和国际期刊(如Artificial Intelligence 、 IEEE Transactions on Pattern Analysisand

126、 Machine Intelligence 等) 也经常发表与机器学习相关的最新研究成果。国内机器学习的重要学术活动包括每两年举行一次的中国机器学习会议(China Conference on Machine Learning, CCML) ,该会议目前由中国人工智能学会和中国计算机学会联合主办, 中国人工智能学会机器学习专业委员会和中国计算机学会人工智能与模式识别专业委员会协办,目前已历经 15 届。此外,每年举行的中国机器学习及其 应 用 研 讨 会 ( Chinese Workshop on Machine Learning andApplications, MLA) ,该会议遵循“学术

127、至上、其余从简”的原则,每届会议邀请海内外从事机器学习及相关领域研究的多位专家与会进行学术交流,包括特邀报告、顶会交流、以及 Top Conference Review等部分。迄今已历经 13 届,2015 年度参会人数超过 1200 人。目前,大数据浪潮正对人类社会生活、科学研究的方方面面产生深刻影响。早期机器学习研究通常假设数据具有相对简单的特性,如53数据来源单一、概念语义明确、数据规模适中、结构静态稳定等。当数据具有以上简单特性时, 基于现有的机器学习理论与方法可以有效实现数据的智能化处理。然而,在大数据时代背景下,数据往往体现出多源异构、语义复杂、规模巨大、动态多变等特殊性质,为传统

128、机器学习技术带来了新的挑战。为应对这一挑战,国内外科技企业巨头如谷歌、微软、亚马逊、华为、百度等纷纷成立以机器学习技术为核心的研究院,以充分挖掘大数据中蕴含的巨大商业与应用价值。可以预见, 在未来相当长的一段时期内, 机器学习领域的研究将以更广泛、更紧密的方式与工业界深度耦合,推动信息技术及产业的快速发展。54参 考 文 献1周志华. 机器学习与数据挖掘. 中国计算机学会通讯中国计算机学会通讯, 2007, 3(12): 35-44.2T. Mitchell. Machine Learning, New York: McGraw-Hill, 1997.3A. N. Meltzoff, P. K

129、. Kuhl, J. Movellan, T. J. Sejnowski. Foundations for a new science oflearning. Science, 2009, 325(5938): 284-288.4X. Wang, A. Mueen, H. Ding, G. Trajcevski, P. Scheuermann, E. Keogh. Experimentalcomparison of representation methods and distance measures for time series data. DataMining and Knowledg

130、e Discovery. 2013, 26(2): 275-309, 2013.5E. Levina, P. Bicke. The earth movers distance is the Mallows distance: Some insights fromstatistics. In Proceedings of the 8th International Conference on Computer Vision,Vancouver, Canada, 2001, 251256.6E. Xing, A. Ng, M. Jordan, S. Russell. Distance metric

131、 learning, with application toclustering with side-information. In Advances in Neural Information Processing Systems15, Cambridge, MA: MIT Press, 2003, 505-512.7A. Bar-Hillel, T. Hertz, N. Shental, D. Weinshall. Learning distance functions usingequivalence relations. In Proceedings of the 20th Inter

132、national Conference on MachineLearning, Washington, D.C., 2003, 11-18.8J. Davis, B. Kulis, P. Jain, S. Sra, I. Dhillon. Information-theoretic metric learning. InProceedings of the 24th International Conference on Machine Learning, Corvallis, OR.,2007, 209-216.9S. Shalev-Shwartz, Y. Singer, A. Ng. On

133、line and batch learning of pseudo-metrics. InProceedings of the 21st International Conference on Machine Learning, Alberta,Canada, 2004, 128-135.10 P. Jain, B. Kulis, I. Dhillon, K. Grauman. Online metric learning and fast similarity search.In Advances in Neural Information Processing Systems 21, Ca

134、mbridge, MA: MIT Press,2008, 761-768.11 K. Weinberger, L. Saul. Fast solvers and efficient implementations for distance metriclearning. In Proceedings of the 25th International Conference on Machine Learning,Helsinki, Finland, 2008, 11601167.12 S. Paramswaran, K. Weinberger. Large margin multi-task

135、metric learning. In Advances inNeural Information Processing Systems 23, Cambridge, MA: MIT Press, 2010,1867-1875.13 K. Huang, R. Jin, Z. Xu, C.-L. Liu. Robust metric learning by smooth optimization. InProceedings of the 26th Conference on Uncertainty in Artificial Intelligence, CatalinaIsland, CA,

136、2010, 244-251.14 G. Checik, U. Shalit, V. Sharma, S. Bengio. An online algorithm for large scale imagesimilarity learning. In Advances in Neural Information Processing Systems 22,Cambridge, MA: MIT Press, 2009, 306-314.15 M. Cuturi, D. Avis. Ground metric learning. Journal of Machine Learning Resear

137、ch,2014, 15: 533-564.16 D.-C. Zhan, Y.-F. Li, Z.-H. Zhou. Learning instance specific distances using metricpropagation. In Proceedings of the 26th International Conference on Machine Learning,Montreal, Canada, 2009, 12251232.5517 J. Goldberger, S. Roweis, G. Hinton, R. Salakhutdinov. Neighbourhood C

138、omponentsAnalysis. In: Advances in Neural Information Processing Systems 17, Cambridge, MA:MIT Press, 2004, 513520.18 A. Bellet, A. Habrard, M. Sebban. Metric learning. In: Synthesis Lectures on ArtificialIntelligence and Machine Learning, San Francisco, CA: Morgan and Claypool Publishers,2015, 1-15

139、1.19 Y. Shi, A. Bellet, F. Sha. Sparse compositional metric learning. In: Proceedings of the 28thAAAI Conference on Artificial Intelligence, Qubec City, Canada, 2014, 20782084.20 Q. Qian, R. Jin, S. Zhu, Y. Lin. An integrated framework for high dimensional distancemetric learning and its application

140、 to fine-grained visual categorization. arXiv: 1402.0453,2014.21 M. Schultz, T. Joachims. Learning a distance metric from relative comparisons. InAdvances in Neural Information Processing Systems 16, Cambridge, MA: MIT Press,2004, 41-48.22 X. Gao, S. Hoi, Y. Zhang, J. Wan, J. Li. SOML: Sparse online

141、 metric learning withapplication to image retrieval. In: Proceedings of the 28th AAAI Conference on ArtificialIntelligence, Qubec City, Canada, 2014, 12061212.23 K. Liu, A. Bellet, F. Sha. Similarity learning for high-dimensional sparse data. arXiv:1411.2374, 2014.24 T. Mensink, J. Verbeek, F. Perro

142、nnin, G. Csurka. Metric learning for large scale imageclassification: Generalizing to new classes at near-zero cost. In Proceedings of the 12thEuropean Conference on Computer Vision, Firenze, Italy, 2012, 488-501.25 N. Verma, D. Mahajan, S. Sellamanickam, V. Nair. Learning hierarchical similarity me

143、trics.In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition,Providence, RI, 2012, 2280-2287.26 N. Jiang, W. Liu, Y. Wu. Order determination and sparsity-regularized metric learningadaptive visual tracking. In Proceedings of the IEEE Conference on Computer Visionand Pattern

144、 Recognition, Providence, RI, 2012, 1956-1964.27 G. Lebanon. Metric learning for text documents. IEEE Transactions on Pattern Analysisand Machine Intelligence, 2006, 28(4): 497-508.28 D. Lim, B. McFee, G. Lanckriet. Robust structure metric learning. In Proceedings of the30th International Conference

145、 on Machine Learning. Atlanta, GA, 2013, 615-623.29 T. Kato, N. Nagano. Metric learning for enzyme active-site search. Bioinformatics, 2010,26(21): 2698-2704.30 J. Wang, X. Gao, Q. Wang, Y. Li. ProDis-ContSHC: Learning protein dissimilaritymeasures and hierarchical context coherently for protein-pro

146、tein comparison in proteindatabase retrieval. BMC Bioinformatics, 2012, 13(S-7): S2.31 汪洪桥,孙富春,蔡艳宁,陈宁. 多核学习方法. 自动化学报自动化学报, 2010, 36(8): 1037-1050.32 G. R. G. Lanckriet, T. D. Bie, N. Cristianini, M. I. Jordan, W. S. Noble. A statisticalframework for genomic data fusion. Bioinformatics, 2004, 20: 262

147、6-2635.33 F. R. Bach, G. R. G. Lanckriet, and M. I. Jordan. Multiple kernel learning, conic duality, andthe SMO algorithm. In: Proceedings of the 21st International Conference on MachineLearning, Banff, Canada, 2004, 41-48.5634 G. R. G. Lanckriet, N. Cristianini, P. Bartlett, L. E. Ghaoui, M. I. Jor

148、dan. Learning thekernel matrix with semidefinite programming. Journal of Machine Learning Research,2004, 5: 27-72.35 S. Sonnenburg, G. Rtsch, C. Schfer, B. Schlkopf. Large scale multiple kernel learning.Journal of Machine Learning Research, 2006, 7: 1531-1565.36 A. Rakotomamonjy, F. Bach, S. Canu, Y

149、. Grandvalet. More efficiency in multiple kernellearning. In: Proceedings of the 24th International Conference on Machine Learning,Corvallis, OR, 2007, 775-782.37 A. Rakotomamonjy, F. Bach, S. Canu, Y. Grandvalet. SimpleMKL. Journal of MachineLearning Research, 2008, 9: 2491-2521.38 Z. Xu, R. Jin, I

150、. King, M. R. Lyu. An extended level method for efficient multiple kernellearning. In: Advances in Neural Information Processing Systems 22, Cambridge, MA:MIT Press, 2009, 1825-1832.39 Z. Xu, R. Jin, H. Yang, I. King, M. R. Lyu. Simple and efficient multiple kernel learning bygroup lasso. In: Procee

151、dings of 27th International Conference on Machine Learning,Haifa, Israel, 2010, 1175-1182.40 S. V. N. Vishwanathan, Z. Sun, N. Ampornpunt. Multiple kernel learning and the SMOalgorithm. In: Advances in Neural Information Processing Systems 23, Cambridge, MA:MIT Press, 2010, 2361-2369.41 R. Jin, T. Y

152、ang, M. Mahdavi. Sparse multiple kernel learning with geometric convergencerate. arXiv:1302.0315v1, 2013.42 M. Kloft, U. Brefeld, S. Sonnenburg, P. Laskov. Efficient and accurate lp-norm multiplekernel learning. In: Advances in Neural Information Processing Systems 22, Cambridge,MA: MIT Press, 2009,

153、 997-1005.43 M. Varma, B. R. Babu. More generality in efficient multiple kernel learning. In:Proceedings of the 26th International Conference on Machine Learning, Montreal,Canada, 2009, 1065-1072.44 A. Jain, S. V. N. Vishwanathan, M. Varma. SPG-GMKL: Generalized multiple kernellearning with a millio

154、n kernels. In: Proceedings of the 18th ACM SIGKDD InternationalConference on Knowledge Discovery and Data Mining, Beijing, China, 2012, 750-758.45 C. Hinrichs, V. Singh, J. Peng, S. C. Johnson. Q-MKL: matrix-induced regularization inmulti-kernel learning with applications to neuroimaging. In: Advanc

155、es in NeuralInformation Processing Systems 25, Cambridge, MA: MIT Press, 2012, 1421-1429.46 C. Cortes, M. Mohri, A. Rostamizadeh. Learning non-linear comibinations of kernels. In:Advances in Neural Information Processing Systems 22, Cambridge, MA: MIT Press,2009, 396-404.47 Q. Mao, I. W. Tsang, S. G

156、ao, L. Wang. Generalized multiple kernel learning withdata-dependent priors. IEEE Transactions on Neural Networks and Learning Systems,2015, 26(6): 1134-1148.48 A. Nazarpour, P. Adibi. Two-stage multiple kernel learning for supervised dimensionalityreduction. Pattern Recognition, 2015, 48(5): 1854-1

157、862.49 C. Xu, D. Tao, C. Xu.Asurvey on multi-view learning. arXiv:1304.5434v1, 2013.5750 A. Blum, T. Mitchell. Combining labeled and unlabeled data with co-training. In:Proceedings of the 11th Annual Conference on Computational Learning Theory,Madison, WI, 1998, 92-100.51 K. Nigam, R. Ghani. Analyzi

158、ng the effectiveness and applicability of co-training. In:Proceedings of the 9th International Conference on Information and KnowledgeManagement, McLean, VA, 2000, 86-93.52 V. Sindhwani, D. S. Rosenberg. An RKHS for multi-view learning and manifoldco-regularization. In: Proceedings of the 25th Inter

159、national Conference on MachineLearning, Montreal, Canada, 2009, 976-983.53 Z.-H. Zhou, M. Li. Semi-supervised regression with co-training. In: Proceedings of the19th International Joint Conferences on Artificial Intelligence, Edinburgh, UK, 2005,908-916.54 S. Bickel, T. Scheffer. Multi-view clusteri

160、ng. In: Proceedings of the 4th IEEEInternational Conference on Data Mining, Brighton, UK, 2004, 19-26.55 S. Yu, K. Yu, V. Tresp, H. P. Kriegel. Multi-output regularized feature projection. IEEETransactions on Knowledge and Data Engineering, 2006, 18(12): 1600-1613.56 A. Sharma, A. Kumar, H. Daume, D

161、. W. Jacobs. Generalized multiview analysis: Adiscriminative latent space. In: Proceedings of the IEEE Conference on Computer Visionand Pattern Recognition, Providence, RI, 2012, 2160 - 2167.57 Z.-H. Zhou, D.-C. Zhan, Q. Yang. Semi-supervised learning with very few labeled trainingsamples. In: Proce

162、edings of the 22nd National Conference on Artificial Intelligence,Vancouver, Canada, 2007, 675-680.58 J. He, R. Lawrence. A graph-based framework for multi-task multi-view learning. In:Proceedings of the 28th International Conference on Machine Learning, Bellevue,Washington, 2011, 25-32.59 J. Zhang,

163、 J. Huan. Inductive multi-task learning with multiple view data. In: Proceedings ofthe 18th ACM SIGKDD International Conference on Knowledge Discovery and DataMining, Beijing, China, 2012, 543-551.60 X. Jin, F. Zhuang, S. Wang, Q. He, Z. Shi. Shared structure learning for multiple tasks withmultiple

164、 views. In: Lecture Notes in Artificial Intelligence 8189, Berlin: Springer, 2013,353-368.61 M. Hodosh, P. Young, J. Hockenmaier. Framing image description as a ranking task: Data,models and evaluation metrics. Journal of Artificial Intelligence Research, 2013, 47(1):853-899.62 L. Ma, Z. Lu, L. Shan

165、g, H. Li. Multimodal convolutional neural networks for matchingimage and sentences. arXiv: 1504.06063v1, 2015.63 M. Hall, E. Frank, G. Holmes, B. Pfahringer, P. Reutemann, I. H. Witten. The WEKA datamining software: An update. SIGKDD Explorations, 2009, 11(1): 10-18.64 J. Alcala-Fdez, A. Fernandez,

166、J. Luengo, J. Derrac, S. Garcaa, L. Sanchez, F. Herrera. KEELdata-mining software tool: dataset repository, integration of algorithms and experimentalanalysis framework. Journal of Multiple-Valued Logic and Soft Computing, 2011,17(2-3): 255-287.5865 M. Kearns, L.G. Valiant. Crytographic limitation o

167、n learning boolean formulae and finiteautomata. In: Proceedings of the 21st Annual ACM Symposium on Theory ofComputing, Seattle, Washington, 1989, 433-444.66 L. Breiman. Bagging predictors. Machine Learning, 1996, 24(2): 123-140.67 Y. Freund, R. E. Schapire. A decision-theoretic generalization of on

168、line learning and anapplication to boosting. Journal of Computer and System Sciences, 1997, 55(1): 119-139.68 L. Breiman. Random forests. Machine Learning, 2011, 45(1): 5-32.69 T. K. Ho. The random subspace method for constructing decision forests. IEEETransactions PatternAnalysis and Machine Intell

169、igence, 1998, 20(8): 832-844.70 J. J. Rodriguez, L. I. Kuncheva, C. J. Alonso. Rotation forest: A new classifier ensemblemethod. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2006, 28(10):1619-1630.71 L. I. Kuncheva, J. J. Rodriguez. Classifier ensembles with a random linear oracle

170、. IEEETransactions on Knowledge and Data Engineering, 2007, 19(4): 500-508.72 Z. -H. Zhou, J. Wu, W. Tang. Ensembling neural networks: Many could be better than all.Artificial Intelligence, 2002, 137 (1-2): 239-263.73 Z. Yu, L. Li, J. Liu, G. Han. Hybrid adaptive classifier ensemble. IEEE Transactio

171、ns onCybernetics, 2015, 42(2): 177-190.74 Z.-H. Zhou. Ensemble Methods: Foundations and Algorithms, Boca Raton, FL:Chapman & Hall/CRC, 2012.75 Z. Yu, Z. Deng, H.-S. Wong, L. Tan. Identifying protein kinase-specific phosphorylationsitesbasedonthebagging-adaboostensembleapproach.IEEE TransactionsonNan

172、oBioScience, 2010, 9(2): 132-143.76 X. Zhu, P. Zhang, X. Lin, Y. Shi. Active learning from stream data using optimal weightclassifier ensemble. IEEE Transactions on Systems, Man, and Cybernetics - Part B:Cybernetics, 2010, 40(6): 1607-1621.77 Y. Xu, X. Cao, H. Qiao. An efficient tree classifier ense

173、mble-based approach for pedestriandetection. IEEE Transactions on Systems, Man, and Cybernetics - Part B: Cybernetics,2011, 41(1): 107-117.78 X. Zhu. Semi-supervised learning with graphs. PhD thesis, Carnegie Mellon University,2005.79 B. Settles. Active learning literature survey. Computer Sciences

174、Technical Report 1648,University of WisconsinMadison, 2009.80 S. Tong, D. Koller. Support vector machine active learning with applications to textclassification. In: Proceedings of the 17th International Conference on MachineLearning, Stanford, CA, 2000, 9991006.81 N. Roy, A. McCallum. Toward optima

175、l active learning through sampling estimation of errorreduction. In: Proceedings of the 18th International Conference on Machine Learning,Williamstown, MA, 2001, 441448.82 Y. Freund, H. S. Seung, E. Shamir, N. Tishby. Selective sampling using the query bycommittee algorithm. Machine Learning, 1997.

176、28(2-3):133168.83 S. Dasgupta, D. Hsu. Hierarchical sampling for active learning. In: Proceedings of the 25thInternational Conference on Machine Learning, Helsinki, Finland, 2008, 208215.5984 B. Settles, M. Craven. An analysis of active learning strategies for sequence labeling tasks.In: Proceedings

177、 of the Conference on Empirical Methods in Natural LanguageProcessing, Honolulu, HI, 2008, 10691078.85 S.-J. Huang, R. Jin, Z.-H. Zhou. Active learning by querying informative and representativeexamples. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2014.36(10): 1936-1949.86 R. Cha

178、ttopadhyay, Z. Wang, W. Fan, I. Davidson, S. Panchanathan, J. Ye. Batch modeactive sampling based on marginal probability distribution matching. In: Proceedings of the18th ACM SIGKDD International Conference on Knowledge Discovery and DataMining, Beijing, China, 2012, 741-749.87 S.-J. Huang, S. Chen

179、, Z.-H. Zhou. Multi-label active learning: Query type matters. In:Proceedings of the 24th International Joint Conference on Artificial Intelligence,Buenos Aires, Argentina, 2015, 946-952.88 P. Donmez, J. Carbonell, J. Schneider. Efficiently learning the accuracy of labeling sourcesfor selective samp

180、ling. In: Proceedings of the 15th ACM SIGKDD InternationalConference on Knowledge Discovery and Data Mining, Paris, France, 2009, 259268.89 D. Margineantu. Active cost-sensitive learning. In: Proceedings of the 19th InternationalJoint Conference on Artificial Intelligence, Edinburgh, UK, 2005, 16221

181、623.90 R. S. Sutton, A. G. Barto. Reinforcement Learning: An Introduction. Cambridge, MA:MIT Press, 1998.91 P. Abbeel, A. Coates, M. Quigley, A. Y. Ng. An application of reinforcement learning toaerobatic helicopter flight. In: Advances in Neural Information Processing Systems 19,Cambridge, MA: MIT

182、Press, 2007, 1-8.92 Y. C. Wang, J. M. Usher. Application of reinforcement learning for agent-based productionscheduling. Engineering Applications of Artificial Intelligence, 2005, 18(1): 73-82.93 J. J. Choi, D. Laibson, B. C. Madrian, A. Metrick. Reinforcement learning and savingsbehavior. The Journ

183、al of Finance, 2009, 64(6):2515-2534.94 J. A. Boyan, M. L. Littman. Packet routing in dynamically changing networks: Areinforcement learning approach. In: Advances in Neural Information ProcessingSystems 6, Burlington, MA: Morgan Kaufmann, 1994, 671-671.95 J. Frank, L. C. Seeberger, R. C. OReilly. B

184、y carrot or by stick: Cognitive reinforcementlearning in Parkinsonism. Science, 2004, 306(5703): 1940-1943.96 K. Samejima, Y. Ueda, K. Doya, M. Kimura. Representation of action-specific rewardvalues in the striatum. Science, 2005, 310(5752): 1337-1340.97 T. G. Dietterich. Machine learning research:

185、Four current directions. AI Magazine, 1997,18(4), 97-136.98 C. H. Watkins. Learning from delayed rewards. Ph.D. Thesis, Kings College, University ofCambridge, 1989.99 P. L. Bartlett, J. Baxter. Infinite-horizon policy-gradient estimation. Journal of ArtificialIntelligence Research, 2001, 15: 319-350

186、.100 G. Rummery, M. Niranjan. On-line Q-learning using connectionist systems. TechnicalReport, University of Cambridge, 1994.101 R.J.Williams.Simplestatisticalgradient-followingalgorithmsforconnectionistreinforcement learning. Machine Learning, 1992, 8(3): 229256.60102 G. Konidaris, S. Osentoski, P.

187、 Thomas. Value function approximation in reinforcementlearning using the Fourier basis. In: Proceedings of the 25th AAAI Conference onArtificial Intelligence, San Francisco, CA, 2011, 380-385.103 M. Bellemare, J. Veness, M. Bowling. Sketch-based linear value function approximation. In:Advances in Ne

188、ural Information Processing Systems 25, Cambridge, MA: MIT Press,2012, 2222-2230.104 X. Xu, D. Hu, X. Lu. Kernel-based least squares policy iteration for reinforcement learning.IEEE Transactions on Neural Networks, 2007, 18(4): 973-992.105 V. Mnih, K. Kavukcuoglu, D. Silver, A. A. Rusu, J. Veness, M

189、. G. Bellemare, A. Graves, M.Riedmiller, A. K. Fidjeland, G. Ostrovski, S. Petersen, C. Beattie, A. Sadik, I. Antonoglou,H. King, D. Kumaran, D. Wierstra, S. Legg, D. Hassabis. Human-level control through deepreinforcement learning. Nature, 2015, 518: 529533.106 S. Mannor, R. Y. Rubinstein, Y. Gat.

190、The cross entropy method for fast policy search. In:Proceedings of the 30th International Conference on Machine Learning, Atlanta, GA,2013, 512-519.107 I. Szita, A. Lrincz. Learning tetris using the noisy cross-entropy method. NeuralComputation, 2006, 18(12): 2936-2941.108 S. Schaal. Is imitation le

191、arning the route to humanoid robots. Trends in Cognitive Sciences. 1999, 3(6): 233-242.109 C. Atkeson, S. Schaal. Robot learning from demonstration. In: Proceedings of the 14thInternational Conference on Machine Learning, San Francisco, CA, 1997, 12-20.110 P. Abbeel, A. Y. Ng. Apprenticeship learnin

192、g via inverse reinforcement learning. In:Proceedings of the 21st International Conference on Machine Learning, Banff, Canada,2004, 1-8.111 B. Ziebart, A. Maas, J. Bagnell, A. Dey. Maximum entropy inverse reinforcement learning.In: Proceedings of the 23th AAAI Conference on Artificial Intelligence, C

193、hicago, IL,2008, 1433-1438.112 A. Y. Ng, S. J. Russell. Algorithms for inverse reinforcement learning. In: Proceedings ofthe 17th International Conference on Machine Learning, Stanford, CA, 2000, 663670.113 P. Abbeel, D. Dolgo, A. Y. Ng, S. Thrun. Apprenticeship learning for motion planning withappl

194、ication to parking lot navigation. In: Proceedings of the IEEE/RSJ InternationalConference on Intelligent Robots and Systems, Nice, France, 2008, 10831090.114 M. E. Taylor, P. Stone. Transfer learning for reinforcement learning domains: A survey.Journal of Machine Learning Research, 2009, 10: 163316

195、85.115 M. E. Taylor, G. Kuhlmann, P. Stone. Autonomous transfer for reinforcement learning. In:Proceedings of the 7th International Conference on Autonomous Agents andMultiagent Systems, Estoril, Portugal, 2008, 283290.116 B. Da Silva, G. Konidaris, A. Barto. Learning parameterized skills. In: Proce

196、edings of the29th International Conference on Machine Learning, Edinburgh, UK, 2012, 1679-1686.117 W. B. Knox, P. Stone. Framing reinforcement learning from human reward: Rewardpositivity, temporal discounting, episodicity, and performance. Artificial Intelligence, 2015,225: 24-50.61118 S. J. Pan, Q

197、. Yang. A survey on transfer learning. IEEE Transaction on Data Engineering,2010. 22(10): 1345-1359.119 J. Jiang, C. X. Zhai. A two-stage approach to domain adaptation for statistical classifiers. In:Proceedingsofthe16thACMConferenceonInformationandKnowledgeManagement, Lisbon, Portugal, 2007, 401-41

198、0.120 W. Y. Dai, G. R. Xue, Q. Yang, Y. Yu. Co-clustering based classification for out-of-domaindocuments. In: Proceedings of the 13th ACM SIGKDD International Conference onKnowledge Discovery and Data Mining, San Jose, CA, 2007, 210-219.121 M. Fang, J. Yin, X. Q. Zhu. Transfer learning across netwo

199、rks for collective classification.In: Proceedings of the 13th IEEE International Conference on Data Mining, Dallas, TX,2013, 161-170.122 S. J. Pan, J. T. Kwok, Q. Yang. Transfer learning via dimensionality reduction. In:Proceedings of the 23rd National Conference on Artificial Intelligence, Chicago,

200、 IL,2008, 677-682.123 J. Blitzer, R. McDonald, F. Pereira. Domain adaptation with structural correspondencelearning. In: Proceedings of the International Conference on Empirical Methods inNatural Language Processing, Sydney,Australia, 2006, 120-128.124 Y. Yeh, C. Huang, Y. Wang. Heterogeneous domain

201、 adaptation and classification byexploiting the correlation subspace. IEEE Transactions on Image Processing, 2013, 23(5):2009-2018.125 J. Jiang, C. X. Zhai. Instance weighting for domain adaptation in NLP. In: Proceedings ofthe 45th Annual Meeting of the Association for Computational Linguistics, Pr

202、ague,Czech Republic, 2007, 264-271.126 W. Y. Dai, Q. Yang, G. R. Xue, Y. Yu. Boosting for transfer learning. In: Proceedings of the24th International Conference on Machine Learning, Corvallis, OR, 2007, 193-200.127 J. Gao, W. Fan, Y. Z. Sun, J. Han. Heterogeneous source consensus learning via decisi

203、onpropagation and negotiation. In: Proceedings of the 13th ACM SIGKDD InternationalConference on Knowledge Discovery and Data Mining, Paris, France, 2009, 339-348.128 F. Z. Zhuang, P. Luo, H. Xiong, Y. Xiong, Q. He, Z. Shi. Cross-domain learning frommultiplesources: A consensusregularizationperspect

204、ive.IEEETransactionsonKnowledge and Data Engineering, 2010, 22(12): 1664-1678.129 F. Z. Zhuang, X. Cheng, P. Luo, S. J. Pan, Q. He. Supervised representation learning:Transfer learning with deep autoencoders. In: Proceedings of the 24th International JointConference on Artificial Intelligence, Bueno

205、sAires, Argentina, 2015, 4119-4125.130 F. Z. Zhuang, X. Cheng, S. J. Pan, W. Yu, Q. He, Z. Shi. Transfer learning with multiplesources via consensus regularized autoencoders. In: Lecture Notes in Computer Science8726, Berlin: Springer, 2014, 417-431.131 Q. Q. Gu, J. Zhou. Learning the shared subspac

206、e for multi-task clustering and transductivetransfer classification. In: Proceedings of the 9th IEEE International Conference onData Mining, Miami, FL, 2009, 159-168.132 M. Kan, J. Wu, S. Shan, X. Chen. Domain adaptation for face recognition: Targetize sourcedomain bridged by common subspace. Intern

207、ational Journal of Computer Vision, 2014,109(1): 94-109.62133 W. Pan, E. W. Xiang, Q. Yang. Transfer learning in collaborative filtering with uncertainratings. In: Proceedings of the 26th AAAI Conference on Artificial Intelligence, Toronto,Canada, 2012, 662-668.134 G. E. Hinton, R. R. Salakhutdinov.

208、 Reducing the dimensionality of data with neural network.Science, 2006, 313(5786): 504-507.135 G. Dahl, D. Yu, L. Deng, A. Acero. Context-dependent pre-trained deep neural networks forlarge vocabulary speech recognition. IEEE Transactions on Audio, Speech, andLanguage Processing, 2012, 20(1): 30-42.

209、136 A. Hannun, C. Case, J. Casper, B. Catanzaro, G. Diamos, E. Elsen, R. Prenger, S. Satheesh,S. Sengupta, A. Coates and A. Y. Ng. DeepSpeech: Scaling up end-to-end speechrecognition. arXiv:1412.5567, 2014.137 D. C. Ciresan, U. Meier, L. M. Gambardella, J. Schmidhuber. Deep big simple neural netsexc

210、el on handwritten digit recognition. arXiv:1003.0358, 2010.138 A. Krizhevsky, I. Sutskever, G. E. Hinton. Imagenet classification with deep convolutionalneural networks. In: Advances in Neural Information Processing Systems 25, Cambridge,MA: MIT Press, 2012, 1097-1105.139 C. Szegedy, W. Liu, Y. Jia,

211、 P. Sermanet, S. Reed, D. Anguelov, D. Erhan, V. Vanhocke, A.Rabinovich. Going deeper with convolutions. arXiv:1409.4842, 2014.140 R. Collobert, J. Weston. A unified architecture for natural language processing: Deep neuralnetworks with multitask learning. In: Proceedings of the 25th International C

212、onferenceon Machine Learning, Helsinki, Finland, 2008, 160-167.141 A. Mnih, G. Hinton. Three new graphical models for statistical language modeling. In:Proceedings of the 24th International Conference on Machine Learning, Corvallis, OR,2007, 641-648.142 A. Mnih, G. Hinton. A scalable hierarchical di

213、stributed language model. In: Advances inNeural Information Processing Systems 21, Cambridge, MA: MIT Press, 2009,1081-1088.143 M. K. Leung, H. Y. Xiong, L. J. Lee, B. J. Frey. Deep learning of the tissue-regulatedsplicing code. Bioinformatics, 2014, 30(12): 121-129.144 H. Y. Xiong, B. Alipanahi, L.

214、 J. Lee, H. Bretschneider, D. Merico, R. K. C. Yuen, Y. Hua, S.Gueroussov, H. S. Najafabadi, T. R. Hughes, Q. Morris, Y. Barash, A. R. Krainer, N. Jojic, S.W. Scherer, B. J. Blencowe, B. J. Frey. The human splicing code reveals new insights intothe genetic determinants of disease. Science, 2015, 347

215、(6218): 1254806.145 J. Ma, R. P. Sheridan, A. Liaw, G. E. Dahl, V. Svetnik. Deep neural nets as a method forquantitative structure-activity relationships. Journal of Chemical Information andModeling, 2015, 55(2): 263-274.146 M. Helmstaedter, K. L. Briggman, S. C. Turaga, V. Jain, H. S. Seung, W. Den

216、k.Connectomic reconstruction of the inner plexiform layer in the mouse retina. Nature, 2013,500: 168-174.147 A. Waibel, T. Hanazawa, G. E. Hinton, K. Shikano, K. Lang. Phoneme recognition usingtime-delay neural networks. IEEE Transactions on Acoustics, Speech and SignalProcessing, 1989, 37(3): 328-3

217、39.148 Y. LeCun, L. Bottou, Y. Bengio, P. Haffner. Gradient-based learning applied to documentrecognition. Proceedings of the IEEE, 1998, 86(11): 2278-2324.63149 D. Simard, P. Y. Steinkraus, J. C. Platt. Best practices for convolutional neural networks. In:Proceedings of the 17th International Confe

218、rence on Document Analysis andRecognition,Algoval, UK, 2003, 958-963.150 S. Lawrance, C. L. Giles, A. C. Tsoi, A. D. Back. Face recognition: A convolutionalneural-network approach. IEEE Transactions on Neural Networks, 1997, 8(1): 98-113.151 B. Boser, E. Sackinger, J. Bromley, Y. LeCun, L. Jackel. A

219、n analog neural networkprocessor with programmable topology. IEEE Journal of Solid-State Circuits, 1991,26(12): 2017-2025.152 C. Farabet, Y. LeCun, K. Kavukcuoglu, B. Martini, P. Akselrod, S. Talay, E. Culurciello.Large-scale FPGA-based convolutional networks. In: Scaling Up Machine Learning,Cambrid

220、ge, UK: Cambridge University Press, 2011, 399-419.153 L. Getoor, B. Taskar. Introduction to Statistical Relational Learning. Cambridge, MA:MIT Press. 2007.154 刘大有, 于鹏, 高滢, 齐红 ,孙舒杨. 统计关系学习研究进展. 计算机研究与发展计算机研究与发展, 2008,(12): 2110-2119.155 X.-L. Li, Z.-H. Zhou. Structure learning of probabilistic relati

221、onal models from incompleterelational data. In Proceedings of the 17th European Conference on Machine Learning,Warsaw, Poland, 2007, 214-225.156 K. Kersting, L. D. Raedt. Adaptive Bayesian logic programs. In: Proceedings of the 11thInternational Conference on Inductive Logic Programming, Strasbourg,

222、 France, 2001,104-117.157 M. Richardson, P. Domingos. Markov logic networks. Machine Learning, 2006, 62(1-2):107-136.158 P. D. Hoff. Multiplicative latent factor models for description and prediction of socialnetworks.ComputationalandMathematicalOrganization Theory,2009,15(4):261-272.159 H. Wang, W.

223、-J. Li. Online egocentric models for citation networks. In: Proceedings of the23rd International Joint Conference on Artificial Intelligence, Beijing, China, 2013,2726-2732.160 C. Xie, L. Yan, W.-J. Li, Z. Zhang. Distributed power-law graph computing: Theoreticaland empirical analysis. In: Advances

224、in Neural Information Processing Systems 27,Cambridge, MA: MIT Press, 2014, 1673-1681.161 M. Nickel, K. Murphy, V. Tresp, E. Gabrilovich. A review of relational machine learningfor knowledge graphs. arXiv:1503.00759v2, 2015.162 T. Bck. Evolutionary Algorithms in Theory and Practice: Evolution Strate

225、gies, Evolu-tionary Programming, Genetic Algorithms. Oxford, UK: Oxford University Press, 1996.163 A. S. Fraser. Monte Carlo analyses of genetic models. Nature, 1958, 181(4603): 208-209.164 S. Kirkpatrick. Optimization by simulated annealing: Quantitative studies. Journal ofStatistical Physics, 1984

226、, 34(5): 975-986.165 A. Assion, T. Baumert, M. Bergt, T. Brixner, B. Kiefer, V. Seyfried, M. Strehle, G. Gerber.Control of chemical ceactions by feedback-optimized phase-shaped femtosecond laserpulses. Science, 1998, 282(5390): 919-922.166 M. Dorigo. Optimization, learning and natural algorithms. Ph

227、D Thesis, Politecnico diMilano, Italy, 1992.64167 J. R. Koza, M. A. Keane, M. J. Streeter. Whats AI done for me lately? Geneticprogrammings human-competitive results. IEEE Intelligent Systems, 2003, 18(3): 25-31.168 G. S. Hornby, A. Globus, D. S. Linden, J. D. Lohn. Automated antenna design withevol

228、utionary algorithms. In: Proceedings of 2006 American Institute of Aeronautics andAstronautics Conference on Space, San Jose, CA, 2006, 19-21.169 G. S. Hornby, T. Kurtoglu. Toward a smarter web. Science, 2009, 325(5938): 277-278.170 D. E. Goldberg, J. H. Holland. Genetic algorithms and machine learn

229、ing. MachineLearning, 1988, 3(2): 95-99.171 D. E. Goldberg. Genetic Algorithms in Search, Optimization and Machine Learning,Boston, MA: Addison-Wesley Longman Publishing, 1989.172 A. A. Freitas. A survey of evolutionary algorithms for data mining and knowledge discovery.In: Advances in Evolutionary

230、Computing: Theory and Applications, Berlin: Springer,2003, 819-845.173 E. R. Hruschka, R. Campello, A. A. Freitas, A. de Carvalho: A survey of evolutionaryalgorithms for clustering. IEEE Transactions on Systems, Man, and Cybernetics, Part C:Applications and Reviews, 2009, 39(2): 133-155.174 S. Ding,

231、 H. Li, C. Su, J. Yu, F. Jin. Evolutionary artificial neural networks: A review.Artificial Intelligence Review, 2013, 39(3):251-260.175 Y. Yu, Z.-H. Zhou. A new approach to estimating the expected first hitting time ofevolutionary algorithms. Artificial Intelligence, 2008, 172(15): 1809-1832.176 Y.

232、Yu, C. Qian, Z.-H. Zhou. Switch analysis for running time analysis of evolutionaryalgorithms. IEEE Transactions on Evolutionary Computation, 2015, in press.177 Y. Yu, X. Yao, Z.-H. Zhou. On the approximation ability of evolutionary optimization withapplication to minimum set cover. Artificial Intell

233、igence, 2012, 180-181: 20-33.178 C. Qian, Y. Yu, Z.-H. Zhou. On constrained boolean pareto optimization. In: Proceedingsof the 23rd International Joint Conference on Artificial Intelligence, Buenos Aires,Argentina, 2015, 389-395.179 C. Qian, Y. Yu, Z.-H. Zhou. An analysis on recombination in multi-o

234、bjective evolutionaryoptimization. Artificial Intelligence, 2013, 204: 99-119.180 C. Qian, Y. Yu, Z.-H. Zhou. Pareto ensemble pruning. In: Proceedings of the 29th AAAIConference on Artificial Intelligence, Austin, TX, 2015, 2935-2941.181 C. Qian, Y. Yu, Z.-H. Zhou. Subset selection by Pareto optimiz

235、ation. In: Advances inNeural Information Processing Systems 28, Cambridge, MA: MIT Press, 2015, in press.182 陈康, 向勇, 喻超. 大数据时代机器学习的新趋势. 电信科学电信科学, 2013, 28(12): 88-95.183 G. W. Zhang, Z. H. Zhan, K. J. Du, Y. Lin, W. N. Chen, J. J. Li, J. Zhang. Parallel particleswarm optimization using message passi

236、ng interface. In: Proceedings of the 18th AsiaPacific Symposium on Intelligent and Evolutionary Systems, Singapore, 2014, 55-64.184 Z. H. Zhan, X. F. Liu, Y. J. Gong, J. Zhang, H. S. H. Chung, Y. Li. Cloud computingresource scheduling and a survey of its evolutionary approaches. ACM ComputingSurveys

237、, 2015, 47(4): 1-33.185 W. Z. Zhao, H. F. Ma, Q. He. Parallel k-means clustering based on Mapreduce. In: LectureNotes in Computer Science 5931, Springer Berlin Heidelberg, 2009, 674-679.65186 J. Zhang, Z. H. Zhan, Y. Lin, N. Chen, Y. J. Gong, J. H. Zhong. Evolutionary computationmeets machine learni

238、ng: A survey. IEEE Computational Intelligence Magazine, 2011,6(4): 68-75.187 何清, 李宁, 罗文娟, 史忠植. 大数据下的机器学习算法综述. 模式识别与人工智能模式识别与人工智能,2014, 27(4): 327-336.188 何清, 庄福振, 曾立, 赵卫中, 谭庆. PDMiner: 基于云计算的并行分布式数据挖掘工具平台. 中国科学中国科学-信息科学信息科学 (中文版中文版), 2014, 44(7): 871-885.189 J. Chen, K. Li, J. Zhu, W. Chen. WarpLDA:

239、 A simple and efficient O(1) algorithm for latentDirichlet allocation. arXiv:1510.08628, 2015.190 李武军, 周志华. 大数据哈希学习:现状与趋势. 科学通报科学通报, 2015, 60(5/6): 485-490.191 Y. Weiss, A. Torralba, R. Fergus. Spectral hashing. In: Advances in Neural InformationProcessing Systems 21, Cambridge, MA: MIT Press, 2008,

240、 1753-1760.192 B. Kulis, P. Jain, K. Grauman. Fast similarity search for learned metrics. IEEETransactions on Pattern Analysis and Machine Intelligence, 2009, 31(12): 21432157.193 Y. Gong, S. Lazebnik, A. Gordo, F. Perronnin. Iterative quantization: A procrusteanapproach to learning binary codes for

241、 large-scale image retrieval. IEEE Transactions onPattern Analysis and Machine Intelligence, 2013, 35(12): 29162929.194 J. Wang, S. Kumar, S.-F. Chang. Semi-supervised hashing for large-scale search. IEEETransactions on Pattern Analysis and Machine Intelligence, 2012, 34(12): 23932406.195 X. Zhu, Z.

242、 Huang, H.T. Shen, X. Zhao. Linear cross-modal hashing for efficient multimediasearch. In Proceedings of the 21st ACM International Conference on Multimedia,Barcelona, Spain, 2013, 143-152.196 D. Zhang, W.-J. Li. Large-scale supervised multimodal hashing with semantic correlationmaximization. In: Pr

243、oceedings of the 28th AAAI Conference on Artificial Intelligence,Quebec City, Canada, 2014, 2177-2183.197 Y. Zhen, D.-Y. Yeung. A probabilistic model for multimodal hash function learning. InProceedings of the 18th ACM SIGKDD Conference on Knowledge Discovery and DataMining, Beijing, China, 2012, 94

244、0-948.198 P. Zhang, W. Zhang, W.-J. Li, M. Guo. Supervised hashing with latent factor models. In:Proceedings of the 37th ACM Conference on Research and Development inInformation Retrieval, Gold Coast, Australia, 2014, 173-182.199 J. Zhou, G. Ding, Y. Guo. Latent semantic sparse hashing for cross-mod

245、al similarity search.In: Proceedings of the 37th ACM Conference on Research and Development inInformation Retrieval, Gold Coast, Australia, 2014, 415-424.200 G. Ding, Y. Guo, J. Zhou. Collective matrix factorization hashing for multimodal data. In:Proceedings of the 2014 IEEE Conference on Computer

246、Vision and PatternRecognition, Columbus, OH, 2014, 2083-2090.201 F. Shen, C. Shen, Q. Shi, A.V.D. Hengel, Z. Tang. Inductive hashing on manifolds. InProceedings of the 2013 IEEE Conference on Computer Vision and PatternRecognition, Portland, OR, 2013, 1562-1569.202 P. Li, M. Wang, J. Cheng, C. Xu, H

247、. Lu. Spectral hashing with semantically consistent graphfor image indexing. IEEE Transactions on Multimedia, 2013, 15(1): 141152.203 F. Wu, Z. Yu, Y. Yang, S. Tang, Y. Zhang, Y. Zhuang. Sparse multi-modal hashing. IEEETransactions on Multimedia, 2014, 16(2): 427439.66204 T. Hastie, R. Tibshirani, J

248、. Friedman. The Elements of Statistical Learning. Berlin: Springer,2009.205 S. Shalev-Shwartz, Y. Singer, N. Srebro. Pegasos: Primal estimated sub-gradient solver forSVM. In: Proceedings of the 24th International Conference on Machine Learning,Corvallis, OR, 2007, 807-814.206 L. Li, W. Chu, J. Langf

249、ord, R. E. Schapire. A contextual-bandit approach to personalizednews article recommendation. In: Proceedings of the 19th International Conference onWorld Wide Web, Raleigh, NC, 2010, 661-670.207 W. Li, X. Wang, R. Zhang, Y. Cui, J. Mao, R. Jin. Exploitation and exploration in aperformance based con

250、textual advertising system. In: Proceedings of the 16th ACMSIGKDD International Conference on Knowledge Discovery and Data Mining,Washington D. C., 2010, 26-37.208 L. Zhang, R. Jin, C. Chen, J. Bu, X. He. Efficient online learning for large-scale sparsekernel logistic regression. In: Proceedings of

251、the 26th AAAI Conference on ArtificialIntelligence, Toronto, Canada, 2012, 1219-1225.209 A. Daniely, A. Gonen, S. Shalev-Shwartz. Strongly adaptive online learning. In:Proceedings of the 32nd International Conference on Machine Learning, Lille, France,2015.210 F. Rosenblatt. The perceptron: A probab

252、ilistic model for information storage andorganization in the brain. Psychological Review, 1958, 65: 386-407.211 N. Cesa-Bianchi, G. Lugosi. Prediction, Learning, and Games. Cambridge, UK:Cambridge University Press, 2006.212 S. Shalev-Shwartz. Online learning and online convex optimization. Foundatio

253、ns andTrends in Machine Learning, 2011, 4(2): 107-194.213 S. Bubeck, N. Cesa-Bianchi. Regret analysis of stochastic and nonstochastic multi-armedbandit problems. Foundations and Trends in Machine Learning, 2012, 5(1): 1-122.214 M. Zinkevich. Online convex programming and generalized infinitesimal gr

254、adient ascent. In:Proceedings of the 20th International Conference on Machine Learning, Washington D.C., 2003, 928-936.215 E. Hazan, A. Agarwal, S. Kale. Logarithmic regret algorithms for online convexoptimization. Machine Learning, 2007, 69(2-3): 169-192.216 H. B. Mcmahan. Follow-the-regularized-le

255、ader and mirror descent: Equivalence theoremsand l1 regularization. In: Proceedings of the 14th International Conference on ArtificialIntelligence and Statistics, Fort Lauderdale, FL, 2011, 525-533.217 L. Zhang, J. Yi, R. Jin, M. Lin, X. He. Online kernel learning with a near optimal sparsitybound.

256、In: Proceedings of the 30th International Conference on Machine Learning,Atlanta, GA, 2013, 621-629.218 H. Robbins. Some aspects of the sequential design of experiments. Bulletin of theAmerican Mathematical Society, 1952, 58(5): 527-535.219 L. Zhang, T. Yang, R. Jin, Z.-H. Zhou. Online bandit learni

257、ng for a special class ofnon-convex losses. In: Proceedings of the 29th AAAI Conference on ArtificialIntelligence, Austin, TX, 2015, 3158-3164.220 R. Agrawal. Sample mean based index policies with O(log n) regret for the multi-armedbandit problem. Advances in Applied Probability, 1995, 27(4): 1054-1

258、078.67221 P. Auer. Using confidence bounds for exploitation-exploration trade-offs. Journal ofMachine Learning Research, 2002, 3: 397-422, 2002.222 P. Auer, N. Cesa-Bianchi, Y. Freund, R. E. Schapire. The nonstochastic multiarmed banditproblem. SIAM Journal on Computing, 2003, 32(1): 48-77.223 J. Ab

259、ernethy, E. Hazan, A. Rakhlin. Competing in the dark: An efficient algorithm forbandit linear optimization. In: Proceedings of the 21st Annual Conference on LearningTheory, Helsinki, Finland, 2008, 263-274.224 P. Auer, N. Cesa-Bianchi, P. Fischer. Finite-time analysis of the multiarmed bandit proble

260、m.Machine Learning, 2002, 47(2-3): 235-256.225 V. Dani, T. P. Hayes, S. M. Kakade. Stochastic linear optimization under bandit feedback.In: Proceedings of the 21st Annual Conference on Learning Theory, Helsinki, Finland,2008, 355-366.226 A. Agarwal, D. P. Foster, D. Hsu, S. M. Kakade, A. Rakhlin. St

261、ochastic convexoptimization with bandit feedback. SIAM Journal on Optimization, 2013, 23(1): 213-240.227 A. D. Flaxman, A. T. Kalai, H. B. McMahan. Online convex optimization in the banditsetting: Gradient descent without a gradient. In: Proceedings of the 16th AnnualACM-SIAM Symposium on Discrete A

262、lgorithms, Vancouver, Canada, 2005, 385-394.228 W. Smart, M. Zhang. Applying online gradient descent search to genetic programming forobject recognition. In: Proceedings of Australasian Workshop on Data Mining and WebIntelligence, Dunedin, New Zealand, 2004, 133-138.229 B. Awerbuch, R. D. Kleinberg. Adaptive routing with end-to-end feedback: Distributedlearning and geometric approaches. In: Proceedings of the 36th Annual ACM Symposiumon Theory of Computing, Chicago, IL, 2004, 4553.

友情提示

1、下载报告失败解决办法
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。

本文(中国人工智能学会:2015年中国机器学习白皮书(70页).pdf)为本站 (奶茶不加糖) 主动上传,三个皮匠报告文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三个皮匠报告文库(点击联系客服),我们立即给予删除!

温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。
会员购买
客服

专属顾问

商务合作

机构入驻、侵权投诉、商务合作

服务号

三个皮匠报告官方公众号

回到顶部