AMiner：人工智能之数据挖掘(171页).pdf

编号：9382

PDF 171页 10.77MB 下载积分：VIP专享

下载报告请您先登录！

AMiner：人工智能之数据挖掘(171页).pdf

1、图表目录图 1 数据挖掘是知识发现的过程之一 . 3 图 2 数据挖掘过程基本步骤 . 5 图 3 Data Mining 知识图谱 . 6 图 4 2013-2018 KDD 研究性论文投稿与接收情况 . 7 图 5 2013-2018 KDD 工业界论文投稿与接收情况 . 8 图 6 柯洁乌镇大战 AlphaGo 撼负后的微博热议 . 43 图 7 两个微博名人的微博点赞数据的箱型图 . 45 图 8 组数较大组距较小的频率分布直方图 . 47 图 9 相同均值和方差的不同数据 . 52 图 10 k=3 的 K-means 算法迭代过程 . 53 图 11 神经元 . 59 图 12

2、神经网络 . 59 图 13 Girvan-Newman 算法结果 . 66 图 14 基于优化 Q 值的算法结果 . 67 图 15 Louvain 算法步骤 . 68 图 16 Skip-Gram 模型架构 . 70 图 17 话题模型的概率图 . 73 图 18 大数据处理平台技术架构图 . 74 图 19 基于开源系统的大数据处理平台架构 . 75 图 20 全球学者分布地图 . 77 图 21 国内学者分布地图 . 77 图 22 数据挖掘领域全球 Top1000 学者迁徙图 . 78 图 23 数据挖掘全球 Top1000 学者机构分布 . 78 图 24 数据挖掘全球 Top1

3、000 学者 h-index 分布图 . 79 图 25 数据挖掘全球 Top1000 学者性别比 . 79 图 26 两阶段的交互推荐方法 . 119 图 27 视频推荐（左）和视频搜索（右） . 120 图 28 方法框架 . 120 图 29 视频推荐的评测结果 . 121 图 30 YouTube-8M 数据集上的视频检索 . 121 图 31 抽取系统的架构图 . 122 图 32 数据偏差 . 122 图 33 数据集的实验结果 . 123 图 34 不同 submodular 的比较结果 . 124 图 35 共享表示层 . 124 图 36 UCI 数据集的实验结果 . 125

4、图 37 Google 数据的实验结果 . 125 图 38 PG 模型、MPG 扩展版本 . 126 图 39 在线系统的 A/B 测试 . 126 图 40 框架结构 . 127 图 41 实验结果 . 127 图 42 Microsoft Bing 的可视化搜索 . 129 图 43 算法展示 . 129 图 44 降维过程 . 130 图 45 RBE 模型 . 131 图 46 Rosetta 的两阶段抽取架构 . 132 图 47 系统的总体设计 . 134 图 48 DPG-FBE . 134 图 49 阿里巴巴的可视化搜索 . 135 图 50 可视化搜索系统的离线学习（左）

5、在线搜索系统的总体架构（右） . 135 图 51 基于注意力机制网络和 RNN 的深度架构 . 136 图 52 排序过程 . 136 图 53 电子商务网站中商品的表示学习 . 137 图 54 SI 辅助信息 . 137 图 55 多级级联排名模型 . 138 图 56 鲲鹏的总体架构 . 138 图 57 conv-RNN 框架 . 139 图 58 局部匹配图 . 140 图 59 关系增强的实体表示 . 141 图 60 生成有意义的医疗关系 . 141 图 61 提供实时停车可用性信息的框架图 . 142 图 62 研究城市中人的活动 . 143 图 63 大规模实际招聘数据系统

6、 . 144 图 64 Data Mining 全局热点 . 145 图 65 Data Mining 近期热点 . 145 图 66 Data Mining 早期热点 . 145 图 67 2007 至今 Data Mining 与 Health Care 领域交叉分析 . 147 图 68 Data Mining 与 Health Care 未来 3 年交叉研究趋势预测 . 148 表 1 数据挖掘和 KDD 对比图 . 2 表 2 数据挖掘分类表 . 3 表 3 两个比较受欢迎的微博名人在 2018 年 3 月到 2018 年 5 月间的一部分微博数据 . 44 表 4 LDA 模型中的

7、变量和标记. 73 1 摘要摘要数据挖掘（Data Mining）是一个跨学科的计算机科学分支。它是用人工智能、机器学习、统计学和数据库的交叉方法在大规模数据中发现隐含模式的计算过程。基于大数据时代的背景，本研究报告对数据挖掘这一课题进行了简单梳理，包括以下内容：数据挖掘的概念与研究概况。数据挖掘的概念与研究概况。首先从数据挖掘的定义、分类、过程与功能四个方面介绍了数据挖掘；整理并分析了数据挖掘领域顶级会议 ACM SIGKDD 近六年的信息。数据挖掘的算法与实现。数据挖掘的算法与实现。按照数据挖掘应用的方向，从大数据、机器学习、社会网络、自然语言与统计数据分析五个方面

8、介绍了数据挖掘的算法。基于大数据的数据挖掘主要介绍了数据采集层、数据存储层、数据处理层和服务封装层四个层的基本架构，和部分大数据平台实例；基于机器学习的数据挖掘主要介绍了非监督学习方法与监督学习方法，重点是监督学习方法，包括训练集、验证集与测试集、决策树模式、kNN 算法、神经网络、回归分析；社会网络中的大数据挖掘主要介绍了图的基本要素、图的度量算子，并从行为分析算法、社区发现算法等方面介绍了社交网络上的算法；自然语言中的数据挖掘先介绍了词的表示分析，并从语言模型与话题模型两个层面进行算法介绍；统计数据分析与前三个方面均有交叉，主要从数据描述性分析、回归分析、关联分析、

9、聚类分析三个方面进行介绍。最后具体分析了数据挖掘领域顶级会议 SIGKDD 最近几年在数据挖掘基础理论、社交网络分析和图数据挖掘、大数据挖掘等几个方面的国内外的主要研究成果。数据挖掘领域专家介绍。数据挖掘领域专家介绍。基于AMiner数据，对数据挖掘领域专家进行深入挖掘和介绍。包括顶尖学者的全球与中国分布、迁徙概况、学者机构分布、h-index 分析，并依据 AMiner 评价体系，从代表学者与近十年代表学者两个层面选取学者进行详细介绍。数据挖掘的应用领域与发展趋势。数据挖掘的应用领域与发展趋势。数据挖掘无论是在科学领域还是工程领域、理论研究还是现实生活中，其应用都十分广泛

10、，有着极为广阔的发展前景。本文对其在物流业、旅游业、零售业等相关领域的应用情况进行了介绍，并基于 AMiner 数据，对近期数据挖掘领域研究热点进行可视化分析，对未来数据挖掘方向进行了预测：隐私保护、可视化、与专业领域结合、多媒体数据挖掘等。报告（电子版）实时更新，获取请前往： datamining.pdf。 2 1 概述篇概述篇 1.1 数据挖掘基本概念数据挖掘基本概念数据挖掘（Data Mining），是指从大量的数据中自动搜索隐藏于其中的有着特殊关系性的数据和信息，并将其转化为计算机可处理的结构化表示，是知识发现的一个关键步骤。数据挖掘的广义观点：从数据库中抽取隐含的、以前

11、未知的、具有潜在应用价值的模型或规则等有用知识的复杂过程，是一类深层次的数据分析方法1。数据挖掘是一门综合的技术，涉及统计学、数据库技术和人工智能技术的综合，它的最重要的价值在于用数据挖掘技术改善预测模型。早期数据挖掘并不是作为单独学科存在，追溯到 30 年前，Gregory I. Piatetsky-Shapiro （也是 KDnuggets 的创始人）等人于 1989 年 8 月在美国底特律的国际人工智能联合会议（IJCAI）上召开了一个专题讨论会（workshop），首次提出了知识发现（Knowledge Discovery in Database，KDD）这一概

12、念。KDD 涉及数据库、机器学习、统计学、模式识别、数据可视化、高性能计算、知识获取、神经网络、信息检索等众多学科和技术的集成，再后来的 30 年间 KDD 逐渐形成了一个独立、蓬勃发展的交叉研究领域。后来经过若干年的培育，1995 年，在加拿大蒙特利尔正式召开了第一届“知识发现和数据挖掘”国际学术会议 KDD。1995 年在美国计算机 ACM 年会上，开始把数据挖掘视为知识发现 KDD 的一个基本步骤。随后成立了 ACM 专委会 SIGKDD 以及对应的国际数据挖掘与知识发现大会（ACM SIGKDD Conference on Knowledge Discovery and

13、 Data Mining, 简称 SIGKDD），到目前为止 SIGKDD 已是数据挖掘领域的顶级国际会议。会议内容涵盖数据挖掘的基础理论、算法和实际应用，详见 1.2 近年 SIGKDD 概况。数据挖掘的对象可以是任何类型的数据源，可以是关系数据库，此类包含结构化数据的数据源；也可以是数据仓库、文本、多媒体数据、空间数据、时序数据、web 数据，此类包含半结构化数据甚至是异构型数据的数据源。发现知识的方法可以是数字的、非数字的，也可以是归纳的，最终被发现了的知识可以用于信息管理、查询优化、决策支持及数据自身的维护等2。数据挖掘是 KDD 的一个关键步骤，下表对二者做一比较。

14、表 1 数据挖掘和 KDD 对比图输出不同共同点数据挖掘模型输入的都是学习集（learning sets）目的都是尽可能多的自动化数据挖掘过程知识发现规则 1 http:/www.kdd.org/curriculum/index.html 2 王惠中，彭安群数据挖掘研究现状及发展趋势 J 工矿动化，2011（2） 3 一般文件数据仓库知识清理与集成选择与转换数据挖掘评估与表示图 1 数据挖掘是知识发现的过程之一早期比较有影响力的发现算法有：IBM 的 Rakesh Agrawal 的关联算法（IBM Fellow、后来 MS Technical Fello

15、w、第一届 ACM SIGKDD 的创新奖得主）、 UIUC 大学韩家炜（Jiawei Han）教授等人的 FP Tree 算法（第四届 ACM SIGKDD 的创新奖得主）、澳大利亚的 John Ross Quinlan 教授的分类算法（第十一届 ACM SIGKDD 的创新奖得主）、密西根州立大学 Erick Goodman 的遗传算法。同时已经有一些国际知名公司纷纷加入数据挖掘技术研究的行列，如：美国的 IBM 公司于 1996 年研制的智能挖掘机 Intellingent Miner，用来提供数据挖掘解决方案，此后出现了 SPAA 公司的 Enterprise Miner、S

16、GI 公司的 SetMiner、Sybase 公司的 Warehouse Studio，还有 CoverStory、 EXPLORA、 Knowledge Discover Workbench、 DBMiner、 Quest 等等。 1.1.1 数据挖掘分类数据挖掘分类表 2 数据挖掘分类表分类方依据分类按挖掘的数据库类型文字型网络型 Time 型 Space 型按挖掘的知识类型高抽象层原始数据层多个抽象层按所用技术类型模式识别神经网络可视化统计学面向数据库或仓库技术按挖掘的数据库类型分类按挖掘的数据库类型分类由于数据库有约定俗成的分类方式，例如数据模式

17、、数据类型、应用环境等分类种类，以上几种数据库都有属于自己特有的数据挖掘技术；数据库之间可以互相对应，根据数据库类型定义数据挖掘技术的方法可行。数据挖掘技术若按照数据类型进行分类，可以分为文字型、网络型、Time 型、Space 型等3。 3 王桂芹，黄道数据挖掘技术综述 J 电脑应用技术 2007 (69)：10-11. 4 按挖掘的知识类型分类按挖掘的知识类型分类数据挖掘技术可以按照数据挖掘技术的功能划分，可划分为分析数据的内在规律、分析数据间的内在联系、定义描述等。一个数据挖掘全过程会同时由以上二个、三个或者多个功能组成。数据挖掘还可以划分为广义知识、原始层知识

18、、多层知识等类别。也就是专业术语所说的高抽象层、原始数据层、多个抽象层等类别。经典的数据挖掘技术通常能够找到多层知识。数据挖掘技术也能够按照其内在规律和奇特的异常性进行分类。通常来说，数据的内在规律可以通过分析相关性数据、找出数据之间的内在联系、定义描述、集合类的对象为多个类和估算等方法挖掘4。按所用的技按所用的技术类型分类术类型分类数据挖掘按照技术类型划分为：模式识别、神经网络和可视化、机器学习、统计学、面向数据库或仓库技术等；也可按照数据分析方法划分为：建模并模拟神经网络、进化算法、集合类似的对象为多个类、分类树、推演规律等。大型的数据挖掘系统通常包含二种或三种以上挖掘方

19、法，或者吸取多种挖掘方法的优点来处理数据挖掘。按应用分类按应用分类数据挖掘技术应用的领域不同，分类也不同。比如生物医学行业、交通行业、金融行业、通信行业、股市行业等都有自己合适的且已广泛应用的数据挖掘方法。因此不可能做到用同一个数据挖掘技术应用到各个行业领域。 1.1.2 数据挖掘过程数据挖掘过程数据挖掘是指一个完整的过程，该过程从大型数据库中挖掘先前未知的、有效的，可实用的信息，并使用这些信息做出决策或丰富知识。下图描述了数据挖掘的主要步骤和过程。数据挖掘过程中各步骤的大体内容如下：第一步：确定挖掘目的。认清数据挖掘的目的是数据挖掘的重要一步。挖掘的最后结果是不

20、可预测的，但要探索的问题应是有预见的。不能盲目的为了数据挖掘而数据挖掘。第二步：数据准备。数据准备分为三个阶段。数据的选择：搜索所有与目标对象有关的内部和外部数据信息，并从中选择出适用于数据挖掘应用的数据。数据的预处理：研究数据的质量，为进一步的分析做准备，并确定将要进行的挖掘操作的类型。数据的转换：将数据转换成一个分析模型。这个分析模型是针对挖掘算法建立的。建立一个真正适合挖掘算法的分析模型是数据挖掘成功的关键。 4 JiaweiHan, MichelineKamber, JianPei, et al. 数据挖掘:概念与技术M. 机械工业出版社, 2012. 5 逻辑数据库

21、被选择的数据预处理后的数据被转换的数据被抽取的信息被同化的信息选择预处理转换挖掘分析和同化图 2 数据挖掘过程基本步骤第三步：进行数据挖掘。对得到的经过转换的数据进行挖掘。第四步：结果分析。解释并评估结果，其使用的分析方法一般应视数据挖掘操作而定，通常会用到可视化技术。第五步：知识的同化。将分析所得到的知识集成到所要应用的地方去5。 1.1.3 数据挖掘功能数据挖掘功能目前数据挖掘的主要功能包括概念描述、关联分析、分类、聚类和偏差检测等。概念描述主要用于描述对象内涵并且概括此对象相关特征，概念描述分为特征性描述和区别性描述，特征性描述描述对象的相同特征，区别

22、性描述描述对象的不同特征；关联分析主要用来发现数据库中相关的知识以及数据之间的规律，关联分为简单关联、时序关联、因果关联；分类和聚类就是根据需要训练相应的样本来对数据分类和合并；偏差分析用于对对象中异常数据的检测。 1.1.4 大数据与数据挖掘大数据与数据挖掘大数据是近年随着互联网、物联网、通信网络以及人类社交网络快速发展的结果，成为一个交叉研究学科，和数据挖掘紧密相连。一方面大数据包含数据挖掘的各个阶段，即数据收集、预处理、特征选择、模式挖掘、表示等；另一方面大数据的基础架构又为数据挖掘提供上层数据处理的硬件设施；最后大数据的迅速发展也使得数据挖掘对象变得更为复杂，不仅

23、包括人类社会与物理世界的复杂联系，还包括呈现出的高度动态化。这使得很多传统数据挖掘算法不再适用，传统数据挖掘算法必须满足对真实数据和实时数据的处理能力，才能从大量无序数据中获取真正价值。大数据具有 4V 特性，对 4V 特性的解释有多种，包括美国国家标准技术研究院 NIST 的解释：即规模庞大（Volume）、种类繁多（Variety）、增长速度快（Velocity）和变化多样（Variability）。IBM 给出了类似的解释，但 Variability 变成了真实性（Veracity），后来将数据价值（Value）引入了进来，成为了大数据的 5V 特性。麦肯锡全球研

24、究机构（McKinsey Global Institute）后来给出了大数据定义，综合了“现有技术无法处理”和“数据特征定义” 5 王桂芹，黄道.数据挖掘技术综述C全国第 18 届计算机技术与应用学术会议论文集，2007 6 定义，这也是目前比较公认的定义：即规模庞大（Volume）、种类繁多（Variety）、变化频繁（Velocity）和价值（Value）。大数据的快速发展极大的促进了数据挖掘领域的发展。 1.2 数据挖掘知识图谱数据挖掘知识图谱本节分析了近年来数据挖掘领域的高水平学术论文，挖掘出了包括社交网络、大数据、情报分析、聚类分析、文本挖掘、用户行为、推荐系统、离群检测、专

25、家系统等相关关键词近年来全球活跃的学术研究。此外，结合知识图谱技术，本报告将以上研究领域表示为三级图谱结构，具体分析和处理的方法如下： 1. 使用自然语言处理技术，提取每篇论文文献的关键词，据此，结合学科领域知识图谱，将文章分配到相应领域； 2. 依据学科领域对论文文献进行聚类，并统计论文数量作为领域的研究热度； 3. 领域专家按照领域层级对学科领域划分等级，设计了三级图谱结构，最后根据概念热度定义当前研究热点。下图是数据挖掘二级知识图谱的可视化表示，三级详细数据可以参见本报告附录，或到中直接下载原始数据。图 3 Data Mining 知识图谱 7 1.3 近年近年 S

26、IGKDD 概况概况国际知识发现与数据挖掘大会（ACM SIGKDD Conference on Knowledge Discovery and Data Mining，简称 SIGKDD）是数据挖掘领域的顶级国际会议，由 ACM 的数据挖掘及知识发现专委会负责协调筹办。会议内容涵盖数据挖掘的基础理论、算法和实际应用，SIGKDD 主会期间，除了学术研究论文，自 2010 年起还设有面向工业和政府应用的专题研讨会，以及工业应用博览的邀请报告会。 SIGKDD 发展的历史可以追溯到 1989 年，一系列关于知识发现及数据挖掘的研讨会从那时开始组织。自 1995 年以来，SIGKDD 以大会的形式连续举办了 24 届

友情提示

1、下载报告失败解决办法
2、PDF文件下载后，可能会被浏览器默认打开，此种情况可以点击浏览器菜单，保存网页到桌面，就可以正常下载了。
3、本站不支持迅雷下载，请使用电脑自带的IE浏览器，或者360浏览器、谷歌浏览器下载即可。
4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩，下载后原文更清晰。

本文（AMiner：人工智能之数据挖掘(171页).pdf）为本站（风亭）主动上传，三个皮匠报告文库仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对上载内容本身不做任何修改或编辑。若此文所含内容侵犯了您的版权或隐私，请立即通知三个皮匠报告文库（点击联系客服），我们立即给予删除！

温馨提示：如果因为网速或其他原因下载失败请重新下载，重复下载不扣分。