上海品茶

2020升级版:人工智能之数据挖掘(334页).pdf

编号:24047 PDF 310页 13.12MB 下载积分:VIP专享
下载报告请您先登录!

2020升级版:人工智能之数据挖掘(334页).pdf

1、 人工智能之人工智能之数据挖掘数据挖掘 Research Report of Data Mining 2020 年第 9 期 清华大学人工智能研究院 北京智源人工智能研究院 清华中国工程院知识智能联合研究中心 2020 年 12 月 人工智能之数据挖掘 Research Report of Data Mining I 摘要摘要 数据挖掘(Data Mining)旨在从大规模、不完全、有噪声、模糊随机的数 据集中自动抽取隐含的、以前未知的、具有潜在应用价值的模式或规则等有用 知识的复杂过程,是一类深层次的数据分析方法,也是知识发现的关键步骤。 本报告围绕数据挖掘的概念内涵、关键技术、人才研究、应

2、用场景、发展 趋势等方面展开深入研究,主要内容包括: 一、数据挖掘基本概念、发展历程、研究进展、问题与挑战。详细介绍了 数据挖掘的基本概念、发展历程、技术研究关键词图谱、研究进展,以及研究 过程中面临的问题与挑战。 二、数据挖掘技术研究现状分析。分别对数据挖掘十大经典算法、统计数 据分析方法、科技情报挖掘技术、社交网络与图数据挖掘技术、自然语言数据 挖掘技术、多媒体数据挖掘技术、大规模数据挖掘技术、数据隐私保护和安全 等方面进行了详细介绍和深入分析,并解读了 SIGKDD 会议收录的代表性论文。 三、数据挖掘领域人才现状分析。基于 AMiner 平台提供的论文和学者大数 据,从学者分布、学术水

3、平、国际合作、学者流动等维度,对国内外相关研究 学者和机构进行了对比分析,总结中国科研学者队伍建设过程中的弱势环节和 问题,并提出对策建议。 四、数据挖掘典型应用场景分析。分别介绍了数据挖掘技术在零售业、旅 游业、物流业、医学界、金融业、电信业等不同行业的应用场景,并如何助力 这些行业的发展。 最后分析了数据挖掘相关技术研究发展趋势和创新热点,以及中国的专利 数据和国家自然科学基金支持情况,并展望了数据挖掘未来发展趋势。 人工智能之数据挖掘 Research Report of Data Mining II 目录目录 1 概述篇 . 13 1.1 数据挖掘基本概念 . 13 1.2 数据挖掘发

4、展历程 . 17 1.3 数据挖掘知识图谱 . 19 1.4 数据挖掘研究进展 . 20 1.5 数据挖掘问题与挑战 . 21 1.5.1 数据挖掘的统一理论框架的构建 . 22 1.5.2 高维数据和高速数据流的挖掘 . 22 1.5.3 序列和时序数据的挖掘 . 24 1.5.4 复杂数据中复杂知识的挖掘 . 25 1.5.5 网络环境中的数据挖掘 . 26 1.5.6 分布式数据和多代理数据的挖掘 . 27 1.5.7 生物和环境数据的挖掘 . 29 1.5.8 数据挖掘过程中的相关问题处理 . 30 1.5.9 数据挖掘中数据安全、数据所涉及到的隐私和数据完整性的维护 . 31 1.5

5、.10 非静态、非平衡及成本敏感数据的挖掘 . 32 2 技术篇 . 37 2.1 数据挖掘十大经典算法 . 38 2.1.1 C4.5 . 38 2.1.2 K-Means . 40 人工智能之数据挖掘 Research Report of Data Mining III 2.1.3 SVM(Support Vector Machine) . 41 2.1.4 Apriori . 43 2.1.5 EM(Expectation Maximization) . 44 2.1.6 PageRank . 47 2.1.7 AdaBoost . 48 2.1.8 KNN(K-Nearest Neig

6、hbor) . 49 2.1.9 Naive Bayes . 51 2.1.10 CART(Classification and Regression Trees) . 53 2.2 统计数据分析 . 54 2.2.1 基本统计分析方法 . 54 2.2.2 回归分析方法 . 60 2.2.3 关联分析 . 63 2.2.4 聚类分析 . 64 2.3 科技情报挖掘技术 . 82 2.3.1 知识溯源 . 82 2.3.2 趋势分析 . 83 2.3.3 前沿预测 . 85 2.3.4 命名排歧 . 86 2.3.5 决策支持 . 87 2.3.6 人才情报 . 88 2.3.7 科学计量 .

7、 89 2.4 社交网络与图数据挖掘技术 . 91 人工智能之数据挖掘 Research Report of Data Mining IV 2.4.1 图的度量算子 . 92 2.4.2 社交网络上的算法 . 96 2.5 自然语言数据挖掘技术 . 101 2.5.1 词表示分析 . 101 2.5.2 语言模型 . 106 2.5.3 话题模型 . 107 2.6 多媒体数据挖掘技术 . 108 2.6.1 文本挖掘 . 109 2.6.2 音频挖掘 . 111 2.6.3 图像挖掘 . 112 2.6.4 视频挖掘 . 112 2.7 大规模数据挖掘技术 . 114 2.7.1 大数据平台

8、架构 . 115 2.7.2 大数据平台实例 . 117 2.8 数据隐私保护和安全 . 119 2.8.1 数据隐私保护 . 119 2.8.2 数据安全 . 123 2.9 数据挖掘论文主题分析 . 124 2.10 数据挖掘经典论文概况 . 127 2.10.1 SIGKDD 2013 . 128 2.10.2 SIGKDD 2014 . 136 2.10.3 SIGKDD 2015 . 145 人工智能之数据挖掘 Research Report of Data Mining V 2.10.4 SIGKDD 2016 . 158 2.10.5 SIGKDD 2017 . 168 2.10

9、.6 SIGKDD 2018 . 179 2.10.7 SIGKDD 2019 . 188 2.10.8 SIGKDD 2020 . 200 3 人才篇 . 213 3.1 学者情况概览 . 213 3.1.1 学者分布地图 . 213 3.1.2 学术水平分析 . 215 3.1.3 国际合作分析 . 218 3.1.4 学者流动情况 . 220 3.2 学者简介 . 222 3.2.1 发展过程中代表学者简介 . 222 3.2.2 近十年代表学者简介 . 245 3.3 部分国内学者的研究成果 . 260 3.3.1 数据挖掘基础理论 . 260 3.3.2 社交网络分析和图挖掘研究 .

10、 262 3.3.3 大数据挖掘 . 264 4 应用篇 . 269 4.1 零售业 . 269 4.2 旅游业 . 271 4.3 物流业 . 272 人工智能之数据挖掘 Research Report of Data Mining VI 4.4 医学界 . 273 4.5 金融业 . 274 4.6 电信业 . 276 5 趋势篇 . 281 5.1 技术研究发展趋势 . 281 5.2 技术研究创新热点 . 282 5.3 数据挖掘专利数据分析 . 286 5.4 国家自然科学基金支持情况 . 287 6 总结与展望 . 293 参考文献. 295 附录 1 数据挖掘领域关键词 . 30

11、6 附录 2 期刊和会议列表 . 307 附录 3 国家自然科学基金 NSFC 项目 . 307 图表目录图表目录 图 1 数据挖掘是知识发现的核心过程 . 13 图 2 数据立方体模型示例 . 15 图 3 Data Mining 知识图谱 . 20 图 4 数据流挖掘流程图 1 . 24 图 5 挖掘的复杂数据类型 . 26 图 6 分布式数据挖掘框架 6 . 28 图 7 面向基于 Multi-Agent 间通信和协作的智能分布式框架的数据挖掘模型 . 29 图 8 大数据特征 12 . 31 图 9 不平衡数据分布图 . 34 图 10 柯洁乌镇大战 AlphaGo 憾负的微博热议 .

12、 37 人工智能之数据挖掘 Research Report of Data Mining VII 图 11 数据挖掘十大经典算法 . 38 图 12 C4.5 算法生成的决策树 19 . 39 图 13 K-Means 算法效果图 21 . 41 图 14 SVM 的决策平面 . 42 图 15 SVM 的核函数 . 43 图 16 EM 算法要解决的问题 . 45 图 17 身高问题 EM 算法求解步骤 . 45 图 18 AdaBoost 结果 . 49 图 19 KNN 算法简单示例 . 50 图 20 KNN 算法分类示例 . 51 图 21 Nave Bayes 算法分类示例 . 5

13、2 图 22 两个微博名人的微博点赞数据的箱型图 . 56 图 23 组数较大组距较小的频率分布直方图 . 58 图 24 K-medoids 算法样例 . 65 图 25 不确定性目标的 CLARANS 聚类算法对于不同大小数据库的运行时间比较 36 . 66 图 26 BIRCH 流程图 39 . 68 图 27 CURE 算法的基本流程 40 . 68 图 28 Chameleon 运作过程示意图 . 70 图 29 STING 聚类层次结构 . 75 图 30 COBWEB 算法逻辑流程图 . 79 图 31 Kohonen Network . 81 图 32 基于回归分析的趋势拟合曲

14、线示例 . 84 图 33 基于引用关系的技术演变路径分析流程 . 84 图 34 基于 IRD 的前沿技术预测总体思路 . 85 图 35 命名实体消歧架构图 . 87 图 36 决策支持系统的发展演变过程 . 87 图 37 文献计量学、科学计量学和情报计量学(信息计量学)的联系与区别 . 90 图 38 Girvan-Newman 算法结果 . 99 图 39 基于优化 Q 值的算法结果 . 100 图 40 Louvain 算法步骤 . 101 人工智能之数据挖掘 Research Report of Data Mining VIII 图 41 Skip-Gram 模型结构 . 104

15、 图 42 话题模型的概率图 . 108 图 43 多媒体文本数据挖掘的过程 . 110 图 44 音频波形图 . 111 图 45 图像数据挖掘的基本过程 . 112 图 46 典型视频结构图 . 113 图 47 基于内容的视频检索与挖掘结构图 . 114 图 48 大数据处理平台技术架构图 . 116 图 49 基于开源系统的大数据处理平台架构 . 117 图 50 隐私保护数据挖掘生命周期模型 . 120 图 51 大数据安全技术框架 . 124 图 52 LDA 结构图 . 125 图 53 2013-2020 KDD 研究性论文投稿与接收情况 . 128 图 54 2013-202

16、0 KDD 工业界论文投稿与接收情况 . 128 图 55 SIGKDD2017 论文研究热点的词云图 . 174 图 56 SIGKDD2018 论文研究热点的词云图 . 185 图 57 SIGKDD2019 论文研究热点的词云图 . 196 图 58 SIGKDD2020 论文研究热点的词云图 . 204 图 59 数据挖掘领域 h-index 排名前 1000 学者的全球分布地图 . 214 图 60 数据挖掘领域 h-index 排名前 1000 学者的中国分布地图 . 215 图 61 各国数据挖掘领域论文合作网络图 . 219 图 62 中国与其他国家的论文合作情况 . 220

17、图 63 全球学者的流动情况 . 221 图 64 中国学者的流动情况 . 222 图 65 数据挖掘方法在零售业中的应用 118 . 269 图 66 数据挖掘应用于智慧旅游的概念结构 121 . 271 图 67 基于数据挖掘的物流信息系统 123 . 273 图 68 医疗领域数据挖掘工具的准确性对比 124 . 274 图 69 互联网数据挖掘与金融数据挖掘对比 127 . 275 图 70 电信大数据的数据挖掘流程 129 . 276 人工智能之数据挖掘 Research Report of Data Mining IX 图 71 数据挖掘领域的技术研究发展趋势 . 282 图 72

18、 数据挖掘领域的研究热点词云图 . 283 图 73 中国历年的专利数量分布(2010-2019 年) . 286 图 74 2010-2019 年中国专利数量 TOP 10 机构 . 287 图 75 数据挖掘领域国家自然科学基金项目支持历年分布情况 . 288 图 76 数据挖掘领域国家自然科学基金项目支持数量 TOP 15 机构统计 . 289 表 1 事物数据库的片段 1 . 15 表 2 数据挖掘领域十大问题与挑战 . 21 表 3 网络数据挖掘的分类 5 . 27 表 4 超市购物清单样例 . 43 表 5 ID3、C4.5 和 CART 的比较总结 . 54 表 6 两个比较受欢

19、迎的微博名人在 2018 年 3 月到 2018 年 5 月间的一部分微博数据54 表 7 常用技术趋势分析方法的优缺点对比 . 83 表 8 科学计量学与文献计量学、信息计量学的关系 . 90 表 9 LDA 模型中的变量和标记 . 108 表 10 多媒体数据挖掘的 SWOT 分析表 . 109 表 11 大数据的特征 . 114 表 12 数据挖掘领域论文主题分布 . 125 表 13 专题分会场报告主题 . 145 表 14 h-index TOP1000 全球学者的国家统计 . 214 表 15 h-index TOP1000 学者的中国省市统计 . 215 表 16 论文总被引频次

20、排名前 10 的国家 . 216 表 17 论文总被引频次排名前 10 的全球机构 . 217 表 18 论文总被引频次排名前 10 的中国机构 . 218 表 19 合作论文数量排名前 10 的国家列表 . 219 表 20 数据挖掘领域关键词的论文数统计 . 284 表 21 数据挖掘研究热点子领域的代表性学者的学术指标统计 . 285 表 22 数据挖掘相关国家自然科学基金项目分类情况(2010-2020 年) . 287 表 23 数据挖掘领域关键词列表 . 306 人工智能之数据挖掘 Research Report of Data Mining X 表 24 数据挖掘领域代表性期刊和

21、会议列表 . 307 表 25 数据挖掘相关国家自然科学基金项目列表(2010-2020 年) . 307 人工智能之数据挖掘 Research Report of Data Mining XI 1 1 概述篇概述篇 人工智能之数据挖掘 Research Report of Data Mining XIII 1 概述篇概述篇 1.1 数据挖掘基本概念 数据挖掘(Data Mining)的广义观点:从数据库中抽取隐含的、以前未知 的、具有潜在应用价值的模式或规则等有用知识的复杂过程,是一类深层次的 数据分析方法。数据挖掘旨在从数据中挖掘知识,是一种跨学科的计算机科学 分支,使用人工智能、机器学习、统计学和数据库等交叉学科领域方法在大规 模、不完全、有噪声、模糊随机的数据集中自动搜索隐藏于其中的有着特殊关 系性的数据和信息,并将其转化为计算机可处理的结构化表示,是知识发现的 一个关键步骤(如图 1 所示) 1。 图 1 数据挖掘是知识发现的核心过程 知识发现是从各种媒体表示信息中,根据不同的需求获得知识的过程,向 使用者屏蔽原始数

友情提示

1、下载报告失败解决办法
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。

本文(2020升级版:人工智能之数据挖掘(334页).pdf)为本站 (X-iao) 主动上传,三个皮匠报告文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三个皮匠报告文库(点击联系客服),我们立即给予删除!

温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。
客服
商务合作
小程序
服务号
会员动态
会员动态 会员动态:

wei**n_... 升级为高级VIP  wei**n_...  升级为高级VIP

wei**n_... 升级为至尊VIP  wei**n_...  升级为高级VIP

 wei**n_... 升级为高级VIP 180**21...  升级为标准VIP

183**36... 升级为标准VIP  wei**n_...  升级为标准VIP

 wei**n_... 升级为标准VIP   xie**.g...  升级为至尊VIP

 王** 升级为标准VIP 172**75...  升级为标准VIP 

 wei**n_... 升级为标准VIP wei**n_... 升级为标准VIP 

 wei**n_...  升级为高级VIP 135**82... 升级为至尊VIP 

130**18...  升级为至尊VIP  wei**n_...  升级为标准VIP

 wei**n_... 升级为至尊VIP  wei**n_... 升级为高级VIP 

130**88... 升级为标准VIP  张川  升级为标准VIP

wei**n_...  升级为高级VIP 叶** 升级为标准VIP 

wei**n_... 升级为高级VIP   138**78... 升级为标准VIP 

wu**i 升级为高级VIP  wei**n_...  升级为高级VIP

wei**n_... 升级为标准VIP wei**n_... 升级为高级VIP 

 185**35... 升级为至尊VIP  wei**n_... 升级为标准VIP

186**30...   升级为至尊VIP 156**61...  升级为高级VIP

130**32... 升级为高级VIP  136**02...  升级为标准VIP

wei**n_... 升级为标准VIP  133**46...  升级为至尊VIP

wei**n_... 升级为高级VIP  180**01... 升级为高级VIP

130**31...   升级为至尊VIP  wei**n_... 升级为至尊VIP

微**... 升级为至尊VIP    wei**n_... 升级为高级VIP

 wei**n_... 升级为标准VIP  刘磊 升级为至尊VIP

 wei**n_... 升级为高级VIP  班长 升级为至尊VIP 

 wei**n_...  升级为标准VIP  176**40... 升级为高级VIP

 136**01... 升级为高级VIP 159**10...  升级为高级VIP

 君君**i...  升级为至尊VIP wei**n_... 升级为高级VIP 

 wei**n_... 升级为标准VIP  158**78... 升级为至尊VIP

 微**... 升级为至尊VIP  185**94... 升级为至尊VIP  

 wei**n_...  升级为高级VIP  139**90... 升级为标准VIP

131**37...  升级为标准VIP 钟** 升级为至尊VIP 

 wei**n_... 升级为至尊VIP 139**46...  升级为标准VIP

wei**n_... 升级为标准VIP   wei**n_... 升级为高级VIP  

150**80...  升级为标准VIP wei**n_...  升级为标准VIP

GT  升级为至尊VIP 186**25...  升级为标准VIP

 wei**n_...  升级为至尊VIP 150**68... 升级为至尊VIP 

 wei**n_...  升级为至尊VIP 130**05... 升级为标准VIP 

wei**n_... 升级为高级VIP   wei**n_...  升级为高级VIP

wei**n_...  升级为高级VIP 138**96... 升级为标准VIP 

135**48... 升级为至尊VIP   wei**n_...  升级为标准VIP

 肖彦 升级为至尊VIP   wei**n_... 升级为至尊VIP

 wei**n_... 升级为高级VIP  wei**n_...  升级为至尊VIP

 国**... 升级为高级VIP   158**73... 升级为高级VIP 

  wei**n_... 升级为高级VIP wei**n_... 升级为标准VIP 

 wei**n_...  升级为高级VIP  136**79... 升级为标准VIP

 沉**... 升级为高级VIP  138**80... 升级为至尊VIP 

 138**98... 升级为标准VIP  wei**n_... 升级为至尊VIP 

wei**n_...  升级为标准VIP wei**n_...   升级为标准VIP

wei**n_...  升级为至尊VIP  189**10... 升级为至尊VIP 

wei**n_...  升级为至尊VIP 準**... 升级为至尊VIP