1、从阿里云梯到E-MapReduce 无谓(高级技术专家)阿里云-数据库技术组-EMR HadoopHadoop的过去现在和未来 的过去现在和未来 2008年加入阿里,搜索技术中心分布式计算团队 2009年,阿里云数据平台,云梯Hadoop集群开发和维护 2014年,ODPS(MaxCompute),性能和稳定性 2016年,阿里云E-MapReduce关于我(吴威,花名无谓)1.Hadoop 10年发展历程 2.阿里集团的Hadoop之路 3.阿里云E-MapReduce:云上Hadoop服务 目 录 content Hadoop10年发展历程 2006 2007 2008 2009 2010
2、 2011 2012 2013 2014 2015 参考:http:/ KuduIbisFalconKnoxFlinkParquetSentrySparkTezImpalaDrillKa=aFlumeBigtopOozieHCatalogHueSqoopAvroHiveMahoutHBaseZooKeeperPigYARNCoreHadoop KnoxFlinkParquetSentrySparkTezImpalaDrillKa=aFlumeBigtopOozieHCatalogHueSqoopAvroHiveMahoutHBaseZooKeeperPigYARNCoreHadoop Parq
3、uetSentrySparkTezImpalaDrillKa=aFlumeBigtopOozieHCatalogHueSqoopAvroHiveMahoutHBaseZooKeeperPigYARNCoreHadoop SparkTezImpalaDrillKa=aFlumeBigtopOozieHCatalogHueSqoopAvroHiveMahoutHBaseZooKeeperPigYARNCoreHadoop FlumeBigtopOozieHCatalogHueSqoopAvroHiveMahoutHBaseZooKeeperPigYARNCoreHadoop SqoopAvroHi
4、veMahoutHBaseZooKeeperPigCoreHadoop HiveMahoutHBaseZooKeeperPigCoreHadoop HBaseZooKeeperPigCoreHadoop PigCoreHadoop CoreHadoop(HDFS,MapReduce)离线平台到在线平台 批量 计算 离线 计算 T+1流式 计算 实时 计算 在线 分析 YARN成为大数据操作系统 Spark Flink Tez Storm HiveonSpark HiveonTez PigonStorm MapReduceOnly YARN之前 YARN之后 Hadoop成为企业级解决方案 数据
5、存储和计算 HDFS、HBase、Kudu YARN、Mesos Spark、Hive、Pig、MR、Impala、Presto 安全性 Sentry Knox Ranger 数据管理 Falcon Atlas 运维 Ambari Ozzie 图形化分析工具 Hue Zeppelin 数据流工具 Kafka、Flume、Sqoop Mahout-Oryx:批处理模式到实时模式的机器学习工具分布式编程框架都有机器学习的库并且扩展到更多的语言 SparkMLlib、FlinkML SparkR、Python深度学习和Spark、Hadoop结合更加紧密:CaffeOnSpark、Deeplearn
6、ing4j TensorFlow:和HDFS、Spark的结合 机器学习和人工智能 2008年-2009年:多部门独立的Hadoop集群 2009年-2015年:云梯集群和服务 集群统一运维,专业的开发团队 数据统一管理,集团层面的全局视图 资源错峰分配,整体成本最优 2015年-至今:阿里云E-MapReduce 阿里云对外的Hadoop基础服务阿里集团的Hadoop之路 全局资源调度:支持业务优先级(基于FairScheduler)安全性:HDFS上的扩展ACL,Hive安全认证和授权 稳定性:消除异常作业对全局的影响;MasterHA 扩展性:Master节点的单点性能压力;跨机房部署架
7、构 云梯医生:集群诊断系统 云梯:阿里内部的Hadoop服务 云梯跨机房部署架构 机房1 机房2 用户Gateway 内部网络 NN1 NN2 JT1 JT2/group/B/group/D/group/A/group/C DNTT DNTT DNTT DNTT DNTT groupB DNTT groupA Task Task Task Task Task DNTT/group/B/tbl1/group/A/tbl2 CrossNode 云梯医生 集群全局指标 存储、计算利用率趋势 用户/组资源使用趋势分析 Resource*sec,HDFS/local r/w 机器/机器组视图 业务作业对比(vs.前一天/前一周)数据量增长趋势 不同优先级作业消耗的资源 Master节点关键指标 定制化Hadoop版本 Hadoop生态系统的完整支持:Hive、Spark、HBase、Pig、Presto等等 云产品深度整合:OSS、LogService、MaxCompute 运维自动化:一键部署、一键扩容、监控报警 专家服务 阿里云E-MapReduce:云上Hadoop服务 云存储成为和HDFS并列的分布式存储方案 AWSS3、AzureDatalake、阿里云OSS进入 Hadoop核心版本 离线系统和流式系统的整合 ApacheBeam 内存计算Hadoop生态圈未来展望