《艺卓:MaxCompute 对开源系统的支持与融合(14页).pdf》由会员分享,可在线阅读,更多相关《艺卓:MaxCompute 对开源系统的支持与融合(14页).pdf(14页珍藏版)》请在三个皮匠报告上搜索。
1、MaxCompute 对开源系统的支持与融合高级专家 艺卓-2017MaxCompute 2.0 2016阿里自研的大数据计算平台MaxCompute 支持 OpenSourceMaxCompute 和开源 2017阿里自研的一站式大数据解决方案MaxCompute 融合 OpenSourceMaxCompute 2.0开源的层次协议及工具编程接口计算引擎MaxCompute 2.0开源的协议及工具 JDBC对接已有软件提供标准 JDBC 编程接口 Hive Proxy提供 Hive Thrift 协议兼容接口对接 Hive 社区已有工具 ETL 工具JDBCApacheZeppelinSQL
2、 Workbench/JTalenDPentahoQlikMaxCompute 2.0开源的编程接口 MaxCompute SQL 2.0 兼容 Hive 类型系统 兼容 Hive 内建函数 兼容 Hive 用户定义函数 支持 External Table CTE/INSERT/JOIN/UNION 等语句增强MaxCompute 2.0开源的编程接口 RODPS 直接操作 MaxCompute 数据 支持 R 生态已有工具及代码库MaxCompute 2.0开源的编程接口 PyODPS 高度兼容 Pandas DataFrame 直接赋予社区代码大数据计算能力 对接 Jupyter Note
3、book 等社区生态后端编译成MaxCompute SQL 执行MaxCompute 2.0开源的计算引擎优点:快速搭建 学习资料 保护代码投资缺点:数据分散 数据一致问题 资源效率SparkDruidDrillFlinkKylinElasticSearchPrestoMaxCompute 2.0联合计算平台开源计算引擎更好的MaxCompute开源的计算引擎 保持自研优势拥抱开源生态 数据存储统一 资源调度统一 安全控制统一MaxCompute 2.0资源调度数据集成用户、权限体系安全隔离挑战MaxCompute 2.0YarnClientYarnAppMasterYarnContainer
4、YarnContainerHistoryServerBrowser联合计算平台架构MaxCompute 2.0YarnClient*YarnAppMasterYarnContainerYarnContainerHistoryServerBrowserCupidMasterCupidWorkerCupidWorkerCupidTaskAgentServerProxyServer联合计算平台架构用户认证鉴权受控读写数据容器隔离开源代码受控 Web 访问统一资源调度MaxCompute 2.0val sc=new SparkContext(conf)val odpsOps=OdpsOps(sc)va
5、l words=odpsOps.readTable(project,tableIn,readTransfer)val wordCounts=words.map(x=(x,1).reduceByKey(_+_)odpsOps.saveToTable(project,tableOut,saveTransfer)spark-submit-master yarn-cluster-class com.aliyun.odps.spark.example.WordCount.jarMaxCompute 2.0Java SDKPYODPSMaxCompute Restful APIJDBCdriverETLToolDataframe(Pandas)MaxCompute Tasks(SQL、MR、PAI)HiveProxy总结与展望:与开源融合的一站式大数据解决方案RODPS联合计算平台(Spark,ElasticSearch)OpenSource API(Spark,ElasticSearch)飞天协议接口引擎MaxCompute 2.0