《MaxCompute 2.0概述(18页).pdf》由会员分享,可在线阅读,更多相关《MaxCompute 2.0概述(18页).pdf(18页珍藏版)》请在三个皮匠报告上搜索。
1、从ODPS到MaxCompute关涛大数据计算平台开发负责人MaxCompute 2.0 MaxCompute2.01.从ODPS到MaxCompute-阿里大数据的进化之路一个商用大数据系统发展史6年发展历程的思考2.MaxCompute 2.0 Overview全新的SQL 2.0 引擎非结构化数据处理与连接能力基于CPU/GPU的机器学习平台拥抱生态与兼容能力目 录contentMaxCompute2.01.从ODPS到MaxCompute-阿里大数据的进化之路MaxCompute2.0一个商业大数据系统要解决的问题多功能可靠性扩展性高性能安全性生态支持MaxCompute2.0123M
2、axCompute:内部产品名ODPS,是阿里巴巴内部发展的一个高效能、低成本,完全托管的“EB级”大数据计算服务内部服务对内,承担阿里巴巴集团和关联公司最大的存储和计算量,是阿里数据的汇合点,通过平台运算能力体现公司数字化决策能力成熟的商业用平台平台年轻但相对成熟,达到商业服务的水平,经过多年双11的考验,具有完善的开发、部署、运维、基线保障、数据管理流程能力对外服务对外,在公共云和专有云上对外部客户提供服务MaxCompute2.0阿里云大数据平台的发展历程自主研发平台开始运行自主研发的云计算平台飞天的第一个集群稳定运行。ODPS作为核心运算引擎。开始建立统一数据平台数据统一存储数据标准统
3、一数据安全统一管理技术进化(MaxCompute 2.0)IOE年代阿里云成立愿景:运算/分享 数据第一平台2009.092012.10具备超大规模海量数据处理能力单集群规模5K台服务器多级群能力2013大数据平台开始日趋成熟支撑双十一海量交易支撑阿里金融业务创新大数据能力开始输出20010.10MaxCompute2.0飞天 MaxCompute 架构集群1集群2集群n飞天分布式操作系统:一台大计算机MaxCompute:统一的计算引擎10000台10000台10000台SQLMR迭代计算图计算流计算MaxCompute2.0MaxCompute的特性可靠性数据跨集群同
4、步运算跨集群调度多链路容灾多功能离线+准实时SQL+MRMLTunnel+Datahub高性能100PB级数据处理超越竞品的性能数据管理能力高扩展性单机群过10000台10+异地集群海外部署安全高可用多租户资源隔离跨集群统一富生态数加IDE兼容性提升生态系统连接能力MaxCompute2.0目前使用情况总结支持支持所有所有BU单集群过单集群过万台万台上万上万名开发者名开发者几千几千个项目个项目EB级级数据规模数据规模百百PB日计算量日计算量MaxCompute2.02.MaxCompute 2.0 OverviewMaxCompute2.0新功能非结构化数据处理支持异构系统连接能力支持新功能人
5、工智能算法平台CPU/GPU统一调度MaxCompute 2.0 重磅发布富生态生态兼容支持能力高性能全新的SQL2.0引擎对外对内MaxCompute 2.0MaxCompute2.0全新的SQL 2.0引擎编译器基于AST的编译器模型,Visitor模型(Antlr v4)IDE IntelliSense,Warning支持完整的存储过程,LOOP/IFELSE判断等优化器CBO:基于代价的优化器,Volcano模型,展开各种可能等价的执行计划,然后依赖统计信息,计算这些等价执行计划的“代价”,最后最低的执行计划。运行时利用LLVM技术,在运行时生成较优的机器码;采用列式执行框架,提高CP
6、U流水线的执行效率,并提高缓存命中率;SIMDMaxCompute2.0全新的SQL 2.0引擎 实现高性能与低成本2015 GreySort 2015 GreySort 100TB100TB排序最快排序最快2016 CloudSort 100TB排序公共云性价比(已经提交)MaxCompute 100TB 全排序$81.55 (或者$0.82/TB)。是目前记录(4.51/TB)的5.5倍2016 与竞品的对比比Hive 2.0 快90%比Spark 快18%MaxCompute2.0非结构化数据处理框架与生态连接能力每天产生的80%+数据是非结构化的,可能存储在异构的系统中-文本文件文本文
7、件:log,csv,html等等-视频,音频,图像视频,音频,图像-特殊二进制格式特殊二进制格式:e.g.,基因数据基因数据MaxCompute2.0基于CPU/GPU的高性能异构算法平台(PAI)开箱即用服务丰富的计算能力,集成多种先进的分布式深度学习算法框架CPU/GPU异构平台的支持统一的分布式存储,高吞吐,低延时多机多卡支持,多卡间高速通信动态的资源调度,高性价比MaxCompute2.0一体化训练服务场景CPUCPUCPU数据预处理GPUGPUGPU模型训练在线预测统一分布式存储CPU离线计算集群GPU离线计算集群在线计算集群模型模型模型模型模型模型MaxComputeMaxComp
8、ute2.0构建基于MaxCompute的生态系统MaxComputeMaxComputeA ApplicationspplicationsJDBCJDBCRuntimeRuntimeCompiler/OptimizerCompiler/OptimizerMetaServiceMetaService/TCLIServiceTCLIServiceSandboxSandboxODBCODBCHDFSHDFSHdfsHdfs on on PanguPanguMRMRPanguPanguFuxiFuxiYarn on Yarn on FuxiFuxiServicesServicesTableauTab
9、leauODPS SDKODPS SDKOpen MROpen MRHadoop/HiveHadoop/HiveRuntime libraryRuntime libraryHive UDFHive UDFHive Hive M/RM/ROpenOpenMRMRODPSODPSUDFUDFIDE IDE StudioStudioTalendTalendOpen SourceOpen SourceSDKsSDKsInformaticaInformaticaAccentureAccenture自研自研商业生态商业生态DataIDEDataIDEAliSysAliSysR R-ODPSODPSPYPY-ODPSODPS