上海品茶

您的当前位置:上海品茶 > 报告分类 > PDF报告下载

阿里云大数据计算服务(MaxCompute)专场(25页).pdf

编号:84243 PDF 25页 6.58MB 下载积分:VIP专享
下载报告请您先登录!

阿里云大数据计算服务(MaxCompute)专场(25页).pdf

1、欢迎大家毗邻阿里云大数据计算服务(MaxCompute)专场MaxCompute 2.0MaxCompute 2.0:阿里巴巴的大数据进化之路阿里巴巴通用计算平台负责人/资深专家关涛The evolution of Alibaba Big Data PlatformDirector/SeniorStaffEngineer of Alibaba Computing PlatformTony GUANMaxCompute 2.0概述|今天专场的议题阿里巴巴数据平台进化之路MaxCompute 2.0 Moving forward2 3 1MaxCompute 2.0MaxCompute/ODPS-

2、阿里巴巴和阿里云大数据的旗舰计算平台99%存储+95%计算60K+/10+50套+250%X阿里巴巴内部统一的大数据平台,支持阿里所有业务超大规模跨DC调度容灾能力作为大数据旗舰平台专有云部署到各行各业大数据旗舰平台公共云支撑上层”大脑”和数加BigBench 2.5X高性能,低成本MaxCompute 2.0阿里云大数据计算服务(MaxCompute/ODPS)数据总线(DataHub)基于Pub/Sub的数据同步服务大数据计算平台MaxCompute/ODPS计算平台人工智能PAIDW Suite(D2/Base)开发套件流水线管理开发套件数据管理蚂蚁金服客满聚划算天猫阿里妈妈淘宝B2B应

3、用层菜鸟网络UC高德合一安全部搜索数据服务ASRNLPTTSOCRImage/Video Analysis机器翻译语音识别API GatewayDataV 数据可视化智能大脑 MaxCompute 2.0概述|今天专场的议题阿里巴巴数据平台进化之路MaxCompute 2.0 Now and Moving forward2 3 1MaxCompute 2.0阿里巴巴大数据平台的进化之路MaxCompute 2.0第一代平台开始运行 自主研发的云计算平台飞天的第一个集群稳定运行。MaxCompute作为核心运算引擎。开始统一数据平台数据统一存储数据标准统一数据安全统一管理MaxCompute2.

4、0单集群过万台,12+集群对内,性能/成本再优化全球部署,支撑业务发展对外大数据能力输出关键年飞天MaxCompute大数据平台研发启动愿景:打造运算/分享数据第一平台2009.092012.07具备超大规模海量数据处理能力 单集群规模5000台服务 飞天集群正式开始对外运营,技术领先。2013.08大数据平台开始日趋成熟多级群能力支撑双十一海量交易支撑阿里金融业务创新登月计划完成,云梯1/2合并201420.10IOE年代大数据开始发展,在统一机器和数据中心的基础上,各个BU各自为战Oracle之巅亚洲最大单日计算仍然无法完成GP项目启动2009Greenplu

5、m之巅(天花板)Hadoop之巅亚洲最大,PB,5000台单数据中心扩展上限多租户安全不受控自主可控能力差20132010MaxCompute 2.0登月计划 一个统一的过程我们为什么要登月?在统一的数据中心和硬件基础上(IaaS),集团存在大大小小数十个计算平台;从技术上,阿里集团内部的技术发展路线上曾经是双“强”并立:支撑淘宝、支付宝等业务的以Hadoop为底层的云梯1和支撑阿里云、阿里金融等业务的以自主研发“飞天”及MaxCompute为底层的云梯2。当时Hadoop平台面临的问题:扩展性差,规模有限制,当时无法突破5千台稳定规模;无法满足数据和业务的高速发展;存在包括NameNode,

6、JobTracker,HiveServer等多个单点;性能低,无法满足在5K+规模上的极致性能要求;引擎本身每年性能提升有限开源强调的各层解耦,分层接口带来额外的性能开销;安全性不够高,Hadoop下的HDFS文件授权机制不能满足业务灵活的权限管理稳定性差,不能支持多个集群和跨集群容灾;起步简单,但后续提升困难,代码开源但反馈回社区的周期很长。很多集群变成事实上的“自研”系统;这又进一步导致的版本不统一,各个集群无法互联互通!。MaxCompute 2.0登月计划 一个统一的过程 这是一个“漫长”和“昂贵”的过程阿里巴巴集团层面牵头,“登月计划”共有24多个项目,涉及阿里巴巴和小微金服所有的事

7、业部,覆盖集团全部数据人员,其牵扯人员、资源之多,在集团内部罕见。登月1号(阿里金融),登月2号(淘宝),。,登月24号2014年1月9日,【登月计划】核心团队正式Kick Off,2015年6月30日,【登月计划】项目集正式Close。历时一年半。为了保障登月计划,MaxCompute满足所有Hadoop集群的功能,提供至少不低于其他方案的性能;并在接口,编程模型等多个方面兼容;提供完善的上云工具和数据迁移/对比工具;由于不得不在业务进行中升级,和业务方一起做无缝升级方案,“在行驶的飞机上换引擎”;MaxCompute 2.0登月计划 一个统一的过程统一后:打造了集团统一的大数据平台为我们迈

8、进DT时代以及为集团数据业务的长远发展奠定坚实基础。目前阿里集团内部计算业务运行于MaxCompute集群上,总存储能力达到EB级别,每天运行ODPS_TASK超过300万。新平台【安全性、可管理、能开放】安全性:不仅仅是ODPS本身产品的安全特性,登月过程中还启动并执行了数据分级打标、数据脱敏、ODPS授权流程、虚拟域接入在云端查询版可管理:数据管理平台不断优化,统一任务调度中心、统一数据同步工具、统一数据地图管理、统一生命周期能开放:开放数据处理服务(MaxCompute)作为云产品家族的一部分正式开放给全社会使用新平台【高性能、全面的数据统一】2014年存储资源优化节约近200PB,20

9、15计算资源优化正在不断突破。通过梳理,各业务团队的作业数/计算量分别有30%-50%的下降,一些历史遗留问题得到全面的清理。MaxCompute 2.0MaxCompute 2.0Now and moving forwardMaxCompute 2.0批处理交互内存计算迭代计算StudioDataWorks 开发套件编译器优化器Cache 缓存数据存储统一的开发环境支持多种运算模式覆盖主流语言与生态系统的联动能力基于代价和历史运行信息的优化Index支持AliORC,与原生ORC兼容,性能提升15%多种工具支持新一代大数据语言结合imperative 与 Declarative优势Whole

10、Stage CodeGen全异步IOBubble Based Scheduling分层存储(SSD,SATA,EC)MaxCompute 2.0 架构持续升级元数据管理,资源调度,任务调度运行时New SQLPythonJavaMaxCompute 2.0大数据计算 典型场景分析(从开发到上线)MaxCompute 2.0大数据计算 典型场景分析(从计算量和延迟的角度)MaxCompute 2.0大数据计算 典型场景分析(从计算量和延迟的角度)关键基线作业为关键基线作业为主(主(20%)数据处理量大(数据处理量大(80%)资源消资源消耗多(耗多(80%)数据依赖多样数据依赖多样=提升性能提升性

11、能/效率是关键效率是关键 开发开发/BI作业为主作业为主 作业量作业量大(大(80%)=开发效率开发效率+实时化是关键实时化是关键MaxCompute 2.0生产阶段Data Cooking/Pipeline Streaming ProcessingInteractive AnalysisAnalysis/ReportingBI通常是WebUI Based,有较高的延迟要求(10Sec)由人“间接”驱动,Query不固定数据量小+Pre-cooked典型作业:基于Web的定制化报表(or Tableau/Notebook based)QuickBI 通过拖拽完成数据查询Shennong 数据监

12、控SLS Log搜索更优的查询计划实时性运行时优化生态连接能力数据存储格式数据准备OnlineJobHotDataCacheIndex support in DataPlan CacheIndex based Shuffle Removing与其他系统Predicate PushdownIndex/m-Index support基于元仓的数仓建模大数据计算 交互式BI类场景分析MaxCompute 2.0生产阶段Data Cooking/Pipeline Streaming ProcessingInteractive AnalysisAnalysis/ReportingBIOnline Job

13、设计思想:针对中小规模低延迟的交互式场景提供可靠性*线上60%以上的作用已经使用OnlineJob调度*主要技术:进程常住(以服务的形式Stand by)作业间复用网络直连(避免落盘)事件驱动的调度方式基于统计和历史信息的自动切换,用户不感知大数据计算 交互式BI类场景 一个优化的例子MaxCompute 2.0生产阶段Data Cooking/Pipeline Streaming ProcessingInteractive AnalysisAnalysis/ReportingBIMap1Map2JoinabM1-0M1-1M1-2J-0J-1传统方式:磁盘Map1Map2JoinabM1-0

14、M1-1M1-2J-0Map1Map2JoinabM1-0M1-1M1-0M1-1M1-2J-0J-1网络直连Online Job内存checkpoint大数据计算 交互式BI类场景 一个优化的例子MaxCompute 2.02017 BigBench On MaxCompute 2.0+PAI100TB7830 QPM首个基于公共云服务的Benchmark首个达到7000分的引擎首个100TB规模测试集通过$371.9/QPM$12.3/QPM$2.1/QPM预付费包3年价格预付费包1月价格按需后付费价格Disclaimer:The BigBench kit used for these p

15、erformance tests is derived but not the same from TPCx-BigBench,and the results are not directly comparable.MaxCompute 2.0为什么选择MaxCompute作为大数据平台开通即用的开通即用的在线服务在线服务5分钟完成在线开通开通即拥有大数据平台 数加控制台 SDK 客户端5分钟开通 MaxCompute无需平台维护 DataIDE 基于IntelliJ的Stduio一站式大数据服务高效能高效能低成本低成本安全安全可靠可靠支持多种支持多种分布式计算模型分布式计算模型生态开放生态开

16、放兼容兼容性价比最高的大数据计算引擎保障数据在多租户环境的数据安全 2016年SortBench 100TB排序1.44$/TB成本最低 2016年SortBench 100TB排序377秒速度最快 从GB、TB到PB、EB 零运维介入按需扩展 独有的基于项目级别的数据保护机制项目级别安全 Package授权 Trusted模式 阿里云RAM跨租户访问控制 阿里集团历届双11的核心数据平台久经考验 采用标准的SQL语法SQL 在MR基础上支持MR2,Map接多个ReduceMapReduce 适合复杂的迭代计算场景图计算 OGG、Sqoop、Flume、FluentD数据上云 SQL、Hado

17、op MR、Hive Thrift社区兼容 JDBC、ODBC、R、Python Pandas、IntelliJ IDEA生态连接满足不同场景的技术需求支持多宗数据源、生态工具和社区标准MaxCompute 2.0为什么选择MaxCompute作为大数据平台集群1集群2集群n飞天分布式操作系统:一台大计算机MaxCompute:统一的计算引擎10000台10000台10000台SQLMR迭代计算图计算流计算MaxComputeStudio(基于IntelliJ)MaxCompute客户端(命令行工具)DataIDE(数据任务与流程开发)数据源数据集成工具大数据项目开发工具数据计算、管理与数据运

18、维数据分析与应用RDS 数据库OSS文件存储SLB负载均衡ECS部署应用集群CDN 内容分CDN 内容分发VPCVPC专有网有网络应用产生的数据(在阿里云)已有数据中心应用产生的数据(在其它数据中心)专线VPN连接独立的数据集LogstashOGG For MCDataX阿里云数据传输 ForMaxComputeMaxCompute客户端TunnelDataIDE(数据同步)SqoopFluentd日志RDSOSSAnalyticDBOracleDBHadoop集群CSVDataIDE(数据管理与数据运维)机器学习(深度分析)推荐引擎报表分析数据大屏MaxCompute 2.0阿里云大数据计算服务(MaxCompute)专场MaxCompute 2.0

友情提示

1、下载报告失败解决办法
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。

本文(阿里云大数据计算服务(MaxCompute)专场(25页).pdf)为本站 (云闲) 主动上传,三个皮匠报告文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三个皮匠报告文库(点击联系客服),我们立即给予删除!

温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。
会员购买
客服

专属顾问

商务合作

机构入驻、侵权投诉、商务合作

服务号

三个皮匠报告官方公众号

回到顶部