阿里巴巴开源大数据平台演进之路-开源大数据与AI行业实践论坛（22页）.pdf

编号：84448

PDF 22页 14.87MB 下载积分：VIP专享

下载报告请您先登录！

阿里巴巴开源大数据平台演进之路-开源大数据与AI行业实践论坛（22页）.pdf

1、阿里巴巴开源大数据平台演进之路王峰（莫问）阿里云研究员、开源大数据平台负责人200920152021云梯-Hadoop大数据平台大数据上云大数据实时化云原生大数据平台第一阶段第二阶段第三阶段阿里巴巴开源大数据平台演进历程ClickhouseContents目录01基于 Hadoop 构建第一代大数据平台02大数据上云以及实时化演进03大数据进入云原生时代基于 Hadoop 构建第一代大数据平台01云梯阿里巴巴第一代开源大数据平台200920013第一个 Hadoop 集群上线Hadoop 达到千台规模Oracle RAC 迁移完成跨机房集群架构上线20010002000

2、3000800000060008000009200132014Hadoop 集群规模Hadoop-2.0 架构上线大数据上云以及实时化演进02EMR 云上 Hadoop 大数据平台中小企业对开源大数据技术需求激增大数据分析对集群算力有较大的要求云计算天然就是提供弹性计算能力E-MapReduceCloudHadoopSparkPrestoKafkaHBaseHive2016年离线计算2017年交互式分析消息队列2019年实时计算深度学习2021年数据湖格式数据缓存EMR-1.0 Hadoop 存算一体架构计算&存储基础资源

3、分布式计算引擎云主机存储成本高o 容量预留，磁盘空间利用率低o 缺乏冷热分层管理，存储效率低集群规划难o 计算与存储耦合，无法灵活容量规划o 机器带有状态，无法弹性扩缩容o 交付周期长，阻碍业务快速发展运维负担重o HDFS HA 架构复杂，门槛高o HDFS 故障恢复慢，风险大o HDFS 坏盘、坏节点随规模增加分布式存储系统EMR-2.0 数据湖存算分离架构计算层存储加速层存储格式层开源大数据引擎HDFS 兼容与加速数据存储层数据湖存储格式数据湖存储云对象存储存算分离架构、支持弹性扩缩容支持容器化混布，资源利用率高数据入湖、ETL 和分析数据与元数据访问加速兼容 HDFS

4、API 与完整生态联合 OSS 提供云原生全托管 HDFS 开放的数据存储格式，ACID 保证支持实时更新等特性，实时离线一体化元数据管理对计算引擎更加友好云原生存储，免运维，高可用按量付费，弹性使用，总成本低冷热分层数据存储，智能高效EMR-2.0 开源数据湖解决方案数据库 BinlogAPP 日志ODSDWDDWS数据湖实时入湖阿里云 OSS 对象存储阿里云 Jindo FSHDFS APIIOT 信息流大数据从规模化向实时化演进双 11 电商交易统计实时大屏城市交通路况实时监测实时个性化推荐基于 Flink 构建实时大数据平台阿里集团最核心业务场景双11实时推荐提升GMV

5、初露锋芒发源于搜推广20019 阿里集团实时数据业务双11 GMV 大屏秒级更新集团内部平台化扩展到全集团基于 Flink 的实时计算产品开始服务标杆客户阿里云对外产品化公有云上线收购 Flink 创始公司 Ververica 成为 Flink 社区最大推动者全球最强 Flink 团队会师收购 Flink 创始公司2020 全球主流 IT 公司全面采用 Flink 全球主流云厂商推出 Flink 产品 Flink 成为实时计算领域事实标准业界事实标准Flink 推动阿里集团全链路实时化数据中台GMV 等实时大屏商业化链路全面实时化计算能力：50 亿条记录/

6、秒计算规模：X万 Jobs计算资源：百万核 CPU搜推广在线机器学习物流实时订单监测在线服务日志数据库更新日志安全实时安全风控电商交易库存实时对账交通实时路况检测Flink 推动阿里集团实时离线一体化业务开发统一一套代码逻辑服务层存储统一同比灵活查询自研实时数仓（Hologres）自研离线数仓（MaxCompute）业务层逻辑统一面向逻辑表开发Flink SQL流批统一逻辑表计算引擎统一数据强一致性Flink 流任务Flink 批任务消息队列映射映射流批一体计算层实时分区历史分区流批一体存储层流和批一套 SQL 报表研发效率提升4 倍开发效率流和批一套引擎实时离线数据口径天然一致业务

7、一致性流和批任务混布计算集群资源节省一半资源效率Flink 开源实时数仓助力云上企业Schema RegistryCK Catalog数据库 BinlogAPP日志ODSDWDADS明细层加工汇聚层加工交互式分析推动 Apache Flink 社区快速发展 Flink 用户和开发者邮件列表活跃度排名第 1 Flink 在 Apache 代码仓库中代码提交次数排名第 2 Flink 在 Github 网站上的用户访问量排名第 2Apache FY2020 财年报告02000040000600002019年7月2019年8月2019年9月2019年10月2019年11月2019年12月2020

8、年1月2020年2月2020年3月2020年4月2020年5月2020年6月2020年7月2020年8月2020年9月2020年10月2020年11月2020年12月2021年1月2021年2月2021年3月2021年4月2021年5月2021年6月2021年7月2021年8月2021年9月“Flink 中文社区”微信公众号订阅量Apache Flink 活跃 Contributor 数量大数据进入云原生时代03阿里云开源大数据平台IAAS云原生基础资源ECS（云主机）云原生大数据平台底座平台弹性伸缩智能诊断数据开发计量计费企业安全资源调度OSS（云存储）运维部署监控报警产品EMR(半托管开源

9、大数据平台)全托管开源大数据服务DatalakeSparkPresto实时计算 FlinkFlinkSparkHiveClickHouseKafkaFlinkStarRocksDataflowDatabricksImpalaOLAP数据湖构建产品（Data Lake Formation）元数据管理权限管理缓存服务入湖管理探索分析ACK（容器服务）ConfluentKafka阿里云开源大数据团队Apache Committer/PMC MemberApache TLPASF Member10+30+4未来规划实时化数仓实时化数据湖实时化实时离线一体化K8S 容器化混布Serverless 架构按需弹性扩缩容智能诊断分析智能参数调优数据冷热分层智能化云原生化THANKS bestPresentationbestPresentationbestPresentationbestPresentationbestPowerPointbestPowerPointteamBestteamBestBestBest-PresentationPresentationbestPowerPointbestPowerPoint

友情提示

1、下载报告失败解决办法
2、PDF文件下载后，可能会被浏览器默认打开，此种情况可以点击浏览器菜单，保存网页到桌面，就可以正常下载了。
3、本站不支持迅雷下载，请使用电脑自带的IE浏览器，或者360浏览器、谷歌浏览器下载即可。
4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩，下载后原文更清晰。

本文（阿里巴巴开源大数据平台演进之路-开源大数据与AI行业实践论坛（22页）.pdf）为本站（云闲）主动上传，三个皮匠报告文库仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对上载内容本身不做任何修改或编辑。若此文所含内容侵犯了您的版权或隐私，请立即通知三个皮匠报告文库（点击联系客服），我们立即给予删除！

温馨提示：如果因为网速或其他原因下载失败请重新下载，重复下载不扣分。