上海品茶

您的当前位置:上海品茶 > 报告分类 > PDF报告下载

郑锴-数据湖存储架构选型_compressed.pdf

编号:29786 PDF 22页 728.95KB 下载积分:VIP专享
下载报告请您先登录!

郑锴-数据湖存储架构选型_compressed.pdf

1、数据湖存储架构选型 阿里巴巴 郑锴 2020-11-1 CONTENT 数据湖是个潮流 01 02 湖存储/加速:挑战很 03 “完美” 选项之 checklist 04 阿云上的 JindoFS 录 02 数据湖是个潮流 什么是数据湖 统、集中地存储全部原始数据 结构化、半结构化、图/视频/频 使 BI + AI 来分析 不只是 SQL 为什么要数据湖 数据孤岛 计算 管理 弹性 数据湖架构 数据湖加速 (JindoFS, Alluxio) 数据湖存储 (OSS, S3, HDFS) 数据湖构建 数据湖管理 元数据服务 数据开发 数据湖集成 数据治理 数据大屏 机器学习 数据报表 数据挖掘

2、数据湖应用 数据湖计算 数据湖 02 湖存储/加速:挑战很 海量数据 数据规模 PB、EB 件规模 亿级件数据 超录 成本 存储和计算分离 吞吐 性能 丰富的计算和场景 AI 训练 数据 分析、交互式、实时计算 计算场景 EMR、ECS 建、云原、混合云 架构升级和迁移 数据 迁移、校验 作业 迁移、对 运维、治理 Ranger 权限、审计 03 “完美” 选项之 checklist CheckList 1. 基于对象存储,规模存储能 2. 录元数据操作能 3. 策略灵活的缓存加速能 4. 和计算打通优化的能 CheckList (contd) 5. 持数据湖新型表格存储的能 6. 归档/压缩

3、/安全存储的能 7. 全的数据+AI态持 8. 强迁移能甚是缝迁移能 04 阿云上的 JindoFS Hadoop OSS 持和优化 元数据优化 百万级件数录,幅提升: list, delete,du,count Rename 优化 百万级件数录,rename 操作: 幅提升,持重试,回退清理 须 rename 的 Jindo Job Committer 读写 IO 优化 充分异步并发,发挥 OSS 吞吐 OSS 多版本持 优化性能开销 OSS 缓存加速系统 数据致性 元数据致性 缓存数据致性 磁盘缓存 写时缓存 读时缓存,避免读放 磁盘负载均衡 位清理 缓存块 LRU 淘汰 基于 OSS 的存储系统 管理元数据 内存缓存 细粒度锁 件数据分块存放 OSS 1 备份 缓存 1 备份 性能优化 元数据操作普遍 HDFS 缓存读 + OSS读 HDFS 扩展 基于 OSS 的 规模平扩展 Ch

友情提示

1、下载报告失败解决办法
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。

本文(郑锴-数据湖存储架构选型_compressed.pdf)为本站 (X-iao) 主动上传,三个皮匠报告文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三个皮匠报告文库(点击联系客服),我们立即给予删除!

温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。
会员购买
客服

专属顾问

商务合作

机构入驻、侵权投诉、商务合作

服务号

三个皮匠报告官方公众号

回到顶部