1、数据湖存储架构选型 阿里巴巴 郑锴 2020-11-1 CONTENT 数据湖是个潮流 01 02 湖存储/加速:挑战很 03 “完美” 选项之 checklist 04 阿云上的 JindoFS 录 02 数据湖是个潮流 什么是数据湖 统、集中地存储全部原始数据 结构化、半结构化、图/视频/频 使 BI + AI 来分析 不只是 SQL 为什么要数据湖 数据孤岛 计算 管理 弹性 数据湖架构 数据湖加速 (JindoFS, Alluxio) 数据湖存储 (OSS, S3, HDFS) 数据湖构建 数据湖管理 元数据服务 数据开发 数据湖集成 数据治理 数据大屏 机器学习 数据报表 数据挖掘
2、数据湖应用 数据湖计算 数据湖 02 湖存储/加速:挑战很 海量数据 数据规模 PB、EB 件规模 亿级件数据 超录 成本 存储和计算分离 吞吐 性能 丰富的计算和场景 AI 训练 数据 分析、交互式、实时计算 计算场景 EMR、ECS 建、云原、混合云 架构升级和迁移 数据 迁移、校验 作业 迁移、对 运维、治理 Ranger 权限、审计 03 “完美” 选项之 checklist CheckList 1. 基于对象存储,规模存储能 2. 录元数据操作能 3. 策略灵活的缓存加速能 4. 和计算打通优化的能 CheckList (contd) 5. 持数据湖新型表格存储的能 6. 归档/压缩
3、/安全存储的能 7. 全的数据+AI态持 8. 强迁移能甚是缝迁移能 04 阿云上的 JindoFS Hadoop OSS 持和优化 元数据优化 百万级件数录,幅提升: list, delete,du,count Rename 优化 百万级件数录,rename 操作: 幅提升,持重试,回退清理 须 rename 的 Jindo Job Committer 读写 IO 优化 充分异步并发,发挥 OSS 吞吐 OSS 多版本持 优化性能开销 OSS 缓存加速系统 数据致性 元数据致性 缓存数据致性 磁盘缓存 写时缓存 读时缓存,避免读放 磁盘负载均衡 位清理 缓存块 LRU 淘汰 基于 OSS 的存储系统 管理元数据 内存缓存 细粒度锁 件数据分块存放 OSS 1 备份 缓存 1 备份 性能优化 元数据操作普遍 HDFS 缓存读 + OSS读 HDFS 扩展 基于 OSS 的 规模平扩展 Ch
1、下载报告失败解决办法 2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。 3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。 4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
云原生数据湖存储的架构发展和数据治理-程力.pdf
Java与大数据架构:09-金竹&JEFFChina_Python on Flink & Flink on Zeppelin(1)_compressed.pdf
6-王祥虎杨华-融合趋势下基于 Flink Kylin Hudi 湖仓一体的大数据生态体系-美化zx-已定稿_compressed.pdf
三个皮匠报告专业的行业报告下载站,每日更新,欢迎大家关注!
copyright@2008-2013 长沙景略智创信息技术有限公司版权所有 网站备案/许可证号:湘B2-20190120
专属顾问
机构入驻、侵权投诉、商务合作
三个皮匠报告官方公众号
验证即登录,未注册将自动创建三个皮匠报告账号
使用 微信 扫一扫登陆