1、数据湖的初步探索与实践落地 郑志升 数据湖初探 ODS - 数据增量仓 DWD - Append/Upsert增量 未来展望 分享纲 数据湖初探 早期数据架构 Bilibili 存在痛点 - 时效性 传输管道缺乏计算能 数据法前置清洗,落地后加重ODS到DW负担 Mysql法实时更新,效查询 Mysql的数据,采Datax按天同步,时效性不 离线和实时的gap难满 部分数据,对于纯实时则成本过,纯离线则时效太差 Mysql数据的仓时效不够,超规模的业务表同步时间过且不稳定 存在痛点 - 稳定性 资源编排压 量离线作业资源集中爆发在凌晨后,难打散,SLA低 DW和ADS层的优化难 离线按天计算任
2、务,SQL经常会出现数据倾斜,资源OOM等 作业启动时间晚,报表产出慢 DW层严重依赖ODS层数据的产出归档 旦DW层计算产出慢(故障),整体最终ADS的报表产出就会SLA不达标 初窥Snowflake Paper Bilibili 存储计算分离 从Share-Nothing到Share-Data Data Storage MVCC、LSM、time-travel VM层 SSD、Cache,状态file stealing Cloud Services 查询优化器、元数据存储、鉴权 资源管理和事务管理等。 解读Data Storage Append/Upsert S3和HDFS本身只能appe
3、nd,将table分成lager immutable files 基于Meta实现件级复写的更新,常模式有Copy on Write,Merge On Read Meta 采k-v store,类似Hbase,存储些件的statistics、locks、logs 件级索引,有利于计算剪枝,常映射为recordkey-file-bucket-table MVCC 采Snapshot IsoIation实现事务机制,Snapshot持Time-travel 类undo log,记录Insert、Update、Delete、Merge的Ops 结合Snowflake Data Storage理念,提升数据价值(时效性)? 核诉求:持 Append、Upsert增量写 架构升级 - 增量湖 更的时效性 持数据Append+Upsert 底层依赖Flink、HUDI Lancer - 数据传输架构
1、下载报告失败解决办法 2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。 3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。 4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
2020年终大会-大数据应用:9-1.pdf
2020年终大会-大数据应用:9-4.pdf
2020年终大会-大数据应用:9-5.pdf
2020年终大会-大数据应用:9-3.pdf
2020年终大会-大数据架构:5-2.pdf
2020年终大会-数据产品:8-2.pdf
2020年终大会-大数据架构:5-3.pdf
2020年终大会-大数据架构:5-5.pdf
2020年终大会-大数据架构:5-4.pdf
2020年终大会-大数据架构:5-1.pdf
三个皮匠报告专业的行业报告下载站,每日更新,欢迎大家关注!
copyright@2008-2013 长沙景略智创信息技术有限公司版权所有 网站备案/许可证号:湘B2-20190120
专属顾问
机构入驻、侵权投诉、商务合作
三个皮匠报告官方公众号
验证即登录,未注册将自动创建三个皮匠报告账号
使用 微信 扫一扫登陆