上海品茶

您的当前位置:上海品茶 > 报告分类 > PDF报告下载

2020年终大会-大数据应用:9-2.pdf

编号:29875 PDF 35页 1.37MB 下载积分:VIP专享
下载报告请您先登录!

2020年终大会-大数据应用:9-2.pdf

1、数据湖的初步探索与实践落地 郑志升 数据湖初探 ODS - 数据增量仓 DWD - Append/Upsert增量 未来展望 分享纲 数据湖初探 早期数据架构 Bilibili 存在痛点 - 时效性 传输管道缺乏计算能 数据法前置清洗,落地后加重ODS到DW负担 Mysql法实时更新,效查询 Mysql的数据,采Datax按天同步,时效性不 离线和实时的gap难满 部分数据,对于纯实时则成本过,纯离线则时效太差 Mysql数据的仓时效不够,超规模的业务表同步时间过且不稳定 存在痛点 - 稳定性 资源编排压 量离线作业资源集中爆发在凌晨后,难打散,SLA低 DW和ADS层的优化难 离线按天计算任

2、务,SQL经常会出现数据倾斜,资源OOM等 作业启动时间晚,报表产出慢 DW层严重依赖ODS层数据的产出归档 旦DW层计算产出慢(故障),整体最终ADS的报表产出就会SLA不达标 初窥Snowflake Paper Bilibili 存储计算分离 从Share-Nothing到Share-Data Data Storage MVCC、LSM、time-travel VM层 SSD、Cache,状态file stealing Cloud Services 查询优化器、元数据存储、鉴权 资源管理和事务管理等。 解读Data Storage Append/Upsert S3和HDFS本身只能appe

3、nd,将table分成lager immutable files 基于Meta实现件级复写的更新,常模式有Copy on Write,Merge On Read Meta 采k-v store,类似Hbase,存储些件的statistics、locks、logs 件级索引,有利于计算剪枝,常映射为recordkey-file-bucket-table MVCC 采Snapshot IsoIation实现事务机制,Snapshot持Time-travel 类undo log,记录Insert、Update、Delete、Merge的Ops 结合Snowflake Data Storage理念,提升数据价值(时效性)? 核诉求:持 Append、Upsert增量写 架构升级 - 增量湖 更的时效性 持数据Append+Upsert 底层依赖Flink、HUDI Lancer - 数据传输架构

友情提示

1、下载报告失败解决办法
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。

本文(2020年终大会-大数据应用:9-2.pdf)为本站 (X-iao) 主动上传,三个皮匠报告文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三个皮匠报告文库(点击联系客服),我们立即给予删除!

温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。
会员购买
客服

专属顾问

商务合作

机构入驻、侵权投诉、商务合作

服务号

三个皮匠报告官方公众号

回到顶部