1、协办方直播支持 腾 讯 大 数 据 技 术 系 列 沙 龙 第 3 期 新一代数据湖技术 陈俊杰 腾讯TEG 数据湖研发组 高级工程师 数据湖分析之Upsert 功能详解 传统数仓入库痛点 新一代数据湖技术 下一步展望 目录 传统数仓数据入库痛点 典型场景:业务数据(SQL/NoSQL)全量入库 典型T+1方案,数据延迟大 全量扫瞄源库,给源库造成压力,同时浪费计算和存储资源。例如使用Sqoop 限制:源库信息变更不能同步到数仓,例如:Schema变换 传统数仓数据入库痛点 改进的场景:CDC导入到Kafka再导入到HBase, Kudu HBase, Kudu无法存储全量数据,需要再次导入到
2、Hive库分析 整个流程需要多个组件联动,部署复杂 限制:仍然无法解决数据Schema变动情况 腾讯大数据TDW入库 腾讯大数据场景:TDBANK入库 消息分拣层分拣消息落地成HDFS文件,定时启动Hive任务进行入库操作 数据延迟依赖于定时任务,以及Hive入库Job运行情况 无法处理延迟到达数据,延迟到达数据重新入库导致数据丢失 新一代数据湖技术 全新的数据入湖方式 CDC 新一代数据湖Upsert技术优势 ACID & Snapshot 读写分离,数据落 地即可用 历史信息可追溯 Row-level update CDC增量更新 延迟数据修正 Table Evolution 文件组织方式
3、更灵 活,不再依赖目录 分区 支持列增删改 Upsert操作简介 Upsert是根据一张源表数据,对目标表的数据进行插入、删除和更新。它的典型SQL语 法入下所示: MERGE INTO db_name.target_table AS target_alias USING db_name.source_table AS source_alias ON WHEN MATCHED AND THEN WHEN MATCHED AND THEN WHEN NOT MATCHED AND THEN 其中 = DELETE | UPDATE SET * | UPDATE SET column1 = value1 , column2 = value2 . = INSERT * | INSERT (column1 , column2 .) VALUES (value1 , value2 .) Upsert
1、下载报告失败解决办法 2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。 3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。 4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
腾讯云+DLC+支持百万级实时Upsert的企业级数据湖计算实践全解析.pdf
Iceberg实时湖仓数据分析性能优化.pdf
数据湖超车道:StarRocks 如何借助物化视图加速数据分析.pdf
矢量数据湖.pdf
Datafun-数据湖联邦分析特性揭秘 v.2.0 .pdf
食品饮料行业招股说明书数据详解系列之:锅圈食品-230405(20页).pdf
食品饮料行业招股说明书数据详解系列之:紫燕食品-210703(20页).pdf
数据湖和湖仓一体产业观察(1).pdf
3-5 Kyligence Cloud 云上数据湖分析的竞争优势分析.pdf
湖仓一体的基础:联机数据湖(29页).pdf
三个皮匠报告专业的行业报告下载站,每日更新,欢迎大家关注!
copyright@2008-2013 长沙景略智创信息技术有限公司版权所有 网站备案/许可证号:湘B2-20190120
专属顾问
机构入驻、侵权投诉、商务合作
三个皮匠报告官方公众号
验证即登录,未注册将自动创建三个皮匠报告账号
使用 微信 扫一扫登陆