2-3 Iceberg 在华为终端云的探索.pdf

编号：101818

PDF 24页 5.71MB 下载积分：VIP专享

下载报告请您先登录！

2-3 Iceberg 在华为终端云的探索.pdf

1、Huawei Proprietary-Restricted Distribution1Iceberg 在华为终端云的探索李立伟华为大数据高级工程师|2|整体概述目录特性应用未来规划整体概述Part4|Hadoop一体机一体机PC时代2000s-互联网时代2010s-移动互联网时代HadoopMPPDBAI分布式+Cloud分布式+通用服务器集群+一体机单机+小机湖仓一体Data Lakehouse大数据+数据仓库数据仓库集市集中式高可靠分布式高扩展Lakehouse湖内建仓单机基本可用时序/时空2020s 云原生数据湖时代（云、AI、多元分析）Hadoop-Data Marts实时处理机器

2、学习数据科学ETL数据准备BI报表-机器/深度学习数据科学BI流分析-ETLBI报表Data MartsData Warehouse原始数据预清洗数据数据仓库数据集市统一目录统一安全湖仓一体数据分析技术演进趋势：大数据平台-数据湖-湖仓一体5|使用传统的目录方案进行数据管理在传统方案，例如Hive中，表被定义为一个或多个目录的全部数据。组成表的数以目录级别进行跟踪，这些数据被存储在Hive元存储中完成。分区值通过目录路径定义：适用于几乎所有处理引擎，因为它是村里唯一的希望自从大数据被更广泛采用以来，一直是事实上的标准。存储格式无关分区级别原子性提供了整个生态系统中的“元数据描述”即使微小的变更

3、依旧效率低下多分区修改无法保证安全性多个作业同时修改一份数据无法保证安全性列出大表的目录列表需要非常长的时间用户必须知道表格的物理布局Hive 表统计信息通常是陈旧的在云对象存储上的性能较差6|要达成的目标之一是什么Old WayNew Way文件级别的数据表目录级别的数据表目标：表的正确性与一致性更快的planning and execution 用户无需感知物理结构表演进在大规模数据上实现以上目标7|Iceberg是什么？-一种Table Format 规范-一组API和库，可用于引擎与遵循该规范的表进行交互-存储引擎-计算引擎-服务8|数据流图实现存储层的流批统一实现存储层的流批统

4、一hivehdfskafka存储统一，批、流运算不再是两套存储中间层支持中间层支持OLAPOLAP分析及实时化分析及实时化将DWD数据明细层与DWS数据服务层从批式T+1处理，演进为流式增量处理，数据时延大大降低支持支持ACIDACID语义语义完善的ACID语义支持，修改操作不会影响读取等支持高效回溯支持高效回溯Hive/Kafka等无法有效回溯历史版本，无法查看历史的表格式与数据-刘青实时双推存储成本更低存储成本更低使用OBSHDFS等存储数据，降低Kafka等存储成本数据延迟从实时变为近实时数据延迟从实时变为近实时业务系统改造对接业务系统改造对接Pulsar/DMQHDFS/OBS数据入湖

5、贴源数据明细数据模型数据clickhouseesAPP增量处理增量处理9|需要支持的能力高效的Upsert操作ACID语义支持Schema变更多源实时数据接入方案高效的回溯能力支持批流读写10|良好的业务使用体验极低的维护成本支持多种存储、计算引擎不止于 Table Format自动优化11|数据湖服务配套实时数据湖仓，全面提升相关性能、可视化、运维监控能力：1.服务规则引擎：使用数据重分布等提升查询性能、进行数据生命周期管理等2.告警规则引擎：基于配置的告警进行相应监控实时显示湖内数据概况数据分布、告警等信息12|Service整体逻辑架构数据入湖HDFSOBSStorage Cache（数

6、据加速层）生命周期管理数据重分布数据压实告警监控数据源业务库文件消息按需加载实时加载实时检索HBaseELasticSearchClickhouse图数据库RedisIOT DB数据清洗大屏展示清单/详单查询挖掘建模数据管理固定报表BIAI分析专题分析实时应用自助分析贴源数据明细数据模型数据IcebergPart特性应用14|类Git式的数据管理周期稳定快照重要历史快照实验分支15|场景示例：每天全量存储数据的业务改造类Git式的数据管理16|类Git式的数据管理id INTdata STRING(1,lisi2),(3,wangwu)1lisi22Zhangsan3wangwu增量数据：1,

7、lisi3Select*from t1 branch b1 1lisi32Zhangsan(4,xiaohong)存储数据：4,xiaohong1lisi22Zhangsan3wangwu4xiaohong增量数据：3,wangwu2Select*from t1 branch b21lisi22Zhangsan3wangwu21lisi2ZhangsanSelect*from t1 branch b3 1lisi22Zhangsan3wangwu4xiaohong17|添加LogStore模块，将整体计算、存储近实时改造为实时，对业务侧屏蔽Kafka、HDFS等底层存储的差异，统一命名为：Ic

8、eberg Table实时化最终需要实现三种读取方式：读取全量数据，以批模式读取增量数据，以流模式读取全量-增量数据，以混合模式18|加速层计划使用 Alluxio 或其它内存加速技术，打造一个数据湖加速层，对近期、远期数据进行冷热分层。提升查询性能降低集群压力TTL 控制，配合Service完成管理19|基于Flink FLIP-143/FLIP-191的新版SinkFlink Unify Sink20|Iceberg Flink Projection Pushdown二级索引通过NDV、min-max、布隆等索引信息，可以快速找到所需的分区和文件，提高查询性能Flink Proced

9、ures语法：CALL catalog_name.system.procedure_name(arg_name_2=arg_2,arg_name_1=arg_1)当前对于Flink而言，大量的功能性特性只能使用Java API来调用，SQL中并没有提供相应的支持，通过提供procedures，可以将任务嵌套在SQL语句中，不再需要额外的工作量。主要提供标签分支管理、文件重写、过期快照等功能项。其它增强举例21|生态支撑1.基于SparkFlink等组件，构建数据出入湖工具2.输出数据湖规范、标准，支撑上游业务使用数据湖进行业务开发数据湖服务统一存储实时离线APPPart未来规划23|更丰富接入广告、推荐、特性工程等更多场景更快速使用多种手段，强化性能更易用以产品化的角度，简化使用、运维等多个方面25|非常感谢您的观看|

友情提示

1、下载报告失败解决办法
2、PDF文件下载后，可能会被浏览器默认打开，此种情况可以点击浏览器菜单，保存网页到桌面，就可以正常下载了。
3、本站不支持迅雷下载，请使用电脑自带的IE浏览器，或者360浏览器、谷歌浏览器下载即可。
4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩，下载后原文更清晰。

本文（2-3 Iceberg 在华为终端云的探索.pdf）为本站（云闲）主动上传，三个皮匠报告文库仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对上载内容本身不做任何修改或编辑。若此文所含内容侵犯了您的版权或隐私，请立即通知三个皮匠报告文库（点击联系客服），我们立即给予删除！

温馨提示：如果因为网速或其他原因下载失败请重新下载，重复下载不扣分。