《GIAC_施晓罡_基于Flink的高可靠ETL系统.pptx》由会员分享,可在线阅读,更多相关《GIAC_施晓罡_基于Flink的高可靠ETL系统.pptx(29页珍藏版)》请在三个皮匠报告上搜索。
1、基于Flink的高可靠实时ETL系统,施晓罡,实时计算平台Oceanus,一站式提供从数据接入、应用开发、测试验证、应用部署到线上运维的全生命周期管理,实时计算平台Oceanus,一站式提供从数据接入、应用开发、测试验证、应用部署到线上运维的全生命周期管理,实时计算平台Oceanus,一站式提供从数据接入、应用开发、测试验证、应用部署到线上运维的全生命周期管理,实时数据接入Oceanus-ETL,游戏娱乐,社交网络,网络媒体,即时通讯,移动应用,互联网金融,TDBank实时接入,数据清洗,格式适配,缓存分发,数据聚合,文件加密,数据质量,TRC实时计算,TDW分布式数据仓库,实时数据接入Oce
2、anus-ETL,Tube,文件,数据库,TCP/UDP,消息中间件,消息分拣,TDManager 配置中心,Flink,Hive HBase ES,数据存储,Master,实时数据接入Oceanus-ETL,40万亿,日接入消息数,6PB,日接入数据量,每秒接入消息数峰值,4亿,实时数据接入Oceanus-ETL,2012 TDBank上线 基于Jstorm实现,支持Hive和HBase,2017 TDBank 2.0 基于Flink进行重构,提高作业可靠性,2020 TDBank 3.0 全实时链路 支持端到端Exactly-Once 通过Iceberg提供更新能力,实时数据接入Ocean
3、us-ETL,挑战,低延迟和高吞吐 端到端的Exactly-Once保证 负载均衡 灾备容错,利用Flink实现端到端Exactly-Once,Tube,Flink,HDFS,Flink,Flink,Flink,Ledger,指标聚合,通过Flink的checkpoint机制实现两阶段提交,避免在作业故障时导致的数据重复 通过Event-time对数据链路的各个环节的指标进行统计并对账 当对账成功之后,创建分区;否则告警,利用Flink实现端到端Exactly-Once,基于Chandy-Lamport算法实现checkpoint,Master,Worker,利用Flink实现端到端Exactly-Once,在完成对齐之前,再从这个channel获得的数据将被缓存起来,当收到所有输入的barrier之后,任务保存自己的状态,并将barrier发送给下游,保存好的快照被发送给Master。当