上海品茶

您的当前位置:上海品茶 > 报告分类 > PDF报告下载

5、金风-Flink流批一体在小米的实践.pdf

编号:101809 PDF 36页 29.29MB 下载积分:VIP专享
下载报告请您先登录!

5、金风-Flink流批一体在小米的实践.pdf

1、金风/小米软件开发工程师 Flink流批一体在小米的实践小米的大数据发展演变流批一体的平台层支持流批一体典型应用场景未来规划#1#2#3#4#1小米的大数据发展演变发展演变201920202019前离线计算为Spark实时计算为SparkStreaming,少部分Storm开始接入使用Flink,广泛运用于搜索推荐,广告实时样本,实时ETL等场景2021开始接入使用FlinkSQL,广泛运用于实时数仓构建,实时ETL作业开始接入数据湖,基于数据湖打造流批一体的解决方案2019现状计算资源存储YarnHiveIcebergHBaseTalosKuduDoris实时离线FlinkSpark Str

2、eamingFlinkSparkHiveFlink JarFlink SQLSparkFlink SQL BatchSpark Jar Spark SQL Hive SQL未来实时离线FlinkSpark StreamingFlinkSparkHiveFlink JarFlink SQLSparkFlink SQL BatchSpark Jar Spark SQL Hive SQLFlink实时离线Flink SQLFlinkFlink SQL流批一体化#2流批一体的平台建设流批一体的平台建设基于metacat构建统一的元数据管理元数据基于ranger构建统一的权限管理权限统一离线作业调度和实

3、时调度调度丰富离线和实时的生态生态统一的元数据管理MetacatHive RDSKuduDorisTalos(小米自研消息队列)FlinkSparkPrestoHive统一的元数据管理SERVICE_CLUSTER .DATABASE .TABLE大多数系统以服务名和集群名作为一级catalog和系统原本的database对应,如果没有database(es,talos(消息队列),则默认使用default和系统原本的table对应,es则是对应索引名,消息队列则对应topic名INSERT INTO iceberg_cluster2.db1.tb1SELECT f1,f2,f3 FROM t

4、alos_cluster1.default.topic1;一条简单的SQL,即可编写一个数据入湖的作业!统一的权限管理RangerHiveIcebergKuduDorisMySQLFlink SQLSQLSource/SinkFieldsRangerAdminPhysicalPlanFlink JarTable APIDataStreamSource/Sink TableINSERT INTO iceberg_cluster2.db1.tb1SELECT f1,f2,f3 FROM talos_cluster1.default.topic1;Source:talos_cluster1.defa

5、ult.topic/f1,f2,f3Sink:iceberg_cluster2.db1.tb1/f4,f5,f6 统一的元数据+权限一站式开发体验灵活的权限管理统一离线和实时调度离线调度实时调度批流混合INSERT INTO iceberg_cluster2.db1.tb1SELECT f1,f2,f3 FROM iceberg_cluster1.default.topic1;batch作业,默认全量读取iceberg表,全量读取完之后,作业结束.Streaming作业,默认全量读取iceberg表,并实时消费增量的数据.batch+streaming,先启动一个batch作业,默认全量读取i

6、ceberg表,读完之后batch作业结束.然后启动一个streaming作业,实时消费增量的数据.生态建设Flink 社区HiveIcebergHBaseTalosKuduDorisFlink Bahir其他社区小米内部RedisRocketMQJDBCPegasusElasticSearchFalconOpenTSDBDruidHybridSourceCDC-SINKMySQLCDC生态建设Iceberg批量读写流式入湖增量消费以batch形式读写iceberg支持CDC数据实时写入iceberg增量消费iceberg表,包括v1/v2表社区已支持社区已支持小米内部实现生态建设Hybrid

7、 SourceCREATE TABLE hybridSource(f1 VARBINARY)WITH(connector=hybrid,table-list=mysql_xxxxx.dbname1.tabled+;talos_xxx.default.topic1 );对接内部catalog 按顺序读区配置的source表生态建设CDC SinkCREATE TABLE sink_table(value VARBINARY)WITH(connector=cdc-sink,table=iceberg_cluster1.iceberg.binlog_sink_table,-真实要写入的表 table

8、-filter=mysql_10086_dbname1.dbname1.tabled+;需要过滤的表,分号分割);对接内部catalog 按table-filter进行表的过滤 统一处理DDL变更消息#3流批一体应用场景数据集成离线集成实时集成批流混合集成数据集成-离线集成HiveJdbcIcebergDorisTiDBFlinkSQLBatchData XHiveJdbcIcebergDorisTiDB更加丰富的Source&Sink 并发处理能力字段映射降低了多平台维护压力数据集成-实时集成Talos(小米自研消息队列)IcebergTiDBHiveJdbcIcebergDorisTiDB

9、FlinkSQLLCSSinkTiCDC Flink MySQL-CDC MySQLBinlogLCS Binlog研Binlog收集服务,类似canal内部基于SparkStreaming 的数据集成系统数据集成-批流混合Talos(小米自研消息队列)FlinkSQLMySQLHybrid SourceFlinkCDCMySQL按DB划分,将不同的database数据写到不同的TopicHiveJdbcIcebergDorisTiDB先批量读MySQL 再实时消费Talos(消息队列)数据集成-批流混合Talos(小米自研消息队列)FlinkSQLTICDCTIDBFlinkSQLBatch

10、全量增量批作业实时作业先起批作业做全量导,再起流作业做增量导HiveJdbcIcebergDorisTiDB数仓架构升级传统离线数仓Lambda实时数仓基于数据湖的实时数仓 保存全量数据 产出结果准确率高 T+1延迟 一般凌晨调度,对集群造成较大压力 实时链路提供有效性支持 离线链路提供正确性支持 支持数据回溯,OLAP查询 平台维护两套架构,运维成本高 业务维护两套代码,开发成本高 两套链路产出结果可能不一致 简化架构,降低了开发维护压力.兼顾延迟和正确性,同时对OLAP有较好的支持 无法做到秒级延迟数仓架构升级小米实时数仓实践 小米手机激活实时数仓小米销售服务实时数仓小米手机激活实时数仓业

11、务流程激活数据采集提前激活数据清洗自然激活活跃小米手机激活实时数仓采集日志RDSTalos实时数仓离线数仓ODSDWDDWMDMDIMTalos+KuduHiveODSDWDDWMDMDIMHiveOLAP引擎数据应用HBase+FileSystemADS数仓架构小米销售服务实时数仓销售服务订单物流商品售后门店小米销售服务实时数仓采集日志RDSTalosODSDWDDWMDMDIMTalos+KuduTalos+FileSystem数仓架构-实时架构Talos离线Spark离线补充维度数据,防止状态过期数仓架构升级小米数据湖数仓实践 小米APP近实时数仓小米X业务数据链路重构小米APP近实时数

12、仓Talos数仓架构采集日志IcebergV1IcebergV2IcebergV2DIMT-1T-2ODSDWDDMFlink SQLFlink SQLFlink SQL Batch小米X业务数据链路重构KuduHiveIcebergV2IcebergV2Spark MergeInto产生实时流IcebergV2Flink SQL实时处理Flink SQL实时处理DIM旧链路改造,产生变更数据,并写入数据湖58 分钟延迟1分钟延迟1分钟延迟小米X业务数据链路重构KuduHiveIcebergV2IcebergV2Merge Into修正实时流IcebergV2Merge Into修正实时流Merge Into修正实时流MySQLTalosCDCTalosTalosChangelog-jsonChangelog-jsonFlinkSQL实时处理FlinkSQL实时处理实时架构:兼顾实时性+准确性#4未来规划未来规划 Flink SQL batch应用于更加复杂的场景 Flink Dynamic Table 跟进,结合消息队列+数据湖,实现真正流批一体 Hybrid Source 升级,基于新版Source接口进行改造.

友情提示

1、下载报告失败解决办法
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。

本文(5、金风-Flink流批一体在小米的实践.pdf)为本站 (云闲) 主动上传,三个皮匠报告文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三个皮匠报告文库(点击联系客服),我们立即给予删除!

温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。
会员购买
客服

专属顾问

商务合作

机构入驻、侵权投诉、商务合作

服务号

三个皮匠报告官方公众号

回到顶部