1、FlinkFlink 1.121.12 资源管理新特性资源管理新特性 Flink 1.12 New Features In Resource Management 宋辛童 Xintong Song/郭旸泽 Yangze Guo 资源调度资源调度 ResourceResource SchedulingScheduling #2 内存管理内存管理 MemoryMemory ManagementManagement #1 扩展资源扩展资源框架框架 ExternalExternal ResourcesResources FrameworkFramework #3 未来计划未来计划 FutureFuture PlanPlan #4 内存管理内存管理 Memory Management #1 内存模型内存模型 MemoryMemory ModelModel 用于任务执行 For task execution 一个作业到底需要多。
2、基于F-ink和Druid的实时多F分析D 统在蔚来A车的应用 Rea- Time Mu-ti-Dimension Ana-ysis in NIO ? ? ? ? ? ? 技术架A rchitecture ? ? ? 业务背景 Backgroud ? ? ? 状态空间D型 State Space Mode- ? ? ? 多维分B Mu-ti-Dimension na-ysis ? ? ? 展示 Disp-ay ? ? ? 业务背景 Backgroud ? ? ? 数据接入面临的问题 What Are The roblems ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 数据接入需要回答的问题 What Are The Questions We eed Answer ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 技术架构 Architecture ? 系统功能。
3、基于LLVM的高性能Flink Native执行引擎应用实践 陈迪豪 第四范式先知平台架构师 Bring high-performance LLVM-based native execution engine for Flink 关于我们 第四范式成立于2014年底,是国际领先的人工智能平台与技术服务提供商 首创AIOS系统降低AI落地门槛,自研大规模调度系统资源利用率提升50% 基于LLVM加速的Spark/Flink发行版,性能相比开源版本可提升6倍至67倍 About Us 4PD Flink拓展优化 #2 4PD Flink应用场景 #1 Flink Native执行引擎 #3 Flink未来发展方向 #4 4PD Flink Extensions4PD Flink ApplicationsFlink Native Eng。
4、From S:ark for Bat.h to Flink for Stream and Bat.h Unifi.ation: Ex:loration LinkedIn Chenya ,hang, Sr. Software Engineer Big Data Platform LinkedIn ? Aa4he /aAk Ceam aC ,:nkedIn, B:g DaCa .laCfoAm ? FoDnd:ng eng:neeA of Aa4he Fl:nk aC ,:nkedIn foA /CAeam and BaC4h Un:f:4aC:on ? BD:lC AAC:f:4:al InCell:gen4e InfAaBCAD4CDAe aC ,:nkedIn ? WoAk:ng aC ,:nkedIn foA 4 yeaAB afCeA gAadDaC:ng fAom CaAneg:e Mellon Un:EeAB:Cy ? ,:nkedIn .Aof:le: hCCB:/FFF l:nked:n 4om/:n/4henyazhang/ ? Ema:l: 4yzhangl:nked。
5、ULTRON 36 基于Fli63D实时数仓平台 36 R0-l-tim0 DW Pl-tform b-s0d o6 Fli63 ? ? 架构设计 ? ? ? D景与需求 ? ? ? 平台化之路 ? ? ? 演示 ? ? ? 总结与展望 ?Roa& of platformization emoSummary & Prospect 背景与需求 ack&round & Requirements ? ? ? A于360商业化数据 Ab5ut 360 c53306ci,2iz,ti5n /,t, ?高峰期大约产B实时数据50Gb 7, 业务消费处理带宽200Gb 7,处理消息大约700WT 7 ?日G处理量超过千亿T,上WTB ? ? ? ? 实时的重要性 m-ortance of real time 实时报表 (Real-time Re-orting) ? 实时监控 (Real-time monitoring)。
6、基于基于FlinkFlink DataStream APIDataStream API的的 流批一体处理流批一体处理 Unified DataStream API for Streaming and Batch Execution 马国维(黎钢) 阿里巴巴 Alibaba Group 高赟(云骞) 阿里巴巴 Alibaba Group 语义语义 SemanticsSemantics #2 现状和目标现状和目标 Status and TargetsStatus and Targets #1 具体实现具体实现 ImplementationImplementation #3 总结总结 Users should use operators with specified time characteristics. *1.12中未完全在Batch模式中禁用基于Processing Time的接口(如Processing time win。
7、Flink SQL 在字节跳动的优化 & 实践 李本超 字节跳动架构研发工程师 Apache Flink Committer Optimization and Practice of Flink SQL at ByteDance # #1 1 整体介绍 Overview # #2 2 实践优化 Practice & Optimization # #3 3 流批一体 Unification of Streaming and Batch # #4 4 未来规划 Future Work 整体介绍 #1 Overview Flink SQL 在字节跳动的发展历程 2018.12 Blink 开源 2019.07 开始基于 1.9 分支构 建内部的 SQL 平台 2019.10 基于 1.9 Blink Planner 的 SQL 平台上线 2020.10 上线基于 1.11 Batch SQL 平台 2020.11 上线基于。
8、数据接入数据接入 #2 数仓数仓与数据集成与数据集成 #1 数据入仓湖数据入仓湖 #3 数据打宽数据打宽 ( Joins )( Joins ) #4 总结总结 #5 #1 数仓与数据集成 数据仓库 与 数据集成 数据仓库是一个集成的(Integrated),面向主题的(Subject-Oriented),随时 间变化的(Time-Variant),不可修改的(Nonvolatile)数据集合,用于支持管 理决策。 数据仓库之父 Bill Inmon 于1990年提出 数据仓库的首要目的:数据集成,将多个分散的、异构的数据源整合在一起,便于 后续分析。 数据集成 与 ETL 数据集成的主要步骤: 数据接入(Extract) 数。
9、Flink SQL的功能扩展与深度优化 杜立 / 腾讯高级工程师 The Extensions And Optimizations For Flink SQL In Tencent Practice 窗口操作功能扩展 02 背景及现状 01 回撤流优化 03 未来规划 04 Background And Current SituationExtensions About Flink WindowOptimizations For Retraction MechanismFuture Plans 背景及现状01 Background And Current Situation 如何创建一个Flink任务? 基于底层API开发,面向开发人员 Based On Low-level API, For Developers 功能灵活多变 Most Flexible 易于性能调优 Easy To Optimize Performance 。
10、PyFlink 核心技术剖析及应用 付典阿里巴巴阿里巴巴 ApacheApache FlinkFlink PMCPMC | | 阿里巴巴技术专家阿里巴巴技术专家 PyFlinkPyFlink 核心技术核心技术 #2 PyFlinkPyFlink 简介简介 #1 PyFlinkPyFlink 应用场景应用场景 #3 PyFlinkPyFlink 未来规划未来规划 #4 AboutAbout Me Me Flink CEP PyFlink Flink Committer Hadoop, HDFS, Hadoop Security, Sqoop Sqoop Committer Apache Commons Committer Flink SQL 2017.52017.102019.42020.12013.62016.12016.3 2020.8 Flink PMC PyFlinkPyFlink 简介简介#1 PyFlinkPyFlink 项目的目标。
11、美团Flink可用性建设实践 孙梦瑶 美团 How we define and improve the availability of a Flink job in Meituan 可用性对实时计算 的意义 #1 Why Focus on Availability 实时作业可用性 定义与衡量 #2 Whats Aavailability and How to Measure 可用性优化 方案与实践 #3 How to Improve the Availability 实时可用性 后续规划 #4 Where to Go Next 可用性对实时计算的意义#1 Why we focus on the availability of a flink job 可用性 Availability 可用性 = 正常工作时长 服务时长 服务时长 故障时长 服务时长 = 在一个给定的时间区间内,。
12、Flink TiDB 联合实时数仓的探索实践 齐智 PingCAP 实时分析组研发工程师 Flink TiDB 实时数仓 #2 TiDB 架构简介 #1 用户案例 #3 未来方向 #4 Introduction to TiDB ArchitectureFlink TiDB Realtime WarehouseCase Studies Future Plan TiDB 架构简介#1#1 Introduction to TiDB architecture TiDB 基础架构 TiDB basic architecture 在整个 TiDB 集群中: 1. TiDB 组件负责接受查询、进行无状态汇总计算 2. TiKV 组件负责存储、底层计算 3. PD 负责调度 不同的 TiKV 节点按 Raft 协议做数据复制, 以此实现高可用性。 In the TiDB cluster。
13、FI基于 pac+e Flink+Iceberg 的实BA仓建设实践 Best practices to build data lake+ouse wit+ pac+e Flink and Iceberg in Tencent 苏舒 FIA据平台部高级工程师 Flin- + Iceberg F建实A数仓 Build real-time data ware+ouse based on Flin- and Iceberg ? 背B及I点 Bac-ground and painpoint ? 数据湖技D Apac+e Iceberg Datala-e tec+nology Apac+e Iceberg ? 未来规划 Future plan? 背景及痛点 B ckground nd p inpoint #1 内部助力用户 Internal booster user QQ 音乐 QQ music 腾讯广告 Tencent ads 腾讯看点 Tencent andian 小程序 w。
14、Flink如何实时分析Iceberg数据湖的CDC数据 阿里巴巴 李/松/胡争 23选择 Flink Ic+b+1g #2 常DCCDC 分析方案 #1 如3实时写 4F取 # 未来规划 #4 #见的CDC分析方案 #1 离线 HBase 集u分析 CDC 数a 、CDC记录实时写入HBase。高吞P + 低延迟。 2、小vSg询延迟低。 3、集u可拓展 ci评C B点 、行存o引不适O分析A务。 2、HBase集ur护成e较高。 3、通过Re12o4Server定DHF23e, ServerlB化Rs存完H用不上。 4、数a格式q定HF23e,不cF拓展到 +arquet、Avro、Orcn。 t点 A3a/21 Kudu 维护 CDC 数据p 、支持L时更新数据,时效性佳。 2、CK加速,适合OLAP。
15、实时 OLAP,从 0 到 ? ? 机遇挑战 #2 业务背A #1 架F演进 #3 架F优化 #4 C来展B # FutureO5ti2izati43ArchitectureCha11e3geBackgr4u3d 业务#景 #1 ? 业A介B - AB() Busin1ss ,ntro0uction - AB() )ata BlockchainA, (Artificial ,nt1llig1nc1 (lou0 (10-+ (B-(, E-+ 业务介绍 - 区块链技术B案提供商 No 炒币链上数据I计矿池 usiness Introduction - -ockchain Technica- So-ution Provider ? 机遇挑战 #2 Challen#e 之前的架构 The Architecture Of The Before ABH节点 (Blockchain Node (arser MyS)LHive Spark(resto MyS)LTableau 遇到。
16、网易流批一体的实时数仓平台实践 ? ? ? 实时数仓A台建设 ? ? ? 实时计算演进及业务背景 ? 基于 rctic流批一体实践 ? ? ? 未来规划 ? ? ? real-time compute developme-t a-d busi-ess backgrou-d real-time data warehouse platform buildi-g practice of arctic i-tegrated with streami-g a-d batch feature pla-i-g 实时计算演进及业务背景? ? ? -e l-time compute development nd business b ckg-ound lo-h实时计算演进 real-ime compu-e developmen- 实时数仓业务需求 ? ? ? ? ? ? ? ? 实时需求多样性 ? ? ? ? ? ? ? 运维保障 ? ? ? 。
17、Flink St,te B,-kend Improvements ,nd Evolution in Re-ent Ye,r 李钰 Ap,-he Flink PMC, 阿SFF实时P算C储I擎B队负R人 A云 Ap,-he Flink Committer, 阿SFF高级开发EM师 -aB4point -4l5 2ontain43 #2#1 -pilla1l4 stat4 1a2k4n3 Ro2ksDB M4morD Mana64m4nt #4 Pro6r4ss o5 Up6ra3in6 Ro2ksDB # Must know Do2um4nt Up3at4 #5 Futur4 Work #6 #rogress of S1illable State Bac-end #1 /rev9ew vers9on o6 sp9ll12le st1te!21c:end 9s 1v19l12le! Chec: 9t oCt on 6l9n:!p1c:1ges we2s9te 1nd g9thC2! https:#6l9n:! p1c:1ges.org#p1c:1ges#。
18、基于 Fl nk 的滴滴实时数仓实践 ? ? 业务&践 ? ? ? 整体概况 ? ? ? 平台&引擎 ? ? ? 总结反思 ? ? ? 未来规划 ? ? ? 整体概况? ? ? 建设历程 ? ? ? ? ? ? ? ? ? 需求驱动 分散建设 统一规划 规范建设 业务实践 经验沉淀实时数仓 平台引擎 现状 ? )标作业 ? 资源(量(Vcores) 业务实践? 数仓分层 ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 延迟消费 ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 利用OLAP特性 ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 数据校验 ? ? ? ? ? ? ? ? ? ? ? ? ? ? 体系架构 数据体系 建设规范 一站式开发。
19、ByteDance MQ-Hive Real-time Data Integration Based on Flink LiChang at ByteDance About Me LiChang Joined the ByteDance data management suite team after graduating in 2016, and built ByteDances one-stop data middle platform Focus on distributed computing and storage under large-scale data, and provide efficient and reliable global data integration solutions #2 Data Integration Challenges #1 MQ-Hive Real-time Data Integration Based on Flink #3 Future Outlook #4 Evolution of MQ-Hive Technology Data。
20、 ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 腾讯看点基于Flink构建万亿数据量 下的实时数仓及实时查询系统 架构设计 rchitecture desig- ? ? ? B景介绍 Backgrou-d ? ? ? 实时数仓 Real-time data warehouse ? ? ? 实时查询系A Real-time query system ? ? ? 背景介绍 B ckground introduction ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 可解决的业务B点 Solved pain points 开发前调研 esearch before development 业务流程 Business flowchart 背景介绍 Background introduction ? ? ? ? ? ? ? ? ? ? ? ? ? ? 可解决的业务痛点 Solved pai1 po。
21、Single Task ecovery and egional Checkpoint 廖嘉逸 字节跳动基础架构工程师 R3gional &h31kpoint T制 #2 单点恢MT制 #1 Intro2u1tion o4 Singl3 Task R31oB3rC M31hanism Intro2u1tion o4 R3gional &h31kpoint M31hanism 字节跳I在 &h31kpoint WFO优化 # R战 S来规划 #4 Oth3r OptimiDations on &h31kpoint at BCt3Dan13 &hall3ng3 Futur3 Work 单点恢复机制 # I1troductio1 of Si1gle Task #ecovery Mecha1ism G务ka Qe )oin g拓扑 er大(30M QPS)、并发数t 16k * 16k) Joh时s内小部M数据丢S T数据pLg持j性mdt Topology of mBltipl3 s。
22、Apache link在汽车之家的应用及实践 Practice of Apache link in Autohome ? ? ? AutoStream平台 ? ? ? 背景及现状 ? ? ? 基于Flink的实时生态 ? ? ? 后续规划 ? ? ? 背景及现状 B ckground nd current situ tion ? ? ? 第一b段:Storm平I T2e f3r:t :ta1e: Storm p4atform 基于纯编码T式开H, 痛点: Deve4opment ,a:ed on pure cod3n1, Pa3n po3nt: 开HP本d H312 deve4opment co:t 痛点 痛点2 c以维护、管理 D3ff3cu4t to ma3nta3n and mana1e 痛点3 对SD不友好 Poor :upport to ware2ou:e 痛点4 a算低效 Ineff3c3ent h二pc:EDo0DB7am1.。
23、 ?-?-? ? ? ? 目录 Cont4nts 黑I单R制 Bl12klist M4261nism#2 相关背O B12k5roun3 启F速MC化 Bootstr1p Pro24ss OptimiB1tion#3 YM器C化 Y1rn S2643ul4r OptimiB1tion# 资源隔WC化 R4sour24 Isol1tion OptimiB1tion#5 未S展P Futur4 Work#6 相关背景 Backgroun# #1 业务规模 Bus1ness Scale 1 3+ strea51ng jo+s 8 3+ +atc0 jo+s 8er day 作业数量多 1 3+ yarn nodes QPS u8 to 5 M+ Parallel1s5 u8 to 3 3+ 机器规模大单作业并B大 问题和挑战 Problem and Challenge ?d? ?d?F?a ?CO? ? ? ? ?O? ? ?e?O ?I? 黑名单机制 Bla#klist Me#hanis。
24、Flink Flink 实时计算在小红书的应用实时计算在小红书的应用 How we use Flink in XiaoHongShu 栾艳明 - 小红书实时数据平台工程师 小红书:标记你的生活 1亿+ 月活 80亿+ 每日笔记展示 基础设施基础设施 # #2 2 推荐算法场景推荐算法场景 # #1 1 接下来的挑战接下来的挑战 # #3 3 Q 基础设施基础设施 上任务流程上任务流程(UDF + DDL + DML)(UDF + DDL + DML) 上任务流程上任务流程 SQL Editor UDF + DML Sql ValidatorRun SQL Flink Cluster on k8s Job Submit监控 报表 create table xxxx; insert into xxxx; 上任务流程上任务流程 SQL。