上海品茶

基于云原生的作业帮大数据采集体系建设与迁移实践-伍思磊.pdf

编号:153079 PDF 34页 4.90MB 下载积分:VIP专享
下载报告请您先登录!

基于云原生的作业帮大数据采集体系建设与迁移实践-伍思磊.pdf

1、基于云原生的作业帮大数据采集体系建设与迁移实践伍思磊作业帮大数据中台架构师一.背景二.作业帮数据采集体系的架构升级三.作业帮数据采集体系的迁移实践 1.数据库采集:从 Canal 到 Flink-CDC 2.日志采集:从虚拟机到容器化四.未来规划一.背景背景/关于作业帮作业帮是一家什么样的公司?背景/作业帮大数据中台全景二.作业帮数据采集体系的架构升级架构升级/大数据采集架构演进的三个阶段架构升级/采集2.0时代面临的问题痛点1:新数据源难以扩展痛点2:采集组件虚机部署人肉运维稳定性差痛点3:入仓需求定制化:表级/点位级kafka分发、实时流done标记、离线数据漂移、特殊任务调优.痛点4:M

2、R任务缺乏物理隔离各BU争抢资源数据时效性差架构升级/诊断思路与架构升级目标企业诉求业务场景需求本质架构目标支撑经营分析决策低成本数据安全工作台工作台实时/小时级数据在线系统,需求稳健迭代业务业务分析挖掘分析挖掘T+1数据深度洞察、查数广泛、需求灵活管理者驾驶舱管理者驾驶舱T+N数据、大盘趋势历史数据、可视化、需求固化企业成本管理企业成本管理审计活动审计活动/法律法律合规合规面向核心经营活动实时OLAP,小时增量切块数据系统高可用、准确业务试错、需求挖掘T+1快照,天/小时增量切块数据源多样性、SQL易编写经营决策T+1快照、数据产出稳定历史快照保留、反复分析数据复用、避免烟囱用户个人信息数据

3、脱敏 降低资源颗粒度、弹性扩缩大数据采集的架构升级/作业帮采集场景的需求本质抽象架构升级/采集架构3.0升级思路:采集链路视角架构升级/采集架构3.0升级思路:SAAS化产品视角三.作业帮数据采集体系的迁移实践数据库采集:从 Canal 到 Flink-CDC迁移实践/关于Canal1.仅支持mysql,无法扩展其他数据源2.不支持全量CDC,入仓链路割裂3.基于云下的VM部署:机器粒度HA,人工运维成本高资源利用率低,预算成本居高不下实例数(mysql集群):300+接入表数量:含分表:十万级 分表合并:万级峰值QPS:200,000+均值QPS:50,000+日增量binlog大小:10T

4、+CanalCanal是优秀的解决方案是优秀的解决方案,但仍存在痛点但仍存在痛点数据库入仓规模数据库入仓规模作业帮在采集作业帮在采集2.02.0阶段的解决方案阶段的解决方案CanalCanal +Canal-AdminCanal-Admin增量采集HA+平台化迁移实践/CDC方案调研选型CDC机制日志+查询(部分无锁)日志+查询日志+查询(有锁)日志数据源支持(仅对比作业帮需求)MySQLMongoDBPostgreSQL(Polardb-O)TiDBMySQLMongoDBPostgreSQLMySQL,MongoDB,PostgreSQL国外产品,部分数据源用不到MySQL底层机制Flin

5、k+DebeziumDebezium+KafkaDebezium自研内核同步方式增量/全量/增量+全量增量/全量/增量+全量增量/全量/增量+全量增量部署架构EMR基于作业帮Zlink平台部署SAAS单机VM+分布式产品化自建厂商平台自建Canal Admin定制化基于Flink自定制较困难基于Java自定制基于Client二开监控告警自建厂商提供自建自建SLA保证自建99.999%自建自建SQL支持支持支持否否迁移实践/Flink-CDC对各类数据源的特性支持增量快照(无锁/并发/续传)支持支持不支持不支持启动模式initital/latest/earliest/gtids/binlog f

6、ile+offset/timestampinitital/latestinitital/latestinitital/latest多库多表捕获支持支持支持支持动态加表仅支持Initial模式且会阻塞不支持不支持不支持获取binlog时间戳支持支持支持支持获取主键支持支持支持支持捕获DDL支持支持支持支持数据类型支持全部支持但个别字段不完善(如enum)部分不支持部分不支持部分不支持Flink-CDC版本:2.3.0迁移实践/CDC架构设计思路迁移实践/CDC迁移场景与挑战1.如何确保Canal和Flink-CDC的输出在量级和数据上完全相同?2.如何尽量无缝、不丢数据地将任务平滑切换到CDC?

7、技术挑战:迁移实践/CanalCDC 迁移方案设计思路迁移实践/CDC轻量化、整库同步的落地现状与挑战MySQLTableTableTable基于CDC的数据异构目标数仓TableTableTable1.轻量化全量同步后自动切换增量3.DDL同步源表Schema变化自动同步到下游数仓2.动态加表整库CDC任务动态新增表并从CK恢复轻量化的问题:整库任务从Canal基于gtids迁移到CDC后,无法切换到initial模式动态加表的问题:整库任务只能基于initial模式做动态加表,且加表时会阻塞其他增量表DDL同步的问题:1.需要上游数据源来约束schema变化2.下游用户接受度不高,更期望能

8、用工单手动控制数仓schema现状:社区暂未支持目前作业帮正在自研解决现状:社区在master解决,预计2.4发布目前作业帮正在试用验证现状:在作业帮内部不算刚需沿用入仓工单维护schema变更迁移实践/性能摸底:Canal VS CDC 增量消费CanalFlink-CDC峰值QPS:13000峰值QPS:19000(+32%+32%)Canal版本:1.1.3启动方式:binlog-ealriest虚拟机规格:96C/384G工作线程:64Kafka分区数:6Flink-CDC版本:2.3.0启动方式:binlog-ealriestTM内存:6144 MB并发/Slot:6Kafka分区数

9、:6由于Canal在后续版本中做了性能优化,因此该测试只能供参考:仅说明在作业帮场景下,Flink-CDC(2.3.0)性能优于Canal(1.1.3)迁移实践/作业帮CDC迁移收益总结成本成本性能性能功能功能CanalZ-CDC资源核数消耗减少67%CanalZ-CDC消费性能增加32%三.作业帮数据采集体系的迁移实践日志采集:从虚拟机到容器化迁移实践/作业帮日志采集规模1000+接入接入日志源日志源百亿条百亿条每天每天日志日志量级量级百万百万+每秒每秒峰值峰值CPSCPS数百数百+GbpsGbps峰值峰值带宽带宽迁移实践/基于虚拟机的日志采集:架构概览迁移实践/基于虚拟机的日志采集:痛点分

10、析1.流量网关使用虚拟机部署,运维成本繁重2.后端服务陆续容器化上云,现有Flume采集接入体系难以满足done标记需求3.建设多个外围服务来进行flume管理、done标记管理,维护成本大,稳定性差虚拟机架构下的痛点:流量网关如何上云?在k8s下,done标记需求如何支持?技术挑战:Tips:以采集时间为准,当某个区间(如13-14点)的数据都处理完毕后,再让数据向下游可见迁移实践/流量网关上云思路迁移实践/基于k8s日志采集的done标记实现思路迁移实践/流量网关上云迁移方案迁移实践/作业帮日志采集迁移收益虚拟机容器化成本成本根据流量潮汐按时间段动态扩缩POD资源核数消耗减少54%运维运维3人力0.5人力K8S化,不再专人维护VM集群和Agent公司OP团队提供统一运维虚拟机容器化四.未来规划未来规划123CDC轻量化、整库同步等特性的优雅落地接入能力进一步抽象,低成本接入更多新数据源可观测性进一步增强,入仓全链路感知管控

友情提示

1、下载报告失败解决办法
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。

本文(基于云原生的作业帮大数据采集体系建设与迁移实践-伍思磊.pdf)为本站 (张5G) 主动上传,三个皮匠报告文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三个皮匠报告文库(点击联系客服),我们立即给予删除!

温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。
客服
商务合作
小程序
服务号
会员动态
会员动态 会员动态:

wei**n_...  升级为标准VIP  姚哥  升级为至尊VIP

微**... 升级为标准VIP   182**73...  升级为高级VIP

wei**n_... 升级为标准VIP    138**94...  升级为标准VIP

wei**n_... 升级为至尊VIP  A**o 升级为至尊VIP 

 134**12... 升级为标准VIP wei**n_...  升级为标准VIP 

wei**n_...  升级为标准VIP 158**01...  升级为高级VIP

 wei**n_... 升级为标准VIP  133**84...  升级为高级VIP

wei**n_... 升级为标准VIP 周斌  升级为高级VIP 

wei**n_... 升级为至尊VIP   182**06... 升级为高级VIP

139**04...  升级为至尊VIP  wei**n_... 升级为至尊VIP 

 Ke**in 升级为高级VIP 186**28... 升级为至尊VIP 

139**96...  升级为高级VIP she**nz...  升级为至尊VIP

wei**n_...  升级为高级VIP  wei**n_... 升级为高级VIP 

wei**n_...  升级为标准VIP 137**19...  升级为至尊VIP

 419**13... 升级为标准VIP 183**33... 升级为至尊VIP 

 189**41... 升级为至尊VIP  张友 升级为标准VIP 

奈**... 升级为标准VIP 186**99... 升级为至尊VIP 

 187**37... 升级为高级VIP 135**15...  升级为高级VIP

 朱炜  升级为至尊VIP ja**r 升级为至尊VIP 

wei**n_...  升级为高级VIP wei**n_...   升级为高级VIP

 崔**  升级为至尊VIP 187**09... 升级为标准VIP 

189**42...  升级为至尊VIP wei**n_... 升级为高级VIP 

妙察  升级为标准VIP wei**n_... 升级为至尊VIP 

137**24... 升级为高级VIP   185**85... 升级为标准VIP

 wei**n_... 升级为高级VIP  136**40... 升级为标准VIP

156**86...   升级为至尊VIP  186**28... 升级为标准VIP

 135**35... 升级为标准VIP 156**86...  升级为高级VIP

wei**n_... 升级为至尊VIP  wei**n_... 升级为高级VIP

wei**n_... 升级为标准VIP  wei**n_...  升级为标准VIP

  wei**n_... 升级为高级VIP 138**87... 升级为高级VIP

 185**51... 升级为至尊VIP 微**... 升级为至尊VIP 

136**44... 升级为至尊VIP  183**89...  升级为标准VIP 

wei**n_... 升级为至尊VIP 8**的...  升级为至尊VIP

Goo**ar...  升级为至尊VIP 131**21... 升级为至尊VIP 

139**02... 升级为标准VIP    wei**n_...  升级为高级VIP

 wei**n_... 升级为高级VIP  wei**n_... 升级为至尊VIP

wei**n_...  升级为至尊VIP 138**05...  升级为至尊VIP

 wei**n_... 升级为高级VIP  wei**n_...  升级为至尊VIP 

wei**n_... 升级为至尊VIP    wei**n_... 升级为至尊VIP

131**77...  升级为高级VIP  wei**n_... 升级为标准VIP

186**06...  升级为高级VIP  150**97... 升级为至尊VIP

wei**n_... 升级为标准VIP   wei**n_... 升级为至尊VIP 

185**72...  升级为至尊VIP  186**81...  升级为至尊VIP

升级为至尊VIP 159**90...  升级为标准VIP

ja**me  升级为高级VIP  wei**n_... 升级为标准VIP 

wei**n_...  升级为至尊VIP  黑碳 升级为高级VIP 

黑碳  升级为标准VIP   wei**n_... 升级为高级VIP

 Fro**De...  升级为至尊VIP  wei**n_... 升级为高级VIP

185**28... 升级为标准VIP  HO**T 升级为至尊VIP

cic**hu  升级为高级VIP wei**n_...   升级为标准VIP