1、1.交易数据(CDC流) 2.流量数据 (click/view events 、 app日志埋点等) 3.业务行为数据(业务安全、 o2o业务线上镜像化) 按SLA和场景拆分kafka集群 高SLA、低延迟 场景 : 1.站内搜索的准实时create index 2.微服务间异步通信 & 在线系统MQ 3.内部IM . 其他场景 : 1.web/app点击流 2.app fact日志数据入hadoop 3.普通streaming应用加工流数据 1.topic生命周期管理 topic申请. partition个数建议 / topic归属(数据治理) topic变更 加减partition / 变
2、更集群 2.kafka user platform 消息是否真实发送了? 避免producer & consumer扯皮 consumer lag需要监控+告警 运维的短期高压/人效 vs 长期精细化 1.免费托管平台 ClouderaManager / Ambari 短期高压/人效 2.分布式配置管理 Ansible-awx 长期精细化运维 更快的版本迭代 更精细化的metrics collect Customized patch Schema 的典型困难场景 1.数仓链路目前为mysql binlog - kafka - ods(hbase) - dwd (hdfs) 如果mysql进行了
3、激进DDL,比如“删除了字段 or 更改了字段”,下游链路会发生什 么? 2.Kafka作为异步通信的基础,Producer & Consumer归属跨团队使用json对接时, 两边迭代开发速度不一致,信息不够同步,producer要做通信字段变更有哪些风 险 ? 数据链路上游DDL的困难 Challenge: 1.上游mysql进行激进DDL(删字段、改字段),下游的存储hive/ES/hbase Schema 不兼容时链路会报error直接crash。 2.hive里直接做DDL,历史数据会面临不可读。Columnar-store的弊端。 Solution: 禁止业务做激进的DDL,优先加字段,有限改字段(smallint 转 int可以, string转 int不行) But,禁止业务在交易库做DDL真的是真理么?DDL后,下游能否自动适配呢? Kafka 生产/消费者通信的困难 1
1、下载报告失败解决办法 2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。 3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。 4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
2020年终大会-大数据架构:5-5.pdf
2020年终大会-大数据架构:5-2.pdf
2020年终大会-大数据架构:5-4.pdf
2020年终大会-大数据架构:5-1.pdf
2020年终大会-大数据应用:9-3.pdf
2020年终大会-大数据应用:9-5.pdf
2020年终大会-推荐算法:3-5.pdf
2020年终大会-数据治理:15-3.pdf
2020年终大会-数据产品:8-3.pdf
2020年终大会-数据治理:15-5.pdf
三个皮匠报告专业的行业报告下载站,每日更新,欢迎大家关注!
copyright@2008-2013 长沙景略智创信息技术有限公司版权所有 网站备案/许可证号:湘B2-20190120
专属顾问
机构入驻、侵权投诉、商务合作
三个皮匠报告官方公众号
验证即登录,未注册将自动创建三个皮匠报告账号
使用 微信 扫一扫登陆