1、Flink 在实时标签系统中的实践 杨涵冰 上海数信息科技有限公司 数据部 架构介绍 #1 经营类 #2 控类 #3 架构简介 #1 架构简图 RDS Flink HBase EMRHive切表 API DTS Sqoop BDS差值修正 四标签类型 同步线上数据 实时写,离线修正 原 API调时运算 线下批量计算,逻辑致 即时计算 传统实时链路 实现复杂逻辑 实时 传统离线链路 实现复杂逻辑 离线 原标签 RDS Flink HBase EMR DTS Sqoop 实时数据同步 离线差值修正 即时计算标签 HBase Hive PhoenixAPI Hive切表 即时计算 批量计算 实时标签
2、与离线标签 RDSFlinkHBase DTS RDSHBaseEMR Sqoop 实时标签 离线标签 经营类 #2 逻辑相对简单多数为单维度的 简单加 迭代速度较快 量探索类需求 经营类 #2#1#3 经营类案例 需求在决策流引擎中获取户的各类信息,根据户信息进相应营销。 决策流所需信息中,部分为分散在各个业务系统中的户信息。如分散在各系统的机号:注册机号、审核机 号、绑定机号等。通过配置原标签,可以简单的将各业务系统的户信息同步到标签系统中。 还有部分为需要进简单运算的数据。如,资授信额度维护在各个资对接系统中,此时将他们分别配置为原 标签,然后配置个即时计算标签将这些数据进即时合并运算,
3、便可得到最授信额度等衍标签。 户经营案例 控类 #3 逻辑常复杂达数甚全量数据 的聚合处理、排重聚合 处理 迭代较稳定 需求般经过验证 控类 #2#1#3 常问题 根据某个维度对段时间事件进排重统 计运算。 1、单维度数据量较少。将明细数据存储 在 HBase 中,直接进统计。 2、单维度数据量虽然多,但单新增数 据量较少。每运算离线统计值和明细 值,实时存储当明细,进差值统计。 3、数据量计数排重。需要使有损统 计。 排重统计 根据数据的图关系进计算。 1、阶图关系可以将边数据存储在 HBase 中,直接进统计。 2、阶、三阶等低阶图关系通过多次 HBase 查询统计。需要注意的是随着阶 数升,查询量级会迅速增。 图关系统计 由于整条实时流链路较,可能会有时效 性发波动的情况。如果下游系统需要根 据标签时效性精确控制为,需要通过 些额外属性来解决。 1、标签更新时间。判断当前标签值的更
1、下载报告失败解决办法 2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。 3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。 4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
王阳 & 杨弢-Flink on K8s生产实践-美化TY-已定稿_compressed.pdf
1-高霖Alink在微博机器学习平台中的实践-已美化已定稿_compressed.pdf
8-任庆盛-高谟-Flink Connector 的架构解析和最佳开发实践-已美化TY-定稿_compressed.pdf
三个皮匠报告专业的行业报告下载站,每日更新,欢迎大家关注!
copyright@2008-2013 长沙景略智创信息技术有限公司版权所有 网站备案/许可证号:湘B2-20190120
专属顾问
机构入驻、侵权投诉、商务合作
三个皮匠报告官方公众号
验证即登录,未注册将自动创建三个皮匠报告账号
使用 微信 扫一扫登陆