《杨涵冰-Flink 在实时标签系统中的实践-已美化TY-y已定稿_compressed.pdf》由会员分享,可在线阅读,更多相关《杨涵冰-Flink 在实时标签系统中的实践-已美化TY-y已定稿_compressed.pdf(16页珍藏版)》请在三个皮匠报告上搜索。
1、Flink 在实时标签系统中的实践 杨涵冰 上海数信息科技有限公司 数据部 架构介绍 #1 经营类 #2 控类 #3 架构简介 #1 架构简图 RDS Flink HBase EMRHive切表 API DTS Sqoop BDS差值修正 四标签类型 同步线上数据 实时写,离线修正 原 API调时运算 线下批量计算,逻辑致 即时计算 传统实时链路 实现复杂逻辑 实时 传统离线链路 实现复杂逻辑 离线 原标签 RDS Flink HBase EMR DTS Sqoop 实时数据同步 离线差值修正 即时计算标签 HBase Hive PhoenixAPI Hive切表 即时计算 批量计算 实时标签
2、与离线标签 RDSFlinkHBase DTS RDSHBaseEMR Sqoop 实时标签 离线标签 经营类 #2 逻辑相对简单多数为单维度的 简单加 迭代速度较快 量探索类需求 经营类 #2#1#3 经营类案例 需求在决策流引擎中获取户的各类信息,根据户信息进相应营销。 决策流所需信息中,部分为分散在各个业务系统中的户信息。如分散在各系统的机号:注册机号、审核机 号、绑定机号等。通过配置原标签,可以简单的将各业务系统的户信息同步到标签系统中。 还有部分为需要进简单运算的数据。如,资授信额度维护在各个资对接系统中,此时将他们分别配置为原 标签,然后配置个即时计算标签将这些数据进即时合并运算,
3、便可得到最授信额度等衍标签。 户经营案例 控类 #3 逻辑常复杂达数甚全量数据 的聚合处理、排重聚合 处理 迭代较稳定 需求般经过验证 控类 #2#1#3 常问题 根据某个维度对段时间事件进排重统 计运算。 1、单维度数据量较少。将明细数据存储 在 HBase 中,直接进统计。 2、单维度数据量虽然多,但单新增数 据量较少。每运算离线统计值和明细 值,实时存储当明细,进差值统计。 3、数据量计数排重。需要使有损统 计。 排重统计 根据数据的图关系进计算。 1、阶图关系可以将边数据存储在 HBase 中,直接进统计。 2、阶、三阶等低阶图关系通过多次 HBase 查询统计。需要注意的是随着阶 数升,查询量级会迅速增。 图关系统计 由于整条实时流链路较,可能会有时效 性发波动的情况。如果下游系统需要根 据标签时效性精确控制为,需要通过 些额外属性来解决。 1、标签更新时间。判断当前标签值的更