上海品茶

您的当前位置:上海品茶 > 报告分类 > PDF报告下载

IBM:马作的卢 弓如霹雳:金融机构打造实时计算能力(10页).pdf

编号:60880 PDF 10页 724.94KB 下载积分:VIP专享
下载报告请您先登录!

IBM:马作的卢 弓如霹雳:金融机构打造实时计算能力(10页).pdf

1、马作的卢 弓如霹雳金融机构打造实时计算能力的 难点剖析和应对方略IBM 商业价值研究院专家洞察 实时计算将成为银行竞争的新制高点后中台时代, 金融机构在批处理计算能力方面差距已不明显, 实时计算将成为银行错位竞争的分水岭。“六位一体” 的实时计算能力框架 数据采集、 传输、 存储、 计算、 服务和开发管理六大能力是构建实时计算框架的指南。构建实时计算能力的行动方略三大行动建议: 绘场景、 定工艺、 强治理。谈话要点实时计算的快速发展随着金融行业数字化转型的逐步深入, 数据的时效性对企业的精细化运营越来越重要。 在每天产生的海量数据中, 如何能以实时或近乎实时的方式挖掘出有价值的信息, 对企业快

2、速做出决策有着重大意义。此外, 随着实时技术的成熟和广泛应用, 数据时效性要求高的业务场景不断涌现, 金融机构业已成熟的批处理数据架构难以应对, 需要构建新一代的实时数据架构体系以便实现数字化转型中的 “换挡加速” 。实时计算业务需求爆发金融行业数字化建设的领先度激发了众多业务场景的实时分析需求, 随时根据客户最新行为调整策略或驱动智能算法自动决策的情况变得越来越常见, 这涉及了营销、 风控、 运营、 运维等场景, 例如: 在客户服务与精准营销领域,通过实时采集客户的浏览、 搜索、 交易等行为数据, 快速识别客户当前的需求与偏好, 促进客户完成交易, 提升客户价值与黏性; 在与外部合作伙伴共同

3、为客户提供服务时, 需要数据实时采集与交换完成跨流程的综合服务。 在反欺诈、 反洗钱领域,实时算法植入交易流程用于限制可疑交易; 在流动性风险管理方面, 通过高密度的实时图计算秒级计算流动性风险覆盖率 (LCR) 指标, 实时分析流动性的构成、 流动性变化的原因、 流动性的监控预测; 资产组合投资经理通过快速分析金融市场波动情况, 近实时掌握企业债券或信贷资产的估值数据, 便可以从波动中快人一步实现获利。 在小额信贷场景中, 运用大数据实时评估客户的信用风险并计算授信额度, 提高客户体验。1 在运营管理领域, 业务人员需要时效性更高的数据统计分析结果来支持业务决策, 对实时指标展现、 实时多维

4、数据钻取、 实时标签构建的需求日益显著。 在 IT 运维领域, 随着金融行业 IT 相关设备、 系统的不断增加, 需要通过实时数据监控相关设备与系统的运行状态, 及时发出通知和预警, 确保系统的正常运行。实时计算技术能力日趋成熟实时计算的相关技术是随着互联网的发展以及各个行业数字化、移动化浪潮 而逐步演 进的。实时 计算技 术 框 架从Storm、 Spark Streaming 到 Flink, 逐步实现了高吞吐量、 低延时、 有容错机制的实时数据处理与加工能力。同时, 众多互联网企业以及部分金融企业已经陆续将实时计算技术框架整合到企业级数据架构中, 在传统的离线大数据架构的基础上增加实时数

5、据链路, 使用流处理技术直接完成实时性要求较高的指标计算。 在部分互联网企业中, 实时数据处理的重要性显著提升, 出现了以实时事件处理为核心的大数据架构新趋势。 随着技术的不断演进, 企业级的数据架构正朝着离线与实时相结合, 批处理与流处理一体化融合的方向演进。现阶段, 实时数据链路中的数据采集、 传输与存储等相关领域不断涌现出稳定、 成熟的技术组件。 典型的实时数仓主要是使用 Canal、 Flume 等数据采集工具, 将原始数据写入到如Kafka、 MQ 等数据传输通道中, 最后写入到 OLAP 存储系统 (如HBase、 Kylin、 Hudi、 Iceberg、 Clickhouse

6、等) , 对外提供分钟级甚至秒级的查询方案。 以Flink为代表的实时计算技术框架的不断演进与推广, 将进一步促使实时数据计算融合到企业现有的数据架构中, 以更好地支持实时化的业务需求场景。金融行业实时计算面临的挑战金融企业已意识到实时计算的重要性, 但在实时应用场景拓展、 实时数据架构管理、 实时数据技术储备能力等方面, 金融机构仍面临较大挑战。跨时空、 多技术融合的实时应用场景有待拓展现阶段实时数据的分析应用场景主要集中在实时数据的采集、 汇聚和可视化展现、 实时模型的计算和预警。 无论在数据来源的丰富程度还是技术运用的复杂度, 金融行业数据实时应用场景具备巨大的拓展空间。 应用场景 1:

7、 “北京金融风控驾驶舱” 通过人工智能技术, 可以实时监控企业经营状况, 如果企业短期内突然变更了业务范围 (例如企业从实体经营突然向高科技业务、 金融业务等领域转变) , 驾驶舱则会在第一时间向监管部门发送预警信息, 并借助数据和信息材料, 研判企业是否假借高科技业务含义从事非法集资等诈骗活动。1 应用场景 2: 中国银保监会上海监管局联合交通管理部门搭建上海市省际客运车辆第三方安全监测平台, 平台采用 “北斗导航+GIS+大数据” 监测框架, 对上海市省际班车和包车实施 “线上实时管控+线下保险增值服务+大数据应用” 全天候监测, 平台运行以来, 上海市省际客运事故年度死亡人数减少 42.

8、85%,事故发生率有效降低。2从上述应用场景可以看出, 实时数据应用场景可以考虑时间、空间、 线上与线下的各类场景融合, 交叉运用多种金融科技手段, 发挥数据要素在实时应用场景下的乘数效应。未来, 绿色金融碳足迹捕捉、 监管沙箱应用、 多方安全计算、内外联动风险监控、 全息消费者洞察和运营等场景, 都是实时计算大有可为的地方。2实时数据架构管理能力有待加强相较于批处理线数据架构管理能力, 大多数金融企业的实时数据架构管理能力当前仍处于起步阶段。 根据工信部 “十四五” 大数据产业发展规划3 要求, 发挥大数据特性优势, 尤其是重点推动数据 “时效性” 流动, 适应数据动态更新需要。 基于此可以

9、预测,实时数据架构管理能力, 将成为衡量金融大数据应用成熟度高低的关键指标之一。 但是, 当前大多数金融机构在组织与人才保障、 技术标准与规范、 架构管控等方面仍存在诸多挑战。 组织与人才: 相比批处理数据应用, 实时数据应用场景对业务需求统筹、 数据实时采集、 模型计算与高可用系统建设的要求更高, 涉及的部门包括业务条线、 数据管理条线和科技开发条线。 研发工艺和开发规范的缺失, 导致部门之间的工作边界和上下游衔接方式不够清晰, 亟需针对实时数据建设特点明确组织职责与分工。 此外, 实时计算对架构设计与开发人员技能要求较高, 技术栈复杂演进变化快, 而目前大多数金融机构尚缺少此类人才的储备,

10、 导致实时计算能力建设的专业性严重不足。 标准与规范: 实时计算的标准与规范是实施、 推广 、 管理过程中的重要依据。 国内金融机构在数据中台、 湖仓一体建设过程中初步建立了批处理数据架构体系下的研发工艺或者开发规范, 但是尚未系统性、 体系化地建立实时数据架构的研发工艺流程和规范。 当实时数据应用建设需求增多时, 缺乏行之有效的研发指导, 技术路线选择过于随意, 开发后的维护、 更新和迭代将变得异常复杂和困难。 架构管控: 目前金融机构普遍在批处理数据架构管理和实施方面具备相对完善的管控能力。 但是以应用为驱动的实时数据架构建设尚属起步阶段, 架构管控体系上未将批处理架构与实时架构通盘考虑,

11、 批处理架构和实时架构的演变在中期发展的目标路径选择上不明确。 实时与批处理架构的中期目标态, 将决定技术组件的选择和阶段性目标的实现。金融机构实时计算技术储备能力有待提升在实时计算架构实现方面, 国内金融机构通常采取两种方式: 一是依托商业化产品, 补充在开发、 运维、 管理方面的不足,快速获得实时计算能力。 二是基于开源生态组件进行封装, 但通过封装带来使用便利的同时, 也会消弱或屏蔽一些高阶功能。无论采取何种方式, 因为实时处理涉及多种采集方式、 存储方式和传输需求, 均有其特定适用场景, 因各技术组件版本的快速迭代, 都很难确保实时开发平台一劳永逸。 所以要求金融机构必须建立符合未来技

12、术发展趋势的平台架构建设策略以及相对应的技术栈储备。3实时计算 “六位一体” 能力框架基于当前金融机构打造实时计算能力的现状和发展要求,结合 IBM 在实时计算方面的领先实践,提出了实时计算“六位一体”的能力目标框架,从实现实时数据的全生命周期管理要求出发,涉及实时数据的采集、传输、计算、存储、服务以及开发管理的六大能力(见图 1)。图 1IBM 实时计算 “六位一体” 能力框架写能力读能力订阅模式推送模式读取模式采集能力存储能力计算能力服务能力关系型存储K-V 型存储文档型存储固化查询即席查询全文搜索接口查询数据库读取文件读取数据推送文件推送消息订阅流式订阅接口推送开发管理能力图谱存储面向开

13、发面向运维面向治理组件、服务集群、资源数据采集数据存储认证、权限数据安全数据标准数据资产任务、调度数据计算数据服务客户端网页移动 APP小程序列式存储对象存储常规计算复杂计算清洗、转换、去重复杂事件处理实时图计算实时机器学习整合、拆分标签、指标传输能力数据总线消息队列数据源采集模式应用程序埋点网络传输捕获(外部)消息队列数据库变动日志数据文件流服务端程序路由队列多维分析数据库文件平台接口外部采购网页爬虫IOT 传感器数据质量实时数据采集能力实时数据有着多种渠道、 不同应用的来源, 企业级的实时数据采集能力应覆盖客户端、 服务端、 平台接口等多种来源, 考虑合适的采集方式和技术手段完成各种场景下

14、的实时数据采集(见表 1) 。4实时数据传输与存储能力相比离线数据, 实时数据具备时效性、 无限性、 随机性、 无序性、 大量性、 变化性等特点,4 因此为了应对不同场景的应用需求, 存在多类传输与存储技术。基于容量、 延迟、 功能、 稳定、 成本、 安全的考虑, 实时数据的传输与存储更关注数据的延迟问题、 稳定问题和容量问题, 而离线数据则会更关注容量问题、 安全问题和成本问题。数据存储参照以下维度进行分类: 按数据组织类型划分: 关系型数据库和非关系型数据库 按物理介质分布划分: 集中式存储和分布式存储 按数据存放方式划分: 列存储和行存储 按面向的处理过程划分: OLTP 和 OLAP

15、按面向的操作对象划分: 块存储、 文件存储、 对象存储实时数据计算能力实时数据的计算能力分为两个方面: 实时数据的标准化处理能力由于不同方式采集的原始数据可能存在多种形态、 格式, 往往需要经过一系列清洗和规则转换形成统一干净的数据, 才能供下游使用。 数据的标准化处理环节包括: 数据初始化、 数据过滤、 检核与异常处理、 字段编码处理、 字段安全处理、 技术字段处理、 数据去重、 数据分流、 数据合并、 数据持久化。对于不同类型的实时数据, 可按需选择相应的数据处理环节将原始数据加工为标准化的数据。 考虑到实时计算的时效性要求, 金融机构可构建一套统一的实时数据标准化处理程序, 保障实时采集

16、到的数据能够高效、 准确地完成标准化处理工作。表 1不同场景下的实时数据采集方式数据源采集方式适用场景客户端前端埋点捕获网页、 手机 App、 应用小程序实时数据, 搜集用户在界面上的行为服务端后端埋点通常结合前端埋点, 对于需要精确采集的数据, 避免前端埋点诱发网络问题造成的延迟、 丢数据等弊端消息队列企业数据总线已有事件数据, 或边缘消息队列集群;数据的获取由供数方控制, 且可能存在多个数据的消费方;数据库捕获数据库归档日志/联机在线日志;针对实时采集数据量较大, 主库负载低, 或有从/备库;文件流捕获组件、 服务器、 程序等日志文件, 或通过文件进行交互的数据;平台接口外采平台捕获 AP

17、I 接口、 JDBC/ODBC 连接、 文件导入等方式的外部采集数据;爬虫平台收集爬虫程序生成的公开数据;传感器数据采集平台捕获终端各类传感器节点信号 (温度、 湿度、 电压、 距离、 方位等) , 并转为可读的数字数据;5打造实时计算能力, 助力某大型商业银行构建独特竞争优势近年来, 某国有大型商业银行在实施不断涌现的实时业务需求过程中, 既面临着管理上的挑战 (如缺乏明确的组织职能定义以及统一的上下文交互文档) , 又面临着缺乏技术上的挑战(如缺少企业级的开发规范和集中的标准化数据处理机制) 。基于该行数据架构现状、 实时数据处理现状和组织架构特点,以 IBM 实时计算能力框架作为方法论指

18、导, IBM 为该银行制定了企业级实时数据架构技术标准与管理规范的解决方案。首先, 针对实时处理与批处理整合架构的缺失, 规划了实时计算总体能力蓝图, 从数据采集、 存储、 计算、 服务四个方面进行设计, 明确实时线的技术架构和数据架构。 其次, 立足于该行实时能力建设的总体目标, 明确需求提出、 方案设计、 作业开发等实时处理环节的具体流程和责任部门, 制定实时计算实施方案, 统一流程中的交互文档。 最后, 针对开发标准的一致性, 对存储命名、 标准处理、 技术字段定义、 作业配置等内容进行了统一的规范。该解决方案帮助客户明晰了实时线的建设目标和技术提升方向, 在组织职能层面、 流程执行层面

19、达成共识。 同时, 通过开发规范的制定提升了实现应用场景的落地效率和质量。 实时数据的加工计算能力实时数据经过标准化处理之后, 应针对不同的应用场景完成数据的加工计算。 数据的加工计算环节包括: 数据转换、 条件过滤、 旁路输出、 顺序排序、 去重计算、 集合操作、 关联操作、 聚合操作、 CEP 模式识别、 外部调用。实际的场景实现过程中可能是其中的一种或多种的组合操作。需要注意的是, 与离线数据的关联计算、 聚合计算等技术相比,为满足实时数据的流动性和时效性要求, 实时数据的加工计算会复杂很多, 需要不同的技术实现方式来保障实时数据计算过程中的准确性与完整性。实时数据服务能力与传统的批处理

20、数据服务通常在 T+1 日提供数据相比, 实时数据服务通常只有分钟级甚至秒级的延迟, 因此需要优先考虑服务的时效性问题。 根据数据获取的主动、 被动关系, 可将实时数据服务分为订阅模式、 推送模式和读取模式 (见表 2)表 2实时数据服务模式服务模式模式说明服务方式服务说明订阅模式数据服务的提供方合消费方之间是一个双向握手的关系消息订阅数据发布后进行授权, 各应用按需进行数据订阅;流式订阅数据发布后通过构建 socket 长连接, 进行数据订阅;读取模式由数据服务的消费方主动发起数据的获取请求接口查询数据通过封装API接口, 各应用方无需关注底层数据的存放, 进行数据的获取;数据库 读取数据写

21、入数据库, 各应用按需进行数据读取;文件读取数据写入文件目录, 各应用按需进行文件读取;推送模式数据服务的消费方被动接收数据, 数据实际适用依据应用需求而定接口推送通过调用应用放 API 接口, 以协商的数据格式, 完成数据的写入;数据推送通过调用应用方数据库连接, 完成数据的写入;文件推送通过访问应用方文件目录路径, 完成数据的写入;实时数据开发管理能力实时数据开发管理能力涉及了对开发门槛、 开发易用性、 开发全流程集中度、 治理管控集成、 全方位运维等方面内容。 规避繁重的底层逻辑开发工作, 增强计算和服务的管控能力, 构建一套一站式、 高性能、 易扩展的实时开发管理平台是实时化升级转型的

22、重要保障。 按能力作用对象可划分为面向开发、 面向治理、 面向运维 (见图 2) 。6图 2实时数据开发管理能力解析、优化、执行引擎采集引擎指标仪表板调优面向开发面向运维面向治理数据结构开发采集作业开发计算作业开发调度控制函数开发调度引擎计算引擎存储引擎资源协调元数据、标准、质量、安全实时计算能力建设方略现阶段, 金融机构已经认识到构建企业级实时数据处理体系的必要性, 希望能够逐步开展统一的实时数据平台 (实时数仓、 流批一体化数据湖) 的规划、 建设, 整合现有实时数据计算分析能力, 构建完整的实时数据处理体系。为此, IBM 建议金融机构应当从应用需求入手, 扩展实时应用场景广度和深度,

23、制定中长期的实时计算架构发展规划和研发工艺, 加强实时数据治理, 树立实时数据计算的核心竞争力。1. 绘场景: 创新应用场景, 绘制 “快人一步” 的发展蓝图当前实时应用早已不局限于服务业务部门的实时风控、 实时推荐、 实时搜索等场景, 在数据、 流程等管理方面以及任务、 组件、平台等运维方面都有了较多的应用。 例如企业管理决策的实时大屏和实时报表、 跨业务线或跨中心的实时消息推送、 数据中心或生产中心服务设备的实时系统监控等, 并且与 IOT、 AI 等技术进行不断的融合, 提升感知决策、 智能应用的时效性。 金融机构可以结合十四五战略发展规划, 在消费者实时行为画像、 实时智能产品推荐、

24、企业资金实时流动监测、 市场风险实时监测和异常交易行为实时甄别、 商户实时风险交易侦测、 实时交易监察与合规行为监测等领域深度挖掘实时计算场景需求, 形成企业级的实时计算场景目标蓝图和实施路线图。2. 定工艺: 定义中期目标架构, 加快实时计算架构研发金融机构科技开发团队应当充分考虑数据架构中期 (23 年)发展规划、 离线架构现状、 团队人员能力, 参考领先实践经验,设计适用于企业自身的实时计算架构, 明确数据的分层、 数据流向以及实时线与批处理线数据的衔接关系。 梳理企业部门间、 岗位角色间的职能定位与工作界面, 梳理上下游各环节的实施流程, 培养研发团队人员架构设计和技术能力。 目前,

25、主流的实时架构与离线架构可以归纳为四种关系, 在企业规划中期目标态定位时可供参考: 主次关系, 即以离线架构为主, 具备实时处理能力。 实时线重点关注实时采集能力, 弥补离线处理无法获取且具有业务价值的数据 (例如用户行为数据) , 具体的分析、 应用通过批量或微批量进行加工处理来支撑。 适用于离线架构未完善、应用时效性要求暂不紧迫的企业。7 结合关系, 即 Lambda 架构, 使用实时处理技术进行日增量数据处理, 离线处理技术进行历史数据处理, 可通过服务层进行两部分数据的整合提供查询服务, 或者在实时计算过程中直接获取离线处理层的计算结果进行拼接提供订阅服务。 适用于离线架构构建完善、

26、实时线与批处理线相对独立, 并且存在历史与日增结合应用需求的企业。 融合关系, 即流批一体。 实现方式有四类: 基于消息队列组件实现 (Kappa 架构) 、 基于数据湖组件实现、 基于高性能OLAP 与高性能 OLTP 组件实现、 基于同时具备 OLAP 与 OLTP 组件实现 (HTAP) 。 流批融合计算正在成为趋势, 并不断向更实时更高效的计算推进。 流批一体可以解决多套计算框架、 数据口径不一致、 开发运维管理难度等问题, 适合于实时应用需求多, 团队综合技术实力强, 可以做到无需再区分擅长批处理计算还是实时计算的企业。 替代关系, 即完全实时处理, 通过实时技术构建完整的数据仓库。

27、 事实上现阶段的技术能力仍难以实现, 但是随着实时采集工具的完善、 流式数据存储技术的发展、 存储服务查询能力的提升、 计算引擎的完善, 从融合关系过渡到替代关系并非不可能。 金融机构可以根据服务的稳定性、 数据的安全性、 需求的时效性、 团队人员构成来进行考量。3. 强治理: 将实时数据纳入治理范畴, 提升实时数据质量离线数据质量问题目前通常采用事前-事中-事后治理的方式,要么从数据源端推进业务系统改造, 要么在任务执行后发现数据质量问题, 通过数据质量专题治理开展数据质量专项提升。而实时数据质量问题通常属于事中治理, 若运行过程中修正数据质量问题会极大影响应用, 因此应当在实时处理环节中针

28、对数据格式、 字段值进行统一异常检核, 还应当针对字段数、 字段格式进行检核, 并且对于不同的数据异常场景进行统一的处理, 便于异常问题的溯源 (见图 3) 。 金融机构业已建立起比较完备的数据治理体系框架, 应适时考虑将实时数据纳入治理范畴。图 3实时数据检核与处理总体流程日志记录错误数据日志记录错误数据字段数不匹配处理字段格式不匹配处理数值异常处理开始检查判断是否具备转换条件数据格式转换判断字段数是否匹配字段类型转换判断字段格式是否匹配判断数值是否异常结束检验是是是否否分割异常否否是8需要思考的重要问题 您在实时计算方面遇到哪些挑战? 您打算如何构建实时计算能力? 您打算从哪里起步?结语 近年来实时计算架构方兴未艾,也逐步影响着金融行业的数据架构演进。实时数据之所以得到重视,很重要的原因是由流数据的实时性和无限性两个特征决定的。实时性决定了流数据像新闻一样具有实时价值,如果事后分析这些数据,价值性就大打折扣。批数据在每次处理时数据量是有限的,而流数据总在不断产生, 无穷无尽, 这更接近实际的业务场景。所以,在系统架构和算法实现上,实时计算和批处理计算产生了明显的不同。事实上,批处理架构下的建设模式对金融机构打造实时架构可参考的经验并不多。金融机构需要在实时计算场景构建、架构路径选择、技术治理以及团队储备方面快速抉择,谋定而后动,方能在实时计算这一新的制高点争夺中占得先机。9

友情提示

1、下载报告失败解决办法
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。

本文(IBM:马作的卢 弓如霹雳:金融机构打造实时计算能力(10页).pdf)为本站 (X-iao) 主动上传,三个皮匠报告文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三个皮匠报告文库(点击联系客服),我们立即给予删除!

温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。
会员购买
客服

专属顾问

商务合作

机构入驻、侵权投诉、商务合作

服务号

三个皮匠报告官方公众号

回到顶部