《黄豁-国泰君安数智化运维服务平台可观测体系建设之路.pdf》由会员分享,可在线阅读,更多相关《黄豁-国泰君安数智化运维服务平台可观测体系建设之路.pdf(26页珍藏版)》请在三个皮匠报告上搜索。
1、2023 DevOps 国际峰会 暨 BizDevOps 企业峰会 北京站国泰君安数智化运维服务平台可观测体系建设之路黄豁 资深工程师负责基础运维工具平台建设,基于典型运维场景,以运维数据治理为基础、以人工智能算法为辅助,致力于建设有国泰君安特色的数智化智能运维服务平台,多次带领团队通过信通院DevOps技术运营2+级评估01什么是可观测02可观测建设背景03可观测落地实践04总结与展望目录Content01什么是可观测2023 DevOps 国际峰会 暨 BizDevOps 企业峰会 北京站指标日志链路什么是可观测应用1应用2应用N2023 DevOps 国际峰会 暨 BizDevOps 企
2、业峰会 北京站可观测与监控的关系关注系统面向过程被动响应主要关注系统是否有问题面对的是一条条具体的基础设施或应用程序相关的故障告警,核心目的是在于及时发现故障基于告警的触发去被动响应关注业务面向结果主动分析在此基础上更加关注与业务问题形成的具体上下文关联面对的是与业务密切相关的指标,能实时跟踪业务当前状态、快速诊断和解决问题驱动运维人员主动基于多种数据的关联分析,为业务优化提供数据支持监控可观测02可观测建设背景2023 DevOps 国际峰会 暨 BizDevOps 企业峰会 北京站遇到的问题分布式、微服务、云计算等技术的发展,运维对象的数量急剧增长,运维对象之间的关系日益复杂,使得运维人员
3、要处理的问题更加复杂日益复杂的系统架构为确保良好的用户体验,对运维人员在系统发生故障时的排查速度和解决速度提出了更高的要求,尽管系统的复杂性导致故障排查难度随之增加精准快速的排障要求在复杂系统中,仅仅关注单点日志或者单个维度的指标,并不足以帮助我们掌握系统的整体运行状况。无法感知的单点算法指标数据存在数据源多、离散性高、数据结构不一致以及数据获取困难等问题,难以支撑智能运维算法的全面落地质量不高的指标数据03可观测落地实践2023 DevOps 国际峰会 暨 BizDevOps 企业峰会 北京站可观测体系设计思路算法持续研究优化智能算法,赋能运维一线人员,提早发现风险隐患,快速定位故障根因平台
4、推进数智化运维服务平台建设,完善数据集成、数据开发和数据服务等功能,为数据高速流动、实时共享和场景应用提供平台支持数据以用户体验和业务为中心,落地建设多维度、多层次运维指标体系,同时针对指标数据进行专项治理,提升数据质量2023 DevOps 国际峰会 暨 BizDevOps 企业峰会 北京站运维指标体系构建建立横纵结合、多层次、多维度的运维指标体系,涵盖基础环境、存储、网络、容器云、服务器硬件、操作系统、数据库、中间件九大主题域,共计626个标准监控项,并对指标进行标准化定义、分类和属性划分。具有证券行业特性,可准确量化展现系统运行状态及业务价值,为数据分析、智能运维场景等提供数据基础。20
5、23 DevOps 国际峰会 暨 BizDevOps 企业峰会 北京站指标数据治理运维数据治理平台指标模型日志模型告警模型配置模型报文模型架构模型知识模型工单模型数据模型管理数据服务目录数据资产目录及多维度管理和标记数据同步与下发元数据管理数据质量告警数据质量规则管理完整性唯一性有效性一致性准确性及时性数据湖库表及kafka结构同步Schema管理库管理Kafka管理数据质量分析数据服务分析数据血缘分析数据标准下发任务数据质量门禁服务数据模型接口服务各类日志结构、指标模型、告警结构、配置模型数据标签管理指标、日志、配置项数据校验结果汇总加工指标实例质量主动报警加工指标实例抽样同步校验加工指标质
6、量标准加工前质量门禁算法接口原始日志报文加工日志报文加工后质量门禁算法接口原始日志报文加工指标实例加工质量门禁算法接口汇总指标抽样同步校验汇总指标质量标准汇总指标质量主动报警汇总指标实例Influxdb运维数据源配置项、应用架构、日志、报文、指标、告警、知识、管理运维数据湖平台指标第三方指标运维数据开发平台 数据质量门禁服务数据质量门禁服务数据质量门禁服务数据质量门禁服务1132汇总数据最终数据指标实例抽样同步任务指标实例校验任务日志实例校验任务日志与指标实例映射任务指标实例与CMDB、指标模型映射任务日志实例抽样同步任务告警实例校验任务告警与指标、CMDB映射任务告警实例抽样同步任务数据治理
7、分析和数据服务管理2023 DevOps 国际峰会 暨 BizDevOps 企业峰会 北京站运维指标体系与指标治理的关系数据治理平台运维数据湖2023 DevOps 国际峰会 暨 BizDevOps 企业峰会 北京站运维数智化运维服务平台建设实现多源数据集成与算子化、可编排的数据实时计算,提供各类算子30余个,日均分析日志数据15T以上,覆盖100+重点系统。纳管多样化运维数据,包含指标、日志、调用链、告警、CMDB、统一架构等共计6大类数据资产。提供丰富的数据服务,目前已应用于智能运维算法、RPA、容量等多类数据分析场景。2023 DevOps 国际峰会 暨 BizDevOps 企业峰会 北
8、京站多维异常定位算法简介在上万种维度取值组合中快速定位最有嫌疑的维度2w条/分钟数据量层次化剪枝蒙特卡洛树搜索算法基于“影响力”的异常检测算法交易明细数据异常检测第1层维度组合第2层维度组合第N层维度组合异常维度集合层次化剪枝.基于嫌疑程度的蒙特卡洛树搜索 当前维度组合在告警前后(红色背景为告警后)详细的指标变化情况展示所有可疑维度组合单指标异常检测监控到http_error事件的错误数有突增。2023 DevOps 国际峰会 暨 BizDevOps 企业峰会 北京站多维异常定位算法优化提升01利用基于Flink实时流处理技术,可自定义维度属性,完成前端错误明细数据的降维聚合。*高峰时期的数据
9、量能减少2/3,极大提高计算效率。*形成可复用的多维指标数据,可供更多下游场景使用。数据过载时算法性能瓶颈如何克服02根据业务逻辑对全量数据进行拆分,按业务类型进行异常检测及根因定位。*既可以避免逐一监控带来的监控面板爆炸以及数据量不足的问题,又可以避免监控全量数据带来的漏告风险。*先定位问题场景,再进行多维下钻,可以节约大量计算开销,提升计算速度。总量变化不大时如何定位异常根因03将原始数据按照N:1抽样,再接入多维算法。*通过少量样本可以把握住整体特征;*一分钟内完成抽样明细数据的分析,能准确定位出错误明细维度的根因。降维导致的错误维度缺失如何避免2023 DevOps 国际峰会 暨 Bi
10、zDevOps 企业峰会 北京站多维异常定位算法效果提升故障根因排查效率充分利用前端错误明细数据,快速、准确地定位异常根因维度,相比传统人工逐个维度进行分析的方式,有效提升根因维度的分析效率和定位结果准确性。打通前后端监控壁垒,实现全面可观测可观测成为开发与运维的桥梁,系统前端业务报错和后台系统的联动,使得原本在后台系统无法感知的异常也能被运维人员及时捕捉,对于系统的安全稳定运行有积极的意义。直观展示故障影响范围当业务指标异常时,在大规模错误明细数据中明确故障事件的影响范围,为管理员提供关键排障线索,有效缩小故障排查范围。2022年3月2022年12月40%算法准确率达80%以上2023 De
11、vOps 国际峰会 暨 BizDevOps 企业峰会 北京站基于知识图谱的根因定位算法简介 基于CMDB和历史告警数据构建软硬件知识图谱及告警知识图谱,给出故障发生时的疑似根因路径,缩短运维人员的排障时间。在拓扑结构准确、组件关键告警未缺失的前提下,根因定位节点在TOP3的命中率可达70%以上。构建故障传播子图根因链路推理构建软硬件知识图谱构建软硬件知识图谱去噪,多故障拆分2023 DevOps 国际峰会 暨 BizDevOps 企业峰会 北京站基于知识图谱的根因定位算法效果 通用性强基于图推理的根因定位方法适用于分布式架构的多种类型的异常诊断。可解释可自动梳理告警风暴背后的逻辑关联,直观展示
12、异常传播链。本算法方案只需要少量人工干预并且可以适应应用的动态变化。自适应在拓扑结构准确、组件关键告警未缺失的前提下,根因定位节点在TOP3的命中率可达70%以上。2023 DevOps 国际峰会 暨 BizDevOps 企业峰会 北京站复杂系统数字孪生模型的探索实践采用数字孪生方法论将复杂IT系统抽象为灰盒模型,引入指标相关性分析,构建数字孪生外层,融合多种观测数据,构建数字孪生内核,基于模糊测度和马尔科夫链理论建立系统运行态模型,评估系统健康度、发现系统隐性故障、辅助故障根因定位。数字孪生观测框架多指标分析体系设计2023 DevOps 国际峰会 暨 BizDevOps 企业峰会 北京站复
13、杂系统数字孪生模型的探索实践01小尺度测量:采用的是非线性相互作用建模算法,基于节点的输入和输出特征集构建节点的非线性影响权重量化模型,可准确量化不同输入特征对输出特征的非线性叠加影响。02大尺度建模:基于小尺度模型的基础上对小尺度测量模型进行量化、离散化,以离散马尔可夫链模型刻画节点在不同小尺度测量模型上的动态迁移过程,从而在较长时间尺度上构建节点的运动规律。03健康度打分:通过记录节点在状态迁移过程中的性能指标,则基于统计出节点的正常、异常状态比例,从而根据特定标准给节点健康度进行统计打分。2023 DevOps 国际峰会 暨 BizDevOps 企业峰会 北京站复杂系统数字孪生模型的探索
14、实践实时观测通过将运维对象数字孪生化,可视化更直观提前预测比现有工具提前至少5分钟上报故障发现异常后可以快速给出异常根因,提升故障诊断效率故障诊断04总结与展望2023 DevOps 国际峰会 暨 BizDevOps 企业峰会 北京站关键产出指标600+-40%10T+70%-5分钟80%标准监控项覆盖实时采集数据量多维异常定位准确率推动前端报错减少量根因定位节点在TOP3的命中率数字孪生算法告警较传统监控提前量2023 DevOps 国际峰会 暨 BizDevOps 企业峰会 北京站未来展望强化可视化能力,快速理解系统状态和趋势标准化故障处理流程建立算法研发流水线,提升算法研发效能加强平台赋能拓展系统级数字孪生算法故障趋势预测算法运维排障树拓展数据治理范围,实现全域运维数据治理强化数据分析能力,优化数据使用体验融合安全治理完善核心业务流程覆盖范围持续推广应用,挖掘场景.全面提升系统可观测性020104032023 DevOps 国际峰会 暨 BizDevOps 企业峰会 北京站ThanksDevOps 时代社区荣誉出品