《刘志-从理念到落地:中小银行智能运维体系建设实践.pdf》由会员分享,可在线阅读,更多相关《刘志-从理念到落地:中小银行智能运维体系建设实践.pdf(33页珍藏版)》请在三个皮匠报告上搜索。
1、2023 DevOps 国际峰会 暨 BizDevOps 企业峰会 北京站从理念到落地中小银行智能运维体系建设实践刘志 长沙银行01为什么要做智能运维项目描述,单击此处添加简短说明02智能运维,从理念到落地项目描述,单击此处添加简短说明03智能运维的Planing项目描述,单击此处添加简短说明目录Content01为什么要做智能运维项目描述,单击此处添加简短说明2023 DevOps 国际峰会 暨 BizDevOps 企业峰会 北京站政策驱动:三大驱动基于中国银行业监督管理委员会关于印发商业银行业务连续性监管指引的通知针对业务连续性保障相关要求;以及中国人民银行关于印发金融科技发展规划(202
2、2-2025 年)的通知明确提出“以加快推进金融机构数字化转型为主线,从健全斗技治理体系、夯实数字基础底座、加强技术创新引领”指导思想;以及“数字驱动”基本原则;标准驱动:内部驱动:对标ITIL4+AIops框架标准+信息技术服务数据中心服务能力成熟度模型+四大行智能运维体系模型,形成长沙银行特色智能运维体系建设解决方案。全行数字化转型的战略目标2023 DevOps 国际峰会 暨 BizDevOps 企业峰会 北京站长沙银行运维诉求重点围绕数字化转型的目标,推动业务连续性水平再上新台阶。敏业务,助力持续精益发展业务结构持续优化,要求渠道快速响应系统变化稳生产,夯实数据基础数字化运营日趋完善,
3、构建数据全生命周期管控,强化风险预警提示“早识别,早预警,早见效”,推动各类工具的深度运用,实现一切业务数据化,一切数据业务化稳核心,坚守不发生系统性风险稳步推进业务连续性保障的赋能,针对核心系统及非重要系统的差异化管理标准,与核心业务部门建立常态化的联合运营机制敏架构,推进创新转型持续优化系统建设,扎实推进“两地三中心多云异构”“一云多芯异构”建设敏稳兼顾安稳长满优2023 DevOps 国际峰会 暨 BizDevOps 企业峰会 北京站面临的痛点近年来,随着监管部门对业务连续性管理监管政策的不断细化和深入,业务连续性管理的理论和方法不断成熟,且随着用户智数化的发展,信息系统建设持续深入,资
4、产规模不断扩大,架构体系越来越复杂,技术迭代日新月异,金融业数据中心的生产管理带来了严峻地挑战。欠债多关系杂成本高竖井式效率低数据零散业务整合架构梳理降本增效工具分散交付保障决策支撑02智能运维,从理念到落地项目描述,单击此处添加简短说明2023 DevOps 国际峰会 暨 BizDevOps 企业峰会 北京站整体架构运维服务门户一体化共享式服务中心流程驱动,助力多种运维场景联动运维数据中台网络流量监控运维服务对象:业务、数据、应用、基础资源系统监控监控体系自动化工具服务台事件管理应急管理问题管理变更管理值班管理演练管理知识管理服务水平管理业务连续性管理发布管理生产运营看板故障预测全局诊断性能
5、预测异常检测事件分析容量规划数据接入处理数据清洗数据存储数据规范算法复用。建模CMDB资产管理配置项管理资源池管理应用管理自动扫描关联分析依赖树数据收集和维护场景化消费,自动发现,更新监控告警事件流程调度统一部署应用监控巡检应急部署灾切动环监控APM日志监控。2023 DevOps 国际峰会 暨 BizDevOps 企业峰会 北京站建设成果析监控配管提供了统一的配置管理数据库(CMDB),建立了以资源出发的配置项模型 支持对运维中已有和新增的物理资源、虚拟资源、软件资源、应用系统等对象配置信息的统一、规范化管理。为配置信息制定标准口径,为数据中心资产透析提供统一视图,支持资产清点、运维监控、变
6、更实施、数据分析等多元化消费场景。CMDB提供全链路监控、智能告警、运维数据分析能力,打造生产状态感知、问题诊断分析、性能容量分析、运维资产管理的统一运维入口,将数据以服务化的方式输出,帮助开发和运维人员快速定位和解决问题,提升运维整体工作效率。既可以直接满足运维人员的使用需求,也能为运维生态圈中其他组织的个性化运维场景提供数据消费能力,使生态圈成员共享最佳数据运营。运维数据中台统一接收监控工具以及第三方系统所发送过来的告警消息,并经过标准化、丰富、抑制、压缩、关联等过程最后形成准确的告警信息监控体系自动化管理实现高效率、提升质量、保障安全、过程规范、交付敏捷的目标。包括了操作管理、编排管理、
7、作业管理及作业执行调度等功能,实现运维操作标准化后的自动化操作。包含了自动化切换场景,自动化部署,自动化巡检等场景自动化运维运维组织调度联动流程,完美整合ITIL、DevOps 理念,通过规范服务流程和技术服务工作,建立一套标准的敏捷的运维服务管理流程,进行日常运维服务工作的流程化、规范化管理。包含服务台、服务目录、服务水平管理;事件管理、问题管理;变更管理、发布管理;应急管理,值班管理等运维服务管理智能化2023 DevOps 国际峰会 暨 BizDevOps 企业峰会 北京站监控体系架构(1)基本目标:降低故障平均定位时间,提升系统可用性和运维效率,长期目标1,5,10事件处置标准。华为云
8、,阿里云,pass云自监控监控来源zabbix应用监控Prometheus网管平台华为云,阿里云,pass云自监控ClouderaManager动环监控安全运营管理平台自动化运维平台日志平台监控模型业务层应用层系统层物理设施层基础设施层安全层大数据平台层云服务层架构层+对象类型+监控指标故障定位全局诊断故障复盘交易多维分析容量预测根因分析日志聚类分析告警优先级推荐告警时序分析同源分析监控总览运行报表告警中心应用场景告警处置告警台告警配置告警总览2023 DevOps 国际峰会 暨 BizDevOps 企业峰会 北京站以某核心应用为例“架构层+对象类型+监控指标”监控情况(2)综述:经典架构模型
9、共7层,分别是:业务层,应用层,系统层,物理设施层,基础设施层,安全层,大数据平台层。共197个标准对象类型。架构层其中4层有监控,监控覆盖率为57.14%;标准对象类型9个存在监控,监控覆盖率为:3.61%架构层对象类型监控指标数指标说明业务层业务系统11业务层共6个标准对象类型,2个对象类型存在监控指标,监控完成率33.33%;缺失相关对象类型监控业务批量任务1应用层Application25应用层共97个标准对象类型,5个对象类型存在监控指标,监控完成率5.15%;缺失相关对象类型监控集群_Application1APP1Tomcat30Redis110物理设施层物理服务器3物理设施层共
10、15个标准对象类型,3个对象类型存在监控指标,监控完成率20%;缺失相关对象类型监控系统层Linux48系统层共4个标准对象类型,1个对象类型存在监控指标,监控完成率25%;缺失相关对象类型监控监控模型模型分类架构层标准对象类型经典架构模型业务层6应用层97系统层4物理设施层15基础设施层20安全层22大数据平台层33云云服务层83合计8层280应用验证2023 DevOps 国际峰会 暨 BizDevOps 企业峰会 北京站监控体系联动建设思路(3)资产流程事件/问题/应急管:运维服务管理资产管理配置项管理配:CMDB指标体系管理监控基线管理析:运维数据中台监:监控工具告警管理监控管理数据管
11、控监控对象监控指标监控模型告警事件快速响应赋能优化告警管理监控实例2023 DevOps 国际峰会 暨 BizDevOps 企业峰会 北京站运维服务门户-标准化/规范化组织架构制度体系工作机制工具支撑运维组织机构梳理配套运维管理制度,基于管理制度实施落地运维工作体制,明确岗 位职责和工作流程,结合现状基于现有工具情况指引,规划工具支撑对标ITIL4服务价值链将作为核心并结合以上4步梳理进一步细化服务交付的各过程;形成标准化流程,并通过管控平台固化,规避管理风险和技术风险标准化统一服务流程入口统一运维术语规范运维服务活动管理规范统一规范化2023 DevOps 国际峰会 暨 BizDevOps
12、企业峰会 北京站运维服务管理-工具联动场景应用变更管理事件/问题/应急资产流程版本管理发布管理等测试管理自动化工具一线坐席客服系统监(监控工具)控(自动化工具)析(数据中台)用户用户CMDB用户Devops交付联动事件问题应急联动资产数据管控联动运维服务管理2023 DevOps 国际峰会 暨 BizDevOps 企业峰会 北京站运维服务门户-管理可视化多维度数据报告,从服务协作、成本与效益、服务水平与时效,合规,质量、风险、用户满意度等多个维度对数据进行分析基于量化的指标分解运维服务的每个实践,结合服务评价指标持续优化改进运维服务变更统计报表事件问题统计报表值班统计报表团队能效视图个人能效视
13、图健康度视图2023 DevOps 国际峰会 暨 BizDevOps 企业峰会 北京站自动化工具自动化切换自动化部署自动化应急自动化巡检定时作业/历史作业管理资源库操作/脚本管理作业编排管理调度执行引擎自动化管理实现高效率、提升质量、保障安全、过程规范、交付敏捷的目标。包括了操作管理、编排管理、作业管理及作业执行调度等功能,实现运维操作标准化后的自动化操作。包含了自动化切换场景,自动化部署,自动化应急,自动化巡检等场景标准化流程化自动化模块化智能化2023 DevOps 国际峰会 暨 BizDevOps 企业峰会 北京站生产操作标准化:部署、应急、灾切、巡检等人工确认发布参数12435选择主机
14、设置分批策略选择包确认清单发布前检查开始CMDB制品库12435应用备份屏蔽监控F5摘除停止服务部署发布自动化完成67启动服务服务探活89F5挂载恢复监控部署应急人工确认发布参数12435选择主机设置策略选择包确认清单发布前检查开始CMDB制品库213F5摘除停止服务部署应急自动化完成45启动服务服务探活6F5挂载2023 DevOps 国际峰会 暨 BizDevOps 企业峰会 北京站生产操作标准化:部署、应急、灾切、巡检等灾切巡检01标准化巡检模型02配置巡检项及规则03添加相应的设备IP04设备绑定业务系统05启动自动巡检程序灾切前检查关闭对外服务接口停止源业务系统服务DB切换停止源DB
15、服务检查DB同步结果启动目的DB服务启动目的业务系统服务目的数据中心业务验证及运行回切2023 DevOps 国际峰会 暨 BizDevOps 企业峰会 北京站CMDB运维数据底座03建流程联动流程存量治理增量管控04闭环管理资源生命周期管理01定标准有效性,一致性完整性,及时性准确性,唯一性02立规范管理要求管理模型消费规范05持续改进数据清洗数据校准06赋能业务监控告警自动部署场景消费数据纳管+数据质量+数据消费2023 DevOps 国际峰会 暨 BizDevOps 企业峰会 北京站CMDB运维数据建模接入1、核心模型,业务、应用、集群、主机2、云原生资源模型及多云管理能力3、自定义模型
16、扩展:基于核心模型的关联对象4、IAAS、PAAS提供面向应用的资源支撑5、深度两地三中心架构的模型,软硬件资源管理应用资源平台资源基础设施机房设施云资源特殊设备资源管理针对每一个对象进行实例化,明确CI项及CI项属性和关系人工录入平台接入自主采集发现2023 DevOps 国际峰会 暨 BizDevOps 企业峰会 北京站CMDB运维数据底座-清洗清洗流程:确保数据清洗的全面、准确和可靠。清洗标准:包括数据标准、数据规范、数据质量等。数据重复数据完整性通过去重和合并等措施,清理掉重复数据,确保数据的唯一性。数据格式检查数据是否符合规范,比如日期、时间、IP地址等数据是否正确,并进行统一格式化
17、。数据精度对数据进行多次验证和核对,确保数据精度和精确性。如果数据缺失或者不完整,需要对其进行数据补全或者删除处理。2023 DevOps 国际峰会 暨 BizDevOps 企业峰会 北京站CMDB运维数据底座-治理确保数据的可信度、准确性和完整性数据合规确保数据的收集、处理和存储符合相关法规和标准要求01标准化分类对数据进行标准化和分类,以提高数据的可读性和易用性02技术手段来规范数据结构和关系,便于相关人员查询和利用03数据清晰化每个数据都需要进行定期检查和更新,以确保数据的准确性和完整性。04审核和更新2023 DevOps 国际峰会 暨 BizDevOps 企业峰会 北京站CMDB运维
18、数据底座-8大消费,5个维度赋能CMDB(统一消费)控:应用部署控:日常维护控:系统安装管:服务流程管:事件问题处理监:日常监控配:配置优化析:资产透明2023 DevOps 国际峰会 暨 BizDevOps 企业峰会 北京站运维数据中台基本目标:“以数据治理为引领,以场景实现为中心,以能力构建为支撑”,赋能全行业务1、数据管理能力:包含数据采集,数据建模,数据加工,数据安全等2、数据分析能力:包含数据探索,数据收敛,数据特征提炼,分析决策,可视化等。3、智能化联动能力:包含联动运维工具,接入管控,安全管控,过程管控,执行管控等。数据治理1场景实现2能力构建31、从自身运维场景需要出发智能告警
19、,异常检测、根因定位、故障自愈、知识图谱,运维资产建模管理等2、夯实运维数据处理能力考虑运维数据中台能力建设,先把数据能力夯实,智能化场景的落地逐步完善。3、场景分析,算法赋能,拉通数据孤岛,循序渐进的场景化建设围绕存在不足和挑战的既有运维场景逐步做智能化改造。1、构筑适配灵活、标准化、模块化的多源异构数据资源接入体系;2、建设规范化、流程化、智能化的数据处理体系;3、打造数据精细化治理体系、组织的数据资源融合指标体系;4、构建统一多场景运维模型管理、精准服务、安全可用的信息共享服务体系。2023 DevOps 国际峰会 暨 BizDevOps 企业峰会 北京站运维数据中台-数据治理利用运维数
20、据中台所覆盖的从标准、设计、采集、清洗到使用,再到交付和运维的全数据治理流程,实现数据“统一采集、统一存储、统一管理、統一运营、统一服务”,始终以数据服务业务为目标,持续建设高价值的数据资产与服务,构建一个能持续高效运转的运维数据治理运营体系。统一采集、统一存储、统一管理、統一运营、统一服务持续治理建设规范评估1、明确数据管理者2、例行的沟通机制,管控机制1、设计数据治理演进路线2、体系+平台+数据模型进行有序的常态化治理1、数据治理成熟度诊断;存量数据梳理基于现状诊断报告2、数据质量度量标准与评估,发布数据质量评估报告2023 DevOps 国际峰会 暨 BizDevOps 企业峰会 北京站
21、运维数据中台-场景实现当多个应用同时发生问题时,如何快速定位?处理过程定位步骤平台功能多个应用告警全行应用墙上下游影响同源影响异常先后关系多个服务实例多个逻辑分区调用链关系多个应用根源应用网络线路网络设备物理服务器存储等异常资源全局诊断分析链路分析根因分析异常检测分析网络应用系统基础设施等运维场景场景定义专家知识数字化中台能力场景建模输出价值实践与治理智能运维决策及执行驱动演进2023 DevOps 国际峰会 暨 BizDevOps 企业峰会 北京站运维数据中台-能力构建数据处理能力数据采集管理数据接入管理数据分析管理数据接入资产监控流程性能云巡检交易数据存储管理数据计算管理数据治理管理运维场
22、景模型管理(模型+指标+规则)智能告警诊断分析性能容量分析业务分析用户体验分析服务水平分析能力呈现数据处理实时采集03智能运维Planning项目描述,单击此处添加简短说明2023 DevOps 国际峰会 暨 BizDevOps 企业峰会 北京站运维不止是运维,在不确定的确定方法论下Plan能力构建数据治理运维标准场景应用运维规范运维资产运维流程持续改进What?Where?How?Want?Do?Arrived?业务与战略规划持续更新2023 DevOps 国际峰会 暨 BizDevOps 企业峰会 北京站Planning6大原则业务诉求一切以业务连续性保障为目标阶段目标以阶段目标为中心解决
23、方案已解决方案为图纸标准规范以标准规范为核心方案成效看得见,可度量,可扩展战略规划以战略规划为引领需而建适而优思而行行必效2023 DevOps 国际峰会 暨 BizDevOps 企业峰会 北京站智无尽,维无止初始智能化全面智能化进阶智能化辅助智能化高度智能化工具采集,人工分析特定场景动态分析,辅助决策场景静态+动态分析,人工决策动态策略完整闭环,自动操作,人工监督全部场景策略,自动操作,自愈,软件自学习,根据由中国信通院牵头制定的行业标准云计算智能化运维能力成熟度模型 第 1 部分:通用能力要求中的 能力建设分级要求,可以将智能化运维整体能力从感知、分析、决策、执行、知识更新五个维度进行级别划分,系统的参与程度随智能化程度逐级递增,并结合智能运维应用场景特点,形成 了智能运维能力成熟度模型。升级,进阶,ING2023 DevOps 国际峰会 暨 BizDevOps 企业峰会 北京站ThanksDevOpsDevOps 时代社区时代社区荣誉出品