《4-1 胡继强-工商银行规模化监控落地实践.pdf》由会员分享,可在线阅读,更多相关《4-1 胡继强-工商银行规模化监控落地实践.pdf(13页珍藏版)》请在三个皮匠报告上搜索。
1、工商银行规模化监控落地实践演讲人:胡继强 监控系统面临的挑战 监控体系简介 集中监控技术架构 关于监控运营的几点体会一、监控系统面临的挑战图引用:ITIL不老,只是被理解的肤浅了国家金融监管持续发力,对生产系统稳定性提出更高要求金融科技自立自强,信创转型加速云计算、大数据为代表的分布式应用带来更大规模、更加复杂的运维数据监控系统自身进化的内生需要来源:信通院 新IT治理体系:洞察企业IT建设的核心路径一、监控系统面临的挑战解决方案对标:aiops的能力成熟度模型应用监控应用监控交易监控交易监控业务监控业务监控操作系统数据库中间件UPSIaaS盘机PaaS角色策略元数据网络视图SYSLOGSNM
2、P带外CMDB统一认证IT服务台通知消息运维基础服务平台巡检平台故障自愈变更平台信创系统信创系统容灾演练资源供应SOC安全中心业务运维单元集中监控二、集中监控体系简介统一门户(PC,手机端)规范业务故障等级定义变更管理规范应用质量和运维能力标准运维数据规范监控管理管理对象运维工作台物理机虚拟机网络设备存储设备软件产品应用系统人员基础设施云机房设施运营门户办公门户系统监控交易/链路监控业务监控应用监控报警链路APM定位一站式可观测应急管理故障管理应急管理应急发起应急协同应急处置预案自愈容灾切换变更管理变更审批变更执行变更验证变更灰度变更编排变更回滚变更防御变更准入变更巡检变更验证演练管理红蓝攻防
3、容灾演练性能容量管理容量管理限流管理线上压测安全管控操作审计数据安全合规审计终端安全系统安全网络安全物理安全安全攻防监控大屏资源/资产硬件/软件资产资源规划/供应知识管理服务/采购管理巡检运营分析运维报表决策分析业务支持服务质量评估运维服务管理运维服务目录(服务API/接口/脚本库等)应用运维服务基础设施运维服务流程引擎调度引擎持续交付消息总线运维数据管理cmdb配置运维数据服务(数据聚合/存储/计算等)日志数据链路数据指标数据运维大数据算法库基础设施监控网络监控三、集中监控架构设计运维基础服务平台GSLBIT服务台IT服务台IT服务台集中监控安装部署分析评估运维操作集群框架(总行)消息总线(
4、总行)集群框架(一级机构(用户群A))集群框架(总行)消息总线(总行)集群框架(一级机构(用户群B))集群框架(总行)消息总线(总行)集群框架(一级机构(用户群C))集中监控安装部署分析评估运维操作集中监控安装部署分析评估运维操作用户接入层业务服务层基础平台层园区A园区B园区C消息总线(一级机构)消息总线(一级机构)消息总线(一级机构)通用Agent通用Agent通用Agent通用Agent通用Agent通用Agent三、集中监控架构设计-运维基础平台高可用技术架构ITM/TEC/HUB/Probe通用agent/SYSLOG/SNMP自定义采集脚本Object ServerImpact开源流
5、式计算框架开源消息中间件汇聚层采集层展示层用户认证监控策略通知策略覆盖率统计视图配置策略匹配事件丰富事件压缩动态阈值格式转换数据采集协议连接告警诊断事件处置三、集中监控架构设计-技术演进自维护生态对接在逻辑上分为即时任务(Agent)、定时任务(Schedule)、自监控(Daemon)三个核心模块提供脚本执行(shell、Python、bat、PowerShell)、文件下发、安全文件下发、日志采集、性能数据采集等规模批量并发执行能力即时任务(Agent)定时任务(Schedule)自监控(Daemon)一级机构 MQ队列1队列4队列5队列3介质服务器AgentSchedule掉线启动软件注
6、册任务执行性能超限自杀机制队列2本地脚本性能容量数据采集集中监控数据采集三、集中监控架构设计-通用Agent场景智能识别用户触发诊断集中监控报警特征库报警分析应急诊断事件单答复服务台(事件、问题等)CMDB应急预案、技术手册知识库批量服务操作Api/ssh服务台三、集中监控架构设计-故障自动处置监控系统自身的高可用能力提升监控指标穿透式管理AIOps落地场景的进一步丰富(故障自愈、根因定位)积木快接方式纳管新兴技术产品或平台信创服务器PAAS云信创中间件消息中间件基础设施云分布式数据库集中监控三、集中监控架构设计-未来演进方向监控未入,规范先行高度重视监控覆盖率的考核评价工作(CMDB、指标、系统资源节点)监控系统优化的戴明环需要常用常新上帝的归上帝,凯撒的归凯撒告警事件问题变更复盘四、关于监控系统运营的几点体会THANK YOU!