《国君期货康训会-国君期货一体化运维平台建设实践.pdf》由会员分享,可在线阅读,更多相关《国君期货康训会-国君期货一体化运维平台建设实践.pdf(23页珍藏版)》请在三个皮匠报告上搜索。
1、研运至简,创新无限国泰君安期货一体化运维平台建设分享国泰君安期货有限公司-康训会#研运至简,创新无限目录/CONTENTS目录01背景与目标02方案与落地03价值创新04演进计划#研运至简,创新无限目录/CONTENTS目录01背景与目标02方案与落地03价值创新04演进计划数 字 化 转 型 的 需 要资本市场数字化转型是一场以金融科技创新为核心的竞逐,期货公司正围绕“提升客户体验、转变服务模式、为运营提能增效”等价值创造进行数字化转型。I T 运 维 的 迫 切 需 求可持续扩展的数字化IT能力体系;兼顾稳态运行与敏态响应的能力;由被动支撑向主动运营转型的压力。技 术 迭 代 带 来 的
2、历 史 包 袱规模庞大、分布式与传统架构共存;异构化带来的兼容性问题、信创的要求;不同时期、不同领域的工具未能形成合力。项目背景:快速增长的业务与实际运维能力的冲突现有监控工具缺乏与CMDB联动,无法按照业务实际进行全景状态监控,复杂应用排障难度大。缺少运维主数据和集中的配置管理只实现了基于国小君整合的服务入口,但对于工单后续的流转、追踪、反馈、评价、统计环节均存在缺失。IT服务管理存在断点服务作为运维部门对业务提供的主要业务形态,钉钉无法支持分级、分类展示,按SLA管控时效及之后的运营统计。缺少对于IT的分级分类IT资源管理主要依赖人工,自动化程度不高且不能有效联动CMDB、ITSM形成完整
3、工作流,效率无法满足要求。系统管理工具能力不足01020304项目背景:工具能力与管理需要的不匹配随着我司业务的不断发展,IT环境规模也在不断变大,运维服务管理场景多元化趋势,单靠工具运维已经很难满足业务的需要。为支撑业务发展以及全面实践数字化转型,计划建设一套功能全面、自主可控和架构灵活的统一运维平台,实现运维工作标准化,规范化,自动化,流程化和场景化,为我司全面数字化转型及运维能力整体提升提供技术保障:工具联动:解决当前运维工具碎片化,多头维护,协同困难,数据离散的痛点,建设统一运维平台,实现融合联动,提升自动化运维场景;提高效率:解决当前IT资源管理低效率、低准确、难消费的问题,实现IT
4、资源可管、可信、可视、可用,筑牢运维数字化转型根基;规范管理:解决IT服务管理不规范,事件追踪存在断点、配置管理、流程管理缺少标准和基本原则的问题,实现流程标准化、操作规范化。脚本运维工具化运维数据化运维平台化运维智能化运维脚本代替手工操作执行:人+脚本决策:人工具碎片化,数据离散,运维场景联动弱执行:人+系统决策:人蓝鲸运维管理平台(融合联动”监/管/控”自动化运维场景,完善运维标准规范,提升运维工作效率)执行:人+平台(自动/联动)决策:人+平台数据融合,全局度量,主要运维场景实现端到端自动化、流程化,免干预执行:平台(全局/融合)决策:人+平台以数据为基础,算法为支撑,场景为导向;可以在
5、成本、质量、效率间从容调整执行:平台(判断/预测)决策:人+算法本期建设目标过去项目目标:建设一套功能全面、自主可控的运维平台#研运至简,创新无限目录/CONTENTS目录01背景与目标02方案与落地03价值创新04演进计划方案整体规划摸家底盘资产树目标理场景分层管建体系工具平台落地建模型定标准场景持续拓展捋痛点定职责建流程提质量总体规划有标可循逐步推进明确分工一体化运维平台流程体系设计数据平台底座管理运营项目建设原则9运维管理对象一体化智能运维平台基础能力统一运维能力中心智能化运维门户跨云网多级资源管控与适配中心任务编排引擎作业调度权限控制登录模块开发者中心前后端开发框架自助部署自助开发免运
6、维托管自动化运维流程合规管控统一运维管理门户(PC)统一运维管理门户(移动)应急灾备中心灾备预案管理灾切任务管理应用灾切流程编排灾切大屏可视化灾切审计管理标准规范运维流程服务规范统一配置管理规范API Gateway多语言SDK虚拟化物理机网络中间件操作系统数据库应用系统存储统一配置中心统一流程中心运营可视化中心应用拓扑数据及模型管理自动发现和采集配置消费配置报送配置关联串行并行统一日志中心自定义监控能力扩展操作系统/中间件监控联动CMDB业务监控网络连续性拨测服务云平台监控灵活丰富的告警策略容器灾切恢复管理自动化运维规范运维流程引擎表单设计移动审批服务管理流程管理值班管理知识库云资源基础管理
7、云资源服务管理云资源运营管理资源容量管理资源申请自动化管理海量日志采集存储结构化日志清洗日志关键字全文检索日志关键字监控告警日志上下文查看业务日志分析统一云管中心统一告警中心统一监控中心异构数据源接入自由拖拽,快速构建交易分析大屏可视化IT资产可视化统一业务监控大屏运维调度大屏可视化多源告警数据接入告警联动CMDB丰富告警抑制屏蔽能力告警转工单告警联动自动化处理业务视角告警分析一期建设能力二期建设能力三期建设能力2811统一运维平台规划全景业务拓扑、硬件、OS、中间件、数据库等13个分类共计79个模型15个模型自动化采集功能开发和上线7类共23个服务流程,包含信息变更业务、设备托管、特色业务申
8、请、自有机房设备管理等多个类型的申请流程配置、调试和上线登录认证对接、流程对接、ITSM对接企业微信统一机房资源总览大屏统一管控模块任务执行文件分发系统纳管数据采集蓝鲸工作台集中权限管理统一工作台消息通知、介质管理组织架构管理配置平台模型管理资源管理业务管理操作审计作业平台脚本管理脚本执行文件分发作业执行用户权限平台组织架构管理人员信息管理细粒度权限控制组织架构授权快速SaaS开发平台Python开发框架开发者中心MagicBox开发指南跨系统调度编排引擎调度编排任务执行轻应用原子开发配置自动发现自动采集任务管理同步管理插件脚本管理自动发现服务运营CMDB管理中心数据报表可视化拓扑数据维护数据
9、分析蓝鲸PaaS平台能力工具SaaS后台能力运维场景数据库中间件虚拟化操作系统机房环境等基础设备工单流程统计大屏.IT资源对象流程管理流程编排引擎自定义表单自动化集成流程集市知识库SLA管理满意度/评价运营报表门户管理服务目录CMDB能力ITSM能力平台一期建设情况二级场景配置自动采集配置查询一级场景设备托管&机房服务信息系统变更配置管理流程管理自动化运维统一告警aPaaS(集成平台):开发框架(前后端)+低代码+工具流水线+运行环境托管机房机柜视图自动化巡检事件闭环应用发布灾备切换.iPaaS:API Gateway(统一接入)服务组件A能力模块服务组件B服务组件C服务组件D节点管控配置平台
10、流程引擎权限中心可视化大屏作业平台报表平台计算平台告警中心调度引擎API封装标准插件作业平台自定义脚本跨系统调度引擎+流程驱动流程闭环标准插件示例新增能力/场景已建能力/场景场景与能力的连接器支撑场景产品化支撑场景流程化(轻应用)图例PAAS平台:可复用的平台能力,可拓展的场景工具完善配置管理体系,整体设计配置模型13类70+模型,构建配置管理基础框架。可管从源头上不断提升数据自动采集比,盘后集中执行自动化采集任务,确保配置数据准确性。可信提供在线、易用的API接口,方便第三方系统集成消费,建设移动端配置查询、PC端配置质量分析度量。可用可管、可信、可用的CMDB抽象运维业务构建服务门户围绕业
11、务定流程席位变更联动ITSM与CMDB规范IDC管理ITOM工具融合围绕业务场景落地ITIL实践的流程引擎可视化展示能力自动化指标构建能力数据接入能力数据来源能力组件指标体系运营大屏运营驾驶舱监控&告警CMDB其它ITSM数据加工处理内置指标自定义大屏大屏投放扩展指标数据源接入日常工作管理作业执行情况巡检执行情况工单处理情况资源运行情况运维流程管理事件转问题率事件平均处理时长事件数量统计事件分类统计业务监控管理业务SLA业务总体健康状态基础资源运行状态核心业务运行状态配置管理属性规范性比率孤岛数据比率数据质量评分属性完整性比率其它容量管理服务台管理知识管理服务级别管理机房资源统计xx机房总览I
12、TSM大屏拓扑大屏.可视化助力运维管理工作机房资源统计大屏,展示资源统计的总览情况:IT资产统计信息,呈现设备规模总量呈现展示托管自有设备占比情况全国各主要机房设备占比、可用率信息图表呈现服务器地域分布设备增长趋势曲线左侧区域右侧区域地图方式呈现上海总部与各地机房分布;可视化呈现数据交互线路机房资源统计大屏下钻XX机房总览大屏,展示机柜设备信息和网络拓扑图3D呈现展示机柜分布支持下钻查看服务器详情模拟机房内机柜排列1:1机柜数、机架数左侧区域左侧区域物理设备品牌TOP5部门使用情况TOP详情按机柜编号展示各机柜占用情况可视化呈现张江机房网络架构拓扑张江机房总览大屏统计信息变更申请、基础设备申请
13、、网络安全相关申请的工单统计信息运行分析:ITSM大屏#研运至简,创新无限目录/CONTENTS目录01背景与目标02方案与落地03价值创新04演进计划运维管理平台持续增强提升IT服务质量平台整合CMDB、ITSM能力,提升了运维服务化能力和用户体验,各运维工具形成合力,从工具支撑到平台服务的转变,发挥出了“1+12”的效果。IT运维服务全流程可展示、可跟踪、可审计、可度量,持续优化组织运维服务能力。配置数据消费服务集中管理运维服务统一入口,提供一站式、全流程、线上化的运维服务,业务端可以实时掌握所提需求处理状态,提升用户体验。建设统一CMDB配置数据库,为监控、告警、日志采集、自动化运维等场
14、景提供权威数据源。蓝鲸运维管理平台项目收益#研运至简,创新无限目录/CONTENTS目录01背景与目标02方案与落地03价值创新04演进计划业务组件操作系统原始日志数据原始系统数据日志时序数据标准时序数据监控策略网络人为判断异常点事件经验沉淀确定是一类问题快速止损告警事件告警事件自愈汇总通知解决关闭采集采集收敛网络监控工具工单快速处理经验沉淀解决确定是故障故障中心经验沉淀长期跟进解决确定根因日志中心监控中心100%4%10%20%误告50%15%1%复盘跟踪【前期】发现阶段:监控工具【后期】收尾和闭环阶段:故障跟踪/知识库【中期】定位并协作处理阶段:故障自愈监控指标覆盖企业监控全对象,通过统一
15、监控中心实现对接不同监控工具集中治理。通过建设统一监控指标治理体系、监控源插件开发,监控数据通过监控源接入任务上报,在统一监控中心集中检测、告警事件通过统一告警中心闭环处理,从而实现统一监控治理。横向拓展:平台化的运行可观测从集中管理到质量建设进一步提升配置数据的自动化采集发现比例;更广泛的结合ITSM、监控等配置数据消费工具,促进数据流动;围绕业务场景,建设配置管理体系配套规范;ITSM融入应急演练,逐步覆盖故障应急全过程;拓展自动化场景,从CMDBITSM到自动化,形成为场景闭环;促进问题分析复盘,形成沉淀分析改进提升的正循环;由有序运行到安全稳定纵向深入:提质量、强运营THANKS嘉为,与您共同发展!Web:Email:Add:北京 上海 广州 深圳 杭州 成都Tel:公众号THANKS谢谢观看