《曹家豪-中国联通数字化监控平台系统安全生产保障体系建设实践.pdf》由会员分享,可在线阅读,更多相关《曹家豪-中国联通数字化监控平台系统安全生产保障体系建设实践.pdf(29页珍藏版)》请在三个皮匠报告上搜索。
1、2023 DevOps 国际峰会北京站暨 BizDevOps 企业峰会中国联通数字化监控平台系统安全生产保障体系建设实践曹家豪 项目经理毕业于英国爱丁堡大学,现就职于中国联通软件研究院运营保障与调度中心,在职期间深度参与中国联通数字化监控平台建设项目,负责涵盖系统可观测性、系统性能管理等领域产品线规划与建设,对云原生背景下如何构建安全生产保障体系,加快企业数字化转型有较为深刻的理解。01安全生产保障体系概览阐述安全生产保障体系的落地实践02稳定性保障工具建设思路从可观测性、稳定性测试、隐患管理、变更管理、故障管理等维度阐述稳定性保障工具建设思路03当前存在的问题与未来展望阐述当前稳定性保障工具
2、建设过程中遇到的问题与未来安全生产保障领域可能面临的挑战与机遇目录Content01安全生产保障体系概览阐述安全生产保障体系的落地实践2023 DevOps 国际峰会北京站暨 BizDevOps 企业峰会数字化转型中系统安全生产痛点问题管理制度制定与落实不到位1、红线底线不明确:缺乏纪律条例,警醒性弱;2、生产运营规范不清晰:团队组织、分工、流程和工作要求缺乏标准,导致工作不知如何开展;3、奖惩规范缺失:导向不明确,缺乏激励效果,缺乏安全生产重视度;工具能力建设不到位1、可观测性程度低:指标、链路追踪、日志能力割裂,缺乏端到端、全层级的故障发现、诊断工具;2、故障预防难实现:系统健康状态实时体
3、检难,隐患分析难;3、故障管理难度大:事前应急演练有效性无法验证、事中调度混乱,事后故障复盘难闭环;4、变更无法统一管控与追踪:变更申请入口分散,故障分析无法关联变更;5、压测无法覆盖写场景:无法做到读、写场景的全链路压测与性能瓶颈分析;安全生产意识缺失1、对安全生产缺乏敬畏2、安全生产意识持续性不足p 在数字化转型过程中,面对几何增长的云资源以及精细化的业务场景,如何保障系统安全生产,保证业务流程的高效运转,为生产运营提出了不小的挑战。2023 DevOps 国际峰会北京站暨 BizDevOps 企业峰会系统安全保障体系建设历程 工具化建设2019 产品化建设2020 体系化建设2021 运
4、营支撑体系2022 安全生产保障体系2023p 安全生产保障体系的建设与演进从来不是一蹴而就的,是基于当前的现状与存在的问题,提出解决方案与目标规划,充分借鉴与对标先进的行业经验,从“走出去”到”引进来“,逐步由工具产品化至制度、管理体系化转变的过程。监控工具测试工具运营响应工具监控管理产品线稳定性测试产品线配置管理产品线基础能力线自动化运维产品线故障管理产品线运营响应产品线制度规范保障组织架构保障平台工具保障运营机制保障运营支撑体系运行保障体系运营生态体系运营响应体系网络信息安全体系运营生产体系2023 DevOps 国际峰会北京站暨 BizDevOps 企业峰会系统安全保障体系-运营支撑体
5、系做实安全生产,提升中国联通大IT系统稳定性一个目标四大保障制度规范保障运营机制保障组织架构保障平台工具保障十五项核心工作架构设计研发测试生产变更运营支撑四个阶段稳定性架构设计变更管理版本管理链路识别监控管理故障预防容量管理故障发现故障响应故障定位故障应急研发测试故障改进故障演练值班管理p 一个目标,依托四大保障,聚焦研运流程中四个阶段,对应十五项核心工作。2023 DevOps 国际峰会北京站暨 BizDevOps 企业峰会运营支撑体系-制度规范保障p 制度规范保障方面制定了大IT生产运营规范、红线底线纪律条例以及大IT生产运营奖惩方案,落实集中系统维护职责,筑牢安全风险防线,激发活力、时刻
6、警醒。大IT生产运营规范总册+十三个分册运营管理问题管理信息发布运行维护重保管理故障应急总册变更管理知识运营参数管理接维管理基础设施安全管理计费结算明确制度规范,提升安全生产意识,激发活力、时刻警惕红线底线纪律条例六大类变更管理重保管理监控告警隐患管理账号安全大IT生产运营奖惩方案奖励监控告警处理处罚不合规工单处罚排障能手数据稽核达人服务质检达人监控告警达人工单处理达人知识运营达人服务之星运维工具达人应急管理达人处罚违反红线底线处罚安全管理违反纪委纪律处罚故障处罚 总册+十三个分册:是B域、M域、D域集中系统生产运营工作平稳推进的基础性规范和依据。明确团队组织、分工、流程和工作要求,落实集中系
7、统维护职责大IT生产运营规范 六大类、十条:明确生产运营工作中的红线底线纪律条例,时刻保持高度警醒,筑牢安全风险防线红线底线纪律条例 九项奖励,五项处罚:通过表扬、通报、奖励及小额工资扣罚等方式,达到明确导向、激发活力、时刻警醒、防范风险的目的大IT生产运营奖惩方案 技术运营标准:全层级监控标准、全层级应急标准、全层级容量标准、隐患分类标准技术运营标准2023 DevOps 国际峰会北京站暨 BizDevOps 企业峰会运营支撑体系-组织架构保障分子公司安全生产运营支撑团队集团:数字化部运营管理处联通软件研究院-一体化SRE运营团队分子公司运营响应团队分子公司-运营团队一线业务四级安全生产运营
8、支撑团队稳定性保障工具研发团队一体化三级运营响应团队应用运维核心研发团队应用运维个性化研发团队云平台运维研发团队基础设施运维研发团队三级修复团队二级支撑团队一级响应团队一级负责总体二级负责全栈三级负责核心业务链路四级负责中心/模块团队结构团队职责应用运维平台运维基础设施运维团队职责工具体系规划工具建设工具运营团队职责问题响应问题分析质量管理数据修复团队结构团队结构分子公司稳定性保障工具研发团队生产调度生产调度双向协同双向协同问题响应问题响应运营管理p 建立健全总部及省分系统四级运营团队,完善四级运营人员操作流程。2023 DevOps 国际峰会北京站暨 BizDevOps 企业峰会运营支撑体系
9、-运营机制保障运营机制保障安全生产分析会议故障分析复盘会议工单质量分析会.会议运营安全生产大屏集团经分大屏重保大屏.大屏运营活动运营安全生产劳动竞赛安全生产警示牌安全生产挑战365天 组织安全生产劳动竞赛、安全生产月、挑战安全生产稳定运行365天等活动、树立安全生产及红线底线纪律条例警示牌活动运营 通过月度安分会、故障分析会、工单分析会、专家评审会等例行会议会议运营 安全生产实时数据通过“安全生产大屏“、”集团经分大屏“、”各类重保大屏“进行展示大屏 通过对故障、告警数据进行全流程分析,建立故障运营机制、监控告警工单运营机制数据运营数据运营故障运营分析告警运营分析.p 运营机制保障方面,通过活
10、动运营、会议运营、数据运营、大屏运营四大类机制,动员提升全体员工安全生产意识。2023 DevOps 国际峰会北京站暨 BizDevOps 企业峰会运营支撑体系-平台工具保障中国联通数字化监控平台十五项核心工作端到端全层级全流程沃运营一体化运营订单医生补天平台传统CMDB云化CMDB自动化作业故障自愈任务调度平台变更追踪业务监控日志中心全流程调用链监控智能监控告警平台浏览器、APP监控亚健康检查一键故障诊断感知运营cBSS感知运营故障管理隐患管理值班管理自动化巡检混沌测试容量管理压力测试版本发布调度全链路压测沃运营一体化运营知识中心应急一键处置p 数字化监控平台为运营支撑体系中十五项核心运营工
11、作提供端到端、全层级、全流程工具支撑保障。问题管理配置管理自动化运维变更管理监控管理用户体验业务连续性稳定性测试知识管理链路识别故障预防监控管理变更管理版本管理故障定位值班管理故障改进故障应急故障响应容量管理故障发现稳定性架构设计故障演练研发测试亚健康检查接收测试压力测试任务调度平台变更管理接收测试版本发布调度浏览器监控APP监控调用链监控智能监控告警平台自动化巡检APP巡检容量管理隐患管理亚健康检查性能指标标准性能测试应用性能优化一键拉会故障管理智能监控告警平台自动化巡检APP巡检业务监控智能监控告警平台一键故障诊断调用链监控故障管理自动化运维故障自愈故障管理故障管理混沌工程智能监控告警平台
12、故障管理值班管理02稳定性保障工具建设思路从可观测性、稳定性测试、隐患管理、变更管理、故障管理等维度阐述稳定性保障工具建设思路2023 DevOps 国际峰会北京站暨 BizDevOps 企业峰会稳定性保障工具聚焦领域稳定性测试1、压力测试评估业务、系统容量水位2、接口、UI自动化巡检及时发现业务异常可观测性1、涵盖业务层、前端触点层、服务层、组件层、资源层的全层级监控覆盖2、指标、链路追踪、日志三板斧实现故障快速发现、根因准确定位、故障快速恢复、问题深度刨析故障管理1、涵盖故障事前、事中、事后的故障全生命周期闭环管理配置管理1、通过CMDB配置库实现容器实例、组件、主机、网络设备串联变更管理
13、1、核心配置变更追踪2、任务流程线上化绘制、管控,统一入口管理调度自动化运维1、自动化作业能力贯穿监与控,实现特定场景下的故障自愈隐患管理1、系统综合健康度体检,隐患闭环治理2、链路性能风险深度分析,持续提升链路性能至目标冗余水平3、组件容量管理降低容量问题发生风险2023 DevOps 国际峰会北京站暨 BizDevOps 企业峰会数字化监控平台能力架构14运行保障(自动化生产)运营生态运营响应(智慧化运营)基础设施数字化监控平台生产运营工作台PC端(谷歌/火狐/IE/360)钉钉端西咸IDCCCS主机设备CKE阿里飞天网络设备亦庄IDCCCS主机设备阿里飞天网络设备无锡IDCCCS主机设备
14、CKE阿里飞天网络设备广州IDCCCS主机设备CKE阿里飞天网络设备呼和IDCCCS主机设备CKE阿里飞天网络设备统一架构微前端qiankun微服务联通云平台数字化研发平台持续集成服务能力管控服务注册服务路由流量控制熔断服务鉴权自主接入在线申请代理路由统一登录统一登录鉴权账号体系管理接入便捷灵活对接第三方登录开发者中心API服务订购SaaS应用上架数据API接口快速配置运营分析开发手册前端框架样例UI组件样例权限集成样例API接入样例基础能力管控平台命令通道数据通道文件通道权限中心用户管理菜单管理租户管理应用管理数据采集浏览器服务性能中间件主机资源APP感知能开服务云平台网络资源监控告警告警通
15、知告警处理告警静默告警查询作业能力作业编辑作业调度作业执行作业查看AI算法动态阀值能力指标异常检测指标趋势预测日志异常检测ITSM流程引擎流程编排流程调度流程执行流程查询配置中心配置发现配置采集配置拓扑配置查询基础数据运维数据库管理数据查询数据稽核任务调度工单运营服务工单查询工单处理工单评价工单分类知识库服务知识存储知识管理知识搜索知识推荐及时通讯服务消息接收消息推送多类型消息消息群组第三方能力短信发送IVR语音推送钉钉消息邮件发送APIAPIB/M/D域核心触点cBSS联通公众APP智慧门户能开能力共享核心应用开发支撑变更管理任务调度平台变更追踪配置管理传统CMDB云化CMDB自动化运维自动
16、化作业故障自愈稳定性测试自动化巡检接收测试压力测试监控管理浏览器、APP监控全流程调用链监控智能监控告警平台软研院、子公司能开运维联通云运维新客服运维基础设施运维计费运维业务连续性故障管理用户体验感知运营知识管理沃运营问题管理沃运营补天平台订单医生省公司广东二级研发山东二级研发上海二级研发服务台沃运营一体化运营隐患管理健康检查容量管理日志中心p 中国联通-数字化监控平台以DevOps理念、SRE理论为指导,以全局运营视角解读 IT 运维,对云原生下生产运营领域提供端到端、全层级、全流程、全栈式的运维工具支撑。2023 DevOps 国际峰会北京站暨 BizDevOps 企业峰会统一存储可观测性
17、工具建设-指标基础资源/容器平台中间件/数据库服务应用链路核心业务APP性能监控前端浏览器监控全流程调用链智能监控告警平台前端触点APP端PC端APP崩溃率、卡顿率页面加载时间、请求响应服务调用链路、调用量、成功率基础监控指标及闭环告警通用平台网络网络监控/网络拓扑全数据中心网络性能指标、趋势SDKJS agentPinpoint agentPrometheus+Exportersnmp、nodeClickhouse服务时序指标、tracePrometheus业务、服务、组件、资源时序指标产品能力监控告警数据可视根因定位隐患分析故障预防.p 实现涵盖业务、前端触点、服务、组件、云平台、基础资源
18、的全层级指标数据采集及标准化,统一接入、存储、分析处理标准,提供可观测性能力数据基础。调用量、响应时间、TPS等服务KONG、LB、MQ等中间件RDS、ES、REIDS等数据库CPU、内存等容器CPU、内存、磁盘、IO等主机域名流量、机房流量等网络用户发展量、工单积压量等业务加载时长、卡顿、崩溃率等前端触点2023 DevOps 国际峰会北京站暨 BizDevOps 企业峰会汇总数据中心可观测性工具建设-链路追踪告警收敛链路自动拓扑根因定位CMDB页面展示应用性能分析告警配置Neo4jCollector-serverFlinkClickhousekafka配置管理系统Dagent系统Eagen
19、tNacos业务入口服务实例组件云平台主机网络设备Redis实例id、容器id主机ip、机房网络设备云平台告警计算p 支持跨系统、跨云平台、跨数据中心链路拓扑,通过分数据中心汇总串联,完成跨系统调用实时追踪和方法清单级根因定位,接入服务6000+,日均处理600亿数据。聚合后指标链路计算清单查询分数据中心Collector-server系统Aagent系统Bagent系统CagentFlinkkafka告警计算指标聚合明细存储NacosClickhouse存储集群跨数据中心链路自动串连性能明细分析调度转发节点存储集群查询2023 DevOps 国际峰会北京站暨 BizDevOps 企业峰会可观
20、测性工具建设-日志分析日志采集主机组件应用其他AgentSDK日志应用全文检索模版提取过滤脱敏日志监控异常检测报表可视p 通过统一规范的日志采集、存储能力、日志实时检索与异常检测能力,应对在分布式云化技术架构的演进背景下,剧增的集中系统日志数据量带来的挑战,解决在较大规模集中系统日志查询和报文查询方面效率低和不准的问题,提升故障和工单问题定位效率。日志处理、存储、告警判定Kafka流式worker处理存储异常日志判定数据存储ClickhouseElasticsearchPushgatewayPrometheus2023 DevOps 国际峰会北京站暨 BizDevOps 企业峰会可观测性工具建
21、设-一键故障诊断p 通过单agent采集指标、报文日志、链路数据,实现三位一体的可观测性平台,在系统纵向全层级方面实现触点层、服务层、组件层、平台层、主机层、网络层纵向贯通,自研六步定位法实现全层级一键诊断,端到端快速定位问题根因。可观测单AGENT指标、报文日志、链路三位一体链路Tracing指标Metrics报文LogsBACDX2.定位根因服务利用图数据库关系在海量告警服务中快速定位根因服务,如150个服务告警根因服务缩小到5个左右。1.发现业务影响触点+业务监控评估影响范围。开户缴费6.定位网络问题定位网络及接入设备的问题。交换机路由器负载均衡marathon-lbKONG3.定位根因
22、实例通过核密度估计算法和DBSCAN聚类算法判定根因实例。主机3主机1主机2分布于Redis1Redis2Redis34.定位根因组件扫描根因服务调用的组件调用链指标、组件指标、组件告警判定根因组件。智能诊断六步定位法实现全层级一键诊断调用服务X有3个实例,X3出现问题x1x3x25.定位根因主机通过云化CMDB获取实例、组件与主机的关系,对主机的指标与告警进行扫描。Redis集群3个实例,2出现问题停开机ABCD 调 用 量 超 时 量 异 常 量 失 败 量.请 求 报 文 响 应 报 文 异 常 日 志.2023 DevOps 国际峰会北京站暨 BizDevOps 企业峰会可观测性工具建
23、设-一键故障诊断案例p 当前一键故障诊断率达65%左右。服务实例事件异常:2023-03-XX XX:XX 服务实例所在主机CPU使用率过高引发故障根因Redis事件异常:2022-08-XX XX:XXredis节点夯死,触发高可用,切换master,大量流量进入导致redis性能下降,上游服务大面积告警是故障根因主机宕机事件异常:2022-08-XX XX:XXlb所在主机宕机导致lb实例销毁重启服务波动是故障根因网络事件异常:2022-03-XX XX:XX交换机带宽使用率指标打满引起访问受限是故障根因ES事件异常:2022-05-XX XX:XXes进程负载率突增导致上游服务连接超时是
24、故障根因RDS事件异常:2023-04-XX XX:XXrds慢sql突增导致节点状态异常是故障根因快立方内存数据库事件异常:2023-02-XX XX:XX根因服务下游调用快立方告警异常是故障根因Oracle事件异常:2023-02-XX XX:XXoracle会话数突增导致服务连接超时增多是故障根因2023 DevOps 国际峰会北京站暨 BizDevOps 企业峰会稳定性测试-端到端全链路压测p 通过增强调用链探针能力,打造One Agent,探针通过影子库表实现生产流量与压测流量隔离,读、写流量压测能力,不仅可以监测应用系统的性能,而且还可以全面测试应用系统的负载和压力,确保其在高并发
25、、大数据量等复杂环境下正常运行,有效提升应用系统的稳定性和性能,提高业务的可用性和用户体验。collector压力机service1one-agent主要能力service3one-agentservice2one-agentMQ生产Topic影子Topicmysql生产库/表影子库/表调用链数据处理全链路压测数据处理数据预处理流量回放压测报告档案化管理发压执行探针管理多云环境调用监控数据、压测数据压测流量调用监控数据、压测数据压测写流量创建压力机service4接口挡板one-agent数据统一存储监控压测一体示意图全流程调用链监控n调用链n压测生产流量2023 DevOps 国际峰会北京站
26、暨 BizDevOps 企业峰会隐患分析p 结合告警与容量指标,定期开展隐患评估和预测,识别潜在风险隐患,治理隐患问题,保障系统健康稳定和对资源利用的最优化。链路性能瓶颈分析BACD深度性能问题分析定位性能瓶颈节点初步定位看表象 链路节点RT增长-初步定位瓶颈节点trace明细分析-Gap等待时间长、自耗时高、慢SQL.链路调用量-重复调用问题解释表象 线程池、连接池是否打满 慢SQL分析 内部方法自耗时高原因 重复调用是否可优化整体报告生成推动治理性能治理 压测结论、问题、论证、优化方案 与研发侧确认问题、推动治理 复测系统健康检查高风险指标中风险指标低风险指标服务层检测 服务超时率 服务异
27、常率 服务调用量 服务平均响应时长组件层检测 ES健康节点/堆内存使用率/.REDIS内存使用率/内存碎片比率 KAFKA消息积压/topic副本资源层检测 内存使用率 cpu使用率 磁盘使用率页面层检测 页面弹窗数 页面JS错误 页面平均响应时长健康检测引擎评分与趋势实时监控体检风险问题闭环整改性能对比隐患报告定时推送运营闭环管理容量隐患分析132容量标准制定目标容量评估容量问题优化 全链路压测-容量标准达标、链路性能瓶颈评估.日常流量方法级分析-抖动、不达标率.指标实时监控-容量风险监控.对照保障目标,形成容量优化提升项制定容量优化方案计划容量再评估直至符合预期容量标准要求 业务、服务、组
28、件、基础资源容量水位模型2023 DevOps 国际峰会北京站暨 BizDevOps 企业峰会隐患分析案例p 2022年2月至今cBSS集中系统日均高风险项压降90%以上;p 2023年4月起全链路压测试点3个系统,发现6类问题点。系统级隐患分析链路级隐患分析高、中、低风险隐患压降隐患派单治理前端触点层、应用层、组件层、资源层链路节点RT增长指数与抖动分析定位性能瓶颈节点节点trace深度刨析下游调用阻塞问题慢SQL问题SQL重复调用问题HTTP连接池配置问题活跃线程数分析容器负载分析主机负载分析分析重复调用问题GC分析2023 DevOps 国际峰会北京站暨 BizDevOps 企业峰会变更
29、管理p 生产运营流程线上化统一管理,实现统一线上化流程制定、申请、审批入口。p IaaS、PaaS、SaaS全层级变更轨迹追踪。任务调度变更追踪应用层接入层业务层制品层资源层组件层 核心业务参数表变更数据 配置中心相关参数变更数据 镜像仓库镜像变更数据 流水线变更数据 kong、lb等路由转发平台变更数据 云平台容器变更数据 核心配置变更数据 实例变化数据 主机核心参数配置变更数据 网络层防火墙、交换机、路由等网络设备的变更数据kafka数据卸载Webhook监听事件总线k8s-apiserverk8s-kube-eventer维护方API组件变更操作采集器(自研、官方)PC+移动端审批能力在
30、线流程绘制业务系统API自动化运维统一流程申请入口OA数字化监控平台工作台任务调度平台钉钉多平台审批自动化处理2023 DevOps 国际峰会北京站暨 BizDevOps 企业峰会故障事中调度故障管理故障发现故障响应与应急故障改进故障演练故障事前预防故障事后改进监控告警自动化巡检影响判断是否满足业务场景SLO故障上报问题管理事件上报客服投诉舆情省分上报一键拉会故障上报故障级别初判客服联动判断业务影响启动业务应急预案业务验证变更识别启动技术应急预案故障恢复故障更新故障复盘准备启动故障简报机制较大以上影响判断外部批量线上统一看板组织投屏故障时间线值班人信息记录负责人调度负责人整体负责故障初因定位舆
31、情联动识别舆情下发演练计划(5个工作日窗口)技术线通报线记录屏业务线按故障调度标准进行突击演练(实操/桌面)调度负责人技术负责人信息通报人信息记录人复盘优缺点,输出演练报告优化改进闭环业务负责人演练特点时间随机“两不”突击演练场景随机预案池随机抽取预案故障应急演练故障演练调度是否有序响应是否及时桌面演练预案是否熟悉时间是否达预期是否可执行效果是否达预期实操演练预案提升测试环境实操预案全自动执行生产环境实操预案半自动执行p 故障管理平台实现故障事前、事中、事后全流程线上闭环管理,提升故障管理质量和效率,降低故障时长及次数,提升业务连续可用率。主动发现被动发现标准化故障复盘(24小时)如发生可快速
32、恢复不再发生此类故障两个目标故障报告(2个工作日)回溯详实处理过程统计量化业务影响四项要求多层级原因分析举一反三制定整改措施整改措施未落实不放过原因未查清不放过责任人员未处理不放过有关人员未受到教育不放过四不放过故障演练(10个工作日)整改落地故障定级故障定责列入故障预算故障处罚(次月10日前)故障受教育(次月13日前)专家审核抽查评审故障报告评价典型故障分享业务负责人技术负责人信息通报负责人03当前存在的问题与未来展望阐述当前稳定性保障工具建设过程中遇到的问题与未来安全生产保障领域可能面临的挑战与机遇2023 DevOps 国际峰会北京站暨 BizDevOps 企业峰会我们当前存在的问题01
33、1、链路追踪能力现阶段存在语言限制;2、日志建设需加强高效关联检索;3、监控覆盖质量核查存在一定难度;4、对于问题本质的诊断欠缺;策略:1、在保证现有监控覆盖工作高效开展的基础上,探索类似eBPF技术的可落地性;2、加强日志工具建设,串连各层级核心产品;3、通过更多线上化、自动化方式,更清晰的责任划分方式,提升监控覆盖质量;可观测性建设问题021、容量分析依赖专家经验,业务、服务、组件、资源各层级容量水位评估覆盖不全,容量风险评估模型、容量健康度评估模型建设不完善;2、容量应急策略能力覆盖不足;策略:1、建立容量风险标准库与容量风险评估模型;2、通过经营侧需求、监控、压力测试逐步覆盖各层级容量
34、水位评估;3、根据容量水位进行流控、实例扩、缩等应急方案制定与覆盖;容量管理问题031、全链路压测自动定位性能瓶颈能力不足,人工诊断成本高;2、系统保障以被动防御为主,主动模拟演练不足,应急预案有效性缺乏检验,实操演练有待加强;策略:1、将现阶段人工性能分析步骤与方法沉淀为通用方法,形成自动化能力,逐步提高性能瓶颈诊断准确性;2、引入混沌工程,建立模拟攻防机制,开展故障主动注入,逐步由被动防御向主动验证转化;隐患分析问题041、智能化场景落地较少;2、自动化运维场景应与监控告警有更多关联性;3、应急预案自动化覆盖需要加强;策略:1、探索大模型在运维领域的可落地场景;2、逐步打通告警与自动化处理
35、能力,实现监与控能力贯穿,加强故障自愈能力建设;自动化、智能化能力问题p 产品能力需结合真实故障场景、客户需求逐步打磨,结合业内先进理念,逐步迭代,自立自强,可信可控。2023 DevOps 国际峰会北京站暨 BizDevOps 企业峰会未来展望-安而不忘危,存而不忘亡,治而不忘乱l 内部:系统承载用户量越来越多,架构与业务复杂性越来越高,系统稳定性对用户的感知影响可谓牵一发而动全身。l 外部:a.安全生产保障在未来的国际竞争中也会扮演至关重要的角色,关乎民生;b.国内开源软件产业仍面临着根本问题,国内开源软件供应链“卡脖子”事件频频发生,开源生态受制于人;c.大模型的发展对于安全生产保障领域
36、的冲击。未来挑战l 大规模、分布式集中系统的安全生产保障体系建设能够推动产品全方位打磨与产品升级;l 拥抱开源的同时,学习开源,自立自强,自主可控,突破开源;l 赶上信创浪潮,全产品线的信创适配;l 利用大模型提高日常工作效率,尝试引入解决特定场景问题。机遇l 组织架构:加强安全生产保障团队建设,提升整个组织安全生产责任意识;l 流程规范:安全生产保障工作明确、有序开展;l 运营生态:围绕一个目标,群策群力,能力共享。改进l 做的好的地方:如何降本增效;l 做的不好的地方:如何增强补齐能力;l 以客户为中心,细化、打磨产品。总结2023 DevOps 国际峰会北京站暨 BizDevOps 企业峰会个人微信与数字化监控平台白皮书个人微信数字化监控平台白皮书2023 DevOps 国际峰会北京站暨 BizDevOps 企业峰会ThanksDevOpsDevOps 时代社区时代社区荣誉出品