上海品茶

张立科-市场与服务支撑中心:打造卓越标杆 SRE 运维体系实践.pdf

编号:161471 PDF 43页 7.93MB 下载积分:VIP专享
下载报告请您先登录!

张立科-市场与服务支撑中心:打造卓越标杆 SRE 运维体系实践.pdf

1、打造卓越标杆SRE运维体系实践张立科 市场与服务支撑中心资深专家张立科深耕运维17年,曾在央视上海品茶担任运维和演播室直播保障核心角色;从事竞猜型体育彩票系统运维建设和管理工作10年,参与三代系统迭代和两地三中心运维架构和模式演进;曾任职某头部消费金融公司,负责SRE体系建设,主导完成统一监控、告警治理、自动化巡检平台建设以及问题闭环等核心任务,确保运维工作的高效和稳定。现负责中移信息技术有限公司市场与服务支撑中心SRE运维体系建设工作。中移信息技术有限公司 资深专家目录contents01前沿探索:SRE的核心理念02建设SRE运维体系关键路径和实践成效03技术革新:元宇宙、大模型等新技术在

2、运维领域的应用实践04挑战与机遇:新技术革命下的运维领域展望PART 01前沿探索:SRE核心理念GOPS 全球运维大会 2024 深圳站SRE在国内蓬勃发展,实践成效显著SRE理念起源于Google,由Site Reliability Engineering演变而来,强调通过软件工程的方法和技术来保证系统的高可用性。SRE理念的提出,不仅引领了IT运维的新潮流,也对其他行业产生了深远影响,推动了整个IT行业的技术革新和服务升级。SRE已发展为以组织、管理、流程、技术、工具和文化理念等要素的体系化融合,提升系统的稳定性、可靠性、高效性和安全性的最佳实践。SRE被认为是近十年来,互联网和云计算学

3、科中最好实践创新和理念突破,经历了近20年的发展和演进,已成为多学科多技术融合发展的独立领域,即SRE领域。2016年,孙宇聪翻译出版SRE:Google运维揭秘在国内引起巨大的反响,许多企业开始学习并成立自己的SRE团队。2016年,蚂蚁集团在国内成立了第一支SRE团队,主要攻坚容灾架构。2017年,浙江移动组建应用SRE团队,负责IT系统的集成部署、应急保障等工作职责。2018年,赵成建立“聊聊SRE”微信群,国内SRE社区初步成型。2021年,阿里CTO线第一支横向SRE团队成立,负责全局稳定性保障、资源成本等方面的工作。2022年,腾讯内部SRE体系正式成立,负责集团全局稳定性保障、资

4、源成本等方面的工作。2022年,阿里云原生大数据运维平台 SREWorks 正式开源,是SRE领域的一次重要的工程化实践。SRE的由来国内SRE的发展GOPS 全球运维大会 2024 深圳站SRE的核心理念-基于实践的理念扩展重视人才培养和团队建设,提供持续的学习和发展支撑。关注技术发展趋势,预测未来问题和挑战,拥抱变化。加强与业务价值实现各环节协作和沟通,推动业务发展。可靠性效率质量安全持续学习价值创新发展探索和实践新理念、新技术、新工具,新模式,打造运维新质生产力。优化运维流程,减少冗余步骤。利用数据分析和机器学习技术,为决策提供科学、准确的依据。确保系统的安全性,预防数据泄露、服务中断等

5、安全事件。通过持续的监控,及时发现潜在的安全风险,并构建预警机制。培养全员的安全意识,定期进行安全培训和演练。通过自动化和智能化工具,提高运维效率,减少人工干预,降低成本。追求高质量的产品和服务,确保系统的稳定性和性能。不断学习和适应新技术和新方法,保持与时俱进的能力。围绕业务价值实现,确保运维工作为业务带来增值。SRE工作成果量化评估,确保价值可视化。基于价值评估,不断优化运维流程和技术选型。常规理念理念扩展确保系统的稳定运行,减少故障和中断,为用户提供持续可靠的服务。PART 02建设SRE运维体系关键路径和实践成效GOPS 全球运维大会 2024 深圳站卓越标杆SRE运维体系的主要特征安

6、全合规高安全、强合规的安全与合规管理体系支撑。价值实现围绕实现业务核心价值,提升系统可靠性,优化运维效率,以数据支撑业务发展。标准规范ISO20000、ITIL和 SRE能力成熟度模型等标准和规范指导。创新发展云原生、AI+、元宇宙等技术和理念的深度融合与创新发展,为运维提智赋能。GOPS 全球运维大会 2024 深圳站计算设施(服务器、虚拟机)、存储设备、网络设备、平台软件、安全配套SRE运维体系-云原生技术框架下的稳定性保障能力云原生技术框架下,深化云平台能力应用,在运维运营和安全管控体系下,构建稳定性保障能力,实现研发过程的持续集成和交付、资源弹性伸缩、精细化微服务管理、故障自愈、跨地域

7、多集群调度和智能监控和维护能力,支持应用服务的横向扩展、灰度发布以及多集群的容灾切换。研发过程稳定性保障技术运营稳定性保障IT云管调度IT云基础设施PAAS层应用开发和部署的效率和可靠性IAAS层资源可靠性和可用性多云管理、租户管理、运维管理、资源管理等AAAS层服务能力的稳定性和可用性多租户管理资源调度镜像管理微服务治理智能运维一体化研发交付安全管理等前端应用用户体验的连续性和数据的安全性营销应用服务应用运维应用管理应用.能力服务:大数据、物联网、大视频、基础通讯、企业服务、人工智能能力产品:涉及医卫、交通、金融、党政、农商、工业能源、教育.能力中台其他IT应用系统研发交付运维运营安全管控需

8、求开发持续集成交付IT综合网管IT专业网管安全运营安全防御灰度发布异地容灾多中心支撑多组件支撑GOPS 全球运维大会 2024 深圳站集中化生产监控集中化专业运维集中化专家支撑故障全域感知智能根因诊断故障自愈处置SRE运维体系-系统保障的运营管理体系全面落地SRE联合团队(保障协同)全面落地AIOPS体系(数智化能力)深化IT-GOC运营保障体系,实现一线集中化生产监控、二线集中化专业运维、三线集中化专家支持;依托IT-GOC全网运营指挥调度中心,统筹一、二、三线做好运维保障工作,跨部门构建SRE联合作战团队,真正实现“一点调度、全网协同”。故障全域感知:实现全域故障感知快速定位、异常检测以及

9、系统告警;智能根因诊断:基于运维大数据+AI技术,实现故障根因诊断,辅助运维人员决策;故障自愈处置:构建运维故障自愈模型,实现各类运维故障场景的无人化操作。应用层运维中间层运维基础设施层运维IT-GOCSRE联合团队AIOPS标准指标考核告警分级覆盖多维监控感知异常闭环管理GOPS 全球运维大会 2024 深圳站SRE运维体系-纵深防御、全面覆盖、主动预防的安全管理体系集团公司安全要求市服中心安全防御体系国家行业法律法规行业监管要求市服中心安全防护规范运营保障责任与职责管理安全运营安全防护安全管理安全合规安全监测数据安全审计安全身份安全I-识别D-监测P-防护R&R处置响应终端安全终端防病毒终

10、端安全管理补丁库管理病毒扫描系统安全主机防护-云窍漏洞检测基线核查网络安全防火墙BOMC检测性能检测应用安全态势感知应用防火墙网页防篡改串联WAF系统API检测数据安全金库管控涉敏数据识别安全审计数据防泄漏应急响应攻防演习安全审计调查取证安全意识宣贯培训安全考核断网病毒隔离资产日志接入管理端监测下电处置漏洞整改态势感知事件排查攻击源封堵攻击源封堵页面下线数据合规管控数据库备份数据库下电能力中台安全防护要求多级联防系统DDOS一键封堵系统APT、IDS配合安全管理组构建安全运营能力、安全防护能力,依托公司安全管理办法和上级安全指南,进一步推进部门“安全运营、安全合规、安全监测、4A接入、数据安全

11、、安全审计”等关键安全能力的标准化、规范化和自动化转型。合规监管GOPS 全球运维大会 2024 深圳站持续完善AIOps数智工具链,提升运维效率研运一体、能力支撑、创新赋能的SRE稳定性保障体系持续完善研运一体化稳定性保障体系,全生命周期风险管控,全域闭环管理,沉淀标杆能力,持续完善工程化验收机制;量化提升SRE能力,发挥SRE应用效能,保障系统稳定性持续提升;构建组件化统一技术底座,打造低代码开发应用新范式,降低开发成本;智能化创新应用实践提升运维治理水平,提质增效。研发过程稳定性保障技术运营稳定性保障架构设计能力(51)集成部署能力(11)发布变更能力(7)运行治理能力(29)测试管理能

12、力(11)混沌演练能力(13)数智化运维能力(16)SRE组织保障能力(2)架构设计入网控制发布上线运行治理组件化统一技术底座AIOps智能运维创新应用赋能高可用设计高性能设计测试管理容错管理发布策略变更管理监控覆盖精准监控监控优化SRE能力支撑(管理、规范、架构设计、平台、工具等能力项)创新应用实践,助力降本增效、注智赋能技术组件化,组装式应用,助力研发效能提升智能运维大模型、元宇宙、RPA等深度融合,为运维注智赋能研运一体化稳定性保障体系,全生命周期风险管控、全域闭环管理故障预防故障观测故障处置故障发现应急响应故障定位故障恢复健康巡检混沌工程应急预案性能容量故障复盘故障改进持续运营持续改进

13、GOPS 全球运维大会 2024 深圳站开展SRE实践前的系统概况系统支撑的渠道多,支撑的单位多部门支撑100+业务渠道,16家承建单位部门业务系统多:25个大中型系统系统涉及资源池多共涉及11个资源池业务系统使用资源多物理机约8000+台、虚拟机约10000+台、共享存储约1000+T;GOPS 全球运维大会 2024 深圳站开展SRE实践前存在的问题线上业务的迅速发展促使系统不断迭代,系统架构全面向云原生架构升级后,在提升运行质量的同时,系统复杂性急剧增大,维护边界快速增长,故障界定更加复杂,使得原有的组织架构和技术手段不再适配,传统运维模式和手段都面临着智能化、敏捷化的巨大挑战。技术驱动

14、 DevOPS AIOPS 微服务化 容器化 云原生 灰度发布 APM 全链路监控等安全管理 漏洞扫描 代码审计 管控制度人才培养 自有人员 技能全面 复用 自动化工具 智能化工具 运维开发能力运维协同 日志采集拉通 数据格式统一化 端到端监控拉通 多级跨部门处置故障处理 质量差 效率慢 定位复杂 发现和处置脱节 达不到KPI 10分钟架构转型 微服务化 云化容器化 部署自动化 Devops 双平面问题驱动技术驱动GOPS 全球运维大会 2024 深圳站SRE体系建设整体规划借鉴浙江移动先进的SRE实践经验,结合市服中心实际,开展SRE体系建设。建设规划从以下方面开展:组织架构建设、流程规范建

15、设、稳定性架构改造、SRE能力提升、平台工具建设等,整体规划SRE运维体系建设推进落地。浙江SRE实践经验配套支撑的SRE角色分工,可解决所有业务连续性问题配套相对完善的SRE管理规范并持续更新系统架构ZA化和单元化,为先进技术实践提供了架构基础SRE横向切割,以技术维度纳管相关工作,人员复用度和集中度高,可快速纳管数智化孵化能力强,先建小能力自给自足,再建大平台能力,解决一线生产的数智化敏捷需求,实现数智化的统一规划建设市服中心现状运维组和部门内人员不足以支撑和覆盖SRE各角色分工SRE相关流程规范待创建,需结合部门实际进行落地纵向维护切面,系统架构不统一、架构基础相对薄弱各系统业务、架构、

16、合作伙伴、建设规划等差异大,SRE拉通难度大运维开发人员和能力基础薄弱,项目资源有限,统一归口管理,敏捷度差SRE建设规划整合部门内和跨部门人员组建联合SRE团队,构建协同机制参考浙江SRE相关规范材料,结合部门管理规范整合、落地云原生架构改造,依托云平台能力和项目迭代实现架构的改造升级SRE能力成熟度模型评估系统现状,开展SRE能力和人员能力拉通以能力、产品引入为主、自研为辅,推进数智化运维工具建设组织革新流程规范架构改造能力提升平台工具GOPS 全球运维大会 2024 深圳站市服中心2021年首批参与探索试点SRE,经历2022年推广SRE应用,2023年深化SRE应用效能提升,全面推进数

17、智化运维能力建设,2024年融合AI+运维场景持续推进SRE应用效能提升实践。SRE运维体系建设关键实施路径2021年试点阶段2022年推广阶段2023年效能提升阶段2024年AI+全面融合创建SRE团队架构优化容灾建设优化应急保障机制SRE流程规范优化运维协同机制工具梳理及建设组织架构优化流程规范完善持续完善优化运维工具建设(监控、巡检、拨测)灾备建设(智能DNS应急、容灾)应急演练(混沌演练、无通知演练)持续完善优化SRE能力提升专项变更风险管控数智化运维工具链(AIOPS、组件化、RPA、大模型、元宇宙)运行治理专项、运维质量提升专项等持续完善优化智能运维AI+运维模式创新:运维拉通元宇

18、宙智能运维空间RPA、AIOPS、数字孪生等深度融合GOPS 全球运维大会 2024 深圳站SRE应用效能提升整体成效-可量化指标评估市场与服务支撑中心通过推进组织管理、架构设计、入网管控、运行治理、发布变更、测试管理、混沌演练、数智化运维建设等方面的20项应用举措全面提升SRE能力,实施SRE人才培养计划,实现SRE成熟度等级提升至L3(稳健级)目标。2023年SRE成熟度评估能力域名称基准分评估分数SRE组织保障55.00 架构设计能力2018.66 入网管控能力76.38 运行治理能力17.814.48 发布变更能力6.73.52测试管理能力1010.00 混沌演练能力12.58.78

19、数智化运维能力2113.00 总分数10079.82 79.82 参评单位的成熟度级别L3稳健级市场与服务支撑中心2023年共发生异常事件11起,较去年同比减少71.79%;异常总时长681分钟,同比减少74.10%;异常平均处理时长61.9分钟,同比减少8.17%。在系统运行质量方面,以故障预防常态化、故障感知泛在化、故障通报自动化、故障认知智能化、故障处置无人化为目标,积极应用大数据、人工智能等先进技术,制定优化举措,全方位推进系统运维质量优化提升。SRE成熟度整体能力,分别由五类构成:L1起始级、L2发展级、L3稳健级、L4优秀级、L5卓越级。SRE成熟度基准分满分100分,2023年S

20、RE成熟度评79.82分,对应达到“L3稳健级”,即总分数大于等于70分、小于80分。GOPS 全球运维大会 2024 深圳站组织革新-自上而下、跨域协同、研运一体的SRE组织架构规划建设组组员:5人职责:架构设计管理技术研发组组员:10人职责:系统架构治理、SRE工具设计开发SRE管理组组长:部门分管领导组员:各组总监智能运维组组员:19人职责:运行治理管理、上线变更管理、测试管理、混沌演练及数智化运维管理SRE执行小组15个厂家各2人,共30组员SRE监控组组长:1人组员:6人IaaS(基平)组员:13人职责:集成部署管理PaaS(平能)组员:4人职责:集成部署管理AIOPS组员:10人广

21、州业支:4人计费结算:4人政企:2人职责:数智化运维管理联合基础平台部、平台能力运行中心、广州业务支撑中心、政企、计费清结算等部门成立自上而下、跨域协同、研运一体的SRE团队,为保障业务系统高可用、高可靠、高安全和业务可连续提供了组织基础,为持续提升系统云环境下运维质量与智能化水平创造了条件。GOPS 全球运维大会 2024 深圳站贯彻公司制度规范的同时,结合部门实际,细化、优化管理细则:测试管理细则、系统作业计划管理细则、系统事件管理细则、系统监控管理细则、系统交维管理办法、应急保障管理办法、账号口令管理办法、重大活动保障细则等多个运维管理细则,其中测试管理细则优化效果显著。流程自动化方面全

22、面实现了流程的线上化,依托RPA技术实现部分流程的自动化,后续结合大模型实现标准能力沉淀下的流程自动化和流程的自动优化和体系融合。随着应用迭代速度加快,业务场景愈发复杂,测试面临严峻的挑战:能否覆盖核心业务场景,快速实施测试获得系统真实的质量,是决定割接变更成功率的关键因素。测试环境结果可信度低:测试环境搭建标准不统一,与生产架构完全不匹配。测试场景不够真实全面:随着业务版图不断开拓,业务场景愈加复杂,操作入口百花齐放,测试场景未全面覆盖真实业务模型。测试标准不统一:职责和分工不明确、没有统一的测试流程和要求、没有统一的测试验收标准,验收依赖个人经验,无法把控验证测试质量。流程规范-标准规范、

23、持续完善的流程管理体系确定工程项目验证测试、新业务验证测试、自主研发项目验证测试对应的责任组,安全管理组和运维组配合相关测试和对验收材料二次确认。组织:明确职责分工对性能测试和安全测试等非功能性测试、功能测试、测试用例管理、缺陷管理等做了统一管理,明确功能测试和非功能测试验收指标,把控测试执行质量。管理:统一测试管理明确包含开发内部测试、系统测试、安全测试和上线验证测试,测试管理流程对应的标准动作、负责人和输入输出。流程:标准化测试流程应用成效优化前:22年市服内部故障35起,验证测试不充分引发故障7起,占比20%。优化后:23年市服内部故障20起,验证测试不充分引发故障2起,部门测试管理细则

24、发布后验证测试不充分引发故障0起,有效保障割接变更成功率。测试面临的问题测试管理细则优化GOPS 全球运维大会 2024 深圳站应急容灾-“先抢通,后抢修”的应急管理体系和容灾建设为解决内部系统故障多发,故障时间长等问题,采用智能DNS、软硬件负载机制、数据同步等行业先进技术,重点完善核心/重要系统的应急灾备建设、打造“一键处置/切换”界面、优化应急处置机制,提升系统健壮性,实现复杂故障2-8-15(2分钟发现,8分钟定位,15分钟处置)处置目标,使应急处置能力达到全网先进行列。应急保障建设成效应急保障关键措施1、全网首批引入互联网/内网上层智能DNS、软硬负载机制、数据同步等技术,对核心/重

25、要系统做应急、灾备能力改造。2、持续丰富预案场景、打造“一键处置/切换”界面,实现核心/重要系统的关键业务及核心流程中,已知应急场景的一键化处置。3、优化应急处置流程,强化“先抢通,后抢修”理念,锻炼多人多维度协同平行排查抢修意识。4、核心/重要系统全面引入混沌工具(CMChaos),自动化故障注入场景覆盖达到全网先进行列。5、以练为战,除执行公司/部门规定的演练计划外,首创“双周抽查演练”举措,提升实战场景下应急处置能力。3、形成优先恢复业务,根因复盘故障,共性隐患排查,完善应急预案的持续优化机制;1、完成部门内20个核心/重要系统应急、灾备能力改造,使应急处置能力达到全网先进行列;2、部门

26、内部所有核心/重要系统“基本实现关键业务和核心流程的一键处置/切换”界面建设;4、所有上磐基核心/重要系统,引入混沌故障注入平台能力,完成100+场景故障自动注入演练;5、完成计划演练154次,实现30+次“双周抽查演练”达标在历次重大活动保障活动中不辱使命,圆满完成了保障任务,实现了“零重大系统故障、零重大安全事件、零重要客户投诉”的目标,保障部门考核业绩的达成。GOPS 全球运维大会 2024 深圳站变更风险管控-持续提升不停服发布能力多技术方案实现系统不停服发布能力提升:通过灰度、蓝绿、单元化部署、利用云平台、高可用架构、配置文件切换等技术实现应用的不停服发布。持续运营管控创新技术应用割

27、接变更数据持续运营分析管控,管控不停服发布指标达成情况;全流程异常闭环,持续提升变更质量。通过不同类型变更的等级管控,分类聚合,编排变更计划,提升不停服发布占比,降低变更风险。变更风险分级根据系统等级,制定不停服发布能力建设目标,推进各系统不停服发布能力提升。新系统统一验收标准管控、存量系统推进优化改造。统一标准管控为解决业务高速发展和系统稳定运行之间的矛盾,降低高频次变更对业务系统的影响,推进核心、重要系统发布变更能力提升,市场与服务支撑中心开展了不停服能力提升的专项活动。应用成效:在保障敏态发布需求实现的基础上,核心重要系统支撑不停服变更占比达到85%以上,有效管控停服变更对业务的影响。G

28、OPS 全球运维大会 2024 深圳站AIOps工具链建设-全域感知、根因诊断、故障自愈采用自研和中台能力引入方式,打造全链条AIOps能力,提高故障处置效率,扎实推进传统运维向智能运维转型升级,融合元宇宙、数字员工、大模型技术构建虚拟化智能运维体系,提升运维综合治理能力,助力运维降本增效。故障预防故障发现故障定位故障恢复容量预测接入“容量预测”能力,2个系统试点容量预测能力。系统评估打造“健康度评估”功能,实现智能化评估。日志异常检测接入“日志异常检测”能力,3个系统试点自动异常检测能力。天眼能力引入浙江已上台天眼能力,已应用到1个业务系统。故障自愈能力接入公司内“故障自愈”能力,2个系统试

29、点故障自愈。打造全链条AIOps能力,提高故障处置效率自研AIOps能力(4项)中台AIOps能力(1项)IT公司AIOps能力(3项)故障自动通报自研“故障自动通报”能力,已应用到20个业务系统。RPA巡检拨测基于RPA自研页面巡检、接口拨测工具,2个业务系统已应用。舆情分析打造“舆情分析”功能,实现智能化舆情分析。GOPS 全球运维大会 2024 深圳站AIOps工具链建设-故障自动通报能力24业务层告警应用层告警资源层告警一级割接变更省割接变更安全封堵通报告警接收人工上报事件人工处置上报恢复人工上报自动处置通报运维值班人员业务系统信息接入关联信息接入将监控大屏集中监控及业务系统自监控的告

30、警信息多种渠道及时触达运维人员,经过统一清洗、合并分级等优化避免告警风暴及告警疲劳,通过业务系统监控信息接入、割接变更等关联信息采集和人工上报,聚合分析异常产生原因,促进运维人员快速发现问题解决问题。智能告警能力-功能架构拓扑通报指标接入模块关联事件信息采集统一清洗收敛分类告警生成事件生成信息处置进度信息事件结束信息协同保障团队通报交互工具自动通报工具信息处理功能短信/微信/移动办公智能分析功能事件结束上报信息知识图谱机器学习关键信息提取规则引擎故障预测模型事件流程管理功能事件生成事件处置故障判断模型关联分析模型关联信息采集分析事件闭环管理功能自监控统一告警智能分析告警1234GOPS 全球运

31、维大会 2024 深圳站助力研发效能提升-组件化统一技术底座为进一步优化运维体系,促进IT运维数字化、智能化、敏捷化、服务化转型,实现降本增效目标。采用组件化的构建模式,提供统一的技术底座,构建研运一体化的模式,采用低代码开发,实现敏捷交付,提升企业研发效能,核心能力内化。通过组件化构建模式,助力中台能力快速构建和推广。功能组件组件能力成熟度模型组件发布组件库服务组件规则组件基础编排组件数据挖掘数据可视化数据开发数据治理工具组件组件集成组件编排组件技术标准和规范组件生命周期指导规范组件管理业务功能层数据组件辅助业务层文件组件(文件路由、文件分发)消息组件(消息通道、消息订阅)服务调度层运维监控

32、层安全管控层服务注册数据分片服务路由调用拆分负载分担告警发布熔断控制超时处理加解密敏感信息处理非法调用控制运行态开发态安全管控流量监控服务管理数据可视化DevOps工具集API/SDK能力组件编排中心统一技术底座技术组件化和服务标准化,实现敏捷交付研运一体化破除团队壁垒,提升企业研发效能核心能力内化采用组件化构建模式,锻造低代码开发能力,实现核心能力内化助力中台能力推广组件化构建模式,助力中台能力快速构建与推广GOPS 全球运维大会 2024 深圳站助力研发效能提升-规范引领,标准先行“规范引领,标准先行”,制定组件化企业和行业标准,为组装式应用规模化发展夯实基础,提升集成开发和运维效率。同时

33、,参与中国通信标准化协会,输出组件化建设经验到基于云计算的业务组装能力白皮书等规范中,将成果输出到行业标准,扩大行业影响力。定义架构指标应用管理组件定义、组件边界、组件分类、拆分封装、模块化技术底座架构、服务网格部署架构、微服务部署架构、公共制品形式、组件架构设计要素功能性指标、运维指标、安全指标、组件交付指标、组件维护责任界面组件接口规范、组件应用范围、组件组装开发设计准则、组件发布规范、组件版本管理与升级中台组件构建系列标准信通院组装式应用行业标准可组装业务组件可发现可组装可分发可自治云原生可运营成熟度模型经验输出互补对齐多维度评估多级别评定跨生态赋能模块化可编排可扩展GOPS 全球运维大

34、会 2024 深圳站助力研发效能提升-开发沉淀通用组件,提升集成开发效率经过前期能力积淀和通用性评审,通过工程项目2022年数字化运营支撑能力提升及2022年研发项目业务中台系统组件化研发,开发了60个API/SDK类组件,均已完成落地验证,其中53个组件已在生产系统进行应用,有效提升集成开发效率和生产系统稳定性。从通用性、易用性、扩展性、可维护性、安全性等维度评价组件能力成熟度,将组件成熟度分为入门级、标准级、进阶级、优秀级4个阶段,经过组件的打磨优化,81%的组件达到标准级,10%的组件达到进阶级,提高组件的生产支撑能力。能力级别能力要求概述入门级功能独立、架构解耦符合生产准入必备的安全要

35、求具备使用说明等规范文档,可根据规范独立完成集成部署等相关工作具备日志输出功能标准级易于集成,接口满足中台组件开发与标准化封装指导规范相关要求满足云原生架构,支持多实例或多容器的手动扩缩容满足中台组件开发与标准化封装指导规范日志标准化的相关要求满足中台组件开发与标准化封装指导规范监控规范的相关要求进阶级支持多实例或多容器的自动扩缩容能力支持手动切换的应急、容灾高可用架构支持磐舟磐基一体化支持组件异常诊断分析,实现精准告警优秀级支持一键部署具备自动切换能力,实现故障自愈遵循可观测设计标准,实现关键指标、调用链的可视化追踪具备界面管理工具,可动态调整组件参数配置成熟度分级不符合组件规范入门级标准级

36、进阶级优秀级组件化工作成效:统一技术底座,易于集成,节省开发工作量,有效提升集成开发效率;可交叉复用,扩展性良好,快速支撑一线;丰富运维能力,提升系统运维质量;核心能力内化,锻造低代码研发能力,强化知识掌控力度。GOPS 全球运维大会 2024 深圳站助力研发效能提升-构建组装式系统,快速赋能一线进一步深挖组件化工作成效,打造并丰富标准化组件库,做优组件生态,提升组件复用度,用搭积木的方式去构建系统,形成组装式系统,逐步向低代码架构+低代码角色的转型,实现降低承接大项目所要的人力、资本等门槛,快速赋能一线目的。目前选择一级云店试点组装式系统构建,预计共需组件13个,可复用已有组件10个(其中4

37、个为云店自有组件),需新开发组件3个,组件在整个系统的构成占比约为70%,23年底完成组装式系统构建;根据组装式系统降本公式:降本值=已有组件复用可节省的一次性工作量-已有组件复用重复性工作量+复用新开发组件节省的一次性工作量-新开发组件投入的工作量,相较于传统定制化开发的1339人天,云店组装式系统开发只需要845人天,直接节省工作量494人天;另外,新开发组件后续可重复利用,其中的一次性工作量446人天可节省下来;由此得出:组装式系统开发模式前期需要一定的投入,待后期逐步丰富组件库后,通过组件复用可大大节省开发成本,快速赋能一线;另外,也可有效节约运维成本,多个系统复用同一个组件,其维护工

38、作量不再是线性增长。一举多得,切实实现降本增效的目的。传统定制化开发组装式开发1339人天新开发组件已有组件复用一次性工作量重复性工作量可节省的一次性工作量重复性工作量446人天122人天494人天277人天GOPS 全球运维大会 2024 深圳站助力研发效能提升-输出组件化监控方案,助力全网降本增效通过组装式应用技术,组合数据采集组件、告警推送组件及普罗米修斯服务,构建应用指标类监控解决方案,实现指标异常多渠道实时预警。该成果部门内已应用于一充、智厅等5个系统,全网已推广至甘肃、河北、宁夏等6个省公司,研发效率提升80%,节省成本48万。协同省专公司构建全网标准化组件库(PBC库),并按照中

39、台标准进行改造。PBC库作为中央厨房的补充,以本地化方式部署,可以提供全网调用,有效解决传统定制化开发问题,统一技术底座,助力中台能力输出。甘肃应用反馈!河北应用反馈!宁夏应用反馈!全网推广情况组件化监控方案内部应用情况组件化技术联盟GOPS 全球运维大会 2024 深圳站工程化能力沉淀-持续完善的工程化验收标准分值区间系统评估类别总体建设基线容灾系统容灾系统应急系统应急系统高可用数据备份数据备份容灾级别容灾架构方式应急级别应急规模数据级容灾应用级容灾业务级容灾主备双中心双中心互备读写分离双活读写并行双活数据应急业务应急50%(含)以上关键业务50%以下关键业务需满足需满足95,125A1类建

40、设双活容灾系统需满足需满足需满足二选一需满足需满足85,95)A2类建设主备容灾系统需满足需满足二选一需满足需满足75,85)A3类建设数据级容灾系统或应急系统需满足需满足需满足需满足需满足需满足65,75)B1类建设应急系统需满足需满足需满足需满足50,65)B2类满足高可用需满足需满足0,50)C类满足数据备份按需需满足(二)建设方案中灾备应急能力建设需满足:系统出入口,内部子系统/集群,皆须具备自动化或界面化的一键切换应急处置能力;同时满足应急保障手段建设评估标准中灾备能力建设评估模型要求,汇总如下:(一)在建设方案设计时,重点满足系统并发性能、灾备应急、精准监控、自动化部署和验证测试、

41、不停服发布与自动化验证测试、智能化、界面化的运行治理等运维能力建设,需同时满足全网应急保障手段建设评估标准、交维管理细则中相关要求,参考系统交维检查项及材料清单同步留存、整理相应材料,并在上线后根据工程或业务需求交维流程操作手册走相关交维流程。相应规范要求以OA发布的为准。(三)在建设方案中须涉及对接到“系统健康度综合评估系统”,健康度评估包括三层黄金指标采:应用系统业务质量(交易量、成功率,耗时等)、应用系统部署环境质量(cpu、内存、线程、网络连接、句柄数、带宽等)、应用系统保障工具质量。详细要求参考市服系统健康度综合评估接口对接规范,概述汇总如下:评估资源分类接入资源要素-范围纳管监控指

42、标业务质量评估要素包括、一级产品模块名称、二级产品模块名称、三级产品模块名称、具体业务功能名称、当前业务功能维度、关联业务接口信息(直接上游系统名称、上游接口名称、当前具体接口名称、直接下游系统名称、下游接口名称)接口调用量、调用状态、接口名称、接口调用耗时等PaaS层及技术组件状态评估要素包括所使用到数据库及各类中间件,比如mysql、kafka、redis、nginx等组件。所在容器、集群、平台、机房等署单元的具体关联情况,评估要素包括应用系统业务单元与技术组件所在集群、平台等署单元的具体关联情况。中间件名称、中间件实例状态、中间件其他关键指标,容器(pod)状态等主机或node节点cpu

43、、内存、句柄、进程、线程、文件系统指标、网络指标应用保障工具单元评估要素包括应用系统上报全网的指标数据、应用系统自身接口服务调用日志、应用系统自监控情况、应急切换工具全网上报状态指标、应急切换状态指标、GOPS 全球运维大会 2024 深圳站运行治理-持续完善监、管、控、运营一体化运行治理框架监、管、控、运营一体化运行治理框架基于先进的SRE运维理念,结合公司SRE成熟度评估模型,推进运维全域全要素管理和能力提升。提升SRE能力管控运维风险提升运维质量注智赋能降本增效基于持续优化理念,持续管控运维风险,引入隐患排查工作台账、进行评估自查,跟进识别的问题,持续落实闭环整改措施,做到彻底解决根因,

44、解决一类问题,解决全局共性问题。以故障预防常态化、故障感知泛在化、故障通报自动化、故障识别智能化、故障处置无人化理念,沉淀运维能力,优化技术架构,完善平台能力,丰富运维手段,全方位推进运维效能提升。基于创新发展理念,采用自研和中台能力引入,打造全链条AIOps能力。实现故障自动通报、数字员工、运维大模型等数智工具应用,在运维工作中释放人力 投入,提质增效,推进传统运维向智能运维转型升级。围绕数智赋能、提质增效要求,从系统、流程、管理、技术运营、工具等多层面开展提升系统能力,管控运维风险,深挖运维成效,丰富智能运维手段的创新实践,持续完善监、管、控、运营一体化运行治理框架。GOPS 全球运维大会

45、 2024 深圳站运行治理-持续提升运维质量根据“重点突破、全面推进”的工作思路,从故障预防常态化、故障感知泛在化、故障通报自动化、故障认知智能化、故障处置无人化等方面全方提升运维成效。已完成4个关键系统、两轮15个核心重要系统的运维质量专项优化,共梳理发现54个优化点,完成105项优化举措实施,通过引入智能DNS、配置软负载、新增备用专线等措施,消除单链路隐患,提升切换效率和故障自愈能力;通过构建界面化切换工具,实现关键业务的一键切换,单次切换时间从5分钟提升至10秒内。业务解耦优化链路切换效率提升 通过分离实时、与批量业务,简化ETL链条,调度组件分流等,实现业务解耦,提升系统性能,使得大

46、文件阻塞时长由2小时缩短至15分钟,避免主机链路资源耗尽。通过使用本地块存储有效SAN存储架构、共享存储性能不足导致的IO过载、存储只读、数据库hang死等问题,并减少对MQ等中间件约50%的压力。存储架构优化通过搭建容灾中心,提升系统健壮性,有效预防水灾、地震等自然灾害,系统承载能力提升30%-50%;集中管控客服全量日志,实现单条记录秒级搜索,极大提升故障定位和日常业务查询效率。系统架构优化引入自动化分析及处理工具,设计故障自动处置预案、策略,减少人工处置风险,提升故障处理效率,整个应急处置过程时间由10-20分钟缩短至5-10分钟。故障自动处置快速精准发现:通过SkyWalking、RP

47、A自动拨测等工具,实现10大类业务,80多个接口异常快速发现,精准告警;故障自动通报:开发故障自动通报工具,已实现企业微信、移动办公等渠道告警实时上报,缩短故障处置时间5-10分钟多维度监控优化GOPS 全球运维大会 2024 深圳站SRE人才培养方案SRE人才培养-打造多元化、专业型、全领域人才队伍制定SRE人才分层培养方案,构建“纵向贯通+横向融通”的人才培养体系。通过纵向贯通智能化运维技术、故障分析处置等能力,挖掘了运维能力的深度;通过横向融通架构设计、安全管理、全网协同等能力,拓展了运维能力的广度;通过培训、考试、系统学习、月度生产分析会、经验分享等,持续全面提升成员能力水平,加强核心

48、能力内化,打造多元化、专业型、全领域人才队伍。SRE人才能力要求日常运维自动化,自动异常发现能力;平台化管理、敏态上线部署能力;快速恢复业务,根因(流程、架构、应用)解决问题能力;深度参与产研交付过程(非功能实现);全域稳定性保障,技能全面;具备运维开发能力、平台建设能力;具备体系化、平台化解决问题的思维;融合大数据、机器学习、人工智能等新技术。经验分享技术沙龙行业洞察认证培训月生产分析会制度宣贯SRE领军人物评选技能培训月度考试系统知识学习创新竞赛运维问题打榜在岗革新培训拓展管理实践引领GOPS 全球运维大会 2024 深圳站SRE运维文化建设凝聚共识,以共同的目标,标准开展工作;追求卓越,

49、高标准、严要求完成各项工作;激励与认可,推动集智共创,激发全员创新活力。SRE文化是开展SRE实践过程中逐步积累沉淀形成的一种共同的认知、价值观和行为准则,SRE运维文化的形成是一个长期的过程,主要从以下几个方向推动SRE文化建设。稳定、可靠、安全、高效持续改进团队协作信任与责任智能化学习创新高效协同,提升团队协作和跨部门协作水平;团队发展,稳定和价值提升是团队建设发展的关键;个人发展,完善和支撑个人能力提升和职业上升路径。数据决策等PART 03技术革新:元宇宙、大模型等新技术在运维领域的应用实践与展望GOPS 全球运维大会 2024 深圳站自研+能力引入打造市服中心智能运维大模型集通过协同

50、技术支撑组自研和引入“深瞳”运维大模型智能体能力,将大模型应用于运维知识库、故障定位辅助、运维决策执行三个场景,解决日常运维工作中信息查询、知识获取效率低,生产保障工作中缺少智能化预测分析、决策执行工具的短板。引入“深瞳”运维大模型智能体能力:SAAS层应用场景(进行中):应用、数据库(磐维、AntDB、MySQL、Oracle等)、中间件(nginx、Redis、kafka、zookeeper)实现错误日志获取、分析、处置及巡检;PAAS层应用场景(已引入):实现磐基PAAS层错误日志获取、分析、处置及巡检;IAAS层应用场景(进行中):主机、网络、存储等跨域日志获取、分析、处置及巡检。由大

51、模型对跨三域异常日志、告警等信息进行汇聚,分析和解释,提供处置建议,经运维人员授权后由大模型自动执行处置操作。能力引入进展目标:问答知识库小助手提升效率运维领域知识问答系统,理解不同形式的问题,匹配答案,辅助信息、知识获取,提升效率。日常工作场景生产保障场景目标:实时或准实时预测分析保障生产对自监控的异常事件进行诊断分析,提供处置建议,识别自然语言执行运维操作。运维大模型应用运维知识库故障定位辅助故障分析决策故障台账系统拓扑数据基础.数字员工SRE工具功能基础36完成初版运维大模型知识库应用应用知识库大模型辅助信息、知识获取,提升工作效率完成大模型故障分析决策应用落地应用分析决策大模型辅助故障

52、分析、应急处置自研进展GOPS 全球运维大会 2024 深圳站引入天元元宇宙运维能力37市服中心通过入驻天元元宇宙运维空间,融入大模型及AIOPS等运维工具,打造智能化运维平台。在亚运会保障期间,开辟、试用市服保障虚拟大厅,后续规划结合数字孪生技术,探索构建新一代运维集省两级跨域跨专业协同新模式。多屏幕监控与运维虚拟工作厅运维知识库智能机器人故障处置协同会议厅大模型融入元宇宙运维空间第一阶段:运维大模型应用基础功能开发第二阶段大模型应用与元宇宙集成第三阶段大模型应用语音智能搜索集成运维知识库模块开发(基础资源、故障台账、应急预案);故障辅助定位与处置模块开发集成;智能预测分析与决策模块开发。嵌

53、入大模型的运维知识库智能搜索;投屏模式的故障辅助定位调测;投屏模式的智能预测分析与决策调测。集成语音智能搜索到大模型应用的搜索和智能问答中GOPS 全球运维大会 2024 深圳站构建虚拟智能运维空间,提升运维综合治理能力虚拟智能运维空间构建:以元宇宙为基础,有机结合AIOps、RPA、大模型等数智工具,构建虚拟智能运维空间,提升运维综合治理能力,助力运维降本增效,预估2024年可节省5%19.5%工作量。完成AIOps能力引入试点试点成效总结并提交总结报告运维数字员工应用实施完成完成25个数字员工应用实施落地故障自动通报工具实现业务成功率、系统成功率分级告警,故障恢复自检测,精准告警。应用到2

54、0个系统中台AIOps天眼能力引入试点由中央SIMS系统试点,确定实施方案能力自研启动AIOps能力试点工作选定6个核心系统试点3项能力完成业务选型、方案设计等信通院AIOps认证完成”系统健康度评估”功能开发,相关材料准备,具备演示能力天眼能力试点完成完成试点并出具报告RPA巡检拨测数智员工实现页面巡检、接口拨测,定时验证系统运行状况,7*24小时在岗。运维数字员工需求梳理完成完成25个数字员工应用需求提交完成初版运维大模型知识库应用应用知识库大模型辅助信息、知识获取,提升工作效率完成大模型+元宇宙应用场景落地融入大模型及AI运维工具,打造智能化运维平台基础应用机械性、重复性工作任务,固定工

55、作流程使用RPA、运维脚本等完全替换进阶应用简单场景任务,通过组合自动化工具完全或部分替换高级应用复杂场景任务,引入智能化工具,自动化运维平台等辅助完成试点健康度评估、舆情分析完成试点系统完成“系统健康度评估“和”舆情分析“能力应用接入大模型运维应用设计完成基础数据整理确定大模型应用场景及落地方式完成大模型故障分析决策应用落地应用分析决策大模型辅助故障分析、应急处置能力引入PART 04挑战与机遇:新技术革命下的运维领域展望GOPS 全球运维大会 2024 深圳站新技术革命背景下的机遇和挑战数字空间,元宇宙随着数字化建设的持续推进和元宇宙及相关技术的发展,逐渐形成了数字世界和虚拟现实的元宇宙空

56、间,为运维开创了新的应用空间。虚拟数字人、智能机器人虚拟数字人和智能机器人在AI技术加持下,将加速应用和推广,为运维领域提升自动化、智能化水平提供了便利,也带来了不确定性的挑战。人工智能+人工智能大模型,agent智能体的飞速发展,将彻底颠覆传统运维模式,重构运维工作。安全挑战AI加速发展应用的背景下,系统安全、数据安全、隐私安全面临的风险成指数增加,构建完善的安全管理和主动预防体系显得尤为重要。GOPS 全球运维大会 2024 深圳站新技术革命背景下运维发展的应对策略推进新技术应用稳步推进新理念、新技术、新架构应用和升级,提升运维效率、稳定性、安全性和业务支撑水平。构建高层次运维人才培养模式探索产学研一体化人才培养模式,培养技术过硬,知识全面,具有创新精神和跨界视野的运维人才,打造既懂技术又懂业务的高素质运维团队。深度融入AI+加速推进人工智能AI+战略,重构当前运维模式,深化人机协同,深度融入智能运维新模式。创新发展新质生产力鼓励多渠道、多维度、跨学科的科技创新,释放SRE创新潜力,汇聚运维智能新质生产力要素,发挥运维新质生产力在数字化建设领域的关键作用。GOPS 全球运维大会 2024 深圳站Thanks高效运维社区DevOps 时代荣誉出品感谢大家观看THANKS

友情提示

1、下载报告失败解决办法
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。

本文(张立科-市场与服务支撑中心:打造卓越标杆 SRE 运维体系实践.pdf)为本站 (张5G) 主动上传,三个皮匠报告文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三个皮匠报告文库(点击联系客服),我们立即给予删除!

温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。
客服
商务合作
小程序
服务号
会员动态
会员动态 会员动态:

 138**56... 升级为至尊VIP wei**n_... 升级为至尊VIP

wei**n_...  升级为高级VIP wei**n_... 升级为至尊VIP 

wei**n_...  升级为高级VIP   wei**n_... 升级为标准VIP

 冯** 升级为至尊VIP   wei**n_... 升级为至尊VIP

 wei**n_...  升级为标准VIP wei**n_...  升级为标准VIP

wei**n_... 升级为高级VIP   old**nt...  升级为至尊VIP

wei**n_... 升级为至尊VIP 150**62... 升级为标准VIP 

俊**...  升级为标准VIP 微**... 升级为至尊VIP

131**94...  升级为高级VIP wei**n_... 升级为高级VIP 

微**... 升级为至尊VIP   151**34... 升级为高级VIP 

wei**n_...  升级为标准VIP 186**03...  升级为至尊VIP

wei**n_... 升级为至尊VIP   138**97... 升级为高级VIP 

报**...  升级为至尊VIP  177**40... 升级为至尊VIP

189**24...  升级为高级VIP Jo**g 升级为至尊VIP 

董杰 升级为高级VIP  159**76...  升级为至尊VIP

wei**n_... 升级为标准VIP   186**81...  升级为高级VIP

198**12...  升级为高级VIP  周阳 升级为至尊VIP 

微**...  升级为标准VIP  wei**n_... 升级为高级VIP 

 wei**n_...  升级为标准VIP 137**77... 升级为高级VIP

 Ste** S... 升级为至尊VIP ro**i 升级为高级VIP

186**53... 升级为至尊VIP   403**08... 升级为标准VIP

 wei**n_... 升级为标准VIP  wei**n_...  升级为高级VIP

wei**n_... 升级为高级VIP    wei**n_...  升级为至尊VIP

189**86...  升级为高级VIP  wei**n_...  升级为标准VIP

微**... 升级为标准VIP wei**n_...  升级为至尊VIP

骑**...   升级为高级VIP wei**n_... 升级为标准VIP

wei**n_...  升级为标准VIP 138**22... 升级为标准VIP

 wei**n_... 升级为标准VIP 186**23...  升级为至尊VIP

 gus**o8... 升级为至尊VIP  159**77... 升级为至尊VIP 

 Kra**Ma... 升级为高级VIP wei**n_... 升级为高级VIP

SMA**CH 升级为至尊VIP  130**92...  升级为至尊VIP

 wei**n_... 升级为高级VIP  wei**n_... 升级为高级VIP

181**79...  升级为高级VIP wei**n_...  升级为标准VIP

wei**n_...  升级为至尊VIP   Je**er 升级为高级VIP

  182**85... 升级为至尊VIP  小** 升级为高级VIP

wei**n_...   升级为标准VIP  186**69... 升级为高级VIP 

陆  升级为至尊VIP  wei**n_... 升级为标准VIP

微**...  升级为标准VIP 186**99...  升级为高级VIP

 wei**n_... 升级为高级VIP Nic**eZ  升级为至尊VIP

wei**n_...  升级为高级VIP 130**34...  升级为标准VIP 

189**86...  升级为至尊VIP  wei**n_...  升级为标准VIP

 陶**... 升级为标准VIP   159**63... 升级为至尊VIP

 wei**n_... 升级为标准VIP wei**n_... 升级为至尊VIP 

wei**n_... 升级为高级VIP  江**...  升级为高级VIP 

186**32... 升级为高级VIP   wei**n_... 升级为至尊VIP

 微**... 升级为至尊VIP 182**17... 升级为标准VIP 

  wei**n_... 升级为标准VIP 138**41... 升级为至尊VIP  

138**39...  升级为至尊VIP wei**n_... 升级为至尊VIP 

wei**n_... 升级为标准VIP   136**29... 升级为标准VIP

186**28... 升级为标准VIP  186**28... 升级为标准VIP