上海品茶

您的当前位置:上海品茶 > 报告分类 > PDF报告下载

郭旻欣-江苏电信 IT 运维转型之 SRE 体系建设实践.pdf

编号:122109 PDF 33页 5.28MB 下载积分:VIP专享
下载报告请您先登录!

郭旻欣-江苏电信 IT 运维转型之 SRE 体系建设实践.pdf

1、江苏电信IT运维转型之SRE体系建设实践郭旻欣 SRE负责人中国电信集团云化架构师、内训师、云眼产品经理江苏电信IBOC SRE 团队负责人江苏电信云运维一级专家江苏电信“劳动模范”获得者困难与挑战稳定运营保障体系运营专项行动困难与挑战系统的变革烟囱式动荡平稳架构演进2020年7月,中国电信启动“IT上云三年计划”,2022年中国电信全面上云后,运维面临巨大挑战上云系统PaaS层统一采用研发中心自研组件,IaaS层上天翼混合云,原属地化维护变为多单位维护2分布式架构带来系统节点、微服务数量呈几何级数增加,监控工作量急剧上升3监控对象间关系极其复杂,人工维护无法胜任4数据分片、异地存储,传统维护

2、模式难以为继面临的困难与挑战 运维团队分散,各自为战CRM团队计费团队OSS团队PAAS团队 缺乏集约化运维工具云眼AIOPSITSM 运维流程管理混乱风险隐患流程故障管控流程应急预案流程风险操作流程 运维监督检查不到位隐患整改运维操作架构部署应急演练监控覆盖故障闭环 IT运维规范不完善风险操作监控部署隐患排查应急演练系统优化寻求IT运维转型构建稳定运营保障体系(如何做)+开展运营专项行动(高效做)稳定运营保障体系SRE稳定运营保障体系围绕“故障次数、时长双压降”一个目标,依托四大运营驱动力,聚焦“做细事前故障预防、敏捷响应事中故障处理、抓实事后故障改进”三个阶段,形成“规范、动作、能力”三统

3、一运营体系,建强稳定运营能力,减少故障发生,提升客户感知一个目标三个阶段四大运营驱动力三个统一运营专项行动围绕四大运营驱动力,做实五大举措举措一 组建SRE运营团队铁三角:运营管理团队:值班长AB角值班机制一线运维团队:7*24小时值班机制二线运维专家:专家团队负责运营专项攻坚举措二 用好数字化工具三工具:云眼平台:集约化监控平台凤凰平台:全链路监控与可观测工具ITSM系统:运维流程数字化工具举措三 加强运维流程管控四流程:隐患排查流程应急预案流程风险操作流程故障管控流程举措四 做实检查奖罚并举三手段:健康评估 积分驱动 检查考试举措五 健全IT运维规范十规范:统一规范制定:固化沉淀、精简实用

4、、与时俱进强化规范执行:系统管控、智能提醒、狠抓落实一、团队组建(1/4):组建SRE运营团队运营管理团队(牵头)二线专家团队(协同)一线值班台(协同)人员:IT监控中心运维团队职责:承担中心运营事件的预处理工作,包括集团云眼、凤凰等平台告警响应与告警调度工作等;落实7*24小时值班机制,承担全部门的夜间值班工作人员:组建二线专家团队,按需抽调专家人员,根据工时计算积分职责:负责故障定责、故障复盘、规范制定、流程优化、工具打造、运营检查等工作;牵头本部门稳定运营工作人员:运营管理团队职责:负责IT稳定运营、故障压降;落实每日值班长AB角值班机制,承担服务响应、事件处理、集中监控、调度处理、客感

5、分析等“五归口职责”运维检查评估:参与中心组织的系统告警完备度、风险隐患、风险操作、应急预案、故障整改等专项检查,参与系统四级运营能力评估风险操作审批:负责对重大风险操作实施方案、系统应急预案、回退方案等进行审批故障应急处置:输出专家经验,出现故障是快速加入联合作战室,协同业务团队处理生产系统故障故障复盘分析:参与每起故障复盘分析,举一反三、由点带面,从中心层面发现深层次的问题,并验收故障整改情况参与故障定责:负责对跨专业故障进行分析,定责故障责任专业沉淀运维规范:参与中心IT运维规范制定,包括风险操作、监控部署、应急预案、PaaS使用等内容,将开展的故障诊断、故障处理、故障复盘等经验总结输出

6、,并完善IT运维规范二线专家团队“6项”职责SRE运营团队“3个”小组一、团队组建(2/4):营造运维文化-运维吐槽大会 目标营造“运维文化”氛围,提升运维人员存在感、归属感 搭建舞台激发运维人员活力,总结沉淀IT运维经验 举措一:运维吐槽大会主咖:IAAS/PAAS维护团队、运维工具开发团队等主题:“技术玩真的,吐槽来狠的”期望:聆听运维人员心声,收集IT运维工作的建议;切实推动解决IT运维痛点难点,为运维人员减负运维吐槽大会一、团队组建(3/4):营造运维文化-小羲说运维 举措二:小羲说运维搭建运维人员展现自我舞台,沉淀运维经验,对外赋能栏目内容包括“故障大剖析”、“规范小贴士”、“运维藏

7、经阁”、“上新了,小羲”四大板块栏目栏目内容栏目形式故障大剖析典型故障案例分析,包括故障基本情况、故障经验教训等微信群图文/微信公众号推文规范小贴士解读IT运营规范,把繁冗的规范精简提炼成容易记忆的要点微信群图文/微信公众号推文运维藏经阁以文章的形式分享前沿IT运维知识微信公众号推文上新了,小羲介绍新上的IT运维工具微信群图文/微信公众号推文一、团队组建(4/4):营造运维文化-故障目标认领&零故障体系构建故障目标认领体系根据2022年故障情况,制定2023年故障压降R0、R1、R2目标根据故障压降认领目标达成情况,获得相应积分奖励部门年度故障压降目标(R0)积分奖励(万分)年度故障压降目标(

8、R1)积分奖励(万分)年度故障压降目标(R2)积分奖励(万分)JS135127119Billing453729CRM554739OSS453729EDA655749MSS453729GH352719合计393225故障次数压降可认领目标故障平均时长压降可认领目标部门年度故障时长压降目标(R0)积分奖励(万分)年度故障时长压降目标(R1)积分奖励(万分)年度故障时长压降目标(R2)积分奖励(万分)JS750.5651552Billing450.5401302CRM350.5301252OSS450.5401302EDA500.5401302MSS450.5401302GH450.5401302合

9、计544840序号故障情况奖励基数奖励积分上限(分)11个月零故障400 164002连续2个月零故障840344403连续3个月零故障1280524804连续4个月零故障1720705205连续5个月零故障2160885606连续6个月零故障26001066007连续7个月零故障30401246408连续8个月零故障34801426809连续9个月零故障392016072010连续10个月零故障436017876011连续11个月零故障480019680012连续12个月零故障5240214840零故障激励体系构建零故障激励体系根据系统运营情况,对连续未发生故障系统进行分档奖励奖励积分=奖励

10、基数*系统等级系数A类大系统、A/B类小系统、C类小系统等级分别对应2.5、1、0.5(A、B、C代表系统重要性;大小代表系统规模)二、摸清家底:CMDB资产全面梳理CMDB资产应用场景建立CMDB精准纳管三层资源数据以场景为导向,完成资产项模型设计IaaS 13个、PaaS 32个、SaaS 3个打破数据孤岛,完成资产项之间的关系设计57个模型满足关联查询、故障辅助定位、虚拟结算等后续场景需要推动纳管系统CMDB资产信息100%准确纳管系统全量梳理,开展资产认领、数据梳理录入建立全生命周期的IT资源管理体系,实现从静态资源管理向动态资源流程的转变提供系统维度全量资产查询页面,确保应用及时核对

11、资产数据准确性三、集中调度(1/2):监控调度 全层级监控覆盖网络、IAAS、PAAS、SAAS(服务探测、日志监控)、业务指标等维度,实现自上而下全层级监控 告警标准化告警系统、告警层级、告警场景、告警时间、告警等级、系统负责人、监控视图等信息告警系统:CRM系统告警层级:SaaS层告警场景:服务探测告警时间:2023-03-16 22:39:00告警等级:致命告警系统负责人:张*、李*监控视图:CRM系统监控视图地址告警运营监控大屏 告警集中调度与闭环管控致命级别告警推送至1类群,严重级别及以下告警推送至2类群1类群致命告警由IT服务台实现7*24小时监控调度服务台通过告警运营监控大屏进行

12、告警确认和原因记录,实现闭环管控2类群告警调度1类群告警调度三、集中调度(2/2):值班巡检值班签到提醒值班签到巡检值班签到页面 值班要求系统负责人通过云眼、凤凰等平台,于每日7点前完成系统晨检工作每月28日前排定系统值班表;每日组织值班抽查,需在15分钟内完成值班签到需落实每日AB角值班制,严格执行错峰上下班、用餐,保证电话7*24畅通四、集约流程管控(1/4)-风险操作流程管控 风险操作流程从发起流程至竣工,包括6个环节提前24小时申请时间限制,预留充足时间评估风险操作方案 风险操作快速通道共4个环节,快速流转工单故障隐患修复类紧急快速通道,可“当天发起,当天操作”成效流程管控:严格“事前

13、、事中、事后”风险操作执行,提升风险操作规范性,关注操作步骤、业务验证、回退预案等重点事项弹窗提醒:发起流程的弹窗提醒,包括具体操作、特定内容注意事项提醒微信自动化提醒:每日15:00、18:00推送当日风险操作信息至“信息共享微信群”,流程审批完成后方可执行领导审批竣工操作实施验证发起流程技术审批领导审批竣工操作实施操作验证发起流程风险操作弹窗提醒风险操作信息共享四、集约流程管控(2/4)-风险隐患&应急预案流程 风险隐患管控流程 成效 动态梳理:应急演练、故障隐患、巡检(日常巡检、专项巡检)、定期自主排查 流控管控:全面排查风险隐患并录入风险隐患流程闭环管理 待办提醒:按月发送OA待办通知

14、,每月更新隐患整改进展 关联预案库:风险隐患清单,可直接关联应急预案库竣工发起流程 应急预案管控流程 成效 建立集中应急预案库:系统清单级管理,涵盖隐患内容,每半年更新确认 关联应急演练流程:应急演练内容按照事先录入的应急预案开展,集中组织、管控效果、通报进展四、集约流程管控(3/4)-故障管理流程 故障管理流程故障登记IT服务台通过故障管理流程录入故障信息故障复盘故障报告提交后,故障复盘owner组织SER专家团队进行故障复盘,共同细化故障整改方案围绕“心态开放、理性务实、鼓励改进、反对推诿”原则,还原故障过程,挖掘故障根因故障反馈根据复盘结果,完善故障报告,覆盖故障原因、故障处理过程和故障

15、整改措施通过流程制定应急演练、风险隐患、整改措施计划,系统自动生成待办工单至整改负责人岗上故障验收专家团队针对故障整改举措、风险隐患和应急演练完成情况进行验收故障闭环管理流程四、集约流程管控(4/4)-强化故障复盘管控 二个准备:1、故障分析报告初稿;2、确定复盘owner 六个环节:1、故障背景概述;2、对齐故障影响范围;3、故障时间线回放;4、故障根因剖析;5、改进项汇总;6、定级定责 三项原则黄金四问:根因是什么?如何避免发生(降低MTBF)?如何快速恢复(缩短MTTR)?我们还可以做些什么(举一反三,从流程、规范、制度、工具等方面)?改进项遵循SMART原则:S-具体的(Specifi

16、c),M-可衡量的(Measurable),A-可达到的(Attainable),R-与其他目标具有一定的相关性(Relevant),T-有明确的截止期限(Time-bound)定责处罚:定责的原则是对事不对人,这件事情一定要有人承担责任,这里承担责任的意思是说负责后续改进措施的执行与落地,最终的目的是鼓励做事,而不是处罚失败 复盘后续故障复盘结果通告:保证信息透明,同时引以为戒故障改进项闭环:持续跟踪,闭环管控复盘owner职责提前梳理、洞察细节:复盘会议前根据故障处理报告初稿推动所有故障干系方完成时间线的梳理、核实影响的数据法官判定、中立权威:复盘会议中引导参会人员推动复盘进度,避免出现一

17、些无意义的指责、与故障无关的发散讨论等复盘总结,结果通告:复盘会议后形成复盘报告并对复盘结果进行通告故障复盘流程五、智能运维工具(1/5):构建三屏联动可观测平台业务可视化监控大屏基础设施可视化监控大屏系统可视化监控大屏业务大屏SLO:地图关联核心应用服务水平,直观展现业务健康态势SLI:一屏展现全域关键业务监控指标,包括在线人数、订单受理量、竣工率、受理时长、话单量、停复机量等历史联动:同比环比展现业务变化趋势,更大时空维度联动设施大屏面:展现核心机房网络质量、全域软硬件资产分布及使用点:直观显示各系统健康状态、告警情况,监控中屏一键跳转系统大屏全链路:基于系统架构部署图,展示网络、IAAS

18、、PAAS、SAAS、业务指标、主机操作日志等全链路监控视图典型案例告警联动:Ngnix集群单服务器故障,中屏拓扑观测区Ngnix模块立即变红、闪烁提示异常,横屏关键指标主机存活数减少1台;故障1分钟内中屏右侧主动推送故障主机失联(IAAS)、Ngnix失联告警(PaaS),联动推送主机人为误操作关机行为日志(日志)图文并茂:故障发生时中屏拓扑观测区Ngnix模块立即变红、闪烁提示异常,横屏关键指标主机存活数减少1台五、智能运维工具(2/5):基于RPA技术打造数字哨兵覆盖多场景巡检业务营业受理订购附属(6个环节)营业受理宽带新装(9个环节)账务前台充值冲正(7个环节)多维度、全环节监控场景巡

19、检异常监控:环节巡检异常告警巡检耗时监控:场景全流程耗时超阈值、单环节耗时超阈值告警RPA异常监控:场景无数据上报监控监控调度6:00-24:00,5分钟周期全时探测巡检巡检结果推送至“RPA全时探测群”,一线运维团队负责调度二线运维人员RPA全时探测巡检系统登录选择开通渠道耗时1s输入手机号选择客户耗时3s客户身份鉴权耗时30s附属销售品查询和订购耗时4s购物车结算进入收银台耗时4s清空购物车关闭浏览器耗时10sRPA全时探测巡检业务流程五、智能运维工具(3/5):打造移动端半自动化故障自愈工具监控视图:监控视图URL应急工具:处置工具URL 移动端半自动化故障自愈工具,压降故障时长 移动端

20、串联起告警、监控视图、故障处置环节,实现半自动化故障自愈 通过微信推送告警的同时,直接推送监控视图和移动端处置工具链接告警信息可观测视图一键切换工具五、智能运维工具(4/5):AI场景应用 单指标异常检测 针对CPU、内存、数据库连接数、业务量等指标,学习数据历史规律,生成动态阈值基线,进行异常检测并推送告警业务量突降AI场景应用五、智能运维工具(5/5):智能告警关联分析 目标基于IAAS、PAAS、SAAS告警,实现告警数据的实时运营分析,形成多维度的告警画像,辅助IAAS、PAAS、SaaS 3类运维人员快速确认故障影响范围 成效三层告警视图:结合CMDB信息将IAAS、PAAS、SAA

21、S 3层告警聚合到系统维度,形成面向IAAS、PAAS、SAAS 3类运维人员的综合告警视图告警关联分析:经验沉淀,基于规则实现多告警关联智能分析和预判提示。案例:多虚机故障告警时,结合CMDB智能判断是否属于统一物理机、统一存储等共性,并提供故障智能预警智能告警运营分析IAAS层告警PAAS层告警SAAS层告警IP系统ID系统IDCMDB关联告警中心告警运营分析大屏 查看系统维度关联告警 及时发现故障影响范围 三层告警(系统维度聚合)关联告警自动推送 各层告警自动关联推送,辅助定位故障原因告警关联分析六、构建系统“四级应急体系”应急体系一:分布式缓存全阻(应用高可用)用于存放系统配置、支付订

22、单等数据,全阻时可穿透缓存至数据库停缓存全部Access进程 应急体系二:第三方支付通道故障(业务高可用)“扫码支付”当前通道异常时,将根据优先级自动切换至第二通道,二维码可正常展示,用户正常支付专线网络故障 应急体系三:K8S 集群故障(集群级切换)当单集群(Billing-1或Billing-2)故障时,可人工修改NG转发策略配置将流量路由至另一个集群集群billIng-1/billing-2故障 应急体系四:生产机房故障(跨机房容灾)支付中心双机房容灾部署架构。一套生产(吉山),一套灾备(鼓楼)吉山机房故障“四级应急体系”(以支付中心为例)极端场景30分钟业务恢复目标,构建“应用级、业务

23、级、集群级、跨机房级”四级应急体系七、构建SRE系统运营能力评估体系(1/2)SRE系统运营能力评估体系评估标准覆盖基础信息、故障预防、故障发现、故障定位、故障恢复、故障改进6大能力域,共26个能力子项事前做细,夯实基础、事中敏捷,快速应对、事后抓实,全方位改进,构建系统运营全生命周期的稳定性评估体系一级(初始级)、二级(基础级)、三级(全面级)、四级(优秀级)评估预期收益从第三方视角挖掘疑难杂症,查漏补缺,明确系统未来持续优化的方向,指导系统提升运营运维能力推动系统之间相互借鉴优先案例,培养与提升运维人员专业能力SRE系统运营能力评估体系系统运营能力评估画像七、构建SRE系统运营能力评估体系

24、(2/2)分数驱动,定级奖惩总分100分:一级(得分70)、二级(70=得分80)、三级(80=得分=90)每半年作为一个评估周期,周期结束后进行分数汇总和定级,形成半年度的系统运营能力画像,并根据定级结果对系统进行激励 评估细则,动态调整为保证系统运营能力评估合理性及有效性,系统运营能力指标项及权重根据生产运营情况动态变化 评估分值,实时更新每评估完一项指标分数实时更新,通过系统运营能力画像看板实时查看当前分值 工具支持,有效管控打造系统运营能力评估工具,提升评估效率和自动化程度构建系统运营能力画像视图,促进系统主动改进,形成“问题闭环”与“你追我赶”的改进氛围评估方式人员访谈材料审查模拟演

25、示自动取数八、加强IT运维规范沉淀和执行 目标IT运维规范整体包括三大部分十个章节,以“统一规范、统一动作、统一能力”为基本要求,打造IT运维工作的指导书、工具书 成效确立一心两翼一抓手:通过CMDB建模构建IT资产管理核心,通过监控部署管理、服务舆情管理完善内外感知通道,通过日常值班管理发挥IT监控中心的统一调度和管控作用夯实五个基础:通过主机、网络、数据库、PAAS组件、大数据平台的运营规范要求,进一步夯实IT基础设施平台稳定运营的基础性作用固化四项流程:通过应急演练管理、风险隐患管理、风险操作管理、系统故障管理,在系统中固化四项流程,形成四项清单,构建电子化、流程化、清单化的统一管理要求,实现故障次数和时长双压降规范宣贯:组织宣贯、小贴士、每季度开展IT运维规范考试,加强运维人员的规范意识迭代沉淀:在运维实践中迭代更新规范内容,形成经验总结和案例沉淀IT运营规范总体视图IT运维规范考试形成SRE运维体系“系统纳管五步十流程”第一步:摸清系统家底第二步:系统集中调度第三步:系统集约管控第四步:系统运营能力提升第五步:系统运营手段管控Thanks开放运维联盟高效运维社区DevOps 时代荣誉出品

友情提示

1、下载报告失败解决办法
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。

本文(郭旻欣-江苏电信 IT 运维转型之 SRE 体系建设实践.pdf)为本站 (2200) 主动上传,三个皮匠报告文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三个皮匠报告文库(点击联系客服),我们立即给予删除!

温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。
会员购买
客服

专属顾问

商务合作

机构入驻、侵权投诉、商务合作

服务号

三个皮匠报告官方公众号

回到顶部