上海品茶

您的当前位置:上海品茶 > 报告分类 > PDF报告下载

杨德华-安全生产治理核心要素:管理、运营案例解读.pdf

编号:97667 PDF 42页 5.60MB 下载积分:VIP专享
下载报告请您先登录!

杨德华-安全生产治理核心要素:管理、运营案例解读.pdf

1、安全生产治理核心要素:管理、运营实践案例解读杨德华 数列科技 联合创始人、解决方案负责人数列科技这家公司是干啥的?和大家有啥关系?快递物流运营商相关其他行业Takin开源社区用户2021年6月30日开源https:/ 数字化时代特点:快 市场剧烈变化 7x24小时的服务 更短的产品生命周期 更多的定制化服务 产品发布周期(TTM)更短 VUCA新产品、新业务玩法的创新速度成为企业增长的动力而云原生、微服务架构的引入,有助于提升企业创新速度201520193C数码每年上新1次每年上新2次以上美妆每半年-1年上新每月上一款旗舰新品个护18-24个月9个月家用电器2-3年发布一款新品每年两次新品迭代

2、服装服饰每季度或每半年每周-每个月都有新款天猫新品发布频率上新周期上新周期品牌品牌周期上新总数周期上新总数每日上新每季上新每周上新2次SHEIN周49196件Zaful周431件H&M秋季 1687件Zara年 12000件1.2 分布式、云原生架构的优缺点Pizza team研发测试产品运营设计优点缺点敏捷型产品团队:方便加人、分工碎片化发版,快速响应需求系统复杂链路长,一个按钮横跨了一个按钮横跨了50个团队个团队故障排查,涉及角色多,上下游协同效率不高1.3 系统一分钟不可用,对企业的影响估算Gartner:Downtime can cost small businesses$423 pe

3、r minute,whereas large organizations can lose over$9,000 per minute.企业企业损失损失影响影响天猫2012年双十一超卖数十亿元研发、测试、运维团队数百人排查问题;对商家的影响;某物流上市公司 2017年双十一,OMS崩溃2小时数亿元订单进不来,造成人员闲置,资源浪费目录:今天要分享什么内容?1.背景数字化时代特点、微服务架构优劣点、系统不可用对企业的影响2.安全生产两个实践案例的效果对比3.安全生产治理概念和要素理解4.安全生产总体治理框架、参考框架、落地步骤2.1 案例一:顺丰+Takin 2021双十一生产环境全链路压测效果

4、稳定性演练方式双十一前提前发现问题价值总结优化分类优化分类统计统计程序优化180配置优化110资源扩缩84问题总计374问题分类统计Java应用171MySQL26Redis16ES10Flink10TiDB6生产环境,同时发起40万QPS(流量引擎 4c6g的700+个pod)业务连续性保障双十一0故障374个具体问题驱动,高效组织、沟通、执行、反馈机制容量可信,平稳支撑2.5倍揽收件量,2.2倍派件量生产环境核心系统_330_个服务、6400个agent 运行8、9、10月持续3个月压测,大规模压测次数达20次2.2顺丰快递+Takin:生产环境全链路压测10Step 1:全链路全流量线上

5、压测Step 2:根据压力表现进行调优Step 3:分流与限流Step 4:容灾降级完善监控四步保障2.3顺丰、B企业 生产环境全链路压测效果对比0500300350400对比情况AB对比项顺丰B差距组织管理运营方式自上而下,高层负责性能部门推动IT人员数量35001500同时压测系统56318.6倍同时被压服务数330566倍线上Agent个数(千)6.40.321.3倍同时发起的压测流量(万)400.2200倍双十一前发现的问题数374574.8倍大规模压测次数30310倍同样的生产环境全链路压测产品(Takin)同样的实施团队-数列科技2.4 顺丰、B企业的管理、组

6、织方式对比案例之顺丰,技术高管负责案例之B企业,性能部门负责目录:今天要分享什么内容?1.背景数字化时代特点、微服务架构优劣点、系统不可用对企业的影响2.安全生产两个实践案例的效果对比3.安全生产治理概念和要素理解4.安全生产总体治理框架、参考框架、落地步骤3.1数字化业务安全生产治理概念内涵理解狭义:单个组织内部在组织安全生产战略的指导下,为确保系统处于稳定性运行的状态,多个部门协作实施的一系列活动集合。建立组织安全生产治理团队制定相关制度规范标准构建安全生产技术体系建设安全生产人才梯队培养相关人员安全生产能力广义:全社会完善相关政策法规推动政策法规落地建设与实施标准体系研发并应用关键技术培

7、养专业人才发展数字经济,必须把数字化业务安全生产、保障业务连续性放在突出位置。需着力解决安全生产领域的突出问题,有效提升安全生产治理能力在组织安全生产战略的指导下,为确保系统处于稳定性运行的状态,多个部门协作实施的一系列活动集合。安全生产治理是国家有关部门、行业组织、科研机构、企业、个人共同参与和实施的一系列活动集合。3.2 云原生、微服务架构数字化系统的安全生产难题用户视角85%的故障靠用户反馈或者投诉运维部门视角1.业务服务于用户和客户,但是保障体系服务于应用和组件2.接受的告警数量很多,准确率很低3.告警配置的覆盖率很低4.发布频次提升,告警配置的维护成本很高5.APM产品采用率不高,对

8、应用性能影响10%以上,数据存储成本高研发视角1.做一次发布,很容易出问题,运维给了很多检查项,要看很多监控。2.排查问题的数据分散、缺失,获取数据验证的成本高客服、业务部门视角异常定位的效率特别低,协同的人员多,时间长技术高管视角1.如何高效保障数字化系统平稳运行?3.4 复杂数字化系统各阶段面临的实际异常阶段阶段问题案例问题案例设计阶段单点故障;负载不均;事后监控;不可回滚;不可降级;缺乏隔离;滥用日志策略;缺乏自我保护;缓存设计不当;容量评估不准;耦合过重;滥用同步;非幂等;对失败考虑不充分;数据库索引不合理;数据库表结构设计不合理;误用数据库limit查询;小表随意执行truncate

9、 table;一次性批量delete数据编码阶段集合排序异常;程序流程控制异常;高并发下的单例对象异常;高并发下的ThreadLocal异常;异常捕获处理出错;高并发下的HashMap异常;参数检查不严谨;不合理的参数配置;版本依赖问题;字符防乱码;不限制集合的大小;测试阶段测试链路不完全;测试引发性能问题;测试引发数据污染;未进行测试基线;发布阶段无灰度流程;错误灰度方案;未经测试上线;无回滚方案;回滚方案未验证;未评估影响范围;变更域变更没有记录;变更不可管控;变更数据没有格式化;版本不一致;业务高峰期进行数据库变更;监控报警域监控误报;指标采集不标准;基础设施产品未关注业务可用性;监控失

10、效;监控配置不合理;关键报警无人处理;缺乏分维度大盘;变更不关注业务监控;应急阶段故障发现时间过长;故障相关人员协同时间过长;故障定位慢;恢复久。重大活动传统的容量评估方式难以评估线上复杂微服务的真实容量。容量评估不准、仿真压测不真实、限流不起作用、预案未经有效检验。设计编码测试发布变更监控应急重保左移右移单点故障;负载不均;事后监控;不可回滚;不可降级;缺乏隔离;滥用日志策略;缺乏自我保护;缓存设计不当;容量评估不准;耦合过重;滥用同步;非幂等;对失败考虑不充分;数据库索引不合理;数据库表结构设计不合理;误用数据库limit查询;小表随意执行truncate table;一次性批量delet

11、e数据3.4.1 研发全生命周期视角3.4.1 研发全生命周期视角左移右移集合排序异常;程序流程控制异常;高并发下的单例对象异常;高并发下的ThreadLocal异常;异常捕获处理出错;高并发下的HashMap异常;参数检查不严谨;不合理的参数配置;版本依赖问题;字符防乱码;不限制集合的大小;设计编码测试发布变更监控应急重保3.4.1 研发全生命周期视角左移右移测试链路不完全;测试引发性能问题;测试引发数据污染;未进行测试基线;设计编码测试发布变更监控应急重保设计编码测试发布变更监控应急重保3.4.1 研发全生命周期视角左移右移无灰度流程;错误灰度方案;未经测试上线;无回滚方案;回滚方案未验证

12、;未评估影响范围;设计编码测试发布变更监控应急重保3.4.1 研发全生命周期视角左移右移变更没有记录;变更不可管控;变更数据没有格式化;版本不一致;业务高峰期进行数据库变更;设计编码测试发布变更监控应急重保3.4.1 研发全生命周期视角左移右移监控误报;指标采集不标准;基础设施产品未关注业务可用性;监控失效;监控配置不合理;关键报警无人处理;缺乏分维度大盘;变更不关注业务监控;故障发现-通告时长:超过5分钟完成。从接收到异常信息,经过降噪-收敛-判断-通告发送-故障处理子流程等步骤,若这部分工作全部由监控人员人肉完成,以监控报警来源的异常为例,P1P2故障,从监控报警-降噪-收敛-判断-通告发

13、送,至少要在5分钟内完成;设计编码测试发布变更监控应急重保3.4.1 研发全生命周期视角左移右移分类分类总结总结描述描述故障相关人员上线时长超过5分钟完成当业务出现故障,从故障通告到相关人员上线处理的时间消耗。微服务架构下,依赖关系复杂,有可能是下游一个操作,影响了上上游的正常请求。大部分企业的人员上线,依赖临时拉群。主要靠人肉。拉通相关人员进群,至少需要5分钟。故障定位时长超过30分钟涉及人员多。从故障发出通告,相关的人进来,弄清楚故障上下文,排查引发问题的原因等都需要消耗时间。主要靠人肉故障处理时长超过40分钟定位到故障原因后,主要靠人肉。设计编码测试发布变更监控应急重保3.4.1 研发全

14、生命周期视角左移右移传统的容量评估方式难以评估线上复杂微服务的真实容量。接口调优慢接口慢SQL内存泄漏GC问题DB线程数三方插件问题最大连接数限制线性扩容问题配置优化环境问题安全瓶颈网络配置优化系统及混合云间延迟系统间依赖影响BGP接入网络带宽负载均衡问题CDN层面问题DNS问题应用防火墙问题基础设置瓶颈容量预估问题中间件瓶颈业务性能配比测试环境预发(仿真)环境生产环境开发&测调开发&部署网络&运维能力目录:今天要分享什么内容?1.背景数字化时代特点、微服务架构优劣点、系统不可用对企业的影响2.安全生产两个实践案例的效果对比3.安全生产治理概念和要素理解4.安全生产总体治理框架、参考框架、落地

15、步骤3.5 安全生产应该怎样有效抓起来?3.6 安全生产应该怎样有效抓起来?4.1 安全生产(稳定性保障和提升)总体视图数字化系统安全生产治理目标(如 0-N-1-5-10)降低重大故障数量提前发现风险快速发现故障快速定位故障快速解决故障安全生产治理步骤1.规划现状分析现状风险分析行业实践对比方案规划组织架构制度流程技术工具人员能力方案论证可行性安全性可持续性2.建设组织架构体系建设制度流程体系建设技术工具体系建设安全运营体系建设3.验收风险防范风险防范策略制定风险评估风险整改应急处理应急处理应急处置复盘整改宣贯宣导4.评估内部评估评估自查应急演练对抗模拟第三方评估安全生产管理保障能力评估风险

16、预防风险预防演练验收性能压测流量防护预案保鲜多活建设满足业务发展风险管理成本与效率并重安全生产能力建设参考框架安全生产战略软件研发全生命周期安全生产风险治理安全生产基础4.2 安全生产能力建设参考框架业务需求,先进实践系统研发生命周期安全生产风险治理需求设计编码测试发布监控应急重保安全生产新型基础能力用户旅程分级分类快速感知实时监测超前预警技术工具分类分级风险洞察风险预防快速发现快速定位快速恢复运营体系制度规范运营集训营安全生产评分风险持续治理人员培训人员考核宣传制度流程方针总纲管理制度流程规范计划报告管理办法组织建设决策层(高管、首席技术官)管理层(安全生产管理团队)执行层(运营、技术团队)

17、监督层(审计)记录日志指南模板人员能力管理能力运营能力合规能力快速应急处置快速复盘优化技术能力4.3 数字化系统安全生产战略从组织的顶层规划方面提出要求,为稳定性保障治理体系的建设定目标、建团队。安全生产(稳定性保障)治理规划关注组织在安全生产治理方面的发展规划情况目标及任务团队分工及考核组织管理关注组织安全生产治理的团队建设、以及相关岗位的安全生产管理规范团队及人员构成人员生产安全管理4.4系统研发全生命周期稳定性保障治理以系统需求、设计、编码、测试、发布、变更、监控、应急、重保各个环节为切入点,设置相应的安全生产风险管控点和管理运营流程,对系统需求全流转过程进行规范和约束。业务需求阶段考虑

18、安全生产风险,主要是做两个方面:一 是 业务 需 求过滤(价值判断),二 是 需求 模 型简化确定编程语言,数据库,系统拆分,以及系统之间的关联作用,最终提供完整的业务能力制定规范来保障细节的可控与标准化,来确保系统微观层面的稳定性侧重自动化程度的提升,同时场景上对于性能和可靠性重点关注结合大量实践案例,不少故障是因为发布直接或间接引起。提升发布的质量,减少错误的发生,是有效减少线上故障的一个关键环节。无数实践总结出来的经验,需要坚守变更风控的三大原则:可观测可灰度可回滚优秀的监控解决方案,需要同时关注质量、成本、效率,以期在实践过起到符合预期的效果。明确故障等级定义(即结构化的应急场景)、并

19、且基于应急场景实现:快 速 发现(如1分 钟 内)快 速 定位(如5分钟)快 速 恢复(如10 分 钟)根据活动目标、风险等情况,在筹备与进行过程中提供保障方案,管理技术相关问题与风险,以助力技术达成目标、规避或最小化故障影响,保障业务与系统稳定运行需求设计编码测试发布变更监控应急重保4.5稳定性保障和提升 行业最佳实践能力以系统需求、设计、编码、测试、发布、变更、监控、应急、重保各个环节为切入点,设置相应的安全生产风险管控点和管理运营流程,对系统需求全流转过程进行规范和约束。需求设计编码测试发布变更监控应急演练重保封网值班应急生 产 环 境 全链 路 压 测 验收故障演练异常问题:1分钟内发

20、现5分钟内定位10分钟内恢复监控质量监控成本监控效率用户旅程业务指标健康接口巡检规范可观测可灰度可回滚隔离录制回放灰度分批发布规范逐步右移线下故障演练精细化灰度性能基线编码规范演练验收CR评审面向失败设计设计规范约定SLA、SLO4.6安全生产治理实践步骤:1.治理规划在组织启动稳定性保障治理工作前,必须制定相应的规划,明确治理目标和具体任务,匹配对应的资源,使得治理工作能够有条不紊的展开。现状分析 现状风险分析:结合业务发展需求,梳理风险清单,提炼安全生产建设要点 行业最佳实践对比:现状梳理,明确差距、找到问题。方案规划方案论证 可行性分析:投入 vs 产出 可靠性分析:方案本身的可靠性 可

21、持续性分析:发展兼容组织机构建设制度流程建设技术工具建设人员能力建设达成第三年稳定性目标0重大故障1分钟发现问题5分钟定位10分钟恢复围绕核心业务链路CUJ注册登录绑号查账缴费等组织能力技术能力运营能力达成第一年稳定性目标_重大故障_分钟发现问题_分钟定位_分钟恢复达成第二年稳定性目标_重大故障_分钟发现问题_分钟定位_分钟恢复结合企业实际情况构建、提升三大安全生产核心能力4.6-2 围绕目标,结合核心业务链路,打造三大能力4.7安全生产治理实践步骤:2.治理建设-组织架构体系明晰的组织体系是保障安全生产工作顺利开展的首要条件。决策层管理层执行层监督层反馈审计配合决策、授权汇报指导、监督汇报审

22、计配合安全生产领导小组:“一号位负责制”高层管理者业务部门领导技术部门领导等安全生产管理团队:由领导小组指派高层领导者安全生产执行团队各业务研发部门与产品人员运维、测试等人员安全生产监督团队GOC、技术支持、安全生产运营团队人员4.8安全生产治理实践步骤:3.治理建设-制度流程体系制度流程作为安全生产生产治理要求、管理策略、操作规程等的集合一级:方针政策二级:管理规定三级:操作手册四级:各类表单制度层级层级作用制度示例面向组织层面,规定安全生产治理的方针和总则安全生产机制规范管理制度将一级制度的总体规划、落实为相应的安全生产管理制度和办法,用以指导各阶段安全生产建设故障及应急管理规定变更管理规

23、定安全生产度量管理规定风险管理规定演练管理规定公告管理规定将二级制度的各项管理办法,以操作流程或执行指南等细则方式展现,保障执行的一致性生产环境全链路压测&演练标准突袭演练标准规范变更系统接入标准规范按照三级制度执行过程中,产生的各类报表、记录、报告等文件P1P2核心用户旅程清单业务系统打日志模板变更申请表4.9安全生产治理实践步骤:4.治理建设-技术工具体系规划(目标)管理人员管理/考核安全生产战略系统研发全生命周期安全生产治理需求需求过滤模型简化设计面向失败设计关注细节编码编码规范规范落实与标准测试自动化关注性能关注可靠性发布金丝雀滚动发布蓝绿发布变更可灰度可观测可回滚应急1分钟发现5分钟

24、定位10分钟恢复重保压测验收封网值班盯盘基础能力用户旅程分级分类快速感知实时监测超前预警快速应急处置快速复盘优化4.10面向目标和风险的安全生产保障:风险测量、分析、改进的实现设计阶段设计阶段编码阶段编码阶段测试阶段测试阶段发布、变更阶段发布、变更阶段线上运维阶段线上运维阶段重大活动阶段重大活动阶段设计风险模型编码风险模型测试风险模型发布、变更风险模型运维风险模型活动保障风险模型数据采集模型匹配评分机制风险趋势红黑榜风险整改逾期通报最佳实践知识库运营机制流程标准(控制)风险消除跟进发布流程管控基线回归改造新一轮迭代改进排期4.11风险提醒、推动改进、峰值流量验证4.12安全生产治理实践步骤:5

25、.治理建设-人员能力体系安全生产治理离不开相应人员的具体执行,加强对安全生产人才的培养是安全生产治理的重要支撑。问题触发式培训培训不深入课题体系不成熟讲师水平参差不齐考核不规范安全生产意识培养结合实际场景,定期推送知识要点,培养全员安全生产意识宣传视频宣传海报宣传手册安全生产能力培训利用线上平台+线下授课的方式,定期进行培训专题学习线上直播线下讲坛通过安全生产攻防对抗等实战演练,进行动态培训攻防演练红蓝对抗安全生产能力考核建设考核平台,用于考察员工的安全意识和安全能力入职/晋升考核日常测验专项考试4.13 安全生产治理实践步骤:6.治理运营安全生产治理的持续运营,能够打通各环节的建设内容,促进

26、整个体系的良性发展。风险防范安全生产策略制定通用场景+个性场景安全生产基线扫描基线梳理及落实定期扫描安全生产风险评估监控预警通过监控审计平台,及时告警并初步阻断态势监控针对核心用户旅程、应急场景、应急预案保鲜等进行日常巡检并审计日常审计以核心用户旅程为审计对象,定期开展专项安全生产审计工作专项审计应急处理安全生产事件应急处理安全生产事件复盘整改事件分析应急总结预案完善安全生产事件应急预案宣贯宣导4.17安全生产治理实践步骤:7.治理成效评估安全生产治理是一个持续性过程,成效评估是考核组织安全生产治理能力的重要环节,其结果也是新一轮安全生产治理的改进依据。内部评估应由组织管理层牵头,执行层和监督

27、层配合执行。应将评估结果与组织的绩效考核挂钩,避免评估流于形式内部评估评估自查应急演练对抗模拟第三方评估信通院等专业机构开展安全生产相关评估工作对比标准、现状,找出差距安全生产(稳定性保障和提升)总体视图数字化系统安全生产治理目标(如 0-N-1-5-10)降低重大故障数量提前发现风险快速发现故障快速定位故障快速解决故障安全生产治理步骤1.规划现状分析现状风险分析行业实践对比方案规划组织架构制度流程技术工具人员能力方案论证可行性安全性可持续性2.建设组织架构体系建设制度流程体系建设技术工具体系建设安全运营体系建设3.验收风险防范风险防范策略制定风险评估风险整改应急处理应急处理应急处置复盘整改宣贯宣导4.评估内部评估评估自查应急演练对抗模拟第三方评估安全生产管理保障能力评估风险预防风险预防演练验收性能压测流量防护预案保鲜多活建设满足业务发展风险管理成本与效率并重安全生产能力建设参考框架安全生产战略软件研发全生命周期安全生产风险治理安全生产基础

友情提示

1、下载报告失败解决办法
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。

本文(杨德华-安全生产治理核心要素:管理、运营案例解读.pdf)为本站 (云闲) 主动上传,三个皮匠报告文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三个皮匠报告文库(点击联系客服),我们立即给予删除!

温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。
会员购买
客服

专属顾问

商务合作

机构入驻、侵权投诉、商务合作

服务号

三个皮匠报告官方公众号

回到顶部