上海品茶

您的当前位置:上海品茶 > 报告分类 > PDF报告下载

楼海斌-数字化安全生产平台的思考以及落地.pdf

编号:97663 PDF 15页 10.41MB 下载积分:VIP专享
下载报告请您先登录!

楼海斌-数字化安全生产平台的思考以及落地.pdf

1、数字化安全生产平台的思考以及落地楼海斌(银桑)阿里云云原生高可用技术专家行业背景十四五规划下加速各行业全面加速数字化升级“加速数字化发展:发展数字经济,推动数字产业化和产业数字化,推动数字经济和实体经济深度融合,打造具有国际竞争力的数字产业集群。加强数字社会、数字政府建设,提升公共服务、社会治理等数字化智能化水平”数字政府网上办事大厅、数字防疫金融互联网银行、智能风控医疗健康智慧医疗、全国联保新零售智慧门店、全域营销交通物流智慧收费、出行服务能源水利精准预测、智慧水利生产制造生产调度、工业检测游戏云游戏、AR/VR数字化转型中业务连续性保障的挑战工具分散告警难收敛人员边界模糊架构复杂性缺乏安全

2、意识无应急体系监控报警太多,如何过滤对业务有价值的报警事件,如何有效收敛?1监控工具分散,如何数据共享和统一,实现全景展示、全业务覆盖?2业务架构愈发复杂,敏感程度也变高,如何保障业务稳定性?3复杂业务场景下保障稳定性和连续性的职责边界不清,如何协同?4线上线下故障如何规范化预防和应对,应急流程如何保障顺畅?5故障定级规则不统一,如何追溯与改进?6传统运维手段不足运维手段和工具割裂,无法形成有效的组合拳工具割裂上云/云原生浪潮下,多数运维手段任然停留在基础设施层面而非业务层面面向基础设施,非业务面对越来约复杂的业务架构和越来越快的业务迭代,只能被动运维,难事前有效预防,事中从容应对被动运维缺乏

3、体系化、规范化、可扩展的稳定性保障体系缺乏规范体系阿里巴巴组织-技术-文化三位一体的安全生产体系值班长演练验收容 灾 演 练故 障 演 练预 案 演 练全 链 路 压 测演 练全 链 路 功 能仿 真 演 练组织机制文化全局架构容灾能力发布&变更风险控制异 地 多 活同 城 容 灾灰 度 蓝 绿安 全 生 产 环境运行态稳定性防护限 流降 级流 量调 度弹 性伸 缩开 关预 案运行态稳定性度量压 测故 障注 入变 更 管 控攻 防 演 练依 赖治 理故 障 发 现故 障 应 急根 因 定 位故 障 恢 复故 障 复 盘故 障 数 据 挖 掘工 单 系 统活 动 平 台舆 情 中 心大 促 中

4、控 台数据中心系统数据垂 直 安 全 生 产考 试 认 证伏 波 讲 堂熔 断 机 制变 更 规 范运 维 红 线红 黑 榜 奖 惩安全生产日月集 团 安 全 生 产 门 户应用数据流量数据流程支撑体系稳定性专项故障平台稳定性能力体系业 务 对 账变更数据业务数据故障数据AIOPS智 能决 策专 家系 统A I 算 法数据运营稳 定 性 故 障 分稳 定 性 运 营 报 告运行态状态监控链 路监 控系 统监 控业 务监 控S L A监 控全局风险治理监控覆盖度全 面 灰 度数字化安全生产平台介绍数字化安全生产平台(Digital Production Stability,简称DPS)是一站式的

5、业务连续性保障平台,解决安全生产过程中的组织协同难,应急效率低,业务故障频发,SRE理论落地实施难等问题,提升业务连续性.DPS Scene(业务场景层)DPS Domain(能力领域层)DPS Flow(能力编排层)DPS Solution(行业方案层)DPS SDK(能力扩展层)DPS Product(产品层)故障预防三板斧故障快恢1-5-10故障演练红蓝攻防容量管理大促一体化容错管理韧性评测容灾管理多云多活质效医保数字防疫金融系统上云.业务流程编排用户租户组织业务监控域容灾域快恢域故障域变更域演练域协同域CRD Spec阿里商业阿里开源三方开源业务大屏自定义配置核心特点场景化业务保障流程

6、产品化安全生产解决方案标准化安全生产能力管理数字化安全生产度量1-5-10介绍5分钟故障处置监控发现告警通知人工上报故障确认故障通告故障响应故障定位故障快恢恢复验证1分钟故障发现10分钟故障快恢1分钟故障发现体系建设落地面临问题解决思路核心业务监控大盘监控能力指标风险覆盖率1分钟发现有效率发现漏报率监控系统多样导致数据分散自研监控商业监控开源监控监控指标复杂导致重点缺失网络传输监控(丢包,延迟)服务器系统状态(CPU,load)虚拟机,容器监控应用运行状态(成功率,qps)业务运行状态(订单创建量)用户体验(白屏,内容错误.)人员视角不同导致问题遗漏业务人员关注业务,应用运行运维人员只关注机房

7、监控全局监控大盘核心业务监控-故障关联核心业务监控中心化管控系统监控去中心化监控非核心业务监控-风险预警关联统一收敛查询统一监控系统自研监控商业监控开源监控核心业务监控用户体验业务运行状态指标影响面下跌幅度持续时长错误总量业务故障场景非核心监控业务运行状态指标影响面下跌幅度持续时长错误总量业务风险预警业务故障场景系统监控指标容器虚拟机监控服务器系统状态应用运行状态影响面系统资源水位容量饱和度配置方式系统告警升级配置方式配置方式5分钟故障处置体系建设应急链路角色多缺乏流程驱动研发人员运维人员测试人员怎么组织?谁来响应?谁来处理?谁来监督?业务链路长初因定位难流量问题?网络问题?依赖服务问题?基础

8、设施问题?编码问题?配置变更问题定位能力应急协同能力全局变更诊断IaaS定位SaaS定位PaaS定位发布变更配置变更数据库变更网络宿主机DNS业务日志Trace链路进程信息DB慢SQL缓存热点/未命中中间件多用于初因定位多用于根因定位指标应急5分钟响应率初因5分钟定位率规范应急流程明确角色分工引入技术支持角色(组织,监督)从业务,变更快速初因定位从应用,系统进行根因定位统一定位系统定位结果聚合,快速查询面临问题解决思路落地10分钟故障恢复体系建设面临问题解决思路流量问题?网络问题?依赖服务问题?基础设施问题?编码问题?如何合理使用快恢能力流量问题网络问题依赖服务问题基础设施问题编码问题配置变更

9、问题如何建设快恢能力建设快恢通用能力杜绝快恢一刀切明确快恢执行条件快恢能力的分类快恢能力的时效快恢能力的有效性评估快恢常态化运营落地10分钟快恢达标率快恢能力标准化接入基于故障的快恢能力推荐流量类成功率RT类系统资源类编码/依赖流量/网络中间件容器/资源类型根因切流回滚重启扩容限流隔离回滚扩容隔离扩容降级扩容故障快恢覆盖率快恢能力有效率目标模型定义(部署形态,资源分层)容器化非容器化产品对接云底座ECSKubernetesEDASANSIBLE主机应用服务进程DeploymentPodContainer回滚切流限流降级扩容重启发布隔离能力能力分类分类能力能力实现实现重启举例快恢快恢目标目标数字

10、化安全生产1-5-10落地目标:1分钟发现、5分钟响应、10分钟恢复基础能力业务应用提取关键业务场景故障定级告警指标&规则设计告警规则配置应急场景配置建立全链路监控能力建立全链路问题快速发现能力业务/系统调用链路梳理提取核心应用提取核心接口提取应用部署资源业务层-应用层-数据库层-基础设施层的端到端监控建立故障管理体系梳理技术团队组织架构建立故障应急机制建立各角色SLA建立故障复盘标准度量建立故障快恢能力业务/技术调用链路&快恢能力梳理快恢能力补齐现有快恢能力对接快恢预案统一管理日志采集仪表盘接口黄金指标链路追踪慢SQL/调用异常/错误分析cpu内存磁盘网络JVM日志解析产品线数据采集服务组值

11、班ChatOps业务应用集群宿主机EDAS容器MQ既有监控系统ZabixPrometheus云监控其他重启回滚切流限流扩缩容降级应急场景应急事件故障通告故障定级监控域监控域协同域故障域快恢域监控域数字化安全生产未来展望规划丰富业务场景标准能力合作建设智能化低代码容灾场景三板斧场景不同行业场景.监控能力标准化告警能力标准化变更能力标准化业务流程编排,模块&插件化数仓.THANKS!会议主办方介绍及联系方式“2022 数字化转型发展高峰论坛”由中国信息通信研究院(以下简称“中国信通院”)、中国通信标准化协会联合主办。中国信通院多年来通过政府支撑、标准研究、评估评测等工作持续在数字化转型领域深耕。中国信通院云计算与大数据研究所政企数字化转型部作为高峰论坛的具体组织部门,持续在IOMM企业数字化转型成熟度、数字化可信服务、数字政府等领域开展标准研究和评估推广工作,携手产业各方共同为我国政企数字化转型发展贡献力量!关于2022 数字化转型发展高峰论坛的后续进展请关注左侧公众号,其他事宜可联系:中国信通院 云计算与大数据研究所 政企数字化转型部董恩然:

友情提示

1、下载报告失败解决办法
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。

本文(楼海斌-数字化安全生产平台的思考以及落地.pdf)为本站 (云闲) 主动上传,三个皮匠报告文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三个皮匠报告文库(点击联系客服),我们立即给予删除!

温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。
会员购买
客服

专属顾问

商务合作

机构入驻、侵权投诉、商务合作

服务号

三个皮匠报告官方公众号

回到顶部