上海品茶

您的当前位置:上海品茶 > 报告分类 > PDF报告下载

04华为云海量规模下故障定界实践--吴振华.pdf

编号:122259 PDF 21页 3.46MB 下载积分:VIP专享
下载报告请您先登录!

04华为云海量规模下故障定界实践--吴振华.pdf

1、华为云海量规模下 故障快速定界实践华为云/吴振华目录可观测性的定义与挑战华为云可观测性平台设计华为云故障快速定界实践可观测性未来与展望对于一个软件工程师来讲,写代码最痛苦的事情莫过于coding on legacy,但同时又给了工程师们各种说辞:*这些代码太烂了,改起来太费劲【需要更多人】*这事做不到,因为以前系统架构问题导致的【责任不在我】*经过我的修改,现在已经好很多了,工单数量大批下降【我功劳显著】*问题在于:下一个接手这些“你”改过的代码的人其实也在重复说上述3件事情那么什么时候我们开始讨论需要把现有系统重构:*代码确实腐化到无法正常维护,或者新加一个需求代价很大*目前代码的技术架构满

2、足不了下一步业务的发展*很多特性已经下线作废,却跟有用的代码藕断丝连*业务逻辑随着发展分散到不同的应用里,界限不清*专家级的未雨绸缪,着眼未来的规划和新技术的应用*换老大了,需要立新的flagWorking on legacyWorking on legacy重构的价值重构的价值0000好书推荐好书推荐可观测性的定义与挑战效率要求更高效率要求更高系统更加复杂系统更加复杂环境动态性更强环境动态性更强上下游依赖更多上下游依赖更多开发模式开发模式系统架构系统架构部署模式部署模式基础设施基础设施可观测性为应对复杂的云上环境及分布式系统的复杂性和动态性可观测性为应对复杂的云上环境及分布式系统的复杂性和动

3、态性监控:监控:指标和日志来了解系统的状态 检测已知的故障模式(故障现象)业界主流玩家均积极跟进,已支持或即将支持该开源标准可观测性:可观测性:理解和衡量系统的内部,在由微服务构成复杂的云体系中,轻松快速从故障定位到原因主动发现主动发现排错(Degugging),即运用数据和信息去诊断故障出现的原因;剖析(Profiling),即运用数据和信息进行性能分析;依赖分析(Dependency Analysis),即运用数据信息厘清系统之前的模块,并进行关联分析。仪表盘(监控)仪表盘(监控)设备运行监测(可观测性)设备运行监测(可观测性)数据采集数据采集&接入层:接入层:关注多源数据接入便利性、采集

4、数据全面性和标准化,聚焦构筑无侵入式数据采集、开放式数据接入、标准化数据模型和统一监控元数据能力高维度时序数据实时计算高维度时序数据实时计算&存储层:存储层:高维度时序数据计算、存储、查询的性能和成本数据关联分析层:数据关联分析层:构筑模型化数据关联查询和统计分析能力智能分析层:智能分析层:实时异常检测和智能故障根因分析(AI+规则)数据展示层:数据展示层:按照不同层次模型自定义视图展示能力和监控数据探索能力可观测性平台能力层次模型可观测性平台能力层次模型0101从监控到可观测性从监控到可观测性核酸检测点检测机构疫情防控中心机场火车站餐饮/酒店移动设备密接风险预警数据支付宝/微信检测频率:1天

5、、3天;主动检测:流动性人口卡点;异常症状定义:咳嗽、发烧、呼吸困难发烧定义:37度;隔离措施:个人隔离、小区隔离、封城;风险等级:低风险、中风险、高风险公共场合准入规则:体温、X天绿码、行程码场所所码扫描:确定停滞地点基于定位的行程轨迹体温检测卡场所卡点:体温检测传染范围分析故障发现故障定级WarRoom故障定界故障恢复故障回溯故障改进华为云故障处理流程初步领域切割对比策略:策略:一、保证核酸检测的完整性和关联性;二、优化密接准确性和可操作性;三、降低新冠病毒的重症率和爆炸面;四、管控兼顾成本、民生。0202疫情防控回顾疫情防控回顾影响面分析0303三个问题三个问题个体、简单个体、简单集体、

6、复杂集体、复杂三个三个问题问题如何准确定义个体异常如何准确定义个体异常如何准确定义集体异常如何准确定义集体异常如何快速的发现异常并恢复异常如何快速的发现异常并恢复异常三个挑战三个挑战个体异常的快速发现个体异常的快速发现个体与集体的关联关系个体与集体的关联关系系统全面可观测性的应用系统全面可观测性的应用向后扩散向前溯源华为云可观测性平台设计通过监测软件通过监测软件/硬件运行状态,达到指导技术硬件运行状态,达到指导技术运维和商业运营的目的,即监控运维和商业运营的目的,即监控=监测监测+控制控制监测软件运行数据(可观测性)控制采集计算存储消费分析告警计算极致性能极致性能多维聚合告警多维聚合告警聚合计

7、算实时性能实时性能多维聚合多维聚合扩维计算实时扩维实时扩维标签管理标签管理数据查询分析算子分析算子后置聚合后置聚合定制化消费定制定制ActionAction场景化预置场景化预置亚健康诊断故障预测故障预测异常检测异常检测数据采集采集标准采集标准采集方法采集方法 以运营为目的的监控业务占比不不足足5%5%,结合云成为基础设施的大背景,中小企业上云,有巨大潜在商业价值!以运维为目的的监控业界趋于成熟,资源层、应用层、依赖关系等各项场景化能力建设逐渐完善,并结合AI在探索性进展;监测(可观测性)监测(可观测性)控制(价值目的)控制(价值目的)自动扩容运维控制运营控制容器漂移流量调度购物车放弃率审计预警

8、精准营销 以运维为目的的控制重在保证可靠性可用性,自动化运维,降低资源成本和人力看护成本,提升对于异常情况响应速度;以运营为目的的控制本身在创造利润,基于计算规则产生操作,结合数字化平台DP能力建设实时商业自动运营能力。TracingLoggingMetric运维数据运营数据数据存储存储成本存储成本多级存储多级存储配置版本一致性版本一致性配置即代码配置即代码根因分析依赖链路依赖链路爆炸半径爆炸半径自定义视图健康度大屏健康度大屏服务视角拓扑服务视角拓扑日志转指标实时性能实时性能转义解析转义解析1010华为云监控定义华为云监控定义监控即发现监控即发现监控即定级监控即定级监控即定界监控即定界监控即恢

9、复监控即恢复CloudScopeCloudScope租户监控租户监控CloudScopeCloudScope网络监控网络监控统一的可观测性底座统一的可观测性底座CloudScopeCloudScope全景监控全景监控采集计算存储配置监控告警配置即代码监控告警配置即代码Monitor Alarm As CodeMonitor Alarm As Code基础设施即代码基础设施即代码Infrastructure As CodeInfrastructure As Code指标配置SPI告警配置SPI视图配置SPI指标代码化告警代码化视图代码化可观测性可观测性底座底座全景监控业务底座标准模型标准模型&协

10、议协议Standard Standard Model&ProtocolModel&Protocol日志 log指标 metric调用链 trace通用采集管道通用采集管道Universal collection pipelineUniversal collection pipeline事件 events端侧预聚合标签SDKAPIAGENTScripts根因分析根因分析Root Cause AnalysisRoot Cause Analysis网络拓扑资源拓扑服务拓扑事件/指标/日志/链路时序数据行为分析行为分析BehaviaorBehaviaor Analysis Analysis指标探索异常

11、分析告警计算告警计算Alarm CalculationAlarm Calculation指标计算指标计算Metrics CalculationMetrics Calculation指标流式扩维日志流式转指标指标流式聚合5m/1h/1d空间维度时间维度高阶算子告警汇聚/告警抑制分布式自研引擎指标存储指标存储Metrics StorageMetrics Storage日志存储日志存储Log StorageLog Storage指标日志查询分析指标日志查询分析Metrics StorageMetrics StorageGeminiDBCSS后置聚合四大领域模型四大领域模型指标领域模型Metrics

12、Domain日志领域模型Logs Domain调用链领域模型Traces Domain告警领域模型Alarm Domain可观测性可观测性模型模型分析面向业务本质建立稳定的模型标准,兼容opentelemetry开源生态可观测性可观测性场景化场景化租户资源监控业务底座网络监控业务底座站点监控主机监控容器监控全局预警Resource FormationGeminiDBCSSMRS云服务云服务Service On Service 基于弹性伸缩、故障隔离的云服务构建告警汇聚SLO链路监控监控告警指标告警租户实例监控站点监控服务监控多生态接入监控定制大屏自定义看板路由监控黑盒拨测监控网络硬件监控Int

13、ernet质量监控监控告警网络诊断流监控数据报表网络拓扑场景化的监控平台能力DII MaasDWS三方接入三方接入Open AccessOpen AccessOpentelemetry开放式SPI查询分析服务化服务化聚焦根技术聚焦根技术灵活编排灵活编排稳定开放稳定开放1111华为云可观测性平台华为云可观测性平台华为云快速定界实践2121问题定义:指标、症状、生病问题定义:指标、症状、生病/故障故障CPU90%CPU90%MEM70%MEM70%80DISK8080DISK80体温体温3737是否咳嗽是否咳嗽是否流鼻涕是否流鼻涕个体、简单个体、简单集体、复杂集体、复杂指标指标症状症状生病生病指标

14、指标症状症状系统指标系统指标血压血压120/80mmHg120/80mmHg血压血压120/80mmHg120/80mmHg确诊新冠确诊新冠接口响应时长接口响应时长接口吞吐量接口吞吐量确定服务不可用确定服务不可用故障故障对外可见对外可见对客户可见对客户可见对象的定义是面向场景的相对关系集群是个体对象的聚合新对象12340基于单节点异常后聚合的集群异常节点ACPU90%阈值水位CPU90%阈值水位节点B节点C节点A异常节点B异常节点C异常CPU90%阈值水位北京四Region三个节点异常聚合定义集群异常三个节点异常聚合定义集群异常1240多节点实时聚合的集群异常节点ACPU90%阈值水位CPU9

15、0%阈值水位节点B节点C节点A异常节点B异常节点C异常CPU90%阈值水位北京四Region3同一窗口三个节点指标异常定义集群异同一窗口三个节点指标异常定义集群异常常相同采集周期下(采集频率即成本)实时空间聚合在集群异常问题发现比基于异常节点异常数据后再聚合快2分钟降噪方法:多个数据异常定义为异常多个数据异常定义为异常时间窗和连续点关于3 3个异常点个异常点检测对比分钟时间窗首次告警命中绿色三个点连续3次首次告警命中红色三个点CPU90%阈值水位节点A1234567890单次阈值冲高通常采取降噪采取降噪不做告警CPU90%阈值水位节点A时间窗比连续次数统计在抖动阶段即可发

16、现问题快整个抖动时间2222如何准确有效的发现症状如何准确有效的发现症状物理机1网络拓扑+跟踪VM1Service A网络1物理机2Service B网络2VM2VM3VM4物理机3Service C网络3VM5VM6资源依赖+时间窗告警变更告警告警告警告警重启服务依赖+服务Trace指标+租户标签过滤日志指标日志指标日志指标事件时间维度生长逐步生长的时空多维因果要素图谱因果要素图谱生成器对象链构建图谱生成数据收集根因分析引擎场景化决策模型软件故障环境故障硬件故障网络故障通用因果知识专有因果知识智能分析模型告警指标探索图谱式探索HWQL探索新增指标及因果知识迭代识别统一数据源指标链路日志数据关

17、联模型统一事件中心统一事件中心租户/服务/硬件/网络异常、变更等事件CloudMapCloudMap服务依赖、资源依赖、网络依赖事件事件事件告警告警影响分析1234云服务订阅SLI/SLOSLI/SLO告警或事件告警或事件2323如何基于症状快速定位根因如何基于症状快速定位根因1分钟发现5分钟定界10分钟自愈属性(指标)对象边-关系时间流隐患对象故障对象故障影响关系A A应用应用B B应用应用C C应用应用提前告警告警即定界5分钟恢复提前告警容灾预案免受影响告警告警1 1分钟发分钟发现现基于依赖预警基于依赖预警基于多维指标快速定界基于多维指标快速定界基于依赖快速定界基于依赖快速定界容灾预案启动

18、容灾预案启动自愈自愈/手动恢复手动恢复2424如何基于病况预防关系方的影响如何基于病况预防关系方的影响2525华为云海量实例下立体依赖网中快速定界实践案例华为云海量实例下立体依赖网中快速定界实践案例redis.clients.jedis.exceptions.JedisConnectionException:*CES AgentAppCES租户租户ECSECSAOM AgentRedis实例1RedisRedis节点节点AOM AgentRedis实例3RedisRedis节点节点AOM AgentRedis实例4RedisRedis节点节点DCN1DCN1DCN2DCN2AOM AgentR

19、edis实例2RedisRedis节点节点AOM AgentRedis主RedisRedis节点节点AOM AgentRedis备RedisRedis节点节点硬件监控物理机物理机硬件监控物理机物理机AOM AgentRedis主RedisRedis节点节点硬件监控物理机物理机CARECS HAECS HAAOMCMCredis.clients.jedis.exceptions.JedisConnectionException:*CES AgentApp租户租户ECSECS机房间网机房间网络异常络异常节点节点HAHA客户端读客户端读写异常写异常客户端读客户端读写异常写异常主备切换主备切换流量下跌

20、流量下跌硬件硬件告警告警变更事件流量下跌流量下跌EventDBEventDB客户侧客户侧华为侧华为侧MNEtCMSSMARTIT硬盘损坏硬盘损坏CLS可观测性未来与展望理论理论监控对监控对象象微服务监控方监控方法法链路分析全局视图单机服务集群服务ServerLess微服务微服务ServiceMesh?多端采集根因定界根因定位单指标告警故障预判流量预测采集智能化行为分析自我保护聚合分析多指标告警日志分析调用链异常检测资源监控应用监控软件行业的发展集群单体系统云计算1.0云原生不确定单点监控一体化监控可观测性智能化智能阈值标准化采集监控理论的演进亚健康诊断个人感冒:单一故障感知流行性感冒:集体故障

21、感知新冠疫情防控:集群细粒度溯源&影响?故障发现故障定界故障恢复变更风险容量规划SRE故障定位性能优化架构依赖DEV问题定位监控设计开发&测试环境灰度&现网环境发发布布软件生命周期软件生命周期前提增强角色角色角色场景角色场景监控场景监控场景BOSS/CXO业务方向决策,绩效评估等大屏,报表报表,决策决策,报警运维值班,日常变更,问题解决,风险评估,例行演练大屏大屏,值班值班,变更变更性能数据对比,安全安全风控,故障定位与解决故障定位与解决,故障演练,报表,报警报警产品经理/运营产品/工具的交付上线和运营产品体验产品体验,活动效果对比活动效果对比,报表研发产品交付上线,软件生命周期端到端,功能性

22、能持续优化大屏大屏,值班值班,性能调优性能调优,故障定位故障定位与解决与解决,产品体验产品体验,报警报警测试测试全流程活动,故障模拟演练性能调优性能调优,故障复盘,产品体验安全安全全流程活动,安全攻防演练安全风控安全风控,安全变更变更对比,攻防演练,报警3030监控发展历程监控发展历程3131面向目的可观测性能力探索面向目的可观测性能力探索通过监测软件通过监测软件/硬件运行状态,达到指导技术硬件运行状态,达到指导技术运维和商业运营的目的,即监控运维和商业运营的目的,即监控=监测监测+控制控制监测软件运行数据(可观测性)控制采集计算存储消费分析告警计算极致性能极致性能多维聚合告警多维聚合告警聚合

23、计算实时性能实时性能多维聚合多维聚合扩维计算实时扩维实时扩维标签管理标签管理数据查询分析算子分析算子后置聚合后置聚合定制化消费定制定制ActionAction场景化预置场景化预置亚健康诊断故障预测故障预测异常检测异常检测数据采集采集标准采集标准采集方法采集方法 以运营为目的的监控业务占比不不足足5%5%,结合云成为基础设施的大背景,中小企业上云,有巨大潜在商业价值!以运维为目的的监控业界趋于成熟,资源层、应用层、依赖关系等各项场景化能力建设逐渐完善,并结合AI在探索性进展;监测(可观测性)监测(可观测性)控制(价值目的)控制(价值目的)自动扩容运维控制运营控制容器漂移流量调度购物车放弃率审计预警精准营销 以运维为目的的控制重在保证可靠性可用性,自动化运维,降低资源成本和人力看护成本,提升对于异常情况响应速度;以运营为目的的控制本身在创造利润,基于计算规则产生操作,结合数字化平台DP能力建设实时商业自动运营能力。TracingLoggingMetric运维数据运营数据数据存储存储成本存储成本多级存储多级存储配置版本一致性版本一致性配置即代码配置即代码根因分析依赖链路依赖链路爆炸半径爆炸半径自定义视图健康度大屏健康度大屏服务视角拓扑服务视角拓扑日志转指标实时性能实时性能转义解析转义解析

友情提示

1、下载报告失败解决办法
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。

本文(04华为云海量规模下故障定界实践--吴振华.pdf)为本站 (2200) 主动上传,三个皮匠报告文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三个皮匠报告文库(点击联系客服),我们立即给予删除!

温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。
会员购买
客服

专属顾问

商务合作

机构入驻、侵权投诉、商务合作

服务号

三个皮匠报告官方公众号

回到顶部