《朱祥磊-云原生时代全局业务端到端监控平台实战.pdf》由会员分享,可在线阅读,更多相关《朱祥磊-云原生时代全局业务端到端监控平台实战.pdf(36页珍藏版)》请在三个皮匠报告上搜索。
1、2023 DevOps 国际峰会 暨 BizDevOps 企业峰会 北京站全局业务端到端监控平台研究和实践朱祥磊 山东移动高级专家具备20+年的IT相关工作经验,曾获“山东省创新能手”、“最美移动人”、“中国移动工匠”、“中国移动科技标兵”等称号,在IT系统架构规划、业务连续性保障、自动化智能化运维、云计算、大数据等方面具备丰富的经验。01业务现状与背景山东移动云转型后运维面临的挑战02云境基础能力云境平台构建的基础能力03云境应用场景基于基础能力和数据支撑运维场景04成效实现高效端到端运维能力目录Content01业务现状和背景2023 DevOps 国际峰会 暨 BizDevOps 企业峰
2、会 北京站系统复杂度提升,传统监控手段捉襟见肘伴随着山东移动微服务化、云原生化的推动,整体系统复杂度提升,基础设施变成了一个黑盒,服务调用和依赖关系也越来越复杂。云原生的架构对山东移动传统架构提出两大挑战:一是定位难,系统出现告警后,很难定位到根因;二是解决难,问题出现后很难发现,解决过程变得更长。系统规模01基础设施层更加黑盒随着应用向云原生架构演进,容器、微服务等云原生技术得到广泛应用,开发团队开始更加注重业务逻辑,无需关心基础设施的细节。然后,这导致开发团队和运维团队对基础设施关注度降低,基础设施变得更加难以理解和掌控。系统复杂性02服务调用和依赖关系更加复杂云原生化之后系统服务数量开始
3、增加,应用之间的调用再也不是单一服务对单一服务,拓扑调用和依赖关系变得越来越复杂,链路也越来越长。导致开发和运维难以全面把握系统的整体状况,阻碍了对系统的整体了解。简单单体架构垂直分层架构SOA架构微服务架构容器化微服务架构2023 DevOps 国际峰会 暨 BizDevOps 企业峰会 北京站云原生带来的观测种类变化,对监控提出更高的要求在经历云原生化后的山东移动,监控对象从小机、服务器、存储、虚拟化变为服务器、存储、虚拟机、容器。同时随着数字化转型,手机端、PC端、智能终端也导致监控对象增多。这一系列变化代表着我们对于系统监控范围正在急速扩大,要求也在逐步的提高。监测对象类型监测对象种类
4、物理机物理机物理机云服务器云服务器云服务器容器容器容器容器服务器数据库网络设备中间件中间件中间件终端终端终端终端2023 DevOps 国际峰会 暨 BizDevOps 企业峰会 北京站DevOps对业务稳定性带来的冲击敏捷开发、DevOps、BizDevOps、DevSecOps等开发运维理念的涌现和转变,持续集成、持续部署等工作流和工具结合,缩短发布周期,做到核心系统不停机发版。随之带来的各类依赖关系和代码追踪的问题,开发者和运维人员对系统掌控度的可观测性,成为保障系统稳定性的重要因素。迭代前迭代中迭代后敏捷开发、DevOps、BizDevOps、DevSecOps等一系列技术理念的广泛推
5、广下,山东移动软件迭代周期由XX天缩短到了X天,且要求开发人员可以随时随地的发版本。这也导致对系统稳定性提出更大的挑战。迭代周期迅速缩短 强弱依赖动态梳理 应急预案与机制 告警响应 代码可追踪 定期复盘 经验沉淀 2023 DevOps 国际峰会 暨 BizDevOps 企业峰会 北京站用户体验带来的稳定性挑战数字化时代用户大量使用IT来解决问题,基于用户体验的2-5-8原则,加载时间每多1秒,就会流失7%的用户,加载卡顿或者显示错误的高频次发生,极大影响业务的发展和客户体验,因此需要进一步保障系统的稳定性,提升客户满意度。业务系统稳定运行,系统无报错01客户感知网/小程序/APP加载故障,或
6、者因为兼容性使用感受不佳02客户流失客户中断此次使用行为或使用其他同类型产品代替04前端团队充满疑问,无法复现和定位问题03业务表现累积下来,波动影响的客户最终流失并影响业务表现0502云境基础能力2023 DevOps 国际峰会 暨 BizDevOps 企业峰会 北京站基于业务端到端可观测性方案整体建设思路根据现阶段存在的问题,构建相应的应当措施。整体思路如下:1.对现有的Skywalking、Dynatrace、Xtrace工具能力进行针对性整合综合互补端到端监控可视化能力,提升业务端到端监控能力的易用性和落地展示效果。2.拉通metric、log、tracing(对应cmdb监控、日志、
7、调用链等)三类数据,提供对Iaas、Paas、Saas层横向端到端、纵向端到端以及以业务为视角聚焦串联Iaas、Paas、Saas三层关系的业务端到端运维能力。3.结合AI能力(根因定位、异常检测),提供实时业务调用拓扑,助力故障定位、根因分析等智慧运维场景。故障预测、异常检测根因分析、故障定界AI赋能,构建智能运维场景AI赋能智慧运维IaaS、PaaS、SaaS横向端到端业务、系统、租户纵向端到端metric、log、tracing数据融合,构建多视角端到端分析能力数据融合拉通多视角端到端呈现业务SLO:(业务办理量、业务积压量等)系统SLO:(接口成功率、时延和TPS等)组件SLO:(缓存
8、、容器、存储、数据库等)识别关键Metrics,分层设定SLO快速感知问题发生补齐监控短板321AI赋能2023 DevOps 国际峰会 暨 BizDevOps 企业峰会 北京站业务端到端可观测性方案功能架构(云境)IaaS监控网络性能主机性能存储性能基础架性数据K8S集群工作负载容器网络容器状态容器层性数据消息队列数据库分布式追踪全局拓扑应用及应用组件性数据卡顿率请求响应时间访问错误率崩溃率用户体验性数据业务应用流程分析PaaS组件分析资源池分析系统调用链分析横向端到端可观测性场景业务视角分析系统视角分析租户视角分析纵向端到端可观测性场景全局观察性场景业务全景视图动化执件服务调度服务流批处理
9、智能中训练集管理学件管理学件训练模型管理基线管理操作志算法管理操作中流流批批处处理理部署模式数据标准化效数据清洗SparkFlink微服务Kafka数据关联Metrics/Logs/Traces指标告警计算基线预测计算事件压缩收敛事件根因推荐统计分析运维成效/监控告警/服务质量可观测性场景数据源管理数据整合加工新业务端到端可观测性平台(云境)主体由数据源采集、数据整合加工、可观测性场景三部分构成,智能中心和操作中心作为共享对接能力以开放接口的方式对其提供AI算法和操作执行手段。n数据源管理:采集作为基础数据来源,通过拨测、APM、日志、镜像、Prometheus、eBPF采集对接基础能力平台等
10、方式,获取端到端维数据;n数据整合加工:通过数据解析、数据清洗、数据降噪、关联等方式完成数据处理,将数据提供给端到端可观察性应用场景进行运用;n可观测性场景:场景作为业务端到端运维的实体业务对象,主要关注重点业务端到端场景:故障定位、性能优化、架构治理等。2023 DevOps 国际峰会 暨 BizDevOps 企业峰会 北京站1、全局端到端采集管控能力云境平台通过统一的运维管控中心对山东移动现有技术栈提供统一的运维采集和管控能力,提供向导式接入管理能力,简单实现IT资源指标、调用链、日志类型数据采集,支持SNMP、脚本、Agent、Kafka等多种方式进行全栈IT资源监控及端到端数据采集,为
11、运维保障、分析与运维数字化提供完整的数据接入支撑。10种采集协议SNMPSSHTelnetJMXJDBCIPMIWMIRestfulAPIAgentkafka类型采集协议OSAgent、SSH/Telnet、WMIDOCKERHTTP API、Agent虚拟化HTTP API存储HTTP API、SNMP、SMI-S、Agent、CLI服务器IPMI、SNMP TRAP、SNMP网络设备SNMP、SNMP TRAP、SSH/Telnet、SYSLOG中间件JMX/HTTP API/Agent数据库JDBC大数据平台HTTP、API、SSH/Telnet、Agent应用Agent、HTTP拨测客
12、户端批量管理设备接入向导2023 DevOps 国际峰会 暨 BizDevOps 企业峰会 北京站2、可观测性数据分析流批处理引擎提供可视化、拖拽式自助开发与分析能力,统一了数据开发流程与项目周期管理,支撑数据清冼、转换、加工、标记、关系挖掘、主/专题分析;覆盖了包括文件、数据库、消息队列、搜索引擎、大数据平台、内存等多种数据源;在架构设计上更是兼容了FlinkSpark分布式服务等流处理运行框架,并允许用户通过插件的方式扩展新的数据处理、分析能力。n数据全面覆盖:支持对各类的可观测数据(metric、log、trace)以及支持从现有Skywalking、Dynatrace、Xtrace、P
13、rometheus工具采集数据n数据可关联:新业务端到端可观测性平台(云镜)支持每种数据内部可以互相关联,也支持跨数据类型的关联,能够用一套分析流程把各类数据进行融合分析n秒级计算:新业务端到端可观测性平台(云镜)将支持分布式、可扩展,使用Flink流式处理能力,针对海量数据量实现秒级指标、告警计算能力;n灵活智能的算法:除了基础的算法外,还应包括AIOps相关的异常检测、预测类的算法,并且通过少量或无代码的方式进行算法生成2023 DevOps 国际峰会 暨 BizDevOps 企业峰会 北京站3、全景可观测性分析能力统一监控:实现山东移动从底层动环到上层业务的全资源端到端监控,并整合业务数
14、据、应用性能数据、运行数据、资产数据等多方位数据,构建全方位、立体化可观测性能力。实时感知:通过指标、调用链、日志、持续分析、告警、资产关联关系等多维度数据综合分析,实时感知数据异常。智能分析能力:围绕业务构建横向拓扑和纵向依赖关系拓扑等多维拓扑能力,联动多种监控数据,丰富可观测性和故障根因分析路径,助力故障根因定位。监控看板纵向拓扑横向拓扑全链路监控指标监控分析多维度分析影响范围分析统一告警管理与分析指标分析故障根因分析场景全链路排障容量预测指标数据接入计算指标定义指标元信息管理指标数据查询指标数据指标告警阈值告警告警模板指标数据查询异常检测基线告警指标体系治理资源指标监控资源指标数据查询健
15、康度打分定义指标体系指标数据管理2023 DevOps 国际峰会 暨 BizDevOps 企业峰会 北京站4、基于数据分析和智能分析的故障定位能力基于AI算法+数据融合分析,对故障进行快速识别、快速定位,并关联知识库对故障推荐相关解决方案,依托“AI“+“人工”的方式决策是否是直接自愈,如果可采用直接自愈,调用智能调度平台的能力对故障进行恢复操作。n数据分析:依托CMDB中资产对象关联关系,将现网相关的metric、log、trace数据拉通,使用平台对三类可观测数据的进行关联,并使用CMDB对资源之间的关联关系进行展示,监控数据与资源数据进行关联,快速定位和解决问题n智能分析:对海量实体指标
16、的智能异常检测,进行智能告警,同事支持通过智能化地分析和挖掘非结构化文本日志,自动发现异常故障定位处理流程触发告警AI根因定位推荐方案自动自愈效果评估数据关联分析数据关联分析AI智能推荐方案1.各种运维小工具关联(如线程分析、重起、刷缓存等)2.应急操作关联(如切容灾、切平面等)2023 DevOps 国际峰会 暨 BizDevOps 企业峰会 北京站5、运维调度编排能力分布式扩展&调度管控分布式横向扩展能力:分布式架构支持横向扩展,无单点风险。启动管理:支持人工、周期/定时、子流程嵌套等调度启动方式,提供外部API和数据交互方案。流程监控/人工介入:支持执行过程可视化监控,提供异常告警和代办
17、任务通知功能及人工介入手段。丰富的调度类型运维脚本:支持shell、python、perl、SQL、bat、powershell等脚本类型并支持扩展;开源框架:支持Ansible、SQLPlus、Terraform、Jenkins、Nexus等开源运维框架及工具;对接扩展:支持云平台、监控、日志、cmdb、工单及其他运维管理平台API扩展;满足复杂调度逻辑调度策略:支持串并行、条件分支、循环、等待/定时、流程嵌套等流程流转逻辑。人机协同:支持在流程任何位置插入人工介入节点,提供阶段确认和流程决策方案。执行策略:并发控制和分批执行策略可视化编排调度执行调度监控2023 DevOps 国际峰会 暨
18、 BizDevOps 企业峰会 北京站6、运维敏捷能力低代码应用开发示例流程整合已有各平台运维能力统一监控平台日志分析平台自动化运维平台ITSM流程管理平台数据库管理平台运维大数据中心CMDB配置平台DevOps平台其它平台系统构建SAAS应用创建应用数据集准备交互设计选择数据集事件编排发布应用API、SQL、自定义API聚合自动化/监控/CMDB/ITSM能力自定义数据集内置数据集低代码可视化中心,通过整合现有各平台运维能力,开放运维基础能力,面向运维人员及开发人员,提供个性场景快速构建能力,通过统一平台+低代码开发者中心,实现统一平台建设+场景百花齐放的新型统一运维管理能力。交互设计器服务
19、设计器2023 DevOps 国际峰会 暨 BizDevOps 企业峰会 北京站7、混沌演练:系统架构反脆弱测试构建混沌演练平台,为业务系统提供灵活、易用、安全的故障演练能力,致力帮助业务系统在可控范围有保护的进行混沌实验,观察系统在各种压力下的行为表现,及时发现业务潜在风险、验证高可用预案有效性,从而提高其业务及系统的可用性和韧性。CPU内存网络磁盘进程.时钟错误进程崩溃资源不足卡顿tomcatkafka.API故障线程池占满连接关闭进程终止基础资源故障演练系统和中间件故障演练应用故障演练.快速构建可控可靠的实验场景目前我们构建的场景涵盖从基础硬件资源、网络设备、系统及中间件、应用服务、用户
20、操作等类型的故障注入动作及对应的安全保障措施,通过界面快速灵活的编排可视可控的实验场景。持续的稳定性验证与跟踪改进通过混沌实验、跟踪观测、报告分析等能力,持续验证、持续改进系统稳定性。实验观测报告2023 DevOps 国际峰会 暨 BizDevOps 企业峰会 北京站8、融合AIOps算法即服务能力运维数据采集接入AIOps算法服务结果输出结果数据依据山东移动实际情况,围绕主机、数据库、业务、容器、微服务等五类核心资源,针对异常检测、故障诊断、故障预测、故障自愈等四类AIOps场景,通过混沌工程随机注入故障的方式来测试应用效果。使用AIOps算法服务能力,将需要分析的日志和指标同步给AIOp
21、s平台,通过算法分析后,接收对应资源的异常信息,综合全业务链路数据对故障进行定界定位。2023 DevOps 国际峰会 暨 BizDevOps 企业峰会 北京站8、融合AIOps算法即服务能力-无代码配置研发建立低代码Aiops应用构建流水线,图形化应用装配生成器,具备快速构建自动化Aiops应用场景能力。数据采集支持多种类型:Kafka、API、TCP/UDP、Syslog、数据库、文件,通过界面进行简单配置即可,方便运维人员操作。通过界面操作配置算法参数,通过拖拉拽方式实现多算法的流程配置。日志指标分析通过界面配置操作,报表自定义;流程设计页面设计逻辑定义模型训练数据接入参数优化拖拽式AI
22、应用开发12345603云境应用场景2023 DevOps 国际峰会 暨 BizDevOps 企业峰会 北京站应用场景1:全局监控告警管理通过对采集的监控指标进行实时感知,构建告警和事件通知的能力,包括基于阈值的告警和无阈值的异常检测,同时我们基于统一告警模块提供灵活的告警生成、处理、推送策略,适应各种业务告警场景。阈值告警策略告警策略以模型为单位进行设置,单个模型下可设置多条监控策略。每条监控策略包含监控对象、监控指标、告警规则。无阈值告警利用机器学习,对历史数据进行学习,分析指标基线,借助箱型法、极值法、mad、adf、acf等算法可实时、准确地判定指标的状态是否异常,实现指标的异常检测,
23、最终达到无阈值告警的目的。l 所有资源对象l 指定资源对象或资源类型l 支持关联上下游告警资源l 可对单个资源创建多个不同优先级的告警策略l 单个告警策略可覆盖多个资源和指标支持有监督的专家经验的指标异常检测,同时也支持以应用链路及网络链路关系为基础的无监督的多指标异常检测2023 DevOps 国际峰会 暨 BizDevOps 企业峰会 北京站应用场景2:健康度打分健康度分析利用算法对指标数据和告警数据进行自动化打分,从IaaS层,PaaS层,SaaS层三个层面,对业务系统和技术组件采集上来的数据进行打分,通过健康度实时感知计算栈异常,以蜂窝状的形式展示,让运维人员可以一目了然的知道是哪个组
24、件有异常,从而快速定位处理。健康度打分规则分为两个层面,一是基于资源健康度打分,通过对资源数据的实时感知,并根据每种技术栈的特点选定个性化的算法,进行健康度打分;二是对汇总资源健康度打分,通过下层资源的汇总,对不同层级(业务、应用系统等)技术栈的优先级记性加权从而计算上层的健康度。通过两个层级的健康度打分,得到全业务域的健康度。应用系统健康度打分规则资源健康度打分规则通过对资源数据的实时感知和历史数据分析,对每类资源类型设定不同的算法和指标,从而得到其资源的健康度;以主机为例,通过对主机的CPU,负载,IO三个要素单独进行打分,总分为取一个最低分通过汇总下级资源的健康度和告警数据,以及应用系统
25、设定的四大黄金指标(请求时长、错误率、请求数、流量)进行综合分析判断得到应用系统健康度,并支持下钻查看整个应用技术栈情况2023 DevOps 国际峰会 暨 BizDevOps 企业峰会 北京站应用场景3:面向业务的服务地图及服务上下游分析通过将服务调用链聚合、拆解融合eBPF旁路抓取内核的CPU、内存、网络、硬盘信息,实时绘制观察到服务、服务与实例、实例与pod、pod与宿主机之间的依赖关系,可以识别瓶颈并了解业务真正的服务流向、架构以及部署架构,基于全新的服务地图可以衍生服务上下游依赖、服务全景排障等能力;通过对服务地图做定期快照,对比不同时期的质量,发现并优化一些异常调用,以及优化架构中
26、不合理的部分。服务上下游依赖l 利用调用链数据流向,分析服务的上游和下游,通过左(服务上游)右(服务下游)的呈现方式展示出来,对于节点中有故障的点用不同的颜色进行标识。l 通过分析服务上下游依赖关系、流量、强弱等数据,理清主要服务与次要服务,提前发现因为依赖问题可能导致的故障,避免依赖故障影响用户体验,积累数据持续推进系统稳定性提升。业务服务地图l 链路节点可下钻分析其依赖的对象的运行状况,也可展开其部署实例的健康状态l 服务地图中不同颜色展示链路各节点的健康状态,健康状态通过健康度打分规则(请求量、Apdex、错误率)进行计算分析得出2023 DevOps 国际峰会 暨 BizDevOps
27、企业峰会 北京站应用场景4:全链路业务真实部署拓扑通过对应用链路、网络链路、立体链路进行数据采集、分析实现“自发现”三层链路的能力,并将格式化的链路数据送至CMDB进行展示,最终利用CMDB展示全链路业务真实部署拓扑,纵向拉通整个系统的上下依赖关系(例如服务运行的主机,主机运行的虚拟机)在部署拓扑中每个节点的健康度状态快速定位某个节点问题,并支持在部署拓扑上将节点的Metrics、Trace、Log、资产、告警等数据进行统一展示,方便在发现健康度异常之后,快速查看这一资源的相关数据进行问题定位。总览&告警日志数据指标数据调用链数据2023 DevOps 国际峰会 暨 BizDevOps 企业峰
28、会 北京站应用场景5:全栈式服务调用链场景研究TrackOps全栈式服务调用链数据缓冲异步发送,跟业务数据隔离UEE框架JSHeapStack埋点1埋点2业务逻辑CallBack Queue发送日志数据采集日志获取打点逻辑:UEE框架打点,上报逻辑异步化,JS空闲期发送,避免网络资源征用用户信息业务信息服务信息链路信息系统信息后台调用链前台调用链日志平台基于TrackOps实现前后指标延伸(请求响应、耗时、可用性),提前发现变慢原因,精准辨识业务受理流程合理性,为业务办理效率提供度量标准和分析依据,系统优化有了方向,营业员体验可视可管。一点查询调用链记录和报错信息,大幅提升定位速度问题快速定界
29、提升营业员体验营业员体验可视,优化有方向、可度量持续检测改进产品360健康度监控,不仅仅是交付,更要产品的持续治理系统堵点一目了然,性能优化精准实施实施效果扩容分析更轻松2023 DevOps 国际峰会 暨 BizDevOps 企业峰会 北京站应用场景6:端到端可观测02 判断因哪个系统导致通过跨系统调用链,可以看到业务经过哪些系统。有问题的系统根据系统AIOPS聚合出来的SLO指标的健康程度来判断哪个系统导致业务异常。系统红、橙、黄、蓝、绿不同颜色。每个颜色代表不同的健康程度。依托AIOPS多指标关联预测模型,定位故障具体原因。依托CMDB资源关系判断具体哪个对象事嫌疑人哪些对象事受害者、群
30、众等针对故障给出建议,支持通过在线诊断。05 智能诊断分析针对有问题的资源查看其相应的性能指标也可以对资源进行直接线上重启等操作04 异常资源性能分析可以按系统、服务模块、资源等多个维度产品特定时间段内产品的日志信息。日志信息包含基础软硬件日常,应用日志、trace日志、业务日志等。07 日志筛选分析通过时间轴快速判断具体事件发生哪个时间点08 告警轴分析01 业务异常快速发现业务导航窗口通过不通颜色快速发现哪些业务有问题场景7:全局可观测性用户体验(01-02-03-04-05-06-07-08-09)场景2:疑难故障快速定位/定界(01-02-03-05)场景3:性能问题联动分析(01-0
31、2-03-04-06)场景4:告警分析(01-02-08-03)场景5:根因推介及辅助分析(01-02-08-03-05-04-06-07)场景6:故障智能自愈(05-09)场景1:业务异常快速发现(01)功能模块覆盖用户体验、业务、应用、系统、基础设施各层监控SLO指标,跨系统调拓扑、服务调用链拓扑、应用机构拓扑、系统部署拓扑、服务关联CMDB资源信息、服务关联的日志信息、资源关联的日志信息、系统事件信息等,每个模块都具有很强的实用能力。03 查看异常系统情况快速看到当前系统当前异常服务及服务核心指标当前值;快速通过时间轴定位应用层、软件层、硬件层哪个层面在哪个时间段发生了告警;可以从应用拓
32、扑和部署拓图查看某个事件对全局的影响或事件发生在架构的某个部件。对于一些性能问题或没有特别明显的故障。可以通过系统调用链来分析来查看在当前系统哪个服务影响了业务。点击有问题的服务,可以查看相关的核心SLO指标、服务相关的每个基础资源情况,并可以对资源进行操作。也可以对某个服务进行调用链分析、JVM分析、性能分析、日志分析、事件分析。06 服务调用链分析基于根因定位匹配治愈方案,自动化作业调度容器云的API服务和自动化平台预案实现系统故障自愈,或手动执行恢复操作09 自愈预案2023 DevOps 国际峰会 暨 BizDevOps 企业峰会 北京站应用场景7:特定技术栈大盘基于低代码中心通过拖拉
33、拽配置的方式构建构建不同技术栈的监控大盘,满足不同专业组人员的不同需求,真正实现运维的“千人千面”。2023 DevOps 国际峰会 暨 BizDevOps 企业峰会 北京站应用场景8:业务场景大盘针对不同类型的业务场景,构建了不同的业务大盘,如针对集团一级BOSS业务我们构建了“一级BOSS网状网运营可视化大盘”,针对多PaaS平台构建了“混合云治理大盘”2023 DevOps 国际峰会 暨 BizDevOps 企业峰会 北京站应用场景9:混沌演练典型场景缓存中间件猴子缓存中间件(Redis)25.Redis宕机26.Redis内存耗尽27.Redis集群重启28.Redis哨兵重启29.m
34、aster网络丢包30.slave网络丢包缓存中间件(Memcached)31.memcached实例宕机(新增)缓存中间件(Coherence)32.Coherence单节点异常(新增)33.Coherence宕机(新增)代理猴子代理Ngnix34.Nginx反向代理异常35.SG站点不可用36.Nginx日志被打满代理Haproxy37.Haproxy容器重启38.Haproxy负载策略延时39.Haproxy响应延时40.backend异常丢失消息中间件猴子消息中间件ActiveMQ41.消息节点不可用42.集群宕机消息中间件Kafka43.节点资源耗尽(cpu、内存、IO)依据山东移动
35、实际情况,围绕主机、数据库、业务、容器、微服务等五类核心资源,针对异常检测、故障诊断、故障预测、故障自愈等四类AIOps场景,通过混沌工程随机注入故障的方式来测试应用效果。混沌工程平台通过提供从基础创建到中间件、到微服务层完善的故障注入能力,以及运维专家经验积累的故障场景库,快速从0到1建设起高可用的模拟演练场景。平台支持场景丰富,包括基础资源场景、应用服务场景、容器服务场景等。故障猴子1.进程重启2.进程HANG3.进程cpu、内存、IO异常4.心跳异常5.数据/配置加载异常6.部分服务节点异常7.特定方法类延时8.特定方法类返回异常数据库猴子Mysql9.数据库单节点服务中断10.数据库主
36、机单点挂掉11.数据库主机目录满12.数据库连接异常(新增)PostgreSQL13.数据库单节点服务中断14.数据库主机单点挂掉15.数据库主机目录满16.数据库连接异常(新增)Oracle17.数据库单节点服务中断18.数据库主机单点挂掉19.数据库主机目录满20.数据库连接异常04成效2023 DevOps 国际峰会 暨 BizDevOps 企业峰会 北京站高效智能化运维能力基于云境全局业务端到端监控平台,以业务连续性管理为目标,拉通端到端业务、资源数据和底层能力,优化故障模型,依托智能算法与工具协同,实现故障的智能预警、智能分析定位、自动修复处理能力,进而为实现故障的1分钟预警、5分钟
37、分析定界,10分钟应急恢复的目标努力。全局业务端到端监控平台,实时监测业务、应用程序和系统全局的性能指标和日志,通过实时收集和分析数据,可以在事前通过追踪性能数据识别潜在问题并迅速调整,以提高运营效率并最大程度地利用资源,有效地帮助企业最大限度地利用资源,提高性能表现。统一智能监控端到端分析智能分析定位传统故障处理当前故障处理故障定位困难全局业务端到端监控平台告警杂乱,无法快速定位海量监控软硬件设备,1分钟发现故障。对系统和技术有深入了解,案例难以直接复用,需要依靠大量人工。自动化、白屏化应急处理故障模型,5分钟快速定界MTTR长,很难进行故障的事前、事中处理,问题通常只能事后处理故障事前预警
38、自动化处理为主故障事后分析人工运维为主自动应急处理故障高效定位05展望2023 DevOps 国际峰会 暨 BizDevOps 企业峰会 北京站展望1:端到端业务可观测性感知排障能力云境不仅关联应用相关的各层的指标、链路、日志数据快速分析故障根因,甚至能通过持续分析能力关联配合时间模型算法预测出可能出现的异常风险。在云境体系中,深度采集、实时采集指标是最关键的,借助智能中台并整合调用链、eBPF旁路数据、Kubernetes原数据和指标、日志、指标数据、流量数据等数据,打造全方位、立体化监控平台,完成基础支撑能力的要求,并支持预判一些趋势性典型故障,如服务调用缓慢、服务响应抖动等,以减少对实际
39、业务的影响。同时在云境知识库也会对故障场景的重复排障流程和指标特征进行梳理,这里也会利用混沌工程的思想不断的模拟故障,生成足够多的样本数据,最后一起形成专家诊断经验库,通过经验库可基于核心事件捕捉,自动推送预案或自动化执行。执行根据预案调用相关操作脚本知识更新将过程产生的数据沉淀至知识库供后续决策使用2023 DevOps 国际峰会 暨 BizDevOps 企业峰会 北京站展望2:大模型带来的运维新体验针对不同业务需求提供数智人服务,覆盖信息查询到消息通报、服务请求、租户报障、知识查询、资源开通、IP封堵等,多方面、全方位开展对IT部门内部和业务部门提供7*24无间断服务支撑。业务系统的日常运
40、维工作涉及大量的即时通信、故障管理、多团队协作等工作,通过数字员工协同调度能力实现机器人全闭环处理。目标:提升能力组件的软件研发效率,弥补低代码平台基础组件能力缺乏问题,降低软件研发人员的技能要求,解耦开发人员计算机代码语言与开发应用场景的紧耦合性,释放软件技术人员的工作量。思路:建立基于GPT模型的研发AI模型,并支持通过插件式研发语言扩展的无代码开发平台,实现以NUI模式进行交互的代码软件开发。数字员工辅助编码用户报障创建故障事件组织协调人员运维人员反馈进展故障处理直播生成故障总结通用知识(已梳理)专业知识(梳理中)大模型叠加训练软件代码生成平台联合业界产学研多家单位-完成80%从已有各平台内部代码提取训练数据用户报障服务台接障创建故障事件生成故障总结组织协调人员智能推荐历史故障故障处理直播2023 DevOps 国际峰会 暨 BizDevOps 企业峰会 北京站ThanksDevOpsDevOps 时代社区时代社区荣誉出品