《沈巍-可观测性OpsCenter在移动云平台落地实践.pdf》由会员分享,可在线阅读,更多相关《沈巍-可观测性OpsCenter在移动云平台落地实践.pdf(29页珍藏版)》请在三个皮匠报告上搜索。
1、可观测可观测性性OpsCenter在移动云平台落地实践在移动云平台落地实践沈巍(中国移动云能力中心-容器产品架构师)移动云现状移动云现状移动云发展现状移动云发展现状移动云目前已经演化为移动云目前已经演化为“分布式云分布式云”,通过,通过中心中心+边缘边缘协同发展,实现协同发展,实现“云无处不在,网无所不及云无处不在,网无所不及”的业务体系,满足客户的业务体系,满足客户全全场景云业务需求场景云业务需求,提供四大区精品、大规模低成本、区域就近入云、云网个性化定制等多形态云服务,提供四大区精品、大规模低成本、区域就近入云、云网个性化定制等多形态云服务中心区中心区域域边缘区边缘区域域省级区省级区域域固
2、网固网5G5G4G4G可信可信网关网关 广域边缘云广域边缘云泛广域边缘云泛广域边缘云省云省云省云省云中心云中心云京津冀京津冀陕川渝陕川渝长三角长三角3AZ3AZ3AZ3AZ3AZ3AZ3AZ3AZ大湾区大湾区局域边缘云局域边缘云局域边缘云局域边缘云海马等三方云海马等三方云省自建边缘云省自建边缘云网络边缘云网络边缘云基于基于“五个一五个一”构建中国移动布式云构建中国移动布式云 构建构建N+31+XN+31+X一朵分布式云一朵分布式云,中心资源池省省有,高品质精品云池立足热点,中心资源池省省有,高品质精品云池立足热点区域辐射全国,加大力度打造边缘异构池云能力实现领先区域辐射全国,加大力度打造边缘异
3、构池云能力实现领先 打造全网一键发布的打造全网一键发布的统一分布式云操作系统统一分布式云操作系统,实现云边技术栈统一,打造中,实现云边技术栈统一,打造中心心+边缘的一致用户体验边缘的一致用户体验 建设建设一套多云异构纳管运营平台一套多云异构纳管运营平台,向下实现资源统一管理、调度,向上支撑,向下实现资源统一管理、调度,向上支撑云上应用灵活搭建、适配云上应用灵活搭建、适配 推进上云用数赋智重安推进上云用数赋智重安一体化业务运营管理能力一体化业务运营管理能力,加快业务,加快业务/能力上云进度能力上云进度(加快云网安全等产品能力),快速布局协同的营销推广体系,推动市场上(加快云网安全等产品能力),快
4、速布局协同的营销推广体系,推动市场上规模规模 实现实现边缘云统一运维边缘云统一运维,有效保障故障处理时效,保证客户业务感知,有效保障故障处理时效,保证客户业务感知总体规划:总体规划:中心中心+边缘协同发展,打造边缘协同发展,打造“五统一五统一”的分布式云的分布式云云原生可观测性云原生可观测性监控监控 VS 可观测性可观测性监控监控可观测性可观测性 例如:某应用程序Crash,某Host宕机 例如:某应用程序Crash,某Host宕机 程序多实例部署(并非根因)实际则是程序内存泄漏的问题指标指向问题本身指标指向问题本身指标指标无法无法指向问题本身指向问题本身现象即是问题本身依赖“运维老手”的经验
5、判断适合检测已知问题监控监控-现象往往不是问题本身溯源根因依赖工具联动开放式的探索,适合排查未知问题可观测性可观测性-对比对比AvailabilityPerformanceCapacityMetricsDisctributed TracingLogsException Tracking监控监控 VS 可观测性可观测性服务对象服务对象人员能力要求人员能力要求部署架构部署架构关联分析能力关联分析能力告警能力告警能力数据管理方式数据管理方式运维运维运维、开发、运维、开发、运营、运营、安全安全需要多套监控工具,对人员技术要求需要多套监控工具,对人员技术要求高高统一的可观测性平台,降低了人员能力的要求统
6、一的可观测性平台,降低了人员能力的要求不同工具间部署架构存在差不同工具间部署架构存在差异异需要运维人员基于经验进行手动分析,需要运维人员基于经验进行手动分析,关联分析难度较大关联分析难度较大基于阈值的告警,容易产生告警风暴基于阈值的告警,容易产生告警风暴机器数据孤岛、数据复用难、利用率低机器数据孤岛、数据复用难、利用率低统一部署维护,云原生架构,弹性扩展,能更统一部署维护,云原生架构,弹性扩展,能更好的适应业务快速变化和发展的需求好的适应业务快速变化和发展的需求全量整合多类机器数据,打通跨设备,系统的全量整合多类机器数据,打通跨设备,系统的事件分析壁垒事件分析壁垒告警降噪,告警自愈告警降噪,告
7、警自愈统一的数据管理,提升了数据利用率,降统一的数据管理,提升了数据利用率,降低了数据使用和维护的复杂度低了数据使用和维护的复杂度传统监控传统监控可观测性可观测性可观测性数据结构可观测性数据结构 主要用于监控告警监控告警(Monitoring&Alert)场景,通常存储在时序数据库。是对 Logging 事件的聚合,泛指各种指标监控和大盘,通过多维度聚合、分析和可视化展示,帮助工程师快速理解系统的运行状态。主要用于业务依赖调研链的链路追踪链路追踪(Tracing)场景,通常存储在日志数据库。全链路追踪,面向的是请求,通过对请求打标、透传、串联,最终可以还原出一次完整的请求,可帮助工程师分析出请
8、求中的各种异常点。主要用于日志审计日志审计(Logging)场景,通常存储在日志数据库。不能单纯的理解就是日志,泛指的是应用运行而产生的可以详细解释系统运行状态的各种事件,日志记录是其中最常用一种手段。当前,主流的可观测性系统主要基于当前,主流的可观测性系统主要基于 MetricsMetrics(指标)、(指标)、TracingTracing(链路)、(链路)、LoggingLogging(日志)三大数据类型构建,基本涵盖了一个(日志)三大数据类型构建,基本涵盖了一个 Application Application 所能产生的大部分可观测性数据,足以让开发运维人员洞察所能产生的大部分可观测性数
9、据,足以让开发运维人员洞察 Application Application 的运行状态。的运行状态。可观测性系统组件可观测性系统组件在在 CNCF Landscape CNCF Landscape 中,可观测性的相关产品被分为中,可观测性的相关产品被分为 MonitoringMonitoring(监控告警)、(监控告警)、LoggingLogging(日志审计)、(日志审计)、TracingTracing(链路追(链路追踪)、踪)、Chaos EngineeringChaos Engineering(混沌工程)、(混沌工程)、Continuous OptimizationContinuous
10、Optimization(持续优化)(持续优化)五大类。五大类。MonitoringMonitoring:PrometheusPrometheus、CortexCortex、ZabbixZabbix、GrafanaGrafana、Sysdig Sysdig 等。等。LoggingLogging:LokiLoki、ELKELK、FluentdFluentd、Splunk Splunk 等。等。TracingTracing:JaegerJaeger、zipkinzipkin、SkyWalkingSkyWalking、OpenTracingOpenTracing、OpenCensus OpenCen
11、sus 等。等。Chaos Engineering:Chaos Engineering:Continuous Optimization:Continuous Optimization:可观测性最佳实践可观测性最佳实践。可观测性体系可观测性体系开始构建我们的可观测性体系开始构建我们的可观测性体系OpsCentorOpsCentor设计与实现设计与实现OpsCentorOpsCentor软件架构软件架构移动云建设移动云建设规模大规模大,承载业务,承载业务种类繁多种类繁多,兼具电信级别和金融级别的兼具电信级别和金融级别的“稳稳”和互联网的和互联网的“快快”,支撑又快又稳的业务发展需要完,支撑又快又稳
12、的业务发展需要完善的稳定性可观测保障体系。善的稳定性可观测保障体系。这个体系的基石就是这个体系的基石就是移动云可观测性平台移动云可观测性平台-OpsCentor-OpsCentor,OpsCentorOpsCentor将会逐步实将会逐步实现监控全息化,系统数据化,运维智能化现监控全息化,系统数据化,运维智能化三大目三大目标。标。解决问题解决问题分析分析联动联动多集群管理多集群管理Serverless Serverless 运行时运行时微服务微服务Dev CodeDev CodeTraceTrace:全链路追踪平台:全链路追踪平台APMAPM分析平台分析平台自愈风险自愈风险风险预警风险预警攻防演
13、练攻防演练根因定位根因定位电信业务电信业务变更拦截变更拦截业务场景业务场景应用监控应用监控移动端监控移动端监控业务监控业务监控网络监控网络监控中间件监控中间件监控系统监控系统监控领域领域研发拓展能力研发拓展能力可视化引擎可视化引擎性能管理性能管理基础设施监控基础设施监控日志引擎日志引擎告警与预警告警与预警核心能力核心能力异构系统接入异构系统接入洞察运营洞察运营数据管理数据管理计算存储计算存储数据接入数据接入时序数据平台时序数据平台日志标签日志标签日志存储日志存储日志分析日志分析日志平台日志平台混沌工程混沌工程持续优化工持续优化工程程AIOpsAIOps智能运维平台智能运维平台Adds-onAd
14、ds-on分析分析数据湖数据湖2023年年2021年年OpsCentorOpsCentor技术架构技术架构 告警处理 日志和事件处理中心 全链路追踪 集群性能智能监控引擎(CPAE)集群物理基础设施管理引擎(CPIE)WatchMan可值守OPS中心 Grafana显示中心 各种种类的Exporter CloudSentinel-Agent 日志和事件Generater Trace-Agent等OpsCentorOpsCentor之之PingMeshExporterPingMeshExporter 大型数据中心通常包含数百或数千台服务器、存储设备和网络设备,这些设备会产生大量数据和复杂的网络流
15、量。数据中心中的设备通常来自不同的供应商,并且可能运行不同的操作系统和应用程序。这使得管理和维护这些设备变得更加困难。数据中心中的设备之间存在复杂的关系和依赖,例如服务器和存储设备之间的关系、虚拟机和物理服务器之间的关系等。数据中心需要不断保持高水平的安全性,以防止黑客攻击和数据泄露等问题。由于数据中心中的设备数量众多,故障处理变得更加复杂。必须能够快速诊断和解决问题,以避免影响业务。PingMeshExporter-PingMeshExporter-实现机制实现机制1.通过IP Controller自动获取到整个集群的podIP 和 nodeIp list2.通过Pinglist Contr
16、oller 下发 Agent Setting配置3.通过Custom Define Pinglist 在 pinglist.yaml 文件中补充 外部地址。支持dns地址、外部http地址、domain地址、ntp地址、Kubenetes apiserver地址等等1.如果pinglist中 数据很多,在一个周期(比如10s)处理不完,会保证本次处理完成后,在执行下一次,优先一个轮回完成2.配置可以设置 agent 并发线程数,确保 pingmesh agent 对整个集群影响小于千分之一3.Metrics中是通过Promethrus Gauge,在每个周期中单独计算4.为了确保 ping的请
17、求在一个时间窗口interval中平均发出,对请求job 做了内存态计算,在并发协程上做了ratelimit#HELP pingmesh_fail ping fail#TYPE pingmesh_fail gaugepingmesh_failtarget=8.8.8.8,tor=ping-public-demo 1#HELP pingmesh_duration_milliseconds duration of ping rtt#TYPE pingmesh_duration_milliseconds gaugepingmesh_duration_millisecondstarget=docker
18、.io,tor=ping-public-demo 245PingMeshExporter-PingMeshExporter-图表显示图表显示1.请求超过了timeout时间,将请求标记为 ping_fail2.请求超过了delay 但没有超过timeout时间,将请求标记为 ping_duration_milliseconds3.请求没有超过delay,在metrics接口中不记录OpsCentorOpsCentor之之CPACPAE ECPAECPAE全称为全称为Cloud Performance Analyse EngineCloud Performance Analyse Engine,
19、其集安全嗅探,性能分析,其集安全嗅探,性能分析,IOIO监测,网络性能监测等为一体监测,网络性能监测等为一体的的NodeNode性能智能监控引擎性能智能监控引擎 Sentinel-Officer 对外提供了Restful-API的标准接口,接收外部传送的命令,并将监测结果按照一定的格式进行返回。Sentinel-Officer 接收外部的命令之后,可通过gRPC的方式下发至cloudSentinelAgent由其来执行具体的操作。Sentinel-Officer 对外可对接了WatchMan和Kube-ApiServer,WatchMan为一组定义的命令集,用户可以利用其快速获取集群或Node
20、节点的性能,告警等参数,方便运维人员快速定位问题。SecurityOSReportTcpDumpReportgRPC-ClientnmapsysdigtcpdumpgRPC-ServerWatchManKube-Apiserver CloudSentinel-Officer CloudSentinelAgent网络分析操作系统分析系统安全分析OSPerformanceReportCPIE-Resrtful-ApICPACPAE-E-实现机制实现机制是一个具备是一个具备redfishredfish、ipmiipmi、tcpdumptcpdump、nmapnmap和和sysdigsysdig等工具
21、的等工具的agentagent,可以广泛,可以广泛应用于云原生环境中,提供全面的可观测性支持,帮助应用于云原生环境中,提供全面的可观测性支持,帮助管理员及时发现和解决各类问题,保证系统的稳定性和管理员及时发现和解决各类问题,保证系统的稳定性和安全性。安全性。nmapsysdigtcpdumpgRPC-Server网络分析操作系统分析系统安全分析CPAE-CPAE-图表显示图表显示结合结合nmapnmap和和nmap-nmap-formatterformatter-plus-plus制作的工具在云原生可观测性体系中具有快速制作的工具在云原生可观测性体系中具有快速定位安全威胁、精准的扫描结果、高度
22、定制化、与其他工具集定位安全威胁、精准的扫描结果、高度定制化、与其他工具集成和自动化扫描等优势,可以帮助团队及时发现、分析和处理成和自动化扫描等优势,可以帮助团队及时发现、分析和处理安全威胁,提高云原生系统的安全性和可靠性。安全威胁,提高云原生系统的安全性和可靠性。OpsCentorOpsCentor之之CPIECPIE 资产盘点耗时费力 厂家众多,管理管理软件不统一 异构 Arm/Amd 种类繁多 固件升级困难 僵尸服务器 异常高耗能设备 统一规范的接口 支持多种硬件平台 物理设备全方位监控 高效的指标收集 可视化网络拓扑图CPIECPIE全称为全称为Cloud Physical Infra
23、structure EngineCloud Physical Infrastructure Engine,定位为数据中心物理硬件基础设施管理引擎,其具备,定位为数据中心物理硬件基础设施管理引擎,其具备异构异构硬件资源管理,硬件资源管理,故障监测,能耗管理等功能。故障监测,能耗管理等功能。AgentAgent目标资源目标资源1 1目标资源目标资源2 2AgentAgent目标资源目标资源1 1目标资源目标资源2 2AgentAgent目标资源目标资源1 1目标资源目标资源2 2数据汇聚数据汇聚RulesDriverRulesDriver数据融合数据融合CPIE-OperatorCPIE-Oper
24、ator控制层控制层服务层服务层采集层采集层DBDBCPIE-ControllerCPIE-ControllerCPIE-GWCPIE-GWCPIE-WebGuiCPIE-WebGui任务下发任务下发数据上报数据上报CPIE-CPIE-物理基础设备监控物理基础设备监控实现了全自动的资产端到端管理,从设备上线、位置识别、配置核查、资产位置变更、部件变更、实现了全自动的资产端到端管理,从设备上线、位置识别、配置核查、资产位置变更、部件变更、机柜空间管理。机柜空间管理。CPIE-CPIE-物理基础设备监控物理基础设备监控 主动巡检:被动触发巡检:带内巡检:全天候主动巡检全天候主动巡检+被动接收。实时
25、发现告警。被动接收。实时发现告警。带内带内+带外部件状态、性能指标、维保、网络状带外部件状态、性能指标、维保、网络状态等全方位监控。态等全方位监控。产品典型故障、典型案例历史故障解决方案案例案例客服,测试,研发等技术专家的解决方案专家经验专家经验Raid、BMC日志分析模型黑盒日志分析模型故障现象对照模型批量设别故障分析故障诊断模型故障诊断模型解决方案故障分析报告巡检计划操作系统操作系统OSOS物理防火墙物理防火墙网络设备网络设备物理服务器物理服务器IPMI/SNMP/Redfish/Https设备保修设备保修巡检规则巡检规则屏蔽规则屏蔽规则告警规则告警规则主动巡检被动巡检用户用户7 7*24
26、24主被动监主被动监控控设备指标状态设备指标状态及性能监控及性能监控微信、云空间微信、云空间远程通知远程通知带内外数据监带内外数据监测测CPIECPIEOpsCentor-OpsCentor-显示显示OpsCentorOpsCentor的可视化组件选用的可视化组件选用GrafanaGrafana,该组件是一个流行的开源数据可视化和监控工具,能够完成对各种数据源进行,该组件是一个流行的开源数据可视化和监控工具,能够完成对各种数据源进行抽象完成可视化工作,如图表,仪表盘,告警等。抽象完成可视化工作,如图表,仪表盘,告警等。GrafanaGrafana功能增强功能增强OpsCentor-OpsCentor-告警平台工作流告警平台工作流挑战与未来挑战与未来OpsCentor-OpsCentor-挑战与未来挑战与未来1.推动内部服务可观测性改造升级2.大云:超大规模单集群适配关注我们获取更多云原生资讯Thank you