《01拒绝孤岛-可观测数据融合分析--张城(元乙.pdf》由会员分享,可在线阅读,更多相关《01拒绝孤岛-可观测数据融合分析--张城(元乙.pdf(22页珍藏版)》请在三个皮匠报告上搜索。
1、拒绝孤岛可观测数据融合分析张城(元乙)-阿里云IT系统的可观测开发模式系统架构部署模式基础设施系统更加复杂开发涉及更多的人运行环境多种多样可观测挑战技术依赖技术依赖发布频率发布频率单一单一异构异构/云云瀑布瀑布敏捷敏捷计算节点数计算节点数静态静态动态动态参与人数参与人数单兵单兵协同协同物理机虚拟机容器微服务少量技术大量开源软件、SaaS一年一次一天一次按需发布OpsDevOpsDevSecOpsDevSecBusOps什么是成熟的可观测方案自动发现服务自动发现基础设施自动化自动生成服务拓扑全栈数据客户端到服务端基础设施到应用IT、商业、Sec一套工具减少跳转上下文缺失降低体验割裂学习代价低易上
2、手统一海量存储超大规模写入长期存储友好Log/Trace/Metric统一数据关联分析完备分析语法跨多种数据源大规模分析能力丰富的上下文关联Meta/CMDB服务/交易上下文数据上下文实时性产生到可见秒级快速返回查询结果实时的告警能力高基数问题来源于细节尽可能保留原始数据数据记录更多维度部分智能化告警收敛基础的异常检测基础的根因分析统一存储实时分析融合分析智能化可观测数据分析发展历程多套系统JaegerGrafanaKibana观测数据采集数据都能用上统一可视化GrafanaLokiTempoMimir降低跳转代价统一Meta数据统一存储分析SLSSLSLogLogMetricMetricTr
3、aceTrace降低维护代价统一分析语言更快更快、更便捷、更有效的、更便捷、更有效的观测数据价值挖掘观测数据价值挖掘:数据融合分析数据融合分析可观测数据融合分析LogsMetricsDBCMDBML模型TracesProfilingNetworkLogin LogoutAccess LogConfigsSyslogNetwork PacketPerfCounterBinlogTracingEventOpenFileOrdersCommandError LogPingPaymentsProfilingUserInfoAudit LogCloudsWeb AccessAndroidIOSCrash
4、ProfilingCMDB用户DB访问日志登录日志用户行为分析反作弊变更管理监控问题定位攻击检测技术难点与挑战统一海量存储数据关联分析实时性高基数PB级规模应对突增的写入统一的存储引擎同类数据源关联跨数据源关联端到端秒级可见交互式分析能力兼顾实时性与性能多维度数据分析内存压力超大规模存储成本兼顾完备性与易用性SLS可观测技术架构可观测统一存储引擎可观测统一存储引擎全栈数据采集全栈数据采集智能算法与编排智能算法与编排日志日志指标指标TraceEventLogStoreMetricStore冷热分离冷热分离实时数据流转与分析实时数据流转与分析实时消费实时消费SQLPromQL独享计算独享计算数据加
5、工数据加工调度引擎调度引擎融合分析融合分析数据导出数据导出异常检测异常检测时序预测时序预测文本聚类文本聚类多维分析多维分析仪表盘仪表盘可视化嵌入可视化嵌入根因定位根因定位打标反馈打标反馈300+源无侵入消耗低自动扩容PB级稳定性高性能交互式易用性可定制多种类功能丰富全栈监控移动端监控TraceCloud LensRUM成本管家日志审计SLSSLS可观测统一平台架构可观测统一平台架构访问偏好写多读少近期数据访问频繁冷热分层Batch写后台Compaction多层缓存分析诉求弹性分析能力语法简洁&完备性QueryPromQL分布式执行SQL负载均衡面向未来可扩展能力计算存储分离无状态数据特性Tag
6、局部访问关键词随机过滤聚合分析列存倒排正排Logs/TracesMetricsML/TMetricStoreLogStoreFIFO QueuePanguPanguOSSOSSData IndexingArchiveManagerCacheManagerCompactionManagerRetentionManagerQuery&Analysis EngineQueryEnginePromQLEngineSQLEngineSLS WorkerSchedulerPut&PullData Management水平扩展带状态数据流控制流OpenAPI数据融合分析核心架构统一的存储引擎Sort By
7、PK(MetricName Labels)Sort By Event TimeFIFO BinlogLogStoreMetricStoreSort By Arrive TimeLogsTracesMetricsLogs协议Traces协议Metrics协议其他协议Inverted IndexColumn Oriented Compaction融合分析引擎LogStoreMySQLMetricStoreOSSSorted Key过滤PrometheusQuery EngineSLS TimeSeriesStoragePresto ConnectorsSQLWorkerSQLWorkerSQLWo
8、rkerSQLWorkerSQLCoordinatorSLS MetaServiceScaleUp/Down关键词过滤PromQL结果SLS PrometheusSLS QueryProxyPull、Search、PromQL、SQL、Pipeline OpenAPI、JDBC、HTTPS、Grafana、Tableaulevel:error and content:pay not source:11.120.30.40 关键词查询level:error and content:pay|select source,count(1)as total from log group by sourc
9、e order by total desc关键词查询SQLselect time,value,instance from(select promql_query_range(avg by(instance)(irate(node_cpu_seconds_total5m)from metrics)a join cmdb b on a.instance=b.hostname and b.region=shanghai PromQLSQLselect ts_predicate(time,value)as tsVal,instance,region from(select a.time as time
10、,a.value as value,a.instance as instance,b.region as region from(select promql_query_range(avg by(instance)(rate(node_cpu_seconds_total mode=“system”5m)from metrics)a join cmdb b on a.instance=b.hostname)where instance in(select distinct source as instance from access_log where level=error and conte
11、nt like%pay%)SQLPromQL关键词查询CMDBML模型CPU System指标关联Region信息过滤日志中出现错误的机器应用时序异常检测算法LogStoreMetricStoreML模型CMDB融合分析示例当可观测执行到一定程度后系统中有哪些观测数据每种数据存储在哪里数据到底是什么样的数据的特性是什么各类数据之间怎么关联如何观测你的可观测数据?数据表达-观测可观测数据Pod2Pod MetaPod AppMetricsPod BaseMetricsPod EventDeploy1?Pod1Node1实例Image1User1Code Repo 1CICD Job 1发现问题发
12、现问题问题根因问题根因实体/Resource 关联的数据实体/Resource之间的关系调用运行在依赖关联触发发布依赖运行在VPC1Pod AppAccess LogsPod AppError Logs错误传播路径ImageAccessLogK8sAuditLogNodeMetricsServiceTraceGitLabAccessLogTracesLogsMetricsResourceTraceContextIPPodRegionSpanIDTraceID可观测数据的类型与关系Service AService BMySQL ARedis AMongo AService C可观测数据中的实体与
13、关系案例1:SLS可观测建设实践全量可观测数据SLSSLS AdminAdmin ProjectProject全量可观测数据SLSSLS AdminAdmin ProjectProject聚合/重要可观测数据SLSSLS AdminAdmin GlobalGlobal ProjectProject预聚和全球同步预聚和全球同步账单数据计费计量用户SLA数据集群水位核心稳定性指标用户访问日志查询明细日志各类应用日志各类应用指标全链路TraceK8s 系统指标K8s 组件日志K8s 审计日志K8s 事件物理机指标物理机SyslogSLSSLS可观测数据存储可观测数据存储基础设施监控集群稳定性大盘SL
14、SSLS智能观测平台智能观测平台计费稳定性大盘营收分析大盘重保客户大盘集群水位监控Agent稳定性监控SLS服务监控异常查询分析用户行为分析访问日志分析数据自定义分析数据采集诊断查询异常诊断计量计费诊断消费延迟诊断智能异常告警智能发布管理异常根因定位集群资源预测全球化大盘监控与问题排查智能告警与诊断DevOps运营产品架构师技术支持运维、发布、应急处理负载均衡、自动扩容、机器下线、故障隔离SLS服务依赖服务基础设施cn-beijingSLSSLS全球化集群全球化集群SLS服务依赖服务基础设施us-west-1全链路排查全链路排查多端监控大盘多端监控大盘自定义统计自定义统计工单自助排查工单自助排
15、查交互行为回放交互行为回放根因定位根因定位告警通知告警通知多版本对比多版本对比全链路观测数据应用平台全链路观测数据应用平台案例2:多端全链路融合可观测车机车机APPAPP服务端服务端 异步发送 断点续传 弱网优化 全球加速遥控打开空调OTA升级派发驾驶员操作车机车机APPAPP服务端服务端手机无信号车机无信号车机未启动车机Bug 云端MQ丢消息身份验证失败DNS劫持APP Bug服务端Bug协议不匹配车机升级中功能禁用案例3:基于SQL进行指标治理(*)|select a as LabelKey,approx_distinct(b)as 唯一数,count(1)as 总数,arbitrary(
16、b)as LabelValue采样 from(SELECT a,b FROM sls-mall-k8s-metrics.prom,UNNEST(split_to_map(_labels_,|,#$#)AS t(a,b)where _name_!=and regexp_like(_name_,.*)group by a order by 唯一数 desc案例4-1:多数据类型关联分析案例4-2:带状态的流式异常检测可观测成熟度模型监控监控数据查询数据查询自动化观测自动化观测监控大盘告警系统监控数据全类型数据统一存储管理实时查询能力ITIT可观测可观测服务健康度大盘故障根因分析系统稳定性提升自动故障发现自动根因定位持续改进能力L1L1L2L2预测预测&提升提升故障预测定位/修复建议减少故障间隔MTBFL3L3L4L4L5L5谢谢Q&A