1、中国软件技术大会CHINA SOFTWARE TECHNOLOGY CONFERENCE分布式应用的监控指标分布式应用的监控指标分析与解读分析与解读Tetrate.io Tetrate.io 企业企业级级Service MeshService Mesh企业提供商企业提供商Core Team前Google Istio PM LeadIstio first EngineerIstio Co-creater from VMWareEnvoy Core maintainerSkyWalking Founder and PMC member分布式系统监控领域什么是分布式追踪分布式追踪分布式追踪!=Ope
2、nTracingOpenTracing CNCF OpenTracing 不是规范 不是数据格式 不包含如何增强 只是一个API层,不包含如何进行instrumentation.Supporting OpenTracing=Supporting some API libraries.In Java,.net core,php,nodejs,the top and almost all commercial APM products based on auto instrumentation.Just do the manual instrumentation in certain circum
3、stances.SkyWalking is one of the only open source tracing systems where usability and user interface have been a focus,something missing in most open source projects,Making tracing and APM more easily used by developers and operations team is a key goal which makes Apache SkyWalking a project to wat
4、ch.Jonah Kowall,Chief Technology Officer at Kentik,and former research Vice President at GartnerSkyWalking!=Zipkin+Auto instrument agentSkyWalking专注在APM上,意味着更关注监控指标,拓扑图,告警以及多维度监控模式SkyWalking HandbookSkyWalking Handbook 预计于预计于20202020年出版年出版 超过180 代码贡献者,来自云厂商,ICT,航空,银行,电商,AI,金融保险,电信等各个领域。包括阿里巴巴、华为等国内大
5、厂,以及来自北美、印度和西班牙的贡献者。超过100 公司公开案例显示正在使用SkyWalking,有几十家公司员工向项目贡献代码接近30位贡献者,每月贡献超过8千行代码 29 位官方committer(22 PMC成员).每月有多场演讲和BlogCommunity Over Code支持多种监测方式 Java,.NetCore,PHP,Nodejs语言自动探针 Golang手动探针 支持以Istio和Envoy为核心的ServiceMesh 支持拓扑图自动识别 支持多维度指标 支持告警 支持分布式追踪 支持指标比较和root cause诊断SkyWalking功能领域SkyWalking Ja
6、va自动探针Running with Ai-agent,Pseudocode OnlyAOP(Aspect Oriented Programming)in byte-code level.Auto-instrumentation mechanism.Manipulate codes at runtime.SkyWalkingSkyWalking基本基本概念概念 逻辑名称Service A和Service B Pid1为Service A instance,Pid2、pid3为Service B instance/prod/order/id,/pay/account/id被称为endpoint如何监控如何监控分布式系统分布式系统?拓扑为先拓扑为先拓扑自动感知拓扑自动感知=架构设计终极验收架构设计终极验收直接依赖直接依赖 全全局拓扑局拓扑服务间性能指标网络故障Apdex,应用性能评估指标从拓扑深入从拓扑深入响应时间热力图响应时间热力图 与与 百分位数百分位数长尾效应长尾效应成功率,流量与平均响应时间系统吞吐能力指标比较潜在性能隐患分布式追踪找到需要的慢链路1.找到慢Endpoint2.找到慢Trace3.前往Trace视图分布式追踪慢单点分布式追踪访问频次过高分布式追踪深度问题