上海品茶

陈臻--gala-gopher-openEuler基于eBPF的全栈可观测方案及其实践.pdf

编号:161345 PDF 10页 1.92MB 下载积分:VIP专享
下载报告请您先登录!

陈臻--gala-gopher-openEuler基于eBPF的全栈可观测方案及其实践.pdf

1、e B P F 交 流 研 讨第二届 eBPF开发者大会w w w.e b p f t r a v e l.c o m中 国 西 安gala-gopher:openEuler基于eBPF的全栈可观测方案及其实践第二届 eBPF开发者大会w w w.e b p f t r a v e l.c o m中 国 西 安第 二 届 e B P F 开 发 者 大 会背景介绍背景介绍2023年云原生报告:云原生集群内辅助类应用工作负载上升至63%,其中近80%的企业部署可观测性方案(同比增长29%)变化背后意义:企业在云原生技术实施过程中逐渐意识到可观测性的重要性Gartner将应用可观测性作为十大技术趋

2、势之一,长期看好可观测性驱动企业运营最佳决策。同时指出云原生场景中基础设施观测能力不足,为下一代云原生可观测提供机会与挑战。云原生给可观测带来的变化与挑战变化1:虚拟化单一架构中“一刀切”分层运维(基础设施、应用分层)向云原生场景融合式运维发展,需要提供全栈观测、运维能力;变化2:云原生多技术体系(Linux、CNCF等)、快速演进等特点,要求可观测性解决方案与其应用/基础设施技术栈解耦,提供非侵入观测能力;变化3:云原生高密度、分布式部署方式,要求具备集群运维视角,从业务集群视角逐层/级定界、定位至具体问题根因;第 二 届 e B P F 开 发 者 大 会技术洞察:技术洞察:eBPFeBP

3、F已成为新一代全栈观测技术趋势已成为新一代全栈观测技术趋势 eBPF 是一个能够在内核运行沙箱程序的技术,通过安全注入代码的机制,使得安全的访问、控制内核状态、行为,主流应用场景有可观测、安全、网络。为什么云原生场景适合eBPF可观测能力实施:无侵入:通过eBPF字节注入技术可以快速的进行可编程无侵入式观测逻辑注入,轻松应对云原生场景快速迭代的场景特征。可移植&跨平台:通过标准eBPF ISA、CO-RE等技术可以自适应适配云原生集群内不同Linux版本、不同ISA架构平台场景。全栈:通过eBPF+USDT、eBPF+Tracepoint、eBPF+kprobe等技术,可以覆盖内核、运行时、基

4、础库等大部分基础软件,轻松应对云原生多语言、多网络协议、厚重软件栈的场景特征。为什么选择eBPFOS(syscall、kernel、driver)业务应用(C/C+/Java/Go)中间件实例(DB/Cache/)全栈可观测OS提供应用视角的全栈观测能力第 二 届 e B P F 开 发 者 大 会openEuler gala-gopheropenEuler gala-gopher整体介绍整体介绍探针框架API探针管理配置通道OPTL接口Auto Tag数据收集&缓存探针eBPF探针Java探针Python探针探针部署&参数变更数据上报软件架构软件开销:观测底噪5%,应用性能干扰3%。关键能力

5、 基础设施:I/O时延、错误率、I/O分类统计*、进程I/O、OOM*;网络:进程TCP流量、进程TCP建链、进程TCP状态;应用性能:L7网络RED性能(HTTP(S),Redis,PGSQL,MySQL*等)性能Profiling:OS runtime Profiling,系统关键事件Profiling,系统关键资源Profiling*;备注:*表示暂未开源可观测全景图gala-gopher:融合型非侵入观测技术应用/POD观测容器观测基础设施&中间件观测Linux、网络、存储业务拨测前端监控OpenTelemetryopenTracingcAdvisorNode Exporter?业界主

6、流技术业务观测gala-gopher观测技术技术特征:应用drill-down观测,避免数据孤岛应用性能可观测(覆盖主流协议*)非侵入式,应用零修改高性能,eBPF JIT执行效率更高*网络协议:HTTP 1.X,PG,Redis,MYSQL*内核精细化观测L4/L7层网络观测语言运行时观测在线profiling探针框架技术能力集群内微服务间七层访问RED(吞吐量、时延、错误率)支持微服务之间的访问协议包括:HTTP 1.X,PGSQL,Redis,*Mysql支持加密场景:C/C+语言(OpenSSL 1.1.0/1.1.1)、Java语言(JSSE类库)、python使用场景快速识别微服务

7、应用性能异常第 二 届 e B P F 开 发 者 大 会openEuleropenEuler可观测能力介绍可观测能力介绍1-应用性能2-应用API性能3-应用网络观测4-应用实例拓扑5-应用全栈观测6-磁盘IO观测技术能力 应用维度的TCP性能观测:提供TCP窗口、RTT、SRTT、reordering、ato、建链时延等性能指标;应用维度的TCP/IP异常观测:提供TCP连接粒度的异常监控,包括重传、丢包、TCP oom、收发RST等异常指标;提供Socket异常监控,包括listen队列溢出、syn队列溢出、建链失败次数等统计信息使用场景网络问题诊断,例如通过tcp_link_retra

8、n_packets(TCP重传数)定界网络发生拥塞、丢包,再根据TCP元组信息继续排查基础网络。技术能力基于提供 L4层网络流、负载分担流、L7层网络流、软件部署等信息,构建系统3D 拓扑使用场景精准查看应用依赖的资源范围,快速识别故障半径。技术能力I/O性能:提供进程维度的 I/O操作字节数统计、FD资源占用统计、文件系统(vfs/ext4/overlay/tmpfs)层时延统计,大小I/O操作数量统计、BIO时延、错误统计(虚拟化QEMU进程有意义)等;内存:提供进程维度的pagefault、swap区、脏页、虚拟内存、物理内存等统计。JVM监控:提供jvm线程、java类加载、jvm内存

9、、jvm buffer、gc次数/花费时间等统计。使用场景诊断应用受系统资源影响发生性能波动问题。技术能力Block性能指标,磁盘指标,包括磁盘读写速率、使用率、吞吐量等指标,以及block层驱动、设备的时延、错误统计使用场景IO问题诊断,例如虚拟化场景通过latency_device_max(存储后端的执行时延)来定界IO问题是否发生在HostOS第 二 届 e B P F 开 发 者 大 会openEuleropenEuler可观测能力介绍可观测能力介绍1-Java场景OnCPU火焰图定位性能瓶颈2-C/C+场景定位内存泄漏问题3-Python场景(AI)分析各软件栈内存占比4-Pytho

10、n场景(AI)使用timeline分析GIL锁竞争问题技术能力提供非侵入、零修改的跨栈profiling分析工具,并能够对接pyroscope业界通用UI前端。具备以下几个特点:底噪低:benchmark测试场景,对应用干扰2%。多语言:支持常见开发语言C/C+、python、Go、Rust、Java 多实例:支持同时监控多个进程或容器,UI前端可以对比性分析问题原因。细粒度:支持指定profiling范围,包括进程、容器、Pod。多维度:提供OnCPU、OffCPU、MemAlloc不同维度的应用性Profiling。使用场景支持长期、在线采集系统/应用性能数据,快速代码级诊断包括CPU冲高

11、、内存泄漏(或持续增长)、系统调用异常、资源不足等问题。Tomcat场景底噪测试(吞吐量劣化1%)技术能力ebpf 技术观测线程的关键系统性能事件,并关联丰富的事件内容,从而实时地记录线程的运行状态和关键行为,并在前端界面以时间线的方式进行展示,支持观测的线程事件:文件操作(file)-read/write:读写磁盘文件或网络,可能会耗时、阻塞。-sync/fsync:对文件进行同步刷盘操作,完成前线程会阻塞。网络操作(net)-send/recv:读写网络,可能会耗时、阻塞。锁操作(lock)-futex:用户态锁实现相关的系统调用,触发 futex 往往意味出现锁竞争,线程可能进入阻塞状态

12、。调度操作(sched):这里泛指那些可能会引起线程状态变化的系统调用事件,如线程让出 cpu、睡眠、或等待其他线程等。-nanosleep:线程进入睡眠状态。-epoll_wait:等待 I/O 事件到达,事件到达之前线程会阻塞。使用场景代码级别定位线程间由于资源竞争导致的性能问题。例如:-文件 I/O 耗时、阻塞问题-网络 I/O 耗时、阻塞问题-锁竞争问题-死锁问题第 二 届 e B P F 开 发 者 大 会版本发布节奏版本发布节奏&规划规划规划:1.云原生场景:继续补齐基础设施观测能力,包括容器干扰观测、应用/网络定界观测等方面;2.AI场景:提供CPU/NPU全栈观测能力,包括AI

13、训练集群慢节点观测能力,NPU关键资源Profiling能力等。openEuler 24.03 LTSopenEuler 22.03 LTS SP4openEuler 24.09eBPF全栈可观测:应用级下钻全栈观测能力,提供应用协议性能、应用粒度的网络、I/O、CPU、MEM观测能力容器场景eBPF全栈观测,应用/OS/容器网络分钟级定界容器干扰检测,分钟级完成业务干扰源(CPU/IO)识别与干扰源发现。第 二 届 e B P F 开 发 者 大 会gala-gophergala-gopher在华为云在华为云StackStack网络中的实践与应用网络中的实践与应用全栈一体化监控交互拓扑可视网

14、络传输性能主机服务性能ACK时延TCP重传TCP握手时间零窗口连接数连接重置流量路径可视路况质量可视吞吐量分布时延检测丢包检测节点负载分析出入端口可视指标联动分析应用随流检测故障诊断流拨测流抓包审计/核查网络随流检测主动链路监控全链路故障诊断133 calls|200ms33 calls|120ms31 calls|102ms31 calls|102ms31 calls|102ms31 calls|102ms503 calls|568ms29 calls|1014ms31 calls|102msapi-gwuser-mgrcache-mgrproduct-mgr应用视角api-gwGuest

15、OSGuest OS0%/8us3%/20us0%/10us网络视角vSwitchvSwitchvSwitchvSwitchvSwitchvSwitchVPCsubnetsubnetsubnet0%/8us0%/8us0%/8us0%/8us0%/8us0%/8us0%/15us0%/15us0%/15us0%/15usELBELB CVSCloudNetDebug运维工具CloudNetDebug运维能力不足:事后运维:只能在问题发生之后手动触发拨测,非实时流量观测;性能受限:频繁拨测造成的资源耗费和性能损耗较大,不适合实时观测gala-gopher带来的价值:低底噪网络流量指标采集,实时发

16、现异常流量全栈观测快速厘清应用/网络问题应用资源关键指标波动可回溯第 二 届 e B P F 开 发 者 大 会gala-gophergala-gopher在华为云在华为云StackStack网络中的实践与应用网络中的实践与应用监控策略:使用eBPF监控ELB数据面高频故障组件ELB-Nginx,采集四层网络通信状态指标数据,并在指标异常时进行特殊标记、告警。增强ELB现网监控和问题定位定界的能力,补齐NGINX网元没有4层相关连接指标监控的缺陷,同时补充健康检查离线场景定位定界的能力。问题原因策略客户通过7层elb压测,三万条有几十条报错【后端业务问题】后端超时配置错误导致回复reset报文

17、。取代抓包,偶现故障记录:Gala-gopher可以采集到socket数据中的reset报文,拓扑上指标可直接体现后端业务异常,同时可生成系统告警。apic 服务异常,客户反馈影响某实时交易的业务【ELB数据面问题】Nginx进程单核卡死关键指标波动回溯查询:1.采集进程CPU占用率可知nginx进程异常;2.Nginx和后端服务的数据量减小,时延增大。客户某业务经过elb达不到性能要求【ELB性能问题】后端服务器抓包判断elb负载合理,最终原因是服务经过云外带宽受限流量分布快速厘清:拓扑可以直接体现Nginx和后端服务器的连接情况和数据量,判断负载均衡是否合理。MetricsValuereceive_rsts 5tcp_oom0 xxx123ELB-Nginx拓扑

友情提示

1、下载报告失败解决办法
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。

本文(陈臻--gala-gopher-openEuler基于eBPF的全栈可观测方案及其实践.pdf)为本站 (张5G) 主动上传,三个皮匠报告文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三个皮匠报告文库(点击联系客服),我们立即给予删除!

温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。
客服
商务合作
小程序
服务号
会员动态
会员动态 会员动态:

138**56...  升级为至尊VIP  wei**n_... 升级为至尊VIP

wei**n_... 升级为高级VIP  wei**n_... 升级为至尊VIP 

 wei**n_... 升级为高级VIP wei**n_...  升级为标准VIP

 冯**  升级为至尊VIP wei**n_... 升级为至尊VIP 

 wei**n_... 升级为标准VIP wei**n_...  升级为标准VIP

wei**n_... 升级为高级VIP  old**nt... 升级为至尊VIP

 wei**n_... 升级为至尊VIP 150**62... 升级为标准VIP 

俊**... 升级为标准VIP  微**... 升级为至尊VIP

131**94...  升级为高级VIP  wei**n_... 升级为高级VIP

微**... 升级为至尊VIP    151**34... 升级为高级VIP

wei**n_... 升级为标准VIP  186**03... 升级为至尊VIP

wei**n_...  升级为至尊VIP  138**97... 升级为高级VIP

报**...  升级为至尊VIP   177**40... 升级为至尊VIP

 189**24... 升级为高级VIP Jo**g 升级为至尊VIP 

董杰  升级为高级VIP 159**76...  升级为至尊VIP

 wei**n_...  升级为标准VIP  186**81... 升级为高级VIP

198**12...  升级为高级VIP  周阳 升级为至尊VIP 

 微**... 升级为标准VIP  wei**n_...   升级为高级VIP

wei**n_...  升级为标准VIP 137**77... 升级为高级VIP 

 Ste** S... 升级为至尊VIP ro**i 升级为高级VIP 

186**53...   升级为至尊VIP 403**08... 升级为标准VIP  

wei**n_...  升级为标准VIP wei**n_...  升级为高级VIP

wei**n_... 升级为高级VIP   wei**n_... 升级为至尊VIP

189**86... 升级为高级VIP  wei**n_...  升级为标准VIP 

微**...   升级为标准VIP   wei**n_... 升级为至尊VIP

骑**...  升级为高级VIP wei**n_... 升级为标准VIP

 wei**n_...  升级为标准VIP 138**22... 升级为标准VIP 

wei**n_... 升级为标准VIP  186**23... 升级为至尊VIP

 gus**o8... 升级为至尊VIP 159**77...  升级为至尊VIP

Kra**Ma...  升级为高级VIP  wei**n_...  升级为高级VIP 

 SMA**CH  升级为至尊VIP 130**92... 升级为至尊VIP 

wei**n_... 升级为高级VIP   wei**n_... 升级为高级VIP

 181**79... 升级为高级VIP wei**n_... 升级为标准VIP 

wei**n_...  升级为至尊VIP Je**er  升级为高级VIP

 182**85... 升级为至尊VIP  小**  升级为高级VIP

 wei**n_...  升级为标准VIP 186**69... 升级为高级VIP 

陆 升级为至尊VIP   wei**n_...  升级为标准VIP

微**...  升级为标准VIP  186**99... 升级为高级VIP  

 wei**n_... 升级为高级VIP   Nic**eZ 升级为至尊VIP

 wei**n_... 升级为高级VIP 130**34...  升级为标准VIP

189**86... 升级为至尊VIP wei**n_...  升级为标准VIP 

陶**...  升级为标准VIP  159**63... 升级为至尊VIP  

wei**n_...  升级为标准VIP  wei**n_...   升级为至尊VIP

wei**n_...  升级为高级VIP  江**...  升级为高级VIP

186**32...  升级为高级VIP wei**n_...  升级为至尊VIP

微**... 升级为至尊VIP  182**17... 升级为标准VIP 

 wei**n_... 升级为标准VIP 138**41... 升级为至尊VIP 

 138**39... 升级为至尊VIP  wei**n_... 升级为至尊VIP 

wei**n_... 升级为标准VIP   136**29... 升级为标准VIP

186**28... 升级为标准VIP   186**28... 升级为标准VIP