《sysAK(青囊)介绍:系统运维工具集-OpenAnolis 龙蜥社区论坛(16页).pdf》由会员分享,可在线阅读,更多相关《sysAK(青囊)介绍:系统运维工具集-OpenAnolis 龙蜥社区论坛(16页).pdf(16页珍藏版)》请在三个皮匠报告上搜索。
1、sysAK(青囊)介绍张毅阿里云高级技术专家系统运维工具集Contents目录01What is sysAK02典型工具介绍03开源What is sysAK01系统监控针对各种系统资源(CPU、内存、网络、文件IO、内核管理结构等)提供更精细化的资源监控,帮助业务运维实现细粒度的运维调度,高效的运用资源诊断典型问题如负载异常、网络抖动、内存泄漏、io毛刺、性能瓶颈、应用异常等,针对性的提供工具,同时尽量减少工具的专业性,让用户更易使用和解读。主要针对3种情况提供系统介入能力:故障注入、系统恢复和故障隔离System Analyse Kit来自于阿里百万服务器的多年运维经验,通过对这些经验进行
2、抽象总结出典型场景,针对不同的运维需求提供了一系列工具,形成统一的产品进行服务。工具集包含了很多强大的底层系统运维能力,这些工具融合到了阿里巴巴不同产品的运维平台中,实现高效的自动化运维。系统诊断系统介入兼顾专业与普通用户专业工具集聚合多个专业工具多层次自动聚合分析,输出普通用户关心的结果减少侵入性高性能实现工具集整体资源(CPU、内存)控制框架易集成可单功能发布Json格式输出可作为第三方运维平台插件更多特点典型工具介绍02Load分析内存资源分析IO压力分析CPU压力分析进程堆栈分析Load高自动分析工具loadtask系统错误分析在线分析模式异常自动分析模式Load高原因以及触发问题的t
3、op任务资源依赖内存泄漏分析数据特征分析Rcu异常检测跟踪分配释放函数找出泄漏对象内核内存泄漏自动分析工具memleakSlab泄漏Buddy泄漏泄漏的对象及分配函数现场Vmalloc泄漏用户态锁竞争分析工具ulockcheck锁竞争类型持有过长持有者长时持有监控竞争激烈竞争热点分析结果持有过长持有者时长排序持有者堆栈详情竞争频繁睡眠堆栈火焰图睡眠类型/频率网络时延检测工具PingTrace数据聚合,给出时延精确原因PingTrace客户端自定义数据全链路时延分析网络链路报文时间戳系统中断延迟调度延迟PingTrace服务端应用性能瓶颈快速界定工具appscan进程内存使用探测进程cpu占用率
4、探测进程agefault频率探测内存回收影响分析内存碎片影响分析内核态占用分析用户态占用分析阻塞点分析其他干扰(中断、抢占等)分析CPU内存文件访问探测进程直接io频率探测IO带宽分析IO 异常影响分析文件IO进程网络行为探测进程网络流量分析网络连接状态分析网络带宽分析网络丢包影响分析网络判断对应资源使用上是否存在瓶颈运维知识库ossre_clientossre_client已知问题识别系统指标检查主机健康巡检系统配置检查ossre是一个自动化的OS诊断专家系统,其client端集成到了sysAK中,为后端中心服务器提供数据,同时也可离线处理部分问题。开源03开放的技术架构Ko构建Python appLinux kernelmodule工具编译框架C构建Go构建Bpf appEbpf构建Shell scriptApp(c/go)sysAK开发架构通用库C libGo moduleKernel api开源sysAK已在龙蜥社区开源,欢迎加入系统运维SIG、跟踪诊断SIG一起共建。https:/