《陈诗雁-LLM 在操作系统运维场景的现状、挑战和实践.pdf》由会员分享,可在线阅读,更多相关《陈诗雁-LLM 在操作系统运维场景的现状、挑战和实践.pdf(26页珍藏版)》请在三个皮匠报告上搜索。
1、LLM在操作系统运维场景的现状、挑战和实践陈诗雁阿里巴巴技术专家陈诗雁阿里巴巴 智能运维技术专家目前致力于阿里超大规模数据中心的稳定性和可靠性建设、数据分析和信息挖掘能力提升、自动化和智能化运维等技术领域的研发与工程化落地。主要研究领域包括:Linux内核研发,系统稳定性维护,百万级系统自动化、智能化运维技术。请替换您的照片目录contents01操作系统运维现状和痛点02LLM技术带来新的机遇和挑战03LLM技术在操作系统运维的实践04智能运维开源社区的共创与发展PART 01操作系统运维现状和痛点GOPS 全球运维大会 2024 深圳站操作系统运维现状和痛点OS运维现状 深度诊断工具缺乏
2、业务故障驱动 自动化程度低 人力成本高OS运维痛点 技术门槛高 经验依赖大 组件关联复杂 问题定位周期长 自动化困难目前主流企业使用的开源的运维工具,都是基于常规的系统指标进行监控的,从阿里巴巴这几年的双十一保障经验得出,常规的监控指标在规模性大型IT系统显得监控能力不足在操作系统社区,管理运维工具是必不可少的能力,需要一个有竞争力的运维产品来服务未来庞大的用户群体操作系统和开源社区有大量的运维管理工具,但是工具碎片化严重,没有形成统一的系统化的竞争力,没有系统化的运维平台支撑用户的日常运维管理,用户对于操作系统运维都是用到哪学到哪。国内的OSV厂商还不具备提供系统化运维工具的能力,将我们多年
3、的双十一操作系统运维经验产品化的输出后,可以形成SIG-产品-合作伙伴-用户-社区开发者-SIG的良好的生态循环操作系统运维平台SysOMGOPS 全球运维大会 2024 深圳站操作系统运维的复杂性示例线上问题:线上问题:redisredis出现出现20%20%的连接超时的连接超时应用ping延迟中断延迟监控组件cat cgroup proccgroup泄漏存储组件shm残留结论:存储组件使用结论:存储组件使用shmshm有残留导致有残留导致应用诊断rtrace网络诊断schedmoni调度诊断memcgofflinememcg诊断OS运维难点、痛点:OS深度诊断工具 OS专业运维人员 业务组
4、件复杂 领域交叉影响 影响范围广泛改进点:运维工具辅助 信息关联汇总 诊断联动 结果易读 健康检查、告警GOPS 全球运维大会 2024 深圳站操作系统一体化运维平台SYSOM操作系统问题支持稳定性问题分析系统诊断工具AIOPS 阿里云操作系统稳定性支持 双十一操作系统运维经验 稳定性问题分析报告 完善工具覆盖度,改善工具 保障工具服务服务效率 SYSOM一键诊断 深入诊断工具 已知问题自动检测脚本指标数据、日志分析火焰图分析智能健康度智能机器人 告警、问题流程 LLM咨询答疑 诊断copilot系统诊断AIOPS数据分析问题流程平台协作LLM自动化智能化智能机器人SYSOM自动化、智能化操作
5、系统运维平台GOPS 全球运维大会 2024 深圳站操作系统一体化运维平台SYSOMPART 02LLM技术带来新的机遇和挑战GOPS 全球运维大会 2024 深圳站大语言模型LLM聊天助手写作助手知识问答助手会议内容总结知识库文档总结报告/文章/邮件等工作性文本总结LLMLLM核心应用场景核心应用场景文档命名实体提取关键词提取标签生成敏感内容审核情感分析评价分类文本语义检索图片语义检索 视频语义检索文本纠错 文本润色文本翻译生成Generate总结Summarize提取Extract分类Classify检索Search改写Rewrite问题分类产品语义检索 简历语义检索信息分析咨询答疑诊断引
6、导诊断总结OSOS智能运维智能运维GOPS 全球运维大会 2024 深圳站LLM在操作系统运维的应用PART 03LLM技术在操作系统运维的实践GOPS 全球运维大会 2024 深圳站OS Copilot 阿里云操作系统大模型智能助手专业拥有OS Copilot,有关于操作系统的问题它都可以帮您回答。高效在系统诊断、调优、编程等场景,OS Copilot都可以帮您处理。智能OS Copilot通过不断学习您的使用习惯,提高准确性并做出预测。协同通过OS Copilot管理阿里云上的资源,享受阿里云上一体的服务OS Copilot是基于大模型构建的OS智能助手。它具有自然语言问答、辅助命令执行、
7、系统运维调优、阿里云产品管理、自定义模型配置等功能,帮助用户更好地使用Linux,提升阿里云的使用体验。GOPS 全球运维大会 2024 深圳站OS Copilot辅助命令执行不同于Windows可视化的桌面操作系统,Linux操作系统主要通过黑屏下的命令行来进行操作系统日常的使用及维护等操作。而复杂繁多的命令行,对于Linux小白用户来说是入门Linux的第一道门槛。OS Copilot提供辅助命令执行功能,让Linux的小白用户也能迅速上手简单的Linux的使用。GOPS 全球运维大会 2024 深圳站OS Copilot阿里云产品管理阿里云CLI(Command Line Interfa
8、ce)是基于阿里云开放API 建立的管理工具。借助此工具可通过调用阿里云开放API 来管理阿里云产品。OS Copilot支持可以让用户在操作系统内完成阿里云CLI的调用,通过命令行简单进行ECS信息及实例id等的查询。GOPS 全球运维大会 2024 深圳站OS Copilot系统运维和调优在操作系统使用中的重要场景是系统的运维和调优,操作系统的表现对于业务有着非常大的影响。虽然市面上有很多的相关运维和调优产品,但是系统的运维和调优需要相关人员有相关Linux内核专业知识的积累及长期的问题处理经验,而具备相关能力的人才是非常有限的。Copilot可以通过自然语言调用相关系统运维及调优工具,特
9、别是阿里云自研的系统工具,帮助用户轻松使用系统工具定位系统问题,提升系统性能表现。GOPS 全球运维大会 2024 深圳站OS CopilotOS Copilot分析系统进程,通过用户命令和执行结果,辅助用户理解linux命令和执行结果,分析系统的运行情况和系统状态。GOPS 全球运维大会 2024 深圳站系统运维中的Copilot请分析以下日志异常的原因:BUG:soft lockup-CPU#10 stuck for 22s!GC Thread#16:45479?这个日志异常是由于CPU#10在22秒内无法响应操作,导致系统出现了软锁定。这通常是由于系统资源不足或者代码中出现了死循环等问题
10、所导致的。具体原因需要进一步分析GC Thread#16:45479线程的工作情况和系统负载情况,可能需要检查线程的代码实现、内存使用情况以及CPU占用情况等,并找到对应的解决方案,例如增加系统资源、优化代码等。请分析以下日志文件是否有异常并给出原因或解决方案:dmesg.txt(100MB)这个日志文件存在以下严重异常日志:BUG:soft lockup-CPU#10 stuck for 22s!GCThread#16:45479?原因是系统可能由于系统资源不足或者GC Thread代码中出现了死循环等问题所导致的。同时检查到日志中的异常调用栈匹配已知问题#bug 12348,可用hotfi
11、x 12344修复该问题。请分析以下IP机器是否有异常并给出原因或解决方案:11.233.44.4该IP机器存在以下严重异常日志:BUG:soft lockup-CPU#10 stuck for 22s!GCThread#16:45479?Memory cgroup out of memory:Kill process 原因是同时检查到日志中的异常调用栈匹配已知问题#bug 12348,可用hotfix 12344修复该问题。可以使用sysak oomcheck进一步诊断oom的原因。【使用链接】LLM机器人智能机器人智能诊断机器人GOPS 全球运维大会 2024 深圳站诊断总结unregis
12、ter_netdevice:waiting for vet*0*to become free.Usage count=21、源码文件:net/core/dev.c2、打印函数:netdev_wait_allrefs3、告警等级:emerg4、领域:网络5、类型:夯机6、commit log:7、历史问题、解决方案Memory cgroup out of memory:Kill process oomcheckPrompt:出现以下异常日志:*该日志背景信息:*现有OS深度诊断工具1、oomcheck:可以诊断以下内存问题*2、loadtask:可以诊断以下调度问题*诊断引导LLMoomchec
13、k result诊断总结LLMmessage诊断报告问题描述+对话信息+系统信息+诊断信息Prompt engineering(提示词组装模块)OS信息管理模块Sysom 诊断功能PART 04智能运维开源社区的共创与发展GOPS 全球运维大会 2024 深圳站操作系统智能运维 智能监控开发测试发布运行监控问题诊断复盘优化GOPS 全球运维大会 2024 深圳站故障演练和运维产品评测l故障用例库共建,丰富、完善测评项目l业务场景共建,提供多维度测评分析,体现产品场景化优势竞争力l标准锁定,公平竞争l运维产品在竞争中提升技术,得到客户、业界、测评三方认可l产学研技术创新、数据收集、场景验证、落地转化全流程覆盖GOPS 全球运维大会 2024 深圳站系统运维共创龙蜥社区系统运维SIG钉钉微信号:openanolis_assis添加后申请加入系统运维SIGOS Copilot钉钉微信系统运维联盟(https:/ 全球运维大会 2024 深圳站Thanks高效运维社区DevOps 时代荣誉出品感谢大家观看THANKS