上海品茶

陈诗雁-AI在操作系统运维中的应用和实践.pdf

编号:159307 PDF 27页 3.46MB 下载积分:VIP专享
下载报告请您先登录!

陈诗雁-AI在操作系统运维中的应用和实践.pdf

1、AI在操作系统运维中的在操作系统运维中的应用和实践应用和实践陈诗雁龙蜥社区系统运维SIG Contributor阿里云技术专家操作系统运维现状和痛点OS运维现状深度诊断工具缺乏业务故障驱动自动化程度低人力成本高OS运维痛点技术门槛高经验依赖大组件关联复杂问题定位周期长自动化困难目前主流企业使用的开源的运维工具,都是基于常规的系统指标进行监控的,从阿里巴巴这几年的双十一保障经验得出,常规的监控指标在规模性大型IT系统显得监控能力不足在操作系统社区,管理运维工具是必不可少的能力,需要一个有竞争力的运维产品来服务未来庞大的用户群体操作系统和开源社区有大量的运维管理工具,但是工具碎片化严重,没有形成统

2、一的系统化的竞争力,没有系统化的运维平台支撑用户的日常运维管理,用户对于操作系统运维都是用到哪学到哪。国内的OSV厂商还不具备提供系统化运维工具的能力,将我们多年的双十一操作系统运维经验产品化的输出后,可以形成SIG-产品-合作伙伴-用户-社区开发者-SIG的良好的生态循环操作系统运维平台操作系统运维平台SysOMSysOM操作系统一体化运维平台SYSOM操作系统问题支持稳定性问题分析系统诊断工具AIOPS阿里云操作系统稳定性支持双十一操作系统运维经验稳定性问题分析报告完善工具覆盖度,改善工具保障工具服务服务效率SYSOM一键诊断 深入诊断工具已知问题自动检测脚本指标数据、日志分析火焰图分析智

3、能健康度智能机器人告警、问题流程LLM咨询答疑诊断copilot系统诊断AIOPS数据分析问题流程平台协作LLM自动化智能化智能机器人SYSOM自动化、智能化操作系统运维平台目录01AI在宕机分析领域应用02监控指标的异常分析03监控日志的异常分析AI在宕机分析领域应用01什么是宕机宕机的表现内核输出宕机日志可通过配置kdump,生成内核的core dump宕机的影响重启、业务中断难提前监控,难分析重复问题不断发生,造成更大影响main宕机,指操作系统无法从一个严重系统错误中恢复过来,或系统硬宕机,指操作系统无法从一个严重系统错误中恢复过来,或系统硬件层面出问题,以致系统长时间无响应,而不得不

4、重新启动计算机件层面出问题,以致系统长时间无响应,而不得不重新启动计算机的现象。它属于系统运作的一种异常现象,任何电脑系统会出现这的现象。它属于系统运作的一种异常现象,任何电脑系统会出现这种情况。种情况。宕机匹配准确率仍需提升不同内核版本输出差异,分析困难单纯字符串匹配准确度低纯调用栈匹配存在缺陷新宕机新宕机特征提取特征提取已知宕机匹配模型TF-IDF计算权重计算权重计算匹配结果和排名计算匹配结果和排名构建模型构建模型构建词袋构建词袋TF-IDF计算权重计算权重Multinomial Naive Bayes宕机类型宕机类型数据处理数据处理加载模块加载模块内核版本内核版本执行命令执行命令关键调用

5、栈关键调用栈内核异常日志内核异常日志内核异常日志调用内核异常日志调用栈栈数据选取数据选取数据清洗数据清洗数据转换数据转换利用处理输出梳理实际1k+宕机兼容多种内核版本高匹配率、低延迟匹配不同调用栈的相同问题新手难分析海量信息难搜索内核补丁修复过程难如何找到一个宕机解决方案搜索引擎bugzillamailing listgit commit包含关键信息补丁占比少少无法只通过调用栈匹配宕机补丁范围有限有限有效筛选提交格式没有标准无法模式匹配Linux主线补丁现状无调用栈20%有调用栈80%宕机补丁包含调用栈占比宕机补丁2%其他补丁98%宕机内核补丁占比提交格式和信息都不同数据来源于 github

6、中linux仓库 master 分支中的所有提交记录的分析统计github地址:https:/ COMMIT基于莱文斯坦距基于莱文斯坦距离的离的TF-IDF提取异常日提取异常日志志时间信息提时间信息提取取补丁内容补丁内容本地处理&匹配词向量TF-IDF余弦相似自然语言转换宕机分类特征提取数据清洗模式设计补丁子模块补丁子模块提取异常调提取异常调用栈用栈提取异常调用提取异常调用栈栈异常日志自异常日志自然语言转换然语言转换Sentence Transformers转换成嵌入向量转换成嵌入向量计算加权得分计算加权得分提取内核版提取内核版本本筛选符合时间段筛选符合时间段的的commit宕机分类宕机分类宕

7、机日志提宕机日志提取取commit日志提取日志提取中间处理中间处理调用栈匹配调用栈匹配时间信息增强过滤时间信息增强过滤输出目标输出目标commit通过宕机日志搜索upstream commit结果Top10Top10 average rankAliyunSyzkallerAliyunSyzkaller栈匹配+Sentence-BERT44/95(46.3%)1122/2739(41.0%)2.17072.4144基于加入位置信息的TF-IDF的栈匹配40/95(42.1%)777/2739(28.4%)2.80002.1737基于TF-IDF的栈匹配40/95(42.1%)765/2739(2

8、7.9%)2.85002.2235Sentence-BERT7/95(7.4%)597/2739(21.8%)4.85713.4522数据来源于公司内部测试数据监控指标的异常分析02指标异常检测指标的关联分析异常的类聚分析监控指标异常分析监控指标分析系统阈值方法固定阈值法同环比阈值法统计方法建模方法指标异常检测方法标准差法指标离群统计法时间序列法神经网络监控指标关联分析根因分析:1、指标关联,找出最相关的异常指标 相似性算法2、启动异常诊断工具诊断根因 指标信息关系表 图片来源于在自己测试集群本地部署龙蜥社区SysOM的监控截图数据预处理相似性度量相似性算法数据缺失数据严重离群序列时间范围选取

9、斜率断崖情况配置限制导致指标异常找出最相关的监控指标监控指标关联分析基于位置的指标基于数值的指标闵可夫斯基距离马氏距离参数距离其他(编辑距离、汉明距离)Frechet distanceDTWHausdorffERPNEUTS(时间序列的神经网络度量学习)监控日志的异常分析03异常日志提取和降噪异常日志分析异常日志诊断监控日志异常分析日志匹配算法大语言模型LLMDiagnose toolsmetalog_dict元日志字典prm num参数个数level日志等级field所属领域lognum_list编码表含多变量的程序日志匹配日志存储结构 插桩算法(编辑距离算法演变)海量日志中高效提取关键日志

10、日志初筛+次筛 单词编码(hash)桶排序查找异常日志提取和降噪聊天助手写作助手知识问答助手会议内容总结 知识库文档总结报告/文章/邮件等工作性文本总结LLMLLM核心应用场景核心应用场景文档命名实体提取 关键词提取标签生成敏感内容审核 情感分析评价分类文本语义检索 图片语义检索 视频语义检索文本纠错文本润色文本翻译生成生成Generate总结总结Summarize提取提取Extract分类分类Classify检索检索Search改写改写Rewrite问题分类产品语义检索简历语义检索大语言模型LLM日志分析日志分析诊断诊断请分析以下日志异常的原因:BUG:soft lockup-CPU#10

11、stuck for 22s!GC Thread#16:45479?这个日志异常是由于CPU#10在22秒内无法响应操作,导致系统出现了软锁定。这通常是由于系统资源不足或者代码中出现了死循环等问题所导致的。具体原因需要进一步分析GC Thread#16:45479线程的工作情况和系统负载情况,可能需要检查线程的代码实现、内存使用情况以及CPU占用情况等,并找到对应的解决方案,例如增加系统资源、优化代码等。请分析以下日志文件是否有异常并给出原因或解决方案:dmesg.txt(100MB)这个日志文件存在以下严重异常日志:BUG:soft lockup-CPU#10 stuck for 22s!GC

12、 Thread#16:45479?原因是系统可能由于系统资源不足或者GC Thread代码中出现了死循环等问题所导致的。同时检查到日志中的异常调用栈匹配已知问题#bug 12348,可用hotfix 12344修复该问题。请分析以下IP机器是否有异常并给出原因或解决方案:11.233.44.4 该IP机器存在以下严重异常日志:BUG:soft lockup-CPU#10 stuck for 22s!GC Thread#16:45479?Memory cgroup out of memory:Kill process 原因是同时检查到日志中的异常调用栈匹配已知问题#bug 12348,可用hot

13、fix 12344修复该问题。可以使用sysak oomcheck进一步诊断oom的原因。【使用链接】LLM机器人智能机器人智能诊断机器人LLM日志分析诊断示例宕机智能搜索摒弃单纯调用栈匹配使用模型匹配结合Sentence-BERT和语义分析的upstream commit搜索指标异常根因分析海量日志智能搜索多场景指标异常检测关键指标的关联算法指标异常和诊断工具联动指标类聚快算法速定位已知问题日志降噪算法快速提取关键日志LLM辅助分析AI和诊断工具的智能联动总结SysOM-操作系统集群一体化运维平台交互诊断修复告警监控机器管理安全中心龙蜥社区系统运维联盟(SOMA)介绍联盟成员单位平台或系统厂

14、商及理事单位运维厂商科研院校及事业单位p 故障演练系统建设p 故障场景和案例开发p 评测系统开发,评测项建立p 产品demo系统开发p 联盟官网建立p 技术创新与合作p 资金、人力等投入p 评测标准和评测项建立p 年度/半年度运维行业报告发布p SysOM 技术创新与项目合作p 微服务业务系统建立p 联盟相关系统建设p 联盟相关系统建设p 服务器等资源提供p 用户需求引导、承接、流转p 相关文档组织p 资金、人力等投入p 活动组织、联合宣传SOMA(System Operation&Maintenance Alliance)龙蜥社区系统运维联盟是由龙蜥社区联合平台厂商、运维厂商、高校及科研院所

15、、事业单位和广大行业用户等,按照平等、自愿的原则,发起并成立的,以推动系统运维技术进步、促进产学研合作为目的的非营利性组织。联盟通过建立一套故障演练平台和运维产品力评测系统,为平台厂商、运维厂商和广大客户建立起沟通的桥梁和纽带,让客户对运维产品拼图有全局认识;同时通过产业分析和实践报告及运维技术交流合作,提升联盟成员在国内外的影响力,促进运维产业健康和高效发展。联盟将围绕故障演练、系统评测、技术创新三个方向推动产业发展和技术进步。u 基建任务:联盟官网入口,宣传和发布渠道;产品体验系统u 标准和报告:评测标准、评测项,评测报告模板制定,年度/半年度运维行业报告发布u 系统搭建:故障演练系统、产

16、品评测等系统开发u 交流合作:基于 SysOM 的项目合作(故障预测、机器学习等),每年举办运维联盟为品牌的峰会、Meetup等活动联盟宗旨联盟任务联盟组织l 组织机构:联盟由“龙蜥运维委员会”管理,负责确定联盟的制度、发展方向等管理事务,首批成员由10+家成员单位和龙蜥社区委派担任;联盟设执行秘书数名,由龙蜥社区技术委员和运营委员及若干联盟代表组成,组织和落实联盟工作。l 联盟治理:定期召开月度会议,由联盟成员单位轮流组织,表决参照按社区章程规定。运维联盟官网(https:/ 等工具节点端业务系统(购票、售票、余额查询等微服务业务,部署在ACK 集群,通过数据库访问)产品力评测系统故障演练界面(注入故障类型,展示演练结果)功能选择(故障演练、产品评测、产品Demo)评测系统界面(选择评测项,评测数据分析、输出评测报告)操作界面演练和评测系统业务和运维系统产品Demo界面(选择运维产品,数据展示,告警等)采集业务和系统数据Prometheus等数据接入监控等数据采集业务数据故障注入已知故障类型及预期行为输出故障场景评测数据SysOM 等工具中心端故障演练数据THANKS

友情提示

1、下载报告失败解决办法
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。

本文(陈诗雁-AI在操作系统运维中的应用和实践.pdf)为本站 (张5G) 主动上传,三个皮匠报告文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三个皮匠报告文库(点击联系客服),我们立即给予删除!

温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。
客服
商务合作
小程序
服务号
会员动态
会员动态 会员动态:

189**56... 升级为高级VIP 微**...  升级为标准VIP

Han**Ch...  升级为至尊VIP  wei**n_...  升级为标准VIP

wei**n_... 升级为高级VIP  微**...  升级为标准VIP

 wei**n_... 升级为至尊VIP 130**29... 升级为高级VIP 

188**08... 升级为至尊VIP   wei**n_...  升级为标准VIP

 微**...  升级为标准VIP   wei**n_... 升级为高级VIP

 wei**n_... 升级为标准VIP 181**21...  升级为至尊VIP

 185**71... 升级为标准VIP   张** 升级为标准VIP

186**18...  升级为至尊VIP  131**52... 升级为至尊VIP

 137**75... 升级为高级VIP  189**04... 升级为至尊VIP  

185**62... 升级为至尊VIP   Joc**yn... 升级为高级VIP 

 微**... 升级为至尊VIP  176**03...  升级为至尊VIP

186**04...  升级为标准VIP  一**... 升级为至尊VIP

 微**...  升级为高级VIP   159**68... 升级为至尊VIP

wei**n_... 升级为高级VIP  136**71...  升级为高级VIP

wei**n_...  升级为高级VIP wei**n_...  升级为高级VIP 

m**N 升级为标准VIP  尹**  升级为高级VIP

wei**n_...  升级为高级VIP  wei**n_... 升级为标准VIP 

189**15...  升级为标准VIP  158**86... 升级为至尊VIP

 136**84... 升级为至尊VIP  136**84... 升级为标准VIP

卡**  升级为高级VIP  wei**n_... 升级为标准VIP 

铭**...  升级为至尊VIP wei**n_... 升级为高级VIP

139**87... 升级为至尊VIP wei**n_...  升级为标准VIP

 拾**... 升级为至尊VIP  拾**... 升级为高级VIP 

wei**n_... 升级为标准VIP  pzx**21 升级为至尊VIP

 185**69... 升级为至尊VIP  wei**n_...  升级为标准VIP

183**08...  升级为至尊VIP  137**12... 升级为标准VIP 

 林 升级为标准VIP  159**19...  升级为标准VIP

wei**n_... 升级为高级VIP  朵妈 升级为至尊VIP

186**60...  升级为至尊VIP 153**00...   升级为高级VIP

wei**n_... 升级为至尊VIP    wei**n_... 升级为高级VIP

135**79...  升级为至尊VIP 130**19... 升级为高级VIP

 wei**n_... 升级为至尊VIP  wei**n_... 升级为标准VIP  

136**12...   升级为标准VIP 137**24...  升级为标准VIP 

理**...  升级为标准VIP wei**n_...  升级为标准VIP

wei**n_...  升级为至尊VIP  135**12... 升级为标准VIP

 wei**n_...  升级为至尊VIP  wei**n_...  升级为标准VIP

特**  升级为至尊VIP  138**31... 升级为高级VIP

wei**n_... 升级为标准VIP   wei**n_... 升级为高级VIP

186**13...  升级为至尊VIP 分** 升级为至尊VIP

set**er 升级为高级VIP  139**80... 升级为至尊VIP 

wei**n_...  升级为标准VIP wei**n_...  升级为高级VIP

wei**n_... 升级为至尊VIP  一朴**P...  升级为标准VIP

133**88...  升级为至尊VIP wei**n_... 升级为高级VIP

159**56...  升级为高级VIP 159**56... 升级为标准VIP 

升级为至尊VIP  136**96...  升级为高级VIP

wei**n_... 升级为至尊VIP   wei**n_... 升级为至尊VIP 

 wei**n_...  升级为标准VIP 186**65... 升级为标准VIP 

137**92... 升级为标准VIP  139**06...  升级为高级VIP

130**09... 升级为高级VIP  wei**n_...  升级为至尊VIP