《陈理华-大语言模型在 IT 运维领域的建设落地实践.pdf》由会员分享,可在线阅读,更多相关《陈理华-大语言模型在 IT 运维领域的建设落地实践.pdf(20页珍藏版)》请在三个皮匠报告上搜索。
1、大语言模型赋能,开启运维新篇章陈理华 总监陈理华中移(动)信息技术有限公司/广州业务支撑中心 总监十余年省级CRM/BOSS系统架构设计及运营支撑经验,参与多次系统重大割接工作,2020年开始牵头AI技术在IT运维领域的研究及应用落地工作。两大运维场景的建设多智能体协同的运维智能社会从运维知识问答到运维Agent运维智能体关键要素大模型助力运维数智化转型,成为智能运维专家1.02.03.0监控告警深瞳观智CMDB运维工单自动化租户接入租户BOMCK8S磐维云平台可观测AIOPS基座模型通用大模型运维Copilot能力开放智维-SDK智维-H5智维-API智能体通用组件智能体开发框架低代码脚手架
2、流程画布引擎代码解析组件开发工具箱智能体Tools管理长时记忆组件智能体交互平台智能体注册智能体交互组件智能体解析器智能体通讯组件多智能体协同管理智能体召回增强模型服务推理部署/加速/API服务日常运维故障处理智慧工单告警处理资源检索智慧巡检脚本助手智慧报表数据治理数据配置数据修复数据稽核故障定位故障复盘故障发现故障处理故障演练故障预测孵化产品深瞳智维(小瞳AI)AlertFMAgentFMTraceFMLogFMQwen-72bChatGLM3-6bQwen-14bCodellama-34b智能体K8S AGENT磐维 AGENTOB AGENTAntDB AGENT REDIS AGENT
3、任务规划复杂任务代理自主任务代理多轮询参知识库自评估工具周边系统Model 专属模型模型训练效果测评大模型流量控制打造智慧运维Copilot基于CVP架构(ChatGPT+VectorDB+Prompt),支撑大模型完成应用运维垂直领域故障问答。向量数据库(Chroma)LLM大模型嵌入式编码模型(Embedding文本数据向量化)使用手册技术手册运维手册业务说明运维数据排障经验运维知识文档(CSV、PDF、Word、PPT、URL、Json)文档拆分文本切分 Text Splitter文本块文本块文本块文本块分散化、片段化、多样化小瞳AI Agent任务指令任务规划生成反馈API选择任务执行
4、用户问题相似度匹配向量写入向量搜索用户问题+提示词模板+匹配结果最终答案小瞳智能问答故障类型识别指标智能检索处置策略建议文件查询朔源业务咨询问答结果反馈API平台(大量的包含Schema的API集合)、深瞳可观测平台数据湖复合计算流式计算数据关联指令下发基于历史故障报告、运维手册、产品说明等文档构建运维语料部署codellama-34B-int4模型,为IT问题提供解决方案行动感知循环执行1-任务指令LLM2-任务规划3-API选择5-结果观察4-API调用API自主AI AgentAPI 1API 2API 3Agent工作流程分为四个阶段:任务规划 API筛选/分配 任务执行 结果生成系统
5、告警6-生成反馈API平台(大量的包含Schema的API集合)故障发生,服务超时1.先检查网络情况,确认网络状态;2.再确认分布式服务控制组件状态是否正常3.任务规划服务节点状态异常,建议1.平台拉起薪节点接管流量2.当前节点重启3重启完毕后接入结论输出服务节点的状态检查完毕,可能问题是由于XX进程挂死,报错日志是.生成反馈重启后服务超时问题不再出现效果达到预期自主思考工具箱健康度检查API组件状态检查API节点重启API节点检查API服务监控API计划基于LLM的Agent能自主理解、规划决策、执行复杂任务,具备使用工具完成运维任务的潜力结合COT技术提出大模型运维应用开发范式,让大模型不
6、仅会”作诗”,更要会”做事”。运维智能体的关键要素用户输入任务规划工具1执行工具2执行工具3执行工具N执行输出输出输出输出短期记忆体LLM大脑工具2参数工具3参数工具N参数基于短期记忆体,实现多工具参数自动提取传递,串接组装执行流水线,执行较复杂任务调度,简化人机交互。AgentEval 指标2:Action工具调用准确率AgentEval 评估指标指标1:Action Input参数提取准确率Agent执行过程AgentEval目的是评估大模型理解任务、选择工具以及参数提取的能力通过参数提取准确率和工具调用准确率2个关键指标辅助评估大模型Agent能力和工具description质量,提升大
7、模型任务规划质量。Agent工具预召回任务规划工具选择参数提取API执行结果生成反思自省AIOps能力 异常检测 根因定位 告警收敛参数提取系统工具工具集合自动化运维 系统巡检 告警查询 重启操作工具召回工具注册基于Prompt的提取 API schemas zero-shot主动询问参数 ReAct参数提取LLM大脑工具选择准确率:100%1-5个工具准确率90%6-20个工具准确率基于CVP的工具预召回模块提高工具选择准确率,API schemas Prompt实现少量参数稳定提取,ReAct主动问询实现多参数灵活提取。覆盖核心系统共计xxxx台纳管主机,为x万余POD的健康运行保驾护航。
8、xxxx台纳管主机具备Kubernetes各核心组件,及Kafka、Redis等多种开源通用中间件的故障自动处置能力,已覆盖xx种故障场景xx种故障场景取代故障处理人员繁琐的登陆各主机手工执行工具/指令和日志收集,整体生产效率提升x0%以上。x0%生产效率提升PaaS大模型运维能力在某系统运维中完成落地123n 异常发现支持K8S告警、K8S组件日志(kubelet、kubeproxy等)、K8S GPT深度巡检结果的实时采集和灵活过滤,根据告警对象将会话推送至对应运维人员;n 诊断分析使用codellama-34b-int4(基于专业运维数据训练的基座模型)为运维生人员生成告警解释,并提供处
9、置建议;n 处置执行 通过大模型Agent调度运维执行组件执行运维操作,敏感操作支持短信验证码二次授权,处置接口支持主动询参,降低误操作风险。快速调出该异常的最关键信息,如告警对象、级别、影响范围等,辅助识别故障影响,便于定级。调用深瞳故障定界能力,从四个维度进行故障定界。基于历史故障给出建议,第一时间通知相关负责人,便于故障协同处理。执行相关处置策略,快速进行故障恢复调用恢复验证能力,检测故障是否已经恢复SaaS应用发生告警SaaS应用告警恢复SaaS 故障发现SaaS 故障分析SaaS 故障恢复SaaS大模型运维能力在某公司业务支撑系统运维中完成落地拉通指标、日志、链路三类监控数据,形成故
10、障定界能力。借助大模型进行调度,保障重点业务平稳运行。x5%故障定界准确率覆盖CRM系统个人、家庭、政企、新兴业务及CHBN融合业务等x0%的重点业务。x0%重点业务覆盖产品研发推进“3步走”持续打造面向数据库、中间件、信创操作系统等运维智能体,构建面向运维领域的智能体平台。中国移动丰富的大型IT运维场景。大模型智能运维产品已落地多家内部单位。已实现Agent复杂任务代理技术。Agent能力(社会成员)中国移动与复旦大学人工智能团队推进智慧运维社会的组织调度理论与技术实现。基座大模型的强化训练提高Agent能力。Agent协同机制(社会制度)中国信息通信研究院发挥电信业引领优势组织创新合作平台。构建规范化、标准化的智慧运维社会。Agent共创平台(社会生态)L1(Tool)L2(ChatBot)L3(Copilot)L4(Agent)L5(Intelligence)接手人类工作,AI自主拆解目标,选择并使用工具完成工作并与人类通信。人类监督下完成明确任务,AI实现目标后结束工作。Thanks开放运维联盟高效运维社区DevOps 时代荣誉出品感谢大家观看THANKS