《中国移动:2023网络运维大模型白皮书(11页).pdf》由会员分享,可在线阅读,更多相关《中国移动:2023网络运维大模型白皮书(11页).pdf(11页珍藏版)》请在三个皮匠报告上搜索。
1、网络运维大模型白皮书网络运维大模型白皮书本白皮书旨在深入探讨网络运维大模型领域的最新技术趋势,为网络运维专业人士和行业专家提供信息和见解。2现状现状,背景背景1网络运维发展现状网络运维发展现状产业共识:从2019年由TM Forum联合产业伙伴共同提出自智网络,旨在引领网络基础设施和运营体系的自动化,形成体系化的理念。现状水平:覆盖预测智能、控制智能、感知智能和诊断智能,主要以小模型研发范式开展,特征是基于特定数据集,针对具象化任务目标开发形成专用能力,多种AI能力串联入生产运维流程。2网络运维演进面临的挑战和机遇网络运维演进面临的挑战和机遇1,当前以小模型为主的网络运维,由于小模型参数规模小
2、,场景数据依赖性强,导致其在不同场景下的泛化适应能力弱,无法快速推广复用和处理未知场景任务,应用规模容易受限。2,网络运维多模态数据、实时数据、数据关系复杂、强领域知识、多样化的场景。错误容忍度低。如果直接利用大语言模型,虽潜力巨大,幻觉问题利用现有大语言模型运维评测得分GPT-3.5-turbo74.1953XVERSE-13B62.8086Chinese-Alpaca-2-13B58.7687Llama2-13B-Chat58.1900 Baichuan-13B-Chat56.8342InternLM-7B-Chat55.2634Chinese-LLaMa-2-13B54.4312Chat
3、GLM2-6B48.3025Qwen-7B43.053概念,相关要求概念,相关要求运维大模型是面向运维场景应用的融合模型:1,面向网络运维场景,利用人工智能大模型作为基座底座,通过 flash-attention、ZeRO、混合精度等技术实现高效训练网络知识,叠加多模态的运维知识图谱和混合专家模型,构建运维通用的大模型数据,知识要求:运维,数据知识的通用和垂直可以是分开。因为垂直域数据相对不公开,算力和语料有一定限制,因此可以集中力量做好通用域基础上,再叠加垂直域方面做一些增强化的工作。模型要求:除自然语言之外,网络运维中的各种监控数据是多模态的,涉及到典型的、多模态的数据源,需要多模态运维数
4、据的基础模型群。接口要求:运维大模型中还包含已有的自动化的运维工具,接口尽量标准化,能够清楚地描述出API,如用自然语言描述出来的需求能够直接转换成对接口的调用,变成SQL,配置命令,API 的调用,通过基础模型的编程框架(LangChain,ApiChain等)编排在一起。4需求需求,场景,价值,场景,价值运维大模型是面向运维场景应用的融合模型:1愿景愿景,需求需求大模型技术不仅在自然语言处理、计算机视觉以及多模态领域有广泛的应用前景,通信网络中大模型技术能力和潜力,促进通信网络自智能力持续提升。基于大模型技术有望实现网络运维领域的通用智能,面向客户、运维人员、网络设备等全要素、全场景,提供
5、全新的用户交互、信息组织和系统集成模式,促使运维模式从“网络+AI”向“AI+网络”转变。2场景场景网管:系统容量、覆盖、故障率、负载均衡、异常检测等多方面优化核心网:智能业务质量定义与分配、切片状态分析、用户体验分析接入网:智能无线资源管理、接入控制、调度3价值价值降低数据标注要求通用性,跨场景能力逻辑,理解能力5发展与实践发展与实践:大模型时代大模型时代的的网络运维网络运维1,网络运维大模型特点,分类意图驱动的对话式交互:基于全网全量知识、数据、事件的分析和决策:自适应的全量设备对接操作:极简运维现场作业:2,演进路径等级特点运维秘书运维秘书提供交互式的运维知识和数据的智能问答,理解自然语
6、言问题,实现SQL生成式数据拉取,改变现有知识和信息的分发获取模式。运维助理运维助理能够基于数据语义,认知网络运行状态,进行诊断和预测,提供临场的多模态交互服务。运维专家:实时洞察单专业网络运行全景信息,自动生成网络配置方案和指令,自主对接设备完成操作,减少人工干预。运维大师运维大师智能处理全网运维事件,实现跨专业的业务端到端保障优化,实现知识创新,引领网络运维自主演进。6发展与实践发展与实践:大模型时代大模型时代的的网络运维网络运维运维大模型典型解决方案1,大模型+运维应用知识由于涉及到“规、建、维、优、营”各个方面,很难训练一个对所有任务都万能的统一大模型,因此一个相对通用的大模型,然后通
7、过外挂知识库的方式,可能是一个经济有效的落地应用解决方案。2,基于Agent以LLM为能力底座的AI Agent 架构,以网络运维大模型为基础,结合AI-Agent的概念,给出承载网络运维大模型的应用架构,通过对多场景运维大模型的协同使用,实现网络智能化运维7发展与实践发展与实践:网络运维大模型评测,评估网络运维大模型评测,评估1,评测网络运维大模型关注网络运维领域的服务能力,需要建立网络领域大模型能力评测数据集、评测任务场景、评测效果指标、评测方法,整体评估大模型在网络运维领域的各项服务能力。2,分阶段评估运维大模型应用在网络中,缺乏有效的评估可能导致模型在实际应用中出现问题,增加应用的风险
8、。从试点应用到扩大应用,最后全面应用阶段,可能给网络系统带来风险递增,需要在三阶段建立相应递增的严格的评估机制,保证准确性、计算效率、安全性等。网络领域对确定性,可靠性,正确性高度要求,通过对性能的评测,进化和改进提供依据,提高其应用效果和商业价值。还可以作为基准,了解不同厂商提供的的性能和适用性,促进不同领域研究者的技术交流和合作,共同推动网络人工智能技术的发展。8相关的相关的关键技术关键技术,难题难题1数据治理:高质量语料是训练大模型的数据基础。在预训练阶段,针对多样性网络数据清洗,加工。在微调阶段,需要构建指令微调数据集,对于复杂场景,还需要构建思维链数据集等。在运行态过程中构建数据飞轮
9、机制,问题自动回收,筛选和识别,根据模问题,针对性地补充数据集。23基于人类反馈的强化学习RLHF:大模型交互比较复杂或倾向于主观评价,很难显示定义一个损失函数或优化目标,可以从人类反馈中进行强化学习,通过人类反馈来指导系统生成符合人类意图的结果。45思维链Chain of Thought:网络运维中的不少任务都需要模型具备逻辑推理的多步思考能力(比如告警处置、故障诊断),思维链技术的提出则是为了提升大模型的逻辑推理能力,使得结果更加准确、可信。外挂知识库:为解决知识更新快,模型增量训练成本高,以及隐私知识等问题,可以通过外挂知识库如常用的向量数据库,借助文本向量化技术(如sentence-B
10、ERT)提升知识问答准确性,并实现隐私保护。6推理加速:巨大的参数量才能做到强大的理解和泛化能力,在每次务应用中往往不会用到全部知识容量。可以引入模型蒸馏技术,大幅下降参数量以及推理耗时,用更小的模型达到几乎不变的效果,目标是让小模型(Student)尽可能去学习大模型的(Teacher)结果。多模态融合:对于非语言类的大模型,如仿真、优化和故障大模型,通常需要融合多种监控数据分析,无线仿真大模型需要融合性能指标、MR与工参等。7增量预训练与微调:基座对电信领域的知识理解有限,更好地理解和处理电信领域的术语和知识进行增量预训练。在预训练结束后,引入指令数据集微调,提升特定任务表现。9相关相关应
11、用探索应用探索网络故障识别与预测网络故障识别与预测大模型赋能意图驱动运维无线闭环优化基于网络语言大模型和网络结构化数据大模型,完成无线性能优化的端到端闭环处理,涵盖无线性能劣化发现、分析、定位和处理,服务网络自配置、自修复和自优化基于运维大模型对大量历史数据的学习来预测未来趋势,为主动性预测运维提供支撑。大模型在意图理解、推理和判断决策等方面具备明显的优势,将大模型与意图驱动网络相结合,能够有效提升意图转译准确度,简化意图管理与网络运维流程。基站站址规划大模型在意图理解、推理和判断决策等方面具备明显的优势,将大模型与意图驱动网络相结合,能够有效提升意图转译准确度,简化意图管理与网络运维流程。告
12、警检测与根因诊断大模型学习历史工单信息给出故障定位、故障止损建议和相似故障提示,提供与历史故障的相似性比较以及当时的止损方法运维专家知识的问答大模型提高知识利用效率,知识运用贴近场景化,知识更新反馈流程化。10经验启示经验启示 高质量数据集以及数据规模是基础。堆砌大量的数据进行训练,找出其中的共性。模型的参数量太小会制约性能,并不是越大越好,增加数据量并保持一个平衡效果和使用成本的。微调数据多样性可防止模型学偏。通过知识检索增强可一定程度避免幻觉。训练数据有偏见或训练数据不足、训练数据过度拟合、上下文理解有限、领域知识缺乏、对抗攻击和模型架构等都会幻觉 可以用KG增强大模型,增加可靠性。用Retrieval-Augmented Generatio:引经据典,增强可解释性,生成的内容打上 reference,展示出来源,白盒的生成模型。11计划安排,计划安排,展望后续,展望后续,总结并呼吁开展更有实质性的工作,包括1,可以把共性,通用的东西集中力量做好。2,网络运维大模型关注网络运维领域的服务能力,需要建立网络领域大模型能力评测数据集、评测任务场景、评测效果指标、评测方法,整体评估大模型在网络运维领域的各项服务能力。3,针对运维,网络垂直领域统一标准,降低数据质量依赖性高、标准化程度低、数量参差不齐会导致的质量性能问题。2023.122024.12启动2024.3发布讨论,迭代