上海品茶

您的当前位置:上海品茶 > 报告分类 > PDF报告下载

云计算开源产业联盟:中国AIOps现状调查报告(2022)(69页).pdf

编号:90297 PDF 69页 4.07MB 下载积分:VIP专享
下载报告请您先登录!

云计算开源产业联盟:中国AIOps现状调查报告(2022)(69页).pdf

1、中国 AIOps 现状调查报告(2022 年) 中国 AIOps 现状调查报告 (2022 年) 2022 年 7 月 28 日 中国 AIOps 现状调查报告(2022 年) 2 报告目录 前言 . 3 核心观点摘要 . 6 一、调查背景 . 9 (一)调查方法及样本 . 9 1、调查方法 . 9 2、样本描述 . 9 3、样本说明 . 12 (二)报告术语界定 . 13 二、AIOps 发展现状 . 14 (一)AIOps 能力建设基本情况 . 14 (二)AIOps 场景应用情况 . 29 (三)AIOps 发展趋势与挑战 . 37 三、AIOps 实践案例 . 40 (一)运营商篇 .

2、 40 (二)银行证券篇 . 49 (三)服务提供商篇 . 63 中国 AIOps 现状调查报告(2022 年) 3 前言 随着互联网与信息技术的快速发展、企业数字化转型、以及在大数据、云计算、人工智能等新技术的加持下,近年来,智能运维正成为企业高效管控种类繁多数量庞大的物理设备、精准定位故障信息、实时防护网络攻击、快速迭代需求变更等新时代运维场景下不可或缺的科技力量和解决方案。 国务院关于印发 “十四五”数字经济发展规划的通知中指出,数据的爆发增长为智能化发展带来了新的机遇。加快推动智能化应用建设,促进各环节智能化升级,提升基础设施网络化、智能化、服务化、协同化水平,加快优化智能化产品和服务

3、运营。产业数字化的经营理念在各行业持续渗透,激励着越来越多的企业提升信息化建设的战略地位、增加数字化投入,这也将进一步突出 IT 运维对于企业管理和业务创新的重要意义。 为进一步了解中国 AIOps 产业发展现状, 梳理中国 AIOps 产业发展脉络, 云计算开源产业联盟开展了 2022 年度 AIOps 现状调查。问卷以中国信息通信研究院牵头编制的智能化运维(AIOps)能力成熟度模型系列标准为参考,聚焦中国 AIOps 能力建设成熟度现状,对 AIOps 产业发展现状、未来 AIOps 发展趋势、企业当前面临的困难与挑战等情况进行了调查,共收回有效问卷 1807 份。本报告以调查结果为基础

4、,结合行业专家的深度访谈、研讨,力争详实客观地反映企业对 AIOps 落地实践的需求,为广大关注 AIOps 的从业人员、专家学者和研究机构提供真实可信的数据支撑。 本次调查由中国信息通信研究院联合近 60 家企业共同发起,包括中国工商银行、中国农业银行、建信金科、浦发银行、平安银行、交通银行太平洋信用卡中心、华泰证券、安信证券、深圳证券通信有限公司、中国联通软件研究院、中国移动集团、中国铁塔、腾讯、阿里巴巴集团、阿里云、蚂蚁集团、京东科技、华为云、苏宁消费金融、亚信科技、浪潮云、博睿数据、广通优云、宇信科技、擎创科技、必示科技、浩鲸科技、IBM、BMC 中国公司、戴中国 AIOps 现状调查

5、报告(2022 年) 4 尔科技集团、爱数、润建股份、北京华佑科技、新炬网络、东软集团、金蝶天燕、云杉网络、华青融天、紫羚云、思特奇、宝兰德、绿盟科技、北京基调网络、西骏数据、鼎茂科技、嘉为科技、普元信息、LinkedSee 灵犀、星汉未来、烽火通信、金山云、创新奇智、同创永益、上海叠念、金现代、日志易、云新信息、高效运维社区、dbaplus 社群等,各地 AIOps 实践企业和社会各界也给予了大力支持,在此,谨表示最衷心的感谢!同时也对参与中国 AIOps现状调查访问的企业朋友表示最诚挚的谢意! 云计算开源产业联盟 2022 年 7 月 中国 AIOps 现状调查报告(2022 年) 5 参

6、与编写单位:中国信息通信研究院、中国工商银行、中国农业银行、建信金科、浦发银行、平安银行、交通银行太平洋信用卡中心、华泰证券、安信证券、深圳证券通信有限公司、中国联通软件研究院、中国移动集团、中国铁塔、腾讯、阿里巴巴集团、阿里云、蚂蚁集团、京东科技、华为云、苏宁消费金融、亚信科技、浪潮云、博睿数据、广通优云、宇信科技、擎创科技、必示科技、浩鲸科技、IBM、BMC 中国公司、戴尔科技集团、爱数、润建股份、北京华佑科技、新炬网络、东软集团、金蝶天燕、云杉网络、华青融天、紫羚云、思特奇、宝兰德、绿盟科技、北京基调网络、西骏数据、鼎茂科技、嘉为科技、普元信息、LinkedSee 灵犀、星汉未来、烽火通

7、信、金山云、创新奇智、同创永益、上海叠念、金现代、日志易、云新信息、高效运维社区、dbaplus 社群。 参与编写人员:杨玲玲、牛晓玲、尚梦宸、白瀚雄、刘凯铃、刘昭炜、任政、耿鹏、马琳、陈俊、金艳、洪磊、周东杰、权宁升、曹家豪、盘隆、董善东、张颖莹、王月凡、张宪波、蔡小刚、顾黄亮、李红霞、张永皋、孙光涛、李骅宸、任志强、葛晓波、曹立、赵成栋、刘渝、李康、胡永乐、陈刚、梁铭图、罗先桥、李飞、包彤、刘玉节、刘亚军、张润滋、徐国忠、何亮亮、何永进、胡忠想、吴伟峰、李庆焐、李启明、董彦广、黄国标。 中国 AIOps 现状调查报告(2022 年) 6 核心观点摘要 AIOps 能力建设基本情况 多数企业

8、近年来在运维方面的资金投入仍处于增长阶段。近 4 成企业运维方面年平均投资规模超 5000 万元,投资规模在 5000 万元-1 亿元的企业占比 11.24%,1 亿元-5 亿元的企业占比 13.45%。 超半数企业在实现自动化运维、自动化部署的基础上进一步增强监控、运维智能化能力。根据本次调查显示,61.21%的企业选择优先关注和投资 DevOps 自动化部署,52%的企业选择优先关注和投资升级监控和 AIOps。 以结果为导向的 IT 运维 KPI 指标是当前企业关注的重点,企业对于用户体验的关注正在持续升温。根据本次调查显示,60.04%的企业最关注 “可用性、正常运行时间和性能” 指标

9、。用户满意度也获得了 44.66%的关注,这反应了企业对于用户体验的持续升温。 智能运维已经在各行业逐步落地应用,特别是在科技、互联网、金融、电信几大领域应用效果十分显著。根据本次调查结果,科技和互联网行业受访者所在企业表示已建立了智能运维平台并形成了相关评价体系分别占比 49.64%和 37.96%,其次是银行占比 28.99%和电信企业占比 25.97%。 内外双修,智能运维系统/工具/平台既可用于增强企业自身运维能力,同时也可以对外输出产品能力。 根据调查显示, 企业的智能运维系统/工具/平台同时具备行业特性, 如 48.29%的科技公司和 43.64%的互联网企业, 主要对外提供智能运

10、维产品及解决方案, 50.36%的金融企业则更多面向内部使用。 超半数企业以自主研发的方式建设 AIOps 能力。 根据本次调查结果, 超过半数 (57.83%)的受访者所在团队主要以自研的方式搭建智能运维平台/工具, 22.98%的受访者所在团队中国 AIOps 现状调查报告(2022 年) 7 采用共研方式搭建智能运维平台/工具,另外还有 19.20%的受访者所在团队选择采购第三方解决方案搭建智能运维平台/工具。 多数企业内部组建了专职团队负责 AIOps 能力建设。根据本次调查结果,25.84%的受访者所在企业组建了专职团队/部门负责智能运维能力建设,此外还有由多个团队/部门联合组建 (

11、13.17%) , 各团队/部门分别建设 (13.06%) 和联合第三方厂商/外包组建 (12.45%)等多种团队模式。 将现有监控平台、大数据平台等多种数据源接入智能运维工具/平台,进行多场景数据融合是当前比较常用的智能运维实践方式。目前近一半(46.21%)的企业采用数据接入方式,同时还有 37.85%的企业智能运维工具/平台具备数据采集能力。 持续完善数据能力,搭建计算分析引擎,进行数据分析和模型构建是智能运维能力中不可或缺的一部分。根据本次调查结果统计,目前 76.93%的受访者所在企业均已搭建了计算能力引擎,主要以自研(36.86%)和采用第三方提供(40.07%)两种方式为主。 A

12、IOps 场景应用情况 AIOps 仍处于初期发展阶段, 受访者对目前 AIOps 能力水平的评价与期望超过其所在企业实际应用的情况。 从整体来看, 30.27%的企业自评目前处于辅助智能化运维阶段, 28.61%的企业自评处于进阶智能化运维阶段。 智能运维在质量、成本、效率、安全四大运维领域均已开展部署和应用,其中质量领域最为关注。调查显示,54.79%的企业当前着重关注智能运维的质量领域(包括异常检测、告警收敛、根因分析、故障处置等)能力建设,其次 45.77%的企业关注效率领域,45.49%的企业关注成本领域,30.82%的企业关注安全领域。 中国 AIOps 现状调查报告(2022 年

13、) 8 大部分企业在数据分析和算法模型分析方面已经逐步开始场景探索。并且已有 15.61%和11.07%的受访者所在企业将数据分析方法和算法模型应用与大部分业务场景。 通过使用智能运维算法,可快速提升运维智能化、自动化水平,大幅降低故障平均检测时间,加速平均修复时长。通过调查发现,目前已经有 11.95%的企业核心系统故障服务恢复时长可以达到 10 分钟内的水平,11.23%的企业已经达到 15 分钟内完成系统故障恢复。 AIOps 发展趋势与挑战 多数企业领导层已经对智能运维能力建设加以重视并付诸行动, 但在智能运维的建设过程中仍有诸多困难与挑战。根据调查统计,目前遇到的困难和挑战主要在不同

14、运维场景中的实践探索中产生的,比如“能力定制化,难以跨业务应用或泛化成本高”(35.81%),“场景有限, 大量运维场景没有成熟的方案”(33.98%) ,“新场景建设周期长”(30.71%) 。 需求驱动能力升级,除普遍关注的质量场景,安全场景成为更多企业未来关注和提升的方向。根据本次调查结果,质量场景仍然是主要提升方向。36.75%的企业在未来将提升故障的根因定位效率,32.82%的企业将会提升故障修复速度,31.82%的企业将完善故障预测能力以及 23.52%的企业将会建立故障处理流程规范。 安全场景得到更多的关注, 40.79%的企业将加强对安全事件的快速响应以及相应的防范措施的建设。

15、 未来趋势:加强人员与技术方面投入,持续探索智能运维场景,持续优化现有场景能力,提升稳定性,易用性。47.76%的企业将在目前已有的智能运维场景中继续优化改进,提升效果。44.71%的企业将在易用性、可用性、稳定性等方面持续改进。 中国 AIOps 现状调查报告(2022 年) 9 一、调查背景 (一)调查方法及样本 1、调查方法 本次调查报告采用在线问卷调查方式,共收集到有效问卷 1807 份。 2、样本描述 参与调查企业所在行业:包括互联网、科技、电信、银行、能源、证券、教育、咨询与服务、零售等行业。 数据来源:中国信息通信研究院 图图 1 1 行业分布行业分布 中国 AIOps 现状调查

16、报告(2022 年) 10 参与调查企业规模:人员规模在 500 人以上的企业占比接近六成。近四成的受访企业资产规模在 1 亿元以上。 数据来源:中国信息通信研究院 图图 2 2 企业人员规模企业人员规模 数据来源:中国信息通信研究院 图图 3 3 企业资产规模企业资产规模 中国 AIOps 现状调查报告(2022 年) 11 参与调查人员地域分布:覆盖全国 31 个省级行政区近 90 个城市。 数据来源:中国信息通信研究院 图图 4 4 个人地域分布个人地域分布 参与调查个人职位:超过 5 成的受访者来自运维与研发部门, 其中 28.33%的受访者来自运维部门,28.22%的受访者来自研发部

17、门,12.68%的受访者来自技术及架构相关部门。 数据来源:中国信息通信研究院 图图 5 5 个人职业分布个人职业分布 参与调查个人工作经验: 超过半数的受访者工作经验在 4 年以上,工作经验为 6 至 10中国 AIOps 现状调查报告(2022 年) 12 年的受访者居多,5.31%的受访者工作经验超过 20 年。 数据来源:中国信息通信研究院 图图 6 6 个人工作经验个人工作经验 3、样本说明 序号 N 值 说明 1 N=1807 样本总量 中国 AIOps 现状调查报告(2022 年) 13 (二)报告术语界定 智能运维概念:智能运维(AIOps)是将大数据,AI 机器学习和其他技术

18、相结合,通过主动,个性化和动态的洞察力,用以增强和辅助主要的 IT 运维工作,是企业级 DevOps 在运维(技术运营)侧的高阶实现。 智能运维系统/工具:具备数据处理、智能计算能力,采用智能化方法解决某种运维场景问题(如质量域下的异常检测场景等,成本域的资源优化场景等) 。 智能运维平台: 具备数据处理、 智能计算能力并且能力已覆盖了多个传统运维领域 (质量、成本、效率、安全)场景的智能运维系统/工具。 中国 AIOps 现状调查报告(2022 年) 14 二、AIOps 发展现状 (一)AIOps 能力建设基本情况 在当前数字化转型的浪潮下,企业 IT 运维方面的投资规模将逐步增加,IT

19、运维的关注方向也将逐步从自动化运维向智能化运维发展。伴随着企业规模扩大,业务模式更新,以及云计算、大数据、人工智能等新技术应用,智能运维能力已在科技、互联网、金融、电信等行业逐步落地应用,并呈现出多样化的发展趋势。 近三年中, 近 4 成企业在运维方面年平均投资规模超 5000 万元, 此外投资规模在 2000-5000 万元的受访者所在企业占比 12.74%,500-2000 万元占比 18.55%,100-500 万元占比 21.26%,100 万元以下占比 13.88%。 数据来源:中国信息通信研究院 图图 7 7 企业运维年平均资金投入规模(企业运维年平均资金投入规模(20192019

20、- -20212021) 中国 AIOps 现状调查报告(2022 年) 15 在实现自动化运维、自动化部署的基础上进一步增强监控、运维智能化能力。根据本次调查显示 DevOps 自动化部署(61.21%) 、升级监控和 AIOps(52%)是大部分企业的优先关注和投资的方向。数据汇总来看,提升系统自动化部署能力,实现基础架构代码化、测试自动化等是企业当前投资的重点方向。另外可观测性、SRE 等时下热点也成为企业的投资方向和选择。 数据来源:中国信息通信研究院 图图 8 8 企业在技术投资时优先考虑的企业在技术投资时优先考虑的 ITIT 运营指标运营指标 中国 AIOps 现状调查报告(202

21、2 年) 16 企业 IT 运营首要目标是减少故障发生次数,提高故障修复效率,以保证系统高效稳定运行, 并进一步降低运营成本。 根据调查结果显示, 60.04%的受访者所在企业最关注 “可用性、正常运行时间和性能” 指标, 同时有 46.60%和 44.66%的企业关注 “发生故障/事件的数量”与“用户满意度”, 40.29%的企业关注“MTTR(平均恢复时间)”, 此外 28.33%的企业将“IT 运营成本”也纳入了运营关注指标。 数据来源:中国信息通信研究院 图图 9 9 企业企业 I IT T 运营关注指标运营关注指标 中国 AIOps 现状调查报告(2022 年) 17 智能运维已在各

22、行业逐步落地应用,特别是在科技、互联网、金融、电信几大领域应用效果十分显著,根据本次调查结果,科技和互联网行业受访者所在企业表示已建立了智能运维平台并形成了相关评价体系分别占比 49.64%和 37.96%,其次是银行和电信企业(28.99%和 25.97%)。 数据来源:中国信息通信研究院 图图 1010 企业智能运维能力建设情况企业智能运维能力建设情况 中国 AIOps 现状调查报告(2022 年) 18 内外双修, 智能运维系统/工具/平台既可用于增强企业自身运维能力, 同时也可以对外输出产品能力。 根据调查显示, 企业的智能运维系统/工具/平台同时具备行业特性, 如科技和互联网企业,主

23、要对外提供智能运维产品及解决方案(48.29%和 43.64%),金融行业则更多面向内部使用(50.36%),电信行业相对较为均衡,面向内部使用,同时也对外提供产品及解决方案(51.80%)。 数据来源:中国信息通信研究院 图图 1111 智能运维系统智能运维系统/ /工具工具/ /平台提供服务类型平台提供服务类型 中国 AIOps 现状调查报告(2022 年) 19 超半数企业以自主研发的方式建设AIOps能力。 根据本次调查结果, 超过半数 (57.83%)的受访者所在团队主要以自研的方式搭建智能运维平台/工具,22.98%的受访者所在团队采用共研方式搭建智能运维平台/工具,另外还有 19

24、.20%的受访者所在团队选择采购第三方解决方案搭建智能运维平台/工具。 数据来源:中国信息通信研究院 图图 1212 团队搭建智能运维平台团队搭建智能运维平台/ /工具工具的方式的方式 中国 AIOps 现状调查报告(2022 年) 20 多数企业内部组建了专职团队负责 AIOps 能力建设。根据本次调查结果,25.84%的受访者所在企业组建了专职团队/部门负责智能运维能力建设,此外还有由多个团队/部门联合组建(13.17%),各团队/部门分别建设(13.06%)和联合第三方厂商/外包组建(12.45%)等多种团队模式,共研(19.81%)或者采购第三方服务的形式(16.55%)搭建智能运维平

25、台/工具。 数据来源:中国信息通信研究院 图图 1313 企业企业智能运维能力建设智能运维能力建设组建团队组建团队/ /部门部门情况情况 中国 AIOps 现状调查报告(2022 年) 21 智能运维解决方案丰富而多样,反映了市场的创新活跃性和多元化发展。本次调查统计了目前中国市场已有的智能运维解决方案提供商(数据仅根据问卷调查结果统计,不涉及市场份额情况,仅供参考): 智能运维解决方案提供商 新炬网络 ZnAiops 智能运维管理平台 腾讯蓝鲸智云 BMC Helix 数字化服务智能运营平台 阿里云 AIOps 智能监控解决方案 亚信全域智能运维平台 AISWare AIOps 华为云 AO

26、M 浪潮云云泽智能运营平台 西骏数据 MC-Stack 统一运营管理平台 擎创夏洛克 AIOps 智慧运营平台 必示智能运维平台 博睿数据智能运维算法能力平台 Swift AI 建信金科孔明产品 紫羚一体化智能移动 IT 运营管理平台 宝兰德 Opslink AIOps 解决方案 云杉网络 DeepFlow 云原生可观测性平台 百度智能运维平台 日志易智能日志中心 广通优云智能运维管理平台 AIOps 中国 AIOps 现状调查报告(2022 年) 22 华青融天鹰眼 EZSonar 业务监控系统 浩鲸 WhaleDI IntelliOps 智能运维平台 IBM Watson AIOps 解决

27、方案 听云北冥 LinkedAIOps 根因分析 爱数 AnyRobot Family 3 基于机器数据的场景化运维平台 鼎茂科技 AIOps 智能运维平台 ARCANA PaaS 思特奇图南智维平台 创新奇智 AIOps 智能运维平台 中国电信翼维智能平台 7x OPS 翼维智能平台 星眼一体化运维平台 绿盟智能安全运营平台 ISOP 睿象云 戴尔科技集团 CloudIQ (AIOps) 星汉未来云原生基础治理平台 SchedulX 云新信息 iBSM,DCOS 金蝶天燕 AIOps 智能运维平台 中国 AIOps 现状调查报告(2022 年) 23 智能运维,数据先行,数据是智能运维的“原

28、料”,是搭建智能运维能力的基础。多数企业仍处于智能运维场景的探索和实践阶段: 开始关注和梳理运维数据, 建设数据规范化能力,为下一阶段运维数据的智能化分析做准备。目前企业智能化运维重点还在于数据的采集和规范方面。 根据调查显示, 37.84%的受访者认为开展智能运维最优先的能力是对数据采集分析,其次是对数据的规范化能力(22.54%)和工具平台的支持(21.09%),在此基础上完善算法能力(9.79%)。 数据来源:中国信息通信研究院 图图 1414 智能运维的前置条件智能运维的前置条件 中国 AIOps 现状调查报告(2022 年) 24 将现有监控平台、大数据平台等多种数据源接入智能运维工

29、具/平台,进行多场景数据融合是当前比较常用的智能运维实践方式。目前近一半(46.21%)的受访者所在企业采用数据接入方式,同时也有一定比例(37.85%)的智能运维工具/平台具备数据采集能力。 数据来源:中国信息通信研究院 图图 1515 智能运维工具智能运维工具/ /平台数据获取方式平台数据获取方式 中国 AIOps 现状调查报告(2022 年) 25 当前企业的智能运维系统/工具更多集中于对系统(服务器、操作系统)监控数据和业务/应用监控数据的处理和分析。 根据本次调查显示, 目前 57.39%的企业智能运维系统/工具处理分析的数据中包括应用指标、日志等数据,53.35%涵盖系统监控数据,

30、其次占比 42.50%的是网络监控运维中关注的流量类型数据,最后是动力环境监测数据,占比 20.14%。 数据来源:中国信息通信研究院 图图 1616 智能运维工具智能运维工具/ /平台分析的数据平台分析的数据种类种类 中国 AIOps 现状调查报告(2022 年) 26 多数企业采用第三方提供的智能计算引擎为 AIOps 系统提供算法能力支持。根据本次调查结果统计, 目前 78.57%的受访者所在企业均已搭建了计算能力引擎, 主要以自研 (37.63%)和采用第三方提供 (40.91%) 两种方式为主, 在使用第三方提供的计算引擎的基础上, 20.96%的受访者所在企业根据业务需求进行了定制

31、化开发,更好的适配业务场景需求。 数据来源:中国信息通信研究院 图图 1717 企业智能运维计算能力引擎企业智能运维计算能力引擎 中国 AIOps 现状调查报告(2022 年) 27 大部分企业已经在数据分析和算法模型分析方面已经逐步开始场景探索。智能运维中的计算分析能力,包含了常用的数据分析方法和算法模型分析,从目前的应用情况来看,企业实践普遍集中于在部分典型场景进行试点及应用。并且已有 15.61%和 11.07%的受访者所在企业将数据分析方法和算法模型应用于大部分业务场景。 数据来源:中国信息通信研究院 图图 1818 企业当前运维工作中数据分析与算法模型应用情况企业当前运维工作中数据分

32、析与算法模型应用情况 中国 AIOps 现状调查报告(2022 年) 28 围绕智能运维,大量的算法模型被尝试和应用。在本次调查中,我们统计了目前智能运维领域中使用较为广泛的数据分析和模型分析方法。 运维工作中常用的数据分析方法,包括密度聚类 DBSCAN、相关系数 Pearson、正态分布N-sigma、统计学分类 Bayes 等方法。 数据来源:中国信息通信研究院 图图 1919 企业目前运维工作中常用的数据分析方法企业目前运维工作中常用的数据分析方法 运维工作中常用的算法模型分析方法,包括深度学习 LSTM、聚类分析 K-means、关联规则挖掘 Apriori、趋势预测 Arima、孤

33、立森林 Isolation Forest、时间序列预测 Prophet 等算法。 数据来源:中国信息通信研究院 图图 2020 企业目前运维工作中常用的算法模型分析方法企业目前运维工作中常用的算法模型分析方法 中国 AIOps 现状调查报告(2022 年) 29 (二)AIOps 场景应用情况 根据由中国信通院牵头制定的行业标准云计算智能化运维(AIOps)能力成熟度模型 第1 部分: 通用能力要求 中的 AIOps 能力建设分级要求, 可以将智能化运维整体能力从感知、分析、决策、执行、知识更新五个维度进行级别划分,系统的参与程度随智能化程度逐级递增,并结合智能运维应用场景特点,形成 AIOp

34、s 能力成熟度模型。 图图 2121 AIOpsAIOps 能力成熟度级别划分能力成熟度级别划分 从目前的发展情况来看, 现阶段 AIOps 能力大多集中在 L2 级别, 主要以系统辅助分析,帮助人工进行决策和操作为主,较为领先的能力实践可以达到 L3 级别,而 L4 和 L5 级别随着 AIOps 的技术发展和能力的逐步增强,将是未来智能运维能力建设的发展方向和目标。 中国 AIOps 现状调查报告(2022 年) 30 AIOps 仍处于初期发展阶段,受访者对目前 AIOps 能力水平的评价与期望超过其所在企业实际应用的情况。从整体来看,参与本次调查半数以上的受访者自评企业目前智能运维处于

35、辅助智能化(30.27%)和进阶智能化阶段(28.61%) 。此外,21.47%的受访者自评处于初始智能化运维阶段,13.72%的受访者自评已达到全面智能化运维阶段,5.92%的受访者自评达到了高度智能化运维阶段。 数据来源:中国信息通信研究院 图图 2222 企业企业 A AIOIOpsps 发展阶段发展阶段 中国 AIOps 现状调查报告(2022 年) 31 不同 AIOps 能力成熟度阶段的企业关注领域各不相同,达到全面智能化运维阶段的企业更加关注在效率和安全领域的智能化运维能力建设。根据本次调查结果显示,自评为初始智能化运维阶段的受访者更多的是从质量领域开始进行场景探索(50%),质

36、量领域的关注度远超其他部分。自评为辅助智能化运维阶段的受访者持续增加了质量领域(61.97%)的关注度,并且开始探索成本(52.47%)和效率领域(46.62%)的实践。而自评为全面智能化运维的受访者在质量、成本领域的关注度比较均衡(49,60%,45.16%),并且关注度逐渐向效率领域(55.65%)倾斜,以及增加了对安全领域(40.32%)的关注和投入。最后自评为高度智能化运维阶段的受访者认为在质量、成本、效率、安全四个领域的关注度接近一致,也说明未来要达到高度智能化运维阶段需要逐步完善各个领域及场景的智能化运维能力。 数据来源:中国信息通信研究院 图图 2323 各阶段智能运维场景关注情

37、况各阶段智能运维场景关注情况 中国 AIOps 现状调查报告(2022 年) 32 智能运维在质量、成本、效率、安全四大运维领域均已开展部署和应用,其中质量领域最受关注,调查显示,54.79%的受访者所在企业当前智能运维着重关注质量领域(包括异常检测、 告警收敛、 根因分析、 故障处置等)能力建设, 其次是效率领域(45.77%)、 成本领域(45.49%)和安全领域(30.82%)。 数据来源:中国信息通信研究院 图图 2424 企业当前智能运维重点关注领域企业当前智能运维重点关注领域 中国 AIOps 现状调查报告(2022 年) 33 质量领域最先考虑的智能运维场景是异常检测(62.26

38、%)和告警收敛(57.55%) ,其次是故障预测能力(46.76%) 、故障自愈(43.72%) 、根因分析(42.67%) ,最后是故障预防(33.04%) 。 数据来源:中国信息通信研究院 图图 2525 智能运维能力智能运维能力- -质量领域应用情况质量领域应用情况 中国 AIOps 现状调查报告(2022 年) 34 成本领域的场景建设较为均衡,资源优化(44.49%) ,成本评估(40.40%) ,容量预测(40.40%) ,但有 20.59%的受访者所在企业表示还未开展成本部分内容,也是这四大场景中占比较高的。 数据来源:中国信息通信研究院 图图 2626 智能运维能力智能运维能力

39、- -成本领域应用情况成本领域应用情况 效率领域最先考虑的智能运维场景是效率评估(37.52%) 、知识构建(36.58%) 、智能变更(34.42%) ,智能问答(30.99%) ,舆情分析(16.60%) 。 数据来源:中国信息通信研究院 图图 2727 智能运维能力智能运维能力- -效率领域应用情况效率领域应用情况 中国 AIOps 现状调查报告(2022 年) 35 安全领域最先考虑的智能运维场景是风险可视化(40.12%) 、威胁感知(32.82%) 、安全知识图谱 (31.10%) , 其次是脆弱性感知 (24.02%) 、 SOAR (20.09%) 、 UEBA (16.05%

40、) 。 数据来源:中国信息通信研究院 图图 2828 智能运维能力智能运维能力- -安全领域应用情况安全领域应用情况 中国 AIOps 现状调查报告(2022 年) 36 随着智能运维能力的持续完善以及应用场景的不断深入,将明显感知到智能运维带来的效率提升。相较未引入智能运维能力,在使用工具链、智能运维工具/平台处理一次典型的故障(如核心系统的一次故障发现到完全修复), 整体故障处理时间大概有多大提升。 从数据来看,53.96%的受访者还是可以感知到智能运维带来的效率提升,其中 25.4%的受访者表示有一定效果提升(15-25%),16.77%的受访者表示提升效果明显(30-50%),还有 1

41、1.79%的受访者感受到效果十分显著。 数据来源:中国信息通信研究院 图图 2929 故障恢复时长与效率提升的感知情况统计故障恢复时长与效率提升的感知情况统计 通过使用智能运维算法,可快速提升运维智能化、自动化水平,大幅降低故障平均检测时间,加速平均修复时长。通过调查发现,目前已经有 11.95%的受访者所在企业核心系统故障服务恢复时长可以达到 10 分钟内的水平,并且还有 11.23%已经达到 15 分钟内进行恢复。大部分受访者所在企业处于 15-30 分钟的恢复时间(18.76%)和 30-60 分钟进行故障服务恢复(17.54%),仅有 7.86%的受访者所在企业恢复时间超过 4 小时。

42、 中国 AIOps 现状调查报告(2022 年) 37 (三)AIOps 发展趋势与挑战 智能运维发展道路欣欣向荣, 通过调查我们发现, 绝大多数的领导层已经对智能运维能力建设加以重视并付诸行动,但在智能运维的建设过程中仍有诸多困难与挑战,主要是在不同运维场景中的实践探索中产生的。比如“能力定制化,难以跨业务应用或泛化成本高”(35.81%),“场景有限,大量运维场景没有成熟的方案”(33.98%),“新场景建设周期长”(30.71%)。技术应用方面,如“数据集成与标准化成本过高”(27.95%),“模型效果难以维持,持续优化成本高” (23.46%)。企业内部环境和组织架构方面,如“环境复杂

43、,难以支持智能运维建设”(19.76%),“受限于 AI 团队规模”(18.43%)。此外还包括了智能运维的运用和价值体现,“运用困难,不了解如何使用智能运维的分析结果指导运维决策与管理”(17.49%),“智能运维的建设价值难度量和体现”(16.93%)。 数据来源:中国信息通信研究院 图图 3030 智能运维建设过程中遇到的困难智能运维建设过程中遇到的困难 中国 AIOps 现状调查报告(2022 年) 38 需求驱动能力升级, 除普遍关注的质量场景, 运维下的安全场景成为更多企业未来关注和提升的方向。根据本次调查结果,我们将运维系统中需要进一步完善和提升的能力按照场景进行划分,质量场景仍

44、然是主要提升方向,其中包括提升故障的根因定位效率(36.75%),提升故障修复速度(32.82%),完善故障预测能力(31.82%)以及建立故障处理流程规范(23.52%)。 成本场景中,包括需要进一步优化资源配置与成本优化(33.31%),建立系统健康度评估(29.88%),完善对变更过程的检测(19.98%)。 效率场景中,涵盖运维知识库的构建与相关解决方案的关联(32.15%,23.63%),并同时将舆情信息纳入运维场景分析(26.34%)。 安全场景得到更多的关注,其中需要加强对安全事件的快速响应以及相应的防范措施的建设(40.79%)。 数据来源:中国信息通信研究院 图图 3131

45、目前企业使用的运维系统改进方向目前企业使用的运维系统改进方向 中国 AIOps 现状调查报告(2022 年) 39 企业不断优化现有场景能力,提升稳定性、易用性,持续探索智能运维新场景并加强人员与技术方面投入是未来发展趋势。 47.76%的企业将在目前已有的智能运维场景中继续优化改进,提升效果。44.71%的企业将在易用性、可用性、稳定性等方面持续改进。40.73%的企业将在更多新场景的应用中建设智能运维能力。32.1%的企业将研究与探索新技术/场景以满足未来业务的增长需求。27.67%的企业将加强人员方面投入,对技术人员进行 AIOps 相关培训。 数据来源:中国信息通信研究院 图图 323

46、2 未来企业智能运维未来企业智能运维建设建设方向方向 中国 AIOps 现状调查报告(2022 年) 40 三、AIOps 实践案例 (一)运营商篇 随着国内企业数智化转型的深入推进,电信行业运维从传统的基础设备运维逐渐转为软硬件结合的综合管理,运营和运维工作面临着越来越大的压力。运维人员数量无法随着设备数量线性增加,每万台服务器运维人员的数量持续下降,亟需引入智能化运维手段,解决人力不足的矛盾。同时,也需要借助智能化工具提高资源的可用性,提升用户使用体验。 案例 1 智能运营平台应用 联通数字科技 智能运营平台是联通数字科技有限公司自行研发的一款基于动态基线算法进行设备监控的产品,在业界得到

47、了广泛的应用。该平台采用人工智能技术,根据基线动态配置浮动阈值, 参照实际业务场景配置安全范围, 对不同设备的时序数据进行强针对性监控。 国家开放大学的实验学院信息化改造项目选用了联通数字科技有限公司开发的智能运营平台, 对国家开放大学三个校区 (五棵松、 魏公村、 东直门) 200+台 IT 设备及动环设备进行集中监控管理。 智能运营平台在三地的部署图 中国 AIOps 现状调查报告(2022 年) 41 该项目实现了故障诊断、问题定位、分析结果自动化,结合运维知识库,确定处置方案;实现了自动完成故障感知、决策、执行的全过程,实现自动扩容、流量调度等操作;实现了对性能数据进行特征提取、分类,

48、利用机器学习算法进行集成学习, 动态分析设备运行参数的变化趋势, 针对重要特性数据进行预测算法学习,预测网络流量、性能趋势、磁盘容量以及故障发生的可能性,规避潜在系统风险; 实现了对人工无法覆盖范围的延展, 对客户动环指标进行全方位移动式环境监测、周期巡检;实现了定期检测资源的能耗指标,计算资源能耗,自动生成能耗报告, 运用机器学习算法对未来资源能耗进行预测。 通过预设能耗管理模型,结合业务负载情况,动态调整 IT 设备的上下线、关机、启动,达到绿色节能的目标。 智能运营平台帮助客户解决了监控手段匮乏、故障发现滞后、动环监控死角、能耗管理落后、运维重要趋势无法预测等问题。 案例 2 基于指标异

49、常检测在云平台网元健康度判断的应用 浙江移动 随着系统架构逐步虚拟化、容器化、微服务化,IT 云资源池规模及技术栈类型也在逐步增加,指标数据日益增大;网元间的业务差异性要求网元评分标准“千人千面”, 同参数模型精确度差; 独立参数配置虽然能部分解决问题, 但需要极高的维护成本;为了解决数字化转型出现的问题,结合 AI 算法、大数据技术、自动化操作能力等打造了晴雨表产品。 晴雨表系统采用可视化展现层、应用分析层、数据采集层三层架构。评分结果通过页面实时展示,同时结果回写至 Kafka 后再存入 ES 集群进行长久保中国 AIOps 现状调查报告(2022 年) 42 存,整个过程无需等待指标采集

50、上报。 系统架构部署方案 通过大数据运维,AI 算分,自动化操作发现低分故障网元,推送故障详情信息到 kafka,自愈系统消费到 Kafka 数据后匹配到对应的自愈脚本执行自愈,实现自动化故障恢复,减少人工干预。 晴雨表以交付类产品进行输出,支持一站式解决方案部署。目前已在浙江移动、新疆移动、集团大数据 BG、浙江创新研究院等多个环境投入生产使用。 接入流程图 新疆移动于 21 年 4 月在本地部署了晴雨表,对接现场数据采集能力,通过内置模型及个性化模型编排耗时一周成功上线,解决了系统实时监控盲区,故障感知率提升 90%。 集团大数据 BG 于 21 年 12 月在一级 IT 云哈尔滨资源池部

51、署了晴雨表,用于行程码系统日常监控保障,截止目前使用良好。 晴雨表目前打分覆盖 33000 余个网元,基本涵盖云平台所有组件,日均评分网元约 10w 个,平均每年规避 G4 及以上故障 50 起,平均先于用户 5 分钟中国 AIOps 现状调查报告(2022 年) 43 感知发现故障,有效缩减了用户断服时长,提升了用户感知。晴雨表中基于OCDT 算法的智能异常检测模型, 目前已在参与评分的千余条指标中进行运用,提高了晴雨表 16%的查准率,大大减少误报情况。 案例 3 业务端到端故障智能发现诊断自愈 中移动信息 云原生技术的引入使得 IT 系统规模庞大、 架构复杂, IT 运维迎接新的挑战,I

52、T 业务系统集群规模越发庞大,传统的告警不能及时有效的发现系统异常,海量日志无法有效分析, 业务调用链复杂, 可观测性差, 导致故障定界定位极其困难。 本案例围绕业务系统的 metrics、log 、trace 数据进行横向业务分析,纵向 SaaS/PaaS/IaaS 分析,实现智能运维故障发现、诊断、自愈三个阶段的端到端分析操作。 方案框架图 故障发现阶段采用无监督 metrics、log 异常检测,通过多维数据分析实现故障发现。无监督日志异常检测算法,可自动学习日志的模式,如新的类型、新的日志比例、新的异常参数等。算法首先基于预训练的 AI 模型和专家词典对日中国 AIOps 现状调查报告

53、(2022 年) 44 志分词,然后基于词序和词频等相似度特征,将日志聚类成多种模板进行异常检测。 故障诊断阶段使用 trace 日志还原业务链拓扑、节点信息。通过业务链异常挖掘算法进行横向根因分析,确定引起了整个业务链故障的节点排名。通过日志异常检测算法智能发现相关节点的异常日志,以及结合跨层告警,结合知识库关联分析,在主机进程、中间件、网络拓扑中纵向定位根因。 故障自愈阶段使用自动化编排,实现自愈策略配置,人工确认故障准确后,系统自动完成自愈。操作完成后,系统自动跟踪自愈后的指标、告警,完成故障处理的闭环。 价值与效益: 故障发现时间平均提前 20 分钟。 基于 AI 算法定位,排除大量的

54、无效告警,月均告警量下降 20%。 故障定位耗时从 30 分钟缩短到 10 分钟。 西藏 CRM 系统运维自采用本系统的 7 个月来,累计节约 260 人/天,获得约 55 万收益。 案例 4 异构系统智能故障诊断平台的应用 广东移动 近年来广东移动业务支撑系统加快向云化、 容器化、 微服务化的架构转变,带来系统架构复杂、故障点激增的问题,对故障处理的人员技术水平要求随之中国 AIOps 现状调查报告(2022 年) 45 提高。为解决痛点问题,融合业界规范,发展成为广东移动特色的“异构系统智能故障诊断平台”。2020 年 10 月份开始生产应用,已持续稳定运营一年以上。 基本实现流程,通过日

55、志、告警、KPI、性能指标、调用链、资产多种维度数据进行精准的故障诊断。其中有三个创新点: 1.全息模型:综合多维度数据异常检测综合评估,精确度高。而一般通用方案是对单个指标异常检测,并不能代表系统真的有异常,不够精准。应用的算法包括 3sigma、柯西、基于 fft 的 SR、arima、FP-growth、xgboost、tf-idf、 有向图随机游走 pagerank 算法和 pcmci 根因定位算法 (针对容器环境) 。 2.无差别诊断:自动适应 Kubernetes 容器化/微服务云化环境与传统物理机、虚拟机的环境。针对云化环境与传统环境有不同相关性分析,传统环境因为拓扑稳定,采用

56、FP-GROWTH 相关性分析,而针对云化环境,采用有向图随机游走的分析方式,能够明确告警指标等原始数据的相关性。 3.故障知识图谱: 在异常感知和故障识别阶段能够根据自建的知识图谱对故障诊断的结果做修正,保证诊断结果的正确性。 故障诊断流程图 中国 AIOps 现状调查报告(2022 年) 46 投入使用以来, 该平台为我司带来实际的应用效益, 可使故障诊断智能化、故障定位迅捷化、运行质量高质化,降本增效。 前后变化 运维效率 人力投入 处理时间 传统运维 人工排查处理 5 名高级运维工程师 平均每个故障 30 分钟 本能力 AI运维 AI 智能处理,90%的系统故障可依赖本能力准确诊断 1

57、 名初级运维工程师(成本降低 80%) 平均每个故障 2 分钟(效率提升 93%) 案例 5 AI 驱动决策,双换助推转型, “七步法”构建智慧投诉服务运营新模式 辽宁移动 随着 IT 技术的迅猛发展,投诉运维体系的不断演进,投诉运维逐渐从人工运维转变为智能运维,如何进一步推进智能化运维,体现智能投诉价值,是智慧运维平台面临的新挑战。传统方式下,投诉投入再多人力,也难以满足用户对问题快速解决的诉求,对业务拓展及客户满意度已经形成风险,人工运维方式急需改变。 在此背景下,辽宁移动通过小步快走,植入 AI 智慧、自动化敏捷能力,通 AI 技术对海量的投诉工单进行分析,多种模式组合运用,铸造核心价值

58、,提升投诉处理效率,提升服务支撑质量,降低投诉量。 智慧投诉平台整体技术架构分为门户和服务层: 投诉门户层包括营业厅用户、地市支撑用户、省支撑用户各自相应的定制门户,可以将定制化的服务能力集成在门户中;投诉服务分为两部分,分别是针对投诉的应用和场景服务,和应用或场景服务所需的基础能力服务(黑色部分) 。 中国 AIOps 现状调查报告(2022 年) 47 智慧投诉平台整体技术架构图 相关组件功能如下: 1. 投诉门户:实现各个角色或渠道门户页面展示。 2. 投诉预处理:实现营业员反馈问题智能交互,预处理工单相似/同源推荐; 3. 业务一致性平台(投诉前移处理) :实现投诉前移 web 及后台

59、维护功能,支持业务指标一键核查,预案执行; 4. 投诉工作流:实现投诉流程扭转,投诉工单相似/同源工单推荐,投诉敏捷处理能力; 5. 投诉敏捷处理平台:实现投诉处理预案编排、跟踪、执行、记录功能; 6. 智能投诉平台:通过 AI 智能模型,提供公告关联推荐、FAQ 关联推荐、投诉关键分析分解; 7. 投诉知识库:实现热点 FAQ 导航关联、FAQ 知识搜索、FAQ 导入/编辑/删除、FAQ 点击量统计等能力; 8. 投诉基础应用:实现公告、调查问卷、优化建议、常用口径的管理能力; 价值收益: 中国 AIOps 现状调查报告(2022 年) 48 自 2021 年智能投诉机器人、智能知识推送能力

60、上线以来,全省各地市累计调用 190 余万次,平均每月 12 万余次,且使用量每月程上升趋势。 借助智能化手段,业务支撑类投诉月均工单量同比去年下降 36.8%,投诉处理时长缩短 30%以上,投诉处理满意度正向改善 6.68%。 中国 AIOps 现状调查报告(2022 年) 49 (二)银行证券篇 科技金融日益繁荣,其支撑金融业务的技术架构和上层应用更是日新月异,日趋复杂, 以银行、证券业为例,信息系统访问量和数据存储量呈现爆炸式增长,相关软硬件资源数量也急剧攀升,金融 IT 运维部门面临巨大的压力和挑战。智能运维通过大数据和人工智能算法模型对产生的各类运维数据进行采集、处理与分析,迅速发现

61、问题根源并对未来可能出现的问题进行预测预防, 提升IT运维质量和效率, 已成为迎接挑战不可或缺的科技力量和解决方案。 案例 6 工行 AIOps 智能运维体系建设实践 中国工商银行软件开发中心 在互联网金融时代,业务数量呈爆发性增加,业务模式更新迭代频繁,依赖人工经验的运维模式越来越无法保障 7x24 小时生产环境的稳定可靠,为解决云平台运维中的“痛点”,中国工商银行基于已有的运维数据,通过机器学习等手段提升运维的自动化、智能化程度,布局 AIOps 智能运维建设,逐步打造银行业智慧运维。 在平台建设方面覆盖了智能运维体系的全方位领域, 主要由门户、 数据源、技术支撑和运维数据分析平台四部分组

62、成: 门户提供各类智能运维场景的配置和调优服务并提供可视化展现;数据源实现监控、日志采集存储,通过缓冲层满足数据多渠道消费分析的需要; 运维数据分析中心完成平台技术支撑服务的封装,为智能运维各类应用场景提供数据清洗、在线标注、模型训练和模型计算等全套服务; 平台技术支撑层实现运维资源供应及大数据和机器学习的平台化能力,根据模型计算的需要提供匹配的流式计算能力,并持续丰富模型算法库。 中国 AIOps 现状调查报告(2022 年) 50 AIOps门户故障管理平台技术支撑大数据平台运维数据分析中心基础设施云系统监控应用监控中间件监控故障诊断故障自愈异常检测操作系统日志中间件日志监控中心日志中心故

63、障预测应用平台云机器学习平台应用日志数据模型库离线学习基础指标模型在线学习数据存储时序数据库缓存数据库业务数据模型调用拓扑模型OLAP数据库关系数据库分布式监控服务监控IT数据池网络(含硬件)存储(含硬件)计算(含硬件)搜索引擎持久化存储成本管理资源优化负载画像成本优化容量规划变更管理智能决策配置管理智能变更自动验证服务咨询智能问答运维知识库在线检测离线标注参数训练算法选择在线标注在线评估在线报警回溯实验离线评估运维可视化仪表盘PC大屏移动端自定义报表平台 智能运维平台架构图 在应用场景设置方面,将场景划分为故障管理、成本管理、变更管理和服务咨询四个大类。故障管理大类被作为主要切入点,通过人工

64、智能算法实现报警阈值的自适应调整,完成报警指标的压缩和关联性分析,提高报警准确性,实现智能异常检测;根据监控指标的变化情况,预测其未来增长趋势,提早发现潜在风险,实现智能故障预测;通过监控指标多维度下钻和聚合分析锁定故障范围,进一步通过运维数据比对推荐故障原因,实现智能故障诊断;探索应急重启、容灾切换等故障修复手段的智能化判定与执行,实现部分场景的故障自愈。 目前,工商银行已完成交易安全管控、交易异常定位、日志模式诊断等多个场景的落地实践与探索。 案例 7 工行数据中心智能运维技术应用实践 中国工商银行数据中心 工商银行正处于向数字化转型发展的关键时期,随着业务快速发展及 IT架构向分布式转型

65、,数据中心规模大、信息系统技术栈复杂,对传统运维模式中国 AIOps 现状调查报告(2022 年) 51 提出了严峻的挑战,迫切需要运维模式向智能化转型,通过数据来驱动运维决策,提升稳定性保障能力。 工商银行数据中心重点围绕信息系统运维可视化和快速排障能力提升开展智能运维(AIOps)技术的应用创新,构建了以动态运维地图、日志及指标分析引擎为基础的多模态智能运维框架,融合了知识图谱、自然语言处理(NLP) 、异常检测、关联分析等机器学习算法,面向运维应用提供分布式架构下拓扑自发现、日志模式自动化解析、指标无阈值监控等服务,并在多个运维场景中取得了良好成效,提升了异常感知能力,辅助实现快速故障定

66、位。 动态运维地图实现架构与图谱示意 工商银行数据中心已构建起基于动态运维地图、 日志及指标分析引擎的智能运维框架,初步具备了 AIOPS 的服务化能力,面向运维应用输出实时运维大数据分析能力,提供动态地图查询导航、单指标动态基线检测、指标趋势预测、多指标关联分析、日志模式识别及异常检测等智能分析服务。基于该平台的服务,开展了数据库健康监测、分布式存储监控、业务级故障定位等运维场景的研发及落地,并取得了预期的创新成效。 中国 AIOps 现状调查报告(2022 年) 52 案例 8 AIOps 智能根因定位 中国农业银行 业务数字转型与架构分布式转型对商业银行业务系统的运维保障工作带来了巨大挑

67、战,如何在海量的监控指标、复杂的调用关系中快速识别和定位故障根因成为一个亟需解决的难题。主要体现在以下三个方面:一是数据量大,分布式架构下,告警、指标、链路等数据体量庞大,而根因定位又对时效性有较高要求,需要能够保证较高的算法性能;二是定位数据源种类繁杂,除了监控指标体现出的异常,关联应用、运维活动、链路调用等各类数据均可能导致系统故障,不同类型的数据须采用不同的算法进行分析;三是定位效果差,由于故障根因分析缺少大量有效的训练集, 因此完全依赖算法在前期较难达到预期效果,往往需要结合一定的专家经验进行辅助决策。 针对故障根因定位面临的难点问题, 农行通过构建系统运行健康度实时评估体系、优化海量

68、资源指标算法分析手段、打造 AI 算法与专家经验相结合的全方位根因定位平台等方式,实现对系统运行情况的智能洞察与快速定位,有效提升了运维故障的发现和处置效率。 中国 AIOps 现状调查报告(2022 年) 53 故障根因定位总体流程图 此外,农行还打造了线上化的智能根因分析工作台,实现系统关联信息、资源拓扑信息、运维时间线信息、性能指标信息、根因定位结果的一站式全景汇聚,提供沉浸式根因分析体验。 目前农行智能根因定位场景已在生产上得到了广泛应用,为生产异常的“及时发现、准确定位、快速处置”提供了有力支持,其中 AI 根因定位已覆盖全部应用系统,专家定位流程覆盖 70 余个系统共积累 200

69、余条专家经验,生产异常的定位时间压缩至 5 分钟以内。 案例 9 AIOps 在银行业运维操作风险控制领域的实践 建信金融科技有限责任公司 中国 AIOps 现状调查报告(2022 年) 54 随着银行业务数字化程度不断提高, 以及监管机构对银行信息科技风险监管的持续加强,银行业金融机构需不断提高自身信息科技风险治理水平,持续加强自身信息科技风险管理能力。建信金科与中国建设银行运营数据中心合作,共同探索 AIOps 在银行业运维操作风险控制领域的优良实践。 根据 DAKOps 和 AIOps 理念,建信金科自主研发了孔明系统智能运维产品。本案例利用其中的采集功能模块(IT 服务管理等) 、决策

70、功能模块(运维数据平台等) ,可视化功能模块(运维报表等)覆盖了运维数据的全生命周期管理, 并结合运维操作风险控制场景集合, 形成了对运维操作风险的有效监管。 孔明智能运维产品全景图 1. 采集、集成运维操作相关数据; 中国 AIOps 现状调查报告(2022 年) 55 2. 结合“信息科技风险监管报表及监管评级”等监管指标、IT 内控制度、过往银行操作失误案例等建立起的风险场景模型和知识,与采集集成的运维操作数据进行分析对比; 3. 利用 AI 算法对 IT 组件使用情况进行预测,结合运维操作相关数据进行建模分析; 4. 通过可视化平台形成高危风险操作事前预警和风险违规操作事后报告,为后续

71、风险处置等管理活动提供依据。 项目成效: 效率提升:基于运维数据平台数据收集分析功能、风险控制模型,实现对运维操作行为数据的加工与展示,提升风险检查的自动化水平。 信息准确:相对于人工抽检运维风控相关数据,使用该平台后,大幅度提高发现风险违规操作的全面性和准确性。 风险降低:本案例正在不断丰富运维领域风险控制场景,结合内审发现问题,可针对部分高危操作行为(例如在监测资源繁忙度高水位场景下实施变更操作风险等) ,实施操作前预警提示,避免操作行为最终违规。 管控及时:构建个人和组织风险审计视图,对运维操作违规行为进行即时展示及预警,使其及时发现审计风险等问题并跟踪整改,避免操作风险处理不及时带来的

72、影响。 案例 10 打造智能运维利器,助力运维数字化转型 浦发银行 浦发银行运维管理经历多年探索实践,从“脚本化”走向“自动化” 、进而中国 AIOps 现状调查报告(2022 年) 56 “智能化” ,近年来利用大数据、人工智能技术自主研发,建立多中心多活实时数据通道、算子可编排流式计算开发框架、多数据源大数据存储、所见即所得可视化展现、自助可配智能算法建模、面向租户数据科学家实验室、自动数据质量校验数据治理等基础能力,基于其上探索实践智能运维场景。 智能运维架构图 1. 数据中心数字孪生 将数据中心管辖对象数化建模,分场地环境、基础设施、IT 软硬件、应用系统、业务交易五层建模,利用大数据

73、、流式计算,建立大中小三屏联动可视化体系,满足业务保障、参观展示、故障定位等需求。利用 kafka、flink 等开源技术,对交易报文、应用日志等多种数据解析聚合,实现端到端链路延迟 5秒内。 2. 趋势预测 根据时序数据趋势性和季节性特征、节假日和活动大促、时间点突变,结合机器学习分段线性拟合或分段逻辑回归, 较好的适应数据中易出现波动变化的趋势项,最终做出对未来的容量评估。目前应用于文件系统和数据库使用率上,利用历史三周样本预测未来一周走势,提前规划清理变更或空间扩容。 3. 多指标异常检测 中国 AIOps 现状调查报告(2022 年) 57 通过交易指标异常触发,从海量监控实体的性能指

74、标中,排查出异常的实体并自动分类排序。聚类不同表征的异常机器,采用搜索引擎排序技术Learning-to-Rank 中的 pointwise 对机器指标做排序,利用逻辑回归方法,自动训练出合适的排序模型。 随着应用微服务化、系统架构分布式、数据中心多地多活发展趋势,浦发银行在数据可视化、运行监控、容量管理、应急处置方面创新实践各类智能运维场景,收效显著,浦发运维人将继续秉承对运维精细化追求、对运维精进之路持续探索,向数字化、智能化方向迈进。 案例 11 “数字华泰”的智能运维(AIOps)建设 华泰证券 华泰证券于 2019 年启动全面数字化转型,2021 年 5 月 24 日, “数字华泰”

75、运营指挥中心正式上线。“数字华泰”运营指挥中心定位于用科技赋能系统运行保障和业务运营分析,引领全面数字化建设,探索运营智能化,打造金融科技“数字指挥中枢”。 华泰证券选择西骏数据的 MC-Stack 作为基座, 结合华泰证券的实际运维工具体系和运维场景需求,打造“数字华泰”的智能运维大脑: 1. 通过低代码方式接入现有各种运维工具数据。接入数据源包括统一监控平台、 CMDB、 日志分析系统、 RPA 系统等等。 接入方式包括 kafka、 Restful-API 等。支持通过配置来实现数据的接入。 2. 构建高性能智能运维大数据平台,实现实时算法服务。以 X-HDC 大数据管理引擎为核心,分别

76、构建时序数据、日志数据、指标数据、关系数据等中国 AIOps 现状调查报告(2022 年) 58 的标准化模型,通过分布式任务引擎实现实时大数据分布式处理,提供海量大数据高性能服务。在此基础上,通过运维算法平台提供实时算法服务。 智能运维大数据平台 3. 支持指标的异常监测及 AI 赋能。 基于动态阈值进行指标异常监测, 支持将监测分析结果反向输出到传统监控工具, 提升传统监控工具的预测预警能力。 4. 支持业务场景下的指标、日志关联分析。支持从日志中抽取各项业务指标,进行关联分析,及时发现和预警故障隐患。 5. 基于事件追踪,实现告警根因定位。通过对告警数据的 AI 算法处理,及时发现肇始告

77、警、快速识别告警事件,结合操作记录、配置变更、日志数据等关联分析,快速定位告警根因。 “数字华泰” 的智能运维平台建设, 一方面实现了华泰证券以往分散的 “运维孤岛”的数据整合和能力提升,有力保障了华泰证券各项业务的稳定高效运行;另一方面以智能运维平台为基础,开启了华泰证券运维数字化、数智化的转型之路。 中国 AIOps 现状调查报告(2022 年) 59 案例 12 智能运维平台建设实践 光大证券 光大证券升级大数据平台、完善日志管理、引进业务监控工具、重构CMDB、建设统一消息总线,完成了基础工具和数据准备。与必示等智能运维前沿科技公司合作, 不断探索适配证券行业特点的智能运维场景, 以异

78、常发现、故障定位以及故障处置作为智能运维的建设路径, 构建符合运维需要的智能运维平台,并顺利完成投产。 基于已积累的丰富运维数据, 光大证券智能运维平台可利用机器学习算法快速分析大规模运维数据,从异常发现和故障定位两方面,将现有各类 KPI 数据与业务明细数据、日志数据相结合进行自动化关联分析,有效改善了故障的发现与定位流程。 光大证券智能运维平台架构图 异常发现能力:包括业务指标异常检测和日志异常检测场景,业务指标从功能号的角度对业务可用性指标进行实时检测, 并将指标粒度从分钟级提升到中国 AIOps 现状调查报告(2022 年) 60 秒级来适配交易时效性高的特点;日志则从应用日志、系统日

79、志的角度发现日志数据中蕴含的异常事件,并作为故障排查时的佐证。 故障定位能力:包括业务明细多维定位和机器指标异常定位场景,业务明细数据中蕴含丰富的维度数据可用于判断异常根因维度和故障影响范围, 机器指标数据则用于判断 IT 基础设施对象的运行状态在故障时段是否存在异常。 智能运维平台上线以来,取得了显著成果,有效提升了业务系统的运维质量和系统稳定性,使应对业务系统运维难题和系统潜在风险的能力明显增强。 项目成效: 海量数据实时检测分析:核心应用系统运维数据接入检测范围和覆盖率达到 100%,目前核心柜台运行数据、交易终端运行数据、网络流量全部已经接入检测分析,每日实时处理数据近 1T。 节省人

80、力、提升运维效率:实现运维数据集中化管理,节省至少 10 人力/年,提高运维管理人员工作效率。 辅助排障决策,提升系统可用性:在业务指标发生异常时,可以在 1 分钟之内完成 17 个维度的分析,给出可能的异常维度(组合) ,MTTR 降低50%;系统事件发生后,响应时间从 5 分钟下降到 1 分钟,目前平台已接入近 5 万个机器指标,通常在 1 分钟内可以给出根因定位结果。 降低运维成本:通过以开源技术替代商业软件,直接节约经济成本 700 余万元。 案例 13 智能运维分析系统,助力业务运营高效平稳发展 中国 AIOps 现状调查报告(2022 年) 61 安信证券 安信证券以开源平台为基础

81、、利用运维实践与算法相结合打造智能运维分析系统。从海量的日志和运维数据中提取出有价值的信息帮助系统管理人员更好的了解系统、预测潜在风险、绘制系统画像、探寻数据规律、感知系统健康度。 智能运维分析系统在技术上主要以开源工具为主体,配合自研前端,灵活运用当前流行的算法和计算框架。系统逻辑架构如下: 智能运维分析系统架构图 1. 结合券商业务高实效性的特点,平台采用流批一体的数据处理技术、流式窗口聚合方式,实现了实时采集、秒级处理、秒级查询。通过流批一体数据处理引擎调用 Kafka Topic 中的数据进行实时解析和聚合,支持对导入的数据进行一定程度的清洗和转换,如按时间聚合、去重等。并把结果数据写

82、入持久化数据库。 2. 平台利用券商业务规律的特点,利用开市、休市等不同时间的数据对中国 AIOps 现状调查报告(2022 年) 62 告警系统进行训练,利用告警熵值计算的方式形成告警收敛,帮助运维人员更加快速定位告警的优先级。 本项目以业务和基础设施运维数据作为数据采集的核心, 以智能化场景作为切入点。支持应用水平扩展、集群化部署。通过监控,数据,算法三合一的方法,帮助运维人员快速便捷的发现和处理问题,达到智能化运维的效果。 项目成效: 提高业务监控能力,降低运维风险。智能监控平台是所有监控工具重要信息的汇集处理中心,通过统一的管理平台,进行告警统一管理发送、性能集中展示、报表集中生成等运

83、维和运营的操作和管理。 提升数据 AI 计算能力。 日志速析异常检测方面, 我们保留原有的传统日志监控的同时,增加了速析功能,通过 dtmos、spider 等开箱即用的算法,可以全面覆盖关键字检测无法监控的日志,对突然出现及偶尔出现的日志进行预警,并且还会监测日志数量突然快速增加或突然减少的情况进行告警,快速的发现基于人工经验无法识别的异常情况。 中国 AIOps 现状调查报告(2022 年) 63 (三)服务提供商篇 近几年,数字化业务转型正在推动我国 AIOps 市场快速发展,IT 投入在企业中占比逐年增长。我国智能运维行业大致可分为企业自研 AIOps 平台,企业在已有业务线的基础上融

84、合AIOps 平台能力以及专注于 AIOps 系统工具与解决方案领域的 IT 技术产品服务提供商。其中,IT 技术产品服务提供商依托自身创新型智能运维产品和服务模式,为各行业不同业务场景提供丰富多样的智能运维方案,为企业业务的高速发展提供有力保障。 案例 14 5G 时代 NFV 网络故障智荐平台 亚信科技 随着网络功能虚拟化(Network Functions Virtualization,简称 NFV)等技术的引入,5G 网络开放性和兼容性进一步提高,结构愈发复杂,技术组件更加多样,告警数量持续增多,传统的运维监控手段变得力不从心,亟需引入智能化运维手段和平台能力,助力故障快速分析。 亚信

85、科技全域智能运维产品助力某运营商,建立 NFV 网络故障智荐平台,基于多个网络资源池数据,及时发现异常并准确定位根因,有效解决告警风暴问题,显著提高运维效率,保障网络质量。 在现有网络云的运维体系中,建设 NFV 网络故障智荐平台,定位于提供智能化分析引擎,并与现有系统和流程集成对接,形成 5G 时代网络智能运维整体方案。 中国 AIOps 现状调查报告(2022 年) 64 NFV 网络故障智荐平台建设方案 NFV 网络故障智荐平台通过标准数据接入和处理能力,从监控系统和资源管理系统获取多个资源池的告警、资源、指标、日志等各类型数据,调用亚信科技自研算法,构建异常检测、根因分析等多种学件能力

86、,对告警事件按故障维度进行收敛,并通过模式匹配、故障树和中心度等多维度 AI 方法,进行故障根因智荐,并将结果以 API 方式推送,进一步支持多维故障监控、工单合并收敛等场景应用,为网络运维注智赋能。 项目成效: 自主构建:方案与运维系统松耦合,以学件能力支持,可自主快速构建新增资源对象分析任务; 融合决策:自研多种算法能力,支持模式匹配、故障树和中心度多维融合决策,事件收敛定位准确率高; 适用广泛:方案可适配不同厂家设备,兼容并蓄,适用广泛; 中国 AIOps 现状调查报告(2022 年) 65 一体运营:支持智能分析与标注运营闭环管理,效果持续迭代,不断优化。 目前,该方案已接入多个厂家

87、20 余个资源池的 10000+设备数据,经过长期运营跟踪,事件聚合准确率 90%左右,根因推荐准确率达到 99%,将网络云的故障发现和事件收敛时间从原来的平均 1 小时缩短到分钟级,将故障定位时间缩短到秒级,工作效率得到显著提升。 案例 15 智能运维云监控平台,赋能云服务生产能力 擎创科技 随着国产化系统的逐步替代, 国外商业监控软件无法进一步实现安全有效的云平台监控,数据中心等运维管理难度和重要性日渐凸显,对业务连续性和运维服务质量的要求不断提高,亟需建设一套科学高效、自主可控的智能化云监控平台。 为解决企业客户对智能运维监控系统的国产化需求, 擎创科技智能运维云监控平台通过智能化组件实

88、现对基础监控数据的集中查询和展现, 全面替换原有国外商业监控软件,实现云平台中对物理机和虚拟机的智能监控。一方面,该平台采用自研采集组件,增加统一报表、仪表盘等功能,实现生产环境非云平台服务器、存储设备、容器平台等资源的智能监控;另一方面,平台搭建多地多数据中心的平台框架,实现统一联动的智能化监控。同时,云监控平台深化智能运维场景,增强 PB 级运维数据纳管能力,通过 AI 机器学习平台,实现故障智能化的定位和自动处理等功能,充分挖掘运营数据价值。 项目成效: 中国 AIOps 现状调查报告(2022 年) 66 两端统一监控:监控平台的目标用户包含运营端和租户端;在运营端,监控平台满足用户规

89、模化、自动化以及智能化的监控需求;在租户端,监控平台满足不同租户个性化的监控需求。 多态统一监控:包含了传统物理设备、IaaS、PaaS、容器等多种形态的运维对象,监控平台满足多态环境中对不同类型运维对象的统一管理。 跨域统一监控:云监控平台包含了系统、网络、日志、应用等不同领域的监控,底层构建统一的运维对象模型,关联组织不同领域的运维数据,满足用户端到端管理的需求。 数据采集、数据处理和数据持久化模块支持横向扩展,以确保每个模块的单位时间的吞吐量以及处理能力,同时每个模块内部为分布式部署,保证了系统高可用以及数据安全。 数据采集、处理、存储以及分析等模块采用了目前主流成熟的开源组件和产品,既

90、有效利用了开源社区的力量,避免重复建设,同时有选择性地利用以及优化改造,弥补了功能性的不足。 案例 16 基于 AIOPS 的智能运维数字员工 新炬网络 数字化转型是企业以客户为中心, 通过数字化技术推动自身业务重塑和转型,目前企业 IT 发展已进入全面数字化时代。 “运维数字员工”是围绕运维数字化管理打造的智能解决方案,基于新炬网络公司自主研发的智能运维产品中台,融合智能 ITSM 服务管理和流程引中国 AIOps 现状调查报告(2022 年) 67 擎、超级自动化 RPA 技术和运维知识图谱等人工智能技术,为企业级客户提供服务响应、服务交付、专家支持和安全审计的创新应用,该解决方案在降低运

91、维成本的同时,能提供秒级服务响应,极大提升服务效率与质量,并支持快速横向扩展到人事、行政、财务等企业管理数字化需求。可以广泛应用于各行各业的企业级应用场景,例如:违规/风险识别、智能巡检、应用发布、数据修复、服务开通等。 新炬网络智能运维产品中台 运维数字员工可以将日常运维工作中各种周期性、 重复性以及低价值的运维琐事自动化高效处理,把运维人员从琐事中解放出来,投入到创新性和高价值的运维治理工作中: 1. 运维智能客服通过应用自然语言处理技术识别即时通讯软件中用户提交的运维服务请求, 基于运维知识图谱, 检索和查询服务结果快速反馈给用户,实现 7*24 服务请求的秒级响应,可以极大地提升用户的

92、运维服务体验。 2. 运维数字员工通过自动化运维操作人工审核和监督,能识别高风险的运维操作,自动审计记录、风险通告直到完全阻断高风险运维操作的执行。 中国 AIOps 现状调查报告(2022 年) 68 3. 通过实时识别故障的特征, 按预案执行自动化处理故障, 实现常见故障的自愈和自动化处理。 技术创新、业务发展以及众多的新技术的出现也对运维体系带来了挑战,金融行业数字化转型正在积极构建以客户为中心的数字化运营体系, 以提供长久的核心竞争力。 项目成效: 降低运维成本超过 50%, 大幅度减少重复性和机械性劳动, 解放人力资源。 支持 7*24 小时数字化服务,秒级服务响应,极大提升服务效率超过 70%。 有效避免 90%人为失误,规避可能出现的合规风险,每步操作都更具可追溯性。 提供多种渠道数字化服务,更高效的线上用户服务,更优质的用户体验。 中国 AIOps 现状调查报告(2022 年) 69 编后语 云计算开源产业联盟将继续关注、跟踪我国企业实践 AIOps 的能力成熟度情况。欢迎AIOps 领域广大企业、研究机构、专家学者和从业人员与报告编写组联系(联系邮箱: ) ,提出您感兴趣的调查问题,反馈您的宝贵意见和建议,帮助我们持续提升报告的针对性和实用价值。 感谢您对中国 AIOps 现状调查报告的大力支持。 云计算开源产业联盟 2022 年 7 月

友情提示

1、下载报告失败解决办法
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。

本文(云计算开源产业联盟:中国AIOps现状调查报告(2022)(69页).pdf)为本站 (小时候) 主动上传,三个皮匠报告文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三个皮匠报告文库(点击联系客服),我们立即给予删除!

温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。
会员购买
客服

专属顾问

商务合作

机构入驻、侵权投诉、商务合作

服务号

三个皮匠报告官方公众号

回到顶部