上海品茶

您的当前位置:上海品茶 > 报告分类 > PDF报告下载

艾瑞咨询:2022年企业应用运维管理指标体系白皮书(43页).pdf

编号:71353 PDF 43页 3.37MB 下载积分:VIP专享
下载报告请您先登录!

艾瑞咨询:2022年企业应用运维管理指标体系白皮书(43页).pdf

1、企业应用运维管理指标体系 白皮书 2022.5 iResearch Inc. 2022 企业应用运维管理指标体系白皮书 1 目 录 第一章 数字化时代企业 IT 运维的战略转型 . 3 一、企业 IT 运维概述 . 3 二、IT 运维背景:企业的数字化基础设施和应用现状 . 3 1、国家政策引导数字化支撑企业经营发展 . 3 2、云计算的普及形成了多样化的 IT 基础设施布局 . 4 3、云原生带来了运维技术和理念的深刻变化 . 5 4、数字经济环境下 IT 运维的价值创造属性更加显著 . 6 三、数字化时代企业 IT 运维的战略部署 . 7 1、企业 IT 运维的全面战略价值 . 7 2、企

2、业的 IT 运维组织架构革新 . 8 3、企业 IT 运维的成本效益考量 . 9 四、企业 IT 运维的需求和难点 . 11 1、数字化时代,企业更需要体系化的运维指导 . 11 2、IT 人才成本高企,企业运维需要系统性的知识沉淀 . 12 3、运维部门的战略转型需要疏通与其他部门的协作渠道 . 13 第二章 企业应用运维管理指标体系. 15 一、业务监测 . 16 1、业务数据价值 . 16 2、业务数据分析的作用 . 16 3、运营指标分类 . 17 4、业务分析常见指标说明 . 17 二、用户端体验监测. 19 1、用户端体验监测价值 . 19 2、用户端数据分析作用 . 19 3、用

3、户端监测实现形式 . 19 4、用户端监测常见指标说明 . 20 三、应用端监测 . 21 1、应用端监测意义 . 21 2、应用监测价值 . 22 3、应用监测常见功能 . 23 4、应用监测常见指标说明 . 23 四、网络监测 . 23 1、网络监测价值 . 23 2、网络监测常用实现方式 . 24 2022 企业应用运维管理指标体系白皮书 2 3、网络监测常见指标说明 . 24 五、资源层监测 . 25 1、资源层监测价值 . 25 2、资源层监测包含内容 . 25 3、资源层监测常用指标 . 26 六、中间件监测 . 26 1、中间件价值 . 26 2、消息中间件常见指标 . 27 3

4、、交易中间件常见指标 . 27 七、数据库监测 . 28 1、数据库价值 . 28 2、数据库分类 . 28 3、数据库监测常用指标说明 . 29 第三章 企业应用运维管理指标体系建设实践 . 30 一、企业应用运维管理指标体系建设指导思想 . 30 1、指导思想. 30 2、业务全面梳理 . 30 3、确定应用关键动作 . 31 4、预定义各关键指标 . 31 5、企业应用运维管理平台 . 32 二、企业应用运维管理指标体系建设步骤 . 33 步骤一:调研 . 33 步骤二:验证 . 36 步骤三:阀值 . 37 步骤四:评价体系 . 39 步骤五:闭环 . 39 三、指标体系常用场景 .

5、40 特别鸣谢 . 41 附:本报告专业名词释义 . 42 公司介绍/法律声明 . 43 版权声明 . 43 免责条款 . 43 联系我们 . 43 微信公号 . 43 2022 企业应用运维管理指标体系白皮书 3 第一章 数字化时代企业 IT 运维的战略转型 一、企业 IT 运维概述 IT 运维是企业对其所拥有和管理的 IT 软硬件资源设施进行监测、维护、优化的过程。企业的 IT 运维工作根据运维视角和对象的不同可以分为企业侧的基础设施运维、应用系统运维、网络通信运维以及用户侧的用户体验管理等。 IT 基础设施运维面向 CPU、 存储器等基础硬件操作系统, 中间件、 数据库等基础软件,确保企

6、业 IT 系统的可用性、安全性和连续性,提高企业 IT 系统的运行效率和服务质量,是企业信息化依赖的基础和根本。在 IT 基础架构云化的背景下,面向基础云服务的运维管理也被纳入 IT 基础设施运维的范畴中。应用系统运维主要面向企业的各项内外部数字服务,对其应用性能和表现进行监控和实时优化, 从而确保各项功能正常运作, 提升使用者的交互体验。网络通信运维面向企业的网络架构,关注网络通信的速度、稳定性和延迟等方面的表现,确保企业的网络处于高质量运行水平,提供良好的信息传输体验。 随着互联网服务深入千行百业, 数字化应用成为企业和机构为用户提供服务的重要形式,直接对用户体验环节进行监测和优化成为 I

7、T 运维的新思路和途径,相较于传统的面向企业IT 资源的运维,面向用户体验的 IT 运维方式更加聚焦于前端业务侧,能以更显而易见的方式提升各项服务的表现。 随着互联网经济的发展, 这一运维思路已在企业中得到了充分实践。 二、IT 运维背景:企业的数字化基础设施和应用现状 1、国家政策引导数字化支撑企业经营发展 以数字化工具为代表的前沿科技已经成为企业经营发展的重要推动力以及社会重要生产力,一直以来国家政策对数字化建设保持着积极乐观的支持态度,近两个“五年规划”均提及了支持企业通过数字化转型升级提升经营能力和水平。 在此环境下, 各部委和地方政府也在不断出台鼓励政策,支持数字经济发展,推动数字能

8、力向传统企业渗透,赋能传统提升经营效率。 从细分领域上看, 近年来云计算仍然是国家和行业科技政策的重要方向, 由云计算带来的企业 IT 基础设施多样化的问题将对 IT 运维持续产生需求。此外,近年来政策不断强调企业应当在数字化建设的过程中更明确地确立数据的资产地位, 更有效地发掘数据的商业价值,以数据应用赋能企业的数字化建设乃至主营业务的发展, 对于金融等数字化深度融合的行业尤其如此,各行业主管部门也在加强对数据和智能应用的推进。 2022 企业应用运维管理指标体系白皮书 4 表 1:近年来与企业 IT 数字化建设相关政策梳理 2、云计算的普及形成了多样化的 IT 基础设施布局 近十年来基础云

9、服务在国内企业间深度渗透, 各行各业和不同规模的企业以不同的方式部署了基础云计算产品。其中,中小企业通常无力也无必要部署私有的服务器,更倾向于使用公有云服务获取低成本的 IT 资源;而大型集团企业或者具备系统性重要性的行业企业出于合规和数据安全考虑, 更倾向于同时使用公有云和私有云, 将不同类型的数字功能部署在不同位置,由此,混合云成为了金融、交通、政务等关键行业企业的普遍选择。 图 1:2021 年全球企业的用云方式 2022 企业应用运维管理指标体系白皮书 5 图 2:2021 年全球企业的混合云用云方式 多云和混合云使得企业的基础 IT 资源架构复杂化,提升了企业运维的洞察力要求。此外,

10、 基础云服务本身作为一种计算资源的获取方式, 实际上是企业利用网络通信资源来代替本地化部署的计算资源。因此,企业为了保障基于云服务的数字应用质量,需要同时对网络通信的质量进行监控,构建全方位的 IT 资源监测和优化体系。 3、云原生带来了运维技术和理念的深刻变化 云原生已经迈过了概念期,在各行业得到了充分应用,未来还将进一步推广。云原生体现了云计算发展的下一阶段的模式: 以容器技术以及微服务架构为基础, 云原生模式下企业调用云资源的颗粒度和弹性都能够得到显著提升。同时,经微服务改造、运行在容器环境下的应用程序架构和管理也更加复杂, 需要更具深度和洞察能力的运维工具对其进行透视, 帮助企业监测云

11、原生应用的运营状况。 图 3:2019&2020 年中国企业容器使用方式 2022 企业应用运维管理指标体系白皮书 6 除了给企业的 IT 基础架构以及运维手段带来改变,云原生也对企业运维部门的工作方式方法造成了深刻影响,典型代表是 DevOps(开发运维一体化)理念和实践的推行。 在 DevOps 推广之前,企业 IT 部门下属的软件开发和运维部门是两个比较独立和割裂的体系,由不同的员工负责。在这种传统模式下,两部门各有不同的利益关切,在技术协调和工作协同方面的沟通受阻, 导致整体的工作效率不高。 DevOps 的首要作用在于通过云原生架构为开发和运维部门提供一致性的工作环境,使得开发人员能

12、够便捷地参与运维工作,从而将原本割裂的两个部门体系打通, 提升软件工程的整体效率。 DevOps 的推广与云原生架构的普及密切相关, 因此, 也可以认为云原生技术给企业运维部门的工作方式和流程带来了改变。 4、数字经济环境下 IT 运维的价值创造属性更加显著 除了 IT 基础设施形式及技术更迭之外,企业应用层的变化也在影响着运维部门的任务与长期价值。 产业数字化和数字产业化在三次产业中的渗透率正在不断提升, 其中尤其以第三产业最为突出。 数字经济的深化发展使得企业经营活动的形态发生了显著的变化, 以数字形态和互联网渠道发生的经营合管理活动越来越多,形式创新也在不断更迭。 图 4:2016-20

13、20 年中国三次产业的数字经济渗透率 2022 企业应用运维管理指标体系白皮书 7 图 5:2013-2020 年中国有电子商务交易活动的企业数比重 企业经营活动的转型使得运维工作的密集度、 重要性和战略价值都出现了提升, 此前企业的 IT 系统主要面向内部使用,现在新增了大量面向客户提供服务的模块,从而使得企业的运维质量直接关系到客户的使用体验以及对企业的整体评价, 进一步影响企业的市场形象和品牌价值。 对于互联网娱乐、 互联网金融等体验属性较强的业务而言, 上述影响更加显著,这也使得这些企业对数字化环境中的 IT 运维建设格外看重。 运维工作在直接影响数字服务质量的同时, 也会影响企业内部

14、系统的性能和稳定性, 尤其对于开发侧而言, 能否获得高效稳定的开发环境在一定程度上决定了企业的数字应用迭代效率,对于数字服务企业而言,这是构成其市场竞争力的重要方面。结合了大数据和人工智能算法之后, 企业能够借助运维工具进一步提升运维工作的效率和准确率, 并为业务侧带来更富洞见的分析指标。 三、数字化时代企业 IT 运维的战略部署 1、企业 IT 运维的全面战略价值 整体来看, IT 运维工作能够为企业带来三方面的价值: 通过更加精确的资源需求统计,帮助企业降低冗余的 IT 投入,从而带来直接的会计价值;企业在数字化环境下,运维部门通过业务大数据分析能够指导业务部门的产品改良或创新,由此有望为

15、企业带来业务创收,这部分价值也应当纳入管理层对运维部门成本效益的考量; 此外, 由运维创新带来的企业服务质量的提升能够帮助企业提升市场形象, 由此带来的品牌价值尽管无法估算, 但对于企业的经营和发展仍然有着重要意义。 2022 企业应用运维管理指标体系白皮书 8 图 6:IT 运维创新给企业带来的多重价值 为了充分发挥上述价值, 尤其是对业务部门和公司品牌的价值, 运维部门需要在运维工作的开展方式上进行优化。传统视角下,运维部门着眼于归属企业的 IT 资产端,以保证在内部视角下 IT 系统稳定运行,但在数字化时代,运维工作更需要从用户视角出发,也就是从应用端着手,将提升应用端的高质量体验置于优

16、先地位, “自上而下”地进行从应用端到资源端的穿透,从而为企业整体带来提升用户粘性和品牌声望的提升。 2、企业的 IT 运维组织架构革新 IT 运维部门在企业中的组织架构关系也体现着运维的具体工作内容以及对企业的意义。运维部门通常隶属于 CTO, 与开发、 集成等其他信息技术部门并列。 在传统的企业架构中,IT 运维属于不直接创造价值、仅仅为支撑前端业务运营而存在的“后台”部门,其支出也被理解为纯粹的费用, 比较难以获得企业的主动投入和规模建设。 随着企业数字化转型的开展,运维部门除了发挥固有的 IT 支撑作用之外,还开始通过业务系统数据洞察来帮助和指导企业的数字化业务创新,从而具备了一定的“

17、中台”作用。 2022 企业应用运维管理指标体系白皮书 9 图 7:企业 IT 运维部门的组织架构关系 运维部门要充分发挥对业务侧以及企业整体的赋能价值, 在配备具备大数据、 智能分析等运维产品之外, 也需要在组织架构方面进行改良。 企业需要创设业务侧与运维部门的沟通渠道, 并将之形成固有的制度体系, 使得运维部门的建议能够传达到业务侧并有效落实由于涉及到企业的组织架构调整,这可能是一个相对缓慢的过程,但对于企业 IT 能力的充分发挥至关重要。 3、企业 IT 运维的成本效益考量 在 IT 运维充当“后勤”的时代,企业对于运维部门的成本效益考量相对简单,主要参考的是运维产生的各项投入以及最终的

18、 IT 系统表现:基于传统的 IT 基础设施,企业通常采用横向扩容的方式提升灾备和可用性, 新一代运维服务能够以更低的成本解决这些问题, 从而节省企业购置服务器、 网络带宽等基础设施的费用, 形成前述的直接可见的部门内会计价值。 从运维部门的成本投入上看,以运维服务器(如监测服务器、备份服务器等)为代表的运维硬件的购置成本和设备运行过程中产生的电力及损耗占据 60-70%的比例, 其他成本主要包括运维软件及 IT 人力投入。通过智能化、体系化的运维创新,企业能够减少占较大比重的运维硬件固定投入,并降低重复性的人力投入,将优秀的 IT 设备和人才资源投入到更具创造性的开发工作中去。 2022 企

19、业应用运维管理指标体系白皮书 10 图 8:企业运维部门成本结构估算 在新兴的智能运维领域,在提升可用性、稳定性之外,智能运维的重要价值就在于减少重复的人工投入,提升自动化水平,因此企业在评估智能运维成效的时候,也需要综合考虑智能运维的这一属性为企业带来的成本优化。 对于运维数据体系建设较完善的企业, 还应当将运维给业务部门带来的价值增量纳入考察范围, 由于基线难以确认, 又涉及企业组织架构间的协调,这一指标相对难以构建,但管理层仍然需要注重这一价值,以便正确衡量智能运维投入的性价比。 图 9:2021 年全球企业:智能运维效果评估指标选取调研 2022 企业应用运维管理指标体系白皮书 11

20、四、企业 IT 运维的需求和难点 1、数字化时代,企业更需要体系化的运维指导 进入数字化时代以来, 企业正在不断提升软硬件投入, 以强化自身的数字化能力。 2020年,尽管整体经济发展状况受到了疫情带来的较大影响,但中国企业的 IT 支出水平仍然实现了小幅度上升。从结构上看,中国企业的 IT 支出主要流向通信服务、IT 设备两大类,此外还有 IT 服务、数据中心系统和企业级软件等,其中企业级软件在疫情对数字化经营的刺激下于 2020 年后出现了较大增长。 相较于全球企业的平均水平,国内企业对 IT 设备的投入比例较高,从而带来了后续面向设备的运维需求, 而在数字化经营的需求下, 企业级软件的增

21、加也创造出了丰富的应用运维需求。而在通信服务等其他方面,服务商会为企业提供一定的基础运维,企业也会结合自身的业务和 IT 架构状况进行个性化的运维体系建设。整体来看,提升运维能力是数字化时代企业进行转型和发展必然需求。 图 10:2019-2021 年中国企业 IT 支出大类规模和结构 前文已经提及,前互联网经济时代,企业的运维体系是从内部视角出发构建的,现今需要向应用端视角转变,二者的根本目虽然是一致的,但在运维工作的方法上需要更新,企业随之产生了对新环境下的运维体系的方法论需求。此外,公有云、私有云、边缘云等多种新型 IT 基础设施的应用,给企业的 IT 资源带来了全方位的复杂化、立体化革

22、新,数字经济的渗透又给企业的运维提出了更高标准的要求。 结合下图中国内某头部厂商城商行的运维现状、问题和发展规划可见, 要适应上述的基础架构和业务形式变化, 企业需要系统化的方法论指导、明确的指标体系的引导。这些前期工作的积累和沉淀,能够为企业运维工作带来执行效率和管理效率的提升。 2022 企业应用运维管理指标体系白皮书 12 图 11:中国某银行的 IT 运维体系和发展规划 2、IT 人才成本高企,企业运维需要系统性的知识沉淀 随着数字经济的发展及其创造的社会经济价值持续提升,我国的 IT 人才成本在市场需求的刺激下持续提升,国家统计局数据显示,IT 行业(信息传输、计算机服务和软件业)的

23、城镇就业人员年均薪酬在所有宏观大类行业中位居第一,保持较高的同比增速,且 IT 行业的平均薪酬自 2016 年首次超过金融行业以来就一直位居榜首位置,如果以 8%的复合增长率计算,到 2025 年 IT 行业人才平均年薪将超过 26 万元。 图 12:2020 年中国宏观大类行业城镇就业人员平均薪资 TOP5 及增速 2022 企业应用运维管理指标体系白皮书 13 图 13:2011-2020 年中国 IT 行业城镇就业人员平均年薪 IT 人才成本的提高, 给企业带来的直接影响是增加了聘请包含运维在内的员工的成本。另一方面, 在社会分工细化和产业整合的大环境下, IT 人才更可能向专业的信息科

24、技企业流动,甲方企业更有可能面临人才缺乏和流失问题。对于企业而言,减少对人力和经验的依赖是应对上述问题的有效方法, 而为了达成这一目标, 企业需要为运维工作建设系统性的指标、流程和组织协作体系, 下图所示的中国某传统行业大型企业就采取了上述的发展战略, 以构建体系的方式来提升运维工作的标准化程度,从而实现运维工作的降本增效。 图 14:中国某传统行业企业的 IT 运维体系和发展规划 3、运维部门的战略转型需要疏通与其他部门的协作渠道 在数字化经营环境下,企业运维部门的价值不再限于运维本身,甚至也不仅限于 IT 领域,而是能够透过 IT 系统数据洞察企业业务拓展和内部管理中存在的问题,帮助企业改

25、善经营质量和管理水平。 2022 企业应用运维管理指标体系白皮书 14 前文已经提及,要实现这一变革,企业不仅需要做好底层数据打通和分析框架构建,并为运维部门配备具备大数据分析功能的数字产品, 更需要就组织架构进行优化: 对于很多传统企业来说,运维部门的定位仍然停留在企业后台,对前端的经营管理几乎没有话语权,更容易因为暂时的经营困难面临裁减预算和人员等难题。 为了发挥企业运维侧的战略价值, 企业需要自上而下地打通运维部门和其他部门之间的沟通渠道,形成合力,共同赋能于企业的数字化转型升级。下图展示了中国某头部互联网企业的运维发展状况和未来规划, 对于互联网企业而言, 基于数据的运维技术相较其他传

26、统行业更加程度,但由于互联网业务的数字型,运维部门也承担着更贴近业务侧的职责,为了更好地赋能业务创新,运维部门不仅需要运维技术的迭代,也需要通过建立更完善的、能够持续赋能和迭代的运维指标体系的方式,来疏通和业务部门、管理层沟通的渠道,使运维部门能够充分发挥技术优势和创新能力, 提升运维工作给企业都带来的价值, 增加运维工作的投入产出比。 图 15:中国某互联网企业的 IT 运维体系和发展规划 2022 企业应用运维管理指标体系白皮书 15 第二章 企业应用运维管理指标体系 本报告第一章阐释了企业 IT 运维的内涵,以及在当前数字经济发展的大环境下企业 IT运维工作在技术、战略、组织架构等方面面

27、临的变化,并就企业 IT 运维的战略发展方向以及需要解决的需求和难点进行了列举。前文已经提及,企业 IT 运维正在经历从“后台”向“中台”的转变,进一步发挥其在企业中“降本增效”的效果。艾瑞咨询认为,为了提升运维的投入产出比并提升运维侧对业务侧的价值创造属性, 企业的运维部门需要构建一套运维管理指标体系,这将帮助企业运维部门形成高效的工作流体系,提升日常运维工作的效率,减轻运维工作对人工和经验的依赖, 并为基于大数据的智能运维应用的部署提供支持和引导。 图 16:企业应用运维管理指标体系全局示意图 上图以博睿数据的企业应用运维指标体系为例,展示了一种的全新的企 IT 运维指标体系,这一体系从业

28、务视角切入,以业务场景为主题,以业务连续性为宗旨,通过直面业务场景、正向梳理 IT 调用链、逆向接入数据源等实施步骤,最终构建起具备概览所有业务场景健康度、俯瞰多维立体化 IT 指标等能力的资源指标管理体系。本章后文内容基于这一指标体系,以业务端-用户端-应用层-网络层-资源层-中间件-数据库的顺序展示了各版块主要的运维指标,并对各版块运维的价值、作用和实现方式进行了说明。 2022 企业应用运维管理指标体系白皮书 16 一、业务监测 1、业务数据价值 业务端是企业应用运维指标体系的首要关注点。 对于企业来说, 业务状况是企业管理者最关心的部分,也是企业所有决策的基础,而随着大数据和人工智能技

29、术的发展,大量企业借助信息技术实现转型升级。 下图展示了我们对业务端核心运维指标的分层以及实践中部分企业的对业务端运维指标的关注点, 艾瑞咨询认为, 业务数据指标能够为业务侧员工和管理者提供数据洞察,员工和管理者做决策时不再仅仅是按照经验“拍脑袋”,而是基于数据分析的结果进行战略调整及决策规划。 图 17:业务端核心运维指标体系及企业应用案例 2、业务数据分析的作用 寻找优质渠道:发现高量级、高质量渠道、发现真正价值来源。 提升关键转化:探索发现用户关键行为,建立业务关键路径、提升用户转化效果、降低关键业务环节用户流失。 识别高价值用户:整合自有数据和第三方数据,掌握用户全景画像,识别高价值用

30、户,并针对潜在购买人群进行产品升级营销、交叉营销、复购营销,提升用户粘性和全生命周期价值。 提升触达效果:整合推送、邮件、短信类的多渠道对用户进行全方位触达,并基于数据 2022 企业应用运维管理指标体系白皮书 17 进行分群个性化触达,真正实现千人千面,做到精准投放。 提升营销效果:以推广页为起点进行转化分析,提升营销活动效果。针对未响应、未购买等人群,通过不同活动进行分层创意营销,提升活动效果和 ROI4。 3、运营指标分类 运营指标是量化衡量标准、衡量目标的单位或方法,针对企业的 Web、APP、小程序上的指标通常分为以下几种形式: 表 2:主要运营指标类型 其它常见的指标类型如下图所示

31、: 表 3:其它常见指标类型 4、业务分析常见指标说明 转化率: 转化率指在一个统计周期内, 完成转化行为的次数占推广信息总点击次数的比率。计算公式为:转化率=(转化次数/点击量)100%。 例如 10 名用户看到某个搜索推广的结果,其中 5 名用户点击了某一推广结果并被跳转到目标 URL 上,之后其中的 2 名用户有了后续转化的行为。 点击率: “点击率” 来自于英文“Click-through Rate” (点进率) 以及“Clicks Ratio”(点击率),是指网站页面上某一内容被点击的次数与被显示次数之比,即 clicks/views,能够反映网页上某一内容的受关注程度,经常用来衡量

32、广告的吸引程度。 UV(Unique Visitor)独立访客:统计 1 天内访问某站点的用户数(以 cookie 为依据),通常将访问网站的一台电脑客户端计为一个访客,可以理解为访问某网站的电脑的数量。网站判断来访电脑的身份是通过来访电脑的 cookies 实现的。若更换了 IP 后但不清除 2022 企业应用运维管理指标体系白皮书 18 cookies,再访问相同网站,该网站的统计中 UV 数不变。若用户不保存 cookies 访问、清除 cookies 或者更换设备访问,计数会加 1。 PV(Page View)访问量:页面浏览量或点击量,衡量网站用户访问的网页数量,在一定统计周期内用户

33、每打开或刷新一个页面就记录 1 次,多次打开或刷新同一页面则浏览量累计。 启动用户数:通对启动用户数跨天去重,从而反应真实的 UV。 留存率:互联网行业通过拉新或推广的活动把用户引过来,用户开始访问网站/应用,但是经过一段时间可能就会有一部分客户逐渐流失。 留存率定义为用户在某段时间内开始使用网站/应用 (一般定义是注册) , 经过一段时间后, 仍然继续使用的人被认作是留存用户。留存率体现了网站/应用的质量和保留用户的能力。 七日留存: 指发生初始行为的用户经过七天, 发生了回访行为的用户。 例如, 选择条件:初始行为=点击购买,回访行为=点击购买,4 月 1 日发生购买的用户 200 人,这

34、 200 人中4 月 7 日再次购买的用户有 50 人,则第 7 日留存用户为 50。 活跃用户数:传统意义上是一段时间内有访问行为的用户数,对于网站来说是访问,而对于 APP 来说是启动;时间窗口往往是天或月,例如:按天统计时就是 DAU,按月统计时则是 MAU。 ROI:投资回报率, 对企业来说用于推广效果评估, 可以助力企业实现一定程度的精准投放。 活跃用户 ID 数:每一个用户都会对应一个 ID。 活跃天数:通常指人均活跃天数。 老用户数:通常指在特定分析时间段内,之前已经访问过的用户数量。 每日流失用户:当天没有访问网站的老用户。 平均停留时间:平均每位访问者在网站上停留的时间 。

35、人均使用时长:常见于对 APP 数据统计,人均使用时长 = 总使用时长 / 使用人数。 触发次数:触发一个事件的次数,比如点击登录、加购等按钮次数。 周活跃率:去重后的周活跃用户数量 / 历史累计去重后的用户数量。 日活跃率:去重后的日活跃用户数量 / 历史累计去重后的用户数量。 达成人数:完成特定流程或事件的人数。 页面访问次数:特定页面的打开次数。 新增用户占比:特定时间段内,新用户与总人数的比值。 2022 企业应用运维管理指标体系白皮书 19 二、用户端体验监测 1、用户端体验监测价值 用户端(APP、小程序、网站等)是企业与用户的数字触点,同时也是企业获客、留客的重要途径。 在互联网

36、/数字化服务的整个链条上, 客户需首要关注的是用户端体验及表现,从而使得用户端体验成为数字化经营中企业产品力和市场竞争力的重要组成部分。 下图展示了用户端核心运维指标体系及部分企业的关注点, 艾瑞咨询认为, 以提升体验为核心的用户端运维质量会直接影响用户对企业的印象和评价,是企业开展运维工作良好的着力点。 图 19:用户端核心运维指标体系及企业应用案例 2、用户端数据分析作用 分析客户端的性能及可用性表现,全面掌握不同终端、不同地域、不同运营商网络中的业务体验差异, 快速定位问题成因是外部网络问题还是终端问题, 确保业务在全国范围的终端侧可用。 3、用户端监测实现形式 用户端真实用户体验监测通

37、用方案有两种: 无侵入式模拟监测和代码注入式的体验监测。 无侵入式监测也称作模拟监测,采用分布在全国不同地区、不同运营商监测点,定时动态地访问网站服务及应用;代码注入式监测则是对全量用户数据的收集,通过 SDK 注入的 2022 企业应用运维管理指标体系白皮书 20 方式全面掌握用户的感知和行为数据, 不仅可以及时发现网页/APP/小程序上线后存在的应用性能不良、崩溃、卡顿等问题的原因,还可以真实反映用户的留存与操作情况,帮助开发者对 APP 进行优化,提高用户粘性。 4、用户端监测常见指标说明 可优化延时:衡量会话受可优化问题的影响的时间量,如果解决了相应的可优化问题,用户就可以在更短的时间

38、内完成会话。使用投影法可以计算会话可优化延时。 体验评分:以百分制计算会话的综合体验评分。体验评分 =(执行通过率/100%)舍尾取整(1-可用性)100(1-可优化延时/会话整体耗时权重 A+(1-请求错误率)权重B+(1-请求警示率)权重 C,不可用或非 100%通过的会话,会话体验评分为 0。权重使用主客观综合赋权法确定,权重=0.8主观权重+(1-0.8)客观权重,0.8 为初始权重参数。 首屏时间:用户访问网站时,页面第一屏的打开展现时间。 可用性:网站打开成功率,是反映网站是否稳定的重要指标。 ANR1:指在 Android 上,应用程序响应不够灵敏时,系统会向用户显示的一个对话框

39、,通常关注指标有 ANR 次数、ANR 率等。 整体性能:页面全部加载完成的时间,即页面打开的耗时。 崩溃:APP 崩溃是导致用户流失的重要因素之一。由于大多数公司在 APP 上线之前无法做到在各种环境下的全面适配测试, 出现崩溃在所难免。 快速定位问题点及问题复现是崩溃分析的意义所在, 公司常需要关注崩溃次数及崩溃率, 通过崩溃堆栈进行问题分析与定位。 白屏时间:即用户点击一个链接或打开浏览器输入 URL 地址后,从屏幕空白到显示第一个画面的时间。白屏时间的长短将直接影响用户对该网站的第一印象。 首次渲染时间:从开始浏览到实际渲染出第一个像素之间的时间间隔。 卡顿:如果出现出现 jank(F

40、PS 突降)、帧渲染缓慢、FPS 长期过低三者之一,则会出现屏幕卡顿问题,可以通过查看受此问题影响的时间区域的 FPS、帧渲染时间,确定具体的卡顿原因。 可交互时间: 网页第一次完全达到可交互状态的时间点, 可交互的状态下浏览器可以持续性地响应用户的输入。 通过率: 以百分率表示在规定的时间内, 会话未出现致命问题的情况下的动作执行通过性,通过率=会话预设交互已执行次数/总预设交互次数100%。 用户端访问过程中的错误情况也需要关注, 常见的错误包括 JS 错误、 请求错误率、 400错误率、500 错误率、600 错误率等。 2022 企业应用运维管理指标体系白皮书 21 DNS3时间:指页

41、面或元素访问过程中 DNS 解析所用的时间。 劫持比率:浏览过程中发生 DNS 劫持或页面劫持的总监测次数占总访问次数的比率。 首包时间:从页面浏览开始到接收到第一包数据(通常为基础文档数据)返回之间的时间差。 应用安装耗时:应用在安装过程中消耗的时间。 信息量:页面上显示的信息量,以图像判断所传递的信息量。 响应时间: 指客户端发送调度请求之后到接收到调度服务器返回第一包数据之间的时间差。 TCP2链接时间:下载该元素过程中建立 TCP 连接所用的时间。 SSL 建连时间:下载元素所需的 SSL 握手用时。 CDN: 构建在现有网络基础之上的智能虚拟网络, 依靠部署在各地的边缘服务器, 通过

42、中心平台的负载均衡、内容分发、调度等功能模块,使用户就近获取所需内容,降低网络拥塞,提高用户访问响应速度和命中率。是目前常用的网站加速技术。国内 CDN 厂商众多,企业每年在 CDN 服务方面投入从千万级到十万级不等,因此 CDN 服务质量也是各类网站的关注重点,了解其服务质量主要通过 CDN 请求性能、CDN 运营商匹配率、CDN 城市匹配率来评估。 三、应用端监测 1、应用端监测意义 了解应用访问情况是企业 IT 运维的基础。艾瑞咨询认为,用户端指标所反映的访问情况只是一个表象, 用户端真正所访问到的其实是网站的后台应用, 当前企业面临着日益激增的 IT 复杂性和业务需求的快速变化,IT

43、应用在运行过程中发生性能下降或者服务不可用等故障的可能性大大增加,从而影响业务服务的正常运行。 下图展示了应用端核心运维指标体系及部分企业的关注点: 企业的数字化业务正在不断增加,业务系统之间的关联性也在持续提升,同时,企业的 IT 系统的规模和架构的复杂度也在提升, 传统企业可能缺乏专业的运维团队以及专业的业务应用监控工具来应对。 随着敏捷开发与开发运维一体化时代的到来, 越来越多的企业采用应用容器化部署, 庞大的分布式服务集群包含了成千上百的容器实例, 而这些实例都是可随时进行销毁和创建的。 由于虚拟化和云技术的高速发展、终端设备类型的增加和网络接入方式的多样化,如何更高效、智能地在应用容

44、器中部署和管理探针, 成为各大企业运维人员更加关心的问题, 而有效地管理这 2022 企业应用运维管理指标体系白皮书 22 些应用,保证业务的连续性和 IT 系统的稳定性是业务发展的迫切需要,企业需要对软件应用程序的可用性进行监视和管理。 图 20:应用层核心运维指标体系及企业应用案例 2、应用监测价值 应用监测能够帮助企业快速定位问题和节约成本:通过应用监测,探针对慢请求进行深度分析, 让企业能够在几秒钟内了解性能问题的根本原因, 并深入到最小维度发掘特定调用的堆栈跟踪信息, 只需几秒钟就能找出关于响应时间延迟的类目和方法; 运维人员可以清晰地了解当前应用性能情况, 例如是否是代码原因导致的

45、应用用户体验下降, 进一步导致客户的流失;针对业务工程的全部代码(包括用户级别代码)进行全程自动跟踪,且无需研发团队配合,既高效又节约了成本。 协助企业持续关注应用性能状态, 并获取实时反馈: 企业通过监测平台开始对应用进行检测后,系统会持续地接收所采集的样本数据,采集数据最小周期为 1 分钟,保证用户每次看到的报告数据都是最新的, 真正做到对应用的实时跟踪。 当监测平台发现潜在的服务器处理问题达到一定标准时,会以报警的形式第一时间通知运维人员,引起运维人员的重视,及时处理,从而最大限度降低损失。 助力企业应用容器化部署:对于采用应用容器化部署的公司来说,应用架构较为复杂,版本的迭代和功能更新

46、频率较高。采用 SmartAgent 技术的应用监控,可自动对宿主机上所有目标应用进程进行自动识别和探针部署、配置,整个过程无需用户任何手工干预,实现服务端应用性能监测的探针自动化部署和配置。 2022 企业应用运维管理指标体系白皮书 23 3、应用监测常见功能 应用逻辑拓扑发现与可视化:以业务视角透视 IT 系统架构,通过应用拓扑完整展现 IT系统架构,帮助用户掌握业务在各个环节的性能表现。 用户事务剖析: 对指定的用户事务请求进行完整的追踪, 包括在整个请求过程中调用的所有服务和组件。 应用组件深入钻取:支持对用户级代码进行分析,可呈现每一个类、每一个方法的执行效率,帮助研发团队了解业务性

47、能表现的每一个细节。 4、应用监测常见指标说明 健康度:应用健康度的标示,展示应用当前是否有性能问题。常分为四个等级:正常、较慢、很慢、停滞。 Apdex:全称是 Application Performance Index,是由 Apdex 联盟开发的用于评估应用性能的工业标准。Apdex 标准从用户的角度出发,将对应用响应时间的表现,转为用户对于应用性能的可量化范围为 0-1 的满意度评价。 响应时间:应用的平均响应时间。 错误率:发生错误的请求占比,即所选时间范围内,业务过程错误数量之和总请求数100%。 吞吐率:包含自身调用、数据库调用、NoSQL 调用、第三方服务调用过程中所传输的数据

48、量。 慢请求次数:发生慢请求的次数,需要进一步定位慢请求所对应的业务、容器、容器集和集群。 慢请求占比:发生慢请求次数占所有请求次数的比例。 此外, 企业还需要关注数据库的调用数据库错误率、 调用数据库次数及调用数据库响应时间;除了企业的自身调用需要关注外,其外部调用同样也需要,常见指标包括:调用外部服务次数、调用外部服务响应时间、调用外部服务错误率等。 四、网络监测 1、网络监测价值 各个应用之间的调用通过网络来实现,各个企业 IT 建设的规模与复杂度与日俱增,需要通过网络监测对现有运维流程进行优化, 不断提升管理和运维水平。 下图展示了用户端核 2022 企业应用运维管理指标体系白皮书 2

49、4 心运维指标体系及部分企业的关注点,艾瑞咨询认为,网络设施衔接着企业的 IT 基础资源和用户端的使用体验,也能够反映企业的客户数量、业务流量和业务的时间、地域等特征,在特殊场景下更牵涉数据安全等问题, 能够在很大程度上帮助提升企业数字化服务的创新力和产品力。 图 21:网络侧核心运维指标体系及企业应用案例 2、网络监测常用实现方式 业内常用的网络性能分析通过自动采集网络中传输的数据包, 提炼加工出网络侧的指标数据进行分析展示,具备数据回溯、定位故障、告警、分析报告等功能。 3、网络监测常见指标说明 流量:传输数据的总量 (单位 Byte)。 吞吐量:传输数据的速率(单位 bps)。 建连成功

50、率:建连成功次数占总请求次数的比率。 客户端传输时延:服务侧丢包时,客户端传输停顿到重传包的平均时间。 丢包率:数据交互过程中丢包数与总包数的比率。 客户数:访问源客户端总个数。 流入包数:流入传输数据总包数。 流出字节:流出数据的字节数。 2022 企业应用运维管理指标体系白皮书 25 包大小:数据包大小。 服务器延时:数据包从服务端传送到客户端的平均耗时。 其它常关注指标有:流出吞吐量、重传时延、大包占比、0 窗口(TCP 报头结构中有 16位的窗口大小, 由接收方填充用来告知发送方当前本端还能接收的数据长度。 如果接收方不断从网络中接收并缓存数据, 但是应用程序并没有处理缓存的数据, 直

友情提示

1、下载报告失败解决办法
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。

本文(艾瑞咨询:2022年企业应用运维管理指标体系白皮书(43页).pdf)为本站 (小时候) 主动上传,三个皮匠报告文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三个皮匠报告文库(点击联系客服),我们立即给予删除!

温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。
会员购买
客服

专属顾问

商务合作

机构入驻、侵权投诉、商务合作

服务号

三个皮匠报告官方公众号

回到顶部