《中国信通院:中国混沌工程调查报告(2022)(34页).pdf》由会员分享,可在线阅读,更多相关《中国信通院:中国混沌工程调查报告(2022)(34页).pdf(34页珍藏版)》请在三个皮匠报告上搜索。
1、 中国混沌工程调查报告(2022 年)混沌工程实验室 2023 年 3 月 混沌工程实验室 中国混沌工程调查报告 2022 版权声明 本报告版权归混沌工程实验室所有,受法律保护。如需转载、摘抄或通过其他方式使用本报告内容,须注明“来源:混沌工程实验室”,违者必究。混沌工程实验室 中国混沌工程调查报告 2022 前言 混沌工程作为主动挖掘复杂系统稳定性缺陷的方法,其应用价值已得到广泛认可并逐步获得更多领域用户的青睐。中国信通院于 2020 年初关注混沌工程并推进相关研究,在 2021 年 7 月于可信云大会上牵头成立国内首个混沌工程实验室,旨在以混沌工程为抓手,探索系统稳定性保障技术在国内各领域
2、典型应用场景中的实施路径,集合行业内领头企业的专业力量,开展技术研究,推进标准体系建设,提高产业发展向心力和发展质量,进而为我国数字经济的持续、稳定发展提供基础的技术保障。2021 年,中国信通院混沌工程实验室发布了国内首个针对混沌工程应用情况的中国混沌工程调查报告(2021),一年以来,混沌工程实验室持续跟踪国内混沌工程应用现状及所面临的挑战,更进一步地,实验室今年关注了可观测性、全链路压测及容灾技术的应用情况,凸显综合运用系统稳定性保障技术的重要性,推动系统稳定性保障技术在我国的概念普及,提升软件系统安全、稳定、持续运营水平,促进软件高质量发展。本报告采用在线调查加线下访谈的方式,共回收有
3、效问卷 1270 份,访谈企业 13 家。本报告第一部分介绍调查背景,第二部分介绍我国系统稳定性现状,包括整体情况及稳定性保障关键技术应用情况,第三部分是混沌工程的应用现状,第四部分提供了企业发展建议,供市场各方参考。报告以调查结果为基础,力争详实客观地反映系统稳定性保障领域应用现状与痛点需求,为广大从业人员、专家学者和研究机构提供真实可信的数据参考。本次报告的问卷发放、数据采集及文稿审核工作得到混沌工程实验室成员单位(见文末附录)及云上软件工程社区、QECon 组委会、软件质量报道、InfoQ、开源中国、QAPark、极狐 GitLab、华为开发者联盟、HeapDump 性能社区、测试窝等单
4、位和组织的大力支持,在此谨表示最衷心的感谢!同时也对接受混沌工程调查访问的用户朋友表示最诚挚的谢意!混沌工程实验室 中国混沌工程调查报告 2022 编制说明 本调查问卷及报告自 2022 年 9 月启动编制,在问题设计、问卷投放、报告起草、征求意见和修订完善等五个重要阶段,均面向软件系统稳定性领域的技术提供方、产品服务方、行业应用方开展了深度访谈、意见征集等工作,参与问卷及报告编制的单位和个人说明如下:参编单位:中国信息通信研究院、阿里云计算有限公司、百度网讯科技有限公司、中泰证券股份有限公司、中国农业银行、科来网络技术股份有限公司、腾讯云计算(北京)有限责任公司、华为云计算技术有限公司、云杉
5、网络科技有限公司、北京必示科技有限公司、招商银行、东软集团股份有限公司、花瓣云科技有限公司、北京同创永益科技发展有限公司、极狐创新(北京)信息技术有限公司、中移(杭州)信息技术有限公司、建信金融科技有限责任公司、招商基金管理有限公司、中电金信软件有限公司、四川省农村信用社联合社、天翼云科技有限公司、思特沃克软件技术(北京)有限公司、中债金科信息技术有限公司、南京争锋信息科技有限公司。参编专家:郑立、王海清、李修莹、周洋、肖长军、郑焱、刘运鑫、苗永辉、黄钰、胡皓、张明利、张永启、刘浩、张洁玉、肖晶、张亚祥、郭伟杰、王洋、廖荣、姜英伟、陈佃晓、崔传敏、潘微服、鹿骏、刘波、崔杰、郭旭东、李飞、张月、
6、曹立、金永哲、胡文、左坚、金一、郑晖、耿宜龙、金永哲。混沌工程实验室 中国混沌工程调查报告 2022 目录 前言.3 编制说明.4 目录.5 观点摘要.6 一、调查背景.8(一)调查方法及样本.8 1、调查方法.8 2、样本描述.8(二)报告术语界定.11 二、软件系统稳定性现状.12(一)软件系统稳定性整体现状.12(二)稳定性保障技术应用情况.15 1、容灾能力.15 2、可观测能力.17 3、全链路压力测试能力.20 三、混沌工程应用现状.20 四、发展建议.30 编后语.31 附录.32 混沌工程实验室 中国混沌工程调查报告 2022 观点摘要 国内软件稳定安全运行水平仍有较大可提升空
7、间,系统稳定性保障技术市场增长动能强劲。调查数据显示,约 15%的受访用户所负责的软件产品可用性低于 2 个 9,近半数产品的可用性能低于 3个 9。这意味着 47.08%的用户每个月要忍受高于 44 分钟(可用性 99.9%),甚至约 15%的用户每个月要忍受超过 7.3 小时(可用性 99%)的服务故障。故障发生之后的解决情况也差强人意:仅有不到一半的故障平均发现时长(MTTD)小于 1 小时;近一半的用户需要花费 1 小时以上才能发现故障,这反映了软件产品及其运行环境的观测能力不足,故障修复时长则普遍超过 1 小时,甚至有约 20%的服务故障修复时间超过 12 小时,这反映了应急处理能力
8、与灾难恢复能力的不足。系统自身稳定安全运行水平较大的可提升空间及终端用户对系统故障更低的容忍度,为稳定性保障相关技术市场提供了持续发展的动能。混沌工程与软件系统稳定运行强相关,其价值得到持续认可。混沌工程使用频率与产品可用性提升显著相关,随着混沌工程使用频率提升,高可用性的产品占比增长迅速,此数据规律与去年保持高度一致,用户对软件系统高可用性的追求将持续促进系统稳定性保障技术繁荣发展。同时,约 68.21%的企业对提升系统可用性的结论表示认可、有 46.92%的企业降低了应用服务的 MTTR,有 42.31%的企业验证了服务应急预案的有效性,有 42.05%的企业降低了应用服务的 MTTD。此
9、外,还有 41.52%企业通过混沌工程发现了应用服务的 bug。混沌工程的价值得到市场普遍且持续的认可,团队能看到采纳混沌工程所带来的益处。伴随对混沌工程质疑的下降及实践经验的丰富,61.79%的受访用户有明确规划且具备可操作性,说明混沌工程已经被组织的认可,开展规模化落地。混沌工程技术关注度及认知度呈增长态势,但用户缺乏并亟需最佳实践(包括平台建设及场景梳理)指导。在政府、企业等参与者的大力促进下,系统稳定性保障理念得以快速推广,使得混沌工程采纳程度进一步提升,“从未使用”(下降 3.75%)及“偶尔使用”(下降 3.55%)的用户占比下降,由此可见,其对于业务与技术的价值得到认可,更多从业
10、人员认识到混沌工程的价值并开始尝试拓展混沌工程技术的应用与实践。同时,实验场景梳理(60.77%)及平台能力建设(58.97%)是企业的工作重点,但是建设经验匮乏(43.91%)及对实施风险(36.56%)的担忧阻碍了组织内混沌工程成熟度加深,市场需关注用户对成熟、完善的商业化产品及混沌工程实验场景设计和编排能力的需求。“稳定性优先”战略定位需要增强,用户需关注稳定性保障体系构建。频繁的版本更新带来软件稳定性的担忧,要保证高质量的交付,就要更多体系化地综合应用混沌工程、可观测性建设以及全链路压测,在部署之前建立对软件的信心。同时配合稳定安全运行机制和良好的容灾恢复能力提升整体稳混沌工程实验室
11、中国混沌工程调查报告 2022 定保障水平。据调查数据显示,受访用户对相关技术的使用深度普遍偏低,仅 40.57%受访用户可以应对机房级故障,而能应对区域级故障的用户占比则不足 3 成;多数用户仍无法区分可观测性与传统监控之间的区别。混沌工程实验室 中国混沌工程调查报告 2022 一、调查背景(一)调查方法及样本 1、调查方法 本次调查采用在线调查加线下访谈的方式,共收集到有效问卷 1270 份,访谈企业 13 家。2、样本描述 参与调查用户所在行业:包括软件及云服务、金融、互联网、电信、能源、硬件/半导体及零售业等。图 1.受访者所在行业分布 数据来源:中国信通院 混沌工程实验室 参与调查用
12、户角色:甲方用户多于乙方供应商。图 2.企业类型分布 数据来源:中国信通院 混沌工程实验室 混沌工程实验室 中国混沌工程调查报告 2022 参与调查用户所在企业情况:人员规模在千人以上的企业超过 50%,近 5 成企业成立时间超过 10 年。图 3.企业成立时间 数据来源:中国信通院 混沌工程实验室 图 4.企业人员规模 数据来源:中国信通院 混沌工程实验室 参与调查用户工作职位:超过 3 成受访者来自研发部门,19.37%的受访者来自运维部门,18.2%的受访者是测试工程师,还有 12.19%的受访者是经理、总监以上的技术线管理人员。混沌工程实验室 中国混沌工程调查报告 2022 图 5.被
13、调查用户工作岗位分布 数据来源:中国信通院 混沌工程实验室 混沌工程实验室 中国混沌工程调查报告 2022(二)报告术语界定 混沌工程:混沌工程是一门通过设计并执行一系列实验,帮助发现信息系统技术架构(设计、架构、代码、运维等)与运营流程方面的隐藏风险与薄弱环节,从而全面提升信息系统韧性,使得系统达到既定可靠性的学科。应用多活:指在同城或异地机房建立一套与本地生产系统部分或全部对应的生产系统,所有机房内的应用同时对外提供服务的技术。可观测性:在信息系统中,可观测性指的是通过系统的外部输出来度量系统内部运行状态的能力。MTTR:平均修复时间(Mean time to repair,MTTR),用
14、于描述产品由故障状态转为工作状态时修理时间的平均值。MTBF:平均无故障时间(Mean Time Between Failure,MTBF),它反映了产品的时间质量,用于描述产品在规定时间内保持功能的一种能力。MTTD:平均检测时间(Mean time to detect,MTTD),用于描述故障平均发现时长。产品可用性:产品可用性=MTBF/(MTBF+MTBF+MTTR)。业务连续性:业务连续性是一种组织能力,在中断期间,组织以预先确定的能力在可接受时间范围内持续交付产品和服务的能力。1 RPO:数据恢复点目标 RPO(Recovery Point Objective),主要指的是业务系统
15、所能容忍的数据丢失量,用来衡量容灾备份技术。1 ISO 22301:2019 3.3 和 ISO 22300:2021 3.1.19 混沌工程实验室 中国混沌工程调查报告 2022 二、软件系统稳定性现状(一)软件系统稳定性整体现状 以混沌工程为代表的系统稳定性保障技术市场增长动能强劲。软件系统可用性仍有较大可提升空间。调查数据显示(图 6),约 15%的受访用户所负责的软件产品可用性低于 2 个 9,近半数产品的可用性能低于 3 个 9。这意味着 47.08%的用户每个月要忍受高于 44 分钟(可用性 99.9%),甚至超过 7.3 小时(可用性 99%)的服务故障。故障发现及故障修复能力有
16、较大提升空间。调查数据显示,近一半的用户需要花费 1 小时以上才能发现故障,这反映了软件产品及其运行环境的观测能力不足。约六成用户的故障修复时间超过 1 小时,甚至有约20%的服务故障修复时间超过 12 小时,这反映了其故障恢复能力有待提升。故障发现及恢复能力不足将直接降低研发运营侧体验,较差的应急处置能力将直接降低终端用户体验,最终都将降低终端用户对产品的认可度。图 6.受访用户公司产品可用性分布图 7.故障发现与故障修复平均时长分布 数据来源:中国信通院 混沌工程实验室 数据来源:中国信通院 混沌工程实验室 混沌工程实施频率与产品可用性之间的正相关性得到持续的验证。混沌工程实施频率与产品可
17、用性提升显著相关,随着混沌工程使用频率提升,高可用性的产品占比呈现显著上升趋势(如图 8),此规律与去年保持高度一致,混沌工程实施频率与软件产品可用性之间的正相关性得到持续验证,用户对软件系统高可用性的追求也将刺激混沌工程技术持续发展。混沌工程实验室 中国混沌工程调查报告 2022 图 8.产品可用性在不同混沌工程使用频率上的分布 数据来源:中国信通院 混沌工程实验室 代码错误、网络问题、配置错误、内部依赖仍是引发重大事故的主要原因。结合线下调研数据了解到,合理运用多种稳定性保障技术手段能很好的规避或弱化以上问题。引发重大事故的来源与去年保持高度一致,但是“人工误操作”今年和去年都占较大比例,
18、提示稳定安全运行机制及稳定性保障文化普及的重要性。图 9.重大事故来源分布 数据来源:中国信通院 混沌工程实验室 混沌工程实验室 中国混沌工程调查报告 2022 按需部署有隐忧,系统稳定性存风险:需要依赖混沌工程、可观测性、全链路压测等技术建立对软件可靠性的信心。受访者中约 14%能按需部署(部署间隔平均为几小时),与 DORA 发布的2022 DevOps 现状调查报告2中数值(16%)接近。按需部署则意味着更频繁、不定时地代码迭代,因此可能带来更多稳定性风险,导致软件交付的整体质量下降。在高频部署的情况下,组织要保证高质量的交付,就要更多地应用混沌工程、建设可观测性、实施全链路压测(如图
19、12),在部署之前建立对软件稳定性的信心,并配合应用多活提升事中恢复水平。图 10.产品在生产环境的部署频率 图 11.用户是否担忧系统代码迭代带来的潜在稳定性风险 数据来源:中国信通院 混沌工程实验室 数据来源:中国信通院 混沌工程实验室 图 12.软件部署频率与不同技术采纳程度的关系 数据来源:中国信通院 混沌工程实验室 2 DevOps现状调查报告,由谷歌云的 DevOps 研究和评估(DORA)团队发布,代表了对全球 32,000 多名专业人士 7 年来的研究和统计数据 混沌工程实验室 中国混沌工程调查报告 2022(二)稳定性保障技术应用情况 1、容灾能力 系统机房级及区域级故障的应
20、对能力亟待加强。调查数据显示,受访用户所维护系统的模块级、设备级、单套系统级的故障应对能力普遍较强,而应对较大型故障的能力偏弱,如能应对机房级故障的仅占40.57%,而能应对区域级故障的用户占比则不足 3 成。另外,受访用户普遍对逻辑数据错误的应对能力较差,这说明组织对系统整体架构和逻辑不清晰,需要加强对系统架构和逻辑的梳理。利用混沌工程设立系统机房级及区域级的故障场景,将被动恢复转化为主动防御,可促进目标实现。图 13.受访用户当前的备份及容灾环境可以应对的故障类型 数据来源:中国信通院 混沌工程实验室 应用多活架构部署能有效提升系统的故障恢复能力。调查显示,77.3%的用户认可应用多活架构
21、对“系统可靠性的提升,能抵御机房或者地域级故障”的价值。多活技术的应用能有效补足当前较低的灾难应对能力,在发生故障时快速切流,优先恢复业务,在业务恢复的前提下进行故障定位修复。混沌工程实验室 中国混沌工程调查报告 2022 图 14.实施应用多活的收益分布 数据来源:中国信通院 混沌工程实验室 支付类业务是应用多活部署中最受关注的业务场景。调查显示,58.1%的受访用户有意愿将支付类业务进行应用多活改造,电商类业务排名第二(51.42%),与交易、营收直接相关的业务是软件维护方最有意愿投资改造以提升稳定性的业务。图 15.应用多活改造业务分布 数据来源:中国信通院 混沌工程实验室 应用多活概念
22、区分度不足。调查数据显示,受访用户中 7 成用户对应用多活与跨地域/机房容灾的概念认知不清晰。应用多活是“跨地域/机房容灾”技术中的一种高级形态。区别于传统容灾方案,应用多活架构技术拥有应用级高可用的特性,通过将业务的管理层、流量层、应用层、数据层、基础设施层等高可用方案互相结合与联动,保证企业端到端的业务连续性。混沌工程实验室 中国混沌工程调查报告 2022 图 16.“跨地域/机房容灾”与“应用多活”认知情况分布 数据来源:中国信通院 混沌工程实验室 2、可观测能力 可观测性概念与认知尚未普及,多数用户仍无法区分可观测性与传统监控之间的区别。调查结果显示,超过半数的被访用户对可观测性与传统
23、监控之间的区别并无明确认知,超过三成的被访用户认为二者之间没有区别,只有 12.44%的被访用户对二者间的区别具备自己的理解。可观测性作为最新的系统行为探索手段,可以在传统监控的基础上将多种信息进行统一整理与分析,实现故障分析与解决。普及与更新可观测性理念是可观测性建设的基础,若仍以传统监控的方式实践可观测性,实践成效将大打折扣。图 14.可观测性与传统监控认知度分布 数据来源:中国信通院 混沌工程实验室 混沌工程实验室 中国混沌工程调查报告 2022 可观测性较传统监控的优越性得到普遍认可,可观测性能在故障发现的基础上可以进行故障分析与诊断。传统监控普遍用于故障发现,难以实现故障分析与辅助故
24、障解决,可观测性优于传统监控的特性之一即为故障分析与诊断能力。接近九成的被访用户表示,在技术实践中注重利用可观测性的故障分析与诊断能力。图 15.除故障发现之外,用户是否通过可观测性进行故障分析与诊断 数据来源:中国信通院 混沌工程实验室 当前业界可观测性建设优化重点仍在于提高多种观测信息之间的关联能力。观测信息之间的紧密关联与灵活联动是实现故障分析与解决能力的关键。调查结果显示,超过半数被访用户表示团队可观测性工具未能达到足够灵活的数据关联与跳转能力,其中 42.02%的用户表示一部分观测数据可以建立联系并打通,另一部分需要跨平台索引,而 11.92%的用户表示各种观测信息之间较为独立,搜索
25、时需要切换多个平台。提升可观测性信息数据的关联性仍然是当前优化完善可观测性落地成效的重点突破方向。图 16.多种观测数据(日志、监控指标、链路追踪)间关联能力分布 数据来源:中国信通院 混沌工程实验室 混沌工程实验室 中国混沌工程调查报告 2022 业界普遍运用多种工具建设可观测能力,多工具间的信息打通与数据整合至关重要。如图 17 所示,仅有 16.54%的被访用户表示其团队使用一种工具即可完成系统观测,将近半数被访用户表示需要 2-3 种,将近三成表示需要 4 种工具及以上。如果能够通过一种观测工具就能完整地满足所有观测需求,这样的实现明显更容易达到最优的数据连续性。但如果因为需求或成本的
26、原因,可观测性建设涉及多种工具,则需要格外注意工具间的信息打通,以便做到工具间的信息关联,实现高效的故障分析与解决。图 17.可观测性建设过程中使用的工具种类分布 数据来源:中国信通院 混沌工程实验室 业内可观测性建设实践初见成效,但仍有提升空间。通过可观测性实现的全链路观测以及多种观测数据联动打通,技术人员在故障解决过程中可一定程度摆脱对专家经验的依赖,且可以在生产环境直接 Debug进行故障定位。调查结果显示,当前业界可观测性初有成效,52.23%的受访用户认为通过可观测性实践,可摆脱故障解决过程中的专家经验依赖,42.16%的被测用户表示大部分生产环境故障可以直接通过观测数据解决。为达成
27、更优实践效果,还可聚焦观测信息完整度提升以及系统全链路观测打通。图 18.是否依靠观测数据而不是经验进行 debug 图 19.是否可以通过生产环境数据进行实时 Debug 数据来源:中国信通院 混沌工程实验室 数据来源:中国信通院 混沌工程实验室 混沌工程实验室 中国混沌工程调查报告 2022 3、全链路压力测试能力 全链路压力测试在业界采纳度较高。由于全链路压测高仿真度得到业界认同,越来越多的技术团队尝试扩大压力测试的规模与范围,有 37.06%的被访用户表示自身团队进行过覆盖系统全功能全链路的压力测试。即使没有需求或没有能力进行全链路压测,也仍有 31.89%的被访用户选择覆盖多组件的多
28、链路组合压测。仅有 20.87%的被访用户表示自身团队只实施过单点压测。图 20.压力测试的最大实践规模分布 数据来源:中国信通院 混沌工程实验室 三、混沌工程应用现状 随着市场逐渐成熟,混沌工程技术采纳程度进一步提升。过去几年,在政府、企业等不同角色的参与者的大力促进下,系统稳定性保障理念得以快速推广,使得混沌工程采纳程度进一步提升,“从未使用”(下降率为 3.57%)及“偶尔使用”(下降率为 3.55%)的用户占比下降,其对于业务与技术的价值得到认可,更多从业人员认识到混沌工程的价值并开始尝试拓展混沌工程技术的应用与实践。混沌工程实验室 中国混沌工程调查报告 2022 图 21.混沌工程使
29、用频率分布 数据来源:中国信通院 混沌工程实验室 混沌工程在企业内部的渗透率偏低,使用深度偏浅。混沌工程在企业内部的渗透率进一步走低,企业内使用混沌工程的产品比例低于 25%的企业增长显著,可见更多“新用户”涌入,稀释了混沌工程深度用户的占比。图 22.公司中使用混沌工程的业务占比 数据来源:中国信通院 混沌工程实验室 混沌工程实验室 中国混沌工程调查报告 2022 混沌工程的生产环境用户较去年数据略有下降,仅 12.05%的受访用户在生产环境中开展演练,较去年数据,在生产环境中开展演练的受访用户比例和人数均有所下降,而非生产环境用户占比有所上升,推测一方面由于更多新采纳混沌工程的用户,初期在
30、非生产环境尝试使用混沌工程,验证了混沌工程认可度的提升,另一方面推测是去年在生产环境开展演练的部分用户“转战”到非生产环境,其原因可能是初期实践过程中,因演练准备不充分等因素,导致生产环境演练风险较高,所以今年更多地尝试在非生产环境探索和准备,后期可能再次回到生产环境演练。图 23.开展混沌工程演练的环境 数据来源:中国信通院 混沌工程实验室 混沌工程实践以国内开源工具为主。得益于国内外混沌工程开源工具的丰富程度,开源工具(如ChaosBlade、ChaosMesh)仍是市场首选(如图 24),这有助于新用户实践混沌工程。规模化使用后通常会采用商业化工具或者自研。图 24.混沌工程使用工具分布
31、 数据来源:中国信通院 混沌工程实验室 混沌工程实验室 中国混沌工程调查报告 2022 实验场景梳理与平台建设是组织的工作重点,这是由于大量新用户或对混沌工程认识较浅的用户处于探索、认识阶段,而“运营推广”、“收益评估”等工作属于混沌工程文化体系建设阶段,处于混沌工程成熟度较高阶时关心的内容,在当前阶段关注度较低。图 25.混沌工程工作关注重点 数据来源:中国信通院 混沌工程实验室 故障注入类型聚焦于基础资源层面,应用层及容器关注度偏低。网络资源故障和计算资源故障是最通常采用的故障注入类型(如图 26),造成分布差异的原因包含三方面因素:一是混沌工程应用成熟度较低。当前混沌工程应用阶段下,基础
32、资源层面的故障场景较容易实现,应用层的故障场景(尤其是复杂的场景)需要一定的实施经验,所以现阶段对于基础资源层面关注较高;二是工具层面更关注基础资源故障。混沌工程是为了分布式系统(尤其是云上系统)在规模上的不确定性,为揭示系统弱点而进行的实验,工具在诞生之初就更关注基础资源层面故障;三是基础资源故障更“新鲜”。已有的测试手段更多关注应用侧,资源侧传统手段关注度较低且不好模拟,混沌工程这一更佳的模拟手段出现后,能吸引更多用户尝试新场景。混沌工程实验室 中国混沌工程调查报告 2022 图 26.故障注入类型分布 数据来源:中国信通院 混沌工程实验室 混沌工程实验的实施靶点类型广泛,常规基础设施仍为
33、主流。不同类型、领域的企业均可借助混沌工程理念提升其产品或服务的稳定性。线下调研数据提示:由于硬件故障影响范围的不确定性高、故障率高,可直接或间接影响业务系统的稳定运行,部分云厂商、企业已开始将硬件设备作为实验靶点,通过软件方式在内核或底层驱动中模拟硬件故障以验证系统稳定性和应急预案完备性,比如常见的硬盘坏块、慢盘、raid 卡故障等。软件方式模拟硬件故障具备实施和自动化优势,省去了过去通过插拔网线、电源等方式模拟/演练故障,是混沌工程在更多场景使用的有益探索及价值证明。混沌工程实验室 中国混沌工程调查报告 2022 图 27.混沌工程演练的实施对象/靶点 数据来源:中国信通院 混沌工程实验室
34、 混沌工程的广泛收益得到认可。企业重视混沌工程的原因是不仅提升服务可用性,更为重要的是通过混沌工程实验,挖掘系统稳定性短板,提升组织应急处置水平,更好满足市场及客户需求。根据调研结果,约68.21%的企业对提升系统可用性的结论表示认可。企业通过混沌工程主动探索应用服务的潜在风险,全面提升了组织在故障预防、故障发现、故障定位、故障处置方面的能力:根据调研结果显示,有46.92%的企业降低了应用服务的MTTR,有42.31%的企业验证了服务应急预案的有效性,有 42.05%的企业降低了应用服务的 MTTD。此外,还有 41.54%企业通过混沌工程发现了应用服务的 bug,有效规避了系统缺陷逃逸的风
35、险。混沌工程实验室 中国混沌工程调查报告 2022 图 28.实施混沌工程的收益 数据来源:中国信通院 混沌工程实验室 混沌工程可以全方位验证系统对故障的发现能力及恢复能力。调查数据显示,混沌工程作为一种有效的故障发现手段,被广泛应用于验证系统高可用能力(63.07%)、保护策略及自愈措施的有效性(59.28%)、系统可恢复性(53.09%)及可观测性的有效性(52.89%)。图 29.混沌工程应用场景分布 数据来源:中国信通院 混沌工程实验室 经验的缺乏仍是应用混沌工程最大阻碍。建设经验的匮乏及对实施风险的担忧是阻碍用户深度实施混沌工程的主要原因。总体看,“混沌工程应用实施阻碍”较去年显著下
36、降,下降的主要原因:对混沌工程理念认识的加深,弱化了“技术恐惧”行业生态的丰富降低了技术门槛 混沌工程实验室 中国混沌工程调查报告 2022 近年来信通院、头部企业等组织和机构的持续推广加速了技术落地 图 30.实施混沌工程实施障碍分布 数据来源:中国信通院 混沌工程实验室 随着混沌工程概念的普及与价值的认可度提升,需求方已经从观望状态进入尝试阶段,更多的落地场景也在不断解锁。伴随对混沌工程质疑的下降及实践经验的丰富,61.79%的受访用户有明确规划且具备可操作性,说明混沌工程已经被组织的认可,开展规模化落地。图 31.混沌工程规模化落地规划 数据来源:中国信通院 混沌工程实验室 混沌工程实验
37、室 中国混沌工程调查报告 2022 混沌工程概念认知度得到提升,知识普及仍需持续推进。明确混沌工程与演习区别的用户较去年上升31.37%(如图 32),混沌工程认知度得到进一步提升,但仍有超过一半用户(虽然较去年有所降低)对混沌工程和演习的概念分辨不清。演习是较为正式的、低频的一种演练活动,通过机房断电、断网等手段模拟不可预期的自然灾害或重大故障,来测试系统的恢复能力和故障转移能力。演习的整体计划性较强,演练前会先制定整体的演练方案和应急方案。对比演习,混沌工程的组织方式更加灵活,可以按照组织架构以租户的方式进行,是一种非正式的活动。混沌工程以进行实验的方式来对系统注入故障或其他的扰动,由于其
38、进行过程成本较低,涉及相关方较少,因此可以高频进行。演习本质上是包含于混沌工程之内的特殊场景。图 32.混沌工程与演习是否有区别 数据来源:中国信通院 混沌工程实验室 开源社区是用户获取混沌工程知识的最主要途径。根据调查数据,有 55.09%的受访者从开源社区获取有关混沌工程的知识。混沌工程丰富的开源生态促使开发者广泛使用开源社区获取最新的知识,同时用户反馈反哺产品迭代,完善技术文档等,进一步促使开源工具产品价值提升。在开源社区之外,我们通过图 37可以看到,越贴近技术工作,用户越倾向于通过博客、书籍等渠道补充混沌工程的知识,而越靠近市场、用户的受访者,则更倾向于通过大会获得当前混沌工程市场最
39、新动态。混沌工程实验室 中国混沌工程调查报告 2022 图 33.混沌工程知识获取途径 数据来源:中国信通院 混沌工程实验室 图 34.不同人群的混沌工程知识获取途径 数据来源:中国信通院 混沌工程实验室 混沌工程实验室 中国混沌工程调查报告 2022 四、发展建议 数字化转型的浪潮推动软件产品广泛应用于政府、金融、航天、军事等关键领域,同时伴随软件规模日益庞大,软件系统技术栈的复杂性急剧上升,系统的不确定性也随之增长,同时叠加跨团队协同等风险因素,系统稳定性保障面临的挑战持续存在且日益加剧,系统面临的中断风险敞口与日俱增。以混沌工程为代表的系统稳定性保障技术体系为复杂软件系统的数字韧性与稳定
40、安全运行提供了完整的方法论,获得各垂直领域用户的广泛关注,并为终端用户提供了他们被承诺的高质量体验。中国信通院联合系统稳定性保障领域相关供应商、行业解决方案与服务提供商及各行业用户共同成立混沌工程实验室,旨在以混沌工程为抓手,探索系统稳定性保障技术在国内各领域典型应用场景中的实践落地,集合行业内领头企业的专业力量,开展技术研究,推进标准体系建设,提高产业发展向心力和发展质量,进而为我国数字经济的持续稳定发展提供基础的技术保障。通过本次调查与访谈数据的分析结果,结合实验室对系统稳定性保障领域的深入洞察,混沌工程实验室提示处于数字化转型期间的企业与组织机构:推崇“稳定性优先”战略,接纳稳定性保障文
41、化与理念,进而通过规划渐进和务实的实施路径,建设体系化的系统稳定性保障能力矩阵,构建高质量的数字免疫系统。具体建议:一、构建完整的系统稳定性保障技术体系。随着软件规模的扩展,系统复杂度将呈现更为陡峭的指数级增长。以减缓软件熵增并为终端用户体验负责,系统运营方应构建以混沌工程为代表的系统稳定性保障技术体系,综合运用全链路压测、可观测性技术、变更管控、应用多活等技术手段全面拉升系统韧性、强化风险发现、定位问题分析、故障恢复能力。二、推动混沌工程能力左移。当前混沌工程实验较多应用在运维环节,实验场景趋于稳定的情况下,可试点推动 CI/CD 流水线整合混沌工程能力,为流水线中混沌工程实验环节制定准入准
42、出标准,以便在研发测试阶段高效拦截稳定性相关缺陷,降低与稳定运行相关的缺陷逃逸率。三、关注混沌工程实验场景积累及能力输出。混沌工程对系统稳定安全运行水平有效提升,推动混沌工程技术市场渗透率和覆盖率升高,使用开源框架同时配合中国信通院推出的混沌工程相关标准,混沌工程平台功能框架趋于稳定。混沌工程能力供给方需要实现差异化定位才能够抓住市场增长的机遇,混沌工程实验场景建设将是一个有效切入点;混沌工程需求方则需要关注组织内与业务场景强相关的实验场景积累,提升混沌工程实验的应用深度和广度。混沌工程实验室 中国混沌工程调查报告 2022 编后语 混沌工程实验室连续第二年发布中国混沌工程调查报告(2022)
43、,随着软件工程复杂度的提升和系统稳定性要求的不断提高,实验室将持续调研跟踪国内混沌工程及系统稳定性发展情况。欢迎系统稳定性领域广大用户、专家学者和从业人员与报告编写组联系(发邮件至 ),提出您感兴趣的问题、反馈您的宝贵意见和建议,帮助我们持续提升报告的针对性和实用价值。感谢您对软件系统稳定性领域的积极贡献!混沌工程实验室 2023 年 3 月 混沌工程实验室 中国混沌工程调查报告 2022 附录 混沌工程实验室成员名单3 序号 企业名称 企业类型 中国信息通信研究院 理事长单位 1 阿里云计算有限公司 副理事长单位 2 深圳市腾讯计算机系统有限公司 副理事长单位 3 中泰证券股份有限公司 副理
44、事长单位 4 华为云计算技术有限公司 副理事长单位 5 中国农业银行 副理事长单位 6 北京银行股份有限公司 副理事长单位 7 中国工商银行软件开发中心 副理事长单位 8 中信银行股份有限公司软件开发中心 副理事长单位 9 蚂蚁科技集团股份有限公司 副理事长单位 10 京东科技信息技术有限公司 副理事长单位 11 北京百度网讯科技有限公司 副理事长单位 12 杭州笨马网络技术有限公司 副理事长单位 13 北京同创永益科技发展有限公司 副理事长单位 14 建信金融科技有限责任公司 副理事长单位 15 中国移动通信集团有限公司信息技术中心 副理事长单位 16 华泰证券股份有限公司 副理事长单位 1
45、7 南京争锋信息科技有限公司 副理事长单位 18 天翼云科技有限公司 副理事长单位 19 上海浦东发展银行股份有限公司 副理事长单位 20 平凯星辰(北京)科技有限公司 副理事长单位 21 北京火山引擎科技有限公司 理事单位 22 中电金信软件有限公司 理事单位 23 浩鲸云计算科技股份有限公司 理事单位 24 中移(苏州)软件技术有限公司 理事单位 25 四川省农村信用社联合社 理事单位 26 中兴通讯股份有限公司 理事单位 27 南方电网数字平台科技(广东)有限公司 理事单位 28 恒丰银行股份有限公司 理事单位 29 阳光保险集团股份有限公司 理事单位 30 北京永辉科技有限公司 理事单
46、位 31 中国光大银行股份有限公司 理事单位 32 中信建投证券股份有限公司 理事单位 33 上海钧正网络科技有限公司(哈啰出行)理事单位 34 浪潮软件集团有限公司 成员单位 35 北京云杉世纪网络科技有限公司 成员单位 36 中债金科信息技术有限公司 成员单位 37 科来网络技术股份有限公司 成员单位 38 中移(杭州)信息技术有限公司 理事单位 39 中电云数智科技有限公司 理事单位 40 中国科学院计算技术研究所 理事单位 41 招商银行股份有限公司数据中心 理事单位 42 安信证券股份有限公司 理事单位 43 北京水木羽林科技有限公司 成员单位 44 中国联合网络通信有限公司软件研究
47、院 成员单位 45 兴业数字金融服务有限公司 成员单位 46 深信服科技股份有限公司 成员单位 3 截止 2022年 12 月 混沌工程实验室 中国混沌工程调查报告 2022 47 招商基金管理有限公司 成员单位 48 网易研究院 成员单位 49 亚马逊云科技 成员单位 50 上海安般信息科技有限公司 成员单位 51 北京云起无垠科技有限公司 成员单位 52 上交所技术有限公司 成员单位 53 思特沃克软件技术(北京)有限公司 理事单位 54 北京必示科技有限公司 理事单位 55 中原银行股份有限公司 理事单位 56 中国银行股份有限公司 理事单位 57 东兴证券股份有限公司 成员单位 58
48、杭州微智测信息技术服务有限公司 成员单位 59 江苏苏宁银行股份有限公司 成员单位 60 优维科技(深圳)有限公司 成员单位 61 顶点软件股份有限公司 成员单位 62 国信证券股份有限公司 成员单位 63 刘运鑫 个人成员 64 开元华创科技(集团)有限公司 成员单位 65 中国信息通信研究院 理事长单位 66 北银金融科技有限责任公司 理事单位 67 中关村智联联盟 理事单位 68 上汽通用汽车有限公司 理事单位 69 中科南京信息高铁研究院 理事单位 70 申万宏源证券有限公司 成员单位 71 浙江菜鸟供应链管理有限公司 成员单位 72 东方证券股份有限公司 成员单位 73 太平洋财产保
49、险股份有限公司 成员单位 74 亚信科技(中国)有限公司 成员单位 75 极狐创新(北京)信息技术有限公司 成员单位 76 天翼电子商务有限公司 成员单位 77 中国移动通信集团湖南有限公司 成员单位 78 上海富麦信息科技有限公司 成员单位 79 东软集团股份有限公司 成员单位 80 民生证券股份有限公司 成员单位 81 华安证券股份有限公司 成员单位 82 方正证券股份有限公司 成员单位 83 国盛金融控股集团股份有限公司 成员单位 84 恒泰证券股份有限公司 成员单位 85 南京证券股份有限公司 成员单位 86 红塔证券股份有限公司 成员单位 87 中国银河证券股份有限公司 成员单位 8
50、8 山东城商行合作联盟 成员单位 89 中国民生银行股份有限公司生产运营部 成员单位 90 恒生电子股份有限公司 成员单位 91 上海银行股份有限公司 成员单位 92 钉钉(中国)信息技术有限公司 成员单位 93 济南浪潮数据技术有限公司 成员单位 94 上海有孚网络股份有限公司 成员单位 95 上海宽睿信息科技有限责任公司 成员单位 96 兴业证券股份有限公司 成员单位 97 华宝证券股份有限公司 成员单位 98 上海证券股份有限公司 成员单位 99 中原证券股份有限公司 成员单位 100 东亚前海证券有限责任公司 成员单位 混沌工程实验室 中国混沌工程调查报告 2022 101 中航证券有限公司 成员单位 102 世纪证券有限责任公司 成员单位 103 上海仪电(集团)有限公司 成员单位 104 魏贺峰 个人成员 105 广州掌动智能科技有限公司 成员单位 106 360 集团 成员单位 107 铁科院电子所 成员单位 108 大商所飞泰测试技术有限公司 成员单位 109 陈佃晓 个人成员 110 中国移动通信集团浙江有限公司 成员单位 111 中国移动通信集团山东有限公司 成员单位 112 国泰君安证券股份有限公司 成员单位