《云计算开源产业联盟:云灾备建设指南报告(2024)(31页).pdf》由会员分享,可在线阅读,更多相关《云计算开源产业联盟:云灾备建设指南报告(2024)(31页).pdf(31页珍藏版)》请在三个皮匠报告上搜索。
1、-0-云灾备建设指南云灾备建设指南 (20242024)云计算开源产业联盟云计算开源产业联盟 2022024 4 年年 5 5 月月 -1-版权声明版权声明 本报告版权属于云计算开源产业联盟,并受法律保护。转载、摘编或利用其它方式使用本报告文字或者观点的,应注明“来源:云计算开源产业联盟”。违反上述声明者,本联盟将追究其相关法律责任。-2-编委会:马飞、苏越、陈凯、周倩、金天骄、朱正秋、徐礼长、王赛钰、赖志强、谢枫、王骏翔、杨磊、杨梅、田园、王立波、高健凯、司华、胡洋、赵文敬、林墅、李伟明、李昊楠等。报告在编写过程中,历经内容起草、模型构建、调研访谈、数据分析、征求意见等阶段,得到了诸多单位的
2、大力支持,包括:中国信息通信研究院、浙江移动、上海数腾软件科技股份有限公司、上海爱数信息技术股份有限公司、中远海运科技股份有限公司、中电信数智科技有限公司、浪潮数据技术有限公司、曙光云计算集团有限公司、杭州美创科技股份有限公司等。由于数据来源以及样本企业数量限制,无法考察领域内全部企业,本报告如有不足之处欢迎指出。-3-前前 言言 随着云计算成为产业数字化的重要技术底座,企业通过大力建设更加灵活、可靠的云灾备系统来有效预防和减少灾难或意外故障的风险,实现业务的快速恢复,保护企业核心数据,提升客户信任和企业竞争力。然而,企业在云灾备建设的过程中,仍然面临着数据恢复有效性难以保障、管理体系仍不完善
3、、产品兼容性较差、副本数据缺乏利用等挑战,极大影响了企业云灾备建设效能。为了探明我国各行业企业云灾备建设的发展现状,推动产业高速发展,促进产业良好生态形成,助力云灾备产业规模化落地,中国信息通信研究院牵头编制云灾备建设指南(2024)。本报告总结了云灾备的发展历程与背景,洞察并分析了企业云灾备建设过程中面临的诸如技术、产品、管理体系等方面的困难与挑战,并归纳云灾备的建设路径,旨在为企业提供云灾备建设全流程的参考。-1-目目 录录 一、一、云灾备概述云灾备概述.1(一)云灾备发展背景.1(二)云灾备发展历程.2(三)云灾备的优势.4 二、二、云灾备产业不断发展,灾备建设仍面临诸多问题云灾备产业不
4、断发展,灾备建设仍面临诸多问题.6(一)灾备环节存在技术难点,数据恢复有效性难以保证.6(二)(二)云服务故障频发,云灾备管理体系建设仍需完善.7(三)灾备产业上下游难以兼容,亟需加强产品适配.8(四)灾备数据缺乏利用,数据价值有待挖掘.9 三、三、五大措施夯实企业云灾备建设之路五大措施夯实企业云灾备建设之路.10(一)云灾备建设需求分析,保障灾备建设可行性.10(二)云灾备建设规划设计,提升全流程建设效能.11(三)云灾备建设方案实施,稳妥高效推进云灾备建设.12(四)云灾备建设赋能数据管理,技术创新助力降本增效.13(五)云灾备建设效果评估,促进企业灾备能力持续提升.13 四、四、企业云灾
5、备建设实践企业云灾备建设实践.14(一)芜湖市政务云同城异构灾备建设案例.14(二)厦门市政务云多云异构灾备云建设案例.17(三)浙江某连锁餐饮企业云上跨 AZ 灾备建设案例.20 五、五、云灾备发展展望云灾备发展展望.23 -2-(一)灾备系统兼容性不断加强,灾备行业生态日益开放.23(二)灾备数据应用场景不断扩展,聚焦挖掘数据新价值.24(三)依托云灾备标准体系,逐步提升云灾备建设成熟度.24 -1-一、一、云灾备概述云灾备概述 (一)云灾备发展背景 云灾备的发展主要源于信息化时代对数据安全与业务连续性的迫切需求。传统灾备行业已发展近半个世纪,从手动磁带备份的计算机发展初期,到远程磁盘备份
6、、建立异地数据备份中心,再到实时备份数据保护,灾备技术的发展伴随着底层基础架构不断演进。企业数据量爆炸式增长、数据价值不断提升,云灾备价值逐步显现。在数字化时代,企业面临着日益庞大和多样化的数据流,而这些数据不仅是信息的载体,更是企业的重要战略资源。因此,如何有效地管理、保护和恢复这些数据变得尤为关键。数据量的急剧增长,传统灾备压力激增,面临着备份和恢复时间长、管理复杂度高、灾备场景受限等问题,而云计算作为新一代信息技术的核心引擎为传统灾备行业注入了新的活力。云灾备将生产数据灾备到弹性伸缩、按需付费的云服务平台,成为了适应云计算和大数据时代下的新灾备理念。随着云计算技术的不断成熟,云灾备的应用
7、优势突出,灾备云化转型提速。云计算技术的发展不仅为灾备建设提供了灵活可扩展的数据存储和恢复能力,还显著降低了灾备建设的成本和复杂性。在这种趋势下,越来越多的企业开始认识到灾备云化的重要性,纷纷加快灾备云化转型的步伐。通过利用云服务提供商的先进技术和资源,企业能够实现更高效的数据保护,确保在面临灾难时能够快速恢复业务运-2-行。云计算技术的成熟为云灾备的发展注入了强大动力,推动着灾备云化转型进入一个新的快速发展阶段。根据 IDC 统计,2023 年中国数据灾备市场收入达到 7.3 亿美金,同比增长 11.8%;未来五年,中国数据灾备市场预计将以 10.2%的复合年增长率增长,市场规模预计在 20
8、28 年达到 13 亿美元。各行业的云灾备热度也持续上涨,在政务、金融、电信、医疗、教育等领域均有落地应用,其中政务云建设成熟度最高,在行业应用中占比达到 50%以上。数据合规性相关政策正推动灾备体系逐渐成熟。近些年,国家出台了一系列相关政策和法律法规,灾备建设和业务系统的连续性也越来越受到企业重视。中华人民共和国网络安全法明确规定关键信息基础设施需要“对重要系统和数据库进行容灾备份”,并“制定网络安全事件应急预案”。“等保 2.0”二级及以上的安全通用要求里均规定需要提前制定备份及恢复策略,确保灾备系统的可用性和可靠性,并且等级保护对象范围在传统系统的基础上纳入了云计算这一新型数字基础设施。
9、2023 年,工业和信息化部等六部门联合发布了算力基础设施高质量发展行动计划重要文件,明确提出到 2025 年重点行业核心数据和重要数据的灾备覆盖率要达到 100%。可以预见,合规性要求的提高,将很大程度上推动灾备行业及云灾备技术的发展,并对关键行业带来重要影响。(二)云灾备发展历程 云灾备的发展历程分为三个阶段。第一阶段(2006-2012),技术-3-探索阶段。在云计算概念尚未普及的早期阶段,一些技术先驱开始探索利用云计算技术来改善灾备解决方案。这一阶段的云灾备主要局限于一些基础的概念探索和实验性的应用,尚未形成成熟的商业产品和解决方案。例如 2006 年,亚马逊网络服务发布 Amazon
10、 S3(Simple Storage Service),提供的一种对象存储服务,是首个商业化的云存储服务之一,为开发者和企业提供了可扩展、安全、可靠的存储方案,云存储的发展为云灾备的产生奠定了基础。第二阶段(2012-2018),技术演进阶段。灾备技术的早期阶段使用数据复制技术以存储搭配备份软件的方式,通过客户端软件对目标应用数据定期获取,提供多副本冗余以进行数据保护。传统备份技术稳定,但受限于备份数据不能直接挂载使用,因此在业务连续性方面较为薄弱。随着技术发展,CDP(Continuous Data Protection)技术通过实时备份数据的变化,提供了较短的恢复点目标(RPO)和恢复时间
11、目标(RTO)。这种持续的数据保护方式为组织提供了更高的数据恢复保障。CDM(Copy Data Management)是在 CDP 基础上的进一步发展。CDM 采用首次完全备份,随后采用永久增量备份方式。它利用 CBT(Changed Block Tracking)等块修改追踪技术获取增量数据,在备份期间将增量数据与之前的全量数据合成,形成新的全量备份。CDM 的核心理念是减少数据备份和恢复的冗余,从而提高备份和恢复的效率和可靠性。随着云计算技术的逐渐成熟和普及,云灾备开始从简单的数据备份向更全面的灾备解决方案发展。第三阶段(2018-至今):服务化与行业应用阶段。云服务提供商-4-不断完善
12、其产品和服务,并提供灾备即服务(DRaaS),简化了灾备的建设和管理。DRaaS 是云灾备技术的更进一步的发展,将灾难恢复功能提供为一种云服务。DRaaS 提供商在超大规模云环境中提供解决方案,客户可根据需求在云端备份数据和应用程序,快速恢复业务以最大程度减少停机时间和数据丢失。随着云灾备技术的普及和发展,越来越多的企业将其整合到业务流程中,特别是在金融、电信等业务连续性要求极高的领域,云灾备成为了不可或缺的一环。在金融领域,随着金融科技的迅猛发展,各类金融机构对于数据安全和业务连续性的需求日益增加。云灾备技术的应用使得金融机构能够更加高效地应对各种风险和灾害,保障资金流动和交易安全。同时,通
13、过云灾备,金融机构还能够更好地满足监管机构对于数据备份和灾备计划的要求,提高整体合规性。电信行业也是云灾备技术的重要应用领域之一。作为信息基础设施的重要组成部分,电信网络的稳定性和可靠性对于整个社会的运行至关重要。通过云灾备,电信运营商能够更好地应对自然灾害、网络攻击等风险,保障通信网络的稳定运行,为用户提供持续、可靠的通信服务。总的来说,随着云灾备技术的日益成熟,其在各个行业中的应用将更加普及,成为保障企业业务连续性和安全性的关键工具。这一广泛应用的背后,是云灾备技术本身的诸多优势所驱动。(三)云灾备的优势 云灾备可以为政企提供高效、灵活的灾备解决方案,保障业务连-5-续性并应对不可预见的灾
14、难事件。云灾备采用创新的灾备服务模式,涵盖了传统物理主机、虚拟主机等 IT 系统,向私有云或公有云等云端化灾备转变,以及新业务形态下灾备端云化和云与云之间的灾备等,从而满足企业在多云环境中的灾备需求,保障系统遭受灾难时数据安全、业务快速恢复。相比较以往的灾备方式,云灾备具有众多优势。云灾备结合云平台的计算、存储和网络等丰富资源,具备明显成本优势。首先云灾备产品支持按需使用,按量付费,云灾备采用云基础设施或 DRaaS 模式,允许用户根据实际需求选择重要的系统和数据进行备份,用户只需为实际使用的资源量付费,有效减少了资源浪费,提高了效率。传统的灾备解决方案需要建立和维护昂贵的物理设备和基础设施,
15、而云灾备则可以灵活地调整资源,大大降低了成本。其次,云灾备方案具备高可靠性,云灾备采用分布式架构和虚拟化技术,在多个地理位置备份和复制数据。在灾难期间,通过网络和物理隔离技术确保数据的完整性;同时采用多副本机制来保证数据可靠性,当本地数据中心出现故障后,业务流量直接切换至云上灾备中心,并立即恢复业务,从而保证了高可用环境下业务不间断运行。同时,云灾备覆盖了全生命周期的灾备服务,DRaaS 服务通常由专业的服务提供商托管和管理,客户无需担心灾备解决方案的日常维护和管理工作,降低了灾备使用与维护门槛,减轻了 IT 团队的负担。此外,跨地理容灾能力也是云灾备的一大优势,许多云服务提供商具有全球数据中
16、心的分布,企业可以轻松地将数据备份到不同地理位置的数据中心,实现跨地区灾备,从而提高数据的安全性和可靠性。-6-综上所述,云灾备可以为企业提供更高的业务连续性、数据可用性和灾备容灾能力,同时降低总体成本和管理负担,为政企数据资产和业务系统提供高性价比的全方位保障。二、二、云灾备产业不断发展,灾备建设仍面临诸多问题云灾备产业不断发展,灾备建设仍面临诸多问题 (一)灾备环节存在技术难点,数据恢复有效性难以保证 企业建设云灾备的过程中,在备份、验证、演练、容灾和恢复环节仍面临一系列挑战。首先,在备份环节,现有数据备份大多为文件级备份,但文件级备份需要解析文件类型,会占用源机的大量资源,因此企业被迫对
17、其做定时备份。也有企业尝试进行磁盘块级备份,但其技术门槛较高。其次,在验证环节,企业对于非结构化数据,如办公文档、文本、图片等数据的验证只能采取人工查看的方式,打开每个文件进行验证。但随着数据量的增大,这种方式会占用大量的人力资源且费时费力。对结构化数据如 SQL 等数据库的验证则更为困难,需要搭建一套与原环境一样的数据库才能打开进行校验,其成本和技术门槛较高,因此企业一般不对其做验证。对于演练环节,目前大多数企业做演练需要搭建海量环境,解决历史补丁、中间件、各种复杂逻辑以及配置文件的问题。花费大量的人力、物力、财力,还需要保障全量数据的传输完成,才能进行演练。但演练带来的风险却是企业无法承受
18、的,因此对大多厂商来说演练较为困难。最后,在恢复环节,很多企业面临将业务从备机回切到主生产环境的难题,由于可能需要重新搭建主生产环境,耗费大量的时间的同时,成功恢复率也难以保-7-障。同时,灾难应急时业务在备机上运行,企业还面临着应急时的增量数据重新融入恢复后主生产环境的困难。综上所述,当前灾备环节还存在一些技术难点,数据恢复有效性难以保证。(二)(二)云服务故障频发,云灾备管理体系建设仍需完善 云服务故障频发,管理欠缺是不可忽视的因素。随着越来越多企业采用云服务来实现其所需的数字业务成果,云安全故障将成为企业和组织需要考虑的重要问题。近几年,由于管理欠缺导致的云安全事件层出不穷。例如,某公司
19、核心数据遭内部员工删除,导致公司网络业务大面积崩溃,应用程序全部处于宕机状态,8 天之后数据恢复上线,未做到管理分权是事故的重要原因;某云端协同办公工具大面积服务中断,耗时近 7 个小时才从备份系统中恢复上线,原因是运维团队升级操作导致服务器误下线,这也体现了缺乏严格的操作审批和管理流程带来的严重后果。应提高对云灾备管理的重视程度,建立健全的管理体系。尽管云灾备意味着企业可以将数据备份技术需求委托给第三方服务提供商实现,但从准备备份到灾难恢复,企业的持续管理不可或缺。云灾备建设除复杂的技术要求外,更重要的是大量数据的集中整合、灾备策略和方案的执行、日常审计告警监控、人员的组织分配等管理要求。事
20、实证明,许多云服务故障问题都属于管理体系建设范畴,管理难也成为许多企业在规划和使用云灾备系统时面临的巨大挑战。因此,在云灾备产品层出不穷、相关规范不够完善的当下,亟需提高对云灾备管理的重视程度。通过建设统一的云灾备管理平台、智能化的运维保-8-障体系以及建立健全的备份容灾措施、应急接管机制、访问控制机制等,都有利于大幅提升业务的稳定性、可靠性及可运维性。(三)灾备产业上下游难以兼容,亟需加强产品适配 灾备产品适配和对接面临挑战,加大了企业灾备建设难度。在过去几十年灾备方案的演进过程中,企业都是采用渐进式迭代方案,新老技术和系统共存,导致产品不适配问题日渐突出,这为更多企业进行新型灾备建设、适应
21、云灾备时代造成了困难。目前市面上大多数存储产品的架构都是基于数年前的用户需求设计的,并且由于近些年数据体量的急速增长和数据维护成本的提高,很多企业没有对数据存储产品进行及时更新换代。对于云灾备软件厂商来说,面对多样化的生态,很难做到丰富全面的适配和对接。从需求侧来看,客户也很难自主灵活选择最优最好用的灾备服务。在未来的云灾备环境下,存储架构的改变是必然趋势,存储系列产品将更需要软硬结合、高度集成,要求整个存储系统拥有更强的底层适配能力。比如,灾备软件可以通过与云平台的 RESTful API 进行接口级对接,自动创建灾备所需云资源,实现一键备份上云、一键恢复到云、一键容灾到云。亟需加强云灾备上
22、下游产品适配,促进灾备软硬件生态的发展。目前国内企业大多采用过时的堆叠架构进行灾备软件部署,即在服务器上部署简单的灾备软件,没有采用专用的软硬件灾备架构,在一定程度上影响了灾备质量,不利于提高灾备可靠性和降低灾备成本,导致企业灾备能力不足和投资意愿降低。目前国内灾备服务提供方的产品以闭源商业软件为主,单个厂家面临多样化应用生态的挑战。很多-9-独立的灾备软件产品已发展十年有余,至今无法广泛应用于关键产业。因此,鼓励灾备厂商逐步开源自研的灾备软件,和存储、软件厂商通过开源方式共建生态,有望缓解和解决上下游产品不适配问题,有利于打造高质量、自主可控的灾备产业体系。(四)灾备数据缺乏利用,数据价值有
23、待挖掘 灾备成本高、数据量大,易造成数据资源浪费。随着两地三中心甚至三地五中心灾备方案逐渐成为主流,灾备成本越来越高,灾备的业务数据量也越来越大,高昂的成本让更多中小型企业用户望而却步。IDC 调研显示,82%的企业每个数据库有 10 个以上的副本,这些数量庞大的副本数据意味着高昂的存储资源和维护开支。Forrester表示,企业有 73%的数据从来没有得到任何利用。因此,很多企业真正投入使用、实现价值挖掘的数据量可能只是企业所拥有数据的冰山一角。但是,这些低利用率的“暗数据”可能成为企业未开发的最大“金矿”,如果找到“暗数据”的利用价值,会带来可观的收益。盘活“暗数据”,促进数据再利用,推动
24、灾备建设效能。如果充分利用占据企业大量存储资源的备份数据,那么灾备建设将注入新的活力。如何通过“暗数据”管理和运营,真正实现数据驱动发展,已经成为加速企业数字化转型步伐的关键。业内已提出相关的副本数据管理(CDM)解决方案,结合脱敏技术实现开发、测试、统计分析等场景的副本数据再利用,实现了数据的降本增效。“数据库的未来是上云”,因此在云数据库快速增长的未来,盘活云上备份数据,发掘数据潜力,使备份数据不仅用于生产端数据迁移、灾难恢复,还可以用-10-于非生产端的智能分析、决策辅助、开发测试、查询审计等场景,将显著提高数据再利用率,促进更多企业的灾备建设投入,从而推动灾备建设效能。三、三、五大措施
25、夯实企业云灾备建设之路五大措施夯实企业云灾备建设之路 (一)云灾备建设需求分析,保障灾备建设可行性 云灾备建设需求分析着力于业务需求、成本分析、资源评估,保障云灾备建设的可行性。在企业云灾备建设的前期,需要明确企业对于云灾备建设的基本要求和指标,同时调研企业硬件和软件等方面的基本情况,为云灾备建设规划提供数据支持。在灾备需求方面,高度匹配企业业务需求,助力云灾备框架搭建,解决云灾备技术难度大、复杂性高的问题。首先是了解企业的业务流程和企业系统,如目前的数据规模,每日新增数据等,分析云灾备建设所需的存储空间和数据恢复的需求,从而评估企业所能接受的恢复时间目标和恢复点目标。除此之外,随着数据安全和
26、用户隐私需求的提高,云灾备建设也需要采用数据加密、访问控制等安全措施,保证灾备系统的安全性。在成本分析方面,云灾备级别适配灾难风险级别,支撑云灾备建设降本增效。结合企业的地理位置进行灾难风险性级别评估、灾难损失等因素,确定可能造成的数据损失和成本损失,为建设规划设计奠定基础。当灾备级别越高,备份数据规模越大时,云灾备的建设成本就越高,同时,云灾备建设还需要考虑后续的运营和维护成本,综合-11-考虑企业的灾备需求来选择灾备业务范围和灾备级别。在资源评估方面,通过调研企业软硬件资源,加强云灾备建设的兼容性。调研要求对企业的数据规模和硬件资源等进行综合分析,根据具体的情况决定云灾备建设的建设规划和方
27、式,充分考虑产品适配性,在原有资源和设备的基础上进行建设,从而有效地降低灾备成本,确保灾备建设计划的可行性。(二)云灾备建设规划设计,提升全流程建设效能 规划设计的目标是帮助企业明确云灾备建设的基本架构,保障建设的实施。根据对企业资源、设备、成本的评估,可以设计适用于企业需求和云服务提供商的云灾备建设规划。根据用户对灾备目标的要求,结合灾备平台能力要求制定建设规划细节,确定云灾备建设方案,如备份一体机,混合灾备云等灾备方案,根据方案的优点和缺点,选取最佳方案以及云灾备建设阶段的规划。云灾备体系包括数据备份、应用容灾、灾难接管、应急演练等部分,根据不同的功能需求,采用相应的资源部署措施。首先制定
28、数据备份/应用容灾策略,确定备份数据范围、数据备份方法、应用容灾方法等,如 CDP 实时备份、全量备份、定时增量备份、基于日志的数据容灾、基于块的数据容灾等,保证数据的完整性、可用性、复制的时效性。其次,需要制定恢复或接管策略,确定故障发生时数据恢复或业务容灾的流程,如全量恢复、差异恢复、点对点恢复、业务接管等,通过提取最近的备份点数据恢复或数据快照节点等方式,以此适应不同类型数据的恢复需求。业务容灾可采用自动化容灾管理策略,-12-按照恢复优先级和顺序,进行业务系统启动、数据库启动、网络切换等,从而实现业务系统容灾。最后,企业应建立应急预案体系,建立灾难预警机制,提前梳理业务系统恢复优先级、
29、恢复步骤,提前预制到灾备平台中,同时采用预警触发条件、通知预警方式等,保障灾备平台的快速响应、通知、应急恢复。(三)云灾备建设方案实施,稳妥高效推进云灾备建设 根据云灾备建设规划方案,落实基础设施部署、企业数据备份、灾备方案部署的流程,建设方案实施的目标是完成企业数据的云上备份以及云灾备系统的建设和完善。在基础设施部署方面,基于现有设备进行部署,实现资源兼容、降低成本。首先是存储硬盘的搭建和选取,根据数据容量、吞吐量等要求,选取合适的存储硬盘。其次是建设云环境,设计组网方案部署服务器、交换机、防火墙并完成相关的网络设置和路由配置,验证云平台和硬件设施之间的可兼容性,保障云灾备建设体系的可用性。
30、企业数据备份方面,推动灾备建设规划,实现企业数据定期完整备份。完成基础设施的建设后,可以采用云平台自有的迁移或备份工具,或者利用第三方专业迁移与灾备产品实现业务系统和数据的上云迁移与云上灾备。在这个过程中需要保证数据在灾备平台的完整性和一致性,明确数据迁移所需的时间和备份周期,采用定期全量备份、增量备份等方式,适应灾备建设的需求。灾备方案部署方面,完善策略设置,适应企业需求。根据数据和业务的不同的恢复要求对应不同的故障恢复策略,保证出现故障时的-13-快速恢复。同时,为满足监控预警功能的需求,云灾备建设实施方案需要部署关键指标的监控、预警阈值和告警方式,保障灾难发生后的快速响应和通知。(四)云
31、灾备建设赋能数据管理,技术创新助力降本增效 云灾备建设赋能企业数据管理,采用关键性创新技术,助力云灾备降本增效。云灾备建设所需要的备份技术、存储技术不断发展创新,能够实现数据的有效管理、带宽和存储容量的减少,为灾难发生后的及时恢复提供了坚实的基础。采用重复数据删除技术、增量备份、快照等技术,实现高效数据备份。重复数据删除技术可以通过识别重复备份,降低设备的存储压力,同时提高备份效率。增量备份策略在首次备份时采用全量备份,对数据变化进行监测,当数据更新时选择增加的数据进行备份,可以节省带宽和存储空间。快照的写时复制技术和写时重定向技术可以创建快照数据指针表,减少备份所需占用的存储空间,有效地提高
32、恢复速度。数据存储方面的技术有存储虚拟化、横向扩展、分布式存储等。存储虚拟化等技术能够实现对异构存储设备进行统一的管理。横向扩展存储技术的发展解决了纵向扩展存储技术受到控制器性能限制的问题,提高了存储容量的灵活性。采用横向扩展技术的分布式存储技术可以实现冗余备份,提高数据的故障恢复能力。(五)云灾备建设效果评估,促进企业灾备能力持续提升 -14-云灾备建设效果评估赋能灾备运营,保障灾备演练覆盖灾难场景,解决云服务故障频发的问题。云灾备系统的建设难点不仅在于建设过程中的框架规划,还在于建设完成后的灾备运营。为确保云灾备系统的稳定,需要进行灾难备份效果的常态化测试和评估,验证云灾备系统的有效性,不
33、断迭代优化云灾备方案。评估方案要求通过对不同故障场景、灾害场景的模拟,记录数据恢复情况。推动灾备运营常态化,落实评估指标部署、预案演练管理、演练结果分析。首先,确定评估指标,如数据恢复完整度、数据恢复时间目标(RTO)、数据丢失点目标(RPO)等,并根据评估指标确定评估方案。其次,为获取效果评估记录,设计适用于不同灾难场景的云灾备模拟演练预案并进行体系化管理,通过模拟灾难发生导致的数据丢失等问题,测试云灾备系统的响应速度和恢复时间。最后,根据灾难演练记录,结合建设需求进行综合分析,对灾备方案的不足之处进行改进和调整,落实到日常的监控和巡检,定期进行云灾备建设的效果评估,促进灾备能力的提升和优化
34、。四、四、企业云灾备建设实践企业云灾备建设实践 (一)芜湖市政务云同城异构灾备建设案例 1.项目背景 芜湖市政务云建设起步较早,已经发展为城南政务云计算中心、城东政务云计算中心、超算中心等多云共存的格局,实现了全市党政机关具备上云条件的信息系统应上尽上,系统和数据统一汇聚在-15-芜湖市政务云平台。并在异地宿州数据中心部署云灾备平台,对所有需要保障的业务系统和数据进行一体化实时备份,实现芜湖市政务云互联网区和政务外网区的异地灾备。近来,为了响应关于进一步提升全省政务云灾难备份能力的指导意见(皖数资202129 号)的政策号召,决定建设同城应用级灾备中心,将核心业务系统及重要数据灾备至同城灾备中
35、心,强化政务云的容灾抗毁能力,确保灾难发生时关键业务不中断、数据不丢失。2.面临的主要痛点和难点 面向芜湖市政务云环境的同城灾备中心,基于云管平台可实现硬件资源和软件资源的统一管理、统一分配、统一部署、统一监控、统一策略管理和统一权限管理。但在建设过程中,面临着诸多难点:1)容灾指标要求高,需实现分钟级保护和恢复。芜湖市各委办局关键业务持续上云,数据呈现爆炸式增长,海量规模业务级容灾需要消耗大量的时间和资源。2)业务连续性要求高,核心系统要求业务持续不间断。芜湖市政务云承载着海量数据共享、交换和智慧政务服务快速响应等的需求,在业务宕机后,如果不能第一时间拉起接管原业务会带来巨大损失。3)在确保
36、数据安全、业务可用性的同时,如何充分挖掘数据价值是一个重要的问题。芜湖市政务云灾备体系不仅要能够实现各类应用、系统、数据的灵活容灾备份,还要能够进行常态化的演练测试、业务实训,及新应用软件上线、升级测试验证等。3.灾备系统建设方案 -16-灾备建设遵守内外网相互隔离的原则。采用“1 主生产中心+1应用级灾备中心”的方式建设同城灾备体系,城东政务云计算中心为主生产中心,分为政务外网区和互联网区,通过万兆裸光纤与同城应用级灾备中心互联。在同城灾备中心部署 CloudSure 云灾备平台,与云平台的RESTful API 进行接口级对接,备份数据从业务系统传输到灾备存储以统一格式进行保存。在需要应急
37、接管或仿真演练时,通过CloudSure 提供的能力直接基于灾备数据按需拉起应急或演练主机,提供业务访问或演练验证。当生产中心(华为云)出现故障时,通过同城灾备中心(浪潮云)即可快速应急接管和数据恢复,将灾备数据恢复至原环境或异构的新环境,保证系统及数据的可靠性、安全性、稳定性。CloudSure 支持异构云之间的数据复制,无需提前部署与源端一对一的灾备主机,可以在不受原有平台厂商的限制下,节约云计算资源的消耗,降低灾备整体成本,真正发挥出云的弹性能力。图 1 芜湖市政务云同城异构云灾备实践架构图 4.项目建设效果 -17-方案融合了湖市政务云的云平台服务能力与 CloudSure 云灾备技术
38、能力,适应云和大数据环境下,业务快速接管和数据零丢失的要求,实现了各委办局的数据级灾备(文件备份、整机备份、数据库备份)和应用级灾备(政务外网区域、互联网区域),不仅能够解决不同架构云平台间的灾备难题,也避免同构云系统底层出现问题而带来的灾备失效风险,提高用户核心业务系统抵御业务连续性和数据丢失的风险能力,将灾难造成的损失降到最低。同时,灾备中心单应用系统切换方式、多个应用群切换方式及灾难备份中心整体切换方式,增强了业务系统的高可用,大幅度提升芜湖市政务云整体的运行管理水平,降低建设成本,减少运行能耗。芜湖市政务云同城灾备体系的建设完成,进一步夯实了市政务云安全保障体系的基础,为发展数字芜湖筑
39、牢了根基。(二)厦门市政务云多云异构灾备云建设案例 1.项目背景 厦门政务云已经发展为由自建市政务外网云平台、电信政务云服务平台、浪潮政务云服务平台、腾讯政务云服务平台、厦门鲲鹏超算中心等多云共存的格局,形成一中心+N 朵政务服务云的架构,为全市提供政务智慧化动力。根据厦门市政务数据中心整合实施方案、厦门市“十四五”数字厦门专项规划-政务云优化升级工程 要求,加快构建“物理隔离、逻辑统一、资源共享”的政务云服务体系,提供异地灾备统一服务。近年来,厦门市政务云构建了两地三中心灾备体系,对所有政务-18-云平台上的业务系统和数据提供本地同城灾备,对关键业务系统及重要数据提供统一异地灾备服务,强化政
40、务云抗风险能力,提升关键政务业务系统连续性、确保政务数据数据安全不丢失。2.面临的主要痛点和难点 多云异构云灾备:厦门市各委办局业务持续上云,数据呈现爆炸式增长,业务数据存在于多种云环境中,多云架构下出现了海量虚机保护管理难,数据跨云容灾、异构迁移恢复困难等问题。共享式灾备:规划按照统一灾备服务目录建设面向厦门市政务云环境的统一异地灾备服务中心,保障数据的完整、安全及可靠性。建设一体化、标准化的灾备服务及管理体系,实现灾备资源的智能预测规划、统一监控管理,升级政务数据灾备服务支撑能力。统一灾备运营管理:规划采用“N 朵政务云+1 个同城灾备中心+1个异地灾备中心”的方式规划建设政务云体系,推进
41、灾备中心的标准化、规范化建设,统一纳管。实现 N 朵政务云上各类政务系统、数据的灵活备份容灾,并提供智能化的数据校验、灾难恢复演练等服务。3.灾备系统建设方案 根据“3-2-1-0 原则”厦门政务云构建了数据灾备体系。规划建设软件园电信/移动机房/信息中心机房本地备份中心及同安同城灾备中心实现 3 份数据拷贝、2 种存储介质,规划建设泉州异地灾备中心实现 1 个异地备份,有效抵御火灾、台风、洪水等自然灾害对数据造成损毁。通过数据不可变存储、强制数据保留、Air-Gap 等技术对灾备环境与存储进行加固,有效预防勒索病毒攻击,实现备份数据-19-不可篡改。通过共享式灾备云中心的建设,一套灾备系统全
42、面覆盖浪潮云、腾讯云、电信云、超算云等多个政务云平台,实现多云数据统一保护,支持云主机、云数据库、对象存储、大数据服务、容器服务全面保护。消除云平台之间的“壁垒”,数据可在异构云平台间自由流动,实现业务的灵活部署,政务外网云上的业务系统的备份数据,可以通过异地共享式灾备云中心快速恢复到浪潮云、腾讯云、电信云等政务云平台。支持云平台级故障、跨云灾难恢复等场景。通过统一灾备可观测管理平台,提供多个数据中心、多套灾备平台统一的灾备运营管理,如统一策略、统一监控、统一报表等能力;提供统一灾备可观测能力,如 RTO/RPO 分析、灾备资源预测管理、监控与告警等。提供画布式灾难恢复计划编排,覆盖演练、切换
43、、回迁环节,提供业务可用性验证和数据一致性验证,确保数据正确恢复;自动化输出可自定义的灾难恢复及演练报告,涵盖计划、过程、结果完整流程,满足合规性监管要求;通过日常自动化的灾难恢复演练,提升组织熟练应对灾难的能力和验证灾备系统的灾难恢复能力。-20-图 2 厦门市政务云两地三中心多云灾备实践架构图 4.项目建设效果 方案实现了厦门政务云的多云异构下的统一云灾备,并通过零信任数据安全技术能力全方位抵御勒索病毒,实现了政务系统的数据级灾备(整机备份、数据库备份、文件备份)和政务云平台级灾备,提升了关键政务系统业务连续性,降低政务重要数据安全风险。同时,共享式灾备云建设模式,统一灾备可观测管理平台,
44、日常自动化的灾难恢复演练,从事前、事中、事后全流程提升厦门市政务云灾备建设运维管理效能,节约大量财政资金投入。厦门市政务云两地三中心灾备体系的建设完成,实现厦门市灾备云资源统一运维、安全统一监测、灾备成效大屏统一展示、异地灾备统一服务、灾备数据统一管理;升级政务云安全支撑能力,为政府业务数字化转型提供强有力的技术支撑与保障。(三)浙江某连锁餐饮企业云上跨 AZ 灾备建设案例 1.项目背景 -21-随着浙江某连锁餐饮企业的快速发展,该企业对相应配套的 IT服务稳定性要求也越来越高。由于近几年云计算、容器等技术的不断成熟,该餐饮企业计划采用移动云上产品支持跨可用区(AZ)部署的能力,保障业务系统的
45、高可用性和可靠性。2.面临的主要痛点和难点 业务连续性要求高:该企业当前业务系统部署于同一个资源池,部署环境单一,灾难应对能力十分有限。一旦生产业务发生故障,将直接导致业务中断,这对服务型企业将产生重大影响和直接的经济损失。因此,企业不仅需要建设灾难恢复能力,还需要提高当前业务系统的可靠性。部署扩展性要求高:该企业门店扩张迅速,这对生产环境以及灾备环境部署模式的扩展性要求较高。同时,一天内用户就餐时间较为集中,属于业务高峰期,系统需具备抗压和扩容能力。而传统灾备方案需要针对每一台主机进行对接并管理,难以满足需求。灾备建设预算有限:传统灾备建设方案成本高、维护难,并且建设仅有备份能力的灾备环境,
46、容易造成资源浪费。因此,该企业寻求在有限的预算内,能够满足系统高可用和资源有效利用的灾备建设方案。3.灾备系统建设方案 本案例是在云上采用容器服务、RDS 通过跨可用区部署,实现云上跨 AZ 的灾备方案。方案架构如下图所示:-22-图 3 云上跨 AZ 灾备架构图 在应用层为了实现高可用架构,计划采用容器化集群部署,同时为了实现灾备能力,最终采用了容器集群在云上通过跨 AZ 部署的方案。首先容器的 master 节点和 worker 节点需要优先分布到不同可用区,并通过设置工作负载亲和性/反亲和性规则,使 Pod 可分布在不同可用区、不同节点上运行业务。在网络层利用云解析、全局流量管理服务的产
47、品能力,搭配可自定义配置的调度策略,在用户访问应用时生产中心若发生故障,全局流量管理服务会根据用户策略设置,实现全业务流量自动切换至灾备可用区域。此外,在各个可用区内部可开启负载均衡,实现应用高可用。在数据库层,由于分别部署在两个可用区的容器应用属于同一个集群,所以数据库仍需共用,同时为了实现数据库的备份能力建设,-23-因此也选择通过跨可用区部署 RDS 主备实例的方式,实现同城级别的容灾备份。云上 RDS 主备实例类型可以实现快速自动恢复,满足数据实时灾备等多种应用场景。4.项目建设效果 本案例中,由于两个可用区部署的应用属于同一个容器集群,并且数据库采用了经典的主备实例,因此业务应用和数
48、据库都已基于产品特性实现了实时同步的能力;网络方面则通过流量管理策略,实现分钟级业务流量切换的功能。该灾备方案架构不仅保障了业务系统的高可用,在资源利用、建设成本以及部署扩展性方面均具备一定优势。五、五、云灾备发展展望云灾备发展展望 (一)灾备系统兼容性不断加强,灾备行业生态日益开放 灾备系统需要兼容不同的业务系统和应用,进一步增强灾备行业的开放性。灾备厂商之间应加强合作,共同制定标准和规范,如制定标准化接口和协议、规范灾备系统与业务系统的数据格式、支持兼容多种应用等,推动灾备系统的兼容性,建立开放的灾备行业生态,促进产业链上下游各企业的协同发展。在上游,灾备软件和解决方案提供商应积极投入产品
49、兼容性的研发和测试,通过与不同硬件设备和其他软件的兼容性,用户可以更加灵活的搭建灾备系统,最大限度地利用资源,提高系统的可靠性和性能。在下游,硬件供应商可以制定开放的接口和标准,以确保其产品与其他厂商的灾备软件和解决方案的兼容性,保障用户可以按需选择灾备设备,同时能够与其它厂商的软-24-件无缝集成。加强灾备系统的兼容性能够促进灾备产业的创新和技术进步,使用户能够根据实际需求进行灵活的组合和使用,以满足灾备策略和业务需求的变化,为用户提供更灵活、更可靠、可选择性高的灾备产品和解决方案,有效降低集成和部署成本。(二)灾备数据应用场景不断扩展,聚焦挖掘数据新价值 企业在灾备建设方案中将更加注重数据
50、的价值释放和智能化应用。随着技术的不断进步,企业对灾备数据利用的重视程度不断加深,云灾备建设的新模式聚焦副本数据再利用,借助CDM(副本数据管理)等技术,不仅能够对生产环境的数据进行备份,并在非生产存储上形成黄金副本,它的数据格式是原始的磁盘格式,可再虚拟化成多个副本直接挂载给服务器,分别用于备份、容灾、研发、测试、数据分析等场景,提高了灾备数据的多场景应用效能。企业还将能够利用先进的人工智能和机器学习算法,对灾备数据进行更深入的分析和挖掘,从中发现更多商业价值和机会。未来,灾备数据不仅仅用于业务的恢复和保障,还将成为企业实现数字化转型和创新发展的重要动力之一。灾备数据的价值不断提升,更能够推
51、动企业云灾备建设的落地,通过将灾备数据与业务测试、业务运营、运维等方面紧密结合,企业能够更加灵活地应对市场变化和竞争挑战。(三)依托云灾备标准体系,逐步提升云灾备建设成熟度 依托评价模型,推动成熟度发展。现行的国家标准对灾难恢复系统的能力进行了明确的定级并且提供了一定的建设框架,但是涉及到-25-具体灾备产品的能力要求和建设指引仍然存在空缺,需要进一步完善。同时,云灾备理念的实施不仅是平台工具的建设,更是战略规划的改造。在云灾备的落地实施层面,企业需要制定适合的战略规划,具备充分的组织力量以及战略实施所需的保障,这与企业整体的经济基础、组织架构规划等方面高度相关,并且是一个分步实施且持续优化的过程。云计算标准和开源推进委员会(TC608)联合多家企业编制云灾备容灾解决方案、云灾备服务能力分级评估、灾备管理平台能力要求、灾备一体机能力要求、中间件容灾能力要求等标准,针对云灾备建设的实施提供了更加细化的指引,旨在推动云灾备成熟度的逐步提升。