上海品茶

您的当前位置:上海品茶 > 报告分类 > PDF报告下载

阿里云:医保行业容灾演练云上技术白皮书(40页).pdf

编号:106305 PDF 40页 41.99MB 下载积分:VIP专享
下载报告请您先登录!

阿里云:医保行业容灾演练云上技术白皮书(40页).pdf

1、目录CATALOG1.1 相关法律法规1.2 建设总体目标 1.3 容灾建设政策指引 010101第一章 医保云容灾建设背景3.1 整体系统架构3.2 省级数据中心建设框架3.3 应用容灾解决方案框架3.4 云平台建设保障与运维要求 05060708第三章 医保云容灾建设方案 第四章 医保云容灾演练方案 第二章 医保云容灾建设标准 4.1 容灾演练调研4.1.1 调研及改造目标4.1.2 云产品调研及改造要求 4.1.3 应用侧调研及改造要求 4.2 容灾演练改造 4.2.1 云平台侧容灾改造 4.2.2 平台侧网络改造 4.2.3 应用侧网络改造 4.2.4 云外网络改造4.3 容灾演练场景

2、 4.3.1 容灾演练前置准备 4.3.2 容灾演练场景规划4.4 容灾演练方案 4.4.1 公共区数据层演练 4.4.2 公共区应用层演练4.4.3 核心区数据层演练 4.4.4 核心区应用层演练 4.4.5 机房公共区&核心区云产品切换演练4.4.6 机房公共区云平台故障演练(入口断网)4.4.7 机房核心区云平台故障演练(入口断网)4.5 演练风险及应对措施 43262628283031313233第五章 总结 第一章 医保云容灾建设背景1.1 相关法律法规2017年,我国正式生效中华人民共和国网络安全法,以保障网络安全、维护网络空间主权和国家

3、安全、社会公共利益,保护公民、法人和其他组织的合法权益,促进经济社会信息化健康发展。网络安全法第二十一条和第三十四条,分别从等级保护制度和关键信息基础设施运营者的角度,对系统平台提出了安全技术要求,其中即包括对于重要系统的容灾备份要求。1.2 建设总体目标按照党中央、国务院对医保信息化建设的部署和要求,国家医保局2019年即明确了建设全国统一医保信息系统,搭建国家医保信息平台和省级医保信息平台,支撑提高全国医保标准化、智能化和信息化水平,重点推进公共服务、经办管理、智能监管、分析决策四类医保信息化应用的总体目标。医保信息化建设以标准全国统一、数据两级集中、平台分级部署、网络全面覆盖为要求,依托

4、省级平台与国家平台之间的协作联通,初步实现便捷可及“大服务”、规范高效“大经办”、智能精准“大治理”、融合共享“大协作”、在线可用“大数据”、安全可靠“大支撑”的建设目标。1.3 容灾建设政策指引在国家医疗保障局网络安全和信息化领导小组办公室下发的,关于印发地方医疗保障信息平台实施指引手册的通知中,明确规范了云平台高可用验收规范:01 医保行业容灾演练技术白皮书医保行业容灾演练技术白皮书“云平台支持同城跨机房容灾,对数据级容灾、应用级容灾和业务级容灾,容灾等级应参照信息安全技术信息系统灾难恢复规范(GB/T20988-2007)中灾难恢复能力等级划分的5级标准(实时数据传输及完整设备支持),并

5、结合本省情况,制定各业务系统灾备能力定级。地方应按照容灾恢复计划进行完整的测试和演练,形成云平台同城容灾验收报告。”同时在国家医疗保障局网络安全和信息化领导小组办公室下发的,关于印发地方医疗保障信息平台验收指南的通知中明确要求了容灾系统的验收标准以及具体验收方法:医保行业容灾演练技术白皮书 02第二章 医保云容灾建设标准容灾指在不同机房建立一套完整的与本地生产系统相当的备份应用及数据系统,出现机房级别系统故障时,可以在规定时间内完成整体容灾切换,前台业务系统基本不受影响。容灾主要针对数据和应用两大类,根据提供基本的数据保护和提供不间断的应用服务来区分。一般情况下容灾体系可以分成数据级容灾、应用

6、级容灾和业务级容灾三个级别。根据国家医疗保障局医疗信息平台-可行性研究报告,医疗保障信息业务系统灾备能力定级建议如下:03 医保行业容灾演练技术白皮书医保行业容灾演练技术白皮书按照国家关于灾备系统能力的6级标准,结合国家医疗保障局的实际情况,医保云数据和应用恢复需要满足信息系统灾难恢复规范(GB/T20988-2007)的第5级要求。如果数据中心出现重大灾难性损失,可以达到信息系统数据基本不丢失。容灾模式无数据级容灾应用级容灾应用级容灾无数据级容灾数据级容灾数据级容灾应用级容灾应用级容灾数据级容灾数据级容灾应用级容灾应用级容灾应用级容灾应用级容灾应用级容灾应用级容灾业务中断时间(RTO)2天以

7、上30分钟30分钟2天以上 2天以上 2天以上 2天以上 2天以上 2天以上 2天以上 30分钟30分钟30分钟30分钟30分钟30分钟最大数据丢失量(RPO)10分钟3分钟3分钟10分钟10分钟10分钟10分钟10分钟10分钟10分钟3分钟3分钟3分钟3分钟3分钟3分钟信息系统名称交换库数据中台业务中台财务软件子系统宏观决策大数据应用系统医疗保障智能监管系统基金运行及审计监管系统信用评价管理系统支付方式管理系统医疗服务价格管理系统内部控制系统运行监测系统内部统一门户系统医保业务基础系统公共服务系统药品和医用耗材招采管理系统跨省异地就医管理系统基础信息管理系统序号3121

8、1医保行业容灾演练技术白皮书 04第三章 医保云容灾建设方案3.1 整体系统架构应用系统:所有业务应用系统都必须基于医疗保障应用框架(Healthcare1Secu-rity Application Framework,简称:HSAF)开发。HSAF框架:采用分布式云架构,封装核心云支撑服务适配接口,用于实现云产品解耦设计。适配层:基于HSAF的适配技术,将应用层依赖的分布式技术与具体厂商的分布式技术进行适配,实现应用层可以适配多家厂商的分布式技术。云支撑服务层:基于云基础设施,为应用层提供通用的技术支撑服务,包括分布式服务、分布式缓存、分布式数据访问、分布式日志服务、非

9、结构化存储和消息队列等。云基础设施层:采用云架构,在物理设备基础上,实现计算资源、存储资源、网络资源的动态管理和资源调配。05 医保行业容灾演练技术白皮书医保行业容灾演练技术白皮书3.2 省级数据中心建设框架逐步建立省级双数据中心,并行运行,互为容灾,进行生产维护、日常操作等工作。两个数据中心(数据中心A、数据中心B)网络系统的总体设计保持一致。根据国家网络安全等级保护三级要求,结合医疗保障业务的实际情况,将数据中心进行网络区域划分。数据中心的总体安全域分为基于双链路的核心业务区、基于互联网应用的公共服务区以及核心业务区与公共服务区之间的安全隔离区。灾备系统建设:双数据中心须实现数据层和业务应

10、用层容灾的自动切换。双数据中心都应具备对称的基础设施和网络接入接出,保障数据管理层面、应用程序层面、访问通道层面都能够平滑切换。数据备份方案要做到双数据中心的数据库本地备份,各地须制定数据备份和灾难恢复方案。计算和存储资源:计算和存储资源由各省根据本地医疗保障信息平台设计规划和实际业务进行配置建设,对计算和存储资源性能指标的估算,必须满足未来3至5年的业务发展和管理医保行业容灾演练技术白皮书 06需求,实现高可靠性、高扩展性、高兼容性、易管理维护性等需求。省级网络建设:医疗保障核心业务区为非涉密网络,通过内外网数据交换区与医疗保障公共服务网进行连接。省级、市级医疗保障核心业务区网络,纵向连接上

11、下级医疗保障部门核心业务网,横向通过专线方式连接同级资源共享部门及外部关联单位。网络安全建设:各地按照等保三级安全要求,结合医疗保障业务实际建设医疗保障信息平台,着重加强防病毒、网络态势感知、终端接入管理、身份认证密码等网络安全体系建设,保障医疗保障信息平台安全可靠运行。3.3 应用容灾解决方案框架阿里云提供的医保云平台建设模式整体上采用公共服务区+核心业务区2朵云,双机房+4AZ的同城容灾架构。07 医保行业容灾演练技术白皮书医保行业容灾演练技术白皮书A数据中心是主机房,B数据中心是同城备机房;医保专有云有两个云平台,包括公共服务区专有云和核心业务区专有云,每朵云都是跨AB数据中心部署。公共

12、服务区对接互联网,核心业务区对接医保专网、电子政务外网、其他第三方接入。其中,第三方接入一般对接银行、税务。公共服务出口区最外侧是GSLB设备,具有域名解析功能,可以通过域名解析控制互联网流量到A数据中心或者B数据中心。公共服务区互联网业务经过ISW进入云内。核心服务区电子政务外网业务经过ISW进入云内;医保专网业务经过CSW进入云内;第三方接入是经过CSW进入云内。A/B数据中心提供CA以及安全管理区。网闸用来控制公共区与核心区之间的互访,通过网闸地址+端口做映射;A数据中心网闸地址和B数据中心网闸地址一般是不同的(不同的省份网闸功能定位可能会有所区别)。3.4 云平台建设保障与运维要求由于

13、医疗保障业务的重要性和复杂性,原则上建议地方自建数据中心。医保云计算平台的建设和使用过程中应制定保障机制,明确总体目标、范围、工作原则和制度要求。医保云计算平台的数据中有个人隐私、支付交易类等具有高度敏感性质的专有数据,因此各级医保云计算平台应建立专业的组织机构保障,组建专有的建设及运维保障团队,并设定相关岗位。医保云基础设施层和支撑服务层总体非功能性要求:a)应保证云基础设施层和云支撑服务层7*24小时的连续性;b)应保证云基础设施层和云支撑服务层可用性;c)应保证云基础设施层和云支撑服务层存储数据的可靠性。保障机制具体要求:医保行业容灾演练技术白皮书 08a)应制定由医保云计算平台管理制度

14、、资源分配管理规范、运维管理手册、应急处理预案等组成的全面的管理制度体系;b)应定期对制度体系进行论证和评审,对存在不足或需要改进的制度进行修订。保障团队具体要求:a)应明确各项目建设和运维团队和岗位职责;b)应对各类项目参与人员应进行安全意识教育和岗位技能培训;c)应加强各类项目参与人员和团队之间的沟通和协作。保障措施具体要求:a)应提供技术保障措施,包括:1)服务台及管理工具;2)资源管理工具;3)技术服务管理工具;4)运维服务管理工具;b)应提供辅助管理保障措施,包括:1)知识库管理;2)备品备件服务;3)灾备管理服务;c)应提供应急响应保障措施,包含应急预案、监测与预警、应急处置、评估

15、与改进等。09 医保行业容灾演练技术白皮书医保行业容灾演练技术白皮书第四章 医保云容灾演练方案4.1 容灾演练调研4.1.1 调研及改造目标医保容灾系统旨在构建基于同城双机房的容灾能力,以确保主机房在发生灾难时,能够快速的进行容灾切换,保证业务连续性。为了有效保障容灾平台及方案达到预期目标,通过梳理系统架构发现潜在风险点,分别对云产品、业务应用及网络给出优化改造建议,最终做到面对数据中心级别的故障时能够具备准确识别、快速切换的能力。4.1.2 云产品调研及改造要求REDIS 4.0集群版专有云支持4种Redis规格,2.8主从版、2.8集群版、4.0主从版及4.0企业版。其中,Redis 4.

16、0集群版不具备容灾能力,该规格的实例发生容灾切换后,不能继续提供服务。在确认无兼容性前提下,建议将4.0集群版的实例替换为其他规格,如:4.0主从版。对于新建实例,则直接采用Redis 4.0主从版;对于现有4.0集群版实例可替换为其他规格,如:4.0主从版。在ASCM控制台选中实例进行变配即可完成规格的替换,变配后实例的域名不变。变配会有业务影响,建议在业务低峰期时实施:注:需先在测试环境下对目标版本(如:4.0主从版)进行功能及性能测试,确认无兼容性问题后再进行变配。产品问题解决方案医保行业容灾演练技术白皮书 10OSS(云外直接访问OSS)云外直接访问OSS。OSS在容灾切换后,OSS域

17、名保持不变,但其对应的VIP发生变化,因此云外直接访问OSS时需要调整访问地址。建议统一使用域名访问云产品ADB不支持容灾,需要评估ADB数据是否为业务强依赖数据。云产品ADB目前不支持容灾,且在备机房也没有部署云产品ADB。此次容灾演练不涉及该产品。DRDS查看DRDS是否为单机房实例,即实例的server节点均在一个机房内,未分布在双机房。当单机房出现故障时,由于对端机房没有server节点,会导致部分DRDS无法工作。需要变更DRDS实例配置,使得实例的server节点分布在两个机房。CSB主备机房都要部署CSB broker,建议在备机房部署同样数量的broker,保证备机房的brok

18、er容量能够承载全部业务。并且将备机房broker挂载到CSB的SLB下,连同主机房broker一起提供服务。在主备机房各创建若干个ECS,每个ECS均部署CSB broker,需保证任一单机房的broker容量能够承载全部业务。将全部双机房broker挂载到CSB的SLB下,即主备机房所有broker一起提供服务。RDS只读实例RDS只读实例主要用于实现读能力的扩展。在专有云里,RDS只读实例只存在于主机房,如果主机房出现异常不可用,则只读实例也将不可用。若应用分别配置并使用RDS主实例和只读实例,则需要变更应用访问配置将读请求转发到主实例;若应用使用数据库代理(原读写分离),则应用无需修改

19、。数据库代理提供一个代理地址,应用访问该地址即可自动实现写请求转发到主实例,读请求转发到只读实例。11 医保行业容灾演练技术白皮书医保行业容灾演练技术白皮书4.1.3 应用侧调研及改造要求EIP通常采用EIP方式实现ISW侧对外访问,EIP绑定范围是ECS或Vswitch,二者都只能在单机房存在,不能跨机房。因此为了应对机房级故障,需要在每个机房都配置EIP。在主备机房需要配置对等的EIP。其他连接池1、hinka2、dbcp3、hikaricp4、odbc确认连接池具备重连重试的能力在应用系统使用数据库连接池访问数据库的情形下,需要确保数据库连接池组件具备重连重试的能力,以解决数据库切换、重

20、启等场景下,访问RDS异常问题;如果使用其他类型数据库连接池(dbcp/odbc/hika/hikaricp),也需确认其具备重试重连能力;Druid应用必须具备数据库连接的重连重试能力,以解决数据库切换、重启等场景下,访问RDS异常问题。通常应用使用连接池访问数据库。建议将Druid版本替换为最新的1.2.6。V1.2.6主要修复问题:1.连接池在close后创建中的连接没有被关闭的问题;2.修复连接池在MySQL服务器主动连接断开时keepAlive机制失效的问题(1.1.24、1.2.5);在应用系统使用数据库连接池访问数据库的情形下,需要确保数据库连接池组件具备重连重试的能力,以解决数

21、据库切换、重启等场景下,访问RDS异常问题。如果数据库连接池为Druid,建议将Druid版本替换为最新的1.2.6;双机房对等部署在双机房容灾场景下,要求应用做到跨机房的冗余部署,保证每个模块、接口或微服务对应的资源在双机房都要对等部署,保证任一个机房内的应用均可独立承载全量读写流量。应用在A、B双中心部署,如对于ECS实例,按照A:B中心实例数量1:0.6的比例进行部署问题问题描述解决方案医保行业容灾演练技术白皮书 12自建组件部分ISV自建Redis、ES、NG、MYSQL等,存在单中心部署,无数据同步及服务切换能力ES属于非云产品,需要应用开发商设计容灾方案。有2个参考方案:1、主备机

22、房各自部署ES集群,采用数据双写或集群间同步机制实现ES的数据复制;2、主备机房部署一个ES集群,利用集群内部机制实现数据复制;其他自建组件例如Nginx/Tomcat,类似处理。对于自建mysql等情况,建议使用云产品RDS替代,云产品RDS具备容灾能力,且降低运维管理工作量。其他自建组件例如Redis/MQ,建议类似处理,使用对应的且具备容灾能力的云产品替代。基于IP访问基于IP访问云产品,部分产品如OSS,在容灾切换后,域名不变,IP地址会变建议在ECS外侧增加SLB负载均衡,改进后的架构具备应用容灾能力。/etc/hosts绑定ECS不具备容灾能力,确认该服务是否有容灾需求。无非SLB

23、对外服务1、需要所有ECS具有相同的配置项;2、在变更时也要关注,提升了运维复杂度。建议在ECS外侧增加SLB负载均衡,改进后的架构具备应用容灾能力。数据本地存储部分ISV应用数据持久化在本地,需要评估是否可将数据保存在OSS,RDS中。针对数据持久化存储在ECS本地情形,建议结构化数据保存到RDS,非结构化数据保存到OSS,借助云产品的能力实现容灾。定时任务在双机房环境下,当容灾切换后,需尽量关闭原机房的定时任务和相应进程。若原机房定时任务依然工作,可能会写入生产数据,导致主备机房数据不一致。当容灾切换后,需关闭原机房的定时任务和相应进程。13 医保行业容灾演练技术白皮书医保行业容灾演练技术

24、白皮书4.2 容灾演练改造平台侧由TAM团队执行precheck项目检查摸底巡检等,对不符合容灾条件的现有问题或缺陷进行修复。含云产品DNS、RDS/Redis、SLB、OSS、EDAS,云平台底座Tianji,以及机房服务器带内带外网络状态等,输出问题整理及变更。4.2.1 云平台侧容灾改造杜康不可切换实例杜康上有部分redis实例缺少到备机房的SLB链路信息,导致目前主备机房场景下容灾切换状态为不可切换在dbaas数据库中修改信息,添加实例到备机房的SLB链路信息,使实例状态为可切换转态。修复过程会对实例重新挂载slb链路,用户的长连接会断开,需要用户的业务代码重新建立连接,对用户有感知。

25、需提前沟通客户确认时间,完成后及时通知客户重连验证。OSS产品调整oss_syncWorker_NewMsgMaxReplicateTaskCount参数医保局容灾环境,需要同步的OSS 数据较多,OSS容灾集群带宽速率正常,QPS过高,无法满足主备集群间数据同步需求需要调整oss_syncWorker_NewMsgMaxReplicateTaskCount参数增加拉取数据的任务数(从30增加为64),加快数据同步。rds 关闭可用区域对其功能rds会自动在凌晨将主备可用区做数据对齐,若不关闭在凌晨做容灾切换时则会影响可用区对齐rds关闭可用区域对其功能问题问题描述解决方案医保行业容灾演练技术

26、白皮书 14云外直接访问公共区OSSEIP场景 1、外部访问方式调整,建议通过域名进行访问;2、云外GSLB设备控制流量发给A机房的FW或者B机房FW;FW做地址映射到SLB+EIP;3、两台Nginx负载均衡,将全部流量转发至OSS域名,OSS发生容灾切换域名不变;1.外网访问云上ECS,ECS需要负载均衡的,ECS前端申请SLB,SLB绑定EIP;2.外网单向访问ECS,或者ECS单向访问外网,通过Nat网关,做dnat或者snat,绑定EIP;3.外网和云上ECS互访,直接ECS前端挂载EIP ;DRDS原DRDS仅部署在A中心,不满足容灾需求DRDS变配切换为双可用区,即A+B模式提供

27、主备功能Redis4.0集群版改造Redis4.0集群版不满足容灾需求,需变配变更为主从版变配为redis4.0 主从版OSS容灾同步功能在容灾场景下,主备机房容灾切换后,实例数据存放调用备机房OSS,需要开启该功能,实现主备机房OSS数据同步开启容灾同步功能15 医保行业容灾演练技术白皮书医保行业容灾演练技术白皮书4.2.2 平台侧网络改造医保业务平台架构按照功能将平台划分为核心区与公共区:公共服务区面向公众提供互联网服务,核心服务区面向医保专网和电子政务外网提供服务,两区之间通过安全隔离区隔离。所谓安全隔离区指的是拓扑中的网闸设备,在两个主备AB机房的核心区与公共区之间作为安全桥梁连接。医

28、保云平台容灾建设的网络规划中核心逻辑是主备,即云外云内进出流量均优先流经主机房。链路异常后,云内边界设备与云外设备均保持同步切换流量流经备机房,云外依赖GSLB,云内调整优先级优先A机房中断后从DCI专线从B机房出口。整体网络拓扑如下,下面根据不同业务流向解析强主备的实现逻辑。4.2.2.1 IDC与VPC并网客户侧双机房(主备)SLB私网实例:1)对于VPC同一个业务,客户在VPC内slb同时申请挂载主备机房的ECS;2)VPC内VIP有机房属性,创建机房A属性的VIP;部署条件:医保行业容灾演练技术白皮书 161)云机房A的CSW配置用户侧idc机房的路由为A机房出口,云机房B的CSW配置

29、用户侧的IDC路由为B机房出口,2)VPC内vroute上配置去往客户侧的idc路由,主用为A机房的VBR,被用为B机房的VBR。医保平台由于AB机房网闸地址不相同,并网时只并A网闸路由、待切换时后将B网闸路由在vrouter上添加配置。3)客户内网接入去VPC网段均以A机房为主,B机房为备。去往VIP的路由A机房为主,B机房为备。正常情况下所有的出口流量均流经A机房,在主机房A出口故障后才会至备机方B出口。A出口故障后,内网接入区idc客户侧先从互联链路走到B机房入口,流经B机房csw后走横连DCI到达主机房XGW。机房内的SLB将流量转发至本机房和对端机房的ecs。云内出口方向由XGW1v

30、pc健康检查检测到A机房csw出口链路中断,此时权重0的B机房csw出口的路由将生效,即能寻路到B机房csw出口后去往云外客户idc侧。4.2.2.2 IDC与经典网并网客户侧双机房(主备)SLB私网实例:17 医保行业容灾演练技术白皮书医保行业容灾演练技术白皮书部署条件:医保A机房和B机房分别对接客户FW,两个机房的经典网均与客户侧的两个机房网络进行并网。客户侧路由配置:客户侧AB机房针对云平台所有的网段,均以A机房作为主用,以B机房作为备用。专有云侧路由配置:1)机房A的CSW配置去往客户侧的静态路由,且修改路由优先级为10,优于bgp;2)机房B的CSW配置去往客户的的静态路由,采用采用

31、前缀列表+策略路由(增加as-path);在重分布静态路由至云内BGP环境中调用,确保流量优先选择主机房CSW出访。4.2.2.3 VPC与网闸并网改造在跨区通信中,云内核心区与公共区均需要有去往客户侧网络设备的路由。又两个机房网闸区使用的地址网段不相同,云内建设前期VPC仅有A-网闸路由,故而在容灾切换网络前在VPC上添加B-网闸的路由。4.2.2.4 OSS网络改造1)跨网闸访问使用现状:公共区访问核心区OSS,开发商将OSS的A中心VIP做了网闸映射进行访问,进行容灾切换到B中心时VIP会变,访问会不可用。改造:搭建slb+ecs+nginx架构,使用nginx转发到OSS域名,切换时O

32、SS域名不变,会自动解析到B中心VIP。医保行业容灾演练技术白皮书 182)从互联网访问使用现状:开发商把A中心OSS-VIP1映射到互联网进行访问,容灾切换后,需使用B中心VIP访问。改造:云外GSLB设备控制流量发给A机房的FW或者B机房FW;FW做地址映射到slb+ecs+nginx,两台Nginx负载均衡,将全部流量转发至OSS域名,OSS发生容灾切换域名不变,解析IP会变为B中心的。19 医保行业容灾演练技术白皮书医保行业容灾演练技术白皮书4.2.3 应用侧网络改造4.2.3.1 ECS访问互联网/政务外网ECS访问互联网/政务网API场景1)容灾场景,需同时申请AB中心ECS和EI

33、P,分别绑定,且在A、B中心的出口开通安全策略访问互联网。2)也可以使用NAT产品,NAT产品同时绑定有AB中心的EIP,对有需要的ECS开通SNAT。4.2.3.2 从互联网/政务外网/医保专网访问云内业务1)互联网/政务外网访问云上ECS,ECS需要负载均衡的,ECS前端申请SLB,SLB绑定EIP。2)医保专网访问云上ECS,ECS需要负载均衡的,ECS前端申请SLB。医保行业容灾演练技术白皮书 204.2.4 云外网络改造4.2.4.1 出口GSLB改造部署条件:云机房A的ISW配置默认路由为A机房出口并修改这条静态路由优先级为10优于BGP,云机房B的ISW配置默认路由为B机房出口(

34、优先级60),同时isw通过DCI专线建立了ebgp邻居,由于bgp引入了默认路由传递给B学习到的优先级为20大于60,所以B机房出口以A机房为主。正常情况下云内AB机房均以A机房作为互联网出口流向,只有当A机房端口失效后才会从B机房的接口出去。云外互联网通过GSLB解析域名均指向线路A,移动运行商承建;当检测云内链路中断后可切换域名解析到B线路,联通运营商承建。正常情况下所有云内云外互联网侧流量均以A机房进出。21 医保行业容灾演练技术白皮书医保行业容灾演练技术白皮书4.2.4.2 云外网闸配置改造正常情况下,核心区与公共区之间的互访业务均通过主机房的csw去往客户侧网闸,在网闸上实现ip+

35、port的映射转换,从而实现两区通信。当主机房侧出口链路故障,无论是核心区还是公共区亦或者两者出口都中断,此时两区互访业务均流经B机房csw出口至B机房客户侧网闸实现通信。此处要求主备机房云外的网闸均需要具备阿里云内的服务地址(VPC)的路由,即保持端口+ip配置的同步。4.2.4.3 80及443端口备案公共区业务流量切换到B中心后,云外GSLB会调整域名解析到B中心公网地址,对使用80及443等端口对外提供服务的业务,需要提前进行备案。4.2.4.4 云外IDC出口防火墙配置主备中心机房云内边界设备均对接客户侧防火墙后出口,此处需保持主备机房云外防火墙侧开通的策略及放行地址+端口保持一致。

36、由云外工程师在容灾演练操作前完成。4.2.4.5 云外IDC出口路由交换设备链路改造主备中心机房云外设备均具备阿里云对外提供服务地址路由(含VPC与经典网网段),即需要主备机房云外IDC至GSLB出口的设备均添加了到云内地址的路由。大部分医保平台前期只在主机房A添加,此次容灾切换网络前需要在B机房云外路由交换设备上添加云内路由,由云外工程师完成。医保行业容灾演练技术白皮书 224.3 容灾演练场景4.3.1 容灾演练前置准备4.3.2 容灾演练场景规划数据层容灾演练场景-公共区(RDS/Redis的RTO与实例数量有关)说明前置条件应用层容灾演练数据层容灾演练检查云平台/云产品容灾满足度,保障

37、其以正常状态运行(责任方:阿里云)检查云平台/云产品容灾满足度,保障其以正常状态运行(责任方:阿里云)公共区与核心区之间2组网闸部署完成,且可分别实现AB机房的双向互访(责任方:网闸、其他厂商)AB机房中业务系统形成容灾架构,完成内外部系统的集成及验证(责任方:厂商)连接池、ES自建组件、OSS访问等(责任方:厂商)CSB双活部署等(责任方:阿里云)Redis 4.0集群版、DRDS双可用区(责任方:阿里云)检查云平台/云产品的容灾满足度,保障其以正常状态运行(责任方:阿里云)检查云平台/云产品的容灾满足度,保障其以正常状态运行(责任方:阿里云)云平台完成正式交付(责任方:阿里云)核心区云平台

38、容灾巡检(1-2天)公共区云平台容灾巡检(1-2天)A、B双机房网闸部署完成,公共区A、B机房均可访问核心区A、B双机房业务部署完成,保证各单机房业务可用应用容灾改造云产品容灾改造核心区云平台容灾巡检(3天)公共区云平台容灾巡检(3天)云平台转维目标涉及业务业务影响MQ主备切换公共区子系统MQ保证数据强一致,切换过程中无法处理消息RPO=0,RTO3min演练时长:2小时RDS/Redis主备切换公共区子系统访问RDS/Redis出现秒级(5s)连接中断,应用重连可恢复RPO=0,RTO1min演练时长:2小时OSS主备切换公共区子系统访问OSS的连接出现秒级中断,重新连接可恢复RPO=0,R

39、TO5min演练时长:2小时场景 23 医保行业容灾演练技术白皮书医保行业容灾演练技术白皮书应用层容灾演练场景-公共区涉及业务业务影响模拟主A机房云平台服务整体不可用+B机房承载业务核心区子系统公共区子系统公共区:SLB/RDS/Redis/OSS/EDAS/MQ/LOG/ARMS云产品整体切换至B机房核心区:SLB/RDS/Redis/OSS/EDAS/MQ/LOG/ARMS云产品整体切换至B机房影响:参考单云产品切换影响RPO=0,RTO30min场景应用层容灾演练场景-公共区数据层容灾演练场景-核心区(RDS/Redis的RTO与实例数量有关)涉及业务业务影响MQ主备切换核心区子系统MQ

40、保证数据强一致,切换过程中无法处理消息RPO=0,RTO3min演练时长:2小时RDS/Redis主备切换核心区子系统访问RDS/Redis出现秒级(5s)连接中断,应用重连可恢复RPO=0,RTO1min演练时长:2小时OSS主备切换核心区子系统访问OSS的连接出现秒级中断,重新连接可恢复RPO=0,RTO5min演练时长:2小时场景涉及业务业务影响云平台底座主备切换云平台管控受影响含天基、DNS、miniRDS、middleware等切换时底座部分管控功能受影响RPO=0,RTO10min演练时长:2小时其他云产品主备切换核心区子系统SLB:已有连接秒级中断,应用重连可恢复EDAS:无法发

41、布或管理应用,现存应用运行无影响LOG:访问出现秒级中断,重连可恢复ARMS:访问出现秒级中断,重连可恢复RPO=0,RTO5min演练时长:4小时场景医保行业容灾演练技术白皮书 24应用层容灾演练场景2-公共区+核心区涉及业务业务影响A机房核心区云平台故障核心区子系统(公共区子系统配合验证)A机房核心区云平台异常时,将核心区核心云产品(SLB/RDS/Redis/OSS/EDAS/MQ/LOG/ARMS)切换至B机房,利用B机房承载业务。模拟方式:A机房核心区CSW/ISW入口断网影响如下:公共区到核心区的连接中断,切换后,公共区到核心区流量走B机房网闸RPO=0,RTO30min演练时长:

42、18小时场景应用层容灾演练场景2-公共区+核心区涉及业务业务影响A机房公共区云平台故障公共区子系统(核心区子系统配合验证)A机房公共区云平台异常时,将公共区核心云产品(SLB/RDS/Redis/OSS/EDAS/MQ/LOG/ARMS)切换至B机房,利用B机房承载业务。模拟方式:A机房公共区ISW/CSW入口断网影响如下:云外互联网到主机房公共区连接中断,需要云外切换入口到B机房公共区入口RPO=0,RTO30min演练时长:18小时场景25 医保行业容灾演练技术白皮书医保行业容灾演练技术白皮书备注:第三方机构需要同时部署到B机房的专线,否则切换期间部分业务可能受损。4.4 容灾演练方案4.

43、4.1 公共区数据层演练RDS/Redis容灾切换演练准备登录RDS控制台:创建测试RDS实例,如:testRds1。创建测试数据库,如:testDb1。创建测试表,如:testtb1(id int,memo varchar(100))。插入测试数据,如:insert into testtb1 values(1,switchover)。登录Redis控制台:创建测试Redis实例,如:testRedis1。Key赋值,如:set test switchover切换时长(单次)5min业务影响应用访问RDS/REDIS实例出现秒级(5s)连接中断,应用重连重试可恢复。切换方案通过ASR一键切换。

44、注:ASR中数据库主备切换支持多种引擎,如:RDS for MySQL、Redis等。要点说明演练目标正常状态下,RDS/REDIS实例的主节点在A机房提供服务。当出现异常或单机房发生故障时,需要将RDS/REDIS实例的主节点切换至B机房以继续提供服务。切换后,RDS/REDIS实例的主节点在B机房。演练对象:整体RDS/REDIS平台,含所有RDS及Redis实例。医保行业容灾演练技术白皮书 26MQ容灾切换要点说明演练准备登录MQ控制台:创建测试Topic,如:testTopic1。控制台发送消息,如:“switchover”。切换时长(单次)分钟级,10min 业务影响MQ保证数据强一

45、致,数据不会丢失,以Broker维度进行切换,切换过程中无法消费消息。切换方案通过ASR一键切换。演练目标正常状态下,MQ(核心组件为Broker)在A机房提供服务。当出现异常或单机房发生故障时,需要将MQ切换至B机房以继续提供服务。切换后,B机房的Broker被置为主提供服务。OSS容灾切换要点说明演练准备登录OSS控制台:创建测试Bucket,如:testBucket1。上传一个文件file1。切换时长(单次)1min业务影响访问OSS的连接出现秒级中断,重新连接可恢复。切换方案通过ASR一键切换。切换过程服务不停,无需等待数据同步完成,OSS域名重新绑定到备机房OSS集群的VIP。演练目

46、标正常状态下,云产品OSS在A机房提供服务。当出现异常或单机房发生故障时,需要将OSS切换至B机房以继续提供服务。切换后,由B机房的OSS集群提供服务。演练对象:整体OSS,含所有的Bucket。27 医保行业容灾演练技术白皮书医保行业容灾演练技术白皮书云平台底座容灾切换4.4.2 公共区应用层演练SLB/EDAS/LOG/ARMS容灾切换要点说明切换时长(单次)10min业务影响含天基、DNS、miniRDS、middleware等,切换时底座部分管控功能受影响。切换方案通过ASR一键切换。演练目标云平台底座正常状态下,由A机房提供服务。当出现异常时,需将其切换至B机房以继续提供服务。要点说

47、明业务影响SLB:已有连接秒级中断,应用重连可恢复。EDAS:无法发布或管理应用,现存应用运行无影响LOG:访问出现秒级中断,重连可恢复。ARMS:访问出现秒级中断,重连可恢复。切换时长(单次)5min切换方案通过ASR一键切换。演练目标正常状态下,A机房的SLB实例在A机房提供服务。当出现异常时,需将其切换至B机房以继续提供服务。切换后,访问SLB流量进入B机房,由B机房的SLB集群提供服务。EDAS集群在双机房部署,依赖跨AZ的组件集群提供服务。当出现异常或发生机房故障时,需要切换至B机房以继续提供服务。正常状态下,LOG在A机房提供服务。当出现异常时,需要将LOG切换至B机房以继续提供服

48、务。切换后,由B机房的LOG集群提供服务。正常状态下,ARMS在A机房提供服务。当出现异常时,需要将ARMS切换至B机房以继续提供服务。切换后,由B机房的ARMS集群提供服务。医保行业容灾演练技术白皮书 28OSS容灾切换演练准备登录OSS控制台:创建测试Bucket,如:testBucket1。上传一个文件file1。切换时长(单次)1min业务影响访问OSS的连接出现秒级中断,重新连接可恢复。切换方案通过ASR一键切换。切换过程服务不停,无需等待数据同步完成,OSS域名重新绑定到备机房OSS集群的VIP。演练目标正常状态下,云产品OSS在A机房提供服务。当出现异常或单机房发生故障时,需要将

49、OSS切换至B机房以继续提供服务。切换后,由B机房的OSS集群提供服务。演练对象:整体OSS,含所有的Bucket。要点说明29 医保行业容灾演练技术白皮书医保行业容灾演练技术白皮书4.4.3 核心区数据层演练RDS/Redis容灾切换演练准备登录RDS控制台:创建测试RDS实例,如:testRds1。创建测试数据库,如:testDb1。创建测试表,如:testtb1(id int,memo varchar(100))。插入测试数据,如:insert into testtb1 values(1,switchover)。登录Redis控制台:创建测试Redis实例,如:testRedis1。Ke

50、y赋值,如:set test switchover切换时长(单次)5min业务影响应用访问RDS/REDIS实例出现秒级(5s)连接中断,应用重连重试可恢复。要点说明切换方案通过ASR一键切换。注:ASR中数据库主备切换支持多种引擎,如:RDS for MySQL、Redis等。演练目标正常状态下,RDS/REDIS实例的主节点在A机房提供服务。当出现异常或单机房发生故障时,需要将RDS/REDIS实例的主节点切换至B机房以继续提供服务。切换后,RDS/REDIS实例的主节点在B机房。演练对象:整体RDS/REDIS平台,含所有RDS及Redis实例。4.4.4 核心区应用层演练SLB/EDA

51、S/LOG/ARMS容灾切换MQ容灾切换业务影响MQ保证数据强一致,数据不会丢失,以Broker维度进行切换,切换过程中无法消费消息。切换方案通过ASR一键切换。演练目标正常状态下,MQ(核心组件为Broker)在A机房提供服务。当出现异常或单机房发生故障时,需要将MQ切换至B机房以继续提供服务。切换后,B机房的Broker被置为主提供服务。要点说明演练准备登录MQ控制台:创建测试Topic,如:testTopic1。控制台发送消息,如:“switchover”。切换时长(单次)分钟级,10min 切换时长(单次)5min业务影响SLB:已有连接秒级中断,应用重连可恢复。EDAS:无法发布或管

52、理应用,现存应用运行无影响LOG:访问出现秒级中断,重连可恢复。ARMS:访问出现秒级中断,重连可恢复。切换方案通过ASR一键切换。演练目标正常状态下,A机房的SLB实例在A机房提供服务。当出现异常时,需将其切换至B机房以继续提供服务。切换后,访问SLB流量进入B机房,由B机房的SLB集群提供服务。EDAS集群在双机房部署,依赖跨AZ的组件集群提供服务。当出现异常或发生机房故障时,需要切换至B机房以继续提供服务。正常状态下,LOG在A机房提供服务。当出现异常时,需要将LOG切换至B机房以继续提供服务。切换后,由B机房的LOG集群提供服务。正常状态下,ARMS在A机房提供服务。当出现异常时,需要

53、将ARMS切换至B机房以继续提供服务。切换后,由B机房的ARMS集群提供服务。要点说明医保行业容灾演练技术白皮书 30云平台底座容灾切换4.4.5 A机房公共区&核心区云产品切换演练切换时长(单次)10min业务影响含天基、DNS、miniRDS、middleware等,切换时底座部分管控功能受影响。切换方案通过ASR一键切换。演练目标云平台底座正常状态下,由A机房提供服务。当出现异常时,需将其切换至B机房以继续提供服务。要点说明切换时长(单次)60min 演练时间窗口:12hour业务影响参考单云产品切换影响。RPO=0,RTO30min切换方案通过ASR一键切换。公共区切换产品包括:RDS

54、/REDIS/OSS/MQ/SLB/EDAS/LOG/ARMS核心区切换产品包括:RDS/REDIS/OSS/MQ/SLB/EDAS/LOG/ARMS演练目标A机房公共区/核心区云平台正常状态下,主要由A机房的云产品提供主服务。当出现异常时,需将其切换至B机房以继续提供服务。要点说明31 医保行业容灾演练技术白皮书医保行业容灾演练技术白皮书4.4.6 A机房公共区云平台故障演练(入口断网)切换时长(单次)180min,演练时间窗口:18 hour业务影响公共区入口从A机房切换到B机房公共区与核心区之间的互访经由A机房网闸切换为B机房网闸RPO=0,RTO A机房公共区2.A机房公共区入口(互联

55、网)-A机房网闸-A机房核心区 3.A机房核心区入口(政务外网、医保专网、第三方接入)-A机房核心区4.A机房核心区入口(政务外网、医保专网、第三方接入)-A机房网闸-A机房公共区切换后流量路径:1.B机房公共区入口(互联网)-B机房公共区2.B机房公共区入口(互联网)-B机房网闸-B机房核心区-A机房核心区3.A机房核心区入口(政务外网、医保专网、第三方接入)-A机房核心区4.A机房核心区入口(政务外网、医保专网、第三方接入)-B机房核心区-B机房网闸-B机房公共区要点说明前置工作:1、B机房公共区/核心区应用提前配置好到网闸B的访问,提前完成访问链路验证;2、开发商提前完成自建组建的切换验

56、证工作。4.4.7 A机房核心区云平台故障演练(入口断网)医保行业容灾演练技术白皮书 32前置工作:1、B机房公共区/核心区应用提前配置好到网闸B的访问,提前完成访问链路验证;2、开发商提前完成自建组件的切换验证工作。4.5 演练风险及应对措施针对演练的特点及医保灾备系统的现状,灾备项目组对演练的筹备及实施过程中切换时长(单次)180min,演练时间窗口:18hour业务影响核心区入口从A机房切换到B机房核心区与公共区之间的互访经由A机房网闸切换为B机房网闸RPO=0,RTO A机房公共区2.A机房公共区入口(互联网)-A机房网闸-A机房核心区 3.A机房核心区入口(政务外网、医保专网、第三方

57、接入)-A机房核心区4.A机房核心区入口(政务外网、医保专网、第三方接入)-A机房网闸-A机房公共区切换后流量路径:1.A机房公共区入口(互联网)-A机房公共区2.A机房公共区入口(互联网)-B机房公共区-B机房网闸-B机房核心区3.B机房核心区入口(政务外网、医保专网、第三方接入)-B机房核心区4.B机房核心区入口(政务外网、医保专网、第三方接入)-B机房网闸-B机房公共区-A机房公共区要点说明33 医保行业容灾演练技术白皮书医保行业容灾演练技术白皮书可能存在的问题及风险进行分析和梳理,并提出相应的风险应对措施,如下表所示:高2ASR云平台切换异常中1演练目标由于某些产品异常而导致的云平台整

58、体切换异常时,不能回滚,需要逐个修复切换异常产品。1、修复SR终态,重新触发切换。天基平台查看产品状态,SR不到终态的要先处理到终态。示例如下:2、单产品重新触发切换。切换失败时的影响举例:1)对RDS/REDIS,切换失败,客户端访问的还是主库,对业务没影响,尝试重切,正常可恢复;2)对OSS/OTS,主要是切换域名,只需保证DNS服务正常,切换失败,尝试重切,正常可恢复,若异常则检查DNS服务是否正常或者其它原因导致;3)对MQ切换失败,先尝试重切,正常情况下可恢复。极端情况下,MQ主机房broker异常,备机房broker仍处于备角色,则后台订正broker状态可恢复,期间 应用无法订阅

59、和发布消息。序号 潜在风险应对措施风险等级高3ServerRole(SR)未终态切换过程中,如有SR未达到终态,需要重启SR以达到终态。1、登录天基,找到没有到终态的SR。2、点击SR的DashBoard。3、重启SR。医保行业容灾演练技术白皮书 344天基同步异常机房级故障/演练恢复后,如果ASR显示天基同步有问题,需要重建天基同步。1、清理原来主机房(当前备机房)的数据。1)分别登录当前备机房的 ops1、ops2、ops3 三台机器。2)执行如下命令去掉 start 权限。chmod-x/cloud/app/tianji/TianjiMaster#/tianji_master/curre

60、nt/start3)半分钟后查看pkill tj_master_main 进程是否已启动。如果未启动,请继续执行如下步骤。4)删除tjmaster目录下所有文件。rm-rf/apsarapangu/tjmaster/*5)恢复 start 权限。chmod+x/cloud/app/tianji/TianjiMaster#/tianji_master/current/start查看tj_master_main 进程已经自动启动。2、检查数据清空后主备同步配置是否丢失。1)检查原主机房(当前备机房)三个tjmaster的/cloud/data/_global/tjmaster文件。2)如果没有对端

61、(当前主机房)的IP信息,需要复制对端的tjmaster内容追加到文件中。3)文件修改后执行kill命令关闭tj_proxy进程。3、检查tj_proxy是否可以访问。curl localhost:7070/api/v3/column/m.id如果访问不了可以关闭进程。4、检查/apsarapangu/tjmaster和/dev/shm/tjmasterchaser/是admin权限如果不是admin权限请执行类似如下命令修改为admin权限。chown admin:admin/dev/shm/tjmasterchaser/如果主机房的服务很多都未达终态,请执行kill命令关闭主机房的tj_p

62、roxy进程。高高5RDS同步异常RDS杜康系统上显示延迟:-1或者seconds_behind_master=-1或IO异常时,需要进行备库重搭。1、登录杜康,在菜单栏中单击系统管理,选择权限配置。在超级管理员一栏中单击分配权限,选择INSTANCE_OPERATOR_PERMISSION。2、在菜单栏中单击实例管理单击实例名称,进入实例详情,单击备库重搭。3、在掉电恢复场景中,请勾选是否强制主库备份。35 医保行业容灾演练技术白皮书医保行业容灾演练技术白皮书第五章 总结数据备份和系统容灾是保证信息系统平台长期有效运行的关键技术。“十三五”期间,医保行业以人工智能、大数据、区块链等新兴技术为支撑,推进建立全国统一、高效、兼容、便捷、安全的医疗保障信息系统,实现了数据两级集中和标准统一。面对“十四五”提出的加快医保信息化建设,健全标准化体系的重要任务,医保云在保障医疗数据安全、规范数据管理和应用,维护医疗保障信息平台安全运行方面任重道远。本书基于在系统容灾技术领域多年积累和探索,将技术方法和解决方案书写成册,帮助解决不同场景下的数据备份和容灾技术问题,为构建安全、可靠的业务系统提供有价值的技术参考。医保行业容灾演练技术白皮书 36

友情提示

1、下载报告失败解决办法
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。

本文(阿里云:医保行业容灾演练云上技术白皮书(40页).pdf)为本站 (securities) 主动上传,三个皮匠报告文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三个皮匠报告文库(点击联系客服),我们立即给予删除!

温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。
会员购买
客服

专属顾问

商务合作

机构入驻、侵权投诉、商务合作

服务号

三个皮匠报告官方公众号

回到顶部