上海品茶

您的当前位置:上海品茶 > 报告分类 > PDF报告下载

面向失败设计(32页)——高可用架构专场.pdf

编号:84359 PDF 32页 2.30MB 下载积分:VIP专享
下载报告请您先登录!

面向失败设计(32页)——高可用架构专场.pdf

1、面向失败设计张军(游骥)阿里云智能资深技术专家引言面向失败设计01Everything Fails,All the Time无论是在传统软件时代还是在互联网、云时代,系统终究会在某个时间点失败无所不在的失败场景硬件问题软件BUG配置变更错误系统恶化超预期流量外部攻击依赖库问题依赖服务问题02容灾面向失败设计容灾服务能力与依赖调用自我保护为一切不可预料的情况备好预案自动化运维精细化的监控体系故障与攻防演练锤炼容灾应急能力容灾通过冗余设计来规避局部失败对系统的影响容灾-航空是如何保障飞行安全的冗余设计冗余设计面向失败设计为了万分之一的紧急情况出现的可能,每年要进行多次的模拟机训练或者实景演练一架飞

2、机上都会配备至少两名飞行员,二者相互合作的同时相互监督每一个航段前,光是一个绕机检查,可能就有几十个项目需要检查绕机检查是由地面机务人员和飞行机组分别完成,同样也是为了更仔细的检查,降低错误率每架飞机还有短期全面检查和长期全面检查飞机上的每一个设备都是独立的双系统在工作气象雷达可以让飞行员感知到几十甚至几百海里范围内的天气情况飞机防撞系统可以让飞行导航显示仪上显示正在接近的可能存在威胁的飞机盲降系统是由地面发射的两束无线电信号实现航向道和下滑道指引,飞机通过机载接收设备,进行降落人机环境容灾的核心思想基于隔离的冗余容灾评价指标RPO(Recovery Point Objective)即数据恢复

3、点目标,以时间为单位,即在灾难发生时,系统和数据必须恢复的时间点要求。RTO(Recovery Time Objective)即恢复时间目标,以时间为单位,即在灾难发生后,信息系统或业务功能从停止到必须恢复的时间要求。RTO标志系统能够容忍的服务停止的最长时间。系统服务的紧迫性要求越高,RTO的值越小。分析阶段业务影响分析风险分析可恢复性评估设计阶段实施阶段面向业务面向技术容灾领域沉淀方法论灾难恢复预案设计容灾演练和维护容灾方案设计制定恢复策略按用户分流阿里巴巴容灾架构演进容灾发展历程交易单元化启动2013交易单元化走出杭州2014交易异地多活千里之外2015单元化配套一键建站2016全网容灾

4、体系搭建2017异地多活商业化20182012交易同城双活同城双活架构异地多活架构CDN按用户分流接入层应用中间件,缓存数据库IDC-1单元一接入层应用中间件,缓存数据库IDC-3单元三接入层应用中间件,缓存数据库IDC-2单元二数据同步同步调用异步消息强中心依赖Copy类型中心域名解析ADNSKeyCenter统一接入层APP 2DiamondNotifyHbaseMDB/LDBMetaQDB(主)VIPVipServerDiamond-clientAPP 1HSFHbaseRPC tair-clientIDC 1AsyncConfigServerTDDlAsyncKeyCenter统一接入

5、层APP 2DiamondNotifyHbaseMDB/LDBMetaQDB(备)VIPVipServerDiamond-clientAPP 1HSFTair-client HbaseRPCIDC 2AsyncConfigServerTDDlAsyncAsyncAsyncTDDLDRCJingweiIBack按用户分流同步调用异步消息容灾1.020002015now1980容灾2.0容灾3.0IT作为业务支撑系统容灾以数据为中心恢复以人工为主容灾系统做为备用系统IT作为业务使能容灾以业务为中心双活、AQ模式使得容灾系统支撑部分业务容灾及业务容灾以客户为中心智能流量分配多中心部署容灾系统即业务系

6、统冷备两地三中心异地多活同城双活基于隔离的冗余容灾发展历程服务能力与依赖调用自我保护03容灾服务能力与依赖调用自我保护为一切不可预料的情况备好预案自动化运维精细化的监控体系故障与攻防演练锤炼容灾应急能力CacheMessage3rdParty ApplicationDatabase服务内部业务链路入口服务与依赖客户端GatewayFirewallWeb ServersLoad BalancerServicesNetwork 链路入口流控 热点漏斗 按照服务水位流控 消峰填谷 匀速器 慢SQL发现熔断 慢方法熔断 热点探测 流量实时监控 水位诊断分析对应不同组件的防护和熔断典型场景流量控制 应对

7、洪峰流量:秒杀,大促,下单,订单回流处理 消息型场景:削峰填谷,冷热启动 付费系统:根据使用流量付费熔断降级 适用于任何结构复杂的应用。当系统内部或者外部出现不稳定因素,迅速降级不稳定因素,让应用保持稳定系统保护 根据RT动态调节入口流量热点防控 自动识别热点。应用于刷单(例如来自单个ip,单个用户,单个商品的请求)刷单流量刷单流量正常流量刷单流量正常流量正常流量正常流量为一切不可预料的情况备好预案04容灾服务能力与依赖调用自我保护为一切不可预料的情况备好预案自动化运维精细化的监控体系故障与攻防演练锤炼容灾应急能力会发生哪些失败?失败会带来什么问题?应对策略是什么?预期的恢复时间多久?恢复后的

8、影响面有多大?需要通知到哪些角色?流量调度流量调度回滚预案回滚预案线上线上监控监控故障预案故障预案资损预案资损预案巡检巡检硬件容灾硬件容灾开关预案开关预案弹性伸缩弹性伸缩问题报警问题报警数据对账数据对账灰度发布灰度发布回滚预案回滚预案分批发布分批发布预发布预发布发布发布上线前上线前依赖变化识别依赖变化识别容量评估容量评估冗余数据冗余数据跨地域方案跨地域方案双机预热双机预热去除单点去除单点主备双备主备双备限流预案限流预案设计阶段设计阶段切流预案切流预案切库预案切库预案隔离预案隔离预案降级预案降级预案业务预案业务预案强弱依赖强弱依赖应用拆分应用拆分熔断预案熔断预案为一切不可预料的情况备好预案预案生

9、命周期1.1.事前事前-预案制定及相关准备预案制定及相关准备对业务进行分析,来指定紧急事件处理及应对流程确定预案覆盖的紧急复杂程度以及影响范围识别关键措施以及人员变更历史维护追踪2.2.日常日常-沉淀以及仿真演练沉淀以及仿真演练建立并沉淀知识库(故障,事件)确常演练,校验方案可行性以及相关训练操作熟练性4.4.事后事后-统一汇表统一汇表开展事后分析,总结报告进一步改进预案3.事中事中-统一指挥,协同作战统一指挥,协同作战收集,共享紧急事件信息通知警告关键部门角色协同多个部门参与以及响应统一对外口径自动化运维面向失败设计05容灾服务能力与依赖调用自我保护为一切不可预料的情况备好预案自动化运维精细

10、化的监控体系故障与攻防演练锤炼容灾应急能力CRM 采用集成的脚本或web类工具来解决同一类问题。人肉时代Script数据驱动智能化:在场景自动化的基础上,结合严格定义的系统指标或业务指标(metrics),具备系统关键指标的实时采集、分析、计算能力,再基于特定的算法模型主动识别确定性问题并驱动问题的告警/预警、路由和解决执行。人肉时代System/platform场景自动化:基于自动化系统平台,能够结合当前系统上下文和外部环境并基于事先定义好的条件来做一系列的变更或分析需求。工具时代AutoTools平台/系统时代OpsSystem/platform发展历程核心组件监控数据采集异常自动识别Ro

11、ot Cause分析定位异常/变更处理安全机制精细化的监控体系面向失败设计06容灾服务能力与依赖调用自我保护为一切不可预料的情况备好预案自动化运维精细化的监控体系故障与攻防演练锤炼容灾应急能力故障检测通过监控,可以发现基础设施或者应用程序不符合预期为并出现故障容量规划通过分析短期和长期的趋势,量化业务和系统运行状态,寻找性能瓶颈性能分析通过分析短期和长期的趋势,量化业务和系统运行状态,寻找性能瓶颈监控的目的分层监控业务性能监控“出问题了吗?”往往埋点在关键的业务 服 务 接 口 的 出 入口,并将数据传送到后台按一定的维度做聚合呈现。应用性能监控“哪里出问题了?”它的覆盖的范围比较广,主要包括

12、应用核心 性 能 指 标,例 如QPS,RT,成功率/失败等黄金指标监控。容器性能监控在容器云架构下,应用程序将以容器的方式 运 行 应 用 程 序 镜像。在 容 器 云 架 构下,应用程序将以容器的方式运行应用程序镜像。除了基础的容器CPU,内存,还应包括CPU压制时间和次数。主机性能监控除了基础的CPU,内存,磁盘,网卡,网络联通性,端口联通性等指标外,还需要对关键主机进程的存活和资源消耗,主机资源(CPU/MEM/虚拟网卡/物理磁盘/云盘)的分配情况进程合理的监控.故障与攻防演练锤炼容灾应急能力07容灾服务能力与依赖调用自我保护为一切不可预料的情况备好预案自动化运维精细化的监控体系故障与

13、攻防演练锤炼容灾应急能力用户CRM 配置&执行故障注入DO执行CRM CRM 梳理强弱依赖设计CASE。PLAN计划CRM CRM 监控日志业务效果。OBSRVE观察CRM CRM 容灾是否有效监控是否有效业务结果是否正确。RECORD记录CRM CRM ANALYSIS分析故障与攻防演练锤炼容灾应急能力是否需要优化故障与攻防演练锤炼容灾应急能力预案有效性监控报警故障复现架构容灾测试故障突袭、联合演练半径越大,影响越大,暴露问题越丰富半径越小,影响越小,暴露问题越聚焦主机/容器IDC服务请求用户故障注入流量路由数据隔离容灾演练(奥创UItron)故障演练(MonkeyKing)灰度环境(Mic

14、roAB)流量回放,压测流量,测试流量总结容灾服务能力与依赖调用自我保护为一切不可预料的情况备好预案自动化运维精细化的监控体系故障与攻防演练锤炼容灾应急能力Thanks!高可用架构专场Session on High Availability ArchitectureSession on High Availability Architecture高可用架构专场Session on High Availability ArchitectureSession on High Availability Architecture高可用架构专场Session on High Availability ArchitectureSession on High Availability Architecture

友情提示

1、下载报告失败解决办法
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。

本文(面向失败设计(32页)——高可用架构专场.pdf)为本站 (云闲) 主动上传,三个皮匠报告文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三个皮匠报告文库(点击联系客服),我们立即给予删除!

温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。
会员购买
客服

专属顾问

商务合作

机构入驻、侵权投诉、商务合作

服务号

三个皮匠报告官方公众号

回到顶部