上海品茶

您的当前位置:上海品茶 > 报告分类 > PDF报告下载

A2--朱少华--趣丸科技多云架构下稳定性保障.pdf

编号:152044 PDF 37页 12.92MB 下载积分:VIP专享
下载报告请您先登录!

A2--朱少华--趣丸科技多云架构下稳定性保障.pdf

1、趣丸科技多云架构下稳定性保障朱少华朱少华目前主要负责趣丸业务稳定性相关工作(业务高可用和容灾建设、混沌工程实践、AIOps探索等),保障趣丸相关业务产品的稳定运行和利用混沌工程推动业务韧性建设。曾就职于西山居、人人网等公司,从事虚拟化、容器化和 Devops等平台开发工作。现任趣丸-技术保障部运维架构师嘉宾照片目录CONTENTS趣丸多云架构的引入01 多云架构的挑战与优势02 趣丸多云架构稳定性解决方案03 总结和展望04 01趣丸多云架构的引入趣丸多云架构发展趣丸多云架构的引入阶段1阶段22021年2023年阶段1.52024年-阶段3伪多活多云多活单元化多云架构阶段1接入层固定百分比流量

2、业务层实现多云部署数据层单边读、写业务层数据层A云B云50%读写读写50%伪多活阶段接入层问题业务层不具备流量调度和故障转移能力数据层单云部署,整体来看是个单点多云架构阶段2业务层实现多云多活,具备10S内故障转移能力数据层实现多云容灾,业务根据延迟需要就近读、单边写,故障场景自动切换数据源,具备秒级或分钟级RPO/RTO能力。业务层数据层A云B云X%(100-X)%双向同步读写写读failover读多云多活阶段接入层02多云架构的挑战与优势多云网络互联互通业务层流量调度基础设施异构数据层跨云容灾建设多云架构的挑战与优势避免供应商锁定:防止过度依赖于单一的云服务供应商提高稳定性:多云多活,保障

3、业务连续性取长补短:不同的云供应商可能在特定的领域或功能有特长03趣丸多云架构稳定性解决方案趣丸多云架构现状业务多云多活,数据层部分多活部分业务实现单边写,就近读IngressGatewayServiceAServiceBControl PlaneIngressGatewayServiceBServiceAControl Planefailoversync高防高防Cloud ACloud B趣丸云原生架构下多云稳定性保障多云互联01 业务多活02 线上质量保障03 多云互联双专线+VPN实现多云网络互联+多级链路冗余VPCVPCVPCVPCVPCVPCA云B云专线1专线2冷备VPCVPCVPC

4、VPCVPCVPCA云B云专线1专线2双专线冷备切换时间长(5分钟)专线资源利用率低双专线隧道(BGP-ECMP+BFD)实现10S内感知链路问题并收敛路由提高专线资源利用率多云互联双专线+VPN实现多云网络互联+多级链路冗余双专线+VPN热备(BGP-ECMP+BFD)在双专线中断时,VPN接管流量保障业务不中断多条VPN共担流量,保障带宽充裕VPCVPCVPCVPCVPCVPCA云VPN隧道B云双专线趣丸云原生架构下多云稳定性保障多云互联01 业务多活02 线上质量保障03 业务多活/南北向流量云A云B智能 DNS:全局流量控制,实现接入层多活HTTP DNS:绕过运营商 Local DN

5、S,防止域名劫持和区域封堵兜底:APP 自主检测切换入口多活业务多活/南北向流量云原生高防WAF云A云原生高防WAF云B云原生高防:接入简单、延迟低、防护性能灵活选择WAF:基于 Istio IngressGateway,接入简单、灵活定制攻击防御业务多活/东西向流量Istio 的多云流量管理单一网格的多主架构模式ServiceAServiceBControl PlaneServiceBControl PlaneServiceACluster:cloudACluster:cloudB每个集群一个控制面更强的可用性配置隔离多个集群一个网格 工作负载直接相互访问Network:network1Is

6、tio Mesh业务多活/东西向流量Istio 的多云流量管理流量管理策略:本地优先Cluster:cloudA Region1Cluster:cloudB Region2优先访问本Region,本Zone本Zone失效,优先访问本Region其他Zone本Region失效,访问其他Region的ZoneIstio MeshServiceBZone:zone1ServiceAZone:zone2ServiceBServiceBZone:zone312 loadBalancer:localityLbSetting:enabled:true failoverPriority:-topology.i

7、stio.io/network -topology.kubernetes.io/region -topology.kubernetes.io/zone3业务多活/东西向流量容器区域分布不均导致负载不均保持k8s集群节点数区域分布均衡spec:topologySpreadConstraints:-maxSkew:1 topologyKey:zone whenUnsatisfiable:DoNotSchedule labelSelector:app=account配置调度倾斜,保持 Pod 分布均衡localityLbSetting 设置到 Region 层级 loadBalancer:local

8、ityLbSetting:enabled:true failoverPriority:-topology.istio.io/network -topology.kubernetes.io/regionZone:zone1ServiceAZone:zone2Zone:zone1ServiceBZone:zone2业务多活/东西向流量故障转移ServiceAServiceBConnect failedhttp 5xx故障转移策略在应用层面降低故障的影响故障转移策略越接近应用优先级越高svc namespacecluster trafficPolicy:connectionPool:tcp:conn

9、ectTimeout:200ms outlierDetection:baseEjectionTime:60s consecutiveGatewayErrors:10 consecutiveLocalOriginFailures:10 interval:10s maxEjectionPercent:60 splitExternalLocalOriginErrors:true业务多活/应用质量交付&运行质量保障应用等级开发保护异常告警一级应用禁止在没有熔断的情况下依赖一级以下的服务具备就绪和存活探测接口优雅退出K8S PriorityClasses:p1K8S PDB 配置SLI(不少于4个)二级

10、应用禁止在没有熔断的情况下依赖二级以下的服务具备就绪和存活探测接口优雅退出K8s priorityclasses:p2K8s PDB 配置SLI(不少于2个)三级应用具备就绪和存活探测接口优雅退出K8s priorityclasses:p3K8s PDB 配置SLI(不少于2个)四级应用具备就绪和存活探测接口优雅退出K8s priorityclasses:p4K8s PDB 配置SLI(不少于1个)熔断:避免级联故障探针和优雅退出:弹性缩扩容前提PriorityClasses:保障高等级服务被优先调度PDB:保障应用 Pod 副本数保持在一个健康的范围内应用SLI:应用健康的黄金指标,快速发现

11、问题业务多活/弹性伸缩多层级、多维度的弹性策略充分利用云资源弹性优势,保障稳定性的同时降本业务高峰期SLO达标,容器集群平均CPU利用率达到30%K8S 节点 CA(Cluster Autoscaler)按照资源利用率扩容业务高峰期提前扩容Pod HPA(Horizontal Pod Autoscaler)按照资源利用率扩容业务高峰期提前扩容梯度缩扩容缓解 xDS 下发压力趣丸云原生架构下多云稳定性保障多云互联01 业务多活02 线上质量保障03 线上质量保障/可观测以应用为中心的可观测能力基础设施云化后,SRE的重心更聚焦于应用,通过应用将人、资源、告警、指标、调用链、日志等信息进行关联,构

12、建业务拓扑图,形成一个以应用为中心的可观测平台。平台在能力视角解构,在业务视角重构线上质量保障/告警治理提高告警有效性,快速发现故障提高有效性制定告警接入标准,防止告警泛滥告警压缩和无阈值告警,通过 AI 减少无效告警提高覆盖率制定可观测标准,对资源和应用进行告警默认覆盖线上质量保障/定位和恢复精确定位,快速恢复定位链式根因定位,通过 AI 对应用告警进行归因分析恢复恢复预案,制定故障场景恢复预案,加速恢复效率自愈,抽离恢复预案操作,与告警规则结合实现自愈,提高恢复效率04总结和展望总结和展望故障不可避免,可以通过高可用、容灾建设,最大化的提升系统的可用性。但是:极端的可用性必然带来巨大的投入。先评估现状,再推进。根据架构分层的维度,结合故障层面,评估各层在RTO和RPO方面的高可用现状,建立容灾能力评估模型。根据投入产出比制定高可用建设工作计划。总结和展望容灾能力评估模型。模型从架构分层的维度,结合故障层面,评估各层次在RTO和RPO方面的能力。总结和展望向多云阶段二继续演进,同时为阶段三进行技术调研和积累。单元化:业务数据水平拆分,单元间相互隔离,故障仅影响本单元内用户,并可快速恢复边缘接入:延迟更低、可用性更高的接入方案感谢聆听关注QECon公众号

友情提示

1、下载报告失败解决办法
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。

本文(A2--朱少华--趣丸科技多云架构下稳定性保障.pdf)为本站 (2200) 主动上传,三个皮匠报告文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三个皮匠报告文库(点击联系客服),我们立即给予删除!

温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。
会员购买
客服

专属顾问

商务合作

机构入驻、侵权投诉、商务合作

服务号

三个皮匠报告官方公众号

回到顶部