《4-4 周甲黎-vivo业务高可用建设实践.pdf》由会员分享,可在线阅读,更多相关《4-4 周甲黎-vivo业务高可用建设实践.pdf(24页珍藏版)》请在三个皮匠报告上搜索。
1、vivo业务高可用建设实践周甲黎|vivo互联网 业务运维总监一、问题与挑战二、可用性能力建设三、可用性阶段建设四、可用性结果与展望1、问题与挑战|规模不断增长 机器的规模不断增长 服务数量不断增长2002020212022物理机总数物理机总数2002020212022在线服务数量服务个数2、问题与挑战|应付需求,稳定性风险大1、业务变更中存在手工变更场景2、单次发布时间较长3、存在业务迁移的场景1、机房级故障风险2、业务快速增长对容量需求大幅增加业务稳定性能力建设变更挑战故障挑战一、问题与挑战二、可用性能力建设三、可用性阶段建设四、可用性结果与展望
2、1、可用性能力建设|基于故障的全生命周期开展故障时间故障避免+最快解决故障发生故障发现故障响应故障恢复故障复盘故障发生MTTRMTTFMTBF关键点故障预防故障发现故障治愈故障复盘2、可用性建设方向|故障发生分析-服务视角服务输入输出硬件方面:主机硬件、机房、网络等服务方面:软件bug等容量方面:请求突增从单服务的稳定性来看:硬件的不稳定、软件变更引入bug、业务的请求突发都会引发服务的异常3、可用性建设方向|故障发生分析-全链路视角服务A输入上下游依赖:关键服务异常服务层:配置异常等容量层:请求突增服务B从全链路的稳定性来看:上下游依赖、容量不足和服务配置异常等都是影响稳定性的重要因素4、可
3、用性建设方向|故障预防建设基础设施异常变更异常全链路异常高可用架构,去除单点风险,做好冗余容灾做好变更管理:有流程、有平台上下游强弱依赖,关键服务分析5、可用性建设方向|故障预防 单元化实现服务在本机房内调用 多入口建设了IDC和公有云的多入口 过载保护接入层建设了过载保护能力,突发流量主动拒绝 熔断降级对依赖的服务做熔断降级,屏蔽异常服务带来的影响消除单点风险,建设了全链路的高可用能力接入层业务逻辑层中间件层存储层基础设施层6、可用性建设方向|故障发现建设完成了基于全链路的故障发现能力|主动发现率90%客户端监控服务端监控基础监控自建了拨测系统,通过旁路的模拟用户访问的方式,监控各服务的可用
4、性情况包括域名监控、日志监控和服务之间的调用监控,按照监控的实现方式主要是metrics/logs/trace监控主机的硬件资源使用情况,主要是metrics方式7、可用性建设方向|故障处理故障分析故障处理和监控系统联动,支持基础服务故障分析、域名可用性分析等故障预案建设,包括预案的制订、演练等等8、可用性建设方向|故障复盘基于业务SLA分级,有的放矢;做相应的故障记录、改进和验证能力建设,不断改进业务分级故障记录故障改进分级保障,将有限运维资源分类重点保障口碑营收日活提高复盘的效率,并且提供线上故障跟踪和分析的能力基于混沌工程做后向的验证9、可用性建设方向|容量管理 建设了资源的全生命周期的
5、管理机制,保障资源的供应及使用效率最大化 建设了基于混合云的资源保障能力,极大提升了资源弹性能力物理机虚拟机云主机容器IDC自建机房公有云自建机房为主,公有云为辅,具备弹性上云的能力预算管理需求管理采购管理存量运营管理一、问题与挑战二、可用性能力建设三、可用性阶段建设四、可用性结果与展望1、可用性阶段建设|标准化建设 标准化:基于全链路的标准化建设,包括机房、网络、应用等等 降低业务的运维复杂度,进而降低运维的成本机房标准化网络标准化-公网-主动上网-内网专线OS标准化主机环境标准化服务目录标准化Agent标准化接入nginx集群标准化服务能力标准化(中间件服务)硬件软件2、可用性阶段建设|流
6、程化与规范化建设 流程化与规范化:将运维过程中的好的实践与方法沉淀成流程、机制和规范业务稳定性保障过程尽量有序、可控运维军规故障响应机制规范公共事项规范大型活动保障规范3、可用性阶段建设|平台与系统建设 平台与系统化:将好的流程/机制/规范更进一步的做成平台化,实现自动化 以cmdb为底座,建设了包括变更平台、监控平台、服务工具平台等等,支撑业务稳定性持续交付CICD平台作业平台监控服务日志监控域名加农主机监控变更管理Nginx变更流量调度CDN变更工具服务DNS管理平台CMDB一、问题与挑战二、可用性能力建设三、可用性阶段建设四、可用性结果与展望1、可用性结果业务稳定、运维有序高效可用性结果
7、:99.9%提升至99.99%80099.95%99.95%99.99%99.99%99.99%99.00%99.20%99.40%99.60%99.80%100.00%100.20%0500212022业务可用性达标趋势达标不达标SLA2、可用性保障总结在业务快速增长的情况下,如何更好的保障业务稳定性,支持业务发展标准化流程/规范化平台/自动化故障预防故障发现故障治愈故障复盘可用性能力阶段高可用能力建设客户端监控服务端监控基础监控预案建设业务分级复盘改进硬件标准化网络部标准化主机标准化服务标准化运维变更运维告警处理CMDB平台CICD平台监控平台3、可用性保障展望-1可用性保障:异地多活、容器/云原生机房A机房B接入层业务层存储层接入层业务层存储层异地多活能力物理机虚拟机公有云容器/云原生构建不同基础架构的高可用能力3、可用性保障展望-2不仅仅是可用性,还包括业务质量、业务运营成本可用性保障故障预防故障发现故障治愈成本管理预算管理需求管理存量资源运营精细化运营保障THANK YOU!