上海品茶

您的当前位置:上海品茶 > 报告分类 > PDF报告下载

2019年阿里巴巴海量服务器下的基础运维智能化实践.pdf

编号:97802 PDF 28页 3.57MB 下载积分:VIP专享
下载报告请您先登录!

2019年阿里巴巴海量服务器下的基础运维智能化实践.pdf

1、GOPS 全球运维大会2019上海站GOPS 全球运维大会2019上海站阿里巴巴海量服务器下的基础运维和智能化实践GOPS 全球运维大会2019上海站目录业务介绍1整体架构2安全运维3智能化之路4GOPS 全球运维大会2019上海站我们是谁?一套自动化数据中心管理系统,管理数据中心中的软硬件生命周期,各类静态资源编排,基础软件的版本和发布GOPS 全球运维大会2019上海站解决什么问题GOPS 全球运维大会2019上海站设计理念设计理念l 终态系统:当前态向终态逼近,假设失败会在任何地发l 吞吐和可靠:热备,快速服务切换能力l 稳定性和鲁棒性:即使天基系统瘫痪也不能影响管理的服务l 版本维护,

2、天基运维天基:部署,从到有部署天基的能飞天智能运维平台系统最核心的设计,业务联动的监管控一体化安全运维以及恢复机制和变更机制的统一l 声明式(Declarative)变更。无论是配置变更,还是软件升级、硬件变更,都是通过一个格式化的说明文件来提交。这个对于避免人工失误是非常有效的。l 变更、恢复和修复机制的统一:面向终态的设计使得这三类操作采用同样的机制。l 集成的监控机制:自动发现故障运维系统要解决的问题:l能够最大化的无人干预,信息化-自动化-智能化l稳定安全,能够尽量避免人工失误,并且在失误或故障发生的情况下,能快速进行恢复GOPS 全球运维大会2019上海站目录业务介绍1整体架构2安全

3、运维3智能化之路4GOPS 全球运维大会2019上海站Region化GOPS 全球运维大会2019上海站不做100%可用的假设,不能因为中心服务不可用,而影响别的服务版本兼容和自管理相邻三个版本之间必须保证向下兼容版本和升级自维护,自己运维自己减少单点故障master存状态,其他模块无状态,可重入每个模块功能设计尽量简单确定信号触发确定行为轻量快速的服务状态检查Monitor状态机反馈,监管空一体化自包含:Package Model,减少对环境的依赖,易于清理分布式设计?TianjiAdaptorECS Yaochi?TjMaster On Paxos GOPS 全球运维大会2019上海站变更

4、变更定义:通过平台进行的软件部署、版本升级、配置变更、扩容、缩容等操普通模式:所有的机器同等对待,审批之后开始升级。金丝雀模式:先选两台机器,试着升级,成功了再升级剩下的。grayunit模式:灰度升级,用户可以自定义灰度策略。滑动窗口模式:自定义机器升级并发数,保证任意一个时刻,升级机器不超过并发数非安全模式:不考虑服务可用性,所有的机器直接升级Adaptor业务灰度模式:天基 品 用户 提交发布 查询批次 返回机器 GOPS 全球运维大会2019上海站灰度模式普通 金丝雀 grayunit 滑动窗口 Adaptor业务灰度GOPS 全球运维大会2019上海站灰度模式普通 金丝雀 grayu

5、nit 滑动窗口 Adaptor业务灰度GOPS 全球运维大会2019上海站灰度模式普通 金丝雀 grayunit 滑动窗口 Adaptor业务灰度GOPS 全球运维大会2019上海站灰度模式普通 金丝雀 grayunit 滑动窗口 Adaptor业务灰度GOPS 全球运维大会2019上海站灰度模式普通 金丝雀 grayunit 滑动窗口 Adaptor业务灰度GOPS 全球运维大会2019上海站自愈系统应用系统机器整机替换离线修复故障注入在线修复机器机器系统机器HealingServiceRepairServiceReplaceServiceChaosManager自愈领域自愈范围负责服务G

6、OPS 全球运维大会2019上海站自愈实现方式发现问题决策修复动作MonitorState1.基础硬件monitor2.应用上报1.按照规则触发修复action2.quotamanager3.action manager4.action translatorServiceDecider1.对action进行审批2.simple decider3.custom decider1.x_labor2.xx_labor3.xxx_laborLaborGOPS 全球运维大会2019上海站目录业务介绍1整体架构2安全运维3智能化之路4GOPS 全球运维大会2019上海站Infrastructure as

7、Code 通过配置文件定义一切 一切变更都是基于code review的configuration change 通过服务模版方式管理版本和配置 服务在不同集群之间版本配置尽量保持一致 终态 不管当前状态,向终态前进 安全运维三驾马车:Monitor+状态机+Decider 践行devopsGOPS 全球运维大会2019上海站 角色实例 Monitor 产品根据自身CheckHealth结果汇报的信息 角色实例 KeyMonitor 用于处理check_health_app本身异常,无法汇报信息的情况 机器 Monitor 对服务器进行监控产生的监控信息MonitorGOPS 全球运维大会20

8、19上海站状态机GOPS 全球运维大会2019上海站 Simple Decider 应用通过定义百分比的方式实现Decider逻辑,天基根据百分比自动审批 Custom Decider 应用自己实现逻辑,通过天基API与天基交互 Adaptor Decider 应用按要求提供openApi,天基负责调用DeciderGOPS 全球运维大会2019上海站目录业务介绍1整体架构2安全运维3智能化之路4GOPS 全球运维大会2019上海站?所有操作线上化规范,效率,数据积累过程结果数字化透明,可衡量,智能化的基础分析决策智能化准确,高效,全局优化?自自动化动化数字化数字化智能化智能化GOPS 全球运

9、维大会2019上海站?GOPS 全球运维大会2019上海站?集群和服务器智能化运维集群和服务器智能化运维大规模计算系统大规模计算系统供应链智能化供应链智能化数据中心智能化运维数据中心智能化运维供应链智能化整体方案:针对供应链特点,打造需求、运营、分析、决策智能化方案 实现数据驱动、基于算法的需求预测、库存优化、TCO分析和优化自动闭环环境:打通自动化工具和系统平台与智能化算法的闭环系统 为未来进行先进AI算法和系统探索、部署奠定基础 针对数据中心电热性能进行优化包括:冷量预测控制、Power预测控制、IDC电热感知、PUE优化等 对现场运维进行智能化改造包括:多媒体信息处理巡检、安防视频识别、

10、工单智能派发等集群智能化方案:提升集群和服务器的稳定性和可靠性包括:服务器和部件故障预测,跨域关联,根因分析,规则生成 提升集群资源利用率和流转率包括:集群资源异常检测,关联分析智能决策GOPS 全球运维大会2019上海站集群资源智能探查 集群利用率异常检测 低水位和闲置智能判断和预警服务器&部件故障预测智能管理&修复 集群自动管控 故障智能化在线修复决策集群和服务器智能化布局 硬盘故障预测 内存宕机故障预测 根因分析实现从专家规则-智能分析的演进实现问题和故障的处理方式,从被动响应-主动发现-提前预测?GOPS 全球运维大会2019上海站集群资源智能探查 集群利用率异常检测 低水位和闲置智能判断和预警服务器&部件故障预测智能管理&修复 集群自动管控 故障智能化在线修复决策集群和服务器智能化布局 硬盘故障预测 内存宕机故障预测 根因分析实现从专家规则-智能分析的演进实现问题和故障的处理方式,从被动响应-主动发现-提前预测?

友情提示

1、下载报告失败解决办法
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。

本文(2019年阿里巴巴海量服务器下的基础运维智能化实践.pdf)为本站 (云闲) 主动上传,三个皮匠报告文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三个皮匠报告文库(点击联系客服),我们立即给予删除!

温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。
会员购买
客服

专属顾问

商务合作

机构入驻、侵权投诉、商务合作

服务号

三个皮匠报告官方公众号

回到顶部