《阿里云弹性计算稳定性建设和云上运维最佳实践-李刚.pdf》由会员分享,可在线阅读,更多相关《阿里云弹性计算稳定性建设和云上运维最佳实践-李刚.pdf(28页珍藏版)》请在三个皮匠报告上搜索。
1、阿里云弹性计算稳定性建设和云上运维最佳实践李刚(东任)阿里巴巴 高级技术专家大纲大纲阿里云弹性计算概念阿里云弹性计算稳定性建设实践阿里云弹性计算云上运维最佳实践什么是阿里云弹性计算?什么是阿里云弹性计算?又名云服务器ECS(Elastic Compute Service)云计算最核心基础IaaS服务之一让大家像使用水、电、天然气等公共资源一样便捷、高效地使用服务器,实现计算资源的即开即用和弹性伸缩阿里云弹性计算稳定性建设实践阿里云弹性计算稳定性建设实践双轮驱动下的弹性计算极致稳定性诉求双轮驱动下的弹性计算极致稳定性诉求百万级外部客户百万级外部客户20192019阿里全面上云阿里全面上云对弹性计
2、算稳定性强依赖对弹性计算稳定性强依赖90%10%无开机自启动有开机自启动开机自启动开机自启动客户占比客户占比在线在线业务业务场景场景AIAI大模型离线场景大模型离线场景0.8%1.6%2.4%3.9%7.7%14.8%21.3%200300模型训练集群节点数训练集群日化故障率游戏游戏创业期业务创业期业务直播直播目标:用目标:用x86x86的硬件,提供小型机级别的稳定性的硬件,提供小型机级别的稳定性小型机小型机x86x86服务器服务器小型机小型机ECSECSx86x86服务器服务器现实现实10 x10 x目标目标X86X86ECSECS平台平台VMVM体感可用率体感可用率体
3、感可用率体感可用率挑战挑战:复杂度和规模复杂度和规模复杂度复杂度基础设施基础设施服务器服务器物理网络物理网络数据中心数据中心供应链供应链AliAli OSOSCIPUCIPU、块存储、块存储TDCTDC网络网络AVSAVS、管控运维、管控运维裸金属裸金属实例实例vmvm实例实例ECIECI实例实例k kvmvm/Near-Metal/Near-Metal HypervisorHypervisor轻量虚拟化沙箱轻量虚拟化沙箱存储存储(块存储块存储)虚拟网路虚拟网路(vpc)(vpc)镜像镜像/Guest/Guest OSOS AliyunAliyun linuxlinux80+80+可用区(AZ
4、)2 20+0+数据中心区域(Region)1000000+1000000+设备(Server)5000+5000+集群(Cluster)规模规模2023年4月识别问题:宕机、夯机、抖动识别问题:宕机、夯机、抖动现象:现象:ECS资源100%不可用,多数因基础设施、服务器硬件或底层软件原因导致。影响:影响:所有未持久化的数据和配置都将丢失,该ECS实例上的业务将完全中断。现象:现象:ECS资源服务时断时续,甚至某些核心功能不可用或无法连接和操作。如:OS 夯,IO hang等。影响:影响:未持久化数据尚未丢失,但整个ECS几乎无法使用,有时甚至无法恢复、没有备份的机会。现象:现象:ECS资源核
5、心服务可以正常使用,但在极端情况下会出现网络或性能抖动。影响:影响:着重影响抖动敏感用户,性能抖动可能导致用户压测等容量规划付之东流,甚至可能因抖动引发用户应用系统雪崩效应,导致整体业务中断。宕机宕机夯机夯机抖动抖动量化量化问题:从客户体感视角全面度量稳定性过程和结果问题:从客户体感视角全面度量稳定性过程和结果影响客户稳定性体感的技术指标影响客户稳定性体感的技术指标客客户户体体感感可可用用率率客户客户侧侧应用架构应用架构容错容灾能力容错容灾能力客户稳定性体感结果指标客户稳定性体感结果指标稳稳定定性性客客诉诉率率实例实例宕机宕机实例实例夯机夯机实例实例抖动抖动实例实例主动运维主动运维宕机率宕机率
6、夯机率夯机率有损率有损率GuestOSGuestOSpanicpanic 率率主动运维率主动运维率事件响应事件响应成功率成功率工单工单数量数量数量时长数量时长积分积分时长时长客情客情数量数量数量时长数量时长积分积分时长时长解决问题:弹性计算稳定性系统工程解决问题:弹性计算稳定性系统工程线下预防体系线下预防体系产品设计产品设计产品适配产品适配产品验收产品验收硬件准入标准硬件准入标准稳定性准入标准稳定性准入标准业务适配业务适配基础设施适配基础设施适配验收报告验收报告稳定性准出标准稳定性准出标准线上守护体系线上守护体系客户侧联动体系客户侧联动体系智智能能故故障障预预测测灰灰度度发发布布能能力力监监控
7、控诊诊断断能能力力异异常常调调度度能能力力故故障障快快恢恢能能力力事事件件中中心心事事件件订订阅阅事事件件响响应应数据和算法底座数据和算法底座重保机制重保机制重保等级和套餐重保等级和套餐重保技术支撑平台重保技术支撑平台稳定性重保体系稳定性重保体系线下预防体系线下预防体系产品设计产品设计产品适配产品适配产品验收产品验收硬件准入标准运维准入标准功能需求性能需求稳定性需求可运维性需求ECS产品线基础设施功能性能稳定性可运维性运维验收准出标准稳定性评估报告稳定性测试和验收ECS产品线基础设施ECS产品线基础设施基础监控适配装机等基础系统适配升级维修等能力适配业务监控适配业务部署适配异常业务隔离适配部件
8、测试整机测试供应商实验室ODM实验室阿里实验室设计研发阶段工厂制造阶段IDC交付阶段 测试系统-基线库、工具库、用例库产品产品定义定义硬件硬件设计设计线上线上准入准入软硬件软硬件适配适配公开对外公开对外服务服务线上守护体系:智能故障预测线上守护体系:智能故障预测内存宕机率内存宕机率月宕机率(%)年宕机率(%)业务内核主动运维深层轮转隔离/热迁移Error Pattern运维低优先级运维高优先级推送决策宕机标签性能评估特征数据特征编码样本生产模型融合可预期宕机非预期宕机硬件Dry Run限流/兜底/开关模型生命周期管理数据链路(实时/离线)评价模型runtime采集系统采集系统数据底座数据底座实
9、时故障预测实时故障预测异常调度异常调度宕机事实验证宕机事实验证自然宕机部件压测模拟负载特征公共层特征公共层模型预测模型预测运维决策运维决策线上守护体系:灰度发布能力线上守护体系:灰度发布能力10%10%90%90%单机房故障损失多机房故障损失70%70%30%30%变更导致其他导致变更是导致故障和损失的头号杀手变更是导致故障和损失的头号杀手问题问题解决方案解决方案组合、排序组合、排序待变更范围待变更范围编排编排服务服务地域、组件、资源等维度地域、组件、资源等维度用用户户影影响响变更变更平台平台熔断熔断服务服务创建发布任务创建发布任务批次资源变更批次资源变更资源变更状态检查资源变更状态检查生成资
10、源变更集生成资源变更集熔断保护熔断保护异常诊断异常诊断实时计算关联分析实时计算关联分析熔断判定引擎熔断判定引擎熔断通知订阅熔断通知订阅创建灰度编排创建灰度编排获取发布批次资源获取发布批次资源资源变更状态资源变更状态熔断熔断熔断指令熔断指令通知通知线上守护体系:监控诊断能力线上守护体系:监控诊断能力原始数据原始数据监控采集监控采集异常数据异常数据监控采集监控采集诊断服务诊断服务场景输出场景输出IDCIDC功耗功耗温度温度暖通暖通供电供电基础设施层基础设施层物理物理网络网络交换机交换机带宽状态带宽状态网络延时网络延时网络丢包网络丢包硬件硬件CPUCPU内存内存主板主板电源电源/风扇风扇服务器层服务
11、器层OSOS内核内核OSOS日志日志资源隔离资源隔离调度状态调度状态coredumpcoredump飞天核心组件层飞天核心组件层管控运维管控运维组件组件云网络组件云网络组件虚拟化组件虚拟化组件块存储组件块存储组件CIPUCIPU组件组件基础设施维度基础设施维度服务器维度服务器维度飞天核心组件维度飞天核心组件维度实例维度实例维度IDCIDC环境异常环境异常网络设备异常网络设备异常基础设施工单基础设施工单 服务器掉电服务器掉电资源争抢资源争抢硬件故障硬件故障资源争抢资源争抢IOIO中断中断/hang/hang网络延迟高网络延迟高实例实例crashcrash心跳异常心跳异常实例实例hanghang异
12、常特征提取异常特征提取多维特征关联分析多维特征关联分析关联维度聚合关联维度聚合根因诊断根因诊断异常调度体系异常调度体系全链路诊断(客户侧自诊断)全链路诊断(客户侧自诊断)故障恢复故障恢复事件输出事件输出线上守护体系:异常调度线上守护体系:异常调度能力能力事件事件中心中心监控监控诊断诊断中心中心APIAPI监控数据监控数据数据数据洞察(洞察(MatrixMatrix)事件中心事件中心事件中心事件中心事件中心事件中心ECSECS实例实例飞天核心组件飞天核心组件物理服务器物理服务器基础设施基础设施客户客户异常异常报障报障数据仓库(汇集数据仓库(汇集/清洗)清洗)在线数据分析在线数据分析离线数据分析离
13、线数据分析DashboardDashboard业务策略业务策略机器学习算法机器学习算法调度体系调度体系定时任务定时任务业务规则业务规则工作流引擎工作流引擎异常宿主机调度异常宿主机调度(其他异常资源管理、调度)(其他异常资源管理、调度)异常实例调度异常实例调度异常库存管理异常库存管理异常调度工作异常调度工作宿主机调度宿主机调度(其他资源管理、调度)(其他资源管理、调度)实例调度实例调度库存管理库存管理正常调度工作正常调度工作外部外部交互交互系统系统线上守护体系:故障快恢能力线上守护体系:故障快恢能力目标:目标:1 1 -5 5 -1010人人流程流程工具工具故障应急故障应急处理人员处理人员故障快
14、速故障快速恢复系统恢复系统故障预案故障预案和和SOPSOP整体思路整体思路故障快恢系统故障快恢系统故障预案和故障预案和SOPSOP故障演练体系故障演练体系故障演练故障演练全面验收全面验收批批量量宕宕机机批批量量夯夯机机批批量量脱脱网网批批量量掉掉电电故障处理预案故障处理预案.故障处理故障处理SOPSOP故障故障处置处置角色角色故障总指挥故障总指挥故障处理角色故障处理角色客诉处理角色客诉处理角色应急角色小组应急角色小组故故障障应应急急流流程程故障故障感知感知故障故障处理处理故障故障看板看板进展进展并发止损安全控制并发止损安全控制ECSECS恢复恢复 warwar roomroom原因原因影响影响
15、范围范围告警告警动态聚合动态聚合故障漏检录入故障漏检录入故障故障实时更新实时更新实时状态探测实时状态探测监监控控系系统统异异常常调调度度体体系系ECSECS数据中台数据中台根因诊断平台根因诊断平台数据支撑数据支撑根因诊断根因诊断演练演练环境环境演练演练类型类型日常日常演练演练开服开服演练演练三新三新演练演练突袭突袭演练演练GammaGamma开服环境开服环境线上环境线上环境演练演练场景场景批量批量宕机宕机批量批量夯机夯机批量批量脱网脱网.平台平台支撑支撑能力能力场景场景管理管理用例用例创建创建对象对象圈定圈定故障故障注入注入报告报告生成生成环境环境恢复恢复安安全全控控制制告告警警设设置置故障演
16、练平台故障演练平台故障注入原子能力故障注入原子能力客户侧联动体系客户侧联动体系系统事件类型系统事件类型异常事件原始数据异常事件原始数据控制台控制台OpenAPIOpenAPI云监控云监控ECSECS事件服务事件服务钉钉钉钉OOSOOSMQMQ事件来源事件来源运维事件上报运维事件上报事件查询事件查询登录查看登录查看直接调用直接调用终端客户终端客户事件通知事件通知订阅订阅事件事件推送推送基础设施基础设施CIPUCIPU组件组件服务器服务器云网络云网络组件组件内核内核块存储块存储组件组件虚拟化虚拟化组件组件功能功能计划内计划内运维事件运维事件功能功能非预期非预期运维事件运维事件功能功能本地盘本地盘实
17、例事件实例事件功能功能突发性能实突发性能实例性能受限例性能受限事件事件功能功能实例因底层实例因底层升级需迁移升级需迁移事件事件功能功能实例实例费用事件费用事件功能功能实例实例安全事件安全事件功能功能状态状态变化事件变化事件 为规避底层宿主机软硬件隐患发起的主动维护事件 底层宿主机突发软硬件故障导致的实例重启或宕机发送的事件 因本地盘实例故障或单磁盘故障发送的事件 突发性能实例的CPU积分已耗尽,可能对实例性能产生影响的提醒事件 升级或改造基础设施时,可能影响对应实例,提醒根据系统事件引导进行实例迁移 影响费用的事件,例如实例到期、账号欠费,导致实例即将被停止或释放 影响实例安全的事件,例如实例
18、遭遇DDoS攻击或进入黑洞,导致实例安全受到威胁 实例的生命周期或其他状态发生变化时发送的事件稳定性重保体系稳定性重保体系需求场景需求场景重保体系重保体系研发与服务人力投入额外资源成本投入对后端服务影响一级重保一级重保研发与服务人力投入额外资源成本投入对后端服务影响二级重保二级重保研发与服务人力投入额外资源成本投入对后端服务影响研发与服务人力投入额外资源成本投入对后端服务影响三级重保三级重保四级重保四级重保重保等级重保等级和套餐和套餐重保技术重保技术支撑平台支撑平台重保业务模型重保业务模型重保原子能力重保原子能力重保策略重保策略重保重保机制机制重保重保阵型阵型重保准入标准重保准入标准重保分级审
19、批机制重保分级审批机制重保评估机制重保评估机制前台前台中台中台后台后台服务经理售后专家产研专家客户客户新业务上线新业务上线客户大型客户大型运营活动运营活动客户业务客户业务敏感期敏感期客户客户重大变更期重大变更期极致稳定性极致稳定性诉求诉求阿里云弹性计算云上运维最佳实践阿里云弹性计算云上运维最佳实践ECSECS云上运维最佳实践概览云上运维最佳实践概览问题规避问题规避问题容错问题容错问题诊断问题诊断问题止损问题止损功能功能通过OPENAPI响应ECS系统事件,优雅规避实例运行风险响应响应ECSECS系统事件系统事件功能功能弹性能力规划容量弹性能力规划容量功能功能选择适合的实例规格选择适合的实例规格
20、保持保持GuestOSGuestOS更新更新使用ECS弹性能力,自动规划管理应用系统容量水位结合应用实际场景合理选择实例规格,兼顾成本和稳定不选择已经EOL的OS,定期更新系统补丁和软件驱动功能功能通过HA能力提升应用单实例宕机容错和极端场景容灾能力建设高可用架构建设高可用架构功能功能建立应用防抖动能力建立应用防抖动能力功能功能选择适合部署方式选择适合部署方式设置合理的访问超时重试机制,规避实例短暂抖动对业务应用的影响结合应用场景,使用专用宿主机或部署集,实现亲和性或反亲和性部署功能功能可通过OPEN API等方式将ECS实例问题报给阿里云问题报障问题报障功能功能应用侧止损应用侧止损可在应用层
21、通过摘除流量或流量切换等方式先行止损功能功能对不同ECS实例之间网络连通性进行全面诊断,定位网络不通的原因网络连通性自诊断网络连通性自诊断功能功能对实例本身的系统、网络、磁盘等状态进行全方位诊断实例健康自诊断实例健康自诊断部署部署高可用架构,提升应用系统单实例宕机容错和极端场景容灾能力高可用架构,提升应用系统单实例宕机容错和极端场景容灾能力99.975%99.995%单实例可用性单实例可用性SLASLA跨跨AZAZ多实例可用性多实例可用性SLASLA阿里云阿里云ECSECS实例可用性实例可用性SLASLA 负载均衡负载均衡SLBSLB流量分发流量分发 单元化部署,架构消除拧麻花单元化部署,架构
22、消除拧麻花 容量规划容量规划N+1N+1冗余冗余 具备应用系统流量切换能力具备应用系统流量切换能力主动响应主动响应ECSECS系统系统事件,高效优雅规避实例运行风险事件,高效优雅规避实例运行风险云盘宿主机宕机风险云盘宿主机宕机风险本盘宿主机宕机风险本盘宿主机宕机风险本盘实例单磁盘故障本盘实例单磁盘故障云盘宿主机故障云盘宿主机故障本盘宿主机故障本盘宿主机故障实例性能受损实例性能受损系统系统事件事件OPENOPEN APIAPI控制台控制台钉钉钉钉OOSOOSMQMQ最佳实践典型示例最佳实践典型示例终端终端用户用户实例硬件实例硬件风险场景风险场景本地磁盘本地磁盘故障场景故障场景阿里云阿里云ECSE
23、CS事件体系事件体系云监控云监控更多详见:更多详见:查询和响应查询和响应ECSECS系统事件系统事件短信短信/邮件邮件/站内信站内信ECSECS硬件硬件宕机风险宕机风险阿里云发布阿里云发布系统事件系统事件用户提前用户提前摘除流量摘除流量用户恢复用户恢复ECSECS流量流量ECSECS宕机风宕机风险消除险消除用户响应用户响应系统事件系统事件OPEN API本盘实例本盘实例磁盘故障磁盘故障发布磁盘发布磁盘隔离事件隔离事件用户响应用户响应隔离事件隔离事件新盘插入新盘插入重启实例重启实例(视情况视情况)隔离坏盘隔离坏盘初始化初始化并挂载新盘并挂载新盘重启实例重启实例(视情况视情况)实例实例磁盘恢复磁盘
24、恢复通过通过ECSECS弹性能力,低成本自动规划管理应用系统容量水位弹性能力,低成本自动规划管理应用系统容量水位功能功能无规律业务量波动无规律业务量波动业务量波动无规律,访问量突增和回落的具体时间难以预测功能功能有规律业务量波动有规律业务量波动每天固定时间业务量急速增长进入高峰期,到固定时间业务量下降,高峰期结束功能功能无明显业务量波动无明显业务量波动业务量无明显波动,如果现有计算资源突然出现故障,很难及时维修,导致业务受到影响业务场景业务场景ESSESS弹性伸缩服务弹性伸缩服务功能功能固定数固定数量模式量模式健康健康模式模式定时定时模式模式自动自动模式模式动态动态模式模式伸缩模式(触发伸缩活
25、动)伸缩活动执行程序伸缩活动执行程序伸缩规则伸缩规则伸缩配置伸缩配置伸缩活动伸缩活动伸缩组ECSECSECS伸缩组负载均衡负载均衡RDSRDSRDSECS1.监控健康状态和性能2.ExcuteScalingRule(Rule Ari)3.1 增加多少台ECS?3.2 创建什么类型的ECS实例?3.3 创建伸缩活动4.1 创建ECS实例4.2添加到伸缩组,并配置负载均衡和RDS使用实例健康诊断能力,快速定位问题根因,高效完成使用实例健康诊断能力,快速定位问题根因,高效完成ECSECS实例深度巡检实例深度巡检?痛点场景痛点场景实例健康诊断能力实例健康诊断能力使用方式使用方式诊断ECS实例底层的资源
26、和虚拟化层计算服务诊断计算服务诊断检查实例内网络组件和外部网络环境异常检查实例磁盘和存储的运行状态检查实例启动或运行过程中,是否存在阻塞等操作检查实例关联的所有安全组相关状态检查实例本身和实例关联组件的费用情况检查核心资源使用量是否即将达到配额检查实例OS内系统文件、关键进程等状态控制台控制台OPENOPEN APIAPI选择问题类型输入实例和时间范围查看诊断报告开始诊断查询诊断指标管理诊断指标集合查询诊断报告创建诊断报告1应用系统触发监控告警,根因难以定位,到底是云的问题还是自身系统问题?2?业务大促前,需要对云资源做一次全面深度巡检,如何高效实施?网络服务诊断网络服务诊断存储服务诊断存储服务诊断实例配置管理诊断实例配置管理诊断安全控制诊断安全控制诊断费用类诊断费用类诊断资源配额诊断资源配额诊断GuestOSGuestOS内配置诊断内配置诊断回顾总结回顾总结123 阿里云弹性计算稳定性建设实践阿里云弹性计算稳定性建设实践-稳定性度量体系-线下预防体系-线上守护体系-客户侧联动体系-稳定性重保体系 什么是弹性计算?什么是弹性计算?阿里云弹性计算云上运维最佳实践阿里云弹性计算云上运维最佳实践-最佳实践概览-部署高可用架构-响应主动运维事件-弹性能力管理容量-自诊断定位根因Q&AQ&A谢谢!谢谢!为了永不停机的计算服务!为了永不停机的计算服务!