《2017年弹性容量管理探索.pdf》由会员分享,可在线阅读,更多相关《2017年弹性容量管理探索.pdf(34页珍藏版)》请在三个皮匠报告上搜索。
1、智能弹性容量管理ABOUT ME2011年加入阿里2016年至今,从事集团弹性资源管理401背景902智能弹性容量管理2003具体实践3204未来展望Contents0背景1#成本运维的困境月度流量趋势图月度资源保有量趋势图稳定性 效率 成本#成本运维的困境多少合适?You never know!#传统做法?经验预估压测到目标量级等比预估容量规划的意义预算规划峰值流量应对13软件迭代容量评估新IDC引流容量初始化24用更科学手段做资源运营。0智能弹性容量管理2概述HWTW“容量规划”+“弹性伸缩”+“风险评估”What“智能决策”+“自动执行”How“最优利用”+“容量自治”Target“De
2、v+Ops”+“业务”Who01020304容量预测弹性伸缩需求管理数据分析智能容量管理反馈环#目标机器数=预测流量/应用单机能力(预测)容量预测公式抽象成简化公式:流量预测自然态流量预测利用集群流量时序特征回归非自然态流量预测全链路流量模型,基于业务目标的各应用集群流量预测,线性回归单机能力预测First step应用特征分析Second step提取关键性能指标,建立算法模型Third Step通过日常样本数据回归预测Fourth step压测验证,效果反馈Last step周期性产出单机性能数据51234#线性回归模型“.”为真实样本点“.”为拟合后的点#模型校正残差降噪局部加权#效果评
3、估理论评估实际评估1-abs(qps真实 qps预测)/qps真实压测验证QPS CPU(Max)/2 预测 QPS CPU(Max)#数据处理框架?aD?(?)?D?e?D?e?D?O?D?D?S?D?/?D?D?/?/?S?D?P?H?D?D?b?S?#性能趋势跟踪。发现变更异常。辅助架构演进。维护应用性能基线。APM应用性能管理0具体实践4日常弹性分时复用IDC引流评估其他0204实践场景04020300501边压边弹#日常弹性锁定 理区间 锁定 理区间#日常弹性触发策略触发模式:手动、自动、定时备注:集群水位=集群QPS /(单机QPS极限值*机器数)单机QPS极
4、限能力#分时复用背景#服务SLO保证I资源边界最大化II精细化分时调度III高效执行,快速恢复IV分时复用挑战精准权重调度和容量预测事件模型、QoS监控和熔断机制全时段精细化削峰填谷数据分析为前提,多种执行策略#分时复用核心模块#分时复用效果#0 100 200 300 400 500 600 700 0 20 40 60 80 100 qps qps 对数(qps)CPU QPS 压测 易量增长趋势 压测 易量增长趋势 曲线拟合 机器学习 1 2 3 4 5 6 7 8 9 10 11 12 压测交易量增长趋 压测交易量增长趋 拟合后与目标负载的交叉点拟合后与目标负载的交叉点n 负载预测,容量评估 边压边弹#边压边弹执行流程#边压边弹智能决策?TEXT HERE?#边压边弹目标压测无人值守0未来展望5 智能化容量自治。整体集群资源0冗余。#Thanks!