上海品茶

您的当前位置:上海品茶 > 报告分类 > PDF报告下载

田国良-解放运维双手能力中台赋能容器云智能化运维实践.pdf

编号:122105 PDF 20页 6.58MB 下载积分:VIP专享
下载报告请您先登录!

田国良-解放运维双手能力中台赋能容器云智能化运维实践.pdf

1、1解放运维双手:容器云智能化运维实践田国良中国移动通信集团江苏有限公司-资深架构师、资深专家江苏移动DICT人才、省本部先进个人,省IT优秀技术带头人,集团公司IT运维专家,集团公司十百千专家,具有多年的运维管理经验、运维系统规划经验、业务连续性管理经验、AIOPS运维能力构建经验,拥有专利11项。2容器云运维的背景和问题容器云智能运维建设实践容器云运维演进方向思考3容器云运维的背景和问题4容器云运维的背景和问题5系统迁移上云,容器平台资源关系、拓扑复杂性上升,运维数据量大,分析的投入增加容器云平台运维指标的变化比较频繁,以前固定阈值的运维模式,不适合目前容器云环境下的应用运维诉求针对容器云的

2、健康状态排查,缺乏衡量方式针对Pod的状态异常,缺乏分析手段K8S云原生的自动扩缩容机制,还不健全容器云对于资源的调度,存在不均衡的问题,容易产生局部的资源过热当出现严重的硬件、全业务中心故障的时候,中心级故障无法快速恢复面对的背景实际的问题系统规模越来越大,为优化IT云布局,中国移动集团公司推进全网IT云资源池集中化系统复杂度高、系统规模大、海量告警、排障难突发故障,大量依赖人力分析,效率低、不准确、不及时人少、事多、责任大容器云智能运维建设实践6思路概述7资源异常管理容量管理健康可视化管理应用可用性管理应急容灾管理容器云上容器云上下游容器实例内/外部容器实例间集群/业务中心间Pod宿主机夯

3、死内存OOMVolume挂载异常Node负载高Pod处于TerminatingPod吞吐率趋势变化就绪检查失败存活检查失败识别资源对象多协议多场景终端探测PC端可用性探测弹性伸缩周期规律弹性伸缩热点突增弹性伸缩应用达量弹性伸缩应用定时故障恢复弹性扩缩资源均衡调度弹性伸缩趋势升降资源调度资源超卖资源调度节点集中系统健康度评分树形模型打分异常数据响应数据系统负载日志应用性能波动检测配置评分模型权重日志&KPI融合分析分流Pod隔离熔断Pod重启Pod新建波形识别日志识别事件识别故障点定位租户资源画像波动源定位智能扩缩容规则扩缩容均衡资源调度灰度递进多活多中心无感切换容器云智能运维引擎容器云运维指标

4、体系探测场景梳理资源关系拓扑梳理探测对象梳理容器云智能运维接口探测接口梳理移动APP探测各工具控制台(前端/后端)逐项检查控制台状态1异常感知2智能根因3自愈脚本硬件核心部件故障全业务中心瘫痪访问流量采集智能策略路由灰度滚动应急切换手动切灾备故障影响面采集实践方向系统智能巡检巡检项梳理巡检路径剪枝调用链分层调用链采集调用链贯穿分析技术实践(一览众山小)8梳理容器云应用资源关系模型,实现容器上应用可用性探测反馈。u全面支持基础设施、组件服务业务系统等资源对象的管理。网络安全HTTPPingScriptSocketIaaS主机存储容器数据库PaaS虚拟化组件系统接口SaaS应用服务AgentAPI

5、1、APP应用(IOS/Android)2、Web/H5页面支持多终端探测、展示多协议资源关系拓扑梳理+自动发现探测、探测任务梳理探测场景梳理探测对象梳理u支持增量资源对象的自动发现支持移动端并行仿真探测 第一时间知道有问题发生;第一时间知道影响哪些应用,影响哪些应用资源对象。容器云上应用可用性探测。l措施:实现了云化运维模式转变,从“被动到主动”、“片面到全局”、“单维到多维”转变,利用主动探测提前发现问题。l问题:针对容器云上的应用,从客户感知视角,如何第一时间、主动发现应用的可用性问题?即使问题隐藏在PAAS、甚至IAAS层。技术实践(一览众山小)-图例9探测API配置探测协议配置探测任

6、务一览探测终端探测总览技术实践(云深也知处)10接入容器云多维数据,智能分析海量数据趋势和异常,可视化展示容器云健康度评分;全量巡检后生成决策树,执行巡检关键路径的剪枝,提速系统智能巡检;通过数据整合,构建全链路全层级端到端调用链拓扑,达成端到端、多平面、全链路、跨系统调用链路追踪分析采集应用性能数据容器云运维指标体系配置评分模型权重:涉及主机、组件、应用配置的重要性日志系统负载异常数据响应时间模型权重采集数据配置权重多维数据智能分析引擎无监督异常检测日志分析树形模型打分日志和KPI融合根因分析日志解析序列向量化级联聚类关联分析基于统计学异常检测基于机器学习异常检测集成算法判定系统健康度支撑平

7、台应用组件系统性能指标、日志系统健康度评分通过系统所依赖的各组件指标打分通过系统KPI指标和运行日志打分健康度可视化展现通过应用所部署的PAAS主机的各指标打分75分结论u可视化展示健康度评分达到对系统整体健康度有可视化把控;同时捕获细节问题信息。巡检路径剪枝u智能巡检巡检路径剪枝后的高效完成;系统智能巡检前台调用链用户信息业务信息后台调用链链路信息服务信息CMDB资源信息通过数据整合,构建全链路全层级端到端系统拓扑123123数据整合系统健康度评分跨系统调用链u调用链智能分析端到端、多平面、全链路、跨系统调用链路追踪分析应用n中间件.n数据库.n主机.n数据打标及学习生成决策树系统全量巡检系

8、统(巡检)应用1(巡检)应用2(跳过)主机2(跳过)中间件2(跳过)巡检项技术实践(云深也知处)-图例11Pod资源健康度应用健康度主机资源健康度低分Pod资源健康度前端页面端到端全链路追踪后端接口端到端全链路追踪技术实践(灯火阑珊处)12感知Pod异常、宿主机节点异常,实现pod节点的快速故障定界和自愈。监控指标感知AI分析决策自愈操作Pod状态异常Pod状态正常但未正常工作Pod OOM异常问题节点状态NotReady节点状态Unknown节点资源负载高节点调度资源不足指标日志事件状态查询检索分析决策自愈数据挖掘统计分析容量分析趋势分析策略匹配Streaming流处理SparkSQL并行计

9、算Pod隔离Pod重启缩减实例数Pod删除重启节点组件Pod异常状态主机节点夯死数据采集预处理指标日志状态事件消息化接入聚集维归约特征子集选择变量变换离散化和二元化多维数据接入训练日志模型归类异常日志模板日志挖掘日志指标异常事件分析状态识别异常波形识别状态状态正常、工作异常事件识别事件判定实例Pod异常判定容量智能判定l措施:感知Pod实例相关资源、宿主机节点的异常,实现pod实例相关资源的异常修复、以及宿主机节点异常或夯死的介入。l问题:从容器实例内外部着手,面向容器实例相关资源的异常状态,K8S本身的自愈健康机制不能有效覆盖。多维智能决策智能容量分析技术实践(如意知我心)13结合时间周期、

10、舆情活动、指标趋势,实现自我感知决策(数据分析)的pod扩缩容资源容量突发业务流量资源不足资源浪费实际使用量随机森林神经网络人工触发时间驱动业务指标舆情分析租户资源模型时间:早晚高峰、白天、黑夜、月初、月末等;舆情:高校迎新、马拉松、双十一及重大事件保障等;指标:资源(CPU、内存)、业务关键指标等。智能扩缩容1、具有时间周期性规律的:扩缩容2、具有舆情活动突增规律:扩容3、具有指标趋势性爬升、趋势性下降变化规律:业务指标出发扩容、缩容租户资源画像l措施:智能容量分析,结合租户资源模型,完成租户的智能资源画像,结合时间周期、舆情活动、指标趋势,实现自我感知决策(数据分析)的pod扩缩容l问题:

11、从容器实例间着手,面向容量管理的角度,如何应对不同时间窗口、舆情活动、以及特殊业务指标要求的容量高峰、低谷的需求?技术实践(如意知我心)-图例14智能扩缩容策略使用策略应用基于业务指标自动伸缩使用前后比对使用前使用后应用实例数固定48实例随业务量水位线增加人工扩容5实例/次月初48实例平时16实例业务量水位线增加自动扩容4实例/次资源使用量96Core/144G平时32Core/48G业务稳定性存在业务订单积压提前扩容,减少系统波动频次生产应用技术实践(七平八稳)15容器PAAS及时读取IAAS层资源忙闲情况,实现资源智能均衡调度。多维智能决策智能容量分析资源超卖;资源计算节点处理集中;资源智

12、能均衡调度白天CPU型 内存型黑夜资源规整复用资源均衡分析超卖分析节点忙闲分析IAAS用量读取融合时间周期分析l措施:通过采集静态和PAAS实时运行数据,结合AI得出评价模型,基于模型对节点的适配性进行预测来调度应用,使得集群资源被均衡使用,提升集群持续运行的稳定性。l问题:从容器实例间着手,面向容量管理的角度,原生Kubernetes调度器使用静态资源检查来评估资源,但租户的应用资源值不合理或业务波动,造成调度结果不符合预期,严重时导致计算节点宕机,对集群运行产生不利影响。技术实践(狡兔三窟)16统计访问流量、结合策略路由,执行流量调度,将故障集群流量应急切至其他业务中心,规避中心级集群故障

13、,达成多中心切换;版本发布,切灰度中心进行滚动发布,敏捷交付验证、同时规避版本问题,导致的系统波动问题;动态流量采集切换场景(灰度递进、多活多中心切换)负载+能开业务量订单量辅助推荐策略策略推荐模型训练更新知识策略库关键信息采集u硬件核心部件故障u全业务中心瘫痪智能辅助切换策略多云多活、灰度递进无感智能流量切换灰度中心版本B扬州中心版本A苏州中心版本A南京中心版本A营业前台电渠(网、掌、短、行等)能力开放平台灰度中心*中心版本A1、切空2、发布3、切入4、生产灰度流量切空数据源归位灰度代码发布灰度脚本执行业务流量切换灰度中心切至灰度版本数据源生产代码发布数据同步一致性检查切灰度生产中心B生产中

14、心A。123应急切多活生产中心l措施:围绕多活应急的原则,动态采集流量、结合智能切换策略,将故障集群流量应急切至其他业务中心,规避中心级集群故障,达成多中心切换;围绕敏捷交付的原则,切灰度中心进行滚动发布,敏捷交付验证。l问题:从集群和业务中心间着手,面向多活应急的角度,如何规避中心级集群故障?如何避免版本质量导致的系统波动问题?技术实践(狡兔三窟)-图例17多活多中心切换、灰度中心滚动发布生产环境灰度环境外围渠道负载能力开发平台营业厅4AWEBAPPEBUS分布式缓存分布式消息队列分布式数据服务中间件统一接口平台WEBAPPEBUS分布式缓存分布式消息队列分布式数据服务中间件生产库数据库1数据库2数据库3数据库4生产版本灰度版本负载承载一个地市业务量的独立、物理灰度中心容器云运维演进方向思考18演进方向的思考PAASIAAS1-5-10探索融合的SRE实践融合PAAS+IAAS,探索基于SLA感知的最优调度能力SAAS19容器云上集群/业务中心间容器实例间容器实例内、外部容器云上下游探索容器云上下游融合的SRE实践,以1分钟发现、5分钟定位、10分钟解决为导向,目标导向推动容器云运维的稳定性迭代;探索基于SLA感知的最优调度能力,夯实容器云的调度引擎。Thanks开放运维联盟高效运维社区DevOps 时代荣誉出品20

友情提示

1、下载报告失败解决办法
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。

本文(田国良-解放运维双手能力中台赋能容器云智能化运维实践.pdf)为本站 (2200) 主动上传,三个皮匠报告文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三个皮匠报告文库(点击联系客服),我们立即给予删除!

温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。
会员购买
客服

专属顾问

商务合作

机构入驻、侵权投诉、商务合作

服务号

三个皮匠报告官方公众号

回到顶部