上海品茶

您的当前位置:上海品茶 > 报告分类 > PDF报告下载

2019年万台服务器下的智能运维实践.pdf

编号:97756 PDF 36页 3.95MB 下载积分:VIP专享
下载报告请您先登录!

2019年万台服务器下的智能运维实践.pdf

1、GOP S 全 球 运 维 大 会 2019上 海 站GOP S 全 球 运 维 大 会 2019上 海 站万台服务器下的智能运维实践GOP S 全 球 运 维 大 会 2019上 海 站目录多维异常检测1智能告警合并2知识图谱构建3智能根因分析4GOP S 全 球 运 维 大 会 2019上 海 站多维监控指标概述监控指标可分为三类:1.静态阈值有固定范围,无周期性,固定阈值有效。如CPU、内存使用率。2.需调整的静态阈值无固定范围,无周期性,固定阈值部分有效。如集群响应时间。3.无固定阈值无固定变化范围,有周期性,固定阈值基本无效。如页面访问量。GOP S 全 球 运 维 大 会 2019

2、上 海 站一、固定阈值监控基于固定阈值判别异常l 简单、直观l 难以适应日益复杂的监控需求GOP S 全 球 运 维 大 会 2019上 海 站二、动态计算的阈值基于样本统计分布自动计算动态阈值l3-sigema 样本符合或近似正态分布 易受异常值影响l Tukeys test 不受少量异常值的影响 有时过于敏感GOP S 全 球 运 维 大 会 2019上 海 站三、周期性指标的异常检测背景整体规律性较强短期小幅波动较多适用场景网络出口或业务的进出流量集群和域名的访问量宏观业务数据GOP S 全 球 运 维 大 会 2019上 海 站智能异常检测GOP S 全 球 运 维 大 会 2019上

3、 海 站有监督算法LightGBMGOP S 全 球 运 维 大 会 2019上 海 站智能异常检测的效果基于数据异常程度将异常分为:普通异常、严重异常、陡变异常模型有较好的普适性适用于不同数量级的数据;适用于不同变化规律的数据;适用于不同业务的数据;GOP S 全 球 运 维 大 会 2019上 海 站目录多维异常检测1智能告警合并2知识图谱构建3智能根因分析4GOP S 全 球 运 维 大 会 2019上 海 站1.对告警的需求 告警收敛 精准告警2.告警发送策略 告警分级:邮件-微信-短信-语音 连续m次异常则告警/在m分钟时间段内有n次异常则告警 告警间隔5分钟,最多告警n次 30分钟

4、后未处理则升级,1天后未处理则提醒 告警升级后使用升级后的告警级别和接收人智能故障告警实现的基础GOP S 全 球 运 维 大 会 2019上 海 站智能告警合并合并时间窗口兼顾合并效果和告警时效性合并时间窗口为1分钟合并收益避免海量告警轰炸快速掌握故障情况辅助决策故障根因合并策略相同用户(对同一个人的告警合并)相同告警状态(异常,升级,恢复等)相同状态(异常,升级,恢复等)合并维度根据集群合并根据IP合并根据网段合并根据异常种类合并(宕机、端口不通等)根据宿主机与虚拟机的关系合并GOP S 全 球 运 维 大 会 2019上 海 站智能告警合并维度选择类比决策树算法,基于基尼值最小化自动选择

5、告警合并维度组合;G =1 )+,-+./基尼值输入:数据集=/,5,5/,5维度集=/,5过程:MergeGenerate(,)while domingini=0.5 for FinAdofor k=1 to do+=(L+)/()tempgini=1+,-+./if tempgini minginidomingini=tempginisplitdim=Fif mingini=0.5 doreturn=Ffor k=1 to doMergeGenerate(L+,)GOP S 全 球 运 维 大 会 2019上 海 站智能告警合并告警合并树算法描述:1.遍历全部备选维度,确认当前合并维度2.

6、基于合并维度划分数据集,继续选择合并维度3.到达停止条件后停止解决思路:1.设计告警合并树算法2.基于基尼值计算,得到纯度提升最高的树形划分集群=?异常种类=?合并条数=16合并条数=14合并条数=16合并条数=258tongcheng端口不通异常种类=?服务器IP=?合并条数=2GOP S 全 球 运 维 大 会 2019上 海 站智能告警合并效果GOP S 全 球 运 维 大 会 2019上 海 站智能告警合并突出重点信息GOP S 全 球 运 维 大 会 2019上 海 站智能告警合并减少告警数量告警数量变化趋势告警数量对比告警数量减少76.65%GOP S 全 球 运 维 大 会 20

7、19上 海 站目录多维异常检测1智能告警合并2知识图谱构建3智能根因分析4GOP S 全 球 运 维 大 会 2019上 海 站1.挖掘、整合割裂的运维知识 让运维大脑像运维专家一样具有运维知识和经验 全面关联,快速查询,自动更新2.运维相关的数据对象 运维主体:集群、服务器、接口、进程、服务 运维主体间关系:关联、因果、部署 运维主体的特性、规律、画像运维知识图谱让运维大脑更具智慧GOP S 全 球 运 维 大 会 2019上 海 站智能故障根因分析运维知识图谱网站结构:VIP流量分组、Nginx、Web服务、数据服务、存储服务等VIP流量分组:网站总流量、三端流量、VIP流量等调用链:服务

8、间调用关系,普通服务和存储服务的调用关系监控指标分层:服务器层(宕机)、系统层(资源使用率)、服务层(端口、进程存活)、应用层(页面、接口)、业务层(集群访问量)服务故障关系:缓存挂掉,存储服务压力增大对基础设施的依赖:对内网DNS的依赖,对流量分发服务的依赖GOP S 全 球 运 维 大 会 2019上 海 站运维知识图谱多维数据的收集数据是智能的基础 我们对数据的渴求是无限的,但现实条件的限制注定了能拿到的数据是很有限的 不断收集,逐步打通,快速迭代1.监控配置2.历史告警事件3.CMDB数据1.发布、变更操作2.数据库事件3.多平台告警1.故障关联2.服务部署、调用3.运维画像基础数据平

9、台打通关系挖掘GOP S 全 球 运 维 大 会 2019上 海 站运维知识图谱主体对齐与映射1.同一运维主体的不同表示 监控指标对齐2.相关主体的匹配映射 集群-服务部署映射 自定义业务-集群/服务映射GOP S 全 球 运 维 大 会 2019上 海 站运维知识图谱关联挖掘Apriori算法可获取频繁项集和关联规则;需多次遍历原始数据,效率较低;基于调用链获取原始数据集此时数据集普遍较小,计算效率可接受;减少随机因素干扰;不足某些指标长期告警容易造成干扰;GOP S 全 球 运 维 大 会 2019上 海 站运维知识图谱相关性检测GOP S 全 球 运 维 大 会 2019上 海 站运维知

10、识图谱指标关联图GOP S 全 球 运 维 大 会 2019上 海 站运维知识图谱服务调用链GOP S 全 球 运 维 大 会 2019上 海 站运维知识图谱集群、服务画像集群名:Cluster_A服务器类型:容器是否部署线上服务:是服务名:Service_A服务类型:SCF昨日访问量:XXX访问量均值变化趋势:XXX访问高峰时间段:10:0010:30访问低谷时间段:03:0004:00节假日峰值损失比例:40%本周告警数量:XX 直观了解集群概况 自适应配置告警阈值 全局视角判断、排查异常 多维视角服务周报 容量评估 风险预警对运维人员对运营、开发人员GOP S 全 球 运 维 大 会 2

11、019上 海 站目录多维异常检测1智能告警合并2知识图谱构建3智能根因分析4GOP S 全 球 运 维 大 会 2019上 海 站动态决策 VS 端到端模型端到端模型输入:原始数据输出:异常根因需求:海量标注数据可解释性:黑盒模型智能程度:高技术难度:高自我学习,不断进化动态决策输入:实时异常、变更事件分析:动态决策需求:实时数据,动态决策规划可解释性:高智能程度:低技术难度:适合GOP S 全 球 运 维 大 会 2019上 海 站状态机与行为树1.状态机(Finite State Machine)任意时刻都处于有限状态集合中的某一状态 接收触发,发生状态转移或保持原状态 耦合度较高2.行为

12、树(Behavior Tree)引入逻辑节点(图中椭圆节点),逻辑转换更简洁 执行行为节点(方形叶节点),行为可重用GOP S 全 球 运 维 大 会 2019上 海 站根因分析行为树1.逻辑节点 选择节点:顺序执行到成功或结束 顺序节点:顺序执行到失败或结束 重复节点:重复执行到条件2.行为节点 数据处理分析3.子树与行为节点的复用root选择节点异常事件类A顺序节点异常事件类D宕机异常子树异常事件类A选择节点异常事件类B异常事件类CGOP S 全 球 运 维 大 会 2019上 海 站根因分析行为树行为节点1.指标关联分析 关联的异常同时发生2.服务调用分析 调用服务同时出现相同/相关异常3.操作关联分析 变更操作引起异常4.曲线相似性分析 指标曲线的相似变化访问量上涨CPU负载过高响应时间过长服务无响应响应时间异常响应时间异常服务A服务B服务C调用调用上线操作服务异常时间轴回滚操作服务恢复GOP S 全 球 运 维 大 会 2019上 海 站根因分析框架GOP S 全 球 运 维 大 会 2019上 海 站根因分析样例GOP S 全 球 运 维 大 会 2019上 海 站根因分析样例

友情提示

1、下载报告失败解决办法
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。

本文(2019年万台服务器下的智能运维实践.pdf)为本站 (云闲) 主动上传,三个皮匠报告文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三个皮匠报告文库(点击联系客服),我们立即给予删除!

温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。
会员购买
客服

专属顾问

商务合作

机构入驻、侵权投诉、商务合作

服务号

三个皮匠报告官方公众号

回到顶部