《2017年新ITOM 新监控.pdf》由会员分享,可在线阅读,更多相关《2017年新ITOM 新监控.pdf(23页珍藏版)》请在三个皮匠报告上搜索。
1、传统架构云架构去IOE/X86/分布式/虚拟化/容器化去IOE/X86/分布式/虚拟化/容器化IT架构的变化IT架构的变化正在发生正在发生02自动化程度低,靠人工投入改善MTTR03毫无智能化功能04监控系统主要依赖“小数据”,作用有限01不满足基于云架构的大规模集群的管理需求传统IT运维管理系统传统ITOM已经落后于新需求传统ITOM已经落后于新需求05封闭系统,可控性极差监控系统现状管理复杂管理复杂数据孤岛数据孤岛覆盖不全覆盖不全价值埋没价值埋没?系统繁多系统繁多不够智能不够智能?缺乏新架构经验缺乏新架构经验架构重构呼吁新ITOM架构重构呼吁新ITOM统一统一云架构让统一监控成为可能从应用
2、到硬件完整完整统一监控让大数据成为可能从硬件到应用的完整大数据从部件到整机的完整大数据智能智能大数据让人工智能成为可能故障预测-容量预测-流量预测-业务异常闭环闭环大数据让服务自动闭环成为可能故障报警-定位-自动治愈 新监控需要基于云架构,支持大规模集群弹性伸缩 新监控需要基于云架构,支持大规模集群弹性伸缩 新监控需要作为核心引擎,拉通和接管管理系统和控制系统中的自动化职能 新监控需要作为核心引擎,拉通和接管管理系统和控制系统中的自动化职能 新监控需要作为企业IT大数据的采集源头,衍生智能运维的各项场景 新监控需要作为企业IT大数据的采集源头,衍生智能运维的各项场景新监控将成为新ITOM的核心
3、拉通监管控的隔阂,赋予监控新价值AI-Monitor/AIOps市场趋势AI-Monitor/AIOps市场趋势AIOps定义AIOps定义:AIOps平台是一套软件系统,整合了大数据和AI人工智能或机器学习功能,用于增强和部分替代大范围的IT运维流程和任务,包括可用性、性能监控、事件关联和分析,IT服务管理和自动化。纵横打通的“统一”监控纵横打通的“统一”监控纵向打通横向打通资产数据性能数据故障数据配置数据覆盖全面的“完整“监控覆盖全面的“完整“监控服务器监控数据全集IPMILinkedSee灵犀数据采集项确定可以抓取的7项;有些厂商支持有些不支持的21项;确定不可以抓取的81项确定可以抓取
4、109项除了IPMI,通过smbios,cpu原生接口,硬盘/raid原生接口和sysfs抓取每一项数据都是曾经出现过的疑难杂症每一项数据都是曾经出现过的疑难杂症衍生功能支持基本的整机层故障监控和报警1,更细粒度的硬件监控:CPU,硬盘更多数据2,更好的故障报警:分级,压缩去重,在线值班3,额外的可选价值:资产管理,到货验收,健康评级4,真正的智能功能:故障预测,智能修复,智能节能磁盘为例服务器磁盘设备文件缺失Critical服务器磁盘设备文件缺失,可能由于设备正在使用中被移除,以及磁盘物理故障引起,建议查看磁盘进行确认或重启系统服务器磁盘不可访问Critical服务器磁盘不可访问或访问报错,
5、可能由于磁盘物理故障及连接不良引起,建议查看磁盘进行确认服务器磁盘设备文件漂移Warning服务器磁盘设备文件发生漂移和变迁,可能由于设备正在使用中被移除及重新使用引起,建议查看磁盘进行确认及进行在线修复服务器磁盘SMART属性错误Critical服务器硬盘SMART属性超过自身阈值,可能由于磁盘老化或者机房环境不良导致,建议更换磁盘服务器磁盘硬件错误Critical服务器磁盘硬件错误,可能由于磁头组件、马达主轴、电子电路或伺服系统损坏导致,建议更换磁盘服务器磁盘存在已报错故障扇区 Warning服务器磁盘存在已报错故障扇区,可能由于数据、标志信息、校验码、地址信息等故障导致,建议查看磁盘进行
6、确认及进行在线修复服务器磁盘存在潜在故障扇区Warning服务器磁盘存在潜在故障扇区,可能由于数据、标志信息、校验码、地址信息等故障导致,建议查看磁盘进行确认及进行在线修复服务器磁盘已报错故障扇区过多 Critical服务器磁盘出现大量的故障扇区,无法进行修复,建议更换磁盘服务器磁盘大量报错Warning服务器磁盘大量异常报错,无法使用,建议更换磁盘数据完整特性”服务器数据采集项”数据完整特性”服务器数据采集项”发现问题发现问题除抖分级压缩去重智能发送故障定位故障修复事件闭环解决问题的“后服务“能力解决问题的“后服务“能力解决问题解决问题知识沉淀监控贯穿问题全生命周期大数据时代的“智能“监控大
7、数据时代的“智能“监控 010203人工人工基本监控人工逻辑分散经验自动化自动化故障推理推理逻辑规则经验智能智能学习预测联动4大指标体系IT运营能力评估模型服务器采购成本+网络设备成本+布线+IDC+带宽+软件+外包+其他TCOTCO总体拥有成本总体拥有成本上线效率,修复效率,资源使用效率效率效率业务交付效率业务交付效率99%-99.9%-99.99%可用性可用性IT可用性IT可用性专利Paper行业影响创新性创新性同行对比同行对比IT运营能力评估模型:IT运营能力评估模型:4大指标体系4大指标体系1,for SLA 1,for SLA 基于云架构基于云架构2,for TCO-2,for TC
8、O-基于云架构基于云架构3,For MTTR-3,For MTTR-现状现状010203发现问题定位问题处理问题发现问题定位问题处理问题故障响应时长也会是痛点告警漏发-单通道平均送达率92%告警漏发-单通道平均送达率92%告警延迟-拥塞时段告警送达延迟4小时以上告警延迟-拥塞时段告警送达延迟4小时以上告警漏看-凌晨时段!短信风暴淹没告警漏看-凌晨时段!短信风暴淹没登录06:10登录06:10通知到达04:00通知到达04:00解决问题07:00解决问题07:00分析告警06:15分析告警06:15查看预警06:50查看预警06:50定位故障06:40定位故障06:40发现故障02:00发现故障
9、02:003,FOR MTTR-3,FOR MTTR-现状现状智能监控实践:智能监控实践:故障根因定位故障根因定位无效告警信息过多哪种故障需要告警?哪些业务需要告警?告警等级如何划分?如何做到精准有效的告警?故障关联关系缺失告警信息间如何合并?故障依赖关系如何定义?故障影响范围如何?跨部门协调问题如何提高不同运维小组的故障处理协作效率?历史经验未有效积累重复性的故障如何快速处理?人员变更如何快速上手?疑难故障如何形成思路?智能监控实践智能监控实践:故障根因定位故障根因定位人工智能OPTIONS诊断型专家系统烦躁氟乙酰胺心跳加快多汗亚硝酸盐毒鼠磷氰化物YesYesNoYesNoNo知识库:规则集
10、推理机:思维方式解释器:why how智能应用实践智能应用实践:故障根因定位故障根因定位智能监控实践:智能监控实践:故障根因定位故障根因定位硬件监控网络监控OS监控中间件监控数据库监控应用监控日志监控CMDBCMDB用户用户告警平台告警平台存储监控流程系统流程系统工单系统工单系统告警接收告警接收资产链路资产链路故障关联故障关联知识管理知识管理故障追查故障追查故障分析故障分析结果通告结果通告故障定位故障定位故障处理故障处理智能监控实践:智能监控实践:故障根因定位故障根因定位设计决策推理树设计决策推理树-预置资产管理属性-规划业务链路-定义资产拓扑分析资产拓扑关系分析资产拓扑关系-持续调优持续调优
11、-告警标准化-定义告警字段梳理现有告警梳理现有告警-知识库经验转化-故障分析模型梳理-决策树引擎模型-可编程化推理流程-推动监控优化-推动经验树优化-推动建设优化-推动运维优化智能监控实践:智能监控实践:故障根因定位故障根因定位 端口告警告警时间告警级别告警源告警内容告警时间告警设备告警类型告警组件业务归属服务器交换机虚拟机业务应用端口服务器告警虚拟机告警端口是否有告警有:端口故障无:主机是否有告警有:主机故障无:虚拟机是否有告警有:虚拟机故障无:EXSI配置告警虚拟机告警50%疑似主机故障输出定位:端口故障业务链路统一告警决策树智能监控实践:智能监控实践:故障根因定位故障根因定位拓扑结构推理逻辑定位结果整个过程整个过程:拓扑梳理-定位推理-结果展示