上海品茶

您的当前位置:上海品茶 > 报告分类 > PDF报告下载

2019年数据中心基础设施智能运维白皮书(12页).pdf

编号:75593 PDF  DOCX  12页 5.08MB 下载积分:VIP专享
下载报告请您先登录!

2019年数据中心基础设施智能运维白皮书(12页).pdf

1、数据中心基础设施智能运维白皮书数据中心基础设施智能运维白皮书1当前大部分数据中心的运维安全依赖于富有经验、训练有素的运维团队,部分成熟的数据中心已经开发出完善的运维流程和培训体系,并用以减小偶发事件及人员变动对运维安全的冲击,少数先进的数据中心已经在寻求通过数字化、智能化手段来保障数据中心运维安全的可持续性。本白皮书划分了从传统运维到智能化运维的 5 个阶段,以及每个阶段的典型特征,一 方面,数据中心的管理人员可以根据这些信息明确当前所处的阶段,以及演进和优化的目标。另一方面,对于处在传统运维阶段的团队,本白皮书介绍了数据中心基础设施可用性管理全景及对应的数字化,智能化措施,利用这些信息,运维

2、团队能更好地规范运维管理,制定智能化运维升级的计划,并能指导运维团队从传统运维向智能运维转型,在智能化运维工具的帮助下,实现运维更高效、更安全并可持续的业务目标。INTRODUCTION简介数据中心基础设施智能运维白皮书2图 1 展示的是运维从传统运维到智能运维的阶段演进,横坐标是智能化进展,纵坐标指的是运维流程的完备和复杂度,在传统运维阶段,智能化手段不多,运维安全主要依靠运维团队的经验和技能,管理的可持续性则依赖流程制度,和不断完善培训体系,随着流程制度的不断完善,运维效率会有所降低,但随着运维团队对流程制度熟练应用后,效率会有所恢复,在传统运维阶段,存在几个潜在的误区:1、对运维团队或者

3、个人的过度依赖,往往导致熟练流程建设及经验积累;2、对流程的僵化使用,最终会导致运维团队对流程失去耐性,而导致实际运维操作完全偏离流程本身,因为运维团队需要讲流程跟实际情况结合,在不影响流程节点结果输出的情况下匹配实际情况,做到这一点需要运维团队具备丰富的运维经验;3、一些经验丰富、流程制度成熟的运维团队往往会陷入过于自满的误区,错误排斥任何智能手段,拒绝对运维效率改善的建议,固执的认为效率提升必然影响到运维安全。智能运维阶段,会通过数字化、智能化手段不断的固化和简化流程,“云化”运维专家,自动化手段取代人力等,大幅提升运维效率,运维安全不受影响甚至更安全,智能运维不仅能解决当前数据中心运维人

4、力短缺的困境,还能通过对流程、经验和技能的不断固化、优化来彻底摆脱数据中心运维对人和团队的依赖。数据中心智能运维演进智能化程度运维演进传统运维智能运维运维流程 图 1数据中心基础设施智能运维白皮书3为了定义清楚传统运维、智能运维的变化和演进,这里划分了 L0L5 阶段,并详细定义了每个 Level 的典型特征:五大运维阶段L0L2L4L1L3L5 无标准化流程 无培训体系 个人承担职责 运维质量无法评估 标准化流程但僵化 有培训体系 依赖核心骨干 运维质量评估难,可持续性差 流程电子化并持续优化 数字技术全面应用,AI 主导部分关键工作 运维质量可评估,不再依赖人和团队 基础设施实现自动运维

5、运维效率达到极致 基础设施资源自动跟 IT 及云业务协同 自动感知、自动调整,故障自动闭环 智能预测业务需求,智能协同 数据中心无人值守 流程成熟完备 重视培训体系 部分的借助自动化工具 运维质量有保障,重视团队建设,可持续人工运维规范运维规范运维数字运维自动运维完全自动运维L0 手工运维无标准运维流程,依赖个人或团队的经验,运维质量无法评估L1规范运维已经形成标准化流程,可以通过培训等手段对运维团队循环赋能,但普遍存在部分流程过于僵化,或部分实践游离于流程之外的问题,运维效率较低,对团队及核心骨干的依赖度很高,运维质量评估难,自动化程度较低,使用的监控、自动控制等系统辅助运维L2成熟运维运维

6、流程趋于成熟,运维质量有较好的保障,但运维效率不高,重视运维团队的建设,团队能力通常有较好的延续性,但无法自主优化;辅助系统较为完备,部分核心子系统具备自动化能力L3数字运维在 L2 的能力基础上,通过信息技术数字化运维活动,管理和驱动运维流程的执行,且基于大数据分析能持续优化,运维质量可以准确评估,运维效率大幅提升;关键子系统如,配电和制冷实现自动运维,基础设施资源能够感知 IT 及云业务需求变化并完成闭环管理,AI 等机器智能在节能、故障预测等特定领域取代人类智能L4自动运维基础设施实现自动运维,不再需要单独的基础设施工程师,通常由 IT 工程师兼职,基础设施运维效率达到极致,运维流程复杂

7、度大幅下降,基础设施资源能够根据 IT 及云业务需求变化动态调整,机器智能全面覆盖运维工作L5完全自动运维基础设施自动感知及预测 IT 及云业务自动做出最佳调整,对于可能的业务故障闭环自动化管理,真正实现数据中心无人运维数据中心基础设施智能运维白皮书4基础设施运维涵盖了几大块工作:物理安全管理、基础设施可用性管理、机房容量管理、供应商管理及综合管理,其中可用性管理是运维最主要的工作,包括了大部分日常活动,如巡检、设备定期维保、风险管理、检修和应急演练等基础设施运维全景 数据中心数字运维平台 进出登记 机房巡检 权限审视 Hosting 授权 刷卡记录 存储介质记录 钥匙审视 物理安全 CP 机

8、房巡检 基础设施巡检 设备维保 风险自动管理 重大检修 应急演练 设备全生命周期 可视化 IT 上架管理 容量需求管理 评价管理 合同管理 沟通管理 服务报告 综合报表统计 机房运维报告 机房需求管理 ITSM 系统对接 微服务化框架 域权限管理 移动 APP 架构物理安全可用性管理容量管理供应商管理综合管理数据中心基础设施智能运维白皮书5数据中心运维人员定期会对机房进行巡检,检查机房安防、消防、空调、配电等是否正常,机房有无异味等内容,传统运维使用纸质表格对巡检项打勾或叉,以及相关备注。纸质巡检不方便查阅,很难做出优化分析,电子巡检数字化所有流程和人的活动,能够监督 IT 运维人员执行情况,

9、并给出用户最关注的分析建议,如巡检执行情况、执行效率、完成进度等。通过 DCIM+APP 的方式,实现日常巡检的规范化和电子化。 电子巡检通过系统自动执行 PDCA 循环,实现运维过程的移动化、标准化、可视化、可优化: 任务管理(Plan):系统提供日常巡检任务模板,管理员可根据模板设计任务名称、巡检内容、巡检路线、巡检频次等,并通过任务单的方式下发给巡检工程师。 “电子巡检PlanDoCheckAction运维活动的数字化、智能化实践运维数字化是指对运维流程、人的活动、执行结果的数字化,通过数字化可以规范人的行为,降低人误操作导致的风险,可以通过模板及任务的自定义及不断扩展来持续优化运维流程

10、,有了全程数字记录,对执行结果不仅是可视,还可以对结果进行分析,根据分析结果来优化运维管理,例如:数据中心基础设施智能运维白皮书6模板及任务优化(Action):优化巡检模板或者调整巡检任务,如根据实际情况动态调整巡检频次,或对 UPS 巡检增加检查项等。APP 巡检(Do):巡检 APP 支持问题快速记录、支持现场拍照、支持一键上传巡检报告。 按时发起巡检任务,包括每天定时巡检及每周定时巡检; 发送短信或邮件进行提醒; 巡检人用自己的账号登陆手机 App; 获取当前巡检设备类型信息; 根据设备类型信息,通过 DCIM 自动获取设备关键指标实时信息,跟设备面板显示示数做确认即可,对于一些重要设

11、备状态或运行参数进行拍照,设备的巡检结果实时上传后台,后台会利 AI 技术自动比对分析,确认巡检结果是否合格。任务执行检查(Check):巡检执行情况及质量检查图 4 巡检任务总览数据中心基础设施智能运维白皮书7在传统模式下,风险主要来自人工输入,数字运维风险识别除了通过监控系统发现、专家组织识别外,在运维活动中会自动识别风险,自动触发风险管理,如电子巡检中发现的不遵从项,可以直接产生一项风险(规则在巡检模板中定义),这样可以给运维团队带来最大的好处:运维安全依赖 DCIM 系统,而不像传统模式下完全取决于运维团队的技能和责任心。自动风险闭环管理图 5 风险总览图 6 风险闭环流程数据中心基础

12、设施智能运维白皮书8AI 在基础设施运维活动中有广阔的应用前景,特别是在设备故障预测方面,有效的样本数据结合人工经验能够快速训练出较高准确度的故障预测模型,通过对设备故障的预测,可以把例行的巡检、保养变成更有针对性的运维活动,随着预测准确率的不断提升,最终可以取消日常的人工运维。如图 7 是一个典型的对供电链路进行 AI 故障预测的示意图,AI 训练平台负责故障预测模型的训练,训练需要的样本数据来自 DCIM 采集系统,样本数据包括了故障特征数据:如温度、电压 / 电流、声音和图像等,人工经验或者已经测定的规则可以大大降低训练难度,并可以取得更好的预测效果,如图 8 中电容等电子元器件故障跟温

13、升的相对确定的关系,可以帮助 AI 获得更好的预测能力。 图 8温度时间预测告警阈值过载音视频采集 图 7声音 / 输出波形 /温升曲线训练AI 训练平台模型导入声音传感采集器DCIM谐波三相 / 铁芯温度环境温度三相电流 / 电压 / 功率 / 负载率负载输出波形市电变压器配电故障预测性维护华为技术有限公司深圳市龙岗区坂田华为基地电话: (0755) 28780808邮编: 518129免责声明本文档可能含有预测信息,包括但不限于有关未来的财务、运营、产品系列、新技术等信息。由于实践中存在很多不确定因素,可能导致实际结果与预测信息有很大的差别。因此,本文档信息仅供参考,不构成任何要约或承诺。华为可能不经通知修改上述信息,恕不另行通知。版权所有 华为技术有限公司 2019。保留一切权利。夏玉学 目前负责华为数据中心能源 DCIM+ 产品架构设计及全球拓展,其职业生涯起始于基础设施及 IT 领域,多年来他一直专注于基础设施监控管理软件的开发、架构设计、规划和市场拓展。白皮书作者简介:黄晓春 目前负责华为企业级数据中心(EDC)运维运营,拥有超过 10 年的数据中心运维管理经验。历经华为第一代企业级数据中心的运维保障、退役和业务搬迁,以及第二代企业级数据中心的建设、验证和运行管理。

友情提示

1、下载报告失败解决办法
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。

本文(2019年数据中心基础设施智能运维白皮书(12页).pdf)为本站 (奶茶不加糖) 主动上传,三个皮匠报告文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三个皮匠报告文库(点击联系客服),我们立即给予删除!

温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。
会员购买
客服

专属顾问

商务合作

机构入驻、侵权投诉、商务合作

服务号

三个皮匠报告官方公众号

回到顶部