上海品茶

您的当前位置:上海品茶 > 报告分类 > PDF报告下载

2018年飞天基础设施智能运维创新和实践.pdf

编号:95849 PDF 23页 2.60MB 下载积分:VIP专享
下载报告请您先登录!

2018年飞天基础设施智能运维创新和实践.pdf

1、飞天基础设施智能运维创新和实践01020304飞天基础设施业务介绍飞天基础设施智能化进展针对稳定性提升的智能化实践总结&展望飞天基础设施业务大图向基础设施全新的运维模式演进-AIOpsAIOps所有操作线上化规范,效率,数据积累过程结果数字化透明,可衡量,智能化的基础分析决策智能化准确,高效,全局优化飞天基础设施技术演进路线自动化数字化智能化01020304飞天基础设施业务介绍飞天基础设施智能化进展针对稳定性提升的智能化实践总结&展望DCDC-BrainBrain:飞天基础设施智能运营决策平台规模应用落地场景集群和服务器智能化运维大规模计算系统供应链智能化数据中心智能化运维供应链智能化整体方案

2、:针对供应链特点,打造需求、运营、分析、决策智能化方案 实现数据驱动、基于算法的需求预测、库存优化、TCO分析和优化自动闭环环境:打通自动化工具和系统平台与智能化算法的闭环系统 为未来进行先进AI算法和系统探索、部署奠定基础数据中心智能化运维目标:针对数据中心电热性能进行优化包括:冷量预测控制、Power预测控制、IDC电热感知、PUE优化等 对现场运维进行智能化改造包括:多媒体信息处理巡检、安防视频识别、工单智能派发等集群智能化方案:提升集群和服务器的稳定性和可靠性包括:服务器和部件故障预测,跨域关联,根因分析,规则生成 提升集群资源利用率和流转率包括:集群资源异常检测,关联分析智能决策01

3、020304飞天基础设施业务介绍飞天基础设施智能化进展针对稳定性提升的智能化实践总结&展望云的稳定性是客户关注的重中之重超过半数的全球财富500强企业,每周至少会经历超过1.6小时【2】的服务不可用时间美国67个数据中心,平均宕机成本代价是$9,000/分钟【1】阿里云始终把稳定性和安全性放在第一位并且不断尝试采用先进智能化技术,提前发现,主动解决问题。Reference:【1】https:/ 集群利用率异常检测 低水位和闲置智能判断和预警服务器&部件故障预测智能管理&修复 集群自动管控 故障智能化在线修复决策集群和服务器智能化布局 硬盘故障预测 内存宕机故障预测 根因分析实现从专家规则-智能

4、分析的演进实现问题和故障的处理方式,从被动响应-主动发现-提前预测集群和服务器智能运维 大量的数据缺失和噪音 如何有效构造时间序列和序列数据特征 数据样本极不均衡 正样本占比 远小于 1%高效、快速检测数据分布和特征重要性变化 提供长期稳定预测噪音&特征数据不均衡动态可适配预测性维护关键技术挑战00.20.40.60.803104Raw ValuesDensity200172018实践1:HDD1:HDD故障预测数据不均衡动态可适配噪音&特征 年化故障率1%1%按天预测,故障样本比例为万分之0.30.30.80.8 标注方案非标准化 数据(特征)噪音

5、+标注噪音 故障类型占比分布发生变化 重要特征分布发生变化重要特征数据分布变化典型故障分布占比变化三大核心挑战00.20.40.60.803104Raw ValuesDensity200172018RODMANRODMAN:A A rorobustbust d disk failure predictionisk failure prediction manmanagement pipelineagement pipeline整体解决方案Bayesian Change Detection检测变点发现Pre-failing状态并增加正样本提前发现模式突

6、变点,进行预测提前发现模式突变点,进行预测正常硬盘 Vs.不同类型故障硬盘关键指标对比统计特征特征工程 针对时间序列数据 多种不同维度统计特征生成专家知识 结合专业领域知识,进行特征构造模型生成 采用深度学习进行特征构造多种特征工程方案RodmanRodman与业界方案对比 RGF RGF:KDDKDD 1616 RF RF:ATCATC 1717 误报率FPRFPR 0.04%0.04%条件下,A1A1硬盘故障预测覆盖率(左)误报率FPRFPR 0.08%0.08%条件下,B1B1硬盘故障预测覆盖率(右)针对典型HDDHDD厂商大规模硬盘进行部署预测,每月可提前准确发现数百块故障硬盘避免PB

7、PB级别数据可能的丢失预测结果分析实践2 2:服务器宕机预测差异化的挑战:如何通过领域知识对多种日志进行分析和筛选如何准确判断序列数据的异常变化如何从半结构化的日志数据(序列)中构提取判别性的特征挑战及整体方案宕机问题来源占比1 1)通过领域知识及特征重要性分析,将有效日志类型从1515种减少到5 5种2 2)借助统计分析,进行统计特征构造3 3)利用算法和模型,生成特征LDALDA主题收敛公式DSPMDSPM返回特征数量上界日志过滤&多种特种构造方案宕机前loglog中关键事件数量19经过大规模集群上长周期测试,PrecisionPrecision稳定在50%50%以上预计上线后,能提前1

8、1小时以上进行宕机预测,使内存引发的宕机问题降低50%50%,整体宕机次数降低10%10%预测效果不同PrePre-failingfailing时间窗实验效果不同预测命中时间分布01020304飞天基础设施业务介绍飞天基础设施智能化进展针对稳定性提升的智能化实践总结&展望对于AI,我们应该期待什么?-AI World 2016,李航“不论是人工智能还是其他前沿技术,都离不开高质量的数据、强大的计算平台和高效的算法。只有这三件事放在一起,才能真正在机器学习和人工智能领域取得突破。”阿里巴巴CTO&阿里云智能总裁 张建锋智能化可行性系统用户数据算法201820192020自动化和数字化准备构建完整的自动化和数字化体系智能化探索在多个领域开始智能化探索规模化落地应用在弹性计算、存储等领域推动规模化应用进而覆盖整个阿里云和集团业务在大规模应用中提供 稳定的在线智能化服务 是未来主要重心展望和规划

友情提示

1、下载报告失败解决办法
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。

本文(2018年飞天基础设施智能运维创新和实践.pdf)为本站 (云闲) 主动上传,三个皮匠报告文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三个皮匠报告文库(点击联系客服),我们立即给予删除!

温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。
会员购买
客服

专属顾问

商务合作

机构入驻、侵权投诉、商务合作

服务号

三个皮匠报告官方公众号

回到顶部