《马旭华-大规模节点故障预测技术实践-v2.pdf》由会员分享,可在线阅读,更多相关《马旭华-大规模节点故障预测技术实践-v2.pdf(24页珍藏版)》请在三个皮匠报告上搜索。
1、大规模云计算下节点故障预测AIops技术实践马旭华 阿里云演讲嘉宾马旭华阿里云高级技术专家负责弹性计算产品的异常智能预测体系团队,负责AI算法在弹性计算产品稳定性体系的算法工程体系研发,聚焦于故障预测技术,受损感知,异常检测等领域的AIops系统研发目 录CONTENTS1.大规模节点故障预测的背景&问题定义2.大规模节点故障预测的问题(数据/算法/工程)3.大规模节点故障预测实践4.总结与展望大规模节点故障预测的背景&问题定义PART 01背景 弹性计算产品介绍又名云服务器ECS(Elastic Compute Service)云计算最核心基础IaaS服务之一 让大家像使用水、电、天然气等公
2、共资源一样便 捷、高效地使用服务器,实现计算资源的即开即用和弹性伸缩 ECS稳定性目标:用x86的硬件,提供小型机级别的稳定性 现实目标体感可用率体感可用率小型机X86服务器10X小型机X86服务器ECSX86ECS平台VMVMVM热迁移识别问题 宕机,夯机,抖动现象:ECS资源100%不可用,多数因基础设施、服务器硬件或底层软件 原因导致。影响:所有未持久化的数据和配置都将丢失,该ECS实例上的业务将完 全中断。现象:ECS资源服务时断时续,甚至某些核心功能不可用或无法连接和 操作。如:OS 夯,IO hang等。影响:未持久化数据尚未丢失,但整个ECS几乎无法使用,有时甚至无法恢复、没有备
3、份的机会。现象:ECS资源核心服务可以正常使用,但在极端情况下会出现网络或 性能抖动。影响:着重影响抖动敏感用户,性能抖动可能导致用户压测等容量规划 付之东流,甚至可能因抖动引发用户应用系统雪崩效应,导致整体业务中断。宕机夯机抖动定义算法问题 Fault/Error/Failure predictionFault predictionFailure prediction标签简单标签难度大静态runtime状态变化突发性实时性需求低实时性要求高硬件传感器数据依赖full stack数据Failure Prediction:节点Failure预测(宕机,夯机,性能受损)Error Predicti
4、on:UE(内存、PCIe、CPU)Prediction Fault prediction:硬件失效预测(内存,Disk Fault Prediction)大规模节点故障预测问题(数据/算法/工程)PART 02AIops工业落地需要解决的问题提升问题可解上限(数据质量,数据覆盖率)提升业务场景覆盖面(算法架构,算法工程系统)业务场景数据算法&特征算法工程业务问题算法问题面积=业务价值数据建设的问题与挑战:数据质量和复杂度质量:算法“可用”的数据复杂度:横纵向技术栈机器覆盖率(采集一致性,发布效率)特征数据覆盖率(平台差异,特征精细度)数据准确率(标签,数据清洗)现状:业界无开源数据集,技术栈
5、复杂,需要大规模环境下下长期积累算法面临的问题与挑战:适配故障预测问题的算法框架缺失现状与问题:改造问题与数据来适配算法框架特征工程复杂度高/可复用性低样本极度不均衡算法可解释性节点故障预测图像处理NLP同质数据:单词数据维度:一维序列特性:局部相关性/远程相关性,位置敏感同质数据:像素数据维度:2/3维特性:局部相关性/平移/缩放不变性多模态泛时间序列预测问题异质数据:单词/数值序列/异常特征数据维度:多维(远3维)特性:局部相关性/远程相关性多模态/时间敏感设计算法框架适配故障预测问题算法工程系统的问题与挑战:实时性,数据污染,风险控制大规模下预测实时性要求高(延时需求,计算复杂性,规模)
6、算法迭代(模型退化),上线的准确性评价(误预测结果污染标签导致性能衰退)“黑盒”模型,大规模运维风险控制 Reference from“Hidden Technical Debt in Machine Learning Systems”大规模节点故障预测实践PART 03数据采集系统-full stack数据&高准确率标签CPU内存主板电源/风扇OS日志Kernel日志coredump资源隔离虚拟化组件云网络组建管控运维组建CIPU组件块存储组件.硬件故障资源争抢服务器掉电.网络设备异常IDC环境异常基础设施工单.实例crash心跳异常实例hang.资源争抢IO Hang网络延时高.硬件OS内
7、核IDC物理网络服务器层基础设施层.功耗温度供电暖通网络丢包网络延时交换机带宽状态.飞天核心组件层服务器维度基础设施维度实例维度飞天核心组件维度异常特征提取根因诊断&标注专家知识异常规则多维度特征关联分析特征关联聚合故障根因专家库ECS Fault DB异常特征ECS 业务受损IDC服务器内核网络OS压测诊断RAMOS诊断压测复现厂商FA工单工单分类工单清洗值班诊断实时数据&特征高准确率标签故障预测数据集诊断/客户服务Full stack原始监控数据采集异常数据监控诊断&根因定位数据服务2高准确率标签1Full stack数据&专家特征数据采集系统标准输出到软硬件协同数据定制硬件BIOS/BM
8、C虚拟化/内核VMCPU芯片定制(CE/MCA/ECC.etc)DDR4/DDR5(on-die ECCetc)CIPU定制FPGA/主板 etc流式数据上报Kernel first(CMCI,threshold.etc)资源利用率实例crash实例异常实例抖动Error addr全栈性能监控数据错误处理路径埋点(CE/UE)发布/变更软硬协同数据上报技术体系提升数据特征表达能力 软硬结合的数据定义&标准 更精细,更准,更快异常数据上报 Full stack异常数据内存错误数据精细化示例CE事件粒度CE cell 粒度CE ECC bit 粒度节点故障预测算法实践-自研算法架构宿主机发生CE风
9、暴硬件异常告警管控请求NC超时CPU负载陡增严重hang机超时Ping mesh超时 Model Transformer etc.Model CNN etc.故障预测通用框架-TAATor模型框架模型输入数据输出原始数据多模态时序预测TAAT-MoETAAT-XLTAAT-group embeddingTAAT-预训练节点故障预测算法实践-模型框架Hardware Fault PredictionNode Failure Prediction宕机预测模型(覆盖cpu,内存,主板,内核,虚拟化等引入宕机的预测)夯机预测性能受损预测可稳定服务预测异常Ranking模型硬盘故障预测内存UE预测模型内
10、存故障预测CPU故障预测主板故障预测硬盘寿命预测GPU故障预测 TAAT TAAT+Ranking规则挖掘算法专家经验+规则Xgboost(多分辨率时空间特征),Transformer等算法框架预测模型场景策略高提前量:提前通知+无感风险消除高准确率:实时规避宕机高召回率:无感风险消除实时故障预测实践-实时数据-特征工程链路在线离线融合SLSBlink离线数据历史数据静态数据冷数据静态数据编码历史数据预计算热数据数据融合实时数据清洗NC数据采集NC数据采集日志性能传感器数据加工预测触发器触发事件定义触发策略实时特征计算实时特征数据库冷热特征融合Dry run系统多模型实时旁路预测性能评价性能退
11、化预警特征计算监控告警特征计算特征算子特征编码实时预测运维系统实时故障预测弹性扩缩容负载均衡数据样本数据集特征数据故障标签3实时dry run系统,提升算法迭代效率1触发式+冷热特征融合,降低计算延时2特征一次计算多次复用数据集大规模节点故障预测系统实践完整-自闭环故障预测体系ECS采集系统业务内核硬件实时故障预测特征数据故障标签模型训练宕机事实验证异常调度系统自然宕机模拟负载部件压测厂商FA深层轮转主动运维热迁移异常隔离实时受损感知故障标签反馈数据底座模型生命周期管理数据链路(实时/离线)评价体系模型runtime预测算法模型ECS领域大模型自研故障预测框架(TAAT)运维决策最佳运维窗口决策实时受损预测流控dryrun硬件故障预测HDD/SSD/内存/主板/CPU.etc宕机预测宕机预测实时特征计算特征算子特征编码样本生产预测触发器事件/定时UE预测性能受损预测10年百万服务器精准打标实时故障预测(完善的运维策略,完备的上线保护)精确无感规避(实时受损预测与检测)自闭环(持续迭代的基础)PART 04总结与展望总结与展望完整、自闭环的大规模云计算节点故障预测技术体系AIops算法体系优化多模态泛时序预测算法-开放数据集基于大模型的故障预测技术实时故障预测算法效率的持续优化软硬协同的故障预测技术软硬协同的异常上报标准基于软硬协同数据的故障预测技术展望THANKS