《阿里云大数据计算平台基于 AIOps 的根因定位实践-张颖莹 .pdf》由会员分享,可在线阅读,更多相关《阿里云大数据计算平台基于 AIOps 的根因定位实践-张颖莹 .pdf(31页珍藏版)》请在三个皮匠报告上搜索。
1、阿里云大数据计算平台基于AIOps的根因定位实践阿里云算法专家/张颖莹演讲大纲阿里云大数据运维背景010203大数据运维中的根因定位阿里云根因定位实践0405根因定位背后的算法和工程链路总结和展望阿里云大数据运维背景阿里云大数据运维背景01阿里灵杰阿里云大数据计算平台阿里云ABM 运维中台大数据计算平台典型业务场景大数据计算服务MaxCompute实时计算Flink版实时数仓Hologres智能运维AIOps大规模架构复杂核心业务效率稳定性成本AIOps海量多源异构数据实时性大数据运维中的根因定位大数据运维中的根因定位02根因定位业务价值问题发生异常发现根因定位问题恢复Mean Time To
2、 Resolve(MTTR)缩短MTTR,保障SLA(Service Level Agreement)根因定位问题定义当我们在谈论根因定位时,我们究竟在谈论什么?维度下钻根因分类因果推断核心挑战庞大搜索空间特征构建因果图构建和推断定位结果根因维度根因类别根因节点/路径根因定位的普遍性难点数据来源和类型复杂指标间存在复杂的关联关系标注样本数量少性能和实时性要求高全新的根因类型或表现形式专家经验与模型能力的结合阿里云根因定位实践阿里云根因定位实践03案例1:多维数据下钻分析服务整体流量指标地域用户集群应用机房应用Q:哪些维度导致了服务整体流量下跌?具体是哪几个用户/机房?难点解决方案显著度(自身变
3、化)惊喜度(子节点分布)贡献度(总体占比)面对庞大的搜索空间如何提升性能如何量化一个维度是根因的可能性自动选择最优的搜索方向快速剪枝高效的数据结构(BitMap)案例1:DrillUp下钻分析框架案例2:计算平台故障根因类型定位模块FlinkFlinkMaxComputeMaxComputeHologresHologres根因类型资源调度YARN NM decommissionedFuxi master failASI server overloadYARN RM switchFuxi tobo failASI node failYARN resource preemptionFuxi api
4、server overloadASI apiserver overload存储HDFS service unavailablepangu server unavailableHDFS usage over limitpangu master failoverHDFS call queue fullpangu master queue size fullpangu server write slowpangu chunkserver failover机器oomio hangdisk failurecpu usage over limitmachine breakdown网络martnet exc
5、eptionqos exceptionlvs exception其他Upstream-TTTunnelPOPUpstream-SLSFrontendDNSQ:故障发生时是平台哪个模块导致的?具体是哪种类型的原因?案例2:计算平台故障根因类型定位特征构建事件指标日志拓扑异常检测日志聚类log实时在线聚类指标构建NLP层次聚类日志类别维度案例2:计算平台故障根因类型定位样本积累故障演练数据增强FlinkMaxComputeHologres案例2:计算平台故障根因类型定位定位模型事件指标日志实体关系拓扑专家定义的根因类型值为0/1的时间序列指标层根因层模块1模块2模块3类型1类型2类型3基于知识的层
6、次贝叶斯网络(KHBN)指标层因果关系构建 PC Algorithm根因分类 条件概率typei=argmaxtiP ti|mk,s1,s2,sj P mk|s1,s2,sj 案例2:CloudRCA根因定位框架预处理指标向量化(Word2Vec)实时聚类(Hierarchical Clustering)异常检测模板提取(AFT-tree)实体关系基于知识的层次贝叶斯网络(KHBN)根因推断日志聚类特征数据(标准化0/1时间序列)带标注样本数据故障演练日志存储系统周期识别和分解PMDB事件中心事件日志1 Zhang Y,Guan Z,Qian H,et al.CloudRCA:A Root C
7、ause Analysis Framework for Cloud Computing PlatformsC/Proceedings of the 30th ACM International Conference on Information&Knowledge Management.2021:4373-4382.整合多源异构数据融合了专家知识和数据智能的 层次贝叶斯网络可应对全新的故障类型可迁移的通用学习框架优势优势CMDB案例3:网络故障根因类型定位ICASSP22 AIOps Challenge网络智能运维大赛Q:根因是哪种类型或哪几种类型的组合?案例3:网络故障根因类型定位特征构建时
8、序特征tsfresh方位特征方向+距离利用归因模型进行拓展缺失特征特征依赖拓展出交叉特征案例3:网络故障根因类型定位数据增强标签拓展未打标数据标签拓展已打标数据标签补充时间戳对齐多维时间序列相似度计算Eros(Extended Frobenius norm)案例3:网络故障根因类型定位定位模型融合模型分类模型规则生成模型归因模型因果图模型XGBoost基于树模型的规则生成Skope-rules 特征重要性计算Shapley value PageRank随机游走案例3:NetRCA根因定位框架原始数据特征工程时序特征方位特征补全特征交叉特征数据增强样本相似度计算样本标签补全集成模型派生数据分类模
9、型规则生成模型归因模型图模型根因推断结果充分挖掘的时序特征和特征间的关联关系优势优势2 Zhang C,Zhou Z,Zhang Y,et al.Netrca:an effective network fault cause localization algorithmC/ICASSP 2022-2022 IEEE International Conference on Acoustics,Speech and Signal Processing(ICASSP).IEEE,2022:9316-9320.充分利用了未打标的数据集成模型兼顾了准确性和可解释性根因定位背后的算法和工程链路根因定位背后
10、的算法和工程链路04根因定位算法工具箱AIOps背后的数据和工程链路数据采集运维中台计算服务算法服务AIOps平台指标运营性能指标库PMDB事件中心日志中心SLS配置管理库CMDB流程平台通知服务作业平台MaxComputeFlink机器学习平台PAI异常检测日志聚类因果推断MaxCompute/Flink/Hologres系统异常根因定位稳定性SLA指标平均故障发现时间平均故障处理时间数据存储指标告警/操作事件日志实体拓扑关系总结与展望总结与展望05总结效率稳定性成本AIOps问题发生异常发现根因定位问题恢复Mean Time To Resolve(MTTR)维度下钻根因分类因果推断DrillUpCloudRCANetRCA数据来源和类型复杂指标间复杂的关联关系性能和实时性要求高标注样本数量少全新的根因类型或表现形式专家经验与模型能力的结合时序分析日志分析归因模型拓展特征因果分析剪枝Flink故障演练数据增强因果推断因果图构建思考和展望数据来源特征工程样本积累模型构建云原生云原生数智运维平台数智运维平台https:/