2019年大规模时间序列分析与根因定位在苏宁的实践.pdf

编号：97369

PDF 33页 3.15MB 下载积分：VIP专享

下载报告请您先登录！

2019年大规模时间序列分析与根因定位在苏宁的实践.pdf

1、大规模时间序列分析与根因定位在苏宁的实践苏宁科技集团云计算研发中心监控云&AIOps研发中心2019/11/02主要内容背景介绍大规模时间序列分析未来规划异常检测平台深度剖析根因定位背景介绍:Operational 预测参考文献：Tim Januschowski.(2017).Forecasting at Amazon Problems,Methods and Systems背景介绍:智能异常检测传统检测挑战面对海量运维监控数据，需要快速止损，人工决策时间往往是小时级但人肉监控(例如ELK)不现实，决策时间往往是小时甚至天级别。对于异常点往往需要丰富的经验去识别，但是随着时间的推移，

2、业务数据的特点会发生变化，从而过去的经验也需要与时俱进的更新。智能异常检测我们的方法：AI取代缓慢易错的人力决策部分，快速发现问题并且给出决策建议（分钟级）或提前规避故障。使用历史数据结合AI算法自动更新业务经验知识。主要内容背景介绍大规模时间序列分析未来规划异常检测平台深度剖析根因定位大规模时间序列分析传统时间序列预测方法n 针对单个时间序列建模，不能充分利用时间序列之间的相关性n 每个时间序列需要足够的历史数据进行训练n 本质上只能捕捉线性关系，而不能捕捉非线性关系n 无法处理时间序列的冷启动问题：平滑系数自回归（AR）：高斯噪声传统时间序列预测方法存在的问题：状态空间模型（S

3、SM）：指数平滑（ETS）：大规模时间序列分析基于深度学习的大规模时间序列预测方法-DeepAR1、上一时刻的真实值2、当前时刻的特征计算loss网络Encoder(LSTM)Decoder(LSTM)输入1、上一时刻的真实值（训练）/预测值（推理）2、当前时刻的特征预测效果：算法原理及流程：Prosn 对相关的时间序列建立统一的预测模型，适用于海量数据场景n 可以同时进行点预测和概率分布预测n 冷启动预测，实现少量历史数据预测Consn 没有使用attention机制，LSTM对较长的时间序列可能会出现记忆丢失的问题，无法捕获长周期、季节等信息参考文献：Flunkert,V.,Salinas

4、,D.,Gasthaus,J.,and Januschowski,T.(2017).Deepar:Probabilistic forecasting with autoregressive recurrent networks.International Journal of Forecasting,arXiv:1704.04110.大规模时间序列分析基于深度学习的大规模时间序列预测方法-MQRNN计算loss预测效果：算法原理及流程：Fork decoder机制(1)MQRNN在训练时，Encoder每一个时间点的输出都进行Decoding，loss基于所有Decoder的输出计算；(2)由

5、于采用了分位数回归机制，Decoder每个时间点的输出与前一个时间点的输出无关，消除了累积误差的影响。(3)MQRNN输出为分位数矩阵，可以同时得到不同分位数上的预测值。Global_MLPLocal_MLP参考文献：Wen,R.,Torkkola,K.,and Narayanaswamy,B.(2017).A multi-horizon quantile recurrent forecaster.NIPS Workshop on Time Series,arXiv:1711.11053.大规模时间序列分析基于深度学习的大规模时间序列预测方法-MQCNNuMQCNN的Encoder采用类似Wa

6、venet的膨胀CNN，decoder与MQRNN一致Encoder部分示意图Prosn MQC的encoder为CNN，训练速度更快n 通过Dilated Conv能使模型处理更大长度的输入数据Consn 对率型数据预测效果没有计数型好使用DilatedConv可以使CNN的接收域呈指数级增长Dilated Conv1X1 Conv+ResidualCausal ConvInpusSkipsSkip+ReLU1X1ReLU1X1OutputsResidual向前 padding 感受野数量个0K 层ReLUWavenet结构图参考文献：Wen,R.,Torkkola,K.,and Naray

7、anaswamy,B.(2017).A multi-horizon quantile recurrent forecaster.NIPS Workshop on Time Series,arXiv:1711.11053.大规模时间序列分析基于深度学习的大规模时间序列集成预测方法集成模型：n 单个预测模型在不同类型的数据上性能差异较大，DeepAR模型对rate指标预测效果较好，但count指标预测效果较差，MQCNN对count指标预测效果较好，但rate指标预测效果较差n 集成模型的目标是结合各模型的优势，得到比单个模型更优、更鲁棒的结果。使用FFNN（前馈神经网络）/XGB（xgboost

8、）/RF（随机森林）/RR（岭回归）/简单加权平均（SWA）等作为stacking meta learner，最终根据评估指标自动选择最优集成模型。RateRate指标指标FFNN_ensembleFFNN_ensemble XGB_ensembleXGB_ensemble RF_ensembleRF_ensemble RR_ensembleRR_ensemble SWA_ensembleSWA_ensembledeepardeeparmqrnnmqrnnmqcnnmqcnnaverage_rmse0.061049170.0613654020.0617870370.0614374970.083

9、50.083249260.207378284 0.188028418average_smape0.055666480.0559131780.0575158390.0569882030.09760.077240894 0.3281457360.307668142CountCount指标指标FFNN_ensembleFFNN_ensemble XGB_ensembleXGB_ensemble RF_ensembleRF_ensemble RR_ensembleRR_ensemble SWA_ensembleSWA_ensemble deepardeeparmqrnnmqrnnmqcnnmqcnna

10、verage_rmse246.5465463215.2504627242.4357493 222.3948193222.6449.5706847248.0498881236.7997323average_smape0.238458970.1689674070.173943350.1834295680.23360.226921157 0.2602621930.209053173DeepARMQCNNMQRNNXGBRRRFFFNNBase ModelMeta Model自动评估选取最优模型大规模时间序列分析基于深度学习的大规模时间序列集成预测方法集成算法的设计思路及流程：n SWA 方法比较简单

11、，只要计算出相应的权重。XGB/RR/RF/FFNN等方法则相对复杂一点，需要进行如下处理：n 数据预处理：对deepar,mqrnn,mqcnn的预测结果进行标准化，使用（预测值-均值）/标准差的方法。实验表明，标准化后的集成效果好于非标准化的数据。n 模型输入：deepar,mqrnn,mqcnn的预测结果，时间序列的特征（分钟，小时，星期几等），时间序列的编号等。n 损失函数：均方差，并增加L2正则化，防止过拟合。集成模型自动评估和选择：n 使用测试数据真实值与集成模型预测值的SMAPE作为评估指标。自动选取测试集上SMAPE值最小的模型作为最终的集成模型。预测上下边界生成：n 使用集成

12、模型的预测值及各基模型的标准差作参数，采样选取合适的分位数生成上下边界。大规模时间序列分析基于深度学习的大规模时间序列集成预测方法n 上图为count型数据使用xgboost集成的效果。下图为rate型数据使用FFNN集成的效果。n 黑色为真实值；绿色，黄色和红色分别为deepar,mqrnn和mqcnn的预测值。蓝色为集成后的预测值。n 集成后的预测值比单个模型的预测值更稳定，更接近真实值。大规模时间序列分析基于深度学习的大规模时间序列集成预测方法n 下图显示的为count类型数据和rate类型数据，根据集成模型预测值，生成上下边界的效果图。n 其中：黑色为真实值；绿色，黄色和

13、红色分别为deepar,mqrnn和mqcnn的预测上下边界值；蓝色为集成后的预测值；紫色为集成后的上下边界值。n 由图可知，集成后的预测边界比单个模型的预测边界更稳定，更合理。主要内容背景介绍大规模时间序列分析未来规划异常检测平台深度剖析根因定位根因定位背景主要存在以下挑战：n 不同维度值组合之间不是相互独立的，根因的异常通常会传播到其他维度值组合，导致不同维度值组合异常的纠缠，真正的根因难于甄别n 要对异常根因进行定位，须对所有维度值组合构成的巨大空间进行搜索。以登录线为例，数据包含4个维度，总的最细粒度维度值组合数量在百万量级，而搜索空间更是百万量级的指数级别(21000000

14、)。配图来自：https:/ effect：异常传播模型，用于解决维度值组合之间异常的互相纠缠问题。v child f childf child=v parent f parentf parent potential score：用于评估某维度值组合作为根因的置信程度。=(1 ,0)蒙特卡洛树搜索（MCTS）：用于解决在巨大空间中的搜索问题。selectionexpansionevaluationbackuptill termination condition is satisfied参考文献：1 Y.Sun,Y.Zhao,Y.Su,D.Liu,X.Nie,Y.Meng,S.Cheng,D.P

15、ei,S.Zhang,X.Qu et al.,“Hotspot:Anomaly localization for additive kpis with multi-dimensional attributes,”IEEE Access,vol.6,pp.10 90910 923,2018.根因定位根因定位整体流程最细粒度指标预测异常发生预剪枝数据立方体构建数据立方体分层蒙特卡罗树搜索候选根因集最终根因根因选择根因定位流程异常时刻真实数据触发n数据准备1、最细粒度指标预测。2、依据最细粒度指标预测结果进行预剪枝，剔除大量对总指标异常几乎不构成贡献的维度值，形成预剪枝后的维度值集合。3、构建全维度

16、值（预剪枝后的）组合的最细粒度指标预测值和真实值。n层次化蒙特卡洛树搜索1、对最细粒度指标的预测值和真实值构建所有视角下的数据立方体（cuboid），例如cuboid_city、cuboid_loginType是单维度cuboid、cuboid_city_loginType是一个2维度cuboid，以此类推。2、依据数据立方体的维度数量对cuboid进行分层，单维度cuboid为第一层，全维度cuboid在最底层。3、自上而下分别对每一层的每一个cuboid进行搜索。利用上层搜索结果对下层进行剪枝后，再进行下层的搜索。搜索过程层间串行，层内并行。4、每一个cuboid的搜索结果是一个根因元素集

17、，作为最终根因集的候选集。n根因确认1、从所有cuboid的搜索结果中选择potential score最大的候选根因集作为最终根因集。2、如遇两个cuboid的候选根因集的potential score接近，根据奥卡姆剃刀原理选择最简者。根因定位蒙特卡洛树搜索（MCTS）分层搜索策略Cuboid_cityCuboid_loginType根因集1根因集2Cuboid_city_loginType剪枝搜索根因集3搜索搜索Layer 1Layer 2cuboid内部MCTS搜索策略e1e1，e2e2selection：从已构建树中选择一个节点expansion：向所选择节点添加新元素构成新的节点b

18、ackup:回溯地更新节点状态evaluation：计算新节点的potential score根因定位Hotspot应用案例某日凌晨02:26，登录成功量发生异常陡增。Hotspot将根因定位到：地区:内网IP,会员角色:4,类型:SuningUsernamePasswordAuthenticationHandler。如下图，后期分析结果验证了根因定位结果的准确性。左图为发生异常的总指标，右图为定位结果分解后的3个单维度指标。根因定位Hotspot算法的演化HotSpot存在的问题：只能对基础可加性指标进行根因定位，不能直接处理复合指标，如成功率等。容易忽略变化幅度较小的

19、异常。定位深层cuboid根因和由多个元素构成的根因时，准确率下降。计算量较大，算法运行时间较长。考虑到HotSpot存在的问题，Squeeze1算法进行改进，Squeeze的主要优势是：提出泛化的ripple effect（GRE），可以直接处理由可加性指标复合得到的指标，如成功率等。改进的potential score（GPS）对变化幅度较小的异常也较为敏感，不易忽略此类异常。当根因所在层次较深或者根因集包含多个元素时，准确率不发生明显下降。不需要构建全量数据，计算量较小，算法运行时间相对稳定。参考文献：1 Zeyan Li,Chengyang Luo,Yiwei Zhao,Yongqia

20、n Sun et al.“Generic and Robust Localizationof Multi-Dimensional Root Causes”,ISSRE 2019，Berlin,Germany,Oct 28-31,2019根因定位Squeeze算法基本原理Squeeze算法分为两个主要的环节：通过Bottom-Up Searching缩小搜索空间、通过Top-Down Localization进行根因定位。n Bottom-Up Searchingdeviation based filtering：通过寻找绝对偏差的累积概率分布的膝点对叶子元素进行过滤，过滤掉大部分正常叶子元素。

21、deviation score based clustering：基于相对偏差，对经过filtering得到的异常叶子元素进行分组，每组代表一个异常簇。n Top-Down Localization对每一个异常簇，进行簇内的根因定位，输出导致该异常簇的根因集。簇内根因定位的基本思想是：层次化搜索策略：对预先构建的数据立方体（cuboid）进行层次化的搜索，如果上层cuboid搜索结果满足终止条件，即终止搜索。cuboid内搜索策略：以descent score作为优先搜索策略，以泛化的potential score（GPS）作为评价指标，定位最大GPS的元素集作为该cuboid的候选根因集。根

22、因确认：针对所有cuboid的候选根因集，依据奥卡姆剃刀原理，对候选根因集的GPS和简洁性进行平衡，选择最终根因。最细粒度指标预测异常发生数据立方体构建簇内根因定位候选根因集最终根因根因选择根因定位流程指标数据存储触发真实数据预测数据filtering异常叶子元素clustering异常簇参考文献：1 Zeyan Li,Chengyang Luo,Yiwei Zhao,Yongqian Sun et al.“Generic and Robust Localizationof Multi-Dimensional Root Causes”,ISSRE 2019，Berlin,Germany,Oct

23、 28-31,2019主要内容背景介绍大规模时间序列分析未来规划异常检测平台深度剖析根因定位异常检测平台深度剖析平台能力Trace AgentMetric VictoriaMetricsEvent Flume统一时序数据深度存储作业配置管理作业任务管理作业任务调度作业权限管理作业资源监控作业运行报告任务调度产品配置系统配置算法参数配置流控配置策略配置权限配置配置管理数据源配置数据接入数据聚合数据质量分析数据处理DeepARMQCNNMQRNN异常检测算法库集成学习根因分析算法库HotSpotSqueeze数据监控模型监控持续学习学习策略配置数据源选择数据聚合数据分析算法参数配置模型效

24、果评估模型选择基本信息模型新增模型删除模型更新模型上线模型下线异常边界时序预测根因分析异常分析服务能力故障自愈平台智能告警平台数据层核心层应用层模型构建模型管理模型监控自定义报表异常检测平台深度剖析平台技术架构业务监控指标事件/日志APM Trace 统计基础设施指标APM 性能指标FlumeETLClickHouse实时Object Storage离线数据存储KafkaFlinkVictoriaMetricsESDeepAR算法MQRNN算法MQCNN算法集成算法算法库模型训练DeepAR模型MQRNN模型MQCNN模型集成模型模型库在线预测模型部署任务调度Airflow预测训练告警动态阈值

25、时间序列预测算法平台输出根因分析(类HotSpot家族)输出模型有效性监控效果下降重新训练异常检测与根因分析平台算法平台全场景概览异常检测根因分析实时告警通知告警分析告警标记PULL异常检测平台深度剖析数据源接入数据接入实时消息接入实时文件接入数据实时聚合数据存储实时批量写数据离线备份分布式存储实时聚合数据统计备份系统信息存储数据分析报告数据量趋势分析数据延时分析描述性统计分析数据源多样化：支持kafka、clickhouse、VictoriaMetrics(Prometheus家族)等多种数据源的接入数据聚合：可以根据指定的维度和指标对数据进行聚合数据衍生：支持根据不同的指标进行运算，

26、从而得到用户想要的复合数据关键性能指标：目前上限tps为5.8w/s，最高可支持50w/s 数据分析：从接入的数据量趋势、接入时间来分析数据的质量，做到从源头对数据进行监控分布式存储处理：支持数据异步写入处理。目前使用clickhouse集群作为存储介质，使用10台物理服务器进行分布式处理。异常检测平台深度剖析模型管道的构建模型训练数据预处理模型评估触发模型部署模型上传DAGGPU Cluster数据存储Mysql模型库模型部署TFX Serving 集群Web UI规则解析生成 Airflow 任务任务调度Airflow 集群KafkaES模型有效性监控读取数据读取配置上传模型触发(ht

27、tp rest)获取模型部署模型预测/异常异常得分触发模型训练触发模型训练(每天)规则DAG(http rest)触发模型预测/检测(每20分钟)数据接入配置实时数据异常检测平台深度剖析29/22异常点检测异常检测结果n 蓝色曲线为指标正常值，红色曲线为检测出来的异常值。n 灰色阴影部分为异常上下边界阈值。异常检测流程1.使用近400分钟的指标信息，通过构建的模型，预测未来30分钟每1分钟的预测值和概率分布函数。2.设置采样率，根据概率分布函数进行随机采样。3.定义异常百分率，使用采样后的数据计算自动获取异常上下边界。4.指标值与异常点上下边界进行匹配，判断该点是否为异常点。异常检测平台深度剖

28、析告警分析n告警趋势分析:1.根据告警发生时间进行趋势分析2.统计期内指标对比分析，结合业务知识判断告警的准确性3.对发生的告警进行标记，为后续模型优化提供数据基础。n告警异常码分析：1.为用户提供异常码分析，帮助用户可以快速判断告警的准确性。2.用户根据异常码，可以定位异常明细，全方位显示异常信息。数据预处理模型训练在线预测异常标记存储剔除异常点异常检测平台深度剖析根因分析影响因素：以单维度指标为基础，使用HotSpot家族的算法对异常数据进行分析，定位出主要的影响因素，帮助用户快速定位异常数据维度，大大提高工作效率；告警标记：用户在告警分析和处理中，根据最终的影响因素来对算法分析出的主因

29、进行判断标记，后续算法根据标记信息进行算法调优，形成良性循环。异常检测根因标记、存储根因分析模型参数优化根因分析主要内容背景介绍大规模时间序列分析未来规划异常检测平台深度剖析根因定位未来规划ElasticsearchClickhouseVictoriaMetricsParquet File1Parquet File2Parquet File3Parquet File4minIO.AlluxioPresto Real TimeOffline pipelineAIOpsPrestoEventTraceRealTime PipelineConnectorDashboardAnomaly D

30、etectionAlertingModel TrainingOpen API日志分析基础设施监控端侧性能监控调用链监控用户维度监控多维度融合监控/监控开放平台MetricsData sourcesRealTime PipelineRealTime PipelineData Process LayerService LayerApplication Layer未来规划EventTraceMetricMinio数据存储算法库模型训练模型库在线预测模型部署任务调度Airflow预测训练告警动态阈值时间序列预测算法平台输出根因分析(squeeze等做集成根因分析)输出模型有效性监控效果下降重新训练异常

31、检测与根因分析平台算法平台全场景概览异常检测根因分析实时告警通知告警分析告警标记SQL Query EnginePresto distribute query engine AI Data Pipelinen 使用MinIO实现统一存储，使用Presto统一分析引擎。n 自定义仪表盘异常点分析n TF框架升级到2.0n 研发类似AWS GluonTS的统一异常检测/根因定位的Libraryn 异常检测算法继续拓展（深度状态空间，深度高斯过程）n 根因定位算法拓展到图神经网络以及图顶点熵领域n 使用AutoML技术，实现自动调参，模型架构自动搜索功能n 预测结果以API/SDK方式提供给下游DeepAR模型MQRNN模型MQCNN模型集成模型MQCNN模型Deep Factor 模型DeepAR算法MQRNN算法MQCNN算法集成算法MQCNN算法Deep Factor 算法缺失值填充周期性检测平稳性检测Data Source

友情提示

1、下载报告失败解决办法
2、PDF文件下载后，可能会被浏览器默认打开，此种情况可以点击浏览器菜单，保存网页到桌面，就可以正常下载了。
3、本站不支持迅雷下载，请使用电脑自带的IE浏览器，或者360浏览器、谷歌浏览器下载即可。
4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩，下载后原文更清晰。

本文（2019年大规模时间序列分析与根因定位在苏宁的实践.pdf）为本站（云闲）主动上传，三个皮匠报告文库仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对上载内容本身不做任何修改或编辑。若此文所含内容侵犯了您的版权或隐私，请立即通知三个皮匠报告文库（点击联系客服），我们立即给予删除！

温馨提示：如果因为网速或其他原因下载失败请重新下载，重复下载不扣分。