上海品茶

您的当前位置:上海品茶 > 报告分类 > PDF报告下载

2019年百度智能网络监控与流量调度实践.pdf

编号:97810 PDF 35页 2.14MB 下载积分:VIP专享
下载报告请您先登录!

2019年百度智能网络监控与流量调度实践.pdf

1、G O P S 全 球 运 维 大 会 2 0 1 9 上 海 站G O P S 全 球 运 维 大 会 2 0 1 9 上 海 站百度智能网络监控与流量调度实践G O P S 全 球 运 维 大 会 2 0 1 9 上 海 站目录目录背景介绍:外网连通性故障背景介绍:外网连通性故障1如何做到精准的外网故障发现如何做到精准的外网故障发现2基于远程探测的故障发现基于远程探测的故障发现2.1如何做到外网故障自动止损如何做到外网故障自动止损3智能流量异常检测智能流量异常检测2.2效果总结效果总结4G O P S 全 球 运 维 大 会 2 0 1 9 上 海 站典型外网网络架构运营商骨干网北京运营商

2、网络上海运营商网络百度华北IDCDNS百度华东IDCIP address AIP AIP BIP address B北京用户上海用户G O P S 全 球 运 维 大 会 2 0 1 9 上 海 站机房接入点网络故障机房接入点网络故障运营商骨干网本地运营商网络百度上海IDCDNS百度南京IDCIP addressIP AIP B调度前调度后G O P S 全 球 运 维 大 会 2 0 1 9 上 海 站运营商骨干网故障运营商骨干网本地运营商百度北京IDC百度上海IDC骨干网链路故障DNSIP address调度前调度后G O P S 全 球 运 维 大 会 2 0 1 9 上 海 站分省运营

3、商网络故障另外的运营商网络电信骨干网上海电信南京电信IDC上海电信本地故障移动骨干网上海移动南京移动IDCDNSIP address调度前调度后G O P S 全 球 运 维 大 会 2 0 1 9 上 海 站网络连通性故障分析平均每个季度发生次数平均每个季度发生次数平均持续时长平均持续时长机房接入点故障 30 times十分钟级运营商骨干网故障0 1 times小时级分省运营商网络故障 20 times十分钟级 30 min发生频率人工止损MTTRG O P S 全 球 运 维 大 会 2 0 1 9 上 海 站目录目录背景介绍:外网连通性故障背景介绍:外网连通性故障1如何做到精准的外网故障

4、发现如何做到精准的外网故障发现2基于远程探测的故障发现基于远程探测的故障发现2.1如何做到外网故障自动止损如何做到外网故障自动止损3智能流量异常检测智能流量异常检测2.2效果总结效果总结4G O P S 全 球 运 维 大 会 2 0 1 9 上 海 站如何发现这些故障Province AProvince BDC ADC BP2P CDN hostsNetwork Monitoring SystemData receiveDetectionAlarm 监控需求 当前的网络故障发现 目标调度链路的网络状态 从全国各省份运营商探测点,发起对目标机房IP的探测请求G O P S 全 球 运 维 大

5、会 2 0 1 9 上 海 站 如图:某省份运营商的5个探测点对Y机房的5个IP单周期探测结果单个探测点或IP自身网络故障影响判定结果异常探测结果集中于探测点1探测点 1探测点 2探测点 3探测点 4探测点 5IP1 IP2 IP3 IP4 IP5异常探测结果集中于IP1探测点 1探测点 2探测点 3探测点 4探测点 5IP1 IP2 IP3 IP4 IP5探测点 1探测点 2探测点 3探测点 4探测点 5IP1 IP2 IP3 IP4 IP5异常探测结果分散局部异常链路整体异常G O P S 全 球 运 维 大 会 2 0 1 9 上 海 站使用离散系数判定异常探测结果分布情况?离散系数=?

6、0标准差?f?均值 P探测点异常向量(n1,n2,n3,n4,n5)IP异常向量(m1,m2,m3,m4,m5)1.分别计算探测点异常向量、VIP异常向量2.计算探测点、VIP异常离散系数,如果其中有任一个离散系数大于阈值P,则认为该异常为局部异常图 探测点离散系数:1.731.73;IP离散系数:0.7图 探测点离散系数:0.7;IP离散系数:1.731.73图 探测点离散系数:0.7;IP离散系数:0.7局部异常异常探测结果集中于探测点1探测点 1探测点 2探测点 3探测点 4探测点 5IP1 IP2 IP3 IP4 IP5异常探测结果集中于IP1探测点 1探测点 2探测点 3探测点 4探

7、测点 5IP1 IP2 IP3 IP4 IP5探测点 1探测点 2探测点 3探测点 4探测点 5IP1 IP2 IP3 IP4 IP5异常探测结果分散局部异常链路整体异常G O P S 全 球 运 维 大 会 2 0 1 9 上 海 站 基于多维度数据聚合分析如何定位异常出现位置Nanjing DC地区运营商网络故障百度机房接入点网络故障G O P S 全 球 运 维 大 会 2 0 1 9 上 海 站骨干网故障的判定难题1.同一条骨干网中断位置不同,影响范围不同2.无法获得准确的运营商链路信息骨干网故障时多个省份或机房表现为连通性异常,误判为全局机房或分省故障中断位置不同,影响范围不同G O

8、 P S 全 球 运 维 大 会 2 0 1 9 上 海 站骨干网故障检测特征提取,训练分类器划分线纬度划分线误差机房纬度故障机房纬度中位数划分线计算绘制划分线,划分线两侧分别为异常省份划分区X和正常省份划分区Y计算划分线位置,使得两侧归类错误省份数量最小Diff=NX+AYN省份总数Diff:划分线误差X:故障省份划分区Y:正常省份划分区A:异常省份个数N:正常省份个数划分线正常省份区域Y故障省份区域XG O P S 全 球 运 维 大 会 2 0 1 9 上 海 站目录目录背景介绍:外网连通性故障背景介绍:外网连通性故障1如何做到精准的外网故障发现如何做到精准的外网故障发现2基于远程探测的

9、故障发现基于远程探测的故障发现2.1如何做到外网故障自动止损如何做到外网故障自动止损3智能流量异常检测智能流量异常检测2.2效果总结效果总结4G O P S 全 球 运 维 大 会 2 0 1 9 上 海 站 问题:网络异常 业务有损 单省份运营商到单个机房的网络链路判定异常频率较高,实际业务无损,切换次数频繁 解决思路 与流量异常检测相结合,提升分省异常检测的准确率。单个省份异常率高,对业务实际无损G O P S 全 球 运 维 大 会 2 0 1 9 上 海 站 不同业务,不同省份、运营商流量曲线不一致 流量趋势(忙闲时)数值大小 波动情况 流量曲线数量多 核心业务线分省运营商10000条

10、曲线流量异常检测的难点G O P S 全 球 运 维 大 会 2 0 1 9 上 海 站流量监控算法:有监督 vs 无监督有监督学习方法难以实施落地时序指标标注成本高样本不均衡,负样本比例小于0.1%无监督的异常检测方案思路:时序预测算法+检测算法智能流量异常检测算法预测器检测器历史时序数据预测值检测结果最新时序数据G O P S 全 球 运 维 大 会 2 0 1 9 上 海 站移动平均算法预测误差大 移动平均算法原理 时序数据定义?|?=1.?基于移动平均的预测算法?=?=?+1?移动平均算法问题 预测曲线落后于实际趋势,导致漏报或者误报 无法区分下跌和上涨后的恢复,导致误报预测曲线落后于

11、实际趋势,导致漏报下降趋势误报G O P S 全 球 运 维 大 会 2 0 1 9 上 海 站线性回归算法噪声时段预测误差大 线性回归算法原理局部符合线性?+?预测?=?+?参数计算?,?=f?,?最小二乘法(Least square)?2=?=1?2 线性回归算法问题易受噪声点影响,产生误报G O P S 全 球 运 维 大 会 2 0 1 9 上 海 站基于鲁棒回归的预测算法方案 鲁棒回归算法原理 最小绝对误差(Least absolute deviations)?1=?=1?|?|加权迭代最小二乘法(Iteratively re-weighted least squares)?=?=1

12、?2?=1|?|解不唯一的解决方案初始权重的设置:近期的?中求解初始权重期望的?的判定G O P S 全 球 运 维 大 会 2 0 1 9 上 海 站鲁棒回归的预测效果超越其他算法流量数据预测效果G O P S 全 球 运 维 大 会 2 0 1 9 上 海 站百分比阈值算法配置成本高 基于百分比阈值检测方法?=?100%问题工作日、休息日和忙闲时配置不同的检测参数不同省份运营商需要配置不同检测参数 基于泊松分布的检测算法泊松分布描述单位时间内随机事件发生的次数的概率分布?=?;?=?!选取阈值?使得?Y?Region-全局)逐级分配-优先本区域内调度,本区域无法满足,超出部分在上一层级区域

13、做负载均衡流量调度算法设计省份A省份BPoPIDC HBBFE-HB后端服务容量500PoPIDC HDBFE-HD后端服务容量500600 qps300 qps300 qps500 qps100 qpsG O P S 全 球 运 维 大 会 2 0 1 9 上 海 站目录目录背景介绍:外网连通性故障背景介绍:外网连通性故障1如何做到精准的外网故障发现如何做到精准的外网故障发现2基于远程探测的故障发现基于远程探测的故障发现2.1如何做到外网故障自动止损如何做到外网故障自动止损3智能流量异常检测智能流量异常检测2.2效果总结效果总结4G O P S 全 球 运 维 大 会 2 0 1 9 上 海 站 覆盖数百个域名,数千个VIP外网连通性故障自动流量调度 网络故障发现召回率99%MTTA30s效果总结G O P S 全 球 运 维 大 会 2 0 1 9 上 海 站Thanks高效运维社区开放运维联盟高效运维社区开放运维联盟荣誉出品荣誉出品

友情提示

1、下载报告失败解决办法
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。

本文(2019年百度智能网络监控与流量调度实践.pdf)为本站 (云闲) 主动上传,三个皮匠报告文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三个皮匠报告文库(点击联系客服),我们立即给予删除!

温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。
会员购买
客服

专属顾问

商务合作

机构入驻、侵权投诉、商务合作

服务号

三个皮匠报告官方公众号

回到顶部