上海品茶

您的当前位置:上海品茶 > 报告分类 > PDF报告下载

2019年智能化故障监控与预警播报.pdf

编号:97397 PDF 30页 9.58MB 下载积分:VIP专享
下载报告请您先登录!

2019年智能化故障监控与预警播报.pdf

1、智能化故障监控与预警播报-VIPKID烽火台系统大米未来科技有限公司 基础架构部目录一、背景分析 VIPKID公司发展历程 VIPKID公司业务场景 VIPKID故障的背景 行业的解决方案 VIPKID公司故障遇到的问题 问题解决的难点四、智能化运维初涉告警智能化分析应用图谱智能告警设计三、烽火台系统的运营效果告警现状告警的问题烽火台预警播报烽火台预警播报设计流程风险播报的运营二、智能化故障监控解决方案故障监控解决方案实时发现持续的大颗粒告警升级故障规则训练快速解决故障自动自愈自动产生故障报告第一回背景分析011.1、VIPKID公司发展历程1.2、VIPKID公司业务场景1.3、VIPKID

2、故障的背景1.4、VIPKID公司故障遇到的问题1.5、问题解决的难点1.1、VIPKID公司发展历程200020用户万级用户10万级用户30万级多创新线声网上课用户60万同时上课2万覆盖国家80+aws/ali/ten云多链路服务商在线教室10000机器用户千级多贝pythonSpringmvc业务垂直springboot单体MySQL中间件全链路框架服务治理全球化服务深度研发课量多活多业务1.2、VIPKID公司业务场景跨全球:中、美、韩跨多云:AWS、阿里云、百度云、腾讯云高敏感:单用户级故障感知 vs 百分比级故障感知大规模:10000机器多

3、模式:一对一、一对多、大班课、公开课1.2、VIPKID公司业务场景课堂FMLPCCTMK客服学生家长教材老师ITTEST1.3、VIPKID故障的背景分类2016Q42017Q12017Q22017Q32017Q42018Q12018Q22018Q32018Q4合计故障统计A1.研发bug86102A2.研发可用性规范1213131618A3.中间件误用滥用113145318A4.中间件问题267462633A5.上线流程问题212322113A6.线上操作问题1321142418A7.系统运维12126A8.第三方问题21131324219A9.IT问题1414313

4、A10.安全问题123合计2022429243故障监控诊断效率故障召回率48%63%故障发现时长5.8小时70分钟故障诊断时长1.5小时17分钟1.4、VIPKID公司故障遇到的问题服务商磁盘抖动受影响,8数据库唯一键/字段超长/迁移/SQL异常,12下游接口异常/超时,12服务治理接口限流,10服务商磁盘抖受影响,8ES瞬间流量大/查询参数/语句不规范,7参数不合法,4业务实现,4第三方,3上游,3ng,2VKSCHEDULE调度失败,2机柜宕机,2小班课集群写入异常,2并发,1后端上线时不平滑异常,1无数据异常,1云存储,1TOP类问题问题根因数量服务商网络问题/抖动

5、/CDN14数据库唯一键/字段超长/迁移/SQL异常12下游接口异常/超时12服务治理接口限流10磁盘抖动受影响8ES瞬间流量大/查询参数/语句不规范7参数不合法4业务实现4第三方3上游3nginx2VKSCHEDULE调度失败2服务商机柜宕机2小班课集群写入异常2并发1防骚扰1后端上线时不平滑异常1容器1数据异常1无发现异常reject1无数据异常1云存储11.5、问题解决的难点【端故障】性能 错误【网页故障】性能 错误【用户网络故障】大陆/香港/美国/加拿大09-04 14:37:00 加速问题09-09 09:04:00 第三方对象存储加速问题09-12 01:53:00 广州电信静态域

6、名对象:教师端/教室/家长/学生【办公区故障】08-31 15:51:00 dns故障09-01 00:32:00 短暂抖动09-03 20:08:38 dns劫持09-04 09:38:00 ping不通域名对象:Fireman/LP/CC/TMK/ITTest调用链故障 GC/API/JVM 调用来异常 NG故障 ELB故障ELBWAFNGJAVA全链路地图+Trace办公区地图+Trace【CDN故障】一对一/小班课/VK教室05-22 13:36:00 教师端CDN厂商回源故障07-24 16:11:00 短信接口被刷07-25 11:26:00 CDN问题08-16 19:31:00

7、 DB磁盘问题08-29 12:31:01 服务商网络故障(大)09-08 00:21:00 服务商CDN故障09-11 19:44:01 上课ES节点故障09-12 22:11:01 小班课Gateway故障ELKHTMLCDN 日志异常服务中间件系统 健康异常 限流异常 降级异常 VKDS报障 MQ报障 Redis报障 ES报障 CPU异常 内存异常 网络异常 磁盘异常服务治理+质量大盘第二回智能化故障监控解决方案022.1、故障监控解决方案2.2、实时发现持续的大颗粒2.3、告警升级2.4、故障规则训练2.5、快速解决故障自动自愈2.6、自动产生风险报告2.1、故障监控解决方案监控引擎V

8、KPaladinJVM/Eureka/Hystrix移动应用输出BI订阅中心(API,MQ,模型,数据)采集存储APPAPMFEAPMVKLMCAT全链路地图(导航页)+Trace页(监控、告警,故障召回率99%,延时1分钟)SDK(FE/APP/BE)数据地球/流图(布点,集群,监控)计算数据地球/流图(布点,集群,监控)ELK日志平台(实时/离线/审计)丢失率1%实时性1m实时性1s服务系统业务自定义指标/API监控JOBDB(VKDS)/DatabusRedisMQ/KafkaESIMG(VKOS)CPU/MEM/NET/DISK中间件前端应用物理链路应用间告警引擎VKAlert(实时分

9、发)统一告警订阅告警质量报告服务质量实时大盘(导航)(health,hystrix,jvm,sys,job,vkds,databus,redis,mq,es,img)事故播报中心(分钟)用户唤起运营(关注用户)面向后端团队:依赖的服务、JVM、机器、DB、ES、MQ、Redis、IMG、JOB面向监控需求:有同比、环比、各种横向对比、聚合的中间件、业务指标监控面向业务监控:业务指标监控、接口探测面向关注告警订阅面向团队leader面向质量运营面向LP运营面向告警需求:解决告警实时/有效/准确、收敛/升级、诊断/协作、效率报告办公区地图面向横向团队:值班、运维、架构、测试、教室、前端、leade

10、r、大屏幕面向APM诊断:诊断APP、FE、VKLM、CAT、JOB、Redis、MQ、DB、ES面向采集团队:给前端、移动、运维、Bi输出数据面向办公团队:各职场/楼层的研发、IT、LP、CC访问各服务的可用性外部链路(线)内部服务(点)2.1、故障监控解决方案-数据采集学生/老师/LP链路层指标业务层指标服务层指标中间件指标系统层指标DNS、CDN、ELB、WAF、Nginx客户端监控、前端监控、API业务监控、业务指标监控、ELK日志监控、性能压测服务运行的Eureka健康状态Health、JVM状态CAT、GC状态、Hystrix流量状态VKDS、VKDatabus、VKRedis、V

11、KMQ、VKES、VKJob、VKPush、VKOS服务器的硬件监控(CPU/内存/磁盘/网络/连通性)、进程监控(端口)、存储监控(MySQL/MongoDB)外部链路大盘内部监控大盘达美、雍和、美国、香港办公监控大盘2.1、故障监控解决方案-智能监控APPAPM移动性能诊断FEAPM前端性能诊断VKLM链路性能诊断VKCAT后端性能诊断VKELK日志中心JVM/health/限流/降级移动/桌面VKJOB调度平台VKPush推送平台VKDS数据库中间件VKDatabus同步中间件Vkedis缓存中间件VKMQ消息中间件Vkafka消息中间件VKES索引中间件VKOS文件存储前端DNSCDN

12、ELBWAFNGINXAPI层服务层中间件存储服务器端外网链路端内部服务运营技术老师学生端办公链路MySQL数据库MongoDB存储OpenFalcon基础监控帕拉丁监控引擎VKPaladin(自定义指标采集/计算/告警)烽火台告警引擎VKAlert(钉钉/电话/短信/邮件+订阅+报告)+(故障预警播报+运营唤起)故障自动巡检打通监控数据游乐场蚂蚁|大禹宙斯聚石塔华佗七星阵基础监控钉钉MySQL钉钉VKOS钉钉VKES钉钉VKMQ钉钉VKEdis钉钉VKDS钉钉Dtbus钉钉VKJOB钉钉VKPush钉钉VKZeus钉钉VKELK钉钉VKCAT钉钉VKLM钉钉FEAPM钉钉APPAPM钉钉2.

13、2、实时发现持续的大颗粒ELBWAFNGJAVA全链路地图+Trace办公区地图+TraceELKHTMLCDN服务中间件系统服务治理+质量大盘异常告警预警播报事故播报业务事故数百次潜伏期预警/周数万次指标异常/周数十次事故预判/周数十次真实事故/周2.3、告警升级大故障前兆(EPS)关注破损(Leader)预警播报(R&D)持续告警的系统异常持续的预警播报大面积的预警播报2.4、故障规则训练2.5、快速解决故障自动自愈自愈策略:调用VKDS服务拉起做自动降级数据库不可写场景:数据库磁盘宕机故障发生自愈处理故障恢复故障恢复:VKDS服务通过自身监控做故障的恢复2.6、自动产生风险报告风险预警播

14、报质量报告风险预警播报质量报告(样例数据样例数据)业务端应用数应用预警域名数域名预警任务数任务预警集群(ES)数 集群(ES)预警合计处理率平均响应时长(小时)平均处理时长(小时)vipkid/教研端 8520/87902111/14021/957.14%27.8844.63vipkid/家长端 8112/4/192.86%12.6217.48小班课/小班课 686/24821018210/280.00%22.4625.10vipkid/教师端 559/1/190.91%11.7124.21vipkid/销售CC 49116603824/16116/

15、193.75%6.3115.04vipkid/教学LP 465//183.33%0.598.58合计676121/1766810/4148214/3897152/24 84.21%19.5926.18以下是部分样例数据,蓝色是该业务端产生的风险预警数量,红色是未解决数量第三回烽火台系统的运营效果033.1、告警现状3.2、告警的问题3.3、烽火台预警播报3.4、风险播报的运营3.1、告警现状告警多50万次/周告警群多30+个告警处理人多数百人家长端教师端教研端在线教室LPCCTMK交易呼叫中心基础架构小班课蜂校3.2、告警的问题告警太多、散落、混乱?告警处理人多、谁处理了

16、不知道?告警群多、信息淹没?问题处理多久不知道?问题处理了没有不知道?问题的源头是什么不知道?问题影响面是什么不知道?故障发现时长是否最快?故障是否全部覆盖告警了?告警的发现、处理、协作、跟踪问题多效率低下、无法量化、靠运气和RD自发3.2、告警很重要!海恩法则 每一起严重事故的背后,必然有29次轻微事故和300起未遂先兆以及1000起事故隐患。墨菲定律 只要存在发生事故的原因,事故就一定会发生,而且不管其可能性多么小,但总会发生,并造成最大可能的损失。受伤定律 任何问题一旦发生,都要消耗10倍的精力弥补伤害,其中:1倍用于灾后重建,9倍用于用户信心重建,包括问题响应速度、现场处置、现场沟通、能力建设。3.3、风险预警播报预警持续&大面积异常多端播报电话/短信/钉钉/邮件播报中心高效协作处置风险3.3、烽火台预警播报多端播报电话/短信/钉钉/邮件播报中心高效协作处置风险提前预警3分钟持续风险3.4、风险播报的运营第四回智能化运维初涉044.1、告警智能化分析4.2、应用图谱4.3、智能告警设计4.1、告警智能化分析4.2、应用图谱4.3、智能告警设计

友情提示

1、下载报告失败解决办法
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。

本文(2019年智能化故障监控与预警播报.pdf)为本站 (云闲) 主动上传,三个皮匠报告文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三个皮匠报告文库(点击联系客服),我们立即给予删除!

温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。
会员购买
客服

专属顾问

商务合作

机构入驻、侵权投诉、商务合作

服务号

三个皮匠报告官方公众号

回到顶部