《2019年海量日志分析与智能运维.pdf》由会员分享,可在线阅读,更多相关《2019年海量日志分析与智能运维.pdf(26页珍藏版)》请在三个皮匠报告上搜索。
1、海量日志分析与智能运维智能日志中心介绍围绕日志的AIOps场景与算法原理介绍日志分析实践与案例010203内置支持的基础架构类日志分析问题归因定位通过日志模式洞察罕见报错信息快速发现障故基于多种算法的异常预测辅助修复决策多方位展现系统状态加速决策132“日志+算法“的 AIOps 实践之路日志统计-指标异常-服务健康度服务健康度监控架构指标数据的来源和选择 SRE:谷歌运维解密提出黄金指标:延迟lantency:IO await、response_time 流量traffic:CPU util%、MEM used、QPS 错误error:packet loss、4xx、5xx 饱和度satur
2、ation:OOM、queue_size、API rate_limit 从access log、error log、system log、topinput等日志来源统计即可。比如:logtype:web_access code:=400|bucket timestamp span=1m as ts|stats avg(resp_time)by ts指标异常检测-CVAE算法指标异常检测-iForest算法指标异常检测-KDE算法指标异常检测-GRBT算法日志异常检测 2016年大规模软件系统日志研究综述:1.在软件开发中进行日志记录是普遍的,平均 30 行代码中就有一行是日志2.日志信息对实际
3、部署系统的运行故障调试帮助较大,缩短故障调试时间的加速比为 2.23.日志代码的更新频率比其他代码要快约 1 倍4.约四分之一的日志修改是把新的程序变量写入日志5.约一半的日志修改是对日志消息静态文本的修改异常日志模式发现基于日志模式发现的异常检测正常日志模型实际日志异常日志人工修正离线训练流式输入词元1词元2词元3日志1weare80日志2weare100日志3youare100模式*are参数enumwe,youXN(93.3,9.4)模式树参数树正常模式正常日志异常异常枚举值(文本)连续值(数值)离散值(ID)分词器在INFO级别日志未触发告警情况下,也能自动识别新日志格式,触发模式告警正常格式的GC日志,自动识别其参数偏离正常取值范围对误报的检测事件,可以人工干预,修正优化模型日志分析实践案例拿到AI异常结果和关键日志定位-概览全局运行状态和变化业务交易的实时统计分析:交易量,成功率,类型分布,失败统计等业务监控-多层业务指标钻取当从业务拓扑发现故障时,可以通过多层钻取功能,下钻到对应时间的业务性能指标趋势分析界面业务监控-调用链展示分析从业务交易耗时趋势下钻到交易记录,进一步下钻单笔交易各步骤的调用链及循序图过程分析用户端监控DNS/CDN日志分析Thank you!