《4-3 张静-京东科技全链路故障诊断智能运维实践.pdf》由会员分享,可在线阅读,更多相关《4-3 张静-京东科技全链路故障诊断智能运维实践.pdf(34页珍藏版)》请在三个皮匠报告上搜索。
1、京东科技全链路故障诊断智能运维实践演讲人:张静自我介绍01目录京东科技智能运维整体能力02运维算法赋能业务可观测性落地经验03运维算法赋能降本增效落地经验04个人介绍01张静京东科技智能运维算法高级经理智能运维发明专利50项、IEEE国际会议论文收录9篇。带领团队致力于京东智能运维算法研发,应用于京东线上横向业务场景,纵向监控、数据库、网络、资源调度等多个场景取得突破。2021数据技术嘉年华解密StarDB国产数据库智能运维的核心算法 ArchSummit2022全球架构师峰会智能运维专题演讲 参与撰写中国信通院云计算智能化运维(AIOps)能力成熟度模型白皮书,第1部分通用能力要求、第2部分
2、系统与工具技术要求。个人介绍第1篇ieee-智能运维方向论文IEEE Xplore检索地址:https:/ieeexplore.ieee.org/document/9680175第2篇ieee-智能运维方向论文IEEE Xplore检索地址:https:/ieeexplore.ieee.org/document/9762449第3篇ieee-智能运维方向论文IEEE Xplore检索地址:https:/ieeexplore.ieee.org/document/9778305第4篇ieee-智能运维方向论文IEEE Xplore检索地址:https:/ieeexplore.ieee.org/do
3、cument/9858500第5篇ieee-智能运维方向论文IEEE Xplore检索地址:https:/ieeexplore.ieee.org/document/9832400第6篇ieee-智能运维方向论文IEEE Xplore检索地址:https:/ieeexplore.ieee.org/document/9904207第7篇ieee-智能运维方向论文IEEE Xplore检索地址:https:/ieeexplore.ieee.org/document/10072770资质证书京东科技智能运维整体能力02国产信创安全可控,提升数字化韧性全栈全场景国产化产品难度逐步增加1、集群规模快速增长
4、,微服务、异地多活等高可用框架需求增强2、系统间关联越来越多3、监控工具众多,但内部黑盒4、告警误报过多,造成告警疲劳,潜在业务风险体系化要求越来越高1、从异常发现到根因定位、预先巡检和预案的重要性2、AIOps已深度实践,减少误报,避免漏报成重点3、需要系统地沉淀运维经验4、从局部治理走向全面治理成本要全面节省1、从业务源头省成本,对业务应用全面合理计费2、公司存量大量3年以上过保机器,仍然正常可用3、运维提升效率,能够处理更多更复杂的场景和应用运维面临的问题整体能力介绍基本目标:降低故障平均修复时间(MTTR),延长系统无故障运行时间(MTBF),提升系统可用性和运维效率。智能运维技术架构
5、图监 控 管 理应用监控图业务层眼学件层心业务监控图可用率图表资 源 管 理运 行 管 理成 本 管 理变 更 管 理事 件 管 理管 控 功 能应用图表资源图标使用率图表流量图标网络图表运行图标资产报表分摊报表变更图表工单图表事件图表告警图表可视化配置告警配置权限配置学件层心数据层脑指 标 监 控 中 心单指标异常检测多指标异常检测指标相似度分析指标聚类分析动态智能基线突升突降识别指标趋势预测波形分析日 志 监 控 中 心日志模式识别日志增量学习日志关联分析日志语义分析日志异常检测日志分类日志序列预测日志模板AI标注告 警 分 析 中 心告警聚类故 障 定 位 中 心多维下钻根因定位告警关联
6、分析告警降噪相似事件召回告警模板提取告警事件分析智能告警定级事件预测全链路根源定位事件根因分析故障注入模型机器指标定位运维知识图谱故障传播关系因果推断运 维 画 像应用画像健 康 体 检资源画像告警健康度网络画像日志画像变更体检亚健康分析应用健康评分链 路 追 踪用户行为轨迹统 一 日 志日志查询客 户 端前 端服 务 端中 间 件数 据 库连接数主 机CPU请求链路链路拓扑实时日志关键词索引缺失低效SQL网络IO云平台时序数据库MySQL大数据平台Hbase平台图数据库ES门户API自 动 化 操 作工单操作资源调度切换/熔断/降级算 法 服 务无阈值监控故障根因定位智能日志分析健康体检链路
7、分析归档订阅磁盘I/O预算报表巡检图表容量图表网络请求卡顿监控白屏监控日志回捞页面性能浏览器分析JS错误地域运行商方法性能进程监控业务监控代码行监控消息Web服务缓存产品视角全景图运维算法赋能业务可观测性落地经验03运维算法赋能业务可观测性通过NLP技术对全量运维日志聚类分析,提取日志关键信息,从日志角度发现问题。智能文本分析 多种定位策略灵活组合 根因定位与学习算法结合 定位快、准确高、使用广 故障定位异常检测:通过统计学习、时序聚类、时序网络等算法,检测指标数据异常点,比固定阈值更加精确。智能基线:兼顾多个指标波动变化,预测动态安全区间,及时准确地发现异常,自适应不同业务场景。指标异常检测
8、知识图谱日志模版提取基于apm 调用链扫描故障节点关联性集中管理监控指标AI算法智能化检测分析海量日志处理AI算法实时聚类分析NLP与知识图谱技术赋能根因定位,智能化集中告警3.1 指标异常检测 通过统计学习、时序聚类、时序网络等算法,检测指标数据异常点,比固定阈值更加精确;自回归学习历史数据的波动规律,衡量异常与原有趋势下指标的偏离程度,设置动态安全区间,自适应不同业务场景。为研发人员提供日志全文检索功能,再海量日志中可以从应用角度出发根据时间、线程等多种维度快速检索所需日志,同时还可根据日志上下文精准排障,轻松应对线上问题。针对各个业务线/应用的海量日志根据级别做归档时间等的策略划分,并依
9、托于消息队列可对自己的日志做订阅。提供基础组件、容器、DNS、中间件、数据库、业务应用等多种日志接入以及不同日志类型的个性化配置。在浏览器即可模拟针对本地日志查看功能,实时刷新日志内容并对日志内容提供过滤、反过滤等功能。极度还原用户在本地对于日志的操作习惯,给线上日志跟踪提供很大帮助。支持通过监控规则检测统计并提供报警,同时支持多种渠道告警方式。与SGM、中间件监控、基础监控同时使用还可达到监控一体化的根源定位能力。分布式日志检索多类型日志接入日志分析告警应用实时日志归档及订阅3.2 智能文本分析应用日志反应应用本身运行状态,某些故障是能够从监控指标上发现的,然后由于部分监控指标的缺失,有些故
10、障的产生并不能从指标层面发现,需要从日志中发现问题并定位根因。运维日志模版提取,及时捕捉线上未知的业务异常问题 方案 痛点 目的通过智能提取日志模版技术对历史全量日志聚类,在线实时匹配发现已知类问题的日志量变化,并可及时捕捉到新的日志模式,从日志角度提升监控能力。3.2 智能文本分析3.2 智能文本分析案例-K8S场景K8S常见故障POD网络延迟POD网络丢包GC调用docker有问题日志占用文件句柄没释放导致pod删除失败孤儿pod问题POD存储挂载失败lvm卸载异常POD网络分配异常通过日志分析覆盖K8S核心组件(亿级别日志量/天)GC调用docker有问题、孤儿pod问题、POD存储挂载
11、失败、日志占用文件句柄没释放、POD网络分配异常等多维度故障场景,提升K8S核心组件监控能力。日志模版举例*nestedpendingoperations Operation for*failed No retries permitted until*durationBeforeRetry*Error UnmountVolume TearDown*volume export UniqueName*pod*unmount*exit status Unmounting arguments*umount*target is busy*Event occurred object*Pod apiVers
12、ion*type Warning reason FailedMount message MountVolume SetUp failed for volume*object*not registered*syncPod podUID*pod*map app clickhouse operator pod template hash*map clickhouse operatorEnvHash*clickhouseoperatorImageName*kubernetes io config source api Prometheus io port*ConfigMapVolumeSource L
13、ocalObjectReference Name etc clickhouseoperator files*controlbuf go*transport*loopyWriter run returning connection errordesc transport is closingpod-SYNC全量信息-基于内容的分类容器创建挂载异常-基于数量统计的突升异常检测日志占用文件句柄没释放-基于数量统计的异常检测结合上下文信息进一步诊断3.2 智能文本分析案例-Redis场景3.3 健康度巡检通过自动化的巡检能力检测全链路应用和数据健康度,主动发现潜在问题,便于日常运维和掌握站点的健康信息
14、,大大减轻运维人员排查问题的负担和时间。定期巡检,提前发现亚健康应用,提升缓存命中率及闲置服务器资源利用率 大促前针对亚健康核心应用整改接口是否存在端口探活进程扫描应用主机磁盘空间频繁打满应用服务器单核CPU打满r2m10G以上集群利用率过低检测r2m10G以上集群空闲key占比过高检测IAAS和SURE主机状态不一致Java应用未接入SGMp0应用非多机房部署VIP持续两周均无域名解析数据备份扫描日志备份扫描京东内部历年运维经验积累100+业务健康度自动化巡检规则。移动端监控前端监控服务端监控监控项网络请求Webview启动监控控制器监控崩溃监控卡顿监控错误监控自定义监控实时告警性能耗时错误
15、率错误码访问量崩溃率自定义启动量公网质量优势日志捞回错误定位公网质量监控用户轨迹追踪全链路调用链告警智能关联监控项页面性能网络请求Js错误浏览器分析地域运营商自定义监控实时告警页面耗时白屏时间错误率错误码访问量Js错误自定义优势sourceMap解析自定义监控全链路调用链周报订阅URL统计Apdex监控项方法性能失败/异常进程监控底层IO监控JVM监控分类监控实时告警性能耗时可用率失败率失败码调用量底层告警GC告警优势代码行追踪业务监控全链路调用拓扑自定义监控代码行监控容量水位周报订阅自定义多维分析调用来源耗时明细分析自定义扩展字段比值监控调用链路全链路调用链分析3.4 全链路监控体系一旦服务
16、出现性能瓶颈,可综合分析调用链、接口耗时、返回状态码、异常日志,网络日志等,快速诊断问题。3.4 全端的链路分析内置组件化的耗时分析,相比于基于方法调用链的耗时明细,更加直观方便,支持自定义组件化。3.4 耗时分析直观展示服务之间的依赖强弱,实时监控每一个应用的服务质量(TPS、耗时,成功率,可用率)3.4 调用链拓扑3.4 全链路根因定位基于apm调用链AI模型扫描,挖掘故障节点关联性,定位根因基于NLP运维日志模版提取与运维知识图谱诊断故障根因覆盖场景 AI算法与运维经验融合的根因编排模型 多种定位策略灵活编排 定位速度快、准确率高、适用范围广主机离群分析算法主机离群分析算法3.4 日志模
17、版根因定位案例3.5 多维指标根因定位web场景异常和tp突增监控,并进行快速根因定位应用场景:当某个域名的TP耗时/TPS发生异常产生告警后,可按省份、运营商、机房、机柜、主机等各维度的TP耗时/错误状态码TPS突增等指标进行明细下钻分析,通过强化学习搜索算法从数万维度交叉组合数据中快速定位出异常的维度组合。运维算法赋能降本增效落地经验04运维算法赋能降本增效-智能调度Archimedes-metrics应用画像;监控数据特征提取;聚类算法;物理机器真实资源计算基于监控数据预测的调度器JDOS-MasterJDOS-Node基于预测的智能调度依托京东大数据,利用机器学习、深度学习算法,对应用
18、的资源使用情况进行画像统计,并能对应用的未来资源使用情况进行预测,将在线与离线应用合理的进行混合调度部署。大促容量预测快速调度,降本增效,精细化运营。在线应用离线应用混部集群在离线任务互补提升资源利用率Archimedes-scheduler京东云在支撑京东全线业务正常运行下,超大规模集群的CPU资源利用率提升3倍,单位订单资源成本下降30%,内存平均使用率提升57%模型结果大、小周期滑窗预测智能计算运维算法赋能降本增效-硬件故障预测利用运维算法技术,学习硬盘历史故障数据,预测硬盘未来故障发生时间点,提升备件和修复响应时间,预测结果推荐核心业务做提前调度或者修复,提前止损,降低故障处置、复盘等
19、成本。技术先进性:标签数据不足够的半监督学习模式下,引入主动迁移学习,完成故障预测模型的训练;基于时间窗口计算增强SMART特征,输入给时间注意力分类模型,提升硬盘故障预测准确性。原始特征滑窗特征时空特征分类/召回Model结果硬盘故障预测基本流程京东云在支撑京东全线业务正常运行下,硬盘故障预测模型平均准确率达90%以上,平均召回率达80%左右。智能计算运维算法运维日志预训练模型告警共性分析算法智能基线相似度计算蒙特卡洛树根因定位因果推断算法模型工厂学件1:基于多模型融合的异常检测学件2:基于机器学习的主机离群节点识别学件3:基于时间序列分析的动态基线预测学件4:基于机器学习的时间序列相似性计算学件5:基于机器学习的多维属性共性分析学件6:基于NLP的文本聚类学件7:业务异常多维定位学件8:基于SMART特征磁盘故障预测模型运维监控可视化大屏THANK YOU!