《2020年终大会-大数据应用:9-1.pdf》由会员分享,可在线阅读,更多相关《2020年终大会-大数据应用:9-1.pdf(29页珍藏版)》请在三个皮匠报告上搜索。
1、基于大数据技术构建 爱奇艺全链路监控平台 郭磊涛iQIYI 运维的噩梦 晚高峰 页面加载 失败 视频无法 播放 多人群聊 XX开发 XX接口有问题 看报警(短 信、邮件、 IM) 看监控 (Prometheus 、Zabbix) 看日志 (登录多台服 务器 grep) APP 域名 四层LB 七层LB 网关 微服务 1、2、3. 多人并行排查 Leader实时汇报 发现是下游业务 接口错误 多人并行排查 Leader实时汇报 如何高效定位故障并快速恢复? APP 域名 四层LB 七层LB 网关 微服务 1、2、3. 链路采集 原始日志采集 监控指标采集 上下文关系 深度分析 用户故障定位 服务
2、链路拓扑 调用链分析 机房流量拓扑 基础监控分析 容量伸缩预估 基于Google Dapper思想 异常检测分析 . 爱奇艺全链路平台:一站式监控平台 指标监控 黄金指标(QPS/延时/错误) 业务自定义指标 JVM指标 运行环境基础指标(CPU/内存) 日志监控 跨系统日志聚合 用户行为分析 链路监控 拓扑分析 调用关系指标 平台整体架构 基 础 资 源Prometheus 日志采集 日志监控 业务日志汇总 用户行为分析 用户反馈关联 HBase Druid Elasticsearch HiGraph 监控告警 ETL 数据汇集 Kafka 实时计算引擎 Flink 基础平台 存储资源 指标
3、监控 监控大盘 告警策略 链路监控 业务拓扑 调用检索 容量预估异常检测 出入口流量分析 程序异常分析 无侵入式埋点框架 便捷 即插即用,无基 础设施维护成本 全面 核心指标、链路追踪, 日志监控全覆盖 高性能 计算/存储可横向扩展, 日均日志处理量200亿+ 链路监控 指标监控 日志聚合 系统运行规模 应用接入数 2000+ 业务日志处理峰值QPS 30w+/s 日均调用链日志处理量 200亿+ 30+ 接入业务线 如何实现链路监控? 什么是调用链? 调用链(Trace):由不同应用产生的一系列调用(Span) 组成的有向无环图(DAG) TraceID:给每个调用 链分配一个全局唯一 的 ID (称为 TraceID), 并在调用链上的每次 调用都带上这个 ID, 从而将所有子调用关 联在一起 SpanID:给每个调用分配一个ID (称 为 SpanID),并且把这个 ID 传递给子