《4-6 高鹏-智能运维可观测平台建设.pdf》由会员分享,可在线阅读,更多相关《4-6 高鹏-智能运维可观测平台建设.pdf(38页珍藏版)》请在三个皮匠报告上搜索。
1、智能运维可观测平台建设演讲人:微博 高鹏目录1.基础设施研发2.监控产品演进3.AIOps应用4.数据科学应用5.未来展望目录1.基础设施研发2.监控产品演进3.AIOps应用4.数据科学应用5.未来展望1.基础设施研发简介可观测平台客户端APPPCH5小程序服务端SLA服务拓扑成本优化服务日志运维基础设施CICDK8sLB链路追踪智能报警垂类监控点查Trace无阈值根因JSAPP1.基础设施研发技术选型数据分析Grafana自研分析工具大数据引擎ClickHouse链路监控内部全链路协议OpenTelemetry智能报警全局TracingR ShinyPlotly DashStreamlit
2、SupersetPrometheus(VictoriaMetrics)Loki1.基础设施研发Why ClickHouseHadoop:技术栈复杂,“航母拉面包”即席查询几乎不可能ES:资源占用高查询不友好Flink/Spark:繁琐Prometheus:不具备数据分析能力1.基础设施研发Why ClickHouse高性能低成本SQL语法社区活跃30台服务器,每秒写入量500w每天写入量3K亿条,P99响应时间500ms1.基础设施研发基础架构基础设施架构目录1.基础设施研发2.监控产品演进3.AIOps应用4.数据科学应用5.未来展望2.监控产品演进从产品侧监控到全路径监控2.监控产品演进从
3、产品侧监控到全路径客户端APM监控产品可用性的最后一公里2.监控产品演进从产品侧监控到全路径客户端APM监控多维度质量监控与分析2.监控产品演进从产品侧监控到全路径客户端APM监控用户侧异常回捞与分析2.监控产品演进后端调用链路后端链路监控2.监控产品演进后端调用链路目录1.基础设施研发2.监控产品演进3.AIOps应用4.数据科学应用5.未来展望3.AIOps应用智能报警传统监控的困境:1.业务多样性:同一场景,不同业务,差异巨大,导致添加报警繁琐无比2.周期差异性:不同时间范围,波动巨大,导致无法固定阈值“一刀切”3.数据多维度:维度众多,出了问题不知道是什么导致的,导致报警只能是“吹哨”
4、3.AIOps应用智能报警,异常检测无阈值报警同一资源,不同链路,各自训练模型3.AIOps应用智能报警,根因分析报警根因分析根据“关联规则”,给出占比最高的组合3.AIOps应用智能报警,链路Trace多级服务日志关联定位问题产生位置目录1.基础设施研发2.监控产品演进3.AIOps应用4.数据科学应用5.未来展望4.数据科学应用SRE运维数据化,增效智能报警Metric分析调用链路分析Log分析故障排查闭环压测上线资源优化性能优化故障排查运维生命周期4.数据科学应用K8s资源智能分配,降本静态资源分配,造成资源浪费动态资源分配,减少低峰期浪费4.数据科学应用K8s资源智能分配,降本4.数据
5、科学应用多维度数据可视化分析数据会撒谎点估计 vs 区间估计4.数据科学应用多维度数据可视化分析面积图、小提琴图反应数据真实分布情况4.数据科学应用多维度数据可视化分析时间序列热力图4.数据科学应用多维度数据可视化分析多维度动态数据展示:1.时间2.颜色3.大小4.X轴5.Y轴4.数据科学应用交互式BI分析工具快速构建前端工具4.数据科学应用交互式BI分析工具用户查询工具4.数据科学应用交互式BI分析工具用户查询工具4.数据科学应用交互式BI分析工具ChatGPT生成查询SQL目录1.基础设施研发2.监控产品演进3.AIOps应用4.数据科学应用5.未来展望5.未来展望数仓的可拓展引入存算分离架构数据仓库5.未来展望数据分析的未来ChatGPT数据分析5.未来展望全路径可观测客户端LB后端DB网络虚拟化内核宏观可观测微观可观测实现全路径观测盲区可观测、真根因分析智能运维可观测平台建设THANK YOU!