1、手淘AIOps实战-消息全链路智能监控 阿里巴巴-董福铭(吾铭)、黄俊(豆豆) 手淘消息业务场景、系统架构 手淘消息全链路稳定性保障 异常检测在全链路体系实践经验 Holmes异常检测平台 未来展望 Q&A 目录 电商消息业务场景 场景:社交互动、 客服沟通、交易提醒、优惠通知、品牌资讯 标:打造新零售业务商业连接,帮助消费者进消费决策 目录 电商消息业务场景 消息链路面临问题 全链路质量保障 全链路排查 打造手淘消息全链路智能监控排查系统,赋能消息及上 层业务,实现业务指标实时监控、舆情智能分析、端到 端全链路自动排查,有效缩短了线上问题从发现到定位 的时间。提升排查效率达70%以上;日志量
2、每天减少数 百亿条;SLS存储资源和采集资源减少50%以上;累计 服务9个APP;问题排查次数达162W; 全链路监控 传统监控-现状&痛点 告警有效性低、监控疲劳 海量告警及告警噪音,消耗大量人力 传统规则通用性差 指标复杂的周期性和模式变化的动态性 误报/漏报 受季节性数据/噪声/抖动数据的干扰 排查效率低 业务系统链路长,排查问题需要多人协同 全链路监控 智能监控-特点&优势 特点: 学习历史数据,分析当前指标曲线趋势是否异常 基于以往数据,进预测未来指标势 优势: 算法检测代替规则检测 告警准确率 更早发现异常情况 可适应业务发展带来的趋势变化 异常检测架构 基于AI算法的异常检测平台
3、-Holmes 智能化、轻量级、易接、可扩展 异常检测算法替代传统的规则监控 解决准确率低、时效性低、配置复杂等问题 异常场景 算法检测效果 异常检测-实践效果 实践案例1: 某客户端新版本放量期间, 由于客户端请求传参问题导致服务端 返回量空返回错误,Holmes 有效检测到异常并及时告警。相 关同学收到报警及时中放量并快速定位问题。 ps:基于规则监控因未达到阈值没有预警 异常检测-实践效果 实践案例2: 在618促压测期间,由于千新业务订单数据量持续下降(缓慢下跌),Holmes检测到持续异常信息,预测数据下跌风险, 早于传统规则监控90分钟提前报警,有效避免了线上故障。 CNN本分类+DBScan相似算法, 精细聚类舆情; 舆情问题结合全链路排查体系,智 能定位原因,提排查效率; 分钟级定时巡检预警,结合AI异常 检测,避免问题故障。 智能舆情-监控 智能舆情-报警 1、舆情精细化
1、下载报告失败解决办法 2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。 3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。 4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
小米汽车SU7发布会PPT.pdf
张晓辉《无需编译重启快速扩展服务网格功能》.pdf
肖潇《边缘容器在全球音视频场景的探索与实践》.pdf
简志《AI大模型加持运维领域基础模型》.pdf
莫仁鹏《作业帮服务观测体系建设与实践》.pdf
陈迪豪《OpenMLDB最新开源生态集成》.pdf
刘洋《QQ浏览器视频搜索中的多模态技术》.pdf
陈涛《新一代云原生架构:阿里云事件驱动架构(EDA)在生产领域的实践》.pdf
叶嘉明《通过“云自由”实现技术降本的探索与实践》.pdf
蚂蚁基于Paimon数据湖实践.pdf
赵培霏《剪映业务的大前端实践》.pdf
京东统一存储实践.pdf
骆庚《如何快速搭建LLM生产级应用》.pdf
2024-科技实时数仓-陈伟强-V2.pdf
敖小剑《让服务编排和分布式事务变得简单》.pdf
杨帆《烧了一千万终于想明白了? —— 设计稿转代码的路为什么这么难走》.pdf
三个皮匠报告专业的行业报告下载站,每日更新,欢迎大家关注!
copyright@2008-2013 长沙景略智创信息技术有限公司版权所有 网站备案/许可证号:湘B2-20190120
专属顾问
机构入驻、侵权投诉、商务合作
三个皮匠报告官方公众号
验证即登录,未注册将自动创建三个皮匠报告账号
使用 微信 扫一扫登陆