《2019年京东物流超大规模仓储系统智能监控揭秘.pdf》由会员分享,可在线阅读,更多相关《2019年京东物流超大规模仓储系统智能监控揭秘.pdf(30页珍藏版)》请在三个皮匠报告上搜索。
1、G O P S 全 球 运 维 大 会 2 0 1 9 上 海 站G O P S 全 球 运 维 大 会 2 0 1 9 上 海 站京东物流超大规模仓储系统智能监控揭秘G O P S 全 球 运 维 大 会 2 0 1 9 上 海 站目录问题及挑战1超大规模监控系统解决方案2面向AIOPS的智能监控最佳实践3规划&展望4G O P S 全 球 运 维 大 会 2 0 1 9 上 海 站京东物流仓储系统监控的问题及挑战 仓储库房分布地域广 机器、应用数量多 资产变化频繁 监控对象种类杂 部署环境不一致 网络环境不稳定目前京东物流在全国运营了约600个大型仓库,仓储设施占地面积超过 1500万 平
2、方米。同时印尼、泰国等国际化仓储数量仍在不断增加各地库房分布地域、国际化仓的大量投入运营,以及各地网络运营商差异导致部分集群到监控服务端的网络环境不一物流相关业务的不断发展导致了频繁的开仓、关仓,从而导致资产配置信息变化频繁除了各地仓储库房的机器外,京东物流在大型IDC数据中心运营着数万台机器和数千个应用各地仓储机房内运行着大量的网络设备、服务器、存储、刀片服务器等,且厂商型号众多,此外也包含大量的docker和云主机目前仓储并存多套应用发布环境,各环境部署方式、环境依赖不同,导致监控复杂化G O P S 全 球 运 维 大 会 2 0 1 9 上 海 站AIOPS趋势下智能监控系统的新挑战A
3、IOPS?AI应用场景分散,成熟度不一致 业务多样化,算法工程化困难,大部分场景距离实际应用有一定的距离 监控指标深度,专业化程度不够 数据源不够全面 频繁变化的资产,不可靠的CMDB 运维专家匮乏 复合型人才匮乏:AI和算法工程师+运维开发G O P S 全 球 运 维 大 会 2 0 1 9 上 海 站目录问题及挑战1超大规模监控系统解决方案2面向AIOPS的智能监控最佳实践3规划&展望4G O P S 全 球 运 维 大 会 2 0 1 9 上 海 站对监控的认识 什么是监控?为什么需要监控?监控的价值?监控的范围、粒度?监控体系的规划?监控在运维体系中的定位?监控和资产、运维的关系?监
4、控=无人值守?监控和AIOPS的关系?监控到智能监控的演化?。G O P S 全 球 运 维 大 会 2 0 1 9 上 海 站监控运维体系规划G O P S 全 球 运 维 大 会 2 0 1 9 上 海 站监控运维体系规划G O P S 全 球 运 维 大 会 2 0 1 9 上 海 站建设目标&要求与AI技术结合进行故障、性能及容量的预测,实现监控智能化推动规范化、自动化的运维管理流程,提供完善的故障处理和快速修复机制实时掌握数据中心整体资产配置使用情况、运行趋势和健康状况,为决策层提供数据依据及时性故障在第一时间告警并通知管理员准确性不漏报、不误报精确性秒级监控、细粒度兼容性兼容各服务
5、器、应用、中间件扩展性插件式、易扩展、不改代码可用性高可用、无单点故障以资产为基础为运维管理提供数据支持当故障出现时,能快速和准确定位问题根源使用大数据分析技术挖掘监控数据价值,助力业务增值能力成熟度模型G O P S 全 球 运 维 大 会 2 0 1 9 上 海 站构建可靠的CMDB自动发现自动发现业务接口业务接口(消息)(消息)流程化流程化定时同步定时同步自动发现是降低维护成本的一种有效方式,提供固定IP段、协议参数等信息自动扫描资产信息以及资产配置信息资产配置信息变化频繁,在资产变更时发送广播消息(或通过接口)通知其他子系统同步变更,保证资产变化实时同步运维资产信息变更的场景化流程梳理
6、,比如说开关仓,服务器开关机/断电,服务器下架等等,这些流程需要与laos等平台打通,建立标准化变更流程人工维护人工维护结合现有的IT运维流程,在某些场景下通过人工变更把CMDB信息维护准确,比如主机所属负责人变更、人员异动、机器异动等,可以通过人工直接变更完成资产数据来源多样化,目前有来自j-one/cap/dbs/中间件等其他平台的资产配置信息,通过定时同步的方式作为补充手段G O P S 全 球 运 维 大 会 2 0 1 9 上 海 站技术架构采集决策处理agentjdos apizabbix api通知自动处理人工处理规则管理规则匹配回溯分析预设规则知识库深度学习决策树异常反馈分析使
7、用率统计预处理过滤实时告警阈值判断历史数据业务分析根因分析趋势分析故障预测数据挖掘大数据分析dbs apiG O P S 全 球 运 维 大 会 2 0 1 9 上 海 站技术架构Kafka历史数据tagentttHeatbeat-server实时数据告警模块通知模块上层业务架构transferJMQredis queueKafka clusterredisredisredisredisredismysqlredisredises历史查询历史查询日志分析历史查询历史查询查询服务历史查询历史查询配置接口历史查询历史查询趋势分析consumerconsumer可水平扩展的consumer clus
8、ter知识库监控数据告警分析Trap reciever通知模块consumer底层监控架构短信mailcallbacklogstashagentlogstashagentlogstash心跳、配置同步redisredismysql定时同步历史查询历史查询故障预测历史查询历史查询报表服务transfertransfer通知模块事件处理自动处理人工处理告警处理G O P S 全 球 运 维 大 会 2 0 1 9 上 海 站兼容性日志分析平台库房机器IDC机器物理机/Docker库房DevopsIDC物理机/Docker数据库运维平台调用链监控平台Devops平台方法监控统一整合MDC监控Loas
9、MDC平台DBS平台ZabbixlogbookJtraceUMPJ-one开源平台G O P S 全 球 运 维 大 会 2 0 1 9 上 海 站异常检测方法一:当前时刻和前一时刻数值比较,波动超过一定阈值就报警t 1 y(阈值)只考虑相邻两个点之间的波动,忽略了随时间周期性变化的因素,因此误差较大G O P S 全 球 运 维 大 会 2 0 1 9 上 海 站异常检测方法二:同比环比将当前时刻数据和前一时刻数据(环比)或者前一天同一时刻数据(同比)比较,超过一定阈值即认为该点异常使用历史上的单点数据来预测当前数据,误差比较大t 1 y(阈值)G O P S 全 球 运 维 大 会 2 0
10、 1 9 上 海 站异常检测方法三:基于基线的异常检测对历史数据求平均,然后过滤噪声,可以得到一个平滑的曲线(基线),使用基线数据来预测当前时刻的数据t 1 y(阈值)当前时刻和同时刻基线数值比较,波动超过一定阈值就报警G O P S 全 球 运 维 大 会 2 0 1 9 上 海 站异常检测方法四:基于预测的异常检测(准确性)预测算法的选择直接影响异常检测的准确性 预测算法:多元线性回归、LSTM、决策树、随机森林、神经网络、朴素贝叶斯分类、最小二乘法、支持向量机 G O P S 全 球 运 维 大 会 2 0 1 9 上 海 站异常检测方法五:基于Holt-Winters预测三次指数滑动平
11、均算法,它将时间序列数据分为三部分:残差数据a(t),趋势性数据b(t),季节性数据s(t)。使用Holt-Winters预测t时刻数据,需要t时刻前包含多个周期的历史数据。相关链接:Exponential smoothing、Holt-Winters seasonal method。迭代计算公式(周期为k):当|yt-at|X时,认为出现异常G O P S 全 球 运 维 大 会 2 0 1 9 上 海 站调用链 分布式事物跟踪,跟踪分布式应用消息 自动检测应用拓扑,帮你搞清楚应用的架构 水平扩展支持大规模服务器集群 提供代码级别的可见性以便轻松定位失败点和瓶颈 使用字节码增强技术,添加新功
12、能无需改动代码 集成SQLAdvisor 智能化采样率G O P S 全 球 运 维 大 会 2 0 1 9 上 海 站事件处理引擎告警输入规则引擎自学习自动处理人工处理通知权限检查审计日志执行引擎规则库系统预设快照扩容/缩容重启。IT运维流程G O P S 全 球 运 维 大 会 2 0 1 9 上 海 站智能知识库 与工单系统联动,自动收录咨询的问题及解决方案同步日常咨询的运维问题作为基础数据,解决了知识库的数据来源问题 基于火眼监控平台积累的监控故障数据并进行机器学习分析大量有价值的监控及告警数据可以作为机器学习分析的数据样本,以此保证知识库平台自动更新迭代,避免可人工维护费时费力且数据
13、容易过时的问题 集成根因分析、多业务关联分析提供智能根因分析、多业务关联分析,将分析加过纳入知识库中 反馈文本聚类分析基于研发人员反馈的问题进行聚类分析,形成数据池 支持人工异常标注基于研发手动标注的问题完善知识库内容,相对自学习的方式更加精准 统计报表将研发咨询量最大的问题统计为报表,纳入知识库中,作为高权重知识 知识库关键词检索提供根据关键词检索功能,帮助研发人员快速自助解决问题 智能客服机器人提供智能客服机器人服务,根据人员信息自动推测可能的问题及解决方案G O P S 全 球 运 维 大 会 2 0 1 9 上 海 站目录问题及挑战1超大规模监控系统解决方案2面向AIOPS的智能监控最
14、佳实践3规划&展望4G O P S 全 球 运 维 大 会 2 0 1 9 上 海 站故障快照 出现告警自动抓取现场快照信息 快照信息持久化保存 根据自学习的知识库提供异常原因分析 集成Arthas诊断工具,快速诊断问题G O P S 全 球 运 维 大 会 2 0 1 9 上 海 站网络检测模型IDC各地仓储国际化仓储国际化仓储各地仓储各地仓储各地仓储各地仓储各地仓储国际化仓储复杂的网络环境10.187.12.13(本机)-10.187.12.14(12ms)10.187.12.13(本机)-10.187.12.15(120ms)10.187.12.13(本机)-10.187.12.16(1
15、ms)10.187.12.13(本机)-10.187.12.17(16ms)IDC自动构建的网络监测拓扑G O P S 全 球 运 维 大 会 2 0 1 9 上 海 站趋势预测故障预测、容量预测、性能预测预测分类:预测算法:重点关注:多元线性回归、LSTM、决策树、随机森林、神经网络、朴素贝叶斯分类、最小二乘法、支持向量机 算法匹配度评分日历适配、基于节假日的机器学习算法Kpi自动分类并匹配预测算法基于业务关联关系的预测算法G O P S 全 球 运 维 大 会 2 0 1 9 上 海 站可视化G O P S 全 球 运 维 大 会 2 0 1 9 上 海 站目录问题及挑战1超大规模监控系统
16、解决方案2面向AIOPS的智能监控最佳实践3规划&展望4G O P S 全 球 运 维 大 会 2 0 1 9 上 海 站迭代优化技术产品组织 AI+算法 高性能 稳定性 兼容性技术架构 聚焦业务,为业务服务 智能运维体系构建 模块化 组件化产品架构 团队人员结构优化 运维专家 算法工程师 AI工程师组织架构G O P S 全 球 运 维 大 会 2 0 1 9 上 海 站AIOPS规划分析决策处理采集1.告警分析;2.趋势分析;3.性能分析;4.事件分析;5.日志分析;预测上报故障止损异常检测发现问题解决问题规避问题api主动检测KPI聚类分析故障树根因分析智能通知智能处理回溯分析智能告警知识库深度学习决策树异常反馈自动处理人工处理处理报告容量预测趋势分析性能预测扩容建议故障预测决策支持预算建议故障快照