上海品茶

您的当前位置:上海品茶 > 报告分类 > PDF报告下载

2019年基于APM的智能运维体系在京东物流的落地和实践.pdf

编号:95907 PDF 38页 3.14MB 下载积分:VIP专享
下载报告请您先登录!

2019年基于APM的智能运维体系在京东物流的落地和实践.pdf

1、基于APM的智能运维体系在京东物流的落地和实践京东物流 架构师目录业界智能运维发展现状及趋势智能运维体系建设方法论大规模实时监控平台的实践方案智能故障定位与处理实践 APM 在京东物流的落地实践 智能运维(AIOps)落地规划业界智能运维发展趋势新的问题运维人数不变,管理机器数翻倍1234正在消失的运维运维从业者减少,运维专家匮乏运维平台日趋复杂,缺乏统一规划公司内部监控/运维系统繁多,形成数据孤岛网络拓扑日益复杂,资源云化,虚拟资源频繁弹性伸缩。不可靠的CMDB过去1:n 现在1:10越来越复杂的应用拓扑消息服务器发消息应用D应用E收消息收消息收消息数据库分布式缓存JDBCJDBC读缓存分布

2、式文件系统写缓存存取应用A开放平台API 请求无线客户端请求前端网页请求应用B应用C服务调用服务调用应用F应用G服务调用服务调用应用H服务调用服务调用服务调用应用A数据库JDBC前端网页请求系统问题定位难快速发展的APMAPM(应用性能管理)市场规模逐年递增0070200172018APM市场规模(亿美元)目前,全球APM市场规模大约在60亿美元左右,预计在五年内达到90亿美元APM成为ITOM成长最快的领域APM能够对企业的关键业务应用进行监测、诊断分析、优化,最终能够提高应用的可靠性和质量,保证良好的用户体验,降低IT成本运维角色转变背锅侠救火员

3、被动响应主动求变需求提炼产品化开发产品化落地产品意识推广落地业务数据分析过程改进技术运营事件处理业务分析业务预测业务增值架构标准化架构实施架构优化架构运维运维价值凸显 新运维时代来临目录业界智能运维发展现状及趋势分析智能运维体系建设方法论大规模实时监控平台的实践方案智能故障定位与处理实践 APM 在京东物流的落地实践智能运维(AIOps)落地规划智能运维体系建设方法论统一规划、避免重复建设标准化是前提产品化设计、产品化开发服务驱动运维中台业务增值过程改进智能运维体系建设方法论闭环生命周期管理流程管理审计归档目录业界智能运维发展现状及趋势分析智能运维体系建设方法论大规模实时监控平台的实践方案智能

4、故障定位与处理实践 APM 在京东物流的落地实践智能运维(AIOps)落地规划大规模实时监控平台V1.0大规模监控平台架构大规模实时监控平台V1.0多级部门、应用多维度统计日报、周报、同比、环比统计低资源使用率TOP统计低负载应用榜单低资源使用率应用优化建议多维度使用率分析助力企业降本增效使用率报表大规模实时监控平台V2.0整合多端数据,解决数据孤岛问题性能分析、告警分析更加准确更全面评估应用健康状况大规模实时监控平台V2.0整合各种应用维度的指标分析,提供更全面的应用数据分析和故障诊断系统指标调用链指标日志分析数据库指标JVM指标应用拓扑自动探测应用健康报告大规模实时监控平台V2.0日志处理

5、架构大规模实时监控平台V3.0产品规划大规模实时监控平台V3.0故障预测、容量预测、性能预测预测分类:预测算法:重点关注:LSTM、多元线性回归、决策树、随机森林、神经网络、朴素贝叶斯分类、最小二乘法、支持向量机 算法匹配度评分日历适配、基于节假日的机器学习算法Kpi自动分类并匹配预测算法基于业务关联关系的预测算法预测大规模实时监控平台V3.0红绿灯大屏可视化目录业界智能运维发展现状及趋势分析智能运维体系建设方法论大规模实时监控平台的实践方案智能故障定位与处理实践 APM 在京东物流的落地实践智能运维(AIOps)落地规划智能故障处理传统故障处理被动故障处理:1.事后处理:出先故障后开始处理,

6、易造成业务中断;2.人工处理:基于工作流的故障上报和处理,层层通知手工定位故障原因,故障修复时间长;3.无计划性:多为突发情况,进行临时处理,难免有疏漏之处;4.报警爆炸:随着业务增长,报警越来越多,运维人员不堪其扰主动故障处理:1.事前感知:通过故障预测算法,预测故障类型及发生时间,并提前通知项目负责人;2.自动处理:决策引擎根据预设的事件处理策略,自动执行处理指令以及基于机器学习的自动故障处理;3.定时巡检:平台化的定时巡检机制,给出应用健康报告,问题早发现早解决;4.报警收敛:对告警做告警筛选、过滤、合并操作,大大减少报警数量;故障快照出现告警自动抓取现场快照信息快照信息持久化保存根据自

7、学习的知识库提供异常原因分析集成Arthas诊断工具,快速诊断问题根因分析基于双向过滤的告警通知恢复轻度中度严重过滤通知处理引擎过滤高级通知策略方法告警日志告警资产资产资产邮件短信咚咚微信调用链告警业务告警业务告警每天每月每周自定义时间规则为保证告警信息能够及时准确的传达给系统管理员,监控模块需要实现灵活的告警通知策略双重过滤的通知方式:资源和通知联系人分别应用通知策略,实现对通知的双重安全过滤目录业界智能运维发展现状及趋势分析智能运维体系建设方法论大规模实时监控平台的实践方案智能故障定位与处理实践 APM 在京东物流的落地实践智能运维(AIOps)落地规划业界分布式跟踪系统Google:Da

8、pperNaver:PinpointTwitter:Zipkin点评:Cat阿里:EagleEye京东:JTrace、JD-Hydra(已废弃)、Callgraph、SGM新浪:Watchman美团:MTrace又拍云:Tail其他:OpenTracing、SkyWalking服务厂商:Compuware、iMaster、博睿Bonree、听云、New Relic、云智慧、OneAPM、AppDyn、Amics京东物流Jtrace分布式跟踪系统延展性应用级透明低消耗智能分析定义了四个具体的设计目标JTrace数据结构核心数据结构由Span,Trace,和 TraceId组成:Trace:多个S

9、pan的集合;Span:RPC跟踪的基本单元;SpanEvent:内部方法调用基本单元 TraceId:TransactionId(TxId):全局唯一消息的ID SpanId ParentSpanId(pSpanId)Jtrace应用示例架构设计 分布式事务跟踪,跟踪分布式应用消息 自动检测应用拓扑,帮你搞清楚应用的架构 水平扩展支持大规模服务器集群 提供代码级别的可见性以便轻松定位失败点和瓶颈 使用字节码增强技术,添加新功能无需改动代码 集成SQLAdvisor 智能化采样率七大能力:字节码增强技术JavaAgent:java-javaagent:myagent.jar=mode=test

10、 Test功能:可以在加载class文件之前做拦截,对字节码做修改可以在运行期对已加载类的字节码做变更,但是这种情况下会有很多的限制。还有其他一些小众的功能 获取所有已经加载过的类 获取所有已经初始化过的类(执行过clinit方法,是上面的一个子集)获取某个对象的大小 将某个jar加入到bootstrap classpath里作为高优先级被bootstrapClassloader加载 将某个jar加入到classpath里供AppClassloard去加载 设置某些native方法的前缀,主要在查找native方法的时候做规则匹配java字节码框架kernelpluginpluginplugi

11、npluginAgent内部是采用微内核+插件的方式微内核:封装了通过ASM或Javassist字节码框架对类进行增强插件:插件中指定要增强的类和方法以及增强内容优点缺点手工埋点1.要求更少开发资源2.API可以更简单并最终减少bug的数量1.开发人员必须修改代码2.跟踪级别低自动埋点1.开发人员不需要修改代码2.可以收集到更多精确的数据因为有字节码中的更多信息1.开发难2.开发人员要求高3.增加bug发生的可能性字节码增强的价值隐藏API一旦API被暴露给开发人员使用,我们作为API的提供者,就不能随意的修改API。这样的限制会给我们增加压力。而使用字节码增强技术,我们就不必担心暴露跟踪AP

12、I而可以持续改进设计,不用考虑依赖关系。容易启用或者禁用使用字节码增强的缺点是当JTrace自身类库的采样代码出现问题时可能影响应用。不过,可以通过启用或者禁用JTrace来解决问题,很简单,因为不需要修改代码。-javaagent:$AGENT_PATH/pinpoint-bootstrap-$VERSION.jar-Dpinpoint.applicationName=APM性能优化 使用二进制格式(thrift协议)用常量表替换重复的API信息,SQL语句和字符串 处理大量请求的采样 使用异步数据传输来最小化应用线程中止 使用UDP协议传输数据 使用变长编码和格式优化数据记录(thrift CompactProtocol)经过数论压测计算Agent端会有3%的性能损失到目前为止还没有出现因为Agent出现性能问题。目前接入应用677个,接入机器近9000台目录业界智能运维发展现状及趋势分析智能运维体系建设方法论大规模实时监控平台的实践方案智能故障定位与处理实践 APM 在京东物流的落地实践智能运维(AIOps)落地规划AIOP总体建设思路AIOPS落地规划

友情提示

1、下载报告失败解决办法
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。

本文(2019年基于APM的智能运维体系在京东物流的落地和实践.pdf)为本站 (云闲) 主动上传,三个皮匠报告文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三个皮匠报告文库(点击联系客服),我们立即给予删除!

温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。
会员购买
客服

专属顾问

商务合作

机构入驻、侵权投诉、商务合作

服务号

三个皮匠报告官方公众号

回到顶部