上海品茶

您的当前位置:上海品茶 > 报告分类 > PDF报告下载

浪潮&腾讯:2021年TIFDS数据中心服务器智能故障诊断系统白皮书(16页).pdf

编号:63854 PDF 16页 4.47MB 下载积分:VIP专享
下载报告请您先登录!

浪潮&腾讯:2021年TIFDS数据中心服务器智能故障诊断系统白皮书(16页).pdf

1、TIFDS数据中心服务器智能故障诊断系统白皮书腾讯:曾令新,牛犇,林哲伟,严勇浪潮:李道童,陈衍东,张春宏,韩红瑞,骆健,孙志杰,徐明,倪旭华目录目录 / 2数据中心服务器智能故障诊断系统白皮书背景01云和数据中心的发展趋势02TIFDS故障诊断系统介绍03TIFDS故障诊断创新实践助力腾讯云服务器智能化运营0405未来展望云计算的发展趋势产业互联网时代的智能化运营需求TIFDS故障诊断系统定义TIFDS方案架构介绍腾讯云服务器故障诊断体系介绍宕机类故障诊断非宕机类故障诊断故障预警与隔离专家规则分析,找到第一个故障触发源结合历史数据进行时间序列分析,实现智能回溯案例库建立,测试标准建立以及自动

2、化测试方法三大利器,减少人为判断,提高测试效率,保证固件发布质量全面定义日志格式,完美适配腾讯云运维监控系统带外一键日志采集功能和工具,配合腾讯云运维系统实现故障日志的自动采集和保存疑难问题自动识别上报监控系统,配合腾讯云运维系统实现自动化线上诊断分析带外日志输出明文化,运维人员可自行查看01 背景针对目前服务器运维的痛点问题,如何快速提升数据中心服务器的自动化明确故障诊断准确率,也成为一个复杂的系统级工程,如何能够构建一套贴合业务场景的服务器智能化故障诊断系统,不断降低运维成本,持续提升运维效能,成为业界一个亟待解决的新课题。腾讯云作为国内首家突破百万台量级规模的云厂商,长期致力于引领中国数

3、字经济的发展,构建更具创新力的基础设施运营。浪潮作为全球前三,国内第一的服务器龙头企业,秉承创新的理念,以为客户创造价值和为企业增加效益为使命,通过强大的研发能力和创新能力,为客户提供领先技术。双方基于多年来海量服务器的运营经验积累与创新实践,共同探索服务器运营发展趋势,制定了数据中心服务器智能化故障诊断方案框架,并希望通过数据中心服务器智能故障诊断系统白皮书为行业带来一些革新的思路和视角。随着云技术的普及,尤其是“新基建”,“数字化转型”等需求驱动着数字经济的高速发展,服务器在CDC数据中心的部署规模也呈指数级增长。随之而来的运维管理复杂度和难度也越来越大,而传统的海量服务器数据中心的故障运

4、营也面临着更大的挑战和更高昂的成本,从最初的脚本运维、工具运维到平台运维演进至今,人力已接近极限,越来越无法满足快速修复故障和恢复业务运行的要求。01 背景 / 3数据中心服务器智能故障诊断系统白皮书大规模数据中心运维存在如下的痛点问题:机器故障后,重要的日志信息不全,无法自动准确进行故障部件定位;故障诊断效能较低,服务器出现问题后主要基于人工分析和经验判断结果,自动化与智能化程度不高。成本高时效性差,人工经验分析依赖大量运维人力投入并导致较长的运维时间(MTTR),影响业务的快速恢复。由于诊断结果的明确化率低,引起二次故障维修比例较高,导致额外数据迁移成本和业务影响。1.2.3.4.中国云计

5、算市场规模突破千亿, 并持续两位数增长。 纵观整个云计算发展的发展史, 主要有4 个阶段 :我们当前已经处在了云的产业化阶段,腾讯云作为产业互联网的主要倡导者,积极的响应国家“新基建“号召,已在全球27个地理区域部署了150+个数据中心,并在2020年投入建设了可容纳百万服务器的清远云计算数据中心,成为了腾讯云首个开服的超大规模数据中心,也是华南区迄今为止最大的新基建项目。为了更高效准确地管理百万级服务器,智能化的监控诊断系统必不可少。腾讯云也长期致力于将智能化应用冗余服务器运营,通过分析大量服务器运营数据,不断进行故障模型学习训练,联合浪潮共同研发业内领先的TIFDS故障诊断系统。02 云和

6、数据中心的发展趋势02 云和数据中心的发展趋势 / 4数据中心服务器智能故障诊断系统白皮书云计算的发展趋势产业互联网时代的智能化运营需求虚拟化阶段实现软硬件解耦和资源池化,从而达到局部效率和可靠性提升的目的服务器化阶段将独立的技术能力包装为整合的服务输出,包含云计算的三个分层IaaS、PaaS、SaaS等产业化阶段产业互联网阶段,通过云计算技术助力产业进行变革,打造行业生态 与解决方案,助力传统行业上云迁移 / 云转型标准化阶段建立标准化流程,使公有云, 私有云,多云互通无缝迁移 ; 提高云服务便捷性, 就像使用水和电方式一样使用云服务03 TIFDS故障诊断系统介绍03 TIFDS故障诊断系

7、统介绍 / 5数据中心服务器智能故障诊断系统白皮书TIFDS (Tencent&Inspur Fault Diagnosis System) 故障诊断系统是服务器健康监管技术及故障预警诊断技术的总称,旨在实现运维工作任务由人工离线分析向自动智能在线识别的方向发展,建立一套以带外BMC为中心的自动化故障诊断系统,提升服务器故障预警能力、故障诊断明确率、以及停机维护效率,减少非计划停机时间,提升服务器全生命周期的健壮的RAS特性(可靠性,可用性及可维护性)。该系统依托腾讯超过100万台服务器的维护数据,深度定制了服务器事件日志,通过AI技术对服务器运营数据进行实时的分析,从而实现了对CPU,内存、

8、硬盘,PCIe等设备的自动化预警,将服务器故障诊断自动明确化率提升至95%以上。TIFDS故障诊断系统定义联合开发IP:TIFDS故障诊断系统,用AI提升运维效率定制化日志+海量运营数据联合IP:TIFDS故障诊断系统故障明确化率业内领先故障自动明确化率95%+CPU硬盘内存板卡内存故障硬盘故障PCIe部件故障系统宕机IERRCPU内存PCIe卡主板非IERRMCE(Machine CheckException)内存,CPU非MCE(系统盘只读,异常掉电等)数据中心服务器智能故障诊断系统白皮书03 TIFDS故障诊断系统介绍 / 6TIFDS可以覆盖由于IERR(Internal Error)

9、和非IERR造成的系统宕机故障,并精准地定位出故障部件,如CPU,内存,主板,PCIe外插卡,存储等设备。服务器运行过程中一旦发生异常,TIFDS系统会立刻响应并准确诊断出故障的部件,将故障问题原因、故障部件具体位置、部件型号信息、维修建议等信息及时上报至运维管理系统。运维管理系统可自动生成维修工单,运维人员根据维修建议,需要更换部件信息,快捷更换故障部件或者依据TIFDS指导排除故障,迅速使机器恢复健康状态。传统的以小时计算维修时间级别压缩至分钟级别。极大提升运维效率,实现云业务快速恢复。TIFDS方案架构介绍宕机类故障诊断数据中心服务器智能故障诊断系统白皮书03 TIFDS故障诊断系统介绍

10、 / 7TIFDS系统通过BMC实时监控服务器系统上遍布各处的电压、电流、温度传感器信息,实时监控电源、风扇、以及各部件的工作状态和工作负荷情况;根据可在线更新的告警阈值、预警阈值和故障判定规则,可实现对服务器中存在风险的位置进行故障预警、故障告警或故障判定,并时刻上报智能运维系统。TIFDS可以对服务器内所有部件进行全生命周期的寿命和运行状态进行跟踪,通过机器学习的算法对高风险的部件提前进行预警,降低服务器在高负荷运行状态下的突然失效。另外对已发生故障的部件,TIFDS可以按部件类别做出相应的隔离措施处理,避免单一非必要部件故障影响整机系统的运行。非宕机类故障诊断智能运维系统在线更新BMC告

11、警阈值预警阈值故障规则输出:告警阈值预警阈值故障规则理论设计老化测试极限测试案例分析故障测试智能分析温度电压电流板卡风扇负荷状态MemoryCPUCore 0PCle DevicesPCle slot 0PCle slot 1PCle slot 2PCIe slot 3Dimm 0Dimm 1Dimm 2Dimm 3Dimm 4Device CE WarningDevice fault isolationDimm 5SATAPCHC0C1C2C3C4C5C6C7C8C9CaCb故障预警与隔离数据中心服务器智能故障诊断系统白皮书03 TIFDS故障诊断系统介绍 / 8腾讯云服务器故障诊断体系介绍

12、TIFDS是腾讯云运维监控系统中的重要组成部分,是服务器带外数据的主要来源,在内存,CPU,PCIe等部件的故障监控,失效预测,大规模告警上有极大贡献。通过定制化的日志自动适配腾讯云备件系统,给腾讯云健康管理系统增加参考维度,并基于带内带外日志开发出线上诊断系统,深度的定制化模式和简单易用的维护工具使整个运维系统能更加智能,高效。业务系统备件系统健康度管理系统腾讯云故障处理系统线上诊断系统问题升级系统宕机类型CPU故障内存故障PCle部件其它故障非宕机类型硬盘故障电源风扇电压故障预测硬盘故障内存故障大规模告警温度电力Others不明确告警非法操作告警腾讯云故障诊断系统【综合诊断】带外日志资产信

13、息带内日志Ping/Agent/只读TIFDS服务器硬件操作系统通过腾讯云与浪潮联合开发TIFDS故障诊断系统,腾讯云服务器故障自动明确化率已提升至95%以上,业界内领先。而全方位的故障诊断能力提升依赖每一个改进创新点的共同实现;其中包括PECI收集数据的优化、专家规则库的积累、故障诊断推导过程可视化打印输出、以及整机系统的一键日志辅助诊断信息收集等。首先BMC会从服务器故障时刻获取到所有的CPU寄存器原始数据,及该服务器配置下的系统地址空间拓扑;遍历所有CSR、MSR、AER寄存器,从表征出故障的CPU链路进行逐一拓扑结构枚举,排除因第一故障引起的其他一系列连锁故障,隔离导致IERR发生的第

14、一故障源,最大限度的避免误诊断而引起的二次宕机维护。04 TIFDS故障诊断创新实践助力 腾讯云服务器智能化运营04 TIFDS故障诊断创新实践助力腾讯云服务器智能化运营 / 9数据中心服务器智能故障诊断系统白皮书专家规则分析,找到第一个故障触发源04 TIFDS故障诊断创新实践助力腾讯云服务器智能化运营 / 10数据中心服务器智能故障诊断系统白皮书客户业务过程监控发现Ping不可达 监控系统接收上报故障信息业务重启恢复数据派单现场维修故障修复现网机器发生故障日志收集日志上报现场维修日志分析温度,电压,转速传感器状态信息GPU,Raid卡状态信息确定故障触发源CPU槽位分析MC Bank(st

15、atus,MISC,ADDR)寄存器信息定位故障CPU,PCIe设备,内存,主板部件定位故障电源,风扇,主板,GPU,Raid卡等ADDR寄存器分析MISC寄存器分析Status寄存分析上报SEL/SNMP Trap故障分析结束故障机器重启现场更换故障备件IERRBMC收集CPU寄存器日志非IERRBMC收集服务器监控信息故障触发IERR非IERR通过专家人工分析数千个故障案例,结合现网上报的故障数据和实际的故障部件深入分析,形成准确故障案例和判断规则,并以专家规则库模型融入故障诊断系统,使故障诊断结果更科学,更可信。04 TIFDS故障诊断创新实践助力腾讯云服务器智能化运营 / 11数据中心

16、服务器智能故障诊断系统白皮书故障发生后在使用TIFDS故障诊断规则输出诊断结果前,BMC会结合该服务器历史故障记录数据进行时间序列分析;智能分析故障前发生的事件与本次故障的关联度,高关联度事件则锁定为真实的第一故障源;遍历历史记录事件,通过TIFDS故障诊断的迭代诊断智能暴露出被隐藏的故障部件,最大限度的提高故障诊断的准确率BMC中集成故障诊断案例测试模块,完全复用线上诊断所用规则,提供案例输入接口与诊断结果查询接口。测试人员按照输入接口数据内容和格式要求输入往期案例,并触发BMC诊断,然后通过结果查询接口查询诊断结果,既可以验证BMC版本对案例的诊断结果是否准确,而不再需要重新注入故障来进行

17、验证。这样可以快速完成对新版本BMC的诊断规则验证。结合历史数据进行时间序列分析,实现智能回溯案例库建立,测试标准建立以及自动化测试方法三大利器,减少人为判断,提高测试效率,保证固件发布质量故障记录时间序列分析检索关联事件可信故障部件04 TIFDS故障诊断创新实践助力腾讯云服务器智能化运营 / 12数据中心服务器智能故障诊断系统白皮书依托于腾讯云海量服务器数据运维能力以及双方多年来的合作经验,腾讯云服务器运营团队携手浪潮共同制定日志格式,在日志的收集,日志分析过程,日志上报过程信息格式如SDR,Snmptrap,SEL以及带外Web页面输出格式上进行了定制化设计,使得TIFDS诊断输出结果与

18、腾讯云运维监控系统完美适配,保障了资产系统,备件系统以及故障处理系统自动关联,从而实现真正的硬件故障自动监控处理全面定义日志格式,完美适配腾讯云运维监控系统故障触发结束BMC进行故障信息收集及诊断主动发送故障信息报文到运维系统识别故障部件并根据资产信息匹配部件厂商、型号、SN、PN等信息按腾讯运维系统要求组装故障信息报文,包括厂商、机型型号、SN、PN详细故障描述等信息采集日志的种类包括:04 TIFDS故障诊断创新实践助力腾讯云服务器智能化运营 / 13数据中心服务器智能故障诊断系统白皮书基于腾讯云故障日志采集系统, 浪潮与腾讯云合作开发了带外全日志采集功能和工具,配合腾讯云带内 Agent

19、 在服务器发生硬件告警时自动采集服务器的带内 / 外日志,最大程度上保留故障实时日志场景, 提高运维效率带外一键日志采集功能和工具,配合腾讯云运维系统实现故障日志的自动采集和保存BMC故障诊断类常用的事件日志,传感器信息日志,黑盒日志,部件Raid卡日志,系统串口日志,MCA故障诊断日志,系统地址转译信息,PCIe MMIO地址空间信息,Intel AutonomousCrashDump日志等BMC运行数据类CPLD寄存器,MCA寄存器,80码信息,BMC时间,BMC CPU使用率,BMC 内存使用率,BMC FLASH使用率,电压、温度、电流、转速、功率等信息BMC配置类信息用户信息,DNS

20、信息,BMC网络,sshd配置,服务(SSH/Web/KVM/IPMI LAN等)配置,BIOS菜单项配置,SNMP TRAP配置,syslog配置等部件状态信息CPU,内存,硬盘,电源,风扇,外设卡,主板等部件资产信息、FRU、温度、电压、电流、转速、带宽、速率、固件版本等信息系统类日志MCElog,EDAC,Kdump, Dmesg, Smart log , APEI Elog , AER report log 等系统调用文件服务器日志储存带外带外一键日志带内一键日志带内腾讯云日志采集系统带外管理系统带内AgentTIFDS04 TIFDS故障诊断创新实践助力腾讯云服务器智能化运营 / 1

21、4数据中心服务器智能故障诊断系统白皮书疑难问题自动识别上报监控系统,配合腾讯云运维系统实现自动化线上诊断分析服务器硬件故障触发后,TIFDS会对原始数据进行综合分析,如果遇到之前逻辑未覆盖的场景则会上报Diag_Fail日志腾讯云线上诊断系统则会接收来自各集群的日志,当收到机器上报Diag_fail日志后会立刻下发带内外一键采集日志,并通过资产系统拉取诊断需要的基础信息信息收集完整后会通过线上系统直达浪潮服务器研发,直接由专业的研发同事负责定位和优化策略分析完成后如需要替换硬件,在通过腾讯云运维审核后会创建相应的硬件故障替换工单,由现场工程师负责实施替换1.2.3.4.硬件故障自动明确率的提高

22、是在无数的现网案例积累和逻辑优化中实现的,任何程序和系统都无法做到100%自动明确,所以TIFDS团队配合腾讯云运维团队引入了Diag_Fail的概念,将不能自动明确的场景进行了定义和识别,并通过腾讯云运维系统实现了现网案例分钟级触达服务器厂商后端研发的能力故障处理流程腾讯云线上诊断系统服务器基础信息综合诊断结果带内外全日志收集疑难问题服务器研发结果信息拉取04 TIFDS故障诊断创新实践助力腾讯云服务器智能化运营 / 15数据中心服务器智能故障诊断系统白皮书通过TIFDS故障诊断系统在腾讯云的大批量的部署验证,预期的各类预警及诊断功能均已如期实现;做到了有异常部件即时上报,有隐患部件智能上报

23、,发生宕机后引发故障部件准确上报,在数据中心服务器部件更换管理上实现了真正的自动化运维管理,准确率高达95%。软、硬件的异常都可能造成服务器故障,而明文化的日志格式输出帮助腾讯云运维团队更快速与精确地定界服务器故障类型。TIFDS对所有日志采用明文方式存储,可随时查看原始的寄存器信息以及相应的分析过程,助力腾讯云高效运维。带外日志输出明文化,运维人员可自行查看1)故障类型2)故障指向3)地址分析4)辅助寄存器分析故障日志分析流程1.故障触发来源2.日志收集完整性分析3.热重启收集完整性分析1)故障类型 2)故障指向3)地址分析4)辅助寄存器分析5.分支主线寄存器分析6.当前故障分析汇总7.历史分析回溯8.输出最可信分析结果4.主线寄存器分析04 TIFDS故障诊断创新实践助力腾讯云服务器智能化运营 / 16数据中心服务器智能故障诊断系统白皮书云计算从概念的提出至今已经发展了十多年,云计算的运维模式也从传统的人工运维到现在的自动化、智能化运维。而TIFDS故障诊断系统则是在云技术发展的洪潮中应运而生。未来,腾讯云将会和浪潮进行更深层次的合作,共同攻克数据中心的难题,为互联网发展贡献一份力量,为数十亿最终用户和本地供应商企业提供更出色的计算服务体验。05 未来展望

友情提示

1、下载报告失败解决办法
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。

本文(浪潮&腾讯:2021年TIFDS数据中心服务器智能故障诊断系统白皮书(16页).pdf)为本站 (爱喝奶茶的猫) 主动上传,三个皮匠报告文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三个皮匠报告文库(点击联系客服),我们立即给予删除!

温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。
会员购买
客服

专属顾问

商务合作

机构入驻、侵权投诉、商务合作

服务号

三个皮匠报告官方公众号

回到顶部