上海品茶

您的当前位置:上海品茶 > 报告分类 > PDF报告下载

ODCC:2021年浸没液冷服务器可靠性白皮书(22页).pdf

编号:63748 PDF  DOCX  22页 872.38KB 下载积分:VIP专享
下载报告请您先登录!

ODCC:2021年浸没液冷服务器可靠性白皮书(22页).pdf

1、浸没液冷服务器 可靠性白皮书开放数据中心委员会 2021-09-15 发布 ODCC-2021-05012 浸没液冷服务器可靠性白皮书 i 目目 录录 前 言 . iii 版权说明 . iv 浸没液冷服务器可靠性白皮书 . 1 1. 引言 . 1 2. 传统风冷数据中心故障情况 . 2 2.1. 温度诱发故障的机理 . 2 2.2. 振动诱发故障的机理 . 3 2.3. 湿度诱发故障的机理 . 4 2.4. 灰尘诱发故障的机理 . 4 3. 空气冷却与浸没液冷下对电子设备的环境应力差别分析 . 6 3.1. 湿度对比. 6 3.2. 振动对比. 6 3.3. 灰尘对比. 6 4. 阿里云浸没式

2、液冷服务器运行状态分析 . 6 4.1. 浸没液冷服务器运行失效率分析 . 7 4.2. 服务器各部件失效率统计结果 . 8 5. 阿里云浸没式液冷服务器长期运行后可靠性评估 . 8 5.1. 服务器系统运行稳定性及性能分析 . 8 ODCC-2021-05012 浸没液冷服务器可靠性白皮书 ii 5.2. 服务器主板物理特性分析 . 9 5.3. 服务器主板信号完整性分析 . 11 5.4. 服务器主板电源完整性分析 . 12 5.5. 服务器电源模块 PSU 可靠性分析 . 13 5.6. 服务器机箱结构件可靠性分析 . 14 5.7. 冷却液长期可靠性分析 . 15 6. 总结 . 16

3、 ODCC-2021-05012 浸没液冷服务器可靠性白皮书 iii 前前 言言 本规范感谢以下起草单位和起草者: 起草单位:阿里巴巴集团基础设施事业部,中国信息通信研究院(云计算与大数据研究所) 起草者:钟杨帆,郭锐,方海宾,迟海,李小鹏,曹洪浩,向蓓,孙春甲,练恒,黎安宇,永宝,谢可可,朱宗鹏,张京 ODCC-2021-05012 浸没液冷服务器可靠性白皮书 iv 版权说明版权说明 ODCC(开放数据中心委员会)发布的各项成果,受著作权法保护,编制单位共同享有著作权。 转载、摘编或利用其它方式使用 ODCC 成果中的文字或者观点的,应注明来源:“开放数据中心委员会”。 对于未经著作权人书面

4、同意而实施的剽窃、复制、修改、销售、改编、汇编和翻译出版等侵权行为,ODCC 及有关单位将追究其法律责任,感谢各单位的配合与支持。 ODCC-2021-05012 浸没液冷服务器可靠性白皮书 1 浸没液冷服务器可靠性白皮书浸没液冷服务器可靠性白皮书 1. 引言引言 大数据、云计算技术的快速发展,让世界变的更加互联、人类生活日趋便捷的同时,也将需要越来越多的计算能力。硅芯片逐步逼近物理和经济成本上的极限,各界纷纷预测,摩尔定律再不久的将来面临失效,半导体工艺升级带来的计算性能提升不能再像以前那么快了。如何应对未来高算力需求的挑战:一个方向是借助服务器内部构建更多的计算单元提升单机计算力, 而这直

5、接导致芯片功耗及散热成为新挑战。另外一个方向是云计算,云计算令计算资源集中化,高密度的提升必然带来热密度的上升, 对于支撑服务器稳定运行的数据中心而言则带来巨大的散热挑战。阿里云通过长期摸索实践,通过浸没液冷技术形成商用规模的液冷集群,实现了从 0 到 1 的突破,完美的解决了高密度高功耗下的计算环境问题,很好的解决了这两个挑战。 云计算数据中心承载的服务量巨大,涉及到的云客户业务种类也比较多,如果出现故障,它的影响深度和广度就会非常大,所以需要有很高的可靠性。对于重要公司和机构而言,数据中心就是其业务运转的心脏,一旦出现问题,损失的不仅是金钱, 还有其整体的形象和声誉, 因此数据中心的可靠性

6、就变得至关重要。 浸没液冷服务器可靠性白皮书(以下简称“白皮书”)由阿里云基础设施事业部服务器研发团队编写。 白皮书作为行业首个全景式液冷服务器可靠性白皮书文档,在基础设施云化、核心技术互联网化、应用数据化和智能化的新基建时代背景下,传统制冷系统逐步面临瓶颈,液冷技术生态化正在加速形成。 浸没式液冷是数据中心的跃迁式技术创新,具有高能效,高密度,高可用和高可靠等特性。 此白皮书以阿里云在浸没液冷应用多年实践得来的可靠性评估为切入点进行全面解读。 白皮书旨为浸没式液冷数据中心行业从业者提供具有指导性、 操作性的参考资料,希望能够在从风冷到液冷服务器转型过程中提供有效ODCC-2021-05012

7、 浸没液冷服务器可靠性白皮书 2 赋能。 2. 传统风冷数据中心故障情况传统风冷数据中心故障情况 目前电子设备普遍采用空气冷却方式, 其复杂多样的环境是电子产品在使用过程中难以回避的问题, 环境的多样性包括温度、 湿度、 振动、 灰尘等多个方面。 2.1. 温度诱发故障的机理温度诱发故障的机理 在高温的环境条件下,电子设备一般会产生过热的现象。过热是电子设备产生故障的主要原因之一。故障是使设备性能退化的化学或物理变化引起的。因为随着温度的增加,电子、原子、分子的运动速度加快,使得电子设备的性能发生变化。随着设备的老化,这些变化逐渐出现;当达到一定阶段时。就引起严重的故障。到产品产生故障的时间受

8、这些化学或物理变化的过程的速率控制,而这一速率大致按指数规律随温度的升高而增加。已经发现。在高于一般室内环境温度(约 20-25)范围内条件下,故障率大致按指数规律随温度的升高而增加。 高温激发出的主要的故障模式如下: (1)不同材料膨胀系数不一致使零件粘结在一起; (2)润滑剂粘度降低。润滑剂外流使连接处损失润滑能力; (3)包装、村垫、密封、轴承和轴发生变形、粘结和失效,引起机械性的故障或破坏完整性; 另外当温度在上、下限温度循环时,电子设备交替膨胀和收缩,会使设备中产生热应力和应变。 如果某些电子装备产品内部有瞬时的热梯度 (温度不均匀性) ,或产品内部邻接材料的热膨胀系数不匹配,则这些

9、热应力和应变将会加剧。这种应力和应变在缺陷处最大,它起着应力集中的作用。这种循环加载使缺陷长大。最终可大到能造成结构故障并产生电性能故障。例如,有裂纹的电镀通孔其周围最终完全开裂,引起开路。热循环是使钎焊接头和印制电路板上电镀通孔等产生故障的首要原因。持续时间受温度循环次数控制,每次循环。应力应变方向变化ODCC-2021-05012 浸没液冷服务器可靠性白皮书 3 一次,循环次数也是应力应变方向的变化次数。温度变化范围越大,电子装备产品内受到的应力, 应变范围越大, 产品内缺陷发展为故障所需的应力应变次数 (也即循环次数)越少。 温度循环激发出的主要故障模式如下: (1)使涂层、材料或线头上

10、各种微观裂纹扩大; (2)使粘接不好的接头松弛; (3)使螺钉连接或铆接不当的接头松弛; (4)使机械张力不足的压配接头松弛; (5)使质量差的钎焊接触电阻加大或造成开路; 2.2. 振动诱发故障的机理振动诱发故障的机理 随机振动是在很宽的频率范围内对产品施加振动。 产品在不同的频率上同时受到应力,使产品的许多共振点同时受到激励。这就意味着具有不同共振频率的元部件同时共振。从而使安装不当的元件受扭曲,碰撞等而损坏定额概率增加。振动应力对揭示那些对反复的结构变形或相对运动敏感的缺陷是有效的。 电路板或导线接头是在重复性应力作用下可能导致损坏性裂纹增长的例子。 振动激发出的主要的故障模式如下: (

11、1) 结构部件、 引线或元件接头产生疲劳, 特别是类适于导线上有微裂纹、微观裂纹和类似的缺陷; (2)电缆磨损,如在松弛的电缆结处存在类似于尖缘那样的缺陷时; (3)制造不当的螺钉接头松弛; (4)安装加工不当的集成电路片离开插座; ODCC-2021-05012 浸没液冷服务器可靠性白皮书 4 (5)汇流条及其连到电路板上的钎焊接头受到高应力引起的钎接头薄弱点失效; (6)与可做相对运动的部件桥形连接的元件引线没有充分消除应力而造成损坏,例如电路板前板的发光二极管或在背板散热箱的功率晶体管; (7)已损坏或安装不当的脆性绝缘材料中出现裂纹。 2.3. 湿度诱发故障的机理湿度诱发故障的机理 潮

12、湿环境的影响是指产品或材料在潮湿条件下发生外观或物理、 化学和电性能方面的劣化并导致设备功能性失效综合作用。 在工作环境中有各种大气污染物质可能强化潮湿气候的影响, 例如各种腐蚀性气体与潮湿的共同作用将加剧金腐蚀的速度,而某些容易吸收水分的尘埃将助长试验样品表面凝露或水气吸收,从而加剧表面绝缘性能的下降。又如某些材料表面受潮后长霉,这种霉菌湿润之后又会影响表面电阻下降,这些都会影响产品工作性能。 湿度激发出的故障模式主要有: (1)表面吸收。当隐患与表面沾污有关时,吸收引起故障的机理是特别重要的。 (2)毛细凝露。当隐患与断裂、缝隙和细孔有关时,毛细凝露是故障的主要机理。若水分以这种方式穿透表

13、面保护层并作用于要保护的材料时,则很可能出现故障。 (3)通过松散材料的扩散是第三种故障机理。它通常不直接与隐患有关或很少有关。 2.4. 灰尘诱发故障的机理灰尘诱发故障的机理 灰尘是指大气中一种固态悬浮物,常态存在于空气之中,多数环境中大部分物质在空气传播颗粒直径小于 15m。直径在 2.515m 之间的颗粒主要由自然因素产生,例如沙尘暴,通常称为较大颗粒;直径在 0.1m2.5m 之间的通常称ODCC-2021-05012 浸没液冷服务器可靠性白皮书 5 为较小颗粒, 大多由人为因素产生。 大气中较大颗粒和较小颗粒的混合物称为“总悬浮颗粒状物质”,简称 TSP。 灰尘激发出的故障模式主要有

14、: (1) 小至 0.5m 的灰尘颗粒, 足以导致栅氧化层的针孔击穿, 而击穿是 MOS电路的重要失效缘由。 (2)绝缘性灰尘附着在连接器和接点的接触部分后,会引起接触不良。 (3)当有导电性灰尘附着时,会造成信号短路。 (4)灰尘微粒被电气设备周围的磁场充电和吸引、吸附在元器件上,妨碍电气元件散热,造成芯片和其它元器件更快损坏。 电子设备故障统计数据结果分析 据美国空军统计 (如图 1 所示, 来源 US Air Force Avionics integrity Program) ,在导致电子设备失效的因素中,温度占 55% (其余因素为灰尘 6%,湿度 19%,振动20%)。 图 1 传统

15、数据中心故障情况 ODCC-2021-05012 浸没液冷服务器可靠性白皮书 6 3. 空气冷却与浸没液冷下对电子设备的环境应力差别分析空气冷却与浸没液冷下对电子设备的环境应力差别分析 3.1. 湿度对比湿度对比 由于浸没液冷完全浸入不导电的液体中, 消除了风冷系统中湿度对可靠性的影响因素。 3.2. 振动对比振动对比 由于浸没液冷完全浸入不导电的液体中,不在需要高速风扇来进行散热,故浸没液冷消除了风扇全速振动带来的可靠性影响。 3.3. 灰尘对比灰尘对比 由于浸没液冷完全浸入不导电的液体中,与空气完全隔离,故浸没液冷消除了灰尘带来的可靠性影响。 综上所述,浸没式液冷技术将 IT 设备完全浸没

16、在电介质流体中,从而完全脱离空气。液体保护 IT 设备免受恶劣环境的影响。浸没冷却与空气冷却相比,具有更强的散热能力,且消除了湿度、振动、粉尘对电子设备的破坏因素,理论上浸没冷却可以极大提升 IT 设备的可靠性。 4. 阿里云浸没式液冷服务器运行状态分析阿里云浸没式液冷服务器运行状态分析 目前, 全球各大企业在液冷领域纷纷展开尝试, 而阿里云可谓其中的佼佼者:2016 年首次推出浸没液冷系统;2018 年 6 月位于河北省张家口市建成了全球互联网行业第一个浸没液冷生产集群,其规模为几十个 tank、共计约 2 千多台液冷服务器,包括通用计算型、SSD/HDD 存储型液冷服务器,已成功支撑阿里巴

17、巴电商 2018 到 2020 的双十一活动。2020 年 9 月全球首座年均 PUE 达 1.09 的绿色节能型单相全浸没式液冷数据中心在阿里云浙江云计算数据中心正式揭幕并获得国内首个 5A 绿色液冷数据中心认证。经过阿里云近 6 年的研发及规模化落地,积累了针对全浸没液冷解决方案的大量最佳实践,对液冷的价值有了更深刻的理解和认识。 ODCC-2021-05012 浸没液冷服务器可靠性白皮书 7 图 2 阿里云浸没液冷服务器部署历程 截至 2021 年 6 月底,阿里云浸没液冷服务器已经在线运行了 3 年。为了保证液冷服务器能持续满足业务需求,需要关注液冷服务器本身的长期可靠性。 4.1.

18、浸没液冷服务器运行失效率分析浸没液冷服务器运行失效率分析 阿里云浸没液冷数据中心于 2018 年 6 月完成并投入使用,分别选取液冷服务器数千台左右样本和相同业务的风冷服务器样本, 分析从 2018 年至 2021 年的服务器各部件累计失效率。 图 3 阿里云浸没液冷服务器 图 4 阿里云浸没液冷子系统 浸没液冷服务器集群首发浸没液冷系统首发互联网首个液冷IDC建成超大规模液冷IDC投产2 20 01 16 62 20 01 17 72 20 01 18 82 20 02 20 0( 1U)( 1U机头+ 4U机尾)ODCC-2021-05012 浸没液冷服务器可靠性白皮书 8 4.2. 服务

19、器各部件失效率统计结果服务器各部件失效率统计结果 表 1 服务器各部件累计失效率 部件 SAS/Raid 卡 SSD HDD CPU Memory 主板 PSU 网卡 网线 风扇 加权分析 液冷改善 风冷失效率 1.0000*X 0.8724*X 0.7759*X 0.2887*X 0.2261*X 0.6486*X 0.2677*X 0.1179*X 0.8019*X 0.0237*X 液冷失效率 0.64988*X 0.4852*X 0.6187*X 0.1794*X 0.1198*X 0.3588*X 0.0467*X 0.0000*X 0.1794*X 0.0000*X 液冷vs 风冷

20、 失效率改善 35.02% 44.38% 20.26% 37.87% 46.99% 44.69% 82.56% 100.00% 77.63% 100.00% 52.9% 通过分析可知,液冷服务器具有较低的失效率,整体液冷服务器对比风冷服务器部件故障率下降约 53%,整体服务器可靠性符合预期。 5. 阿里云浸没式液冷服务器长期运行后可靠性评估阿里云浸没式液冷服务器长期运行后可靠性评估 阿里云浸没式液冷服务器为全新架构及全新应用, 为了清晰了解浸没式液冷服务器各部件的长期运行质量表现。 通过对麒麟液冷服务器从系统-部件-器件-材料层面的物理特性&电气特性进行了的可靠性的评估分析。 5.1. 服务器

21、系统运行稳定性及性能分析服务器系统运行稳定性及性能分析 浸没式冷服务器的长期可靠性评估,首先考虑到的就是液冷环境下,服务器系统的运行稳定性和性能是否满足使用要求。 随机选取已经运行近 3 年的的阿里云浸没式液冷服务器,通过测试其系统运行的稳定性及性能,同时对比分析同批次风冷服务器的系统运行数据,得到液冷服务器的系统运行可靠性分析结果。 ODCC-2021-05012 浸没液冷服务器可靠性白皮书 9 表 2 系统运行稳定性及性能 测试项目 测试内容 风冷结果 液冷结果 测试结论 稳定性 整机压力测试+healthcheck 整机压力测试pass 整机压力测试pass 风冷和液冷的系统运行稳定性均

22、满足金刚基线要求,无异常。 DC cycle 测试+hwqc+healthcheck 运行 DC 500次 pass 运行 DC 500次 pass OS reboot 测试+hwqc+healthcheck 运行 reboot 500次 pass 运行reboot 500 次pass 性能 CPU 性能(金刚基线) 满足基线要求 满足基线要求 液冷改善小于 1%,无显著差异 内存性能(金刚基线)copy,add,scale,triad 满足基线要求 满足基线要求 液冷差异小于 2%,无显著差异 SSD 性能-顺序读128k read bw/MB/s 满足基线要求 满足基线要求 液冷改善小于

23、1%,无显著差异 SSD 性能-顺序写128k write bw/MB/s 满足基线要求 满足基线要求 液冷改善小于 3%,无显著差异 SSD 性能-随机写4k randread iops 满足基线要求 满足基线要求 液冷差异小于 3%,无显著差异 SSD 性能-随机读4k randwrite iops 满足基线要求 满足基线要求 液冷差异小于 3%,无显著差异 分析可知,液冷服务器满足阿里金刚稳定性&性能基线要求;液冷环境长期工作,系统的稳定性及性能无显著变化;风冷 vs 液冷服务器,CPU 性能、内存性能、SSD 读写性能测试结果差异较小,性能无显著差异。 5.2. 服务器主板物理特性分析

24、服务器主板物理特性分析 为了评估液冷环境对主板物理特性是否有影响,本文对液冷环境 PCBA 物理特性层面可靠性进行了分析,同时对比风冷和液冷 PCBA 的物理特性可靠性的差异。 随机选取已经运行近 3 年的的阿里云浸没式液冷服务器,评估其 PCBA 物体层面可靠性。 ODCC-2021-05012 浸没液冷服务器可靠性白皮书 10 表 3 主板物理特性 测试项目 测试内容 风冷结果 液冷结果 风 vs 液测试结论 PCBA 物理特性 PCBA 外观检查 外观检视 ok, 未见显著异常 外观检视 ok,未见显著异常 液冷 PCBA 老化不明显;其他无明显差异 PCBA 上关键器件外观检查 检视

25、ok, 未见显著异常 未见显著异常 无明显差异 焊盘或露铜检查 无腐蚀、变色、剥离现象 无腐蚀、变色、剥离现象 无明显差异 过孔和螺钉孔外观分析 无腐蚀、变色、孔盘剥离现象 无腐蚀、变色、孔盘剥离现象 无明显差异 焊点外观分析 无腐蚀、变色、开裂现象 无腐蚀、变色、开裂现象 无明显差异 丝印和条形码分析 产品丝印、条码均清晰、无变色脱落现象 产品丝印、条码均清晰、无变色脱落现象 无明显差异 关键器件焊点 X-ray 分析 无焊点异常 无焊点异常 无明显差异 密间距器件引脚间枝晶分析 QFN 器件焊点无短路异常 QFN 器件焊点无短路异常 无明显差异 PTH 焊接孔切片分析 PTH 孔无腐蚀异常

26、,焊料填充正常 PTH 孔无腐蚀异常,焊料填充正常 无明显差异 VIA 孔切片分析 Via 孔无腐蚀异常,PCB 结构完整 Via 孔无腐蚀异常,PCB 结构完整 无明显差异 PCB 内层切片分析 PCB 内层无分层起泡现象 PCB 内层无分层起泡现象 无明显差异 焊点切片分析 无裂纹,IMC 连续形貌正常 无裂纹,IMC 连续形貌正常 满足判定要求 染色试验检测 焊接无异常缺陷 焊接无异常缺陷 无明显差异 分析可知,液冷 PCBA 物理特性满足 IPC 标准规范要求;液冷环境长期工作,服务器的 PCBA 物理特性无显著变化。目测液冷主板较为崭新,其他外观检视、X 射线分析、切片分析、染色试验

27、等结果风冷和液冷主板无显著差异。 ODCC-2021-05012 浸没液冷服务器可靠性白皮书 11 5.3. 服务器主板信号完整性分析服务器主板信号完整性分析 浸没式液冷对 PCB 的影响,主要是针对传输线影响即对走线的影响。传输线根据电磁场的理论,当高频信号通过传输线时,各点电压和电流是不相同的。各点分布参数(电阻、电感、电容、电导)存在于传输线的所有位置上,随着频率的提高,分布参数效应会带来不同影响。 为了评估液冷环境对主板信号完整性的影响, 随机选取已经运行近 3 年的的阿里云浸没式液冷服务器分析其主板信号完整性, 测试结果与风冷主板信号完整性进行对比分析,比较液冷主板信号与风冷主板信号

28、的差异性。 对液冷服务器进行了 UPI、 DMI、 RMT、 PCIe-TX、 TDR 等项目的测试分析,同时对高速连接器及线缆的电气特性进行分析。测试结果汇总如下表: 表 4 主板信号完整性 测试项目 测试内容 风冷结果 液冷结果 测试结论 信号完整性 UPI Margin(CPU 之间 SI) 满足 spec 要求 满足 spec 要求 均满足 spec 要求,且余量较大 DMI Margin(CPU 与南桥间SI) 满足 spec 要求 满足 spec 要求 均满足 spec 要求,且余量较大 RMT Margin(CPU 与内存间SI) 满足 spec 要求 满足 spec 要求 均满

29、足 spec 要求,且余量较大 PCIe-TX/ps 满足 spec 要求 满足 spec 要求 均满足 spec 要求,且余量较大 器件 TDR 阻抗测试/ 满足 spec 要求 满足 spec 要求 TDR 满足 spec 要求 高速连接器 高速线缆 外观检视&物理特性 连接器&线缆外观无异常 连接器&线缆外观无异常 外观无明显差异 电气特性测试(IL/RL/TDR/CR等) 电气特性测试满足 spec 要求;满足+/-10%要求 满足+/-10%要求,长期工作特性无明显变化 均满足使用要求 ODCC-2021-05012 浸没液冷服务器可靠性白皮书 12 分析可知,浸没式液冷主板 SI

30、测试结果满足工业标准 SPEC;浸没式液冷服务器环境长期工作,主板信号完整性无显著变化。浸没式液冷高速连接器及线缆信号满足出厂 SPEC,液冷环境长期工作,高速连接器和线缆的电气特性无明显变化。 5.4. 服务器主板电源完整性分析服务器主板电源完整性分析 针对液冷环境对板级 pcb 和电源器件(VR controller, Powerstage, POL converter, LDO 以及输入输出电容,输出电感)的长期可靠性和电气特性影响进行实测分析。 主要采用的方法是对比单板板级电源在研发阶段和长期液冷环境工作后 PIV 测试结果的差异性,判断标准是测试结果相差小于人为测试误差(5-10mV

31、),并满足板级电源规格(包括 Intel CPU、PCH 以及 memory 电源规格,和基本上下电、环路、MOS 应力、输出过流过压保护测试等)。 表 5 主板电源完整性 测试项目 测试内容 风冷结果 液冷结果 测试结论 CPU/Memory VR(多相) Intel CPU&Memory VRTT (PVCCIN,PVCCSA,PVCCIO;PVDDQ,P0V6,P2V5) 满足 Intel CPU 和Memory 电源规格要求 满足Intel CPU 和Memory 电源规格要求 风冷和液冷均满足Intel 电源规格要求 上下电/MOS Vds/Jitter/Control Loop/输

32、出保护(OCP/OVP), etc. 满足阿里服务器测试规范(PIV 部分) 满足阿里服务器测试规范(PIV 部分) 风冷和液冷均满足SPEC; 其他Switching VR/LDO(单相) DC regulation/Transient/上下电/MOS Vds/Jitter/Control Loop/输出保护(OCP/OVP), etc. 满足阿里服务器测试规范(PIV 部分) 满足阿里服务器测试规范(PIV 部分) 风冷和液冷均满足SPEC; EFUSE/HOTSWAP 缓启时间/过流保护/MOS SOA/热插拔 满足阿里服务器测试规范(PIV 部分) 满足阿里服务器测试规范(PIV 部分

33、) 风冷和液冷均满足SPEC; VR IC (Controller/Powerstage) 单体外观&物理特性 外观检视无异常 外观检视无异常 无显著差异 ODCC-2021-05012 浸没液冷服务器可靠性白皮书 13 电气特性 满足器件规格要求 满足器件规格要求 无显著差异 电感、电容、MOSFET、Diode(TVS,Schottky) 单体外观&物理特性 外观检视无异常 外观检视无异常 无显著差异 电气特性(感值,Rdc, Isat,容值,ESR,Rds_on, SOA, Qg 等 ) 满足器件规格要求 满足器件规格要求 无显著差异 分析可知,液冷和风冷 PI 测试结果均满足 inte

34、l 电源规格及阿里研发测试规范(PIV 部分),液冷 vs 风冷 PI 测试结果无显著差异。液冷环境板级电源器件电气性能&物理特性均满足器件出厂 SPEC;液冷环境长期工作,电源器件物理&电气特性无明显变化。 5.5. 服务器电源模块服务器电源模块 PSU 可靠性分析可靠性分析 参考上面的长期统计数据, 整体浸没式液冷电源模块失效率比风冷电源低许多。 为了验证浸没式液冷环境是否对 PSU 性能产生影响,从浸没式液冷服务器中抽取 4 台 PSU 进行测试分析,测试 PSU 液冷环境下电气性能&风冷环境下电气性能差异。 表 6 电源模块可靠性 测试项目 测试内容 出厂结果 液冷结果 测试结论 PS

35、U 单机 电气特性 HIPOT、EDVT、ATS 测试 符合电源SPEC 符合电源 SPEC,对比出厂性能无显著差异 均满足 SPEC,无显著差异 Ripple 纹波测试; 满足 SPEC 满足 SPEC 均满足 SPEC,无显著差异 Dynamic 动态测试; 满足 SPEC 满足 SPEC 均满足 SPEC,无显著差异 Inrush Current 浪涌电流测试; 满足 SPEC 满足 SPEC 均满足 SPEC,无显著差异 Hold up time 测试 满足 SPEC 满足 SPEC 均满足 SPEC,无显著差异 iTHD & PF 满足 SPEC 满足 SPEC 均满足 SPEC,无

36、显著差异 ODCC-2021-05012 浸没液冷服务器可靠性白皮书 14 电源关键器件 电解电容,FUSE 满足器件出厂要求 外观检视 ok 满足器件 SPEC 要求 外观检视 ok 满足器 SPEC 使用要求 压敏电阻、PFC 高压采样电阻、副边低压采样电阻 放电管,功率半导体器件 磁性器件,MLCC 结构件类(含 PCB,COATING,PVC 线材,TUBE,RTV等) 外观检视 ok 对比出厂无显著变化 外观检视 ok 对比出厂无显著变化 分析可知,液冷环境 PSU 电气性能及器件特性均能满足 SPEC 要求,液冷PSU 电气特性与出厂时无显著差异。液冷环境长期工作,PSU 器件的物

37、理&电气特性无显著变化。 5.6. 服务器机箱结构件可靠性分析服务器机箱结构件可靠性分析 为了评估液冷环境是否会影响机箱结构件的性能, 随机抽取浸没式液冷服务器的机箱结构件进行外观检视、烤漆检视、螺丝扭力测试等可靠性评估,测试结果如下: 表 7 机箱结构件可靠性 部件类别 测试项目 风冷结果 液冷结果 测试结论 金属结构件 外观检视:变色、腐蚀 外观无异常,局部金属易被氧化,局部有轻微生锈,积灰 外观无变色、腐蚀 液冷和风冷均满足要求 无显著差异 五金件 (螺丝、螺母、拉钉) 外观检视:变色、腐蚀 推拉力、扭力测试 外观检视无异常;力矩满足要求 外观检视无异常; 力矩满足要求 液冷和风冷均满足

38、要求 无显著差异 烤漆件 外观检视:变色、腐蚀 百格测试 外观无异常 烤漆满足要求 外观无异常 烤漆满足要求 液冷和风冷均满足要求 无显著差异 标签、面膜 外观检视:变色、腐蚀 附着力测试 色牢度检视 外观无异常 色牢度 ok 标签/面膜剥离力9N 外观无异常 色牢度 ok 标签/面膜剥离力:10.819.8N 液冷和风冷均满足要求 无显著差异 ODCC-2021-05012 浸没液冷服务器可靠性白皮书 15 塑胶件 外观检视:变色、腐蚀 重量,密度满足要求 外观无变色、腐蚀 密度等无异常 外观无变色、腐蚀 密度等无异常 液冷和风冷均满足要求 无显著差异 分析可知,液冷环境结构件均满足阿里研发

39、测试规范要求;液冷环境长期工作,结构件物理特性无明显变化。风冷 vs 液冷,液冷机箱结构件无生锈迹象,无灰尘堆积等现象,可以推断液冷环境的结构件可靠性更高 5.7. 冷却液长期可靠性分析冷却液长期可靠性分析 为了测试浸没式液冷服务器中冷却液体长期使用后液体的物理特性及成分是否变化,随机抽取浸没式液冷服务器中的电子氟化液冷却液样品,对比未使用的冷却液体样本,组成对比样品进行测试分析。 分别对这两份液体样品分别进行粘度、 介电常数和击穿电压等物性常数分析,以及残留物、颗粒度等液体成分测试,从而对数据中心冷却液使用前后的物理性质进行纵向对比,分析液体长期使用的可行性。 表 8 冷却液长期可靠性 项目

40、 项目内容 测试结果 分析结论 原液 used 外观检视 液体颜色外观等 无色透明澄清 无色透明澄清 目测无明显差异 物性参数 粘度 (cPs) 4.12 4.16 无明显变化 水含量 (ppm) 5.5 5.6 无明显变化 氟离子 ND ND 均未检出氟离子 pH 值 5.45 5.7 无明显变化 介电常数 1.84 1.91 无明显变化1kHz 击穿电压(kV) 40.3 40.1 无明显变化 液体成分 残留物 (g/mL) ND ND 无明显变化 颗粒度(pc/mL) 52 ND 无明显变化 成分分析 / 无新增成分 纯度与成分均未见明显变化 ODCC-2021-05012 浸没液冷服务

41、器可靠性白皮书 16 分析可知,运行 3 年后的冷却液的各项物性参数均满足阿里 SPEC 要求;浸没式液冷环境长期工作,液体物性参数无显著变化;液冷环境长期工作,液体中未发现异常新增成分,液体满足长期使用要求。 6. 总结总结 阿里云首创 IT 设备及数据中心整体完全融合的浸没全液冷架构,基于此架构将 IT 设备完全重构,完全浸没在绝缘冷却液的中,冷却液吸收 IT 设备热量后通过换热单元最大效率地将热量传递到外界环境,全程无需制冷,从而完全去除传统数据中心的冷机、蓄冷设施、末端空调,以及 IT 设备的散热风扇。实现服务器 100%液冷占比高效散热,功耗同比降低 10%以上,数据中心年均能源使用

42、效率 PUE 不高于 1.09(含电气损耗),相比 PUE=1.55 的传统数据中心,整体节省 36%以上能耗,达到极致节能。 阿里云全浸没液冷技术将换热单元与浸没液冷机柜进行分离并实现冗余设计, 浸没液冷机柜的进出液管路系统等创新设计首个实现液冷在线不停机维护功能满足云计算的连续性要求。具备可在线维护、易工程化,实现高能效与高可用等级兼备,数据中心整体可用性等级接近 T4(相当于国标 A 级),系统稳定性大幅提高。 对于 IT 设备来说, 阿里云全浸没液冷技术消除了传统数据中心湿度、振动、灰尘对电子设备的失效因素;大大降低失效率,截止目前,液冷服务器集群已正常运行 3 年以上,液冷环境下 IT 设备平均故障率低于风冷 50%以上。达到高可靠,此关键技术突破实现了液冷技术的大规模应用。基于当前统计分析,浸没液冷能够帮助 IT 设备获得更高的可靠性。 通过目前 3 年左右的实测数据分析可知: 浸没液冷服务器各项指标均能满足 SPEC 要求, 电气特性和物理特细无显著变化。浸没式液冷服务器创新架构,可以排除一些环境因素对服务器的影响,对比风冷服务器,浸没液冷服务器个别性能指标优于风冷服务器;浸没液冷技术整体降低 IT 设备失效率 50%+。 ODCC-2021-05012 浸没液冷服务器可靠性白皮书 17 图 5 风冷 VS 浸没液冷服务器失效率

友情提示

1、下载报告失败解决办法
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。

本文(ODCC:2021年浸没液冷服务器可靠性白皮书(22页).pdf)为本站 (爱喝奶茶的猫) 主动上传,三个皮匠报告文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三个皮匠报告文库(点击联系客服),我们立即给予删除!

温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。
会员购买
客服

专属顾问

商务合作

机构入驻、侵权投诉、商务合作

服务号

三个皮匠报告官方公众号

回到顶部