《ODCC:2023冷板液冷服务器设计白皮书(39页).pdf》由会员分享,可在线阅读,更多相关《ODCC:2023冷板液冷服务器设计白皮书(39页).pdf(39页珍藏版)》请在三个皮匠报告上搜索。
1、 1 冷板液冷服务器设计白皮书 ODCC-2023-01008 编号 ODCC-2023-01008 冷板液冷服务器设计白皮书 开放数据中心委员会 2023-09 发布 I 冷板液冷服务器设计白皮书 ODCC-2023-01008 版权声明版权声明 ODCC(开放数据中心委员会)发布的各项成果,受著作权法保护,编制单位共同享有著作权。转载、摘编或利用其它方式使用 ODCC 成果中的文字或者观点的,应注明来源:“开放数据中心委员会 ODCC”。对于未经著作权人书面同意而实施的剽窃、复制、修改、销售、改编、汇编和翻译出版等侵权行为,ODCC 及有关单位将追究其法律责任,感谢各单位的配合与支持。II
2、 冷板液冷服务器设计白皮书 ODCC-2023-01008 编写组编写组 项目经理:项目经理:董少杰 中移动信息技术有限公司 工作组长:工作组长:王峰 中国电信股份有限公司研究院 贡献专家:贡献专家:阮前 中移动信息技术有限公司 肖爱元 中移动信息技术有限公司 刘玲 中移动信息技术有限公司 许豪豪 中移动信息技术有限公司 孙翠锋 中移动信息技术有限公司 黄山 中移动信息技术有限公司 李圣义 中移动信息技术有限公司 高从文 中移动信息技术有限公司 曹原铭 中国移动通信集团设计院有限公司 雷鸣 中国移动通信集团设计院有限公司 刘芹 中国移动通信集团设计院有限公司 封铎 中国移动通信集团设计院有限公
3、司 谢丽娜 中国信息通信研究院(云大所数据中心团队)李宁东 中国信息通信研究院(云大所数据中心团队)单彤 超聚变数字技术有限公司 张丙库 超聚变数字技术有限公司 苏金炎 超聚变数字技术有限公司 冯思渊 超聚变数字技术有限公司 III 冷板液冷服务器设计白皮书 ODCC-2023-01008 常乾坤 曙光数据基础设施创新技术(北京)股份有限公司 刘明岩 曙光数据基础设施创新技术(北京)股份有限公司 徐欣 曙光数据基础设施创新技术(北京)股份有限公司 孙晓光 华为技术有限公司 高俊恩 华为技术有限公司 相文博 浪潮电子信息产业股份有限公司 温春光 浪潮电子信息产业股份有限公司 张子徐 浪潮电子信息
4、产业股份有限公司 徐旭东 烽火通信科技股份有限公司 蔡财义 烽火通信科技股份有限公司 许银录 烽火通信科技股份有限公司 冯亚利 中航光电科技股份有限公司 董玉山 中航光电科技股份有限公司 钟凤舞 深圳忆联信息系统有限公司 李海平 深圳忆联信息系统有限公司 金超强 普洛斯普瑞数据科技(上海)有限公司 张安娜 中科可控信息产业有限公司 赵雷 宁畅信息产业(北京)有限公司 IV 冷板液冷服务器设计白皮书 ODCC-2023-01008 前前 言言 本规范由开放数据中心标准推进委员会发布。由于时间仓促,水平所限,错误和不足之处在所难免,欢迎各位读者批评指正。如有意见或建议请联系编写组。V 冷板液冷服务
5、器设计白皮书 ODCC-2023-01008 目目 录录 版权声明.I 编写组.II 前前 言言.IV 一、一、引言引言.1 二、二、液冷技术分类液冷技术分类.2(一)非接触式液冷.2(二)接触式液冷.3(三)液冷技术对比.4 三、三、冷板式液冷部件选择冷板式液冷部件选择.7(一)冷却液.7(二)快接头.7(三)冷量分配单元(CDU).8(四)冷板.10(五)服务器液冷管路.11 四、四、液冷服务器要求液冷服务器要求.12(一)整机柜服务器的要求.12 1 通用算力整机柜服务器要求.12 2 AI 算力整机柜服务器要求.14 3 整机柜设计要求.16(二)单节点服务器的要求.19 五、五、液冷
6、带来的变化液冷带来的变化.21(一)液冷三种交付模式及优劣势.21(二)液冷机房配套要求.24(三)液冷运维与风冷运维的对比分析.26 VI 冷板液冷服务器设计白皮书 ODCC-2023-01008 六、六、应用案例应用案例.28(一)超聚变金融领域液冷应用案例.28(二)超聚变科教领域液冷应用案例.28(三)浪潮金融领域液冷应用案例.29(四)曙光互联网领域液冷应用案例.29(五)曙光 IDC 领域液冷应用案例.30(六)曙光气象领域液冷应用案例.30(七)烽火科教领域液冷应用案例.31(八)华为 IDC 领域液冷应用案例.31(九)华为 AI 领域液冷应用案例.32 1 冷板液冷服务器设计
7、白皮书 ODCC-2023-01008 冷板液冷服务器设计白皮书冷板液冷服务器设计白皮书 一、一、引言引言 随着我国数智化转型的逐步推进,在数智化中起决定性作用的算力对生活、服务、经济的影响越来越大。为了满足日益增长的算力需求,全国数据中心的规模也随之迅速增长。国家互联网信息办公室发布的数字中国发展报告(2022 年)显示,截至 2022 年底,我国数据中心机架总规模已超过 650 万标准机架,近 5 年年均增速超过 30%,在用数据中心算力总规模超 180EFLOPS,位居世界第二。数据中心及机架规模的快速增长,导致数据中心用电量急剧攀数据中心及机架规模的快速增长,导致数据中心用电量急剧攀升
8、。升。2021 年全国数据中心耗电量达 2166 亿度,约占全国总耗电量的2.6%,碳排放量 1.35 亿吨,占全国总排放量的 1.14%。为了降低数据中心能耗,助力实现双碳目标,政府鼓励重点行业利用绿色数据中心等新型技术实现节能降耗,要求全国新建大型、超大型数据中心平均电能利用效率(PUE)降到 1.3 以下,国家枢纽节点进一步降到 1.25 以下,绿色低碳等级达到 4A 级以上。同时,随着服务器核心计算芯片的更新换代,服务器单芯片功同时,随着服务器核心计算芯片的更新换代,服务器单芯片功耗将达到耗将达到 5001000W5001000W,风冷散热能力有限,机柜空间剩余现象愈发,风冷散热能力有
9、限,机柜空间剩余现象愈发明显。明显。GPU服务器、高性能计算服务器等设备的发展及功率密度的增加对数据中心的制冷水平提出了更高的要求。另外,风扇作为 IT 设备主要散热部件,其功耗在 IT 设备总功耗中占比越来越高,反向提高数据中心整体 PUE,与国家节能降耗政策要求相悖。液冷技术通过用冷却液体替代传统空气散热,液体与服务器高效热交换,大幅提高服务器散热效率和业务系统可靠度,并且环境 2 冷板液冷服务器设计白皮书 ODCC-2023-01008 适应性好,可以减少土地占用,因此逐步成为一种数据中心制冷新型解决方案。二、二、液冷技术分类液冷技术分类 传统风冷使用空气作为换热介质,液冷数据中心使用工
10、质水或者氟化液等液体作为换热介质。由于密度、比热容和导热系数的差异,相同流量的液体相比空气散热能力最高可提升 3500 倍。根据冷却液与发热源的接触方式,液冷技术可以分为非接触式液冷和接触式液冷两大类。(一)(一)非接触式液冷非接触式液冷 非 接 触 式 液 冷 主 要 指 冷 板 式 液 冷,将 服 务 器 发 热 元 件(CPU/GPU/DIMM 等)贴近冷板,液体在冷板内流动,带走发热元件的热量,液体不与发热源直接接触,冷却液多采用去离子水。冷板式液冷原理如下图所示:图 1 冷板式液冷原理示意图 冷板式液冷换热热阻较大,相比传统风冷散热技术可实现 60%90%的能耗降低,数据中心 PUE
11、 值能降至 1.2 左右,同时,可保持传统机柜方式部署,部署密度较高,对当前机房配套和服务器改造难度和成本较小。但由于其只对服务器中的高发热元件采用液冷散热,因此,仍需少量风扇对服务器中的非液冷元件进行风冷散热.另外,还需考虑液体泄露风险。3 冷板液冷服务器设计白皮书 ODCC-2023-01008(二)(二)接触式液冷接触式液冷 接触式液冷的液体与发热源直接接触,包括浸没式液冷和喷淋式液冷两种。(1)浸没式液冷 浸没式液冷将服务器浸没在冷却液中,通过液体温升或相变带走服务器中所有发热元件的热量,液体与发热源直接接触,冷却液多采用矿物油、氟化液等不导电、非腐蚀性液体。浸没式液冷原理如下图所示:
12、图 2 浸没式液冷原理示意图 浸没式液冷可完全去除散热风扇,换热能力强,节能效果好,数据中心 PUE 值可降至 1.1 及以下,但一般需要改为箱式部署,部署密度一般低于冷板式液冷,机房配套和服务器改造难度和成本也较大。根据冷却液在冷却子系统中形态的不同,浸没式液冷可以分为单相浸没式液冷和相变浸没式液冷。单相浸没式液冷的冷却液在整个冷却子系统的循环过程中都以液体的形式存在,相变浸没式液冷的冷却液在对设备制冷后吸热变为气态,相变后的气态冷却液被浸没腔体子系统内的冷凝器冷却变成液体,液体受重力作用流回腔体,完成冷却系统循环。(2)喷淋式液冷 4 冷板液冷服务器设计白皮书 ODCC-2023-0100
13、8 喷淋式液冷的冷却液从服务器机箱顶部的喷淋模块滴下来,通过冷却液与发热元件之间的接触进行对流换热,从而为发热元件降温,再通过服务器内的流道汇集至换热器将热量散发,冷却液多采用矿物油、氟化液等不导电、非腐蚀性液体。喷淋式液冷也可完全去除散热风扇,换热能力强,相较于浸没式液冷节省冷却液,数据中心 PUE 可降至 1.1 左右。喷淋式液冷需要对机柜和服务器机箱进行改造,运维难度较大。(三)(三)液冷技术对比液冷技术对比 不同液冷技术的对比如下:表 1 液冷技术对比 液冷液冷方案方案 非接触式液冷非接触式液冷 接触式液冷接触式液冷 冷板式冷板式 热管式热管式 浸没式液冷浸没式液冷 喷淋式喷淋式 相变
14、浸没相变浸没式式 单相浸没单相浸没式式 投资成本 初 始 投 资中 等,运维成本低 初始投资中等,运维成本低 初始投资及运维成本高 初始投资及运维成本高 结构改造及液体 消 耗 成 本大,液冷系统初始投资成本低 PUE 1.1-1.2 1.15-1.25 1.05 1.09 1.1 5 冷板液冷服务器设计白皮书 ODCC-2023-01008 可维护性 较简单 简单 复杂 复杂 供应商 华 为、浪潮、曙光、联想、超 聚变 等 主 流供应商 仅浪潮 仅曙光 阿 里 巴巴、H3C、绿色云图、云 酷 智能、曙光数创 仅广东合一 应用案例 多 少 超算领域较多 较多 数据中心场景无批量使用 分析 初
15、始 投 资中 等,运维成本低,PUE 收益 中 等,部 署 方 式与 风 冷 相同,从 传统 模 式 过渡较平滑 初始投资中等,运维成本低,热管的散热能力有 限,PUE收益较低 初始投资最 高,PUE 收益最高,需使用专用机柜,服务器结构需改造为刀片式 初始投资较 高,PUE 收 益较高,部分部件不兼容,服务器结构需改造 初 始 投 资 较高,运维成本高,液体消耗成本高,PUE收益中等,部署方式同浸没式,服务器结构需改造 6 冷板液冷服务器设计白皮书 ODCC-2023-01008 综合考量初始投资成本、可维护性、PUE效果以及产业成熟度等因素,冷板式和单相浸没式相较其他液冷技术更有优势,是当
16、前业界的主流解决方案,冷板式液冷可以实现从传统风冷模式的平滑过渡,在数据中心领域应用更多。7 冷板液冷服务器设计白皮书 ODCC-2023-01008 三、三、冷板式液冷部件选择冷板式液冷部件选择 (一)(一)冷却液冷却液 液冷冷却液目前业内选择有乙二醇溶液、丙二醇溶液、去离子水等。其中华为、曙光、超聚变以25%乙二醇溶液为主,浪潮、新华三以25%丙二醇溶液为主。乙二醇溶液、丙二醇溶液为工业标品,可获取性高,乙二醇溶液成本相较于丙二醇溶液更低。冷却液浓度建议在20%30%,浓度不宜过高,过高会影响工质散热性能;也不宜过低,过低会影响防冻和抑制微生物滋生的能力。去离子水具有良好的传热性能,无毒安
17、全,可作为冷却液之一,但需注意对冷却液的维护。去离子水的冰点为0,需考虑运输、储存、短时停机、业务量较少、服务器已安装未运行等情况下的防冻问题。去离子水需添加缓蚀剂和杀菌剂,否则容易造成铜腐蚀,长期使用容易导致 CDU 内的铜钎焊板式换热器渗漏。冷却工质均需要添加缓蚀剂和杀菌剂,防止管路滋生细菌导致堵塞和泄露。综上,建议采用 255%浓度的乙二醇溶液作为液冷系统的冷却液。(二)(二)快接头快接头 快接头是用于节点冷板模组和液冷机柜集分水器之间的水路连接接头,需支持插拔节点时快速连通和截断节点与液冷机柜集分水器之间的水路,并保证不漏液。快接头分为手插快接头和盲插快接头两种形态,手插接头对运维人员
18、的要求较高,插拔操作依赖机房运维人员,服务器和机柜易于解耦。盲插快接头插拔具备自动化保障,操作方便,连接精度高,8 冷板液冷服务器设计白皮书 ODCC-2023-01008 可满足未来自动巡检、机器人运维需求,但服务器和机柜解耦难度大。液冷快速接头要满足可维护性、可靠性、流阻性能等多方面的需求,应根据实际应用需求选择合适通径的快接头:(1)免工具维护的需求,可以免工具进行快速接头的断开和接合;(2)连接与断开中冷却液的泄漏不影响日常维护过程,同时不对服务器和机柜造成影响;(3)能兼容不同冷却液;(4)发生故障并需要更换时,能方便更换维护;(5)在指定流量范围内,流阻应尽可能低,降低液冷系统的能
19、耗。当前业界手插和盲插快接头均有应用,后续随着服务器和机柜接口规范的制定和统一,将逐步统一为盲插快接头。(三)(三)冷量分配单元(冷量分配单元(CDUCDU)冷板式液冷系统中通过 CDU 隔离一次侧和二次侧回路,并完成一次侧和二次侧的热交换,为服务器提供制冷能力。根据 CDU 的形态和部署位置,可分为集中式 CDU 和分布式 CDU 两种,如图所示:图 3 分布式 CDU 和集中式 CDU 示意图 液冷机柜分布式CDU出水回水一次侧接口架空地板液冷机柜集中式CDU出水回水一次侧接口二次侧出水二次侧回水架空地板分布式式CDU集中式CDU 9 冷板液冷服务器设计白皮书 ODCC-2023-0100
20、8 集中式 CDU 的单台 CDU 可以同时为多个服务器机柜提供制冷能力,可以通过多台 CDU 集群实现 N+M 的冗余能力,可靠性高,适用于规模部署液冷服务器机柜的场景。分布式 CDU 免二次侧管路安装,单台 CDU 只为所在机柜服务器提供制冷能力,无法提供跨机柜的冗余能力,可靠性较集中式 CDU 低。集中式 CDU 和分布式 CDU 的对比如下表所示:表 2 集中式 CDU 与分布式 CDU 对比 集中式集中式 CDUCDU 分布式分布式 CDUCDU 形态 机柜形态,与一个服务器机柜尺寸基本相同 设备形态,宽、深与服务器尺寸基本相同,高度 4U 左右 部署方式 与服务器机柜并排部署,可同
21、时为多个服务器机柜提供制冷能力 部署在服务器机柜底部,只能为所在服务器机柜提供制冷能力 部署复杂性 服务器机房需要进行二次侧管路部署,部署复杂 服务器机房免二次侧管路部署,部署简单 可靠性 通过多个 CDU 集群方式提供N+M 冗余能力,可靠性高 每个机柜 1 台 CDU,无法实现CDU 间冗余能力,可靠性低(理论上可以通过两个机柜间 CDU 1+1 备份提高可靠性)空间利用率 CDU 需占用机柜安装空间,液冷机柜规模较小时,空间利用率较分布式 CDU 低;规CDU 不占用机柜安装空间,液冷机柜规模较小时,空间利用率 10 冷板液冷服务器设计白皮书 ODCC-2023-01008 模部署液冷机
22、柜时,空间利用率高 高;规模部署液冷机柜时,空间利用率较集中式 CDU 低 成本 小规模时成本较分布式 CDU高,大规模时成本低 小规模时成本低,大规模时成本较集中式 CDU 高 适用场景 大型数据中心,液冷大规模部署 中小型数据中心,液冷小规模部署 (四)(四)冷板冷板 冷板是与芯片接触实现换热的核心部件,冷却液在内部流动将芯片热量带走。根据散热模块与固定模块的可拆卸性,可以分为一体式冷板和分体式冷板。一体式冷板的散热模块和固定模块不可拆卸,分体式冷板的散热模块和固定模块通过螺钉固定,可拆卸。冷板的技术要求如下:(1)主板上的所有冷板/散热器必须方便拆卸,保证散热器与元器件有良好的接触并保持
23、两者之间有足够的压力,与 CPU 接触的散热器面须保证其平面度;(2)冷板需采用铜材质,配套管路可采用 EPDM、FEP、PTFE 软管或铜管;(3)应具有节点级告警、隔离、导流功能,满足节点级故障不扩散要求;(4)冷板需采用一体式焊接密封工艺,也可采用组装式密封圈密封工艺;(5)最大工作压力不小于 0.35Mpa;11 冷板液冷服务器设计白皮书 ODCC-2023-01008(6)冷板组件的流阻及液冷工质流量设计,应满足处理器最大散热需求。(五)(五)服务器液冷管路服务器液冷管路 服务器液冷管路作为输送冷却工质的通道,需要具备如下技术要求:(1)服务器液冷管路采用耐高温耐高压 FEP 波纹管
24、或 EPDM 材质软管,工作压力0.35MPa,最大承压1MPa;(2)服务器液冷管路设有漏液检测绳检测漏液;(3)服务器液冷管路与冷板采用宝塔头连接或卡箍紧固实现可靠密封。12 冷板液冷服务器设计白皮书 ODCC-2023-01008 四、四、液冷服务器要求液冷服务器要求 (一)(一)整机柜服务器的要求整机柜服务器的要求 1 1通用算力整机柜服务器要求通用算力整机柜服务器要求 通用算力整机柜服务器包含机柜、柜内服务器节点、电源框、总线等多种部件,建议规格要求如下表:表 3 通用算力整机柜服务器要求 机柜 高 2200mm,宽 600mm,深 1200mm(如含液冷门,建议1400mm),节点
25、 21 inch 或 19 inch 宽 服务器节点 最大 36 个 1U 节点 最大 18 个 2U 节点 供电电源配置 支持整柜集中供电,单个电源框高度3RU,支持 2N 供电系统,电源模块支持 N+2 备份;支持 2+2 路三相交流供电输入,电压范围:346V AC415V AC-3ph-50Hz,每相电流 32A;或支持 220VAC 供电输入,电压范围 198V AC264V AC,建议每路电流 63A;或支持 240VDC 供电输入,电压范围 192V HVDC-288V HVDC,建议每路电流 63A。13 冷板液冷服务器设计白皮书 ODCC-2023-01008 交换槽位 最少
26、支持 5 个交换机槽位,支持第三方标准通用交换机安装。管理模块 宜通过管理模块对电源进行统一管理并提供整机柜总功率;电源框体内宜配置管理模块,并具备动态节能管理功能。机柜内供电总线 1、48V 铜排供电,满足计算节点和+48V 通用交换机供电需求。2、至少支持 5+5 路 AC 供电,满足 AC 通用交换机供电需求。Mani-fold、风液换热器 半液冷场景:Manifold 带走服务器冷板热量,服务器风冷部分热量和柜内交换机的热量通过机房散热设备带走。全液冷场景:Manifold 带走服务器冷板热量,服务器风冷部分热量和柜内交换机的热量通过风液换热器带走,实现 100%液冷散热。漏液检测 服
27、务器节点、机柜防漏液设计,支持柜级和节点级漏液监控,能够实现漏液自隔离。实现机柜功率、温度、漏液检测等信息采集、告警生成及上传,并满足与集中监控平台、集中带外管理工具对接的要求。14 冷板液冷服务器设计白皮书 ODCC-2023-01008 一体化交付 支持除机柜门及其附件的整柜运输(含机柜、服务器节点、交换节点、管理模 块、电源框、PDU、电源模块、传感器等)2 2AIAI 算力整机柜服务器要求算力整机柜服务器要求 AI 算力整机柜服务器包含机柜、柜内服务器节点、电源框、总线等多种部件,建议规格要求如下表:表 4 AI 算力整机柜服务器要求 机柜 高 2200mm,宽 600mm,深 120
28、0mm(如含液冷门,建议1400mm),节点 21 inch 或 19 inch 宽 服务器节点 最少32U 服务器部署空间,可适配 GPU 模组,液冷冷板至少覆盖 CPU、GPU 供电电源配置 支持整柜集中供电,2 个 3U 电源框,单个电源框高度3RU,最大支持 36 块电源,支持 2N 供电系统,电源模块支持 N+2 备份;双电源框支持 6+6 路三相交流供电输入,电压范围:346V AC415V AC-3ph-50Hz,每相电流 32A。或支持 220VAC 供电输入,电压范围 198V AC264V AC,建议每路电流 63A;15 冷板液冷服务器设计白皮书 ODCC-2023-01
29、008 或支持 240VDC 供电输入,电压范围 192V HVDC-288V HVDC,建议每路电流 63A。交换槽位 最少支持 5 个交换机槽位,支持第三方标准通用交换机安装。管理模块 宜通过管理模块对电源进行统一管理并提供整机柜总功率;电源框体内宜配置管理模块,并具备动态节能管理功能。机柜内供电总线 1、48V 铜排供电,满足计算节点和+48V 通用交换机供电需求。2、至少支持 5+5 路 AC 供电,满足 AC 通用交换机供电需求。Mani-fold、风液换热器 半液冷场景:Manifold 带走服务器冷板热量,服务器风冷部分热量和柜内交换机的热量通过机房散热设备带走。全液冷场景:Ma
30、nifold 带走服务器冷板热量,服务器风冷部分热量和柜内交换机的热量通过风液换热器带走,实现 100%液冷散热。漏液检测 1、服务器节点、机柜防漏液设计,支持柜级和节点级漏液监控,能够实现漏液自隔离。16 冷板液冷服务器设计白皮书 ODCC-2023-01008 2、实现机柜功率、温度、漏液检测等信息采集、告警生成及上传,并满足与集中监控平台、集中带外管理工具对接的要求。一体化交付 支持除机柜门及其附件的整柜运输(含机柜、服务器节点、交换节点、管理模 块、电源框、PDU、电源模块、传感器等)3 3整机柜设计要求整机柜设计要求 (1)总线盲插设计 服务器机柜和节点宜支持总线盲插设计,采用三维浮
31、动液冷快接头、48V 供电 busbar 等关键技术,实现服务器节点水、电总线盲插,液冷、电源总线介绍如下:液冷总线:服务器节点液冷水路采用盲插快接头设计,节点冷板进出水采用具备浮动功能的盲插快接头与机柜 manifold 连接,实现液冷的即插即用,即拔即断。电源总线:液冷服务器节点与机柜直流48VBusBar的电源连接线采用“盲插”设计,去除电源物理线缆,提高部署效率。整机柜宜支持水电盲插,后续技术成熟后,建议网络也采用总线盲插方案,实现柜内水、网、电三总线盲插。(2)独立机柜管理模块 17 冷板液冷服务器设计白皮书 ODCC-2023-01008 宜通过管理模块对电源进行统一管理并提供整机
32、柜总功率;电源框体内宜配置管理模块,并具备动态节能管理功能;宜提供机柜各部件管理功能,如资产管理、功率封顶、液冷监控功能。(3)柜级漏液检测能力 当 manifold 发生漏液时,液体被收集到机柜底部的接液盘,相关监测设备如光电式水浸传感器、漏水感应绳水浸传感器等检测到漏液后上报机柜管理模块,发出告警信号。(4)柜级水电分离设计 机柜集中电源应顶置,实现上走电,下走水的水电分离架构设计,有效隔离漏液影响。(5)节点可靠性设计 节点应采用模块化高可靠冷板、耐压长寿命软管、无滴漏快接头等,具备漏液监测及告警、单节点漏液隔离和防喷射能力,确保系统的稳定可靠运行。如采用盲插方案,液冷服务器节点与机柜分
33、液单元之间的液冷接头应采用盲插快接防喷射结构设计,节点拔出遮住快插接头,节点插入露出快插接头,实现即插即通,即拔即断,漏液防喷射。液冷节点底座应采用无孔铆密封设计,前后增加挡水墙,确保节点出现漏液情况时漏液不会扩散到其余节点,将节点漏液造成的影响控制在单节点内部。18 冷板液冷服务器设计白皮书 ODCC-2023-01008 液冷节点在机箱底座应设置导流槽、导流嘴,将节点漏液通过机柜导流管导到机房排水管中,从而安全排到机房外部,确保节点漏液不会累积扩散到其他节点。液冷节点应支持漏液检测,包括从节点进水口到出水口全管路的漏液检测,出现漏液情况时立即上报服务器BMC系统,产生漏液告警,通知机房维护
34、人员及时处理。(6)整机柜交付 宜支持整机柜在产线安装调测,整机柜交付到客户机房,缩短现场安装时间,提高交付效率。(7)2N 供电系统 整机柜应支持 2N 供电系统。2N 供电系统是指由两套或多套供电系统组成的冗余系统,每个数据中心机房供电系统包含N套供电系统(称作N主),其总容量为机房供电系统的基本容量。在供电系统的整个路径(从供电输入经供电系统直到双电源输入负载)中的所有环节和设备都进行冗余配置(称作N备),且是彼此隔离的两条供电线路,正常运行时,每套供电系统仅承担总负荷的一部分。2N 供电系统如下图所示,以机房市电输入为例。19 冷板液冷服务器设计白皮书 ODCC-2023-01008
35、图 4 2N 供电系统示意图(二)(二)单节点服务器的要求单节点服务器的要求 (1)能源效率 通用算力服务器支持 CPU+VRD 液冷散热,可选内存液冷散热;AI 算力服务器支持 CPU+VRD+GPU 液冷散热,可选内存液冷散热;支持主备供电、高压直流供电,提高供电系统的效率;支持高效率的单板 VRD(Voltage Regulator Down)电源,降低主板 DC 电源转换的损耗;支持系统散热风扇分区调速和 PID(Proportional-Integral-Derivative)智能调速、CPU 智能调频,从而实现节能降耗;提供功率封顶和功率控制措施;支持错峰上电技术,降低服务器启动功
36、耗。(2)可用性和可服务性 20 冷板液冷服务器设计白皮书 ODCC-2023-01008 为提高系统可靠性,单板硬件应采用电信级器件及加工工艺流程;应 支 持 热 插 拔 的 SAS/SATA/NVMe 硬 盘。SAS/SATA 硬 盘 支RAID0/1/10/5/50/6/60,提供 RAID 缓存,支持超级电容掉电数据保护;应提供热插拔电源模块,支持 N+N 冗余;风扇模块,支持 N+1 冗余,提升系统整体可用性;板载的BMC集成管理模块能够持续监控系统参数、触发告警,并且采取恢复措施,以便最大限度地避免停机。(3)可管理性和安全性 集成在服务器上的BMC管理模块可用来监控系统运行状态,
37、并提供远程管理功能;支持 BIOS 菜单密码,保证系统启动及系统管理的安全性;支持机箱开盖检测,增强安全性;宜支持基于芯片级可信根 ROT(Root of Trust)的安全启动,具备从硬件可信根开始的逐级校验功能,构筑完整的安全启动链。21 冷板液冷服务器设计白皮书 ODCC-2023-01008 五、五、液冷带来的变化液冷带来的变化 (一)(一)液冷三种交付模式及优劣势液冷三种交付模式及优劣势 液冷系统涉及一次侧散热系统、二次侧散热系统、CDU、液冷机柜、液冷服务器的对接,根据 IT 设备侧与机房配套侧各自的交付内容,液冷服务器有如下三种交付模式:表 5 液冷服务器交付模式 交付交付模式模
38、式 ITIT 设备侧交付设备侧交付内容内容 交付界面说明交付界面说明 模 式一 液冷服务器 大型液冷机房,基础设施已经完备,只需采购“液冷服务器和接头”即可。模 式二 液冷服务器+液冷机柜 大型液冷机房,基础设施已经完备,已完成集中式CDU及机房内二次侧管路布局;只需采购交付“液冷服务器+液冷机柜及内部配套部件”。模 式三 液冷服务器+液冷机柜+CDU+二次侧管路 机房外部冷塔及一次侧管路已具备,只涉及机房内部的二次侧管路改造和布设,可以打包采购交付“服务器+机柜+CDU+二次侧管路”。三种交付模式的示意图如下:22 冷板液冷服务器设计白皮书 ODCC-2023-01008 图 5 液冷不同交
39、付模式示意图 目前液冷技术标准化程度较弱,服务器与液冷机柜、CDU 液冷管路的对接和冷却工质的选择,业内暂无实质约束性标准,各厂家之间缺少兼容性对接,因此尚存在一定程度的解决方案捆绑问题。三种交付模式的对比如下表所示:表 6 液冷服务器三种交付模式对比 方案方案对比对比 模式一模式一 模式二模式二 模式三模式三 备注备注 方 案内容 1、IT 侧负责液冷服务器 2、其他配套全部由省公司统一建设 1、IT 侧负责“液冷服务器+液冷机柜(整机柜)”等 2、其他配套全部由省公司统一建设 1、IT 侧负责“服务器+机柜+CDU+冷却液+二次侧管路”等;2、其他配套全部由省公司统一建设。技 术评估 应
40、用 案 例 极少,产品成熟兼容性对接内容较少,但整机柜目前应用案例相对更多,业界产业界尚无完善的兼容性服务器服务器+机柜机房内设施模式二模式一模式三 23 冷板液冷服务器设计白皮书 ODCC-2023-01008 度较差,需要较多服务器定制和接口对接验证,存在兼容性风险 方 案 对 机 房 入口、电梯、走道等搬运空间和运输通道要求高。品更成熟,整体交付责任界面较清晰,但整机柜方 案 对 机 房 入口、电梯、走道等搬运空间和运输通道承载要求更高。标准,现行液冷产品普遍存在厂家服务器和液冷机柜等配套设施整体打包交付情况 建 设周期 机柜分离建设方式,需要进行服务器与配套间的对接,建设周期相对较长
41、配套对接相对较少,比风冷周期长,但比机柜分开建设周期短,整机柜方案工厂完成主要集成,现场交付周期相对短 配套对接最少,比风冷周期长,由于服务器整机柜打包交付,实施复杂度最小和建设周期相对最短 均比风冷建设周期长,初步调研预计 6 个月以上,无法做到类似现网风冷快速上线 方 案总结 优:界面与传统风冷类似 劣:产品成熟度较差,建设周期较长。优:产品成熟度较好,配套对接内容少,交付及后期运维风险较小。劣:IT 侧运维范优:当前产品和解决方案成熟度最好,项目实施难度最小。劣:IT 侧运维范围最大,尤其包 24 冷板液冷服务器设计白皮书 ODCC-2023-01008 围相对较大,增加机柜内水路运维。
42、含CDU及二次测管路等非常规 IT 类设备。数据中心引入液冷系统时应综合考虑产业成熟度、运维便利性、建设周期等因素,选择合适的交付模式。(二)(二)液冷机房配套要求液冷机房配套要求 数据中心引入液冷服务器时,由于单机柜装机密度增大,机柜对机房承重提出了更高要求。同时,不同的液冷技术在部署形态、静电地板高度、制冷系统管路、机架供电、运维空间等方面相比传统风冷服务器均有新的特殊要求。冷板式液冷和浸没式液冷给传统数据中心带来的机房配套变化如下表所示:表 7 液冷给机房配套带来的变化 现网机房现网机房 冷板式液冷冷板式液冷 浸没式液冷浸没式液冷 备注备注 设备尺寸 1200*600*2200mm 12
43、00*600*2200mm(如含液冷门,建 议 深 度 1400mm)2650*800*1205mm 同时考虑卸货平台、电梯等 设备重量 600-800KG 1000KG-1300KG 4000KG 25 冷板液冷服务器设计白皮书 ODCC-2023-01008 机房承重 1000KG 1000KG 1200KG(非存储密集1000KG)部署形态 标准机柜(47U)标准机柜(47U)/非标机柜 箱式部署(约 3 个标准机柜空间)架高地板 500-600mm 600-800mm 600-800mm 入门坡道 非必须 7 7 列间空调 必须(通道封闭)列间空调/液冷门 不需要 通道封闭 需要 需要
44、/不需要 不需要 冷却塔 无/闭式/开式 闭式 闭式 可使用隔离换板,具体评估 一次侧冷却水 中 水/自来水 软化水/纯水/去离子水 软化水/纯水/去离子水 二次侧管道 无 需要,不锈钢环路部署 需要,不锈钢环路部署 二次侧换热 列间空调/水冷门 CDU CDU 26 冷板液冷服务器设计白皮书 ODCC-2023-01008 运维空间 无需独立运维空间 无需独立运维空间 需要配套提供运维天车及运维台空间 功率密度 5-7KW/柜 15-80KW/柜 27-100KW/Tank(高功率暂无应用案例)(三)(三)液冷运维与风冷运维的对比分析液冷运维与风冷运维的对比分析 冷板式液冷服务器和浸没式液冷
45、服务器目前多为定制化部署,相对传统风冷服务器,在系统设计、部件兼容性、部署方式、运维工具及习惯等方面,冷板式液冷服务器定制化程度较低,浸没式液冷服务器定制化程度较高。冷板式液冷和浸没式液冷给传统数据中心带来的运维变化如下表所示:表 8 液冷给运维带来的变化 比较项比较项 传统服务器传统服务器 冷板式液冷冷板式液冷 浸没式液冷浸没式液冷 服务器 服务器风扇 100%风扇散热 CPU/内存/VRD/GPU等液冷散热,其余仍然风扇散热 去除风扇,100%液冷散热 部件兼容性 兼容所有常见部件 兼容所有常见部件 存储仅支持 SSD 和氦气盘,电源无风扇定制,光电转接头和线缆需密闭或防腐蚀定制 IO 拓
46、展 前后窗 IO拓展 前后窗 IO 拓展(需含快接头)前窗 IO 拓展(拓展能力受限)27 冷板液冷服务器设计白皮书 ODCC-2023-01008 液冷部件 不需要 需要增加冷板、管路、漏液检测线 不需要 部署方式 部署方式 机柜 机柜式部署 箱式部署 二次侧冷却液 不需要 多使用乙二醇水,每柜 30-40L 氟化液或者矿物油,每箱使用 700-800L 分液器 不需要 每机柜均需部署 不需要 CDU 不需要 需要,用于一次侧和二次侧换热 需要,用于一次侧和二次侧换热 漏液检测系统 不需要 系统内、CDU、二次侧管路都需要 CDU、二次侧管路都需要 运维 运维工具 传统手工 补液频率约半年
47、每季度巡检(年度酸值、颗粒物杂质检测等),补液频率约半年,需要运维天车、专用运维平台等工具;总结 1、不同的交付模式会影响原有机房侧与 IT 设备侧的维护界面划分(采用机柜内解耦时,维护界面与原有风冷方式相同)2、对业务几乎无影响 1、部署运维方式改动较大,运维人员需特殊培训 2、IO 拓展能力受限(使用前后 IO 机型部署,硬盘不支持热插拔)3、存储仅支持 SSD和氦气盘,对服务器影响较大 28 冷板液冷服务器设计白皮书 ODCC-2023-01008 六、六、应用案例应用案例 (一)(一)超聚变金融领域液冷应用案例超聚变金融领域液冷应用案例 (二)(二)超聚变科教领域液冷应用案例超聚变科教
48、领域液冷应用案例 超聚变助力某教科研机构搭建高性能、高质量计算平台交付模式:仅交付机柜及液冷服务器场景:风液混合部署一次侧,液冷配套设施,机柜和服务器由不同厂家提供一次侧设备,CDU等提前部署,服务器厂家交付液冷机柜及液冷服务器进行对接。液冷高密节点及配套液冷设施单独建设;网络,存储低功耗设备仍采用风冷建设。液冷方案收益液冷2U8高密节点,相比同算力风冷节点,节省8倍部署空间低PUE,pPUE低至1.25技术优势算力密度提升:采用2U8高密液冷节点,提供1.43千万亿次计算能力项目规模共240个液冷高密节点,4.5PB存储。29 冷板液冷服务器设计白皮书 ODCC-2023-01008(三)(
49、三)浪潮金融领域液冷应用案例浪潮金融领域液冷应用案例 (四)(四)曙光互联网领域液冷应用案例曙光互联网领域液冷应用案例 项目总体规模包含6000台2U4节点液冷服务器、3000台1U液冷服务器通用节点,单机柜支持36U液冷安装空间,单柜功率达20kW整柜液冷交付,浪潮整机柜方案助力某金融客户机房建设项目规模每组机柜模块配套2台CDU,并形成液冷环网系统,在1台CDU出现故障时,另一台CDU可以完成对该组机柜模块的液冷制冷 机房规模约250台液冷机柜、50台350kW液冷CDU,二次侧整体+IT设备交钥匙项目技术优势交付模式:二次侧打包采购液冷方案一次侧和二次侧交付内容分开采购二次侧打包服务器、
50、机柜、CDU、二次侧管路等统一设计,集中化布局液冷方案收益多节点服务器交付,算力密度提升4倍PUE低至1.2;场景:风液混合部署每个模块采用独立的CDU+管路+液冷机柜+液冷服务器,即独立的二次侧循环由单一厂家供应。网络,存储等低功耗设备仍采用风冷模块建设。曙光数创冷板液冷解决方案助力某互联网数据中心项目交付模式:二次侧打包采购场景:风液混合部署液冷方案一次侧和二次侧交付内容分开采购二次侧打包机柜、Manifold、CDU、二次侧管路、监控以及集成交付服务统一标准:一次侧供水流量,温度,压力,水质为数据中心统一指标。(冷塔,一次侧管路由总集成方和设计院完成),责任界面清晰。每个模块采用独立的C
51、DU+管路+液冷机柜+液冷服务器。即独立的二次侧循环由单一厂家供应。网络,存储等低功耗设备仍采用风冷模块建设。液冷方案收益2U机架服务器,单柜21kW,算力密度提升2.5倍,为风冷机柜2.5倍低PUE,整体PUE低至1.25;项目技术优势预制化二次侧管网流体均流设计,并通过工厂均流性测试验证;液冷换热单元CDU高效降温,维护便捷;液冷智能控制系统,设置多级别告警和应急响应机制。项目规模某互联网数据中心项目,共27000+节点,1016台液冷机柜。30 冷板液冷服务器设计白皮书 ODCC-2023-01008(五)(五)曙光曙光 IDCIDC 领域液冷应用案例领域液冷应用案例 (六)(六)曙光气
52、象领域液冷应用案例曙光气象领域液冷应用案例 曙光数创冷板液冷解决方案助力某IDC数据中心项目交付模式:二次侧打包采购场景:风液混合部署液冷方案一次侧和二次侧交付内容分开采购二次侧打包机柜、Manifold、CDU、二次侧管路、监控以及集成交付服务统一标准:一次侧供水流量,温度,压力,水质为数据中心统一指标。(冷塔,一次侧管路由总集成方和设计院完成),责任界面清晰。每个模块采用独立的CDU+管路+液冷机柜+液冷服务器。即独立的二次侧循环由单一厂家供应。网络,存储等低功耗设备仍采用风冷模块建设。液冷方案收益2U机架服务器,单柜20kW,算力密度提升2.5倍,为风冷机柜2.5倍低PUE,整体PUE低
53、至1.25;项目技术优势预制化二次侧管网流体均流设计,并通过工厂均流性测试验证;;液冷换热单元CDU高效降温,维护便捷;液冷智能控制系统,设置多级别告警和应急响应机制。项目规模某 IDC数据中心项目,共1500+节点,70台液冷机柜。曙光数创冷板液冷解决方案助力国内某高性能计算系统建设交付模式:项目整体交付场景:风液混合部署项目低压供电、风冷冷却方案、液冷方案一次侧和二次侧整体交付;二次侧机柜、Manifold、CDU、二次侧管路、监控以及集成交付服务;每个模块采用独立的CDU+管路+液冷机柜+液冷服务器。网络,存储等设备采用风冷冷却模式。液冷方案收益4U液冷刀片服务器+2U液冷服务器,单柜最
54、高60kW+,单柜算力密度较传统风冷机柜提升10倍,低PUE,整体PUE低至1.23;项目技术优势项目整体交付,包含液冷服务器、风冷冷却、液冷一二次侧相关。项目规模气象领域某高性能计算系统,一期88柜液冷系统、二期335柜液冷系统。31 冷板液冷服务器设计白皮书 ODCC-2023-01008(七)(七)烽火科教领域液冷应用案例烽火科教领域液冷应用案例 (八)(八)华为华为 IDCIDC 领域液冷应用案例领域液冷应用案例 泵热交换单元换热器外循环回水38外循环供水33水平分液单元内循环回水 45内循环供水 35供水 35回水 45液冷冷板机 房 外 墙闭式冷却塔垂直分液单元服务器项目规模180
55、个GPU节点,23个液冷机柜节能降耗、降低噪声一体化快速交付高机架利用率高可靠性技术优势一次侧和二次侧分开采购二次侧服务器、机柜、CDU管路等整机柜一体化交付应用场景交付模式项目收益高性能计算、低PUE/单柜密度要求高等场景烽火液冷整机柜某高校应用案例CPU+GPU液冷散热,剩余热量风冷散热 单机柜功率8KW-40kW。机架利用率提升3倍PUE低至1.18,降低15%交付效率提升4倍某公有云数据中心,构建新一代云基础设施,已在多地规模部署液冷方案交付模式:二次侧打包采购场景:全液冷液冷系统一次侧和二次侧交付内容分开采购、交付二次侧打包服务器、机柜、CDU、二次侧管路、监控以及集成交付服务每个模
56、块采用独立的CDU+二次侧管路+液冷机柜+液冷服务器,即独立的二次侧循环由单一厂家交付。液冷方案收益算力强:液冷+PowerTurbo释放算力潜能(1U2P节点),性能提升10%;能效优:L1/L2/L3联动,iCooling+液冷,PUE低至1.15;交付快:工厂预安装,整机柜运输,每人每天交付10个整机柜,交付部署速度提升4倍,降低TCO 20%运维易:设备自动发现,线缆,电源,液冷盲插维护,运维效率提升 3倍;全场景资产/资源可视,资源的动态调优,提升利用率20%项目技术优势全栈液冷方案,降低PUE;预制模块,整机柜交付,供水、供电、网络采用盲插方案,提升交付及运维效率项目规模 采用华为
57、液冷数据中心全栈方案建设,建设规模1K+柜,共2W+节点 32 冷板液冷服务器设计白皮书 ODCC-2023-01008(九)(九)华为华为 AIAI 领域液冷应用案例领域液冷应用案例 某人工智能液冷计算中心,预制模块化交付,打造国家级人工智能平台交付模式:L0-L4 集成交付场景:全液冷L0-L4全栈数据中心解决方案交付,涵盖预制模块化机房、一次侧和二次侧液冷管路、Atlas900、HCSO、ModelArt等模块;冷却塔+CDU+管路+液冷机柜+液冷服务器等全液冷系统由单一厂家集成供应。液冷方案收益算力强:全栈液冷方案释放算力潜能,网络时延降低70%,线性度85%能效优:用电节省60%,单柜可支持43KW,AI集群PUE小于1.15上线快:预置模块化机房+整机柜交付,从土建到业务上线3个半月;项目技术优势全栈液冷方案(带液冷门),100%热量由液体带走;预制模块,整机柜交付,供水、供电、网络采用盲插方案,提升交付及运维效率;高密度铲齿冷板设计,免冷机,可自然冷却项目规模 采用华为液冷数据中心全栈方案建设,建设规模50柜,共400节点