《ODCC:2023边缘浸没服务器技术白皮书(40页).pdf》由会员分享,可在线阅读,更多相关《ODCC:2023边缘浸没服务器技术白皮书(40页).pdf(40页珍藏版)》请在三个皮匠报告上搜索。
1、 1 边缘浸没服务器技术白皮书 ODCC-2023-04007 编号 ODCC-2023-04007 I 边缘浸没服务器技术白皮书 ODCC-2023-04007 版权声明版权声明 ODCC(开放数据中心委员会)发布的各项成果,受著作权法保护,编制单位共同享有著作权。转载、摘编或利用其它方式使用 ODCC 成果中的文字或者观点的,应注明来源:“开放数据中心委员会 ODCC”。对于未经著作权人书面同意而实施的剽窃、复制、修改、销售、改编、汇编和翻译出版等侵权行为,ODCC 及有关单位将追究其法律责任,感谢各单位的配合与支持。II 边缘浸没服务器技术白皮书 ODCC-2023-04007 编写组编
2、写组 项目经理:项目经理:李雄 比亚迪精密制造有限公司 工作组长:工作组长:陈炜 深圳市腾讯计算机系统有限公司 贡献专家:贡献专家:李雄 比亚迪精密制造有限公司 林炳宽 比亚迪精密制造有限公司 李必映 比亚迪精密制造有限公司 彭程 比亚迪精密制造有限公司 曾丹丹 比亚迪精密制造有限公司 刘恒 比亚迪精密制造有限公司 马晓侠 比亚迪精密制造有限公司 崔勇 比亚迪精密制造有限公司 常金凤 中国信息通信研究院 周智勇 深圳绿色云图科技有限公司 李桂洪 深圳绿色云图科技有限公司 III 边缘浸没服务器技术白皮书 ODCC-2023-04007 前前 言言 随着大数据,云技术,物联网技术的蓬勃发展,越来
3、越多的应用催生出对边缘计算的需求,数据决策的需求,数据决策过程逐渐从数据中心向边缘侧迁移。与此前依托于集约大型 IDC 的云计算场景不同,边缘计算对硬件基础设施提出更高的要求。面对这一挑战,边缘服务器应运而生。作为新型边缘计算的重要基础设施之一,边缘服务器可以在恶劣的边缘环境中稳定工作,将本地高性能智能服务承载到数据源附近以实现云边缘端的无缝协作。IT 设备浸没式液冷是一种新型的冷却方式,其中 IT 设备(例如服务器)浸没在导热介质液体中。浸没式液冷的特点是潜在的 100%热俘获能力、比风冷更低的电源使用效率(PUE)、更强的散热能力以及代际兼容的可能性。这些特性能很好的使边缘服务器在高温高湿
4、的环境中工作。另外,浸没式液冷其自身的结构特点潜在的满足了风冷系统设计中对噪音以及防水防尘的需求,这些优势有效解决了高性能边缘服务器在边缘部署中的困难和痛点,从而使高性能服务器能更适用于边缘环境。浸没式液冷系统主要分为两种类型:单相浸没式液冷和两相浸没式液冷。在单相浸没式液冷设计中,冷却液不会产生相变,能够一直保持为液体,并且由于液体的热特性,是一种比空气更有效的传热介质。冷却液通过自然对流和强制对流方式传导热量,然后再通过散热器或冷却剂分配单元(CDU)将热从设备中传导到外部环境。两相浸没式液冷设计利则用了液体到气体之间的相变产生的热交换进行散热,因此需要使用到冷凝器将气体转化为液体。故相比
5、单相 IV 边缘浸没服务器技术白皮书 ODCC-2023-04007 浸没式液冷系统,两相浸没式液冷系统尺寸更大,往往无法在一个机箱中集成系统的所有部件,因而并不适用于边缘部署环境。因此,本书主要考量单相浸没式液冷的系统架构并围绕边缘浸没服务器进行阐述。本书首先介绍边缘浸没式应用范围;随后介绍边缘浸没式硬件配置与散热的原理;紧接着介绍比亚迪的一款边缘浸没式详细设计与其相对于风冷可靠性稳定性对比;最后阐述边缘浸没服务器的未来发展趋势与具体应用案例。由于时间仓促,水平所限,错误和不足之处在所难免,欢迎各位读者批评指正。如有意见或建议请联系编写组。V 边缘浸没服务器技术白皮书 ODCC-2023-0
6、4007 目目 录录 版权声明.I 编写组.II 前 言.III 一、边缘计算概述.1 二、边缘计算硬件.2(一)网络性能需求.2(二)环境适应性需求.2(三)便捷维护性需求.3(四)低噪声需求.3 三、边缘计算服务器的特点.3(一)形态灵活多变.3(二)优异的环境适应性.4(三)灵活的可扩展性:.4(四)运维管理统一便捷性:.4 四、精简的物理规格.4(一)模块化发展历程.5(二)多样的模块化配置.6(三)三防设计与优化.8(四)绿色节能的液冷.9 五、边缘浸没服务器具体设计案例.9(一)边缘浸没服务器规格计算模块配置参数.10(二)液冷使用溶液参数.10 VI 边缘浸没服务器技术白皮书 O
7、DCC-2023-04007(三)整机&单板示意图.11(四)单板电气部分拓扑图.12(五)BMC 控制拓扑图.13(六)热仿真模型示意图.13(七)仿真温度 速度 压力流场示意图.14(八)仿真关键零部件温度表.14(九)重要元器件与液冷液兼容测试.16 六、总结展望与应用具体案例.28(一)模块化设计.28(二)更优的散热设计.29(三)融合边缘计算管理运维平台.29(四)管理数据流可通过业务网口传输.30(五)算力的提升与多元化.30(六)应用具体案例.31 1 边缘浸没服务器技术白皮书 ODCC-2023-04007 边缘浸没服务器技术白皮书边缘浸没服务器技术白皮书 一、一、边缘计算概
8、述边缘计算概述 边缘计算的基本思想是将计算从核心网络下沉到网络边缘,减少核心网络拥塞和数据传播延迟,在接近移动用户终端的无线接入网内提供服务环境和计算功能。它可以将数据的处理,应用程序的运行,甚至一些功能服务的实现,由中心服务器下放到网络边缘的节点。边缘计算可以作为联接物理和数字世界的桥梁,使能智能资产,智能网关,智能系统和智能服务。边缘计算是云计算向边缘的延伸,相比于传统数据中心基础设施和业务模式,边缘计算具有 CROSS 特性,即互联的海量数据,业务实时性,数据的优化,应用的智能性以及边缘数据的安全和隐私保护。同时边缘计算可以协助传统云计算业务,实现计算能力的细分,将部分资源和服务下沉到边
9、缘位置,丰富业务类型,提升服务质量和用户体验,云计算也可以依赖边缘计算作为数据采集单元以更好的支撑云端应用。以应用场景及价值市场维度分析,边缘计算主要分为三类:电信运营商边缘计算、企业与物联网边缘计算、工业边缘计算。目前业界尝试推进的边缘场景主要有 ICT 融合场景、泛 CDN、智能联网汽车、工业互联网、产业+AL、城市治理、智能物联网等七大类。以其中的车联网为例,通过车联网平台的本地算力,可以提供紧急情况下的告警辅助信息、路径优化、行车引导、安全 2 边缘浸没服务器技术白皮书 ODCC-2023-04007 辅助信息等等服务,这些服务直接通过本地边缘计算无需占用带宽去中心机房进行处理,突出低
10、延时。二、二、边缘计算硬件边缘计算硬件 随着边缘计算技术成熟和市场的快速发展,边缘技术场景和应用的多元化特征越来越明显。以 ICT 融合场景、泛 CDN、智能物联网等为代表的落地最快速的应用场景对边缘技术服务器提出了与传统服务器不同的需求。(一)(一)网络性能需求网络性能需求 5G 网络的三大典型企业应用进行场景与边缘计算能力密切结合相关,其中 URLLC 对超高性能可靠低时延通信的要求,eMBB 对高带宽的要求与 MIOT 对大连接的要求,都需要通过边缘系统计算数据服务器的支持。而以 AGV 小车、自动驾驶、工业质检等为代表的即时边缘设备应用场景对设备计算的低延时要求非常苛刻。道路上路况识别
11、的效率、产线中缺陷检查的效率与道路安全与企业成本效益相关,对承载此关键应用的边缘服务器提出极高的需求。(二)(二)环境适应性需求环境适应性需求 边缘计算场景复杂多样,在电信机房、边缘电气柜、工业现场控制柜、车载环境都有部署要求,需要边缘服务器在宽工作温度湿度、高震动、高尘土、高辐射等恶劣环境都有良好的适应性,能够可靠稳定运行。3 边缘浸没服务器技术白皮书 ODCC-2023-04007(三)(三)便捷维护性需求便捷维护性需求 边缘服务器经常需要部署在偏远地区,运维人员上门困难,部分环境不具备现场维修条件,需要服务器具备远程维护或快速换件等功能,所以统一管理异构服务器,是边缘服务器运维关键需求,
12、包括不限于:统一的运维管理接口、业务自动部署能力、有效可靠的故障处理能力。(四)(四)低噪声需求低噪声需求 部署在人机共存环境的应用(如智慧园区,智慧办公/考勤等)对边缘服务器提出低噪音要求,需要服务器在近人空间安静运行。三、三、边缘计算服务器的特点边缘计算服务器的特点 边缘计算服务器是应用在边缘场景的服务器,服务器相比工控机/智能网关等其他边缘设备具有技术成熟、标准统一、计算性能和稳定性强等优势,更能适应边缘应用因 5G 和 Ai 技术发展而飞速提高的算力和可靠性需求。(一)(一)形态灵活多变形态灵活多变 边缘服务器按照环境适应性及算力性能的差异化需求,可以分为一体化交付到应用现场的边缘微中
13、心、适用于机房及边缘数据中心的边缘机架服务器、适用于工业现场及数据搬迁的便携 AI 服务器、直接就近部署在端侧设备附近的边缘微服务器等。灵活的形态满足不同场景对服务器的部署要求。4 边缘浸没服务器技术白皮书 ODCC-2023-04007(二)(二)优异的环境适应性优异的环境适应性 30 60 宽环温、地震九级、CLASSB 级电磁兼容等。(三)(三)灵活的可扩展性:灵活的可扩展性:硬盘支持 HDD/SSD/NVME SSD 等存储形式,灵活应对不同数据容量及类型。兼容支持多种内存,将内存的容量,温度适应性,掉电保护等功能,可做到根据场景选配。处理器性能及功耗可根据功能需求选配。可选配置基于
14、ASIC Application Specific Integrated Circuit、特殊应用集成电路、FPGA Field Programmable Gate Array 可编程逻辑门阵列、智能网卡或其它硬件加速方案卸载部分 CPU 功能,以节约 CPU 资源并提高处理效率。(四)(四)运维管理统一便捷性:运维管理统一便捷性:统一管理接口:服务器有统一完善的管理接口要求以减少带外管理系统带来的大量适配工作。运维高效:边缘服务器运维操作简单快捷,减少人力成本。故障诊断及自愈:服务器 BMC 具备基本故障诊断及上报能力,并提供硬件平台自愈方案。四、四、精简的物理规格精简的物理规格 5 边缘浸
15、没服务器技术白皮书 ODCC-2023-04007 部署边缘计算服务器的机房通常不具备云计算数据中心的空间、供电、制冷等技术条件。同时,边缘业务在边缘服务机房的交付、部署和本地运维又有着大规模、分布化的特点。针对这些问题,首先就从物理规格的精简入手,以便于设备的部署。(一)(一)模块化发展历程模块化发展历程 通过查询搜索引擎“模块化服务器”,在百度百科中找到一个相关词条“英特尔模块化服务器”,百度百科是这样描述的“英特尔模块化服务器将计算、存储、I/O、管理等模块集成到了一个机箱系统中,支持多达 6 个计算模块和 14 个 2.5 英寸 SAS 硬盘,以及两个以太网交换机模块、集成的SAN(存
16、储区域网络)和一个管理模块,其中服务器计算模块支持 2 路四核及双核英特尔至强处理器。英特尔模块化系统采用了英特尔 Multi-Flex 技术,这是一系列可帮助客户简化操作、降低成本并提高灵活性的管理和存储技术的组件,具体包括以下技术:虚拟存在、虚拟存储映射、自动操控存储管理、预测硬盘故障、全局和专用热备件、电池正常状态管理、自适应回写高速缓存、单点登录、资源分配布局、集成的存储域网络、安全存储传输、集中化事件记录与审核、实时卷扩展、带外系统管理、诊断、即时显示的数据、集成切换管理、统一的软硬件更新等,可以大大减化管理维护工作,提高管理员的工作效率。从结构上讲,整个模块化服务器有以下几个子系统
17、组成:计算子系统、存储子系统、交换子系统、供电子系统、管理子系统制冷子系统,所有子系统通过中板和交换机的连接及机箱的固定形成一个有机整体。6 边缘浸没服务器技术白皮书 ODCC-2023-04007(二)(二)多样的模块化配置多样的模块化配置 边缘服务器可通过对各个功能模块解耦,优化,将重复的功能拆分开,根据不同场景和应用需求重新组合。通过模块化的设计和模块复用,降低成本,缩短开发周期,同时模块化布局可满足小型化、高密度的应用需求,在空间敏感的应用场景具有很大优势,通过功能模块化设计,实现在同一物理规格下提供不同的边缘能力,以满足不同应用场景需求。1 1边缘智能边缘智能 边缘节点借助人工智能技
18、术,可以更好地提供高级数据分析、场景感知、实时决策、自组织、协作等智能服务,利用 AI 异构计算,满足边缘业务对多样性计算的需求,实现新一代“连接+计算”的基础设施的构建,满足碎片化产业和差异化应用的需求,提升计算资源利用率,支持算力的灵活部署和调度。例如在从车路协同场景下,对车辆、路侧及行人相关信息收集,数据处理,轨迹判断等一系列处理,对边缘侧算力提出了极高的要求,目前业界已规模化生产的 OTII 标准边缘服务器可通过将硬盘空间模块替换为 PCIE 扩展位,使得单个边缘服务器最大可以支持 2 个双宽 GPU 或 4 个单宽 GPU,让边缘数据中心具备等同于中心数据中心的高算力以及神经网络训练
19、和推理能力,从而实现 5G 网络边缘的人工智能。7 边缘浸没服务器技术白皮书 ODCC-2023-04007 2 2边缘存储边缘存储 边缘场景同传统的互联网不同,边缘数据也许只对本地或近边缘业务有价值,这时就需要将数据缓存在本地,相比于将数据传输至中心数据中心,边缘场景可节省核心网络带宽,在此情境下,对于部分对存储容量要求较高的场景(如边缘云/边缘数据中心),边缘服务器支持模块化将 PCIE 扩展框更换为硬盘空间,选配 2.5/3.5寸硬盘,最大支持到 8 块 2.5+4 块 3.5 寸硬盘,同时支持机械/固态硬盘和高性能 NVME 存储,覆盖所有边缘存储需求。同时固态硬盘抗震性、抗电磁干扰能
20、力、顺序读写性能、随机读写性能、低功耗等特性在边缘存储领域有绝对优势,在环境较为恶劣的环境下采用搭载固态硬盘的服务器配置,能够为用户提供更为安全稳定的服务器配置。3 3边缘网络边缘网络 依托企业更加去中心化的 5G 网络,在网络社会边缘系统部署小规模或者便携式电子数据信息中心,进行管理终端用户请求的本地化处理,承担物联网、MEC 和 NFV 等 5G 应用场景。例如,用户面功能 UPF(User Plan Function)作为 5G 核心网数据进行处理和转发的核心技术设备,可通过与边缘计算方法结合工作部署在网络边缘侧,为终端用户可以提供一个本地就近的网络设计方案和算力支撑,能够得到充分发挥出
21、 5G 网络大带宽、低延时的特点,成为 5G 与垂 8 边缘浸没服务器技术白皮书 ODCC-2023-04007 直管理行业市场应用研究深度学习融合的关键节点,加快“连接+算力”的应用不断创新。对于通信领域对网络转发处理功能要求较高的场景,业界已有的边缘服服务器支持将 6+2 个 PCIE 扩展槽全部扩展为网卡/智能网卡,可实现 100Gbps 超高吞吐、s 级极低时延、软硬件解耦灵活适配,从而支持边缘服务器作为类交换机 CPE 或 ICT 融合设备使用,推动 5G 垂直行业应用落地。(一)(一)三防设计三防设计与优化与优化 边缘服务器在户外应用场景中需要应对严酷的环境,比如雨水、凝露、灰尘、
22、太阳辐射和腐蚀。服务器在开发设计中要注意防水、防尘、防辐射和防腐蚀,同时也要兼顾产品性能与可靠性。在技术要求上,中短期目标是实现IP55 标准,长期目标是实现 IP65/67 标准。目前的技术:防水、防辐射和防腐蚀的技术实现难度不大,一般可以满足要求。比如:防水一般采用鱼鳞板、迷宫设计等;防辐射和防腐蚀采用防辐射油漆等。这里不做过多描述。防尘方面,初期可以采用一般的防尘网技术,可以满足绝大部分灰尘浓度较低(空气质量较好)的地区。但是,在某些灰尘浓度较高的地区,可能会因此增加服务器维护防尘网的频率,进而增加成本。9 边缘浸没服务器技术白皮书 ODCC-2023-04007(二)(二)绿色节能的液
23、冷绿色节能的液冷 IT 设备技术的变化一直是基础设施中制冷解决方案研发的主要驱动力。尽管液冷已在大型主机和高性能计算(HPC)中部署多年,但随着边缘应用的需求以及边缘服务器产业的发展,再次引发 IT 技术的变化,这迫使人们重新审视液冷及新技术的研发。与传统的风冷散热的方法相比,在同样单位体积下,液体吸收热量的能力更高,因此液冷技术能够更高效地散热,在边缘计算环境中会有更好的适用场景。以沉浸式液冷为例,它是指将服务器完全或部分浸入绝缘冷却液中,使其覆盖主板和元器件,以确保发热源产生的热量被转移,它使服务器不再需要散热风扇,使服务器实现近乎无噪音运行。在边缘场景应用沉浸式液冷技术,具备较小的物理尺
24、寸,支持宽温、低噪声、小尺寸、抗震等需求,同时液冷边缘服务器系统中服务器浸没于密闭腔体内的不导电液体,能完全隔绝组件与水气、灰尘等外界污染源的接触,大幅降低系统维护需求。在未来海量边缘服务器部署的场景下,液冷技术的成本及维护需要进一步解决。五、五、边缘浸没服务器具体设计案例边缘浸没服务器具体设计案例 10 边缘浸没服务器技术白皮书 ODCC-2023-04007(一)(一)边缘浸没服务器规格计算模块配置参数边缘浸没服务器规格计算模块配置参数 (二)(二)液冷使用溶液参数液冷使用溶液参数 氟化液 Noah3000A 动力粘度(mm2/s):40 1.01844/35 1.12104 密度(kg/
25、m3):40 1775 导热系数(Wm-1k-1):40 0.0601 膨胀系数:40 0.0014 比热(Jg-1K-1):40 1218 11 边缘浸没服务器技术白皮书 ODCC-2023-04007(三)(三)整机整机&单板示意图单板示意图 12 边缘浸没服务器技术白皮书 ODCC-2023-04007(四)(四)单板电气部分拓扑图单板电气部分拓扑图 13 边缘浸没服务器技术白皮书 ODCC-2023-04007(五)(五)BMCBMC 控制拓扑图控制拓扑图 (六)(六)热仿真模型示意图热仿真模型示意图 14 边缘浸没服务器技术白皮书 ODCC-2023-04007(七)(七)仿真温度仿
26、真温度 速度速度 压力流场示意图压力流场示意图 (八)(八)仿真关键零部件温度表仿真关键零部件温度表 其中,其中,浸没系统与风冷运行稳定性及性能(运行时间浸没系统与风冷运行稳定性及性能(运行时间 3 30000 小时)小时)如下:如下:系统稳定性与性能 测试项目 测试内容 风冷结果 液冷结果 测试结论 稳定性 整机压力测试+healthcheck 整机压力测试pass 整机压力测试pass 风冷和液冷的系统运行稳 15 边缘浸没服务器技术白皮书 ODCC-2023-04007 定,无异常。DC cycle 测试+hwqc+healthcheck 运行 DC 500 次pass 运行 reboo
27、t 500 次pass 性能 风冷和液冷的系统运行稳定,无异常。OS reboot 测试+hwqc+healthcheck 运行 reboot 500 次pass 外观无异常 烤漆满足要求 风冷和液冷的系统运行稳定,无异常。性能 CPU 性能 满足基线要求 满足基线要求 满足基线要求 满足基线要求 液冷和风冷均满足要求 无显著差异 内存性能 copy,add,scale,triad 满足基线要求 满足基线要求 满足基线要求 满足基线要求 液冷和风冷均满足要求 无显著差异 SSD性能-顺序读128k read bw/MB/s 满足基线要求 满足基线要求 满足基线要求 满足基线要求 液冷和风冷均满
28、足要求 无显著差异 SSD性能-顺序写128k write bw/MB/s 满足基线要求 满足基线要求 满足基线要求 满足基线要求 液冷和风冷均满足要求 无显著差异 SSD性能-随机写4k randread iops 满足基线要求 满足基线要求 满足基线要求 满足基线要求 液冷和风冷均满足要求 无显著差异 SSD性能-随机读4k randwrite iops 满足基线要求 满足基线要求 满足基线要求 满足基线要求 液冷和风冷均满足 16 边缘浸没服务器技术白皮书 ODCC-2023-04007 要求 无显著差异 分析可知,液冷服务器满足系统稳定性&性能要求;液冷环境长期工作,系统的稳定性及性能
29、无显著变化;风冷 vs 液冷服务器,CPU 性能、内存性能、SSD 读写性能测试结果差异较小,性能无显著差异。(九)(九)重要元器件与液冷液兼容测试重要元器件与液冷液兼容测试 1 1CPUCPU 与与 PCBPCB 与氟化液兼容性实验与氟化液兼容性实验 17 边缘浸没服务器技术白皮书 ODCC-2023-04007 2 2CPU Socket IS CPU Socket IS 测试(浸没测试(浸没 300hours300hours)测试 SOCKET 机台 测试 SOCKET 信号结果信号得到更好优化,上图为 CPU 的底座空气与流体信号对比。18 边缘浸没服务器技术白皮书 ODCC-2023
30、-04007 3 3电容浸没(电容浸没(300hours300hours)过后对比图)过后对比图 4 4导热垫片测试后图片(垫片破裂流失)后续使用铟片导热垫片测试后图片(垫片破裂流失)后续使用铟片 PCH 导热垫片在氟化液浸泡时间比较长出现分解流失的状态 19 边缘浸没服务器技术白皮书 ODCC-2023-04007 20 边缘浸没服务器技术白皮书 ODCC-2023-04007 5 5PCHPCH 散热器导热垫片与散热器导热垫片与 CPUCPU 散热器使用铟片散热器使用铟片 铟片是采用高纯铟(4N5)辊压制备的一种高导热金属热界面片状材料,柔软、塑性好,具有安全无毒、高延展性、高可靠性的特点
31、,在接触面两端施加压力后,能够有效填充界面空气,减小热阻,广泛应用于电脑CPU、高功率灯源、大功率器件、高性能显卡、IGBT模块、高功率激光器等高端电子设备。性能参数:产品型号 MTIP 1561 测试标准 规格 45x45x 0.08mm 外观 银色片状 熔点 156 GBT 1425-1996 热导率(Wm-1K-1)82 ISO 22007-2-2015 密度(g/cm3)7.31 GB/T 1423-1996 电导率(107 S/m)1.1 GBT 12966-2008 体积膨胀率(%)2 挥发率(%)0.001 莫氏硬度 1.2 工作温度(C)-50150 腐蚀性(铜、铝)无 使用方
32、法:1.将导热片裁剪成热源的尺寸形状;2.将导热片放置于热源上方,压紧散热器,螺丝固定;3.常温下储存在相对湿度为 55%或更低的环境中。21 边缘浸没服务器技术白皮书 ODCC-2023-04007 6 6内存内存 socketsocket 与高速信号线连接器测试与高速信号线连接器测试 内存 ddr5 高速信号线与连接器在氟化液浸泡 300 小时后信号测试请参考上图 7 7PCIE4.0 CPURxPCIE4.0 CPURx 时延在风冷与浸没液冷对比测试时延在风冷与浸没液冷对比测试 22 边缘浸没服务器技术白皮书 ODCC-2023-04007 8 8PCIE4.0 CPURxPCIE4.0
33、 CPURx 电压压降风冷与浸没液冷对比测试电压压降风冷与浸没液冷对比测试 9 9兼容性总结兼容性总结 为了评估液冷环境对主板物理特性是否有影响,本章对液冷环境 PCBA 物理兼容性层面可靠性进行了分析,同时对比风冷和液冷服务器整机的物理特性可靠性的差异。9.1 9.1 PCBA PCBA 物理特性物理特性 兼容性列表 测试项目 测试内容 风冷结果 液冷结果 风 vs 液测试结论 PCBA物理特性 PCBA 外观检查 外观检视 ok,未见显著异常 外观检视ok,未见显著异常 液冷 PCBA 老化不明显;PCBA 上关键器件外观检查 检视 ok,未见显著异常 未见显著异常 未见显著异常 焊盘或露
34、铜检查 无腐蚀、变色、剥离现象 未见显著异常 未见显著异常 过孔和螺钉孔外观分析 无腐蚀、变色、孔盘剥离现象 未见显著异常 未见显著异常 关键器件焊点 X-ray 分析 无焊点异常 未见显著异常 未见显著异常 PTH 焊接孔切片分析 PTH 孔无腐蚀异常,焊料填充正常 未见显著异常 未见显著异常 PCB 内层切片分析 PCB 内层无分层起泡现象 未见显著异常 未见显著异常 焊点切片分析 无裂纹,IMC 连续形貌正常 未见显著异常 未见显著异常 23 边缘浸没服务器技术白皮书 ODCC-2023-04007 分析可知,液冷 PCBA 物理特性满足 IPC 标准规范要求;液冷环境长期工作,服务器的
35、 PCBA 物理特性无显著变化。目测液冷主板较为崭新,其他外观检视、X射线分析、切片分析、等结果风冷和液冷主板无显著差异。9 9.2.2 信号完整性信号完整性 高速连接器与高速线缆高速连接器与高速线缆 浸没式液冷对 PCB 的影响,主要是针对传输线影响即对走线的影响。传输线根据电磁场的理论,当高频信号通过传输线时,各点电压和电流是不相同的。各点分布参数(电阻、电感、电容、电导)存在于传输线的所有位置上,随着频率的提高,分布参数效应会带来不同影响。为了评估液冷环境对主板信号完整性的影响,随机选取已经运行近 3 年的的阿里云浸没式液冷服务器分析其主板信号完整性,测试结果与风冷主板信号完整性进行对比
36、分析,比较液冷主板信号与风冷主板信号的差异性。对液冷服务器进行了 UPI、DMI、RMT、PCIe-TX、TDR 等项目的测试分析,同时对高速连接器及线缆的电气特性进行分析。兼容性列表 测试项目 测试内容 风冷结果 液冷结果 风 vs液测试结论 信号完整性 UPI Margin(CPU 之间SI)满足 spec要求 满足 spec要求 满足 spec要求 DMI Margin(CPU 与南桥间 SI)满足 spec要求 满足 spec要求 满足 spec要求 RMT Margin(CPU 与内存间 SI)满足 spec要求 满足 spec要求 满足 spec要求 24 边缘浸没服务器技术白皮书
37、 ODCC-2023-04007 PCIe-TX/ps 满足 spec要求 满足 spec要求 满足 spec要求 高速连接器 高速线缆 外观检视&物理特性 满足 spec要求 满足 spec要求 满足 spec要求 电气特性测试(IL/RL/TDR/CR 等)满足 spec要求 满足 spec要求 满足 spec要求 分析可知,浸没式液冷主板SI测试结果满足工业标准SPEC;浸没式液冷服务器环境长期工作,主板信号完整性无显著变化。浸没式液冷高速连接器及线缆信号满足出厂SPEC,液冷环境长期工作,高速连接器和线缆的电气特性无明显变化。9 9.3.3 主板电源完整性评估主板电源完整性评估 针对液
38、冷环境对板级 pcb 和电源器件(VR controller,Powerstage,POL converter,LDO 以及输入输出电容,输出电感)的长期可靠性和电气特性影响进行实测分析。主要采用的方法是对比单板板级电源在研发阶段和长期液冷环境工作后 PIV 测试结果的差异性,判断标准是测试结果相差小于人为测试误差(5-10mV),并满足板级电源规格(包括Intel CPU、PCH以及memory电源规格,和基本上下电、环路、MOS 应力、输出过流过压保护测试等)。主板电源完整性 测试项目 测试内容 风冷结果 液冷结果 风 vs 液测试结论 CPU/Memory VR(多相)Intel CPU
39、&Memory VRTT(PVCCIN,PVCCSA,PVCCIO;PVDDQ,P0V6,P2V5)满足 Intel CPU和 Memory 电源规格要求 满足 Intel CPU 和Memory电源规格要求 风冷和液冷均满足 Intel 电源规格要求 上下电/MOS Vds/Jitter/Control Loop/输出保护(OCP/OVP),etc.满足比亚迪服务器测试规范(PIV 部)满足比亚迪服务器测试规范(PIV部)风冷和液冷均满足 spec 25 边缘浸没服务器技术白皮书 ODCC-2023-04007 其他 Switching VR/LDO(单相)DC regulation/Tra
40、nsient/上下电/MOS Vds/Jitter/Control Loop/输出保护(OCP/OVP),etc.满足比亚迪服务器测试规范(PIV 部)满足比亚迪服务器测试规范(PIV部)风冷和液冷均满足 spec EFUSE/HOTSWAP 缓启时间/过流保护/MOS SOA/热插拔 满足比亚迪服务器测试规范(PIV 部)满足比亚迪服务器测试规范(PIV部)风冷和液冷均满足 spec VR IC(Controller/Powerstage)单体外观&物理特性 外观检视无异常 外观检视无异常 外观检视无异常 电感、电容、MOSFET、Diode(TVS,Schottky)电气特性(感值,Rdc
41、,Isat,容值,ESR,Rds_on,SOA,Qg等)满足器件规格要求 满足器件规格要求 满足器件规格要求 分析可知,液冷和风冷PI测试结果均满足intel电源规格和研发测试规范(PIV部分),液冷vs风冷PI测试结果无显著差异。液冷环境板级电源器件电气性能&物理特性均满足器件出厂SPEC;液冷环境长期工作,电源器件物理&电气特性无明显变化。9 9.4.4 服务器电源模块服务器电源模块 PSUPSU 可靠性分析可靠性分析 参考上面的长期统计数据,整体浸没式液冷电源模块失效率比风冷电源低许多。为了验证浸没式液冷环境是否对 PSU 性能产生影响,从浸没式液冷服务器中抽取4台PSU 进行测试分析,
42、测试PSU液冷环境下电气性能&风冷环境下电气性能差异。电源模块完整性 测试项目 测试内容 出厂结果 液冷结果 测试结论 PSU 单机 电气特性 HIPOT、EDVT、ATS测试 符合电源 SPEC 符合电源SPEC 满足 SPEC无明显差异 Ripple 纹波测试;满足 SPEC 满足 SPEC 满足 SPEC无明显差异 Dynamic 动态测试;满足 SPEC 满足 SPEC 满足 SPEC无明显差异 Inrush Current 浪涌电流测试;满足 SPEC无明显差异 满足 SPEC 满足 SPEC无明显差异 26 边缘浸没服务器技术白皮书 ODCC-2023-04007 Hold up
43、time 测试 满足 SPEC 满足 SPEC 满足 SPEC无明显差异 iTHD&PF 满足 SPEC 满足 SPEC 满足 SPEC无明显差异 电源关键器件 电解电容,FUSE 满足 SPEC 满足 SPEC 满足 SPEC无明显差异 压敏电阻、PFC高压采样电阻、副边低压采样电阻 满足 SPEC 满足 SPEC 满足 SPEC无明显差异 放电管,功率半导体器件 满足 SPEC 满足 SPEC 满足 SPEC无明显差异 磁性器件,MLCC 满足 SPEC 满足 SPEC 满足 SPEC无明显差异 结构件类(含PCB,COATING,PVC线材,TUBE,RTV 等)满足 SPEC 满足 S
44、PEC 满足 SPEC无明显差异 分析可知,液冷环境 PSU 电气性能及器件特性均能满足 SPEC 要求,液冷 PSU 电气特性与出厂时无显著差异。液冷环境长期工作,PSU 器件的物理&电气特性无显著变化。9 9.5.5 服务器结构件可靠性分析服务器结构件可靠性分析 为了评估液冷环境是否会影响机箱结构件的性能,随机抽取浸没式液冷服务器模块的机箱结构件进行外观检视、烤漆检视、螺丝扭力测试等可靠性评估,测试结果如下:结构件可靠性 部件类别 测试内容 风冷结果 液冷结果 分析结论 金属结构件 外观检视:变色、腐蚀 外观无异常,局部金属易被氧化,局部有轻微生锈,积灰 外观无变色、腐蚀 液冷和风冷均满足
45、要求 无显著差异 五金件 外观检视:变色、腐蚀 百格测试 外观检视无异常;力矩满足要求 外观检视无异常;力矩满足要求 液冷和风冷均满足要求 无显著差异 27 边缘浸没服务器技术白皮书 ODCC-2023-04007 烤漆件 外观检视:变色、腐蚀 附着力测试 色牢度检视 外观无异常 烤漆满足要求 外观无异常 烤漆满足要求 液冷和风冷均满足要求 无显著差异 标签、面膜 外观检视:变色、腐蚀 附着力测试 色牢度检视 外观无异常 色牢度ok 标签/面膜剥离力9N 外观无异常 色牢度 ok 标签/面膜剥离力:10.819.8N 液冷和风冷均满足要求 无显著差异 塑胶件 外观检视:变色、腐蚀 重量,密度满
46、足要求 外观无变色、腐蚀 密度等无异常 外观无变色、腐蚀 密度等无异常 液冷和风冷均满足要求 无显著差异 分析可知,液冷环境结构件均满足研发测试规范要求;液冷环境长期工作,结构件物理特性无明显变化。风冷 vs 液冷,液冷机箱结构件无生锈迹象,无灰尘堆积等现象,可以推断液冷环境的结构件可靠性更高。9 9.6.6 冷却液长期可靠性分析冷却液长期可靠性分析 为了测试浸没式液冷服务器中冷却液体长期使用后液体的物理特性及成分是否变化,随机抽取浸没式液冷服务器中的电子氟化液冷却液样品,对比未使用的冷却液体样本,组成对比样品进行测试分析。分别对这两份液体样品分别进行粘度、介电常数和击穿电压等物性常数分析,以
47、及残留物、颗粒度等液体成分测试,从而对数据中心冷却液使用前后的物理性质进行纵向对比,分析液体长期使用的可行性。冷却液可靠性 测试项目 测试内容 使用前 使用后 分析结论 外观检查 液体颜色外观 无色透明 无色透明 无明显变化 粘度(cPs)4.13 4.17 无明显变化 28 边缘浸没服务器技术白皮书 ODCC-2023-04007 物理参数 水含量(ppm)5.4 5.5 无明显变化 氟离子 ND ND 无明显变化 pH 值 5.55 5.6 无明显变化 介电常数 1.85 1.9 无明显变化 液体成分 击穿电压(kV)40.3 40.1 无明显变化 残留物(g/mL)ND ND 无明显变化
48、 颗粒度(pc/mL)53 ND 无明显变化 成分分析/无新增成分 无明显变化 分析可知,运行 300 小时后的冷却液的各项物性参数均满足SPEC 要求;浸没式液冷环境长期工作,液体物性参数无显著变化;液冷环境长期工作,液体中未发现异常新增成分,液体满足长期使用要求。综上所述:边缘浸没液冷服务器各项指标均能满足 SPEC 要求,电气特性和物理特细无显著变化。边缘浸没式液冷服务器创新架构,可以排除一些环境因素对服务器的影响,对比风冷服务器,边缘浸没液冷服务器个别性能指标优于风冷服务器;浸没液冷技术整体降低 IT 设备失效率。六、六、总结展望与应用具体案例总结展望与应用具体案例 (一)(一)模块化
49、设计模块化设计 模块化的设计是将服务器各个功能模块进行解耦,来满足客户差异化的需求,同时可以模块复用来降低成本、缩短开发周期等。如果不进行模块化,任何设计的变更都需要重新进行开发,成本投入巨大,而模块化可以把重复的功能拆分开来,再根据不同的需求进行重新组合,这样既加快了开发进度,同时减少了不必要的重复 29 边缘浸没服务器技术白皮书 ODCC-2023-04007 设计。采取了模块化之后,产品的布局更为灵活,也满足了边缘场景下小巧灵活高密度的应用需求。(二)(二)更优的散热设计更优的散热设计 由于边缘机房的制冷系统的稳定性无法有效保证,在系统故障时,机房温度可能会达到 45甚至更高;还有部分场
50、景中没有制冷制热系统,设备运行温度不稳定,因此边缘服务器面临更为严苛的散热考验。因此进一步发掘更高效的热管散热器、进行散热器结构优化、升级散热材质、采用液冷散热技术等将成为边缘服务器散热设计的一些方向和选择。(三)(三)融合边缘计算管理运维平台融合边缘计算管理运维平台 在边缘计算环境下,数据具有异构性且数据量较大,对于计算任务的管理具有较大的复杂性,面向不同场景的边缘计算系统所要实现的功能有差异性。因此,边缘服务器配套边缘计算管理平台将对边缘计算领域的推广和发展有着重要的意义和影响。高效、完善和覆盖面全的监控管理能力是边缘服务器可靠运行的基石和保障。同时,随着未来业务需求的增加,海量边缘计算服
51、务器布局分散,需要一种自动化的智能管理运维体系,运维体系的智能化还可以融合 AI 进行能效优化,故障预测,自动巡检分析等。因此需要提供统一的智能化的边缘运维监控管理能力、告警管理能力和日志管理能力等,为用户提供完整的边缘和云协同的一体化服务。边缘服务器 30 边缘浸没服务器技术白皮书 ODCC-2023-04007 搭载边缘计算管理平台,向上联动云端的数据,满足客户对边缘计算资源的远程管控、数据处理、分析决策、智能化的诉求。(四)(四)管理数据流可通过业务网口传输管理数据流可通过业务网口传输 由于边缘计算服务器部署场景的离散性,在边缘计算环境下,通信网络的布线资源通常是比较宝贵的,不具备搭建一
52、张独立管理网络的条件。因此,边缘服务器需要支持通过业务网口传输管理数据流的能力。这就需要边缘服务器的 BMC 管理平台支持 NC-SI Sideband 管理接口,能基于单一布线资源既实现业务数据流的传输,也实现管理数据流的传输。(五)(五)算力的提升与多元化算力的提升与多元化 在智能世界,算力成为新生产力。边缘计算代表了当前先进的生产力。一方面,通信信号处理需求的增多,对算力的提升提出了新要求。另一方面,5G 是物联网创新的起点,将带来多种物联场景,边缘计算是支撑物联技术低延时、高密度等条件的具体网络技术体现形式。边缘服务器要满足多种业务数据的计算需求,越来越多的应用场景将对计算能力的多样化
53、构成新一轮的需求和挑战。31 边缘浸没服务器技术白皮书 ODCC-2023-04007(六)(六)应用具体案例应用具体案例 1 1场景一场景一 在工业互联网的推动下,以设备为核心的智能制造物联网平台兴起。边缘服务器搭配上层数据分析系统,能够高效地收集和分析设备产生的大量数据,盘活 IoT 的数据价值。在汽车主机厂内搭建机器人联网系统,可以有效实现工厂的监控和预测维修。工厂仪器通过网络将设备数据,如状态信息、统计信息、结果信息等,实时传送至边缘计算平台。边缘服务器设备利用其靠近应用现场的优势,快速汇集一定区域内的数据,运用数据分析平台内的预训练算法对该类数据进行处理和解析。连接不同终端机器的边缘
54、服务器将处理后的数据汇总,统一在数据分析平台上进行处理。用户可以运用汇总信息实现主机厂的监控和运维;同时,边缘服务器收集的数据能够用于训练和调试数据分析平台,保证厂内算法的适配性。图 1 汽车主机厂机器人联网示例图 32 边缘浸没服务器技术白皮书 ODCC-2023-04007 2 2场景二场景二 安防行业在过去 10 年中一直保持高速发展势头,产业趋势良好,技术演进迅速。并且在未来 5 至 10 年内将持续保持高速增长的势头。高清甚至 4K 摄像头逐步普及,人工智能算法演进和硬件算力持续提升,为智能安防带来了新的发展契机。由于视频高清化,造成视频流带宽高速增长,从而进一步给数据传输网络造成较
55、大压力。采用边缘安防服务器,即可在距离摄像头实体较近的边缘侧完成视频数据编码、压缩等业务,降低视频流带宽占用,也可通过部署边缘 AI算力,降低中央机房或数据中心的压力负载,实现一举多得。同时,在负载较低的时间段,如夜间等,边缘 AI 算力也能够有效分摊训练应用对中央节点的计算压力,实现分布式训练。图 2 安防应用网络拓扑图 33 边缘浸没服务器技术白皮书 ODCC-2023-04007 3 3场景三场景三 边缘浸没式服务器专为近边应用赋能,提供超强的边缘算力,无风扇,方便部署,适应各种恶劣环境。当前水环境检测存在检测设施能力不足、建站成本高、后台集中业务处理负载重、数据管理分散等问题。智慧水利检测平台方案应运而生,通过水质监测仪采集的数据进行水质监测、水污染管控、水位监控、可疑人员监控等全业务应用,可将业务应用的数据进行统一化管理,通过感知设备到边缘设备再到中心平台进行三级系统协同分析,同时实现端侧快速响应,解决后台集中业务处理负载重的问题,并实现感知设备的监控,实现水质、天气、环境等外在入侵全方位感知,全场景数据采集。图 3 智慧水利平台拓扑示例图