上海品茶

您的当前位置:上海品茶 > 报告分类 > PDF报告下载

ODCC:云边服务器-推进边缘计算基础设施标准化(31页).pdf

编号:64749 PDF   DOCX 31页 875.67KB 下载积分:VIP专享
下载报告请您先登录!

ODCC:云边服务器-推进边缘计算基础设施标准化(31页).pdf

1、云 边 服 务 器 : 推 进 边 缘 计 算 基 础 设云 边 服 务 器 : 推 进 边 缘 计 算 基 础 设施 标 准 化施 标 准 化( ( 技 术技 术 白 皮 书白 皮 书 ) )开放数据中心标准推进委员会 2019-12 发布 - 1 - 目目 录录 1. 背景背景 . 1 2. 云边服务器系统构架设计综述云边服务器系统构架设计综述 . 3 3. 主板和系统板的标准化设计主板和系统板的标准化设计. 7 3.1. 主板标准化设计 . 7 3.2. 面板接口排布 . 9 3.3. 系统板卡 . 9 4. 灵活的电源配置灵活的电源配置 . 10 5. 多散热方案并存可选多散热方案并存

2、可选 . 11 6. 模块化结构设计模块化结构设计 . 14 7. 三防优化设计三防优化设计 . 16 8. 高速信号设计在边缘计算系统中的分析高速信号设计在边缘计算系统中的分析和建议和建议 . 18 8.1. 高速信号完整性在边缘环境全风冷散热设计中的挑战和建议 . 18 8.2. 高速信号完整性在边缘环境全风冷散热三防漆涂覆设计中的挑战和建议19 8.3. 高速信号完整性在边缘环境浸入式液冷中的挑战和建议 . 20 9. 云边服务器分布式管理设计的关键技术云边服务器分布式管理设计的关键技术 . 23 9.1. 远程管理接口可扩展设计关键技术 . 24 9.2. 高可靠性管理设计关键技术 .

3、 25 10. 编制历史编制历史 . 27 - 2 - - 3 - 前 言 基于英特尔至强可扩展处理器和 AI 高性能加速处理器, 解决户内、户外严苛边缘环境挑战的云边服务器创新系统构架,助力云IAAS、 PAAS 和 SAAS 服务延伸到边缘, 引领混合云基础设施构架变革,推进边缘计算基础设施标准化,加速“云-边-端”整体方案的商业部署,满足数据井喷时代的多样新型业务需求。 白皮书编写工作组单位:百度、英特尔、富士康、中国信息通信研究院、浪潮、中国电信等 1 1. 背景背景 随着物联网、虚拟现实和5G移动网络等的发展,网络数据和带宽也迎来了爆炸性的增长。据统计:每天个人日常生活产生数据150

4、GB,无人机作业产生18TB,智能汽车产生数据4TB,增强现实和虚拟现实(AR/VR) 沉浸式游戏每分钟产生3TB数据。5G移动通信的到来更进一步刺激了视频类富媒体流量的发展。移动视频流量每年增长45%,到2023年占总体移动数据流量的73%。全球互联网数据逐年提升,2020年将达到40ZB。 如果将海量的数据流量直接传回数据中心处理, 将对现有通信运营商的网络架构以及互联网厂商提供的计算、储存、智能分析等相关服务造成巨大挑战。同时,新兴业务应用不断涌现,其中具有代表性的包括:智慧交通、无人零售、智慧医院、智能家居、智能工厂、智能电网以及自动驾驶等。这些新兴业务对于低时迟、 大带宽、 多连接以

5、及高稳定安全的应用运行环境有严格的要求。 传统的 “云-端” 架构服务模式面临变革。边缘计算作为一种新型计算模型,在靠近用户或数据源的位置提供网络、计算、存储等服务,驱动计算和网络架构从“端-云”演进到“端-边-云”。边缘计算是指数据或任务能够在靠近数据源头的网络边缘侧进行计算和执行计算的一种新型服务模型,允许在网络边缘存储和处理数据,和云计算协作,在数据源端提供智能服务。网络边缘侧可以理解为从数据源到云计算中心之间的任意功能实体,这些实体搭载着融合网络、计算、存储、应用核心能力的边缘计算平台。边缘计算不仅能够实现流量的本地化处理、 降低对远端数 2 据中心的流量冲击,而且能够提供低时延和高稳

6、定的应用运行环境,有利于计算框架在终端和数据中心间的延展,有助于实现场景需求、算力分布和部署成本的最佳匹配。 边缘计算在从学术理论到工程开发、商业部署的发展过程中, 逐渐形成以互联网云服务企业、通信运营商以及设备商、工业互联网企业为代表的三大阵营。互联网企业以消费物联网为主要阵地,将公有云服务能力延伸到网络边缘侧,用于满足低延迟、大带宽、多连接的新型业务需求;通信运营商以及设备商以边缘计算为突破口, 发力于网络架构和连接设备设计变革, 构建灵活开放的网络能力,为万物互联、 数据互联提供技术支撑;工业互联网企业发掘自身工业网络连接及其平台服务领域的优势,在网络边缘侧加强算力、储存、安全管理体系建

7、设实现IT技术与OT技术的深度融合。 目前, 三大阵营步入了边缘计算商业开发的早期阶段,取得了一些具体业务运用初期试点成果。但是,推动边缘计算的大规模商业部署、 打造健康稳定的边缘计算产业生态仍然面临不少问题和挑战。 云边服务器,作为“端-边-云”新型计算架构的重要基础设施之一,具备数据中心服务器性能以及丰富的有线和无线通信能力、基于云原生软件构架,可稳定工作于严苛的边缘环境,承载靠近数据源端的本地高性能智能服务,实现云边无缝协同。云边服务器将推动混合云基础设施变革, 其构架设计成为边缘计算基础设施规模化商用部署的关键挑战之一。 云边服务器商用构架设计目前处于早期阶段, 边缘计算大规模商用开发

8、部署需要业界跨领域协作。 三大阵营厂商和云企业根据各自领域的运用需求探索定义、开发云边服务器系统,推动边缘基础设施加速向前发展。 由于边缘计算业务呈现 3 多样化的特性, 使用一套商用边缘计算系统架构满足不同业务的需求成为难点和挑战。 云边服务器的发布对于业界边缘计算基础设施架构设计的规范化以及解决上述难点和挑战提供全面参考和触发创新思考, 并且致力于携手开放数据中心标准推进委员会(ODCC)相关单位加速推动边缘计算生态健康发展。 本白皮书内容来源于百度、英特尔、富士康等ODCC会员单位联合开发、商用试点的云边服务器(Cloud Edge Server)。区分于其他边缘设备,云边服务器构架设计

9、适用于在苛刻边缘环境中需求高性能服务器的业务应用,比如: 户外车路协同、 户内新零售物流调度等应用。 云边服务器采用创新的三防设计 (防水、防尘、防雷击)和散热技术、重构了数据中心服务器架构,能够安全地工作在温度易于波动的高低温环境。 同时通过基于模块化设计实现的灵活搭配组合,实现一套系统构架满足多种边缘计算业务需求。 白皮书对云边服务器架构设计进行详细介绍、突出设计难点和创新点,内容组织如下:系统构架设计综述、主板和系统板的标准化设计、灵活的电源配置、多散热方案并存可选、模块化结构设计、三防优化设计、高速信号设计在边缘计算系统中的分析与建议、 云边服务器分布式管理设计的关键技术。 2. 云边

10、服务器系统构架设计综述云边服务器系统构架设计综述 云边服务器主要应用于边缘计算节点,它既是云服务向边缘侧的延伸,同时也给前端应用作数据计算及存储支撑,实现数据应用的本地化,是连接云服务和前端数据应用的关键节点。目前,云边服务器典型的业务场景包括:智慧家庭、智慧城市、车路协同、新零售、电信移动边缘计算(MEC,Multi-access Edge 4 Computing)等。如表 2-1 所示为对应各业务的架构需求总结。云边服务器的主体架构从实际应用和业务出发,定义具体系统软硬件架构,体现了业务定义架构的设计思路。 表格 2-1 云边服务器业务需求 业务场景 业务需求 部署场地 智慧城市 低延迟;

11、空间有限 户外 智慧医院 可操作性和易维护;常规尺寸 室内 智慧家庭 中等性能;小尺寸 室内 智慧电网 中等性能;小尺寸;无线、有线网络访问 室内 智能工厂 中等性能;大储存 室内 车路协同 高性能;人工智能推理能力;低延迟;丰富的无线、有线网络接口 户外 电信 MEC 高性能;IDC/电信设备机柜;网络转发能力,网络云化 室内 新零售 中等性能;无线网络 室内 根据各业务场景需求, 云边服务器的系统架构和功能主要分为室内和户外两大类别。室内和户外不同的环境条件(如温度、湿度、腐蚀度等)使得室内和户外设计有着不同的设计考量。因此,云边服务器架构需要采用标准模块化设计以便于不同定制化设计之间模块

12、的复用, 从而使得云边服务器系统架构能够满足室内、户外不同应用场景的需求。 5 室内系统架构设计: 需要适应标准机架式服务器架构,可以被部署在标准机架中,满足电信 MEC、新零售、工业互联网等针对不同业务、应用场景的设计规范与设计需求。 户外系统架构设计:主要针对车路协同、智慧城市等户外系统业务需求。需要提供较强的算力、针对人工智能(AI,Artificial Intelligence)等算法的硬件加速,以满足人工智能等高性能运算需求。同时,需要提供丰富的外设接口以满足各类外接设备的接入。另外,由于户外环境的多样性,户外系统需要智能的机构和散热解决方案应对严苛的环境。 表格 2-2 云边服务器

13、配置设计典型需求 设备 室内 户外 CPU 单路至强服务器处理器 内存 支持 6 通道 DDR4 内存 PCIe 扩展 支持 5 个标准 PCIe 插槽 网络 支持千兆及以上网络 支持千兆及以上网络 支持 802.11ac 无线网络 支持 4/5G 和 GPS 网络 支持其他短距离传输无线网络 支持 POE 网络 存储 支持 6 盘位及以上存储设备 支持 2 盘位及以上存储设备 支持 2 个高速存储设备 支持 2 个高速存储设备 6 成熟的云边服务器系统架构要求在同一套系统架构的框架下,通过灵活的配置满足室内或户外环境下不同业务类型的需求。如图 2-1 和 2-2 所示,云边服务器系统采用标准

14、模块化设计、灵活的机构组合、优化的电源及散热解决方案和多样的板卡配置,可以通过不同组合、配置适配室内和户外不同应用。云边服务器系统架构最大程度上实现模块的重复利用,降低开发周期和经费投入,从而减少系统整体部署成本。 图 2-1 云边服务器室内典型系统 7 图 2-2 云边服务器户外典型系统 3. 主板和系统板的标准化设计主板和系统板的标准化设计 3.1. 主板标准化设计主板标准化设计 如表 2-1 所列业务需求, 作为边缘计算节点, 云边服务器需要支撑大量的本地计算和存储需求, 因此云边服务器采取了单路英特尔至强可扩展处理器平台解决方案。创新性的在 uATX 标准主板规格(9.6” x 9.6

15、”)上实现了平台部署以及 6 通道 DDR4 内存设计,可以全面兼顾标准化、高性能和高密度设计需求,能有效释放英特尔至强可扩展处理器的计算能力。 8 另外,云边服务器主板也创新设计兼容英特尔至强 W-3200 系列平台。采用 W-3200 系列处理器可以在至强可扩展处理器基础上扩展更多 PCIe 通道, 便于实现更多网络以及存储设备的资源接入。 云边服务器为扩展更多的网络端口和存储设备,设计并提供了多种标准高速设备接入接口, 包括高达 5 个标准 PCIe 插槽 (须搭配系统板卡) 、 3 个 Slimline连接器、2 个 M.2 SATA 和 6 个 SATA 接口等。此外,云边服务器也提

16、供了丰富的人机交互接口和管理功能, 包括 VGA 接口、 USB 接口、 RS485 接口、 RS232接口等。 管理单元采用了主流 ASPEED BMC (Board Management Controller,基板管理控制器)芯片。 图 3-1 主板布局 9 3.2. 面板接口排布面板接口排布 云边服务器面板接口排布如图 3-2 所示。符合典型的电信、云服务、以及工业互联网厂商对于接口排布要求。 图 3-2 接口布局 3.3. 系统板卡系统板卡 在云边服务器设计中,系统板卡可以扩展主板设计各接口的用途。使系统设计能够更加灵活的进行配置。 在云边服务器中, 系统板卡涉及 PCIe 扩展卡、

17、PCIe转接卡、高速背板、电源转接板卡等多种类型,极大地丰富了系统的可扩展性和配置的灵活性。 云边服务器通过系统板卡的灵活配置和使用,可以在系统中实现多种高速接口配置,适应不同业务需求和应用场景。通过系统板卡,云边服务器整体系统可以实现高达 5 个标准 PCIe 插槽,2 个 M.2 SATA 硬盘接口、6 个 2.5” SATA接口和 2 个高速 U.2 NVMe 硬盘接口以及 10 到 12 盘的云边服务器储存运用。 10 4. 灵活的电源配置灵活的电源配置 相对传统云服务器室内环境,云边服务器应用场景多变,特别需要适配不同的户外和室内环境。对于室内场景,环境温度等可控,云边服务器在满足温

18、度空间散热等可靠性要求的情况下,需要尽可能的提升性能;对于户外场景(如车路协同、智慧城市等),温度等环境相对恶劣、对系统的散热要求苛刻,还有防水防尘的等特殊要求,而 CPU 性能功耗相对可以降低,从而降低对电源容量的要求。 云边服务器需要灵活实现不同的电源配置来满足不同的应用场景。对于室内应用, 支持 1+1 冗余大容量电源设计, 支持高功耗高性能 CPU; 对于户外应用,云边服务器需要实现对 ATX 标准三防电源的兼容使用,从而优化电源成本和可靠性。无论户外或室内电源型号都满足 80Plus 铂金级效率指标。通过灵活的电源配置,使同一套云边系统,能够实现对室内和户外等多种不同环境的支持,提高

19、云边系统的使用率,降低应用成本。 图 4-1 室内外电源模块 11 5. 多散热方案并存可选多散热方案并存可选 云边服务器绝大部分需要部署在户外,这就需要严格的防水防尘防腐设计。同时,典型的苛刻运行环境温度要求从零下 25C 到零上 55C。除了机构设计之外, 散热设计也面临极大的挑战。本白皮书提出了四种不同的系统参考设计以应对严苛的环境设计要求。 全风冷散热(Air-cooling):全风冷设计比较直观,系统进风温度就是户外的空气温度,即零下 25C 至零上 55C 之间。 - 防尘:在外箱的左右两侧采用过滤网结构以达到防尘的效果。在散热设计过程中,过滤网的阻抗值取标准扬尘测试之后的阻抗值以

20、考虑最坏的情况。 - 防腐:防腐一般可以通过三防漆实现,同时在过滤网设计中可以加装过滤有害物质的成分。 - 防水/防湿:一般来说,水的来源有两个方面:雨水和凝露。防雨可以通过本白皮书第 6 章的结构设计完全实现。接下来,需要着重解决的是防止凝露在机箱内部积聚。从物理角度解释,凝露的产生有两个必要条件:一是高湿度环境;二是温差,即外箱内壁(接近于户外环境温度)和内箱系统出风之间的温差。由于改变空气湿度需要额外的干燥系统,本白皮书建议的方案主要考虑通过消除两个方向的温差,从而达到消除凝露的目的。一是冷热通道分离,即内箱进风和出风口隔 12 离;二是在必要的时候采取点阵加热方式加热部分外箱内壁达到消

21、除温差的目标。 浸没式液冷(Immersion Cooling):浸没式液冷属于接触式冷却的一种方式。一般来说,浸没式液冷有两大关键要素:冷却液和元件兼容性。从第一次被提出到现今的近 20 年间,浸没式液冷在电子散热行业一直没有得到广泛的接受应用,主要有几大原因:一是缺乏杀手级应用场景。目前风冷和冷却分配器(Cooling Distribution Unit,CDU)加冷板方案可以解决绝大部分的电子散热问题,并不需要浸没式液冷。严格的说,目前没有任何应用场景是必须要浸没式液冷才能解决的;二是冷却液成本。因为目前的主要媒介是氟化液,而氟化液主要应用于半导体行业,所以成本一直居高不下;三是元件兼容

22、性。元件的兼容性测试与认证需要花费巨大的人力物力。由于浸没式液冷的行业接受度不高,从芯片、内存、乃至电容电感等的元件供应商并没有很大的动力去推动和完成测试认证。同时,成本和元件兼容性这两大难题也可以归结于产业链的极度不完整。 需要支持 IP65/67 规范的云边服务器户外运用,是浸没式液冷运用实践的最佳场景之一。 云边服务器浸没式液冷设计方案目前处于工程测试阶段,具体的设计细节和测试数据,由百度、富士康和相关系统厂商牵头,以单独的白皮书进行发布。 主动制冷散热(Refrigeration Cooling):主动制冷散热设计属于风冷设计范畴(详见图 5-1),但不同于以上所提及的风冷,因为此方案

23、可以达到完全密闭以满足 IP65/67 的设计要求。在外箱增加压缩机主动制 13 冷模块,通过冷热通道隔离实现系统进风温度远低于户外环境温度,使得云边服务器可以在极限高温环境中运行。同时,在低温环境系统无法启动时,可以对系统入口空气进行加温。直观的讲,搭载主动制冷散热的云边服务器就是一个只有一台系统的迷你数据中心。 图 5-1 主动制冷散热设计 后窗冷板方案(Rear IO Heat Exchanger):此方案也比较直观,主要技术点就是在内箱系统后窗加装冷板, 冷板通过外部迷你 CDU 进行换热 (详见图 5-2)。该方案与传统的系统内部各主要元件加装冷板方案相比较,最大的优点是易于维护。因

24、为系统内部还是风冷,所以维护时不需要拆装内部冷板,大大提高了效率,同时大大简化了冷板结构设计。该方案也可以实现系统完全封闭。 14 图 5-2 后窗冷板方案模块化结构设计 6. 模块化结构设计模块化结构设计 云边服务器有着丰富的应用场景,比如:室内边缘机房、室内新零售、户外车路协同等。为了最大程度的满足和覆盖各种应用场景下的不同需求, 本白皮书建议通过采用模块化设计以最大程度降低开发以及部署成本。 户外与室内应用场景下有诸多不同需求:(1)室内与户外的环境差异,比如户外场景下,需要考虑防水、防尘、防辐射、安全等,而在室内边缘机房场景则不需要考虑防水、防尘等额外需求;(2)尺寸方面需求,边缘云室

25、内机房需要考虑到机架的规范尺寸,而户外场景下,尺寸限制则比较不敏感;(3)具体服务器配置的微小差异。鉴于以上各因素,本白皮书建议在室内场景下(包括室内新零售场景)采用标准 2U 机架服务器尺寸规范(EIA-310-D)。然而,在户外场景下,沿用室内机架服务器,但是需要额外增加外壳来实现防水、防尘、防辐射以及安全等需求。同时,容纳户外场景下所需的模块,比如 WIFI、4G、电源等。 15 对于户外和室内场景下内部配置的需求差异, 云边服务器架构在设计上应当都能做到兼容,从而企业可按照具体配置需求在终端进行实际部署。 图 6-1 户内标准 2U 机架云边服务器 图 6-2 云边服务器户外配置 16

26、 7. 三防优化设计三防优化设计 云边服务器在户外应用场景中需要应对严酷的环境, 比如雨水、 凝露、 灰尘、太阳辐射和腐蚀。服务器在开发设计中要注意防水、防尘、防辐射和防腐蚀,同时也要兼顾产品性能与可靠性。在技术要求上,中短期目标是实现 IP55 标准,长期目标是实现 IP65/67 标准。 目前的技术: 防水、 防辐射和防腐蚀的技术实现难度不大, 一般可以满足要求。 比如:防水一般采用鱼鳞板、迷宫设计等;防辐射和防腐蚀采用防辐射油漆等。这里不做过多描述。 防尘方面, 初期可以采用一般的防尘网技术, 可以满足绝大部分灰尘浓度较低 (空气质量较好) 的地区。 但是, 在某些灰尘浓度较高的地区,可

27、能会因此增加服务器维护防尘网的频率,进而增加成本。 中期可以考虑如下创新概念改善这个问题: 反向气流(如图 7-1 所示):改善现有设备,设备内部防尘网内侧可以布置一些风扇。目的是定期规律性地关闭系统主风扇,开启这些防尘网内侧的风扇,产生反向气流,清理掉累积的灰尘。通过这样的设计在防尘方面,实现某种意义上的免维护。 17 图 7-1 云边服务器防尘设计-反向气流 旋流预滤器(如图 7-2 所示):改善现有设备,在设备进气口外面增加一种旋流预滤器(市场上选购)。其目的是排除空气中的灰尘, 尤其是颗粒较大容易堵塞防尘网的灰尘。其设备的工作原理为利用离心力将大颗粒灰尘排出,而只保留洁净空气。此方法可

28、有效降低在防尘网的维护频率。具体实现上,应采用空气浓度传感器控制旋流预滤器的开启与关闭,用以节省电力。 图 7-2 云边服务器防尘设计-旋流预滤器 长期 IP65/67 要求下的技术发展: 18 IP65/67 要求较高,但是好处是设备要做到完全密闭,从而没有水、灰尘等顾虑。设备可靠性和寿命也会因此大大提高,如下为实现的一些方法: 浸没式液冷(Immersion Cooling), 详见 5 散热章节 主动制冷散热设计(Refrigeration Cooling),详见 5 散热章节 8. 高高速信号设计在边缘计算系统中的分析速信号设计在边缘计算系统中的分析和建议和建议 众所周知,随着 PCI

29、e、 DDR 等高速信号速率以及服务器主板设计密度的不断增加,高速信号完整性设计直接影响到高性能服务器性能。不同于部署在温度、 湿度、 空气质量可控环境中的传统服务器, 云边服务器的部署环境较为复杂。以本案为例:云边服务器需要正常工作于零下 25C 到零上 55C,湿度范围为5%到 95%的苛刻环境。部署环境中复杂变化的温、湿度给云边服务器主板设计中的高速信号完整性带来新的挑战。 8.1. 高速信号完整性在边缘环境全风冷散热设计中的挑战和高速信号完整性在边缘环境全风冷散热设计中的挑战和建议建议 温度和湿度对插入损耗的影响 服务器主板 PCB(Printed Circuit Board 印刷线路

30、板)的插入损耗量测是建议在相对低温干燥的环境中进行的。如:IPCTM-650 Method 2.5.5.12A 19 (23C 2C 73.4F 3.6F and 40%RH5%)。服务器系统实际运行在高温高湿度等环境下将导致插入损耗的增加。最坏的情况如下: - 中级损耗 PCB 板材将增加 16%的额外插入损耗 - 低损耗 PCB 板材将增加 11%的额外插入损耗 - 超低损耗 PCB 板材将增加 8%的额外插入损耗 建议设计者在参考处理器服务器平台设计规范中, 结合云边服务器部署环境温湿度变化范围,重点分析高速信号从芯片端到芯片端(end-to-end)全通道的插入损耗是否仍在处理器平台设

31、计规范范围。 温度和湿度对阻抗的影响 用来量测 PCB 信号走线阻抗的样品分为低温干燥和高温高湿两种,分析和实验数据均显示温度和湿度对阻抗几乎没有明显影响。 温度和湿度对串扰的影响 在分析没有发现温度和湿度对串扰有明显影响。实验验证数据,将在后续信号完整性专题的设计文档中更新。 8.2. 高速信号完整性高速信号完整性在边缘环境全风冷散热在边缘环境全风冷散热三防漆涂覆三防漆涂覆设计设计中的挑战和建议中的挑战和建议 在边缘环境全风冷散热设计中,服务器的 PCB 主板表层常常会用三防漆做涂覆处理以避免或者减缓空气对主板的化学腐蚀。 三防漆涂覆设计中的信号完整性挑战包括: 20 对三防漆的要求: -

32、对三防漆材质介电常数(Dk Dielectric Constant)、耗散因子(Df Dissipation Factor)的要求:三防漆Dk、Df对 PCB 表层阻抗、插入损耗、串扰影响的仿真分析和测试验证正在进行中,将在后续信号完整性专题的设计文档中更新。 - 对三防漆涂覆厚度的要求: 三防漆涂覆厚度对 PCB 表层阻抗、 插入损耗、串扰影响的仿真分析和测试验证正在进行中,将在后续信号完整性专题的设计文档中更新。 对三防漆涂覆的服务器主板设计的建议: - 最大程度避免 PCB 表层走线。 - 在无法避免表层走线的情况下,通过仿真,分析三防漆对表层走线的阻抗和插入损耗的影响。建议和 PCB

33、板厂沟通对阻抗和插入损耗的制成要求,以满足平台设计指导要求。 - 对于涂覆三防漆的PCB表层走线, 应对其高速信号执行完整的板级、系统级信号完整性验证。 8.3. 高速信号完整性在边缘环境浸入式液冷中的挑战和建议高速信号完整性在边缘环境浸入式液冷中的挑战和建议 为避免在传统全风冷散热设计中常见的空气腐蚀, 同时实现云边服务器运行在可控温度、湿度环境中,浸入式液冷技术正在被考虑应用在的高端云边服务器 21 部署环境中。其中,冷却液体与 PCB、电子元器件的兼容性表现给高速信号完整性带来新的挑战。浸入式液冷环境下的信号完整性挑战包括: 对浸入冷却液体的要求: 冷却液体的介电常数Dk须小于2.3以满

34、足高速信号对处理器插座 (Socket) 和连接器的阻抗要求。 过高的Dk值会导致处理器插座和连接器的特征阻抗偏低,信号大部分能量会被反射回去,从而降低高速信号的信号完整性。 冷却液体对 PCB 微带线和带状线的影响 - 对微带线插入损耗的影响: 损耗有小幅增加, 但总体对损耗影响不大。建议尽量减少高速信号的微带线设计。参考处理器平台设计规范,如高速信号全通道插入损耗接近规范的边缘值, 建议做全通道的仿真分析。图 8-1 为电路板的微带线损耗量测。 - 对微带线阻抗的影响: 对阻抗有 3-5%的影响。 考虑到原有 PCB 微带线的 10%的制造误差,可以建议对于将部署在浸入式液冷环境下的专用

35、PCB 上高风险的高速信号提高阻抗制造误差要求,比如,从原有的 10%提高到 5%。 - 对微带线串扰的影响:远端串扰略微减少。近端串扰不变。串扰影响不影响信号完整性设计。 - 对带状线的影响: 损耗, 阻抗, 串扰都没有明显变化。 性能基本不变。 22 图 8-1 PCB 浸入冷却液体中信号线的损耗量测 冷却液体对处理器插座、连接器和 电缆(Cable)的影响: 典型的处理器插座、连接器和电缆是基于空气作为周围介质而设计的。 当处理器插座、连接器和电缆浸入到冷却液体里时, 其设计的目标阻抗很可能会发生变化。 当周围介质空气被某种液体取代时,建议建立新的模型用以信号完整性性能分析, 例如高频结

36、构仿真软件 (High Frequency Structure Simulator, HFSS)等三维电磁仿真软件进行仔细计算分析。 - 处理器插座:研究表明,冷却液体对于处理器插座阻抗能够做到电感性和电容性阻抗不匹配平衡, 对处理器插座性能产生影响在可接受范围内。然而,对未来处理器插座的信号完整性在冷却液体中的影响仍需要仔细的仿真计算。 - 连接器:由于周边的冷却液体,连机器的阻抗会变得更加电容性,从而增加电容性阻抗不匹配,同时电感性不匹配变小。现在大多高速连接器(8GHz) 的主要阻抗不匹配是电容性的,所以液冷会将这些 23 高速连接器的电容性不匹配放大,增加信号能量反射,信号完整性性能变

37、差。 对于多连接器设计的高速信号通道, 建议做全通道仿真分析。 - 电缆: 高速信号速率的增长使得高速电缆越来越多的应用于服务器以太网(Ethernet)、PCIe 等高速互联。高速电缆的性能指标要求严格,微小的改变也可能会引起巨大的性能变化,存在潜在的风险,比如:液体包裹着电缆包皮改变其性能。因此建议电缆需要做长期电性能和可靠性验证。 关于关注液体老化对高速信号完整性的建议 液体老化的潜在风险是液体材料性质发生变化将会影响到信号完整性性能,比如冷却液体化学物质性质变化、外界环境污染、内部器件材料冲刷污染等。可以采取的必要防护措施包括: 部署浸入式液冷之前, 适当的器件清洁以及渗滤系统的使用。

38、被来自内部和外部污染的液体会引起电气性能问题,从而导致信号完整性性能改变。建议维护人员定期检测液体电气特性参数, 以确保这些参数在规定的使用范围内。 9. 云边云边服务器分布式管理设计服务器分布式管理设计的的关键技术关键技术 云边服务器分布式管理构架面临着两大关键挑战:远程管理接口可扩展设计;高服务质量、高可用性以及高安全性设计。 24 9.1. 远程管理接口可扩展设计关键技术远程管理接口可扩展设计关键技术 Redfish 协议基于 Restful 的工业管理标准,已经有大量的实现和使用场景。其具有良好的扩展性和易于集成性,能够很好地作为统一接口管理标准。在大量设备的管理中可以很好地组合和简化

39、管控的协议,并通过少量接口连接下发到下一层的管理控制器中。 接口的统一性: 把业务往云边分散的同时, 原本服务器和数据中心内的管理模式也同样地被扩展到远程管理中。在设计远程管理接口中,要考虑如何充分运用和灵活管理数据中心、云边端的资源,来达到云边融合、云边一体。把数据中心的管理接口和云边服务器的管理接口统一, 一方面大大减少了重新设计的开发成本和时间成本。同时,从云边融合的角度来讲,统一的管理接口极大地减少了管理的复杂程度。 可扩展性:今天的云基础设施已经做到非常细粒度的优化。 为了削减整体运维成本,有不同种类、定制化的机型和设备组件来支撑着日益增长的业务。与此同时,也带来了多样化资源管理的挑

40、战。同样,在云边方向上同样需要对于不同种类资源的管理进行支持。从架构方案上, 不仅仅要考虑当前已有设备的支持,而且也需要在扩展接口、 易于增加新的接口上做设计。 易于集成性:“云-边-端”时代中,接口可读性提升设计成为关键。不管是云和边的业务接口、还是端设备管理,在不同的细分领域中使用相同的 25 协议标准将简化系统管理集成的复杂程度。 系统管理集成使用比较多的是XML 和 JSON 格式,Restful 接口已经成为主流。 管理中的并发问题:在大量业务的驱使下,海量级的机器管理成为常态,需要整个体系能够同时支持百台千台甚至更多设备的管理。 传统的点对点协议很难支持大规模的管理, 基于 Red

41、fish 的管理构架设计可以有效提升网络流量、遥测和管控中的成功率和容错率。 9.2. 高可靠性高可靠性管理管理设计设计关键技术关键技术 云边服务器包含多种带有固件的设备,具体涉及 BIOS、BMC、微码、网络设备、存储以及电源等。灵活有效地解决系统更新、固件漏洞修复和新功能激活等问题,是边缘设备系统安全保障的关键。 固件的容错:在系统正常运行中出现的异常和死机的原因,除了硬件的故障之外,固件出错也占了较大的比例。在固件的容错设计中,比较常见的是固件冗余机制:当其中一个固件出现了异常时,及时切换至备用固件,保障系统正常工作和始终在线。 固件的升级:对于固件的更新和补丁,绝大多数情况需要系统重启

42、,进行固件激活。一般需要先停止业务服务,然后进行关机,并使用新的固件重新启动机器; 然后, 再启动操作系统 (Operation System, OS) ; 最后,重新恢复业务。 这中间一般要花费几分钟时间。对于服务的质量来说会产生比较明显的影响。图 9-1 描绘了固件升级后重启对业务服务质量的影响。 26 图 9-1 固件升级中的在线升级 在云边场景下本白皮书建议要考虑固件升级的两个方面,包括在线升级以及在线激活 在线升级: 离线升级对于业务影响也是非常大的。 虽然云边一体的业务有着一定量的服务冗余能力,但还是可能会带来一定程度上的服务质量的降低。通过在线升级可以减少固件升级过程对于业务的影

43、响,大大改善对服务质量的影响。此外,在传统的数据中心中,运维可以直接接触到机器,因此还有大量的情况可以通过运维人员在现场做人工的离线升级。但是在云边场景下, 各个节点部署的非常分散。 因此, 本白皮书建议通过应用远程在线升级的方案来进行固件升级,从而来降低运维成本和提升补丁修复的时效性。 在线激活: 除了在线升级之外, 还需要考虑到在升级之后的激活问题。 因为即使是在在线更新后, 绝大多数情况还是需要重启来进行固件的激活的。 图9-2 描述固件升级后的在线激活流程。在云边服务器固件在线激活的过程 27 中:首先,固件模块被触发激活, OS 以及当前运行的业务暂停;然后,再次触发固件的激活动作, 协同关联的硬件暂停当前所有的操作, 保护当前的系统数据和上下文不被改变; 在固件激活后, 系统进行重载和恢复动作; 在系统恢复工作后, 进行服务和业务的恢复。 整个过程不需要重启机器, 并且对于业务的影响是在激活的阶段,因此对于整个过程的影响从数分钟以上缩小到 1 分钟级甚至秒级,大大地减少了对于服务的影响时间。 图 9-2 固件升级后的在线激活流程 10. 编制历史编制历史 版本号 更新时间 主要内容或重大修改 V1.0 2019年12月 初稿发布

友情提示

1、下载报告失败解决办法
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。

本文(ODCC:云边服务器-推进边缘计算基础设施标准化(31页).pdf)为本站 (爱喝奶茶的猫) 主动上传,三个皮匠报告文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三个皮匠报告文库(点击联系客服),我们立即给予删除!

温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。
会员购买
客服

专属顾问

商务合作

机构入驻、侵权投诉、商务合作

服务号

三个皮匠报告官方公众号

回到顶部