《中国计算机学会:2022高性能计算系统性能评价白皮书(33页).pdf》由会员分享,可在线阅读,更多相关《中国计算机学会:2022高性能计算系统性能评价白皮书(33页).pdf(33页珍藏版)》请在三个皮匠报告上搜索。
1、编写委员会顾问陈国良 郑纬民 袁国兴 主编林新华 王月 张云泉 陈文光 翟季冬 唐卓 副主编韦建文 张兴军 潘景山 曾令仿 李少波 王毅 顾雪军 编委(按姓氏为序排列,不分先后)段芳成 樊春 范靖 冯锐 高亦沁 龚斌 郭洪星 郭武 韩振兴 何益 胡广超 贾东宁 姜万强 李斌杰 李会民 鲁蔚征 孟凡辉 孟鑫 唐国辉 万林 王丙强 王继彬 王旭东 袁良 张凯丽 张洋 张震 赵顺存 钟毅 邹有编委单位中国信息通信研究院 国家超级计算济南中心 国家超级计算长沙中心 鹏城实验室 之江实验室 省部共建公共大数据国家重点实验室(贵州大学)上海交通大学 清华大学 北京大学 中国科学技术大学 中科院科学计算所
2、西安交通大学 山东大学 湖南大学 南方科技大学 兰州大学 中国人民大学 中南大学 中北大学 深圳大学白皮书以高性能计算系统综合评价指标作为评估系统性能的新方法,牵引建设存算平衡、以数据为中心的系统,以达到三个主要目标:以实际需求牵引系统设计,以行业经验为指导系统选型,以提高系统实际使用能效为首要目标。白皮书将以综合评价指标为载体,介绍高性能计算系统设计方法,提升高性能计算系统设计选型的平衡性。白皮书从算力(包括科学计算与AI计算性能)、存力(存储性能)、运力(网络性能)和效率(系统能效与平衡性)六个维度选取指标,给出了综合性能的评测方法,和高性能计算系统的典型应用场景、典型系统配置,最后提出了
3、建立评测社区推广评测体系的愿景,展望了标准演进的规划。白皮书内容将随着技术演化与社区成员反馈而逐步迭代,这是系统性能评价指标发布的首个版本。主要理念白皮书内容目 录目 录CONTENTSCONTENTS1.1.存储系统的重要性愈发凸显0302050711041.2.系统综合性能更突出2.1.性能评价方法的演进趋势053.1.性能评价基准测试程序07103.2.性能评价的标准规范4.1.六个维度度量高性能计算系统12124.1.1.科学计算性能维度124.1.2.AI计算性能维度124.1.3.存储性能维度134.1.4.网络性能维度134.1.5.系统能效维度134.1.6.系统平衡性维度16
4、4.2.综合评价计算方法164.3.指标权重与平衡性范围的设计初稿2.2.以性能评价牵引05建设存算比合理的计算系统2.3.以性能评价牵引06使用多协议互通的存储系统1高性能计算的发展趋势3高性能计算性能评价现状4高性能计算性能指标和评价规范2集群综合性能评价方法的演进19275.1.典型算力下的集群设计示例195.1.1 超大型集群设计示例205.1.2 大型集群设计示例215.1.3 中型集群设计示例225.2.典型场景下的集群特性分析 235.2.1.“IO密集型”超算系统:以面向基因测序的集群为例235.2.2.“IO密集+计算密集型”超算系统:以面向气象预报的集群为例245.2.3.
5、“AI密集型”超算系统:以面向自动驾驶的集群为例255性能评价方法的应用6高性能计算系统性能评价规范的展望01党的十九届四中全会首次将数据作为生产要素参与分配,数据的作用受到国家高度重视,2022年1月,国务院“十四五”数字经济发展规划中要求“以数据为关键要素,加强数字基础设施建设”,数据资源汇聚、共享、流通、应用的需求快速增加,对存储、计算、网络、安全等的要求也越来越高,以数据为中心的新型数字基础设施将有力支撑经济社会数字化发展。2021年5月,国家发展改革委会同中央网信办、工业和信息化部、国家能源局联合发布全国一体化大数据中心协同创新体系算力枢纽实施方案,提出构建数据中心、云计算、大数据一
6、体化的新型算力网络体系,布局建设全国一体化算力网络国家枢纽节点,以满足数据资源存储、计算和应用需求的大幅提升。在需求和政策双重牵引下,全国各地区大力推进数字基础设施建设的发展,包括计算、存储和网络在内的基础设施和技术均被高度重视,2022年7月,工业和信息化部主办的中国算力大会上发布了中国综合算力指数,从算力、存力、运力、环境四个维度综合评价新型基础设施和新型数据中心的发展水平。高性能计算的发展趋势102高性能计算是重要的数字基础设施、国之重器,是高算力、高存力、高运力的代表。2020年以来,十四五信息化规划和新基建驱动我国高性能计算建设进入高速增长期,多地地方政府和企事业单位都在积极建设高性
7、能计算中心和部署新一代高性能计算系统,将其作为推动经济社会快速发展的关键措施。随着数据价值的不断提升以及大数据、人工智能等新兴数字产业的兴起,高性能计算正在由“大计算”的HPC加速迈向“大计算”+“大数据”的HPDA(高性能数据分析),并呈现5大趋势特点。多元应用驱动多元算力。CPU处理器和GPU、FPGA、xPU等专用处理器相结合构建高性能计算的异构算力体系结构。AI计算发展迅猛。AI计算成为高性能计算算力发展最为迅猛的类型之一,且逐步呈现计算芯片DSA化、计算网络多平面化等特征。成为与传统高性能计算越来越有区分的领域,这种变化与特征在大模型时代表现的更为明显。异构多态复合归一,资源集约推动
8、架构融合化。一方面,根据应用的需求,构建不同性能和功能的计算和存储环境,通过灵活组织异构计算体系结构,实现计算、存储资源比例的灵活调整和性能功耗的平衡。另一方面,围绕应用负载特征开展体系结构软硬件协同设计,提升资源的使用效率与性能。高速互联,更宽更快推动全光化。当前高性能计算互联网络主要有Infiniband、Slingshot和RoCE等,随着技术积累和产业需求升温,光子集成技术已从功能器件研究向规模化集成芯片演进,光交换技术趋于成熟,全光交换成为发展趋势。按需弹性极简运维,加速应用容器化。容器可以为高性能计算工作负载提供动力,并为大规模计算工作负载启用若干功能框架,能够提前封装高性能计算运
9、行环境,易获取、易操作、易利用,在科研人员中普及化使用高性能计算。以数据为中心,数据密集型超算快速发展。进入大数据时代后,数据的规模不断增长。随着HPDA的发展,高性能计算系统的业务负载需考虑HPC、大数据和AI的混合叠加,对于数据的存储和处理能力提出了更高要求。高性能计算系统需要从数据密集型角度进行设计,支持应用驱动的科学计算工作流,推动负载从计算科学发现向数据科学发现转变。总结以上趋势,不难看出,当前计算性能已不再是评价高性能计算集群的唯一标准,集群的综合性能日益受到重视,尤其是与数据息息相关的存储系统。1.1.存储系统的重要性愈发凸显传统的高性能计算行业以算力作为核心生产力,如今,业界普
10、遍意识到,当数据存力不足或者效率低下时,数据就无法高效流动、按需使用,也就无法充分挖掘其价值,小则影响算力作用的充分发挥,大则关乎整个高性能计算产业的发展。存储性能是继计算性能之后,各行各业数字化能力建设的一种进阶,在数字经济发展中至关重要。存储与计算性能高度融合,方能真正形成新的核心生产力,能够在各种业务场景中让效率指数级增加,让生产力获得前所未有的解放。平衡存算比是当前超算集群融合存储与计算性能的主要方法之一。目前,芯片不断朝着高性能、低成本、高集成的方向发展,但随着单芯片集成的晶体管数量增多,高耗能等问题随之出现,导致芯片性能难以持续提升,无法大规模提升算力。多芯片堆叠封装为芯片突破性能
11、瓶颈提供了可能,平衡存算比可有效缩短数据搬运路径,降低搬运功耗,实现芯片级算力与IO的平衡。从设备内视角来看,CPU、总线速度、主内存带宽及容量的发展速度不一,尤其是在处理海量数据过程中,内存与存储的空间和带宽成为制约性能增长的主要瓶颈,如果存储设备能平衡CPU和IO性能,将在很大程度上释放算力潜力。此外,随着数据量的增加,数据处理和存储的效率也需要及时跟进。在多样化的HPC场景中,日均产生的数据量可达PB级,需要超大的容量方能完成归档。除此之外,在海量数据处理过程中,数据可能需要经过多种格式的转换,比如自动驾驶和石油勘探这两个高性能计算应用较为普遍的领域,只有将NFS格式的数据转换成HDFS
12、格式后,系统才能进行有效处理。海量的数据转换需要耗费大量的时间,其中还会损坏部分数据,而且产生的数据冗余也占用了宝贵的存储空间。因此,存储设备实现多协议互访可有效提升数据结构多样化的处理效率。031.2.系统综合性能更突出随着社会经济的发展和科学的进步,爆炸式增长的应用需求不断促进高性能计算往更广、更深的领域进行系统性扩展。量子化学、基因测序、气象预测和核技术等传统的高性能计算领域需要并行处理大量的原始数据。因此,除了需要保证密集计算的能力以外,海量数据并发执行、极高的数据并发存取效率也对集群的存储性能提出了较高的挑战。在这种条件下,只有保证系统聚合能力随节点数线性扩展、保证流畅的并行I/O与
13、高带宽的网络才能获得复合性的计算能力,满足日益复杂的计算需求。除此之外,高性能计算在非传统的应用领域中也发挥着独特的作用,例如金融、投行和保险业所承担的风险分析工作,除了发挥传统高性能计算的密集计算性能外,集群更多融入了数据处理、事务处理和信息服务的功能。在这些场景下,科学计算能力的主导地位有所弱化,相反,网络和存储提供的实时数据处理和快速交付功能更为凸显。当代高性能计算的发展,能耗和功耗也扮演着越来越重要的角色,逐渐成为成为大规模计算平台建设必须考虑的重要因素,绿色节能也成为衡量高性能计算平台综合性能的重要尺度,TOP500和Green500排名榜单均加入能耗指标。近来,最新一代的E级超算系
14、统的设计能耗标准是不超过20MW。诚然,硬件工艺的更新换代对能耗的降低至关重要,但要想让高性能计算系统以最大性能、最高能耗效率运行,也需要让存储、网络、计算等各个组件基于应用特征无缝衔接,否则很有可能成为整个集群性能的掣肘。因此,当代高性能计算的发展趋势更倾向于整体的综合性能。042.1.性能评价方法的演进趋势现有的性能评价规范专注细分领域,存在重计算、轻存储、评测指标分散、缺少应用场景和缺少综合的性能评价规范等缺点。这些评测规范通常过分强调被测系统某一个方面的能力,容易造成偏科。例如,在设计系统时若以浮点计算能力为唯一考量目标,以此为指导设计出的高性能计算系统,难以全面满足高算力、高存力、高
15、运力、高能效的新型基础设施要求。此外,现有评价方法对新场景的关注还不够。随着NVMe全闪存储介质、基于纠删码的存储冗余机制、多协议互通存储系统、新一代异构加速处理器的面市,诞生了诸如BurstBuffer闪存缓冲文件系统、超高密度存储系统、多功能一体化存储系统、面向超大模型训练的人工智能专用系统等新的集群应用场景。如何为这些场景分类,如何评价设计系统与这些场景的适用程度,是新的性能评价方法需要解决的问题。2集群综合性能评价方法的演进设计高效工作的高性能计算集群系统,需要在目标场景指引下,平衡处理器、网络和存储等组件的选型,合理搭配。高性能计算集群的综合性能评测方法能够发挥“标尺”作用,对衡量设
16、计的有效性产生着重要作用。05062.2.以性能评价牵引建设存算比合理的计算系统下图展示了存储的层次化结构。从数据使用的时间视角看,数据在不同的存储层次停留,等待被上一层调用,或者是被换出到下一层。在有限的预算下,如何设计各个层次的存储容量和存储带宽,是一个相当重要却容易被忽视的问题。论文An analysis of system balance and architectural trends based on top500 supercomputers总结今年Top500超算集群配置,提出了各层次存储容量和速率比例的参考范围。我们提出的评测方法在“系统效率”部分参考这篇论文的研究结果,以此
17、来引导设计集群存储系统的容量和带宽。2.3.以性能评价牵引使用多协议互通的存储系统从数据使用的角色视角看,数据在计算系统中需要经过仿真生成、大数据分析、对外发布的流程。这些流程会分别调用MPI多机并行软件、大数据分析软件和Web数据共享软件,而这些软件性能最佳的数据访问接口可能是不一样的。例如,仿真阶阶段需要调用MPI-IO接口,大数据阶段需要调用HDFS,而分享阶段需要调用S3接口。传统存储系统在多用途场景下,需要用户将一份数据拷贝多次,手动维护不同接口数据的一致性。而新型存储系统内置协议互通功能,能够无缝地为同一份数据提供多种数据访问接口,并维护其一致性。我们的评测方法也增加了多协议互通的
18、相关内容,以此引导超算集群的多协议互通建设。我们提出的性能评价标准,旨在引入与使用场景相关的性能指标,通过综合评分方法,为集群的计算、存储、网络和效率这四个关键维度,分别给出评价分数,并结合专家意见,给出系统建设的进一步建议。与现有评测标准较大的区别是,这个标准将从数据使用的时间和角色的视角,着力牵引建设存算比更加合理的计算系统,以及建设具有多协议互通功能的存储系统。DROS(分布式关系型对象服务层)Index LayerPersistence Layer元数据/数据管理层高级特性语义抽象层管控面NFSCIFSMPIPOSIXS3HDFS现有高性能计算评价标准呈现出“缺少行标国标、评测程序分散
19、、评测领域单一”的问题。本节介绍超算集群性能评价基准测试与标准的现状。3.1.性能评价基准测试程序当前,业内研究人员发布了数十个具有不同侧重面的高性能计算集群性能基准测试程序,按照评价的领域,可以分为基础计算性能、图计算性能、AI计算性能、存储网络性能、设备能效等等。各个主要领域中相对知名的基准测试程序如下表所示:3高性能计算性能评价现状07评测领域基础计算性能TOP500、HPCG、PARSEC、SPECCPU、SPECHPC、SPECACCEL图计算性能Graph500知名基准测试程序08其中,被广泛使用的包括Linpack(求解线性方程组性能)、HPCG(求解共轭梯度性能)、IO500(
20、存储性能)、Graph500(图计算性能)、AI500(AI计算性能)等,但是均专注于各个细分的评测领域,缺少对集群的综合性能评测,且多数没有形成系统性的评价规范。始于1993年的TOP500榜单是目前最为熟知的高性能计算性能评价规范,由国际组织“TOP500”编制,每半年发布一次,TOP500排名基于Linpack基准测试衡量线性方程计算的速度和效率,最新版HPL2.0规范从2008年一直用到现在,不过随着越来越多的应用程序采用微分方程等复杂计算方式,Linpack性能与实际计算效率间的差距将越来越大。因此田纳西大学教授Jack Dongarra提出了HPCG(高度共轭梯度基准测试)标准,与
21、Linpack关注线性方程的计算性能不同,HPCG使用更复杂的微分方程计算方式。Linpack更考验超算的处理器理论性能,而HPCG更看重实际性能,对内存系统、网络延迟要求也更高。除了TOP500以外,多个评测榜单试图从不同方向对超算集群的性能展开评价:面向图计算性能的Graph 500标准于2010年发布,采用GTEPS基准测试评价,更加适用于在数据密集型应用场景中的评测;BenchCouncil的AI500测试标准,基于增量迭代的方法学和智能科学计算应用场景,目前包含3个典型科学数据集,14个负载的不同软件栈实现;IO500是衡量高性能计算存储性能的常用评价标准,于2017年11月发布,该
22、标准涵盖带宽和元数据两项基准测试。同时,业界还存在多个商用或非商用的评测基准套件,例如侧重计算性能的SPEC系列和PERSEC、侧重AI应用性能的MLPerf、侧重存储与网络性能的OSU Microbenchmarks和HPC Challenge等。以下是SPEC HPC与HPC Challenge两个被广泛应用的基准测试套件的测试内容:SPEC HPC包含9个测试,涵盖了宇宙学、天气学、高能物理学等多个方向的科学计算问题,侧重于科学计算性能的测试。SPEC HPC的评分规则相对简单,使用了基准集群的运行时间与被测集群的运行时间的比值作为集群的评分。评测领域AI计算性能HPC AI500、ML
23、Perf、AIPerf、AISBench存储与网络性能IO500、OSUMicrobenchmarksHPCChallenge设备能效Green500知名基准测试程序09基准测试评测领域HPL:测量求解线性方程组的浮点执行率计算性能存储性能网络性能DGEMM:测量双精度实矩阵-矩阵乘法的浮点执行率FFT:测量双精度复数一维离散傅里叶变换(DFT)的浮点执行率PTRANS(并行矩阵转置):来自多处理器内存的大型数据数组的传输速率,测试网络总通信容量RandomAccess:测量内存的整数随机更新率STREAM:测量可持续内存带宽和简单矢量内核的相应计算速率通信带宽:测量传输大小为2,000,00
24、0字节消息所需的时间HPC Challenge包含了8个测试,分别属于科学计算性能、存储性能与网络性能三个评测领域。然而,该基准测试未提供综合评价的计算规范,仅对于各个测试分别输出了性能的数值。LBM D2Q37:计算流体动力学Tealeaf:物理学/高能物理学Cloverleaf:物理学/高能物理学Minisweep:核工程-辐射传输POT3D:太阳物理学SPH-EXA:天体物理学和宇宙学HPGMG-FV:宇宙学、天体物理学、燃烧miniWeather:天气基准测试评测领域通信延迟:测量将8字节消息从一个节点发送到另一个节点所需的时间SOMA Offers Monte-Carlo Accel
25、eration:物理/聚合物系统科学计算性能10其中,数据中心存储能效测评规范规定了数据中心存储设备的能效测试方法与能效等级评价方法,对测试环境、测试方法、能效指标、加分项均做出了规范;分布式块存储总体技术要求针对分布式块存储解决方案提出功能、性能、可靠性等方面的要求;计算存储分离架构的分布式存储测试方法规定了计算存储分离架构的分布式存储方案的功能、性能、兼容性、扩展性、可靠性、安全性、运维、硬件和网络测试方法;服务器应用场景性能测试方法 高性能计算通过制定标准化的评估方法,对比评估绿色计算产品与传统架构产品在该场景所关注指标、特性上的差异化优势,展示了以ARM架构为代表的绿色计算服务器在高性
26、能计算应用场景的性能表现。3.2.性能评价的标准规范现有的高性能计算性能评价规范非常碎片化。国内外标准化组织尚未发布针对高性能计算集群综合性能评价的国家或行业标准,现有标准集中于数据中心和存储,缺少集群性能相关的国标、行标、ISO标。相关的标准主要有如下几项:标准号标准名称发布时间类型T/CCSA 325-2021数据中心存储能效测评规范2021/11/2团标T/CCSA 263-2019分布式块存储总体技术要求2019/12/23团标YD/T 4030-2022计算存储分离架构的分布式存储测试方法2022/4/8行标GCC7003-2020服务器应用场景性能测试方法 高性能计算2020/11
27、/26地标T/CESA 1213-2022通用计算CPU性能测试评价技术要求2022/7团标T/CESA 1214-2022分布式块存储总体技术要求2022/7团标T/CESA 1215-2022计算存储分离架构的分布式存储测试方法2022/7团标T/CESA 1169-2021信息技术 人工智能 服务器系统性能测试规范2021/9地标IEEE P2937Performance Benchmarking for ArtificialIntelligence Server Systems2022/9地标为了弥补现存基准测试和标准在指标设置与评价规范方面的不足,确保本文所设置的高性能计算系统性能评
28、价指标具有科学性和可解释性,我们充分调研了Top500各大超级计算集群的性能指标,相应数据集的链接为https:/ R-CNN模型。图像推理任务的计算性能:系统使用ResNet-50模型在图像推理任务的性能,单位:VFLOPS。测试数据集使用ImageNet,遍历周期(Epochs)设定为90,性能度量单位VFLOPS计算方法如下:FLOPS*(实测准确度/目标准确度)5,其中,FLOPS是推理过程中的浮点运算速度,实测准确度是测试过程实际达到的Top1准确度;目标准确度是测试标准预定义的最佳模型质量Top1,设定为0.763。图像训练任务的计算性能:系统使用Mask R-CNN模型在COCO
29、数据集上的图像训练任务中的训练速度,单位:图片/秒。质量要求为每AP0.377Box和0.339Mask,性能度量单位为完成质量要求的训练所花费的时间。4.1.3.存储性能维度本维度共包含以下5个指标,参考了在IO500等榜单中被广泛使用的测试基准,同时扩展了存储新能力(多协议互通)的测试,衡量高性能计算集群存储系统的性能特征。运行测试程序,获得6个维度共19项基础指标浮点计算性能(Flops)存储带宽(GB/s)网络延迟(微秒).19项基础指标1为19项指标设计维度内权重浮点计算性能存储带宽网络延迟.19项指标权重2使用几何平均数计算每个维度的性能评分维度1:科学计算性能维度2:AI计算性能
30、维度3:存储性能维度4:网络性能维度5:系统能效维度6:系统平衡性3分析集群特点,给出特定场景下的提升建议提升建议4存储性能网络性能能效AI计算通用计算6868727892+13文件系统单客户端单流带宽:文件系统在单客户端单流测试条件下能达到的带宽,单位GB/s。文件系统单客户端多流带宽:文件系统在单客户端多流测试条件下能达到的带宽,单位GB/s。文件系统聚合带宽:文件系统在多客户端多流测试条件下能达到的聚合带宽,单位GB/s,按照文件系统可用容量划分评价等级。文件系统聚合IO操作速率:文件系统在多客户端多流测试条件下能达到的IO操作速率,单位:IOPS,按照文件系统可用容量划分评价等级。多协
31、议平均访问效率:分别以HDFS、对象、NFS三种协议访问文件系统上的同一份数据时,与使用POSIX标准文件访问协议的速率比值,取三项比值的平均数,不支持的协议比值为0,单位为百分比。4.1.4.网络性能维度本维度共包含以下3个指标,以描述高性能计算集群的网络性能。随着集群规模的扩大、精度要求的提高、模型趋于复杂,以及数据中心、云计算、异地超算等分布式基础设施的概念提出,集群对IO通信性能的需求迅速增加。网络通信也成为了评价集群性能的一个不可或缺的维度,与存力一同保障了算力的高效率运行。点对点通信带宽:系统中任意两个节点间的双向通信带宽,单位Gbps。点对点通信延迟:系统中任意两个节点间的通信往
32、返延迟,单位微秒。网络对分带宽与注入带宽比值:系统网络的对分带宽与所有节点注入带宽的比值,单位为比值。4.1.5.系统能效维度本维度包含2个指标,用于评价高性能计算集群的能源利用效率。随着高性能计算集群算力突破E级大关,以及数据量的爆炸性增长,高能耗将成为未来集群的核心挑战。提升算力与存力的能源利用效率势在必行。单位功耗支持浮点计算能力:系统的HPL浮点计算性能计算子系统能耗的比值,计算单位功耗下的浮点计算能力,单位FLOPS/W。单位功耗的可得存储容量:系统的可得存储容量与存储子系统额定功率的比值,计算单位功耗下的可得存储容量,单位TB/W。4.1.6.系统平衡性维度本维度共包含5个指标,用
33、于评价高性能计算系统的容量层级。内存容量与核心数比:内存容量与处理器核心数的比值,单位为比值。BurstBuffer与内容容量比:BurstBuffer容量与内存容量的比值,单位为比值。长久存储与BurstBuffer容量比:并行文件系统容量与BurstBuffer容量的比值,单位为比值。内存与BurstBuffer的带宽比:内存带宽与BurstBurffer带宽的比值,单位为比值。BurstBuffer与文件系统的带宽比:BurstBuffer带宽与并行文件系统带宽的比值,单位为比值。14匹配度=(1)V上限V下限V上限+V下限V V表 高性能计算性能指标汇总表实际测试值PFLOPS维度指标
34、数值说明备注单位科学计算性能AI计算性能存储性能系统使用双精度共轭梯度法求解稀疏线性方程组时的浮点运算速度。系统使用双精度高斯消元法求解稠密线性方程组时的浮点运算速度。图像推理任务的计算性能HPCG双精度浮点计算性能HPL双精度浮点计算性能图像训练任务的计算性能文件系统单客户端单流带宽文件系统单客户端多流带宽实际测试值实际测试值实际测试值实际测试值图片/秒GB/sGB/sVFLOPS系统使用ResNet-50模型在图像推理任务的性能。测试数据集使用ImageNet,遍历周期(Epochs)设定为9 0,性 能 度 量 单 位VFLOPS计算方法如下:FLOPS*(实测准确度/目标准确度)5。系
35、统使用Mask R-CNN模型在COCO数据集上的图像训练任务中的训练速度。文件系统在单客户端单流测试条件下能达到的带宽。文件系统在单客户端多流测试条件下能达到的带宽。文件系统聚合带宽文件系统聚合IO操作速率实际测试值实际测试值GB/sIOPS文件系统在多客户端多流测试条件下能达到的聚合带宽。文件系统在多客户端多流测试条件下能达到的IO操作速率。上述5个指标值需经转换后才能有效使用,转换方式如公式(1)所示。当指标值在上下限范围内时,取值为1,表示匹配度较高,即该值越优;当取值在上下限范围外时,该值小于1。匹配度越高时,该值设计的就越好。TFLOPS实际测试值15维度指标数值说明备注单位存储性
36、能网络性能多协议平均访问效率点对点消息延迟网络对分带宽与注入带宽比值单位功耗的浮点计算性能实际测试值实际测试值理论计算值实际测试值系统能效百分比微秒百分比GFLOPS/W分别以HDFS、对象、NFS三种协议访问文件系统上的同一份数据时,与使用POSIX标准文件访问协议的速率比值的平均值。系统中任意两个节点间的MPI消息通信往返延迟。计算网络性能时,该指标取延迟数值的倒数。点对点网络带宽实际测试值Gbps系统中任意两个节点间的MPI消息通信双向带宽系统网络的对分带宽与所有节点注入带宽的比值。系统的浮点计算实测性能与计算子系统能耗的比值。单位功耗的可得存储容量系统的可得存储容量与存储子系统额定功耗
37、的比值。实际测试值TB/W系统平衡性内存容量(GB)与处理器核心数的比值评分时如下公式转换为“匹配度”再代入综合评价分数计算匹配度。理论计算值比值BurstBuffer容量与内存容量的比值理论计算值理论计算值比值比值长久存储容量与BurstBuffer容量的比值16维度指标数值说明备注单位4.2.综合评价计算方法本评价规范使用几何平均数计算每个维度的性能评分,为每个被测集群评出科学计算性能、AI计算性能、存储性能、网络性能、系统能效和系统平衡性六个维度的评分。维度 的性能评分按照公式(2)计算。其中,为维度的性能指标集合,为指标 在被测超算集群上的性能。为不同测试指标的权重。为调整系数,建议该
38、常数值为100。考虑到不同计算集群的算力规模,使用公式(2)对各个维度进行评分之前,需要参考表2中的HPL实测性能对集群进行划档分类,然后再进行评分。对高性能计算集群的评价,最终会输出两个结果:(1)评测数据详表:该表详细记录各指标性能的数值;(2)性能雷达图:以多维度雷达图来显示集群系统在不同维度的性能评分。内存带宽与BurstBuffer带宽的比值实际计算值比值比值BurstBuffer带宽与并行文件系统带宽的比值实际计算值系统平衡性评分时如下公式转换为“匹配度”再代入综合评价分数计算匹配度。4.3.指标权重与平衡性范围的设计初稿我们根据经验初步设计了如下的指标权重,主要考虑是:在计算性能
39、维度,以HPL为代表的稠密矩阵计算方法应用最广泛,权重最高。存储性能维度的五个指标重要性相当,均分1.0权重。网络性能维度中,点对点带宽最重要因此权重最高。系统能效方面,单位功耗浮点性能比可用存储容量重要,因此权重更高。系统平衡性方面,五个指标重要性相当,均分1.0权重。综合评价方法的使用者可以针对具体测试场景,按需设置权重。17表 指标权重维度指标权重科学计算性能AI计算性能HPL双精度浮点计算性能0.6HPCG双精度浮点计算性能0.4图像推理任务的计算性能0.5图像训练任务的计算性能0.5存储性能文件系统单客户端单流带宽0.2文件系统单客户端多流带宽0.2文件系统聚合带宽0.2文件系统聚合
40、IO操作速率0.2多协议平均访问效率0.2点对点网络带宽0.4网络性能点对点消息延迟0.3网络对分带宽与注入带宽比值0.3单位功耗的浮点计算性能0.6系统能效单位功耗的可得存储容量0.4内存容量(GB)与处理器核心数的比值0.2BurstBuffer容量与内存容量的比值0.2长久存储容量与BurstBuffer容量的比值0.2内存带宽与BurstBuffer带宽的比值0.2系统平衡性BurstBuffer带宽与并行文件系统带宽的比值0.218我们调研了历年Top500超算集群,在现有集群建设经验基础上,初步整理了各层级存储系统容量、带宽的配比范围。按照集群实测峰值计算能力,我们将集群划分为三档
41、规模,分别是:性能大于30PFLOPS的超大型集群,性能10-30PFLOPS的大型集群,和1-10PFLOPS的小型集群。不同规模的集群具有不同的设计考量,因此在平衡性上有范围差异。后续将补充其他评估方法,不断完善建议值范围。指标按实测峰值计算能力分类内存容量(GB)与处理器核心数的比值BurstBuffer容量与内存容量的比值并行文件系统存储容量与BurstBuffer容量的比值内存带宽与BurstBuffer带宽的比值建议值范围64204050002000482614BurstBuffer带宽与并行文件系统带宽的比值30P
42、FLOPS10-30PFLOPS1-10PFLOPS30PFLOPS10-30PFLOPS1-10PFLOPS30PFLOPS10-30PFLOPS1-10PFLOPS30PFLOPS10-30PFLOPS1-10PFLOPS30PFLOPS10-30PFLOPS1-10PFLOPS5.1.典型算力下的集群设计示例我们调研TOP500超算集群的相关性能,基于集群实测性能,将集群划分为三档:30PFLOPS以上、10-30PFLOPS、1-10PFLOPS,分别对应超大型计算集群、大型计算集群和中型计算集群。在2022年Top500榜单上,这三类集群的数据量分别占约20台、35台和445台。白皮
43、书提出的性能评价方法主要有两个应用:1)指导典型算力下的集群设计,即在给定算力下,如何设计和选择其他组件的性能。2)分析典型场景下的集群特性,将集群划分为“计算密集”、“IO密集”、“计算+IO密集”、“AI计算密集”等类型。下面两节通过例子,展示评价方法在分析不同算力下的集群设计、超算集群类型划分中的作用。5性能评价方法的应用19205.1.1 超大型集群设计示例Summit超级计算机坐落于美国橡树岭国家实验室,它从一开始就专为人工智能操作而设计,可以使用机器学习和深度学习来推动在健康、物理和气候建模以及其他领域的研究。除此之外,Summit的设计非常灵活,能够有效平衡各种科学和工程类计算的
44、工作负载。使用上文所述的评分方法,Summit超级计算各维度的指标和各维度的评分结果如下所示,不同维度内的各指标所占权重见附录表格。部分性能指标结果难以获得,我们通过推测得出。维度指标评分AI计算性能图像推理任务的计算性能(单位:VFLOPS)3070000000图像训练任务的计算性能(单位:图片/秒)存储性能文件系统单客户端单流带宽(单位:GB/s)35718文件系统单客户端多流带宽(单位:GB/s)文件系统聚合带宽(单位:GB/s)文件系统聚合IO操作速率(单位:IOPS)多协议平均访问效率(单位:百分比)点对点网络带宽(单位:Gbps)704网络性能点对点消息延迟(单位:微秒)网络对分带
45、宽与注入带宽比值单位功耗的浮点计算性能(单位:GFLOPS/W)114系统能效单位功耗的可得存储容量(单位:TB/W)内存容量(GB)与处理器核心数的比值BurstBuffer容量与内存容量的比值长久存储容量与BurstBuffer容量的比值内存与BurstBuffer的带宽比值系统平衡性BurstBuffer与文件系统带宽的比值90数值26198484(*)35942400(*)科学计算性能HPL双精度浮点计算性能(单位:PFLOPS)47578HPCG双精度浮点计算性能(单位:TFLOPS)148.62725.7580000.862000.561.02214.7190
46、.02481(+)0.68(+)0.89(+)0.95(+)1(+)注:(+)表示匹配后的值,(*)表示该项指标结果为估计值215.1.2 大型集群设计示例“Hawk”超级计算机坐落于德国斯图加特大学,该型超级计算机主要服务于在能源、气候、尖端学术、工业和健康等领域的研究,在发电厂的优化、区域和全球气候模型的相互作用、流行病和迁徙的探索、车辆和飞机的空气动力学改进以及噪音排放的测定等领域均发挥着重要的作用。使用上文所述的评分方法,“Hawk”超级计算各维度的指标和各维度的评分结果如下所示,不同维度内的各指标所占权重见附录表格。部分性能指标结果难以获得,我们通过推测得出。维度指标评分AI计算性能
47、图像推理任务的计算性能(单位:VFLOPS)26743581图像训练任务的计算性能(单位:图片/秒)存储性能文件系统单客户端单流带宽(单位:GB/s)30406文件系统单客户端多流带宽(单位:GB/s)文件系统聚合带宽(单位:GB/s)文件系统聚合IO操作速率(单位:IOPS)多协议平均访问效率(单位:百分比)点对点网络带宽(单位:Gbps)671网络性能点对点消息延迟(单位:微秒)网络对分带宽与注入带宽比值单位功耗的浮点计算性能(单位:GFLOPS/W)35系统能效单位功耗的可得存储容量(单位:TB/W)内存容量(GB)与处理器核心数的比值BurstBuffer容量与内存容量的比值长久存储容
48、量与BurstBuffer容量的比值内存与BurstBuffer的带宽比值系统平衡性BurstBuffer与文件系统带宽的比值注:(+)表示匹配后的值,(*)表示该项指标结果为估计值80数值240329(*)297600(*)科学计算性能HPL双精度浮点计算性能(单位:PFLOPS)6047HPCG双精度浮点计算性能(单位:TFLOPS)19.33334.659(*)11(*)1760(*)18190000(*)0.82(*)2000.60.81(*)4.950.00641(+)0.53(+)1(+)1(+)(*)0.9(+)(*)225.1.3 中型集群设计示例“Wilkes-3”坐落于英国
49、剑桥大学,是世界上第一台云原生超级计算机,该超算中心为英国的科学研究提供了主要的计算资源,在天体物理学、材料模拟、核聚变发电和临床医学研究具有重要的应用。使用上文所述的评分方法,“Wilkes-3”超级计算各维度的指标和各维度的评分结果如下所示,不同维度内的各指标所占权重见附录表格。部分性能指标结果难以获得,我们通过推测得出。注:(+)表示匹配后的值,(*)表示该项指标结果为估计值维度指标评分AI计算性能图像推理任务的计算性能(单位:VFLOPS)45039380图像训练任务的计算性能(单位:图片/秒)存储性能文件系统单客户端单流带宽(单位:GB/s)30389文件系统单客户端多流带宽(单位:
50、GB/s)文件系统聚合带宽(单位:GB/s)文件系统聚合IO操作速率(单位:IOPS)多协议平均访问效率(单位:百分比)点对点网络带宽(单位:Gbps)691网络性能点对点消息延迟(单位:微秒)网络对分带宽与注入带宽比值单位功耗的浮点计算性能(单位:GFLOPS/W)146系统能效单位功耗的可得存储容量(单位:TB/W)内存容量(GB)与处理器核心数的比值BurstBuffer容量与内存容量的比值长久存储容量与BurstBuffer容量的比值内存与BurstBuffer的带宽比值系统平衡性BurstBuffer与文件系统带宽的比值99数值408981(*)496000(*)科学计算性能HPL双
51、精度浮点计算性能(单位:PFLOPS)728HPCG双精度浮点计算性能(单位:TFLOPS)2.2941.22(*)10(*)15(*)1500(*)13240000(*)0.87(*)2000.59(*)0.91(*)29.70.016(*)1(+)1(+)(*)1(+)(*)0.93(+)(*)1(+)(*)235.2.典型场景下的集群特性分析为探索可有效评估高性能计算集群系统的性能指标,本文充分调研了几个典型的高性能计算应用场景,其中包括基因测序、气象预报、油气勘探、自动驾驶和新材料设计领域,研究不同场景下的应用特性和典型,分析不同应用场景下的超算集群需要拥有的性能特点。5.2.1.“I
52、O密集型”超算系统:以面向基因测序的集群为例基因测序作为基因检测的重要方法,可以通过基因组信息以及相关数据系统,预测罹患多种疾病的可能性。基因测序的业务流程主要包括:文库制备(样本上机+数据下机)、生信分析(测序分析+报告解读)、分析后解读(报告交付+归档分发)。其中生信分析阶段包含文件格式转换、解压缩、基因拼接、比对、排序、去重、变异检测以及联合基因型检测。该阶段对高性能集群IO有很高的要求,属于典型的“IO密集型”HPC应用。全基因组测序分析主要包含比对、排序、去重、检测等步骤,每个步骤对计算资源的需求有差异。比对环节主要是将基因序列和参考基因组进行序列比对,以计算、比对查找为主,单客户端
53、多线程异步加载,大文件小IO读写,和CPU核数、内存、存储性能强相关,排序环节主要是对所有基因片段的编号按照坐标顺序从小到大进行排序,去重是去除由PCR过量扩增所形成的副本,主要是大文件小IO异步顺序读写操作,同样和计算核数、内存大小和存储单客户端性能指标强相关。变异检测环节主要是生成vcf文件包含样本变异点位和基因型信息,主要与输入文件大小、参考基因组文件大小和调用方法有关,IO表现为单客户端多流大文件小IO操作,和内存大小和存储性能指标强相关。同时,海量的基因测序数据需要大容量存储空间。例如一台Illumina NovaSeq测序仪生产量为6TB/40h,满负荷下一年能产生1PB左右数据,
54、加之生物信息分析过程一般会产生原始数据量5倍左右的中间文件及结果,因此要支撑一台NovaSeq一年的数据产出存储及分析,大约需要6PB有效存储空间。为该场景设计的一个典型超算系统主要硬件配置和关键性能如下表所示,这台超算系统的浮点计算能力不足1PFLOPS,但每核心配备的内存数超过10GB,且采用了低延迟Infiniband网络,文件系统聚合吞吐能力达到324GB/s。这是一个在“计算”与“存储”平衡中偏向“存储”的系统,因此是一个IO密集型超算系统。图:基因测序业务流任务调度节点(部署SGE/PBS等调度软件)工作节点(集群部署)2-基因转换1-数据收集共享存储6-数据分发/归档3-基因拼接
55、4-基因比对5-基因注释主控主机执行主机1执行主机NXXX格式VCF文件FASTQ文件FASTQ文件BAM/SAM文件248748核心HPL性能:0.58PFLOPS93312GB每核心内存数:10.6GB100G HDR Infiniband节点间网络延迟:0.64微秒100 PB聚合吞吐能力:324GB/s 硬件数量对应评测方法的关键指标表 某基因测序集群5.2.2.“IO密集+计算密集型”超算系统:以面向数值气象预报的集群为例数值气象预报通过采集各种观测手段获得的数据作为初始场,在一定的初值和边值条件下,利用高性能集群的算力,求解描述天气演变过程的流体力学和热力学的方程组,从而预测未来一
56、定时段的大气运动状态和天气现象。主要包括气象观测数据采集、数据预处理、模式计算以及后处理。其中,模式计算对高性能集群系统的计算、网络和IO都有很高的要求,属于典型的“IO密集+计算密集型”HPC应用。数值气象预报应用软件的运行时长通常和预报区域大小,网格数量、分辨率大小、设计算法及HPC集群性能等因素有关。通常而言,预报区域越大,网格数越多、分辨率越精细以及设计算法越复杂对HPC的性能和规模有着更高的要求。一方面,现有的数值气象模式都采用MPI方式实现并行计算,适合在多个高性能服务器上并行执行;另一方面,数值气象预报模式本质上是基于流体力学和热力学等设计的,网格数量的多少一定程度上决定着模式执
57、行的并行度,所以数值气象模式是计算密集型的应用。因此,跟计算集群的浮点计算能力、内存带宽等指标强相关。数值气象预报模式是基于差分格点设计的,其在高性能平台上运行不仅涉及格点与格点之间的通信,而且还涉及在模式迭代运行时的收集通信。CPU核之间通信频繁,跟计算网络的带宽、时延、包转发率强相关。此外,在模式运行的过程中必定会不断地产生临时数据和中间结果数据,这也就是说模式运行阶段需要对共享存储不断地进行读写。此外,在模式运行阶段,会不断地产生临时数据和中间结果数据,需要对共享存储不断进行读写,且每天的气象预报结果,必须在规定的时间分钟数小时级完成计算,产生最终计算结果,对时效性要求极高。跟存储系统的
58、聚合带宽、IOPS指标强相关,业务负载通常是大小IO混合读写。为该场景设计的一个典型超算系统主要硬件配置和关键性能如下表所示,这台超算系统的浮点计算能力达到2.39PFLOPS,每核心配备4GB内存,且采用了低延迟Infiniband网络,文件系统聚合吞吐能力达到112GB/s。这台超算系统在“计算”和“存储”并重,是“IO密集+计算密集”型超算系统。内存网络CPU存储255.2.3.“AI密集型”超算系统:以面向自动驾驶的集群为例自动驾驶车,是一种无须人工干预而能够感知其周边环境和导航的车辆。它利用了包括雷达、激光、超声波、GPS、里程计、计算机视觉等多种技术来感知其周边环境,通过先进的计算
59、和控制系统,来识别障碍物和各种标识牌,规划合适的路径来控制车辆行驶。自动驾驶业务涉及10+处理环节,业务复杂,包括数据导入、预处理、训练、仿真、结果分析等多个环节,主要处理流程如图。表 某气象预报集群硬件配置 硬件数量对应评测方法的关键指标14400HPL性能:2.39PFLOPS57600GB每核心内存数:4GB100Gbps节点间网络延迟:0.63微秒12PB112GB/s内存网络CPU存储26自动驾驶系统向L3及以上级别升级,每辆车安装的雷达、摄像头、传感器数量和精度要求成倍增加,对应路测里程和产生的数据量也成倍数增加。这些变化对存储空间、访问效率和计算算力都提出了新的挑战:1)自动驾驶
60、升级,EB级路测数据:相比L3,L4路采数据量增加3-5倍,每天数百TB数据需导入存储并完成预处理,预处理后产生15%场景库数据需存储、EB级数据需归档(10年+)。2)一套业务,多种协议并存:测试数据传输导入、预处理、训练、仿真、结果分析各个环节要求协议不同(对象/NAS/HDFS等),数据孤岛严重,数据拷贝时间比处理分析时间2倍以上,导致效率低。3)业务模型复杂,1.5ms时延:路采传感器种类多,业务IO模型复杂;多次迭代,上百路并发,要求在车型算法训练、功能仿真阶段均提供极致性能,单集群带宽达到百GB/s,时延1.5ms。为该场景设计的一个典型超算系统主要硬件配置和关键性能如下表所示,这
61、台超算系统的浮点计算能力总和达到了16PFLOPS,其中GPU贡献了82.5%计算能力。为满足自动驾驶训练的高速数据请求和大批次数据缓存需求,每CPU核心配备了6GB内存,文件系统带宽达到79GB/s。这台超算系统计算能力AI性能突出,是一个“AI密集型超算系统”。表 某自动驾驶集群硬件配置19840核CPU HPL性能:2.8PFLOPS1240块NVIDIA A100加速卡GPU HPL性能:13.2PFLOPS119040GB每核心内存数:6GB200Gbps节点间网络延迟:0.77微秒 硬件数量对应评测方法的关键指标GPU内存CPU网络24PB79GB/s存储6高性能计算系统性能评价规
62、范的展望27本文通过对高性能计算性能评价指标、评价方法的现状及演进趋势的深入分析,针对当前高性能计算技术新应用、新场景,充分考虑计算、存储、网络等ICT基础设施对HPC性能的影响及各评价指标相互间的联系,提出了一整套评价指标,并针对高性能计算典型应用场景,进一步分析和验证这些评价指标的关联性和合理性。此外,后续的研究工作将继续深入开展,旨在建立一套科学、合理、具有一定产业影响力、多维度的评价标准规范体系,从而解决当前高性能计算设计选型困难的难题,改变国内缺乏高性能计算综合评价标准规范体系的现状,能够更好的引领高性能计算存算并重、绿色节能、多功能一体的技术趋势,基于这一目标,未来我们还有如下三项工作重点展开:第一,基于评价规范开发评测程序,降低在不同架构超算上运行评测程序的难度。第二,基于评测结果,定期选取性能优异、有特色的系统,构建“优秀高性能计算系统”榜单。第三,建立社区,业界共同探讨与优化性能指标。28