上海品茶

您的当前位置:上海品茶 > 报告分类 > PDF报告下载

全国信标委:2022计算中心有效算力评测体系白皮书(37页).pdf

编号:88608 PDF 37页 7.43MB 下载积分:VIP专享
下载报告请您先登录!

全国信标委:2022计算中心有效算力评测体系白皮书(37页).pdf

1、计算中心有效算力评测体系白皮书国家人工智能标准化总体组全国信标委人工智能分委会二二二年七月计算中心有效算力评测体系白皮书国家人工智能标准化总体组全国信标委人工智能分委会二二二年七月编写单位(排名不分先后)中国电子技术标准化研究院 鹏城实验室北京航空航天大学 华为技术有限公司 中国移动通信有限公司研究院 中国电信股份有限公司研究院中国联合网络通信有限公司研究院 上海依图网络科技有限公司浪潮电子信息产业股份有限公司 飞腾信息技术有限公司 上海商汤阡誓科技有限公司 上海天数智芯半导体有限公司摩尔线程智能科技(北京)有限责任公司 上海燧原科技有限公司 上海登临科技有限公司 北京登临科技有限公司 西安未

2、来人工智能计算中心 成都智算中心 青岛人工智能计算中心 武汉人工智能计算中心 沈阳人工智能计算中心 大连人工智能计算中心 中原人工智能计算中心 河北人工智能计算中心 南京人工智能计算中心编写组成员(排名不分先后)范科峰 董 建 张 群 徐 洋 鲍 薇 张 琦 余 跃 张叶红董一川 栾钟治 谢海波 丁宝贵 曹晓琦 包振忠 聂永丰 孙锡军 崔 金 张 超 王迁涵 张婷婷 魏 华 雷 波 周舸帆 何 琪 曹 畅 张 岩 李建飞 赵春昊 许 源 李柏宏 康真健 王大伟 谷潇聪 田绍清 郭 文 余雪松 张钰勃 董龙飞 袁兆凯 姚建国 张亚林 张明洁 慈红斌 陈衡哲 汪宇波 刘 明 杨增君 穆勤学目 录1

3、 数字经济与算力建设 1 1.1 算力建设助力计算中心高质量建设 1 1.2 通过有效算力实现“节能”+“增效”双轮驱动,促进计算 中心高质量建设 22 计算中心算力评测现状 4 2.1 计算中心算力类型 4 2.2 计算中心算力评测方法 53 有效算力评测体系与应用 7 3.1 有效算力的内涵 7 3.2 有效算力评测体系 11 3.2.1 有效算力指标CUE 11 3.2.2 有效算力指标CUE的计量方法 11 3.2.3 有效算力指标CUE的测试集与测试工具 13 3.3 有效算力的应用场景 15 3.3.1 人工智能计算中心 16 3.3.2 一体化大数据中心 17 3.3.3 超算中

4、心 21 3.3.4 算力网络 224 有效算力的标准与评测进展 25 4.1 人工智能场景有效算力标准现状 25 4.2 通用场景有效算力标准现状 26 4.3 超算场景有效算力标准现状 265 大力推进有效算力评测体系建设 28 5.1 建议政策导向有效算力的先行先试 28 5.2 建议加快指标体系的标准化和工具化 29 5.3 建议通过组织承载并进行榜单发布 296 结语 31核心表达牵引以有效算力的衡量方式进行计算中心新型基础设施高质量建设(含人工智能计算中心、一体化大数据中心、超算中心等),达到以业务应用为牵引、以全栈优化为手段、以节能增效为目标的计算中心建设和评测体系,提升计算中心

5、新型基础设施建设的质量,以支撑数字经济等宏观政策与顶层设计落地。白皮书内容白皮书提出有效算力和有效算力指标的概念。并给出有效算力的内涵、定义、计量和评测方法,及有效算力和有效算力评测指标体系的应用场景、标准进展与规划。白皮书内容将根据技术的发展逐步迭代,本篇内容主要聚焦面向集约化建设的大型计算中心。-1-1数字经济与算力建设数据和算力资源是数字经济时代区域和国家竞争力的核心战略资源。随着信息技术的快速发展,全球数字经济新型基础设施建设格局正面临深刻改变。数字经济呈现全新的运行规律。以数据流动和处理的自动化,化解复杂系统的不确定性,实现资源优化配置,支撑经济高质量发展的经济新业态。1.1算力建设

6、助力计算中心高质量建设2018年诺贝尔经济学奖获得者 William D.Nordhaus 在计算过程一文中对算力进行定义:“算力是设备根据内部状态的改变,每秒可处理的信息数据量”。泛在算力:智能社会的基石结合众多权威定义中算力的特征,将算力定义为设备通过处理数据,实现特定结果输出的能力。算力的主要载体之一是计算中心等新型基础设施。高质量的计算中心建设,是支撑数字经济高质量发展的重要手段,这在人工智能、云计算、区块链、大数据等数字经济重点领域尤为明显。与此同时,计算中心的高速增长也带来了一系列能源消耗问题。高质量建设计算中心,通过“节能”、“增效”两手抓以应对能源消耗问题,提升算力质量。以计算

7、中心为代表的算力基础设施,其算力总量1、算力效率2是新基建的主要抓手。我国经过多年信息化工作的推进与积累,计算中心产业已初具规模,同时随着新基建的快速推进,我国计算中心产业呈现出基数大、增速高的局面,在算力总量上仅次于美国处于全球第二位,但算力效率与应用水平上对比美国仍存在较大差距。计算中心建设需要从“靶场思维”走向“战场思维”转变,着眼未来战略新兴行业布局,适度超前,前1 算力总量:以全球服务器、芯片出货量统计的规格算力总量2 算力效率:算力的使用效率计算中心有效算力评测体系白皮书-2-瞻筹划,置身未来,围绕“算力效率”建设新一代算力基础设施。计算中心能耗总量持续增加。过去十年间,我国计算中

8、心整体用电量以每年超过10%的速度递增,预计从2020年到2030年,计算中心用电量占全社会用电量的比例从2.7%增长至3.7%。2018年全年共消耗1608.89亿千瓦时电量,超过整个上海市用电量。计算中心是未来为数不多能源消耗占社会总用电量比例持续增长的行业,因此,计算中心行业积极践行低碳节能,为我国的绿色环保事业贡献力量。促进我国计算中心低碳技术转型与高质量发展。集中力量攻克间接蒸发冷却、有效算力提升、能源互联网、碳捕集利用与封存技术(CCUS)等技术,通过节能技术与增效技术融合,促进计算中心向低碳、绿色、循环方向发展。计算中心高质量建设,需要合适的算力评测体系。计算中心建设受到数字经济

9、高质量发展要求的驱动,对计算中心高质量建设提出更高要求。因此,如何有效评价一个计算中心建设的质量,如何牵引技术体系的高质量发展,亟需建设一个合适的算力评测体系。1.2 通过有效算力实现“节能”+“增效”双轮驱动,促进计算中心高质量建设数字经济高速发展带来的是计算中心的快速扩张,而计算中心是未来为数不多的、能源消耗占比持续增长的行业(过去十年间,我国计算中心整体用电量以每年超过10%的速度递增,预计从2020年到2030年,计算中心用电量占比从2.7%增长至3.7%;以10年为期,电费占计算中心总成本的60%3)。3 数据来源:国网能源研究院、36 氪研究院-新基建系列之:2020 年中国城市数

10、据中心发展指数报告-3-1数字经济与算力建设通过计算中心的“绿色化、集约化、算力多样化”,实现“清洁化、规模化、综合化”的转型发展路径。计算中心作为需求侧载体需要坚持节能、增效双轮驱动,通过节能技术创新、计算架构创新、软件架构优化等手段,助力节能减排目标有效达成。计算机系统需要依靠各个部分软硬件整体协同才能在应用中发挥最大的能力,这并不是各个部分的机械组合或简单相加。因此,单纯堆砌每个部分的能力,并不能使整个系统获得最大收益。一个集群系统需要从全栈的角度进行软硬件协同设计与优化。有效算力的提出是计算中心高质量建设的有益牵引。有利于计算中心高质量规划:通过代表性的业务性能分析与评测,利于数据中心

11、建设者的对IT设备的提前规划设计。有利于计算中心建设的节能、增效:通过不同应用程序的综合评测,提升数据中心在单位能耗下的性能表现,实现节能+增效的效果。有利于促进基础软件的发展:通过包括操作系统、数据库、加速库、数学库、系统调度、云平台软件等的基础软件优化,可大幅提升应用软件在系统硬件上的性能表现,利用基础软件充分释放芯片和硬件系统算力。有利于呈现系统的全栈优化:随着摩尔定律的失效,依靠芯片单核性能不断提升来提升硬件能力的时代已经过去,现代计算中心早已走向了集群系统,涉及到计算、存储、网络以及软件中间的配合和协同。软硬件全栈优化,是通过软件技术充分释放硬件计算能力的必要手段。例如通过算法优化、

12、软件运行时调优、网络通信优化、芯片指令优化、编译器优化等措施,可实现计算效率的倍增。软硬件联合设计与优化,是面向业务需求进行高质量算力基础设施设计、算力表现优化的必要有效手段。-4-计算中心有效算力评测体系白皮书2计算中心算力评测现状2.1计算中心算力类型从1.1节算力的定义可以看出,算力体现了对计算、存储、网络等计算中心IT基础设施完整能力的刻画,且具有多样性的特点,背后是多样性业务的需求。根据目标处理的业务对象,算力一般可分为通用算力、人工智能算力以及超算算力3种指标类型。通用算力以CPU承载为主,以整型计算与逻辑处理为代表,并辅以浮点计算。主要面向的是通用软件应用,有着复杂的逻辑。其计算

13、模型主要是逻辑运算,有着不规则的数据结构、不可预测的存取模式、递归算法以及分支密集型算法。其硬件结构中70%以上晶体管用于构建控制单元和缓存,计算单元从几十个到上百个。人工智能算力以NPU/TPU/GPU承载为主,其中训练以FP16、FP32、TF32等半精度浮点、单精度浮点计算与张量处理为代表,推理以INT8、FP16、BF16为代表。主要面向的是特定场景,比如基于人工智能的图像识别、语音识别等,其逻辑简单、计算密集、并发任务高。其计算模型主要是并行数据计算,面向规则的数据结构(数组、矩阵类型的数值),具有可预测的存取模式。其硬件结构中70%以上晶体管用于构建计算单元,计算单元从几千到几万个

14、。超算算力以CPU/GPU承载为主,以FP64双精度浮点计算与矢量处理为代表。主要面向的是科学计算、工业计算等数值仿真场景,例如基于流体力学的天气预报、飞行器设计等。超算应用历史悠久,其业务以对物理世界的建模、数值计算为主,对精度要求高,其硬件结构对双精度计算单位要求高。同时,在一些细分领域会存在相对独立的算力类型,如图形计算算力,以GPU/CPU承载为主,以像素填充率和几何填充率为主要指标。主-5-2计算中心算力评测现状要面向的是三维可视化、云渲染等业务场景。随着VR、元宇宙等概念的兴起,这类算力存在较大的增长空间。2.2计算中心算力评测方法热力学温标的提出者开尔文勋爵曾提到:“If you

15、 can not measure it,you can not improve it.”即:“无法度量,就无法改进!”。这句话放在计算领域也是适用的。作为计算中心的重要组成部分-计算机系统,是影响算力的关键因素。从计算机发展的早期,就提出要对计算机系统的性能进行评估与测试。希望通过性能评估与测试,发现系统的瓶颈,帮助改善产品设计。也提出了各种各样的方法对计算机系统性能进行评估,如指令混合法、核心程序法和基准程序法等。指令混合法:从五十年代Gibson提出的每秒平均执行的指令条数指标(单位为MIPS,即每秒百万条指令)开始,基本思想是以各种典型指令出现的频率作为权重进行加权平均计算,也被称作指令

16、混合法。该方法较之前单纯使用加法指令执行速度作为评价指标有所进步。随着更多数值计算(浮点运算)的出现,MFLOPS指标(即每秒百万次浮点计算)开始使用。但该方法不能反映缓存、流水线等更新的CPU体系结构特点。核心程序法:1964年Whetstone的出现表明评价指标开始从指令的执行情况过渡到代表性功能函数或程序的执行情况。也被称为核心程序法。相关的功能函数或程序来自于最常使用的小程序段。与当前经常使用的miniapp或proxyapp有异曲同工之妙。该方法比指令混合法更能反映计算机系统的软硬件设计特点。基准程序法:前期使用到的评价方法都相对简单,在一定程度上可以反映计算机系统的性能,但随着产品

17、的不断迭代,系统及业务负载的复杂度均有较大提升,上述评测方法已不能满足或不能真实反映计算机系统的实际性能。因此,从业务负载的角度出发,基准程序法开始流行起来,如-6-计算中心有效算力评测体系白皮书SPEC CPU、HPCC等。这些基准程序中的测试负载来自于实际业务场景,根据测试指标进行相应裁剪,一定程度上能够代表客户实际使用场景,对生产选型具有重要指导意义。上述三种测试方法呈现一种递进的关系,对于计算中心建设和评测而言,应当将评价标准从“极值”走向“积分”。全面衡量计算中心的建设质量。目前,计算中心评测体系分为5种类型:1)基础设施能耗水平,如电源使用效率PUE(Power Usage Eff

18、ectiveness);2)部件级算力评估,如规格算力(芯片标称的算力规格)指标;3)单机或单服务器的性能评测,如SPEC等,关注IT计算设备的单台设备性能,无法完成体现集群系统性能;4)计算中心系统单一性能评价,通过计算中心集群系统整体测试,呈现算力某个单一方面的性能指标,例如IO500重点呈现系统整体存储性能,HPL重点呈现系统在稠密矩阵求解方面的能力;5)通过真实应用完整呈现整系统能力,例如AISbench与MLperf关注人工智能领域的多种业务场景性能。图1算力评测指标分类算力评价指标逐步从单点部件能力过渡到全栈全场景业务生产力无视应用/规格算力代理应用/抽象算力真实应用/有效算力部件

19、级部件级子系统级单场景全栈全场景CPUNPUGPUTPUDhrystoneWhetstoneSPEC CPUCPUBenchHPCGHPLHPCCSPEChpcUnixbenchGraph500IO500HPL-AIAISbenchMLperfTPCClusterBenchSPCBTCDSPFPGA-7-2计算中心算力评测现状3有效算力评测体系与应用3.1有效算力的内涵计算中心的性能需要综合考虑芯片、存储、网络以及平台软件各层协调所呈现的综合业务性能,也就是“有效算力”。有效算力的提出,目的是牵引计算中心等集群系统的高质量设计与优化,其实质是一种集群系统的性能评测方法,属于涵盖了计算、存储、网

20、络、基础软件(OS、云平台)等软硬件全栈综合业务性能的基准程序法,其方法是从以规格能力进行衡量的方式,演进到以真实业务可获得的性能进行衡量。以实现牵引最终用户从计算中心实际使用效果角度进行规划,牵引系统厂商从软硬件整体,含硬件基础设施、基础软件、应用软件等全栈角度进行计算中心的建设和优化。规格算力与有效算力之间的关系:有效算力是对规格算力的补充。传统上,计算中心用计算芯片的规格算力进行性能衡量,常用的计量单位是每秒执行的浮点数运算次数(FLOPS)。这种衡量方式较为简洁,从宏观与统计的角度实现算力整体的呈现,但缺乏对计算芯片访存、整型数据处理等多方面能力的刻画,缺乏对计算中心网络、存储等集群系

21、统能力完整地刻画。例如,在人工智能领域,有效算力的引入改变了传统上只按照人工智能规格算力(如FLOPS,TOPS,甚至Hz等)来计量计算能力的方式,并朝着对于用户具备实际参考意义的方向推进了一步。规格算力并不能准确反映实际计算能力,因为算力的发挥需要人工智能服务器系统各个部件的协作,任何性能上的薄弱环节(如有限的内存访问速率、总线带宽、网络交换速率等)都会对整个计算系统产生影响。因此,有效算力能够更为直观地反映计算系统在特定作业上的、用户可获得的计算能力,是计算计量方法的有力补充。关于有效计算能力的研究,已在SPEC基准建设的初期展开,并沿用至今。-8-计算中心有效算力评测体系白皮书有效算力的

22、合理呈现形式为:用真实业务软件在一定规模的ICT基础设施系统上(含计算、存储、网络、OS、软件中间件等)进行性能的测量。有效算力的本质是表征真实业务通过软硬件联合调优,所获得的真实算力,以此实现与规格算力的区分。有效算力推动系统整体的架构设计、集成优化,软硬协同和软件层(如操作系统、计算引擎和框架)的技术优势。与传统的数据中心算力规模衡量指标,如柜数、硬件规格等相比,有效算力有利于提高大数据中心应用场景的设计与优化,例如:(1)通过存算分离架构提升有效算力能力在搭建大数据集群时,用户经常默认使用计算服务器的本地硬盘作为数据存储,这是Hadoop最初引入的一种存算一体的分布式架构。实际上在追求更

23、高性能、更好灵活性的公有云上,使用更多的是存算分离架构。存算分离即使用处理能力高的计算服务器搭建计算集群,专注高性能分析;使用存储服务器搭建存储集群,专注海量数据的存储和基本的加工、过滤等操作,计算和存储集群之间通过高速网络互联,充分发挥各自优势、合理分工、紧密协同。存算分离架构具有更灵活的计算资源、存储资源和业务扩展能力。计算中心的存算一体大数据集群大多存在CPU利用率低或者硬盘不够用的情况,计算和存储资源使用不均衡且无法单独扩展,即便增加服务器解决了一个维度的问题却使另一个维度的问题更严重,导致计算和存储资源只能绑定在一起。而且多个集群之间也无法共享存储资源。存算分离架构不仅可以单独扩展计

24、算集群或者存储集群,还可以带来更加灵活的业务扩展能力。-9-3有效算力评测体系与应用存算分离架构可以实施数据生命周期管理。数据根据其时效不同具有不同的热度(访问频率),将冷、温、热数据按需存储到机械硬盘、固态硬盘、持久化内存等不同的介质上可以优化性能,获得最佳体验。使用专用的存储集群和生命周期管理软件可以实现细致的数据热度管理策略和快速的介质间迁移。存算分离更加降本增效。存算分离架构可以分别提升计算、存储密度,对大量使用CPU、GPU等发热量大的计算集群使用液冷方案,对于发热量低的存储集群使用风冷或自然冷却,达到节能低碳,降低PUE的目标。(2)利用统一内存池提升有效算力能力在大数据离线分析场

25、景中,Shuffle是在MapReduce计算过程中的一个主要操作,该操作将Map任务的输出数据重新分布到Reduce任务的计算节点上,进行下一阶段的计算。原生Hadoop、Spark等大数据分析平台的Shuffle过程是将数据先保存到Map任务本地硬盘,再发送到远程Reduce任务节点内存中。主要原因是每个计算节点的内存是有限的,无法缓存所有的Map任务输出数据。但该落盘操作不得不切断原本顺滑的数据处理流水线,大大降低分析性能。统一内存池将大数据集群内计算节点的内存互联池化,建立统一访问图2存算分离架构图示-10-计算中心有效算力评测体系白皮书空间,并通过远程直接内存访问(RDMA)协议实现

26、低延迟读写访问。基于OCK统一内存池框架的Shuffle免去本地硬盘保存过程,通过远程内存访问协议直接写入Reducer的内存中,可以减少数据拷贝次数,提升Spark作业性能,进而提升有效算力。图3统一内存池架构图示针对内存墙限制,统一内存池技术扩展了单节点的内存容量,使应用可以尽可能的舍弃外存,而使用更快的内存资源,其不仅可加速MapReduce的Shuffle过程,而且可应用于数据库、虚拟化、人工智能等场景下获得性能提升。-11-3有效算力评测体系与应用3.2有效算力评测体系3.2.1有效算力指标CUE有效算力指标(CUE:Computing Usage Effectiveness),是覆

27、盖计算中心全生命周期评估的指标体系,包含了对应的方法论、工具和测试数据集。可用于评价计算中心建设的绿色性、先进性、实用性。CUE与PUE两个指标可以从计算中心的“有效算力与能耗水平”两个维度,以一种综合的方式衡量计算中心设计质量的指标体系。CUE核心理念:从规格算力演进到有效算力以表征应用业务性能;从PUE演进到CUE,以体现全栈垂直优化的价值。CUE评测指标提供方法论和工具支撑,真实反映计算中心资源使用情况,通过效能分析,指导计算中心面向业务场景,从全栈融合的角度,自机房、能源基础设施、硬件基础设施至软件基础设施各层的整体设计与建设,提高计算中心资源使用率。从能耗比,演进到算能比,提升资源可

28、分配的效能。鼓励建设主体按照有效算力标准对计算中心进行系统化设计;通过PoC(Proof of Concept)牵引硬件与硬件协同、硬件与软件协同、软件与软件协同,以获取更优的有效算力。3.2.2有效算力指标CUE的计量方法有效算力指标可用如下方式进行计量:其中Psi为测试集在基准软硬件系统上的实际性能;Pi为测试集在目标软硬件系统上的实际性能。i为测试集中不同benchmark或实际应用软件的权重。为调整系数,建议该常数值为100。-12-计算中心有效算力评测体系白皮书CUE公式的设立,可以有效避免多个真实业务性能测试所带来的单位不统一、描述过于复杂等局面。通过几何加权平均的方式获得一个单一

29、数值,有助于进行定量、对比性分析。例如在人工智能领域,实际吞吐率代表人工智能服务器系统对特定训练或推理作业的有效计算能力。提升有效计算能力可达到硬件系统扩容的效果。有效算力的提升,软件方面的优化可包含如计算设备加速库中算子的优化、软件栈的轻量化等技术的应用。对特定训练作业的有效计算能力是单位时间内训练过程能消耗的样本数量:对视觉类测试,单位为图片数每秒(images/s);对自然语言处理类测试,单位为句数每秒(sentences/s)。如评价人工智能服务器系统的综合训练能力,可将多个代表性训练作业的有效计算能力综合起来,形成人工智能服务器系统的有效计算能力,它是人工智能服务器系统在给定任务集合

30、S上,实际吞吐率与每任务基线吞吐率之比的加权几何平均。a)对于给定的训练场景集合S,对每个场景负载sS,使用某特定参照计算系统,在s上测得吞吐率作为基线;b)设SUT在s上测得的训练实际吞吐率为,则训练综合相对吞吐率,由在s上的加权几何平均计算。:式中:是在参考人工智能计算设备上测得的关于s的基线吞吐率。对于一次对比测试,应在所有被测系统的运行中保持不变;-13-3有效算力评测体系与应用s 是作业s对应的权值;调整系数。如测得场景resnet50_v1.5及bert-large的实际吞吐率与,训练吞吐率综合加速比可由下式计算:式中:调整系数,默认为100;ThRN*resnet50_v1.5对

31、应的基线吞吐率;ThBL*bert-large对应的基线吞吐率;RN resnet50_v1.5对应的权值;BL bert-large对应的权值。3.2.3有效算力指标CUE的测试集与测试工具按照计算中心使用目的,CUE可被细分为面向人工智能计算中心、超算中心和一体化大数据中心的CUE指标。其中,面向于人工智能计算中心的CUE测试集可参考信息技术 人工智能 服务器系统性能测试规范(T/CESA 1169-2021)的测试集,例如图像识别、语义分析等。测试集的选择需要兼顾效率、公平性与牵引作用。随着技术和应用的不断发展,将会有更多的测试集,例如大模型、国产数据集等不断涌现,需要适当考虑测试集的标

32、准化更新问题。-14-计算中心有效算力评测体系白皮书图4标准中定义的测试集实例图5CPPB-CPU中定义的标准测试集及可能的集群系统测试集扩展CPPB-CPU-int,用于测试裸算力,对位SPEC CPU,只关注计算性能CPPB-Cluster-BigData,用于测试大数据集群有效算力,关注集群业务综合性能CPPB-Cluster-DataBase,用于测试数据库集群有效算力,关注集群业务综合性能测试场景workloadgccx264gzipregexHbaseSparkStormOLTPOLAPSM2/SM3/SM4编译器视频编码解码数据压缩大数据数据库加解密文字处理类型项目112技术要素

33、模型模型数据集a门限b优化方法试验次数结果模型精度数据集a门限b优化方法试验次数结果模型精度损失函数损失函数模型数据集a门限b优化方法试验次数结果模型精度损失函数AI服务器AI服务器集群图像识别自然语言处理resnet101_v1imagenet2012imagenet2012sgd+momentumsgd+momentum5555FP16/FP32FP16/FP32FP16/FP32bert-large d gcn-wiki/en-wikiresnet50_v1.5softmax+cross entropy losssoftmax+cross entropy losssoftmax+nega

34、tive maximumlikehood lossTop1-准确率 75%resnet101_v1imagenet2012sgd+momentum77FP16/FP32softmax+cross entropy lossTop1-准确率 75%Top1准确率 74%mask_lm accuracy 0.7lambimagenet2012sgd+momentumFP16/FP32FP16/FP32bert-large d gcn-wiki/en-wikiresnet50_v1.5softmax+cross entropy losssoftmax+negative maximumlikehood

35、lossTop1准确率 74%mask_lm accuracy 0.7lamb-15-3有效算力评测体系与应用建议面向于通用场景的CUE测试集可在CPPB-CPU标准测试集基础上进行扩展,例如大数据、数据库等分布式集群应用。建议在一定规模规格算力的集群系统上进行有效算力测试。允许优化硬件配置与基础软件版本,以及应用参数等,以体现全栈优化的效果,并根据实测工具获取最终性能数值。该数值可作为不同技术路线集群系统的性能对比,以牵引技术架构与软硬件设计的演进。对于人工智能计算中心、超算中心等并行集群系统特征更为明显的业务场景,或者一体化大数据中心等并发集群系统特征更为明显的业务场景,亦可通过有效算力的

36、评测方法,按照并行或者并发的技术,进行整系统的评测,以实现对传统评测方法的补充。相对而言,并行的测试方法更关注整系统对单一任务的处理能力,而并发的测试方法更关注整系统对多个任务的吞吐能力。人工智能计算中心的有效算力测试工具进展显著,目前相关的标准化组织已发布AISBench Test Toolkit作为测试工具套件。同时发布人工智能系统性能测试规则,定义了人工智能系统及应用性能测试内容、组织流程和发布方法。在使用AISBench 进行测试工程中,测试方使用AIBench-Tester,被测方使用AISBench-Stub,在第三方机构监督下进行测试。测试的数据集可参考信息技术 人工智能 服务器

37、系统性能测试规范(T/CESA 1169-2021)的测试集。测试系统建议在一定规模规格算力的集群系统,或者计算中心整系统进行测试。3.3有效算力的应用场景与算力类型相对应的,本报告中列举出新型基础设施的三种代表性计算中心,以及在这些场景下有效算力如何表示。这三种计算中心分别是人工智能算力所对应的人工智能计算中心,通用算力所对应的一体化大数据中心和超算算力对应的超算中心。-16-计算中心有效算力评测体系白皮书同时,随着算力网络概念的提出,如何在算力网络场景中通过有效算力的方式度量、交易多种算力,也是迫切需要解决的前沿问题。随着计算中心业务的不断丰富和发展,有效算力的应用场景将更为多样化,在后续

38、的白皮书中将继续增加算力类型和有效算力的广度和深度。3.3.1人工智能计算中心人工智能计算中心是以基于人工智能芯片构建的人工智能计算机集群为基础,涵盖了基建基础设施、硬件基础设施和软件基础设施的完整系统,主要应用于人工智能深度学习模型开发、模型训练和模型推理等场景,提供从底层芯片算力释放到顶层应用使能的人工智能全栈能力。人工智能计算中心面向需要大量人工智能算力的新兴行业提供普惠的人工智能公共算力服务,负载应用使用多种人工智能模型,其有效算力可以通过提取主要应用领域、选取领域典型代表模型并测试代表模型的性能表现、统计代表模型应用比例三个步骤获得评估数据。计算机视觉(Computer Vision

39、,CV)和自然语言处理(Natural Language Processing,NLP)是人工智能计算中心当前主要的应用领域。人工智能广泛应用于计算机视觉、自然语言处理、语音识别、对话机器人、个性化推荐等领域。根据2020-2021中国人工智能计算力发展评估报告,计算机视觉和自然语言处理是人工智能当前最主要的应用领域,在整体人工智能市场中占比超过90%。计算机视觉、自然语言处理深度学习技术,已经在安防、工业检测、智慧园区、对话机器人、语言翻译等生产场景落地,取得了良好的应用效果。实际上,CV、NLP也是深度学习技术应用最成功的两个领域。通过对当前计算机视觉和自然语言处理领域的常用代表性模型Re

40、sNet50和Bert-Large的分布数据进行统计分析,ResNet50模型相对占比约为56%,Bert-Large模型相对占比约为44%。ResNet和Bert是当前人工智能领域典型的代表模型,建议作为目前-17-3有效算力评测体系与应用有效算力的典型负载。图像分类是计算机视觉最为常见的应用。ResNet作为最为经典的分类模型,在ImageNet数据集上top5错误率3.57%,ILSVRC 2015竞赛排名第一。ResNet能够有效缓解梯度过深导致的梯度消失问题,使得网络加深后性能不会变差,收敛速度更快,同时参数相对之前的模型更少、复杂度更低。近年来又出现了很多ResNet网络的变体,如

41、Res2Net,ResNeSt,IResNet,SCNet等,应用更加广泛。因此在CV领域,以ResNet模型为代表的图像分类任务,可作为有效算力度量的标准负载。自然语言处理是深度学习的另一个主战场,包括文本分类、文本生成、文本摘要、主题提取等多个细分任务。开发者针对某一个NLP业务主题收集语料、设计网络结构、训练,定制化开发成本高。近年来出现了预训练大模型技术,开发门槛低、训练成本低、精度高,并且沉淀行业知识,能够很大程度上解决传统模型开发碎片化的问题。大模型成为NLP领域重要的技术突破。Bert模型作为典型的NLP大模型,在11个方向大幅刷新了精度,从发布至今一直备受关注,近年来出现了多个

42、变体,如ROBERTA、ALBert、ERNIE、BertGCN等,持续刷新SOTA,是深度学习领域的研究热点。NLP应用场景广泛,任务多样化,开源测评数据集丰富,可以作为另一个有效算力度量的标准负载。由此可见,当前ResNet和Bert模型分别是计算机视觉和自然语言处理领域中研究和应用最广泛,落地最成熟的典型模型。随着人工智能技术的不断演进,新的模型不断涌现,相信未来我们会看到更多的模型落地。有效算力的典型负载会不断更新和完善,始终代表人工智能计算中心主流负载。3.3.2一体化大数据中心为推动计算中心合理布局、供需平衡、绿色集约和互联互通,构建数据中心、云计算、大数据一体化的新型算力网络体系

43、,促进数据要素流通-18-计算中心有效算力评测体系白皮书应用,实现计算中心绿色高质量发展,2021年,国家发展改革委、中央网信办、工业和信息化部、国家能源局联合发布全国一体化大数据中心协同创新体系算力枢纽实施方案,全国一体化大数据中心建设已成为未来新经济社会发展的重要基础。交互、交易、洞察三种应用系统成为一体化大数据中心负载的主要组成部分。一体化大数据中心面向社会千行百业提供通用计算服务。业务应用基本上有四类:1.交互类,如线上政务、办公应用,互联网购物、社交应用的前端系统,以Web/应用服务器类负载为主。2.交易类,如网上支付以及各类资产交易系统,以数据库类负载为主。3.洞察类,如经营分析、

44、客户画像等,以大数据分析类负载为主。4.另外还有其他定制业务应用,以云主机负载为主。一体化大数据中心的实际业务应用可能由多个类型的负载以一定的比例组合而成。大数据分析、数据库、Web/应用中间件、云主机是一体化大数据中心的典型业务负载。1.大数据分析类负载大数据分析应用场景通常基于Hadoop、Spark生态开源大数据计算引擎或相关的商业发行版构建大数据分析集群,可以对各类结构化、非结构化、半结构化数据进行加工处理和分析挖掘。以Spark为例,主要应用于离线批处理,包括机器学习和图分析,以及少量的流式计算。离线批处理以海量非结构化数据的排序、结构化数据的统计挖掘应用为代表,离线批处理应用参与计

45、算的数据量大、数据格式多样、处理过程复杂,对数据处理时间要求不高,可以从分钟到小时级别,常用于后台海量数据的深度分析。-19-3有效算力评测体系与应用机器学习和图分析数据挖掘需要利用机器学习提供的模型技术在海量数据中识别出潜在未知的规律,以发掘其中蕴含的有用信息。通用的机器学习算法和工具包括分类、回归、聚类、协同过滤、降维等。在社交媒体数据挖掘中使用图来表示网络结构,能够更快地在大量数据中识别圈团和连接关系,图分析技术在搜索引擎和推荐系统中被大量应用。从业务应用层面衡量一个大数据分析系统的有效算力可以对单位时间内能够完成的文本排序、排名统计、分析作业等不同类型的负载量进行测试。TeraSort

46、是Hadoop内置的一种业界主流的排序性能测试基准,通过在给定的大数据集群上对随机生成的TB级文本数据进行排序,得到集群每分钟能够排序的数据量(GB/Min)。PageRank是一种在图上使用无监督机器学习进行排名的测试基准,这种算法应用在谷歌的搜索结果排名中,其测试结果同样是集群每分钟实现排名的数据量(GB/Min)。TPC-DS测试基准来自零售行业订单数据挖掘业务,在集群上对25张表执行99个SQL,其执行时间体现了集群的性能。大数据分析系统除了对CPU处理能力的要求之外,还对存储和网络的吞吐量产生很大的挑战,通过合理的存算架构设计、算子统筹协调、近数据计算、内存计算等技术可以达到减少数据

47、搬迁,提升处理吞吐量,并最终缩短计算时间的目标。同时,新兴的数据处理单元(DPU)具有数据I/O、协议栈卸载能力,实现了与CPU的互补,对提升大数据分析有效算力具有很大作用。2.数据库类负载数据库应用场景当前主要以MySQL、OpenGauss、Hbase等开源数据库引擎或者各类商业数据库软件构建数据库平台,对各类结构化数据进行事务处理和快速查询。关系型数据库-20-计算中心有效算力评测体系白皮书关系数据库处理核心数据,支撑关键应用。关系型数据库面向联机事物处理(OLTP),其最大的特点是能够保证事务(transaction)处理过程的一致性,即保证所管理的记录数据在增、删、改、查过程中的正确

48、性,满足现实世界中各类交易场景的需求,如金融交易、订单管理等。Key-Value数据库又称键值数据库,其独特的数据结构和存储方式可以快速通过Key值索引查询获得相应内容数据。广泛应用于海量历史记录的查询场景,比如话单查询、运维日志查询等。对键值数据库的要求主要是容量、时延、性价比,能够存储海量历史数据并可以随时被查询调出。衡量关系型数据库业务性能的指标一般通过交易处理量,即能够处理记录的增、删、改、查等操作的数量。TPC-C是由事务处理性能委员会提供的一个专门针对联机事务处理系统测评的基准测试工具,其业务模型来自大型的商品批发销售场景,详细定义了商品、客户、销售网点、仓库等交易过程中涉及的元素

49、,测试过程中模拟高并发的查询、下单、支付等操作,其测试结果是数据库每分钟完成的交易数量TPM(Transactions per Minute)。3.Web/应用中间件类负载包括提供网页Http请求服务的Web服务器,如Nginx、Apache等,提供业务应用处理服务的应用服务器,如Tomcat等。4.定制业务应用(云主机类负载)与上述各类计算平台不同,虚机属于更底层的基础架构。由于虚拟化可以提供多租户、安全隔离、高效运维等优势特性,越来越多的应用基于虚机部署,包括大数据应用以及各类ISV自研应用。因此在虚拟化层的优化也成为应用加速的重要一环,例如通过数据处理单元(DPU)卸载虚机中的网络负载、

50、存储负载和部分计算负载能够显著提升虚机性能。-21-3有效算力评测体系与应用3.3.3超算中心超级计算中心(以下简称超算中心)是以超级计算机为基础,面向科研、国民经济、社会发展、高新技术产业等突出问题和核心技术,是着重对准解决普通计算机和服务器不能完成的大型复杂课题而建设的,相对于早期的计算中心而言,它的计算能力有了巨大的飞跃,可应用的领域和使用模式更有了极大的拓展。超算中心建立在足够的科技创新能力和应用需求基础上,是一个国家和地区的自主创新能力和综合竞争力的具体体现。超算中心的业务特征可用七个小矮人来进行表征。从算法角度来说,美国超算领域著名数学算法专家 Colella 于 2004 年提出

51、了科学计算的 7 种算法模型,即结构性网格、非结构性网格、快速傅里叶变换(FFT)、稠密线性代数(Dense Linear Algebra)、稀疏线性代数(Sparse Linear Algebra)、粒子动力学(Particles)、蒙特卡洛(Monte Carlo),被称为“七个小矮人”。这 7 种算法模型对高性能计算机提出了不同方面和层次的需求,也基本覆盖了常见高性能计算应用。气象、制造、生命、油气等应用功能软件是超算中心的主要负载类型。(1)气候气象。气候气象是高性能计算的重要应用领域。气象预测研究大气的变化规律,从定性和定量两方面来说明大气的特征,其计算量大、时效性要求高。气候气象领

52、域应用对集群系统的内存带宽、网络时延等提出非常高的要求。WRF、GRAPES等是该领域的典型应用软件。(2)制造CAE。以汽车研发为例,汽车结构的静、动强度、疲劳、空气动力学、NVH和碰撞安全等广泛、深入的CAE分析计算模拟已经成为汽车研发的最重要手段之一。工业制造领域典型的应用包括OpenFOAM、SU2等。(3)固体物理和纳米材料。在固体物理和纳米材料领域,固体物理和纳米材料的空间尺度一般可以从原子到微米尺度。人们可以了解材料的电子、光学、磁性、热学、力学等基本物理化学性质,主要计算方法是第-22-计算中心有效算力评测体系白皮书一性原理计算和分子动力学方法,蒙特卡洛方法也常有应用。固体物理

53、和纳米材料领域典型应用包括VASP、Gromacs等。(4)生命科学。生命科学可细分为基因测序、电镜分析、蛋白质折叠等生物信息学。生命科学领域典型的软件包括Blast、GATK、Eman等。通过典型应用软件,如WRF、OpenFOAM、VASP等HPC作业在集群上的运行时间可以评估超算集群的有效算力。3.3.4算力网络2022年5月,鹏城实验室在国家有关部委指导下首次公开发布“中国算力网(China Computing NET,C2NET)”研究计划,6月正式上线一期工程“智算网络版块”,全面接入鹏城云脑、北京、合肥、武汉、西安、成都、中原、南京、杭州等9个算力中心,标志中国算力网建设迈出实质

54、性一步。国内三大运营商也对算力网络展开深入的研究与布局。运营商普遍认为,新时代算网协同需求愈发突出,算网协同将实现算网资源高效融合、算力服务泛在灵活、算力供给智能高效和算力基础设施绿色低碳。而算力网络是运营商新型信息基础设施的重要组成、云网融合数字基础设施的重要特征和重要组成部分,并相继发布算力网络白皮书。算力网络是计算和网络深度融合下的新型网络架构。以无所不在的网络连接和高度分布式的计算节点为基础,通过服务的自动化部署、业务的最优路由和负载均衡,构建全新的算力基础设施和网络基础设施,以网络系统化优势改变单点算力不足的现状,通过算力调度的高需求促进网络超宽带智能发展。保证网络能够按需、实时调度

55、不同位置的计算资源,提高网络和计算资源利用率,进一步提升用户体验,从而实现网络无所不达,算力无处不在,智能无所不及的目标。算力网络的核心思想是将计算节点联接起来,动态实时感知算力状态,并统筹分配和调度计算任务,构成感知、决策、分配、调度算力的网-23-3有效算力评测体系与应用络。在此基础上汇聚和共享算力、应用、数据、算法资源,是一种多资源、多样性异构算力深度融合。算力网络使算力资源从单计算节点统一分配转变到所有计算节点间任务和资源统一调度。通过算力网络建设,打造我国信息基础设施数字基座,实现“共建算力、共享资源、共同发展”的愿景。算力网络中有效算力的典型应用场景主要包括算力需求度量、算力资源管

56、理和算力交易。算力网络面向计算类业务,根据业务的需求,结合当前网络中实时的网络状况和可服务的计算资源的计算状况,通过算力网络灵活匹配、动态调度,将计算任务路由到合适的目标计算节点,以支撑业务的计算需求,保证业务的用户体验。(1)算力需求度量:算力需求的量化是实现算力服务化的基础国家推动“中国算力网”建设的一个重要意义是提高算力使用效率,实现全国算力规模化、集约化的发展,而如何将用户的业务需求转化为真实算力需求,将对确定业务的部署位置,以及应用的分发和数据的搬运产生关键价值。用户业务的算力需求是否得到准确的表征,将会直接作用于算力调度和算力交易,并对用户的真实业务体验带来影响。算力需求的量化是实

57、现算力服务化的基础,通过有效算力量化面向业务的真实算力,将为用户提供更好的业务体验。不同的业务应用对算力的需求不一致,比如训练类场景需要处理海量数据,用大量标记过的数据训练复杂的神经网络模型,实现满足特定功能场景的要求,因此训练类任务主要集中在云端,需要有足够强的计算能力作为保障。(2)算力资源管理:对计算节点可用算力资源的度量算力资源管理将算力资源的度量值上报到算网大脑,构建算力地图,为算力调度提供依据。有效算力对于实际业务的量化是算力调度和使用的基础,算力网络将充分获取多级泛在的算力资源,综合考虑各个计算节点的负载、价格、能耗和数据等维度,制定相应的调度策略,满足用户的业-24-计算中心有

58、效算力评测体系白皮书务需求。(3)算力交易:将有效算力作为服务提供给用户算力交易过程中,算力的贡献者(算力卖家)与算力的使用者(算力买家)分离,整合算力贡献者的零散算力,为算力使用者提供经济、高效、去中心化的算力服务。最后,在算力网络场景中,如何从用户的角度去考虑应用与有效算力的对应关系,如何从运营者的角度去考虑算力网络中各中心异构算力的统一度量,以实现公平有效的算力定价等,这些问题有待进一步展开讨论。-25-3有效算力评测体系与应用4有效算力的标准与评测进展“十四五”是发展数字经济的关键窗口期。通过达成一定的有效算力产业共识,形成一些相关的标准,组织一批先进计算中心评测,以达到牵引计算中心高

59、质量建设,形成“节能”+“增效”的双提升局面,意义重大。4.1人工智能场景有效算力标准现状目前,T/CESA 11692021信息技术 人工智能 服务器系统性能测试规范中给出了有效算力的测量方法。该标准由中国电子技术标准化研究院牵头起草,中国科学院软件研究所、北京航空航天大学、曙光信息产业有限公司、联想集团有限公司、北京旷视科技有限公司、科大讯飞股份有限公司、上海依图网络科技有限公司、华为技术有限公司、浪潮电子信息产业股份有限公司、上海商汤阡誓科技有限公司等共同研制,于2021年8月26日发布,同年9月1日起实施。该标准规定了人工智能服务器系统,完成深度学习训练及推理任务的性能(运行时间、能耗

60、、实际吞吐率、能效、效率、弹性、承压能力等)测试方法,适用于人工智能服务器系统的性能评估。该标准的提出,旨在提供规范、全面、兼顾行业常见场景的人工智能服务器和人工智能服务器集群性能测试方法及指标,为各领域用户人工智能计算系统的优化提供依据和途径。有效算力的标准化,使其计量有了标准的、固化的负载和配置(数据集,优化方法,作业到达模式等)。固化的负载和配置,弱化了计算能力计量过程中算法、模型层面配置差异可能带来的影响,使对计算设备硬件及其配套的组件(如计算库,训练、推理软件框架工具等)的计算能力的计量得以实施。-26-计算中心有效算力评测体系白皮书4.2通用场景有效算力标准现状目前针对IT设备或数

61、据中心层面的算力核算,产业界或标准组织中更多的还是采用以处理器能力为核算指标。一种方法是直接通过处理器厂商配置中的参数计算得来,即规格算力。正在制定的标准有:2021-1316T-YD 数据中心算力技术要求和测评方法2021-CCSA-70 数据中心算力测试方法另一种方法大多是基于基准程序运行结果得到,如SPEC组织推出的SPEC CPU2017、国内计算产品性能基准工作组推出的通用计算性能基准工具CPUBench,均是采用实际业务中的计算密集型部分作为测试负载,也都已成为业界重要的测试基准。2022年,中国电子工业标准化技术协会发布的3项团体标准对通用算力性能评测技术要求、负载设计要求以及运

62、行框架要求进行了规定,有助于加强在通用算力性能工具开发和设计方面的指导。具体如下:CESA-2020-4-007通用计算CPU性能测试评价技术要求CESA-2021-3-001通用计算CPU性能测试基准负载设计要求CESA-2021-3-002通用计算CPU性能测试基准运行框架要求但上述方法均从计算部件或服务器单机层面进行简单求和,并未考虑集群生产系统或计算中心系统在实际业务场景中的算力表现,忽略了计算、存储、网络之间的复杂交互过程。因此,以集群系统业务生产能力为代表的算力评测亟待进行研究,相关标准配套工具也需尽快研发。4.3超算场景有效算力标准现状超算行业中大多是采用业内比较成熟的线性系统软

63、件包Linpack 性能测试基准(集群环境下多采用HPL基准),该基准程序通过用高斯消元法求解N元一次稠密线性代数方程组来评价超算系统浮点计算能力。一种单-27-4有效算力的标准与评测进展一的标准能否有效地衡量出超级计算机的真实性能一直引起人们的质疑。后续更多的基准工具(如:HPCC、HPC-AI等)较之前的评价维度有所变化,但仍没有走到采用实际业务性能表现来评判计算系统性能这一步。2021年,绿色计算产业联盟发布的标准服务器应用场景性能测试方法 高性能计算开始采用典型业务应用(如气象领域、基因领域、CFD领域)对超算系统进行测试。其中标准参编单位有:中国电子技术标准化研究院、上海交通大学、华

64、为技术有限公司、天津飞腾信息技术有限公司、安谋科技(中国)有限公司等单位。如何更系统、更有针对性在超算场景下对设备系统的算力进行评估依旧值得探究,旨在为发现系统性能瓶颈、进行算力评估和配置规划等提供有效指导。-28-计算中心有效算力评测体系白皮书有效计算能力指标体系,是一个计算能力计量指标的集合,涵盖通用计算设备(如通用服务器、集群等)和专用计算设备(如人工智能服务器、人工智能集群和人工智能计算中心等)计算能力的计量。要使有效算力指标体系服务于产业,就要推进有效算力评测体系的建设,包含政策引导、指标体系标准化和工具研制、组织承载和榜单发布等关键环节,形成常态循环,不断促进产业发展。5.1建议政

65、策导向有效算力的先行先试随着国家出台对“数字经济”的宏观规划,优化升级数字基础设施,加快构建算力、算法、数据、应用资源协同的全国一体化大数据体系,稳步构建智能高效的融合基础设施等成为计算中心领域的重点措施。而其中高质量计算中心的建设与升级,需要通过应用,通过“有效算力”的建设方式进行牵引。随着“东数西算”工程的规划、设计和实施,算力的评测、租售和使用将成为常态。在标准化的安全保障和作业规程的基础上,有效计算能力有望成为计算能力建设、买卖的计量单位。而有效计算能力指标体系,则将各种计算设备的计算能力统合起来,实现以下目标:以实际需求衡量应用需要的有效算力;按用户实际所得计量计算能力;不同类型计算

66、能力的相互换算;奠定数据要素流通和交易的基础。建议加强政策牵引,鼓励“有效算力”作为计算中心高质量建设标准进行先行先试,形成有政策可循的局面。5大力推进有效算力评测体系建设-29-5大力推进有效算力评测体系建设5.2建议加快指标体系的标准化和工具化从测试科学上讲,有效计算能力是一个计量指标体系。从算力交易角度来讲,有效计算能力用于衡量计算设备实时负载情况。从计算设备性能上来讲,有效计算能力代表计算设备在标准化负载上,实际所能输出计算性能。增广有效计算能力指标体系的应用,将为我国计算产业的发展奠定现实基础。发挥有效计算能力指标体系对产业的带动力的一种有效形式是推进可落地实施的标准化。标准配套工具

67、的研制和使用是标准落地的先决条件。完整的工具,应能完成、约束、协助被测系统完成标准规定的所有可能的测试过程,实现测试公平性检查,测试过程监控,测试结果收集,结果发布管理等功能。建议加快“有效算力”指标体系的建设工作,在相关领域形成标准和工具,形成有标准可依,有数据可查的局面。5.3建议通过组织承载并进行榜单发布建议有效算力评测体系在人工智能计算中心场景进行先行先试。可基于人工智能计算设备有效计算能力,以维护公共利益为目标,在相关机构的指导下,以权威第三方机构为主导,联合产业生产者、使用者、集成者、测试者等诸多参与方,组成测试工作组进行专题运作。建立并定期发布人工智能计算设备有效计算能力榜单。榜

68、单可有多重内容和用途:从计算设备性能比较上讲,榜单可以为用户直观地显示特定计算设备在标准化负载上的有效计算能力,作为计算设备代次更替、周期性优化成果的展示、验证、发布场所;从计算能力交易上讲,榜单可以给出所辖计算设备当前的负载情况和可用计算能力,为交易提供依据。-30-计算中心有效算力评测体系白皮书我国是人工智能技术研究、应用大国,有巨量计算需求。但与此形成对照的是,对比欧美先进国家,我国计算设备的生产、研制尚存相当大的增进空间。计算能力榜单,不仅是国家计算产业的晴雨表,计算设备综合研制能力、性能的缩影,更是市场的导向。当前,我国尚未建立有公信力的第三方有效计算能力榜单。计算能力指标,计量及相

69、关标准,对国外有相当程度的依存性。为更好地促进我国人工智能计算产业发展,促进计算产业技术良性竞争,为“东数西算”创造基础,应完善配套标准,优化计量工具,培养专业测试组织人员,加速建立以有效计算能力指标体系为基础的榜单。-31-5大力推进有效算力评测体系建设有效算力白皮书将作为系列化的白皮书持续演进发布。在本白皮书中,首先提出有效算力和有效算力指标的概念,给出有效算力的内涵、定义、计量和评测方法,及有效算力和有效算力评测指标体系的应用场景、标准进展与规划。本白皮书首先聚焦计算中心,尤其是人工智能计算中心,随着标准、产业共识等的持续推进,更多应用场景如边缘数据中心、算力网络等领域的有效算力白皮书将

70、陆续发布。应该认识到,有效算力对各种应用场景的完整覆盖仍有一段路要走。正如本白皮书指出的,如何在一体化大数据中心等通用算力场景进行有效算力业务负载的选择;如何在CPPB等面向服务器的标准走向面向集群的有效算力标准;在算力网络场景中,如何从用户的角度去考虑应用与有效算力的对应关系,如何从运营者的角度去考虑有效算力定价等,这些问题有待进一步展开讨论。希望本白皮书能够开启“有效算力”理念在产业界的广泛讨论与共识的逐步达成,加速相关政策、标准、工具和评测等工作的展开,从而实现牵引以有效算力的衡量方式进行计算中心新型基础设施高质量建设,达到以业务应用为牵引、以全栈优化为手段、以节能增效为目标的计算中心建设和评测体系,提升计算中心新型基础设施建设的质量,以支撑数字经济与双碳驱动等宏观政策与顶层设计落地。6结语

友情提示

1、下载报告失败解决办法
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。

本文(全国信标委:2022计算中心有效算力评测体系白皮书(37页).pdf)为本站 (淡然如水) 主动上传,三个皮匠报告文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三个皮匠报告文库(点击联系客服),我们立即给予删除!

温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。
会员购买
客服

专属顾问

商务合作

机构入驻、侵权投诉、商务合作

服务号

三个皮匠报告官方公众号

回到顶部