《益企研究院:2024 数字中国万里行暨算力经济中国行考察报告(154页).pdf》由会员分享,可在线阅读,更多相关《益企研究院:2024 数字中国万里行暨算力经济中国行考察报告(154页).pdf(154页珍藏版)》请在三个皮匠报告上搜索。
1、12特 别 鸣 谢3目录 CONTENTS序 东数西算与主权大模型的思考算力经济对基础设施、技术创新提出新要求P002确保“东数西算”工程高质量发展P003构建主权级基础大模型P004加快培养新质生产力人才P005PART 综述第一章.算力即新质生产力 P008智能驾驶有望贡献算力的全新增量P009高校开启新一轮技术创新实践 P011智算产业需加快软硬件适配生态建设 P013异构计算支持大计算场景P017绿色算力:从全栈视角落地液冷技术 P019算力与能源协同联动P021“算力经济”创新实践P022PART 行业应用篇第二章.算力数据驱动 智能驾驶进入下半场 P026自动驾驶进入数据驱动的 3
2、.0 时代 P027多模态大模型促进技术变革 P028智能算力赋能自动驾驶 P031车能路云网融合发展加速落地 P0354第三章.算力赋能产学研 助力高校技术创新 P042北京大学:算力运营探索,自研 SCOW 管理平台P043上海交通大学:优化应用部署,关注复合型人才培养 P045华南理工大学:以多元化液冷实践打造高效绿色算力 P050中国农业大学:花小钱办大事,算力强势增长P052华中农业大学:释放多元算力价值,推动交叉学科应用P054中国人民大学:升级算力应用,打造“玉兰 10B”大模型P055北京理工大学:提升大模型价值,“墨子”全新升级 P056PART 技术演进篇第四章.多元算力交
3、织 P060CPU:分而利合 P061GPU:合纵连横 P079DPU:由云向智 P088服务器:重构升级 P105第五章.全栈数据中心理念落地 P117全栈液冷技术新突破 P117从专业计算到创新实践 P124PART 产业联动篇第六章.算力能源协同 P132绿色节能创新实践 P133大模型助力算电协同创新 P136绿电应用探索实践 P138绿电供给实践 P140第七章.算力经济创新实践 P145“算力之都”张家口 P146“草原云谷”乌兰察布 P147“中国云谷世界算谷”“金融云谷”和林格尔 P1482024 数字中国万里行考察报告 目录22024 数字中国万里行考察报告 序2024 年的
4、两会上,我提交了关于“东数西算”工程高质量发展、破解大模型算力瓶颈、培养新质生产力人才的相关提案。并且,首次提出了要构建“主权级基础大模型”,用以提升国家竞争力,维护未来国家安全。算力经济对基础设施、技术创新提出新要求在从事超级计算 30 余年的过程中,我对计算技术的发展和应用有了深刻的理解与洞察。2018年,我首提“算力经济(Computational Economy)”这个概念,最初定义的维度是比较简单的。首先计算要成为算力经济的核心,未来以计算能力来衡量一个地方或地区的数字经济发展水平,使之成为一个很重要的指标。随着“东数西算”工程的发布正式开启了算力经济时代,一个地区的算力产业是不是发
5、达,也意味着数字经济是不是有机会,算力经济也成为了西部地区新一轮经济发展的强力抓手。狭义的算力经济定义是指与算力强关联的算力服务产业链,其中包括了四类参与者:一是算力设施提供者;二是算力生产者;三是算力运营者;四是是算力消费者。他们共同闭环成为一种商业模式。随着认识的深化,随后又有了广义的算力经济,即“算力+”。凡是可以用到算力的国民经济的各个方向全国政协委员中国科学院计算技术研究所研究员益企研究院首席专家顾问张云泉单元,都是算力经济的范围。只要以算力为核心生产要素,以算力为引擎,就都是广义的算力经济。这是数字经济很重要的一个组成部分,在数字经济中的比重会越来越大。综上所述,在围绕算力本身产生
6、的算力服务产业中,狭义的算力经济指算力服务业产业链;广义的算力经济可以理解为数字产业化、产业数字化、城镇数字化这种提供各种基础设施,提供各种支撑保障的新模式和新业态,也就是算力+产业。算力经济是一个相对较新的概念。它指的是在数字经济中,计算能力(或称为算力)作为一种资源,其分配、使用和价值化的过程。随着技术的发展,特别是在云计算、大数据、人工智能等领域,算力作为新质生产力,成为了推动经济增长的关键因素之一,具备以下几个核心点。资源化:计算能力被视作一种资源,可以像电力、水资源一样被分配和交易。市场化:算力可以在市场上进行买卖,形成供需关系,价格由市场决定。服务化:算力通常以服务的形式提供给用户
7、,如序 东数西算与主权大模型的思考3云服务、高性能计算服务等。价值化:算力的使用可以带来经济价值,比如通过提高生产效率、促进创新、优化决策过程等。可扩展性:算力资源可以根据需求进行扩展,以适应不同的业务场景和计算需求。可持续性:随着对算力需求的增加,如何可持续地提供和使用算力,减少能源消耗和环境影响,也是算力经济需要考虑的问题。算力作为新质生产力的代表,围绕“大算力+大数据+大模型”,算力为数据和算法等新的生产要素赋能,正在催生数字化、智能化、生态化的新质生产力形态。而算力经济的发展对基础设施、政策法规、技术创新等多个方面都提出了新的要求,也为经济增长提供了新的动力。确保“东数西算”工程高质量
8、发展为了确保“东数西算”工程高质量发展,2024 年两会期间,我建议合理调整枢纽节点范围布局,实现资源的优化配置和高效利用,有力支撑大模型算力服务业的高质量发展。2022 年 3 月,国家发改委、中央网信办等四部门联合印发通知,同意在京津冀、长三角、内蒙古等八地启动建设国家算力枢纽节点。至此,全国一体化大数据中心体系完成总体布局设计,“东数西算”工程正式全面启动。两年来,“东数西算”工程取得了显著成绩。促进了东西部的协同联动,缓解了东部能源紧张的问题,也给西部开辟了一条新的发展道路。同时,网络设施的联通也得到了加强,东西部间的数据直连通道正在加快打通,国家数据中心集群的网络节点等级和网络传输质
9、量也得到了提升,“东数西算”工程展现了良好的发展态势。2023 年,经过一年的考察和调研,“东数西算”工程在实施过程中尚存以下现象:一是“东数西算”工程国家枢纽节点的遴选缺乏准入和退出机制,缺乏完善的考核评估机制,不利于“东数西算”工程高质量发展。部分国家枢纽节点的布局缺乏深入系统的论证,缺乏公开透明可操作的准入和退出机制,更缺乏行之有效的考核评估办法,无法及时跟踪和评估枢纽节点的发展状况,并根据发展情况及时对国家枢纽节点的数量和布局进行动态调整,确保“东数西算”工程的高质量发展。二是部分国家枢纽节点存在数据中心集群规划范围与市场自然形成的数据中心集聚区域重合度较低的问题。这种现象在长三角和粤
10、港澳较为普遍。以长三角枢纽为例,目前两个国家规划的数据中心集群起步区位于上海西面,而上海西北部的嘉定、太仓、常熟等地,已经有不少新建或正在运营的数据中心,但因未纳入“东数西算”数据中心集群起步区内,客观上形成了枢纽规划区内数据中心活跃度不如规划区外的局面,不利于“东数西算”工程健康发展。三是国家枢纽节点基于传统数据中心而规划,缺乏新一代支持大模型训练的高端智算中心,影响推动大模型训练和推理服务产业的发展的进程。为确保“东数西算”工程的高质量健康发展,我提出以下建议:一是建立枢纽节点动态准入退出机制,定期对“东数西算”工程国家枢纽节点的项目数量、投资数额、运行状况、产业发展趋势、算力服务品质、资
11、源利用率、行业应用需求等进行全面评估,并根据42024 数字中国万里行考察报告 序评估结果对枢纽节点的数量和布局进行动态调整。通过评估,可以将非“东数西算”布局内但具备一定超前发展优势的地区纳入“东数西算”的枢纽节点版图中。对于发展滞后、运营能力不足的国家枢纽节点,可以适时进行清退。同时,通过适度的政策倾斜,吸引新项目落地在国家数据中心规划区域(如起步区),壮大国家数据中心集群规模,有序引导数据中心和算力中心产业向规划区域内转移,确保规划范围内的数据中心和算力中心高质量健康发展。二是加强对现有枢纽节点国家数据中心集群起步区周边项目的审核,对符合准入条件的项目可以纳入起步区,对确实不符合准入条件
12、的项目予以调整,提升区域重合度和起步区活跃度。复核在新基建浪潮中获批但不在“东数西算”工程规划范围内的数据中心项目,用“东数西算”的准入规则严格考核用能和环保水平,符合标准且有实际应用需求的可以批准、授予能评;对于确实不适合纳入规划范围的,可采用逐步退出的机制;原则上不再批准新的数据中心项目,旧有数据中心在现有设施到期后逐步淘汰,原则上不予改造。三是正确引导和鼓励新型高端智算中心的建设,有序推进大模型训练和推理服务产业的发展。降低算力成本、提高利用效率,真正促进大模型的落地进展。总之,为确保“东数西算”工程的高质量发展,要建立起“东数西算”工程的动态调整机制,发扬“东数西算”精神内核而不拘泥于
13、具体的规划,建立起完善的准入和退出机制,健全问责和扶持体系,在保持总体稳定的基础上,根据区域经济发展、产业转型升级、能源结构调整等因素的变化,适时调整枢纽节点的规划范围、节点数量和布局,实现资源的优化配置和高效利用,护航算力经济更健康有序的高质量发展。构建主权级基础大模型大模型在2023年的火爆,与GPU的一卡难求,进一步暴露出我国算力产业发展存在的核心问题。大模型已成各国科技竞争的战略必争地。近来,美国在大模型领域持续发力:Meta 公司拟采购 35 万片英伟达 GPU 发展自己的大模型;软银集团正尝试投入一千亿美金研发自己的 AI 芯片;OpenAI 更是计划筹集七万亿美金研制生产新 AI
14、芯片。2023 年,英国政府官网公告称,要创立“基础模型工作组”,英国希望能拥有自己国家的“主权”人工智能技术,其公共服务也能够从这种人工智能的转型影响中受益。近日,英伟达提出“主权 AI”的概念,并将其定义为“一个国家利用自己的基础设施、数据、劳动力和商业网络生产 AI 的能力”。英伟达官网发布的文章认为,“主权 AI”涵盖物理和数据基础设施,后者包括主权基础模型,由当地团队开发,并在当地数据集上进行训练,以促进对特定语言、文化和习俗的包容性。为此,2024 年两会期间我也提出要重视“主权级基础大模型”的开发。“主权级基础大模型”是一个动态概念,它应该是某一时期内最高水平的大模型。这一大模型
15、算力要求最高、智能水平最高,是一个国家 AI 水平的最高点,是基础大模型的基础,也可以被形容为“根模型”。“主权级基础大模型”将深刻影响一个国家的科技5竞争力,涉及军事、经济、政治等多方面能力。没有“主权级基础大模型”,就像是国家没有了国防重器,国家就会被打压,国家安全也会受到威胁,因此必须尽快研制处于国际领先水平的“主权级基础大模型”,以维护未来的国家安全。我建议,利用我国在超算研发建设中的丰富积累,设立能够支持“主权级”多模态大模型训练的专用超算攻关专项。过去的 15 年,我国超算的研制已经达到世界领先水平,形成了神威、天河和曙光三大世界级超算研制团队,夺得了十一次世界冠军和两次超算应用最
16、高奖“戈登贝尔奖”。通过该专项计划的支持,可以充分利用超算领域多年积累的人才和技术优势,快速形成突破,尽快缩小我国在“主权级基础大模型”训练领域与美国的差距,为研制更先进适用的大模型专用训练芯片和系统赢得时间。目前,国内一些企业往往倾向于使用国外的开源大模型,还经常出现低水平的重复与“内卷”,百模大战使得算力资源过于分散,延误了“主权级基础大模型”的研发。无论是专用超算攻关专项还是AI芯片攻关专项,都需要国家出面协调资源,以当年“两弹一星”的形式组建队伍,以取得快速突破。留给我们的时间窗口并不长,不能错失良机。在解决 AI 芯片“卡脖子”的基础性问题上,希望能够集中全国 AI 芯片研制力量,组
17、建由业内权威专家和各主要 AI 芯片厂家参加的智能算力发展专项组,通过多轮竞争,确定最优的训练芯片研发技术路线和国家标准,择优集中投入资金和优秀人才资源,整合芯片产能,尽快研制出能够满足国产“主权级基础大模型”训练的十万卡、百万卡甚至千万卡并行算力需求的 AI 芯片和系统。同时,政府发挥指导、协调、规范作用,通过政策指导和倾斜,鼓励规模大、高效率的集群,突破万卡或更多卡的限制。前段时间,字节和北大的一篇新论文引起了业内广泛关注,字节搭建起的万卡集群,能在 1.75 天内完成 GPT-3 规模模型(175B)的训练。在大模型推理产业链上,建议通过投资引导低功耗推理芯片和算子库技术攻关,鼓励大模型
18、压缩、适配和性能调优等技术研发,通过规模效应实现成本共担,降低模型推理算力成本,形成经济适用国产大模型推理产业链。为大模型企业和愿意通过大模型手段智能化转型的传统企业提供必要的支持和配套服务,快速形成“新质智能生产力”,助力国产大模型平台企业的生态建设和占领市场。加快培养新质生产力人才为了培养新质生产力人才,我也提到了建议优化资源分配,及时更新课程内容和教学方法,促进产教融合,加快企业导师引进并设立专项奖励。一段时间以来,以 ChatGPT 为代表的通用人工智能的快速发展,预示着全球新一轮科技革命和产业变革的到来。特别是近期以 Sora 为代表的高质量短视频 AI 生成工具的出现,不仅推动着科
19、技创新,还促进着新质生产力的茁壮成长,为生成式人工智能开拓了广阔的产业应用空间。中央财办相关负责人在解读 2023 年中央经济工作会议精神时提到,加快培育新质生产力要打造新型劳动者队伍,包括能够创造新质生产力的战略人才和能够熟练掌握新质生产资料的应用型人才。因此,培养既具有科技创新能力又能熟练应用 AI 新技术的人才,显得尤为重要。62024 数字中国万里行考察报告 序目前,我国在人工智能教育领域已取得显著成就,但也在一定程度上存在以下四方面问题:一是教育资源分配不均。我国生成式人工智能的教育资源,如高质量课程、资深教师和先进技术,主要集中在顶尖学府和城市地区,导致农村和偏远地区的学生无法获得
20、平等的受教育机会。二是课程内容更新滞后。由于人工智能领域发展迅速,学校的课程内容和教学方法无法及时跟上技术的最新发展,学生学到的可能是已经过时的知识和技能。三是实践机会缺乏。生成式人工智能教育需要大量的实践和实验,但很多学校由于资源限制,无法为学生提供足够的实验设备和实践机会。四是师资力量不足。人工智能是一个高度专业化的领域,需要有专业知识和实践经验的教师。目前,合格的生成式人工智能教师相对稀缺,影响了教学质量。为满足市场对新质生产力人才的需求,要积极解决课程、师资和资源配置等挑战,以提升我国在全球数字经济竞争中的优势。我提出四大建议:一是优化资源分配,促进教育平等。为解决教育资源分配不均的问
21、题,建议通过国家层面的宏观规划优化资源分配,特别关注偏远和农村地区,确保上述地区也能获得必要的资源。建议可以在现有教育部政策框架内进行探索和实施,如设立“生成式人工智能教学资源共享平台”,以鼓励学校间根据生成式人工智能的技术特点,共享教学内容资源和教学计算资源。二是及时更新课程内容和教学方法。应对课程内容更新滞后的问题,学校需要及时更新课程内容和教学方法,与快速发展的人工智能领域同步。如设立“生成式人工智能国际协同创新计划”,以鼓励国内外学校(或企业)合作创新课程内容和教学方法,并在学校示范应用生成式人工智能技术开发的教学助手,以提供个性化学习体验。三是促进产教融合,增加实践机会。针对实践机会
22、缺乏的问题,学校应与企业和研究机构合作,增加学生的实践机会。为了更好地适应毕业后的工作环境,学校和产业界应加强合作,通过实习、项目合作等方式帮助学生了解实际工作中的需求和挑战,从项目式学习中提高教育的实用性和有效性。建议设立“生成式人工智能创新实践基地”,以鼓励有智能化需求的各行业企业提供实习机会和人工智能应用场景,增加学生在生成式人工智能技术上的实践能力。四是加快企业导师引进并设立专项奖励。针对师资力量不足的问题,应加快推进在生成式人工智能领域企业导师的引进速度,鼓励企业导师和校内教师充分合作,通过企业导师帮助校内教师提升在生成式人工智能领域的知识和教学能力。7PART 综述2024 数字中
23、国万里行暨算力经济中国行考察报告8第一章 算力即新质生产力全栈数据中心纵贯 IT 基础架构与数据中心基础设施,把芯片、计算、存储、网络等技术和数据中心“风火水电”作为一个整体看待;上层业务需求的变化会通过芯片、计算和存储等 IT 设备传导到网络架构层面,即数据中心作为基础设施也会相应地产生自上而下的变化。2023 年是大模型蓬勃发展的一年,从文字对话交互开始,“百模大战”爆发。2024 年 Sora 的发布标志着人工智能(AI)在视频技术领域取得了突破性进展,多模态大模型持续演进。相比单模态模型,多模态大模型可实现文本、语音、图像及音视频等多模态数据的复杂处理和交互。超大规模 AI 大模型的训
24、练需要相应的算力支撑,在Transformer 及大语言模型(LLMs)出现前,绝大部分的 AI 模型训练和推理对算力等硬件资源要求不高,使用单机 CPU/GPU 或分布式小集群即可满足需求。随着 Transformer 架构持续升级,所需参数量增加,AI 模型争锋正带动着算力“军备竞赛”。生成式 AI 引燃算力需求,算力技术架构持续升级。作为服务器的关键部件,芯片架构性能不断提升的同时,功耗增加也非常显著,这给数据中心的散热问题和能源效率带来极大挑战。从 2018 年开始,益企研究院开启“数字中国万里行”活动,足迹遍布全国“一体化数据中心”体系下的八大枢纽节点和十大数据中心集群,提出并完善、
25、践行“全栈数据中心”理念。全栈数据中心纵贯 IT 基础架构与数据中心基础设施,把芯片、计算、存储、网络等技术和数据中心“风火水电”作为一个整体看待;上层业务需求的变化会通过芯片、计算和存储等IT 设备传导到网络架构层面,即数据中心作为基础设施也会相应地产生自上而下的变化。这意味着服务器等 IT 设施的设计和液冷等先进技术的应用,需要以业务的视角实现应用与技术联动,以数据中心整体的视角将制冷、供电以及监控运维实现垂直整合,构建高质量的算力供给体系。2023年,数字中国万里行暨算力经济中国行团队继续深入“东数西算”工程枢纽节点考察,从上层应用到底层基础设施架构演进,从绿色算力到算力与电力协同,再到
26、区域城市算力经济布局,见证了基于算力平台的诸多创新实践。算力经济时代,算力作为新质生产力,正推动着数字经济高质量发展,综合本次调研,我们认为以下几个方面值得业内探讨:+2024 数字中国万里行考察报告 综述9一.智能驾驶有望贡献算力的全新增量业内普遍认为“大模型+大算力+大数据”是迈向通用AI的可行路径。用户场景决定技术价值,大模型如何找到合适的场景、真正发挥价值?大模型又需要怎样的硬件资源支持更广阔的应用?在调研过程中,我们发现大模型的发展思路给自动驾驶带来了更多启发,从道路信息感知到路径规划决策,从智能驾驶的开发效率到用户驾驶体验,大模型正逐步成为推动智能驾驶落地的关键。一些头部企业和学术
27、团队积极探索,相关尝试已开始在业内落地,并给行业发展带来了巨大的想象空间。一方面大语言模型(LLM)直接参与到自动驾驶,比如 LLM 应用于自动驾驶的环境理解和环境互动的可行性,使用 LLM 可解释的端到端自动驾驶系统,解释车辆行为并提供相应的推理,还可以回答用户提出的各种问题。另一方面,大模型技术促进数据和算力扩展到智能汽车产业全链条,从研发、生产制造、销售/售后、运营等环节的数据正在打通,高强度的算力不仅需要被用于模型的运行、更新、迭代,还需要支撑仿真测试中场景的搭建与渲染,多模态大模型还可以助力仿真的构建。在产业生态和国家政策方面,为了支持智能网联汽车发展,我国正在推动车路云一体化生态的
28、规模化落地和常态化运营进程,车路协同智+10能交通国家战略渐趋明确,行业共识逐步形成,产业化工作正在稳步推进。我们正在极力解决轻量化、本地化、实时全局等技术难题,不断加速端到端自动驾驶大模型的落地进程。比如数字中国万里行团队调研了苏州市智能网联汽车发展的核心区苏州市相城区,这里正培育出智能车联网全产业链生态,已成为长三角地区最具活力和影响力的智能汽车产业发展高地。AI 大模型技术的应用将为智能驾驶带来革命性的变革,需要使用智算集群来提升数据处理与模型训练的效率。因此,承载算力基础设施的大型化智算中心已成为车企快速占领智能汽车市场的基础条件。近两年,国内车企或自建或联合云厂商共建智算中心,希望掌
29、握稳定的算力资源,缩短开发周期,加快自动驾驶产品迭代,提升竞争力。这意味着,智能驾驶有望成为未来贡献算力的全新增量。2024 数字中国万里行考察报告 综述11二.高校开启新一轮技术创新实践除了调研多地的数据中心之外,数字中国万里行暨算力经济中国行还先后走进了位于西安的西安电子科技大学、位于北京的中国农业大学、位于上海的上海交通大学和位于广州的华南理工大学。我们发现,中国高校在数字化教学、智慧校园等方面的探索与实践已卓有成效。在高校高性能算力平台演进进程中,多元算力、算网融合、大模型技术、液冷技术等绿色算力解决方案在高校加速落地。同时以北京大学为代表的高校通过创新实践解决了算力网络市场中使用、接
30、入、交易三个关键问题,促进了算力网络的进一步发展,充分发挥了算力资源的价值,为国家的“东数西算”“双碳”战略提供了高质量的支撑,为业界提供了宝贵的经验和启示。一直以来,北京大学在高性能计算等先进技术应用方面勇于探索。北京大学具备包括“未名一号”“未名二号”在内的多套算力集群,为数学、深度学习、大气海洋环境、新能源新材料、天文地球物理、生物医药健康等领域提供高性能科学与工程计算服务。北大“未名一号”集群是国内首个使用联想温水水冷系统的大规模超算集群;“未名二号”集群则是全球首个智能无损 400GbE 高性能计算中心网络样板点。为了实现算力资源易管理、易应用、易调度的目标,北京大学结合自身应用场景
31、和科研特点,联合北京大学长沙计算与数字经济研究院开发了国内首个开源的算力中心门户和管理平台SCOW 管理平台。SCOW 还提供了连接层,也是算力网络的融合和交易平台。目前,北京大学公开 SCOW 的开源包,以便于更多的高校能够体验到统一部署 北大未名二号算力集群+中 国 高 校 在 数 字 化 教学、智慧校园等方面的探索与实践已卓有成效。在高校高性能算力平台演进进程中,多元算力、算网融合、大模型技术、液冷技术等绿色算力解决方案在高校加速落地。以北京大学为代表的高校通过创新实践解决了算力网络市场中使用、接入、交易三个关键问题,促进了算力网络的进一步发展,充分发挥了算力资源的价值,为国家的“东数西
32、算”“双碳”战略提供了高质量的支撑,为业界提供了宝贵的经验和启示。12与管理平台的优势。国内已经有30家机构测试、部署使用SCOW平台。北京大学还发布了智能算力调度系统鹤思调度系统,该调度系统打通了超算中心、智算中心,还有云计算中心的壁垒,可进行跨数据中心的调度。如果说北京大学很大程度上代表了北方高校在算力应用上的探索者,那么上海交通大学则是南方乃至全国地区算力应用的先行者。2013年诞生的上海交通大学“交我算”计算平台目前是全国高校排名第一的高性能计算力平台。“交我算”平台服务了上海交通大学 1200 多个课题组,“交我算”平台还开发了全国校级服务平台中可能是唯一的“工单”系统。从最早的粗放
33、型采购到后来的按需购买与计算、再到科学融合与计算赋能,“交我算”的服务模式已经走在了全国高校前列。时至今日,“交我算”服务模式已经进入到第五个阶段,即科研软件工程(RSE)对接学校“大健康”“大海洋”“大信息”的发展战略,“交我算”团队从支持科研团队的某一应用研发转向受众更多、更加普适的科研软件研发。“交我算”平台支撑了上海交通大学计算服务的不断革新升级,赋能科研原始创新与前沿突破。“思源一号”、2.0 集群、Arm 超算平台等共同构成了“交我算”的算力基座,提供了多元化、多维度的算力服务与应用环境。在数字中国万里行团队 2023 年的走访过程中,我们发现国内高校正 上海交大 2.0 集群20
34、24 数字中国万里行考察报告 综述13在开启新一轮的特色高性能计算平台建设,开始落地液冷等技术应用。华南理工大学在校内数据中心的建设中使用了存算一体的液冷解决方案,通过曙光 ParaStor 分布式液冷存储系统将可存储容量扩展至近25PB,数据中心 PUE 也降低到 1.2 以下,为学校的科研数据存储提供了坚实支撑,同时优化了运维管理,大大提升应用效率。中国农业大学的科技小院是一种研究生培养与农业科技推广的模式,中国农业大学网络中心通过虚拟专网技术对科技小院网络进行重新设计和部署,实现了科技小院网络与校园网“一网融合”。在解决学校数字化应用的问题上,中国农业大学网络中心从系统架构的底层设计出发
35、,按照基础建设、服务能力和中台应用能力三个方面将不同部门的业务进行划分,通过“一网通办”将其串联起来,打造统一部署、集中化管理的效果。同时校级高性能计算应用平台总计已具备 1 PFlops 双精度浮点算力,支撑了农业大学 159 个实验室的科研应用。在最近一次的“双一流”评估中,中国人民大学拥有十几个优秀学科,包括计算机科学技术和统计学均进入了 A 类序列。为此,中国人民大学重新调整了在算力应用层面的算力平台布局,中国人民大学投入上千万元对现有平台进行了升级和改造。截止 2023 年 11 月,CPU 算力达到 335T,GPU 算力达到 1.3T,并全部采用了高速 IB 网络,性能达到了行业
36、一流水平。中国人民大学用了 8 个月的时间开发出自己的预训练大模型“玉兰 10B”,推动了大模型的研究。基于高性能算力平台的应用加速,中国人民大学对于计算科学的科研能力也在持续提升。三.智算产业需加快软硬件适配生态建设多模态数据正成为大模型训练的主要数据,对算力来说需求倍增,相同参数下,更深的模型拥有更好的性能,超千亿参数的大模型研发就不仅仅是算法问题,而是囊括了底层庞大算力、网络等诸多领域的复杂系统性工程,需要有超大规模数据中心的 AI 算力来支撑。以 AI 芯片为主的高效率、大规模的智能算力基础设施将成为训练AI 大模型的前提。在应用层面,随着“百模千态”走向每一个行业,在加速千行万业智能
37、化转型时,承载大模型的新型算力中心也在悄然发生变化算力规模快速增长、计算技术多元创新、产业格局加速重构。+以 AI 芯片为主的高效率、大规模的智能算力基础设施将成为训练 AI大模型的前提。在应用层面,随着“百模千态”走向每一个行业,在加速千行万业智能化转型时,承载大模型的新型算力中心也在悄然发生变化算力规模快速增长、计算技术多元创新、产业格局加速重构。14来自 Synergy Research Group 的数据和预测显示,未来六年内开放的超大规模数据中心的平均容量将很快达到当前运营的超大规模数据中心的两倍以上,生成式 AI 技术和服务的影响已成为超大规模数据中心发展的动力。在中国,服务 AI
38、 的智算中心是发展最快的一种算力供给形式,2024 年我国有超过 30 个城市正在建设智算中心,整体布局以东部地区为主,并逐渐向中西部地区拓展。数字中国万里行团队此前考察了阿里云乌兰察布、张北智算中心,以及商汤科技临港 AI 计算中心(简称临港 AIDC)。以商汤科技为例,2022 年正式投入运行的临港 AIDC 是 SenseCore大装置的重要载体,是上海新一代 AI 计算与赋能平台,是服务上海建设“具有全球影响力的科创中心”战略目标的标杆项目,更是亚洲最大的 AI 计算中心之一。临港 AIDC 项目位于临港新片区,一期投资 56 亿元,主要建设园区智算大楼与科研行政大楼,用于 AIDC
39、平台硬件搭建、平台软件、平台管理系统与大模型应用等多方向研发。项目占地 87 亩,整体规划建筑面积 13 万平方米,一期已建成 7 万平方米。目前,临港 AIDC已成为国内 AIDC 建设的“样板间”。2024 数字中国万里行考察报告 综述+商汤科技人工智能计算中心15单位 规划算力(P)已建算力(P)待建算力(P)哈尔滨数字龙江智算中心 500 100 400 大连人工智能计算中心 300 100 200 沈阳人工智能计算中心 300 300 0 北京(昇腾)人工智能计算中心 3000 400 2600 福建人工智能计算中心 400 105 295 广州人工智能公共算力中心 1000 200
40、 800 河北人工智能计算中心 300 100 200 南京鲲鹏-昇腾人工智能计算中心 140 140 0 济南人工智能计算中心 400 100 300 青岛人工智能计算中心 100 100 0 天津人工智能计算中心 400 200 200 杭州人工智能计算中心 240 140 100 宁波人工智能超算中心 300 100 200 合肥人工智能智算中心 100 100 0 中原人工智能计算中心 300 100 200 武汉人工智能计算中心 400 400 0 长沙人工智能创新中心 1000 200 800 中国-东盟人工智能计算中心 42 42 0 西安未来人工智能计算中心 500 300 2
41、00 成都智算中心 300 300 0 重庆人工智能创新中心 400 400 0 北京数字经济算力中心 2000 400 1600 石景山智能算力中心 610 200 410 石家庄人工智能计算中心 500 100 400 天府智算中心项目 1000 256 744 武昌智算中心 100 100 0 琶洲算谷沙溪智算中心 300 100 200 新疆智算融合算力中心 500 0 500 合计 15432 5083 1034916商汤科技SenseCore大装置管理的算力实现了全国联网的统一调度,在上海、深圳、广州、福州、济南、重庆等地都拓展了新的计算节点,总算力规模高达 12000 PFlop
42、s,已有超 4.5 万块 GPU,其中临港AIDC为8400 PFlops,远远超出立项规划的3740 PFlops算力总量。在支持自身大模型研发的同时,也支持外部客户训练大模型和应用部署。强大算力可支撑超过 20 个千亿超大模型同时训练,并支持万亿参数大模型的全生命周期生成。在 2023 年的调研中,我们继续探索了成渝地区的西部(重庆)科学城先进数据中心与位于长三角地区的吉利星睿智算中心。这里需要特别说明的是,前者虽然名为“数据中心”,但无论是基础设施还是上层应用都更符合“智算”的范畴,比如展示的中国移动一体化存力平台、某 AI 大模型企业的 PB 级大模型平台、新势力车企超百 PB 的存力
43、平台等项目都侧重于智算方面,因此我们认为其定位更接近于智算中心。至于吉利星睿智算中心就更是如此。作为国内车企中自建设备规模最大、综合算力领先、业务覆盖领域最广、智能化支撑能力最强、高安全级别的智算中心,吉利星睿智算中心正致力于帮助车机拥有更准确安全的自动驾驶能力、更智能流畅的AI助手、更快的连接和运行速度、更有趣的影音娱乐模式。这也更符合大众印象中关于“智能应用”的概念,推动了吉利自家多元化的智能驾驶应用。目前,中国智算中心的发展尚处于初期阶段但发展迅速。数字中国万里行暨算力经济中国行活动在调研时发现,国内有关智能算力的相关政策,还是聚焦在总的算力规模上,对算力密度和互联带宽的重视程度还远远不
44、够,特别是集群层面的算力密度。对算力中心和数据中心基础设施层面的支持更是不足,譬如对提高机柜功率密度、缩短网络布线距离、提高互联带宽的重视均有待提高,对用于解决高功率密度带来高发热量的液冷技术又缺乏统一标准,不仅造成这一层面的生态碎片化,也提高了客户更换供应商的成本。未来,随着算力底座技术门槛的提高,AI 大模型比拼的更多是集群系统能力。从软件到硬件,随着智算中心数量增长,国产算力产业需要加快智算中心软硬件适配生态建设,需要通过标准等手段适度收敛,建立统一、高效的生态,集中有限的产业和社会资源,规范算力产业的高质量发展,最终促进产业 AI 化、AI 产业化的落地。2024 数字中国万里行考察报
45、告 综述+未来,随着算力底座技术 门 槛 的 提 高,AI 大模型比拼的更多是集群系统能力。从软件到硬件,随着智算中心数量增长,国产算力产业需要加快智算中心软硬件适配生态建设,需要通过 标 准 等 手 段 适 度 收敛,建立统一、高效的生态,集中有限的产业和社会资源,规范算力产业的高质量发展,最终促进产业 AI 化、AI 产业化的落地。17四.异构计算支持大计算场景当 AI 的应用场景呈现多样化时,数据中心侧单一的计算架构就难以满足业务需求了,多样性计算加速了算力格局的变化,多元化的算力来源,既包括了 CPU、GPU、FPGA 等异构算力,又包括了 x86、Arm 等架构方案。当生成式 AI
46、应用不断发展,异构计算作为大计算时代的解决方案,打破了传统通用计算的限制,融合不同指令集和体系架构的计算单元,从底层支持大计算场景。业务需求驱动加上底层工艺和封装技术的支撑,处理器也开始了“内卷”。CPU 不断扩展硬件加速指令集;GPU 集成 CUDA 核,还集成了 DSA 性质的 Tensor 核;DPU 集成了 CPU 以及 ASIC,形成 SoC。在数据中心领域,2019 年英特尔就提出了超异构计算。XPU 是架构组合,包括 CPU、GPU、FPGA 和其他加速器;oneAPI 是开源的跨平台编程框架,底层是不同的 XPU 处理器,通过 OneAPI 提供一致性编程接口,使得应用跨平台复
47、用。+京东云华北廊坊数据中心,华灯初上18DPU 是一个伴随着云计算的成熟而逐步进入人们视野的概念,经历了不断的演进后,增加了自身的能力。随着“羽翼丰满”,DPU 甚至开始与 CPU、GPU 争夺数据中心的核“芯”地位。DPU 的控制平面主要使用性能较强的通用 CPU 核,以处理较复杂的任务,且面向 Linux 等系统编程十分友好。常见的通用 CPU 核有英特尔的至强 D 以及 Arm 的大核(Arm v8 的 A72/A78 和 N1、v9 的N2),较早期的产品还有一些采用 MIPS64 核心。Arm 提供了丰富的内核授权,供不同性能、功耗、成本需求的产品选用。在 Cortex-A 系列之
48、后,Arm 面向云计算和数据中心领域推出了 Neoverse 平台。该平台分为三大系列 Neoverse V 系列、Neoverse N 系列、Neoverse E 系列,考察报告将对 Arm 内核的演进过程进行详细阐述。在西部(重庆)科学城先进数据中心,数字中国万里行团队考察了基于国产架构的全套解决方案在架构层面构建了从基础设施到应用体系全方位的安全方案,内置了国密的加密算法,构建了可信的安全根,使用、存储、传输以及数据流动都采用了加密技术,从底层到应用构建全方位的安全体系。数字中国万里行团队曾参观过阿里云、腾讯云、京东云、抖音、UCloud(优刻得)等国内多个超大规模数据中心,它们都上线了
49、包括 x86、Arm 等主流架构在内的多种算力资源。京东云自研的服务器支持包括第五代英特尔至强可扩展处理器在内的多算力平台,也支持Arm 平台和其他国产化平台,最大支持 750W 的芯片功耗。同样进行了异构应用探索的还有 UCloud 乌兰察布数据中心。早在2022 年 UCloud 就推出了基于安培 Ampere Altra Q80-30 处理器的云服务器解决方案;2023 年 UCloud 还与此芯科技达成弹性扩容项目合作,在 UCloud 上海云基地部署新的芯片研发业务,致力于开发兼容Arm指令集的高能效计算解决方案。2024年,在英伟达的支持下,UCloud将DPU应用于裸金属物理云。
50、DPU裸金属训练集群为高带宽、低延迟、数据密集的大模型训练场景提供了强大的计算引擎,大幅提升网络处理能力和数据传输速度。+2024 数字中国万里行考察报告 综述19五.绿色算力:从全栈视角落地液冷技术生成式 AI 带来的挑战不在于增加数据中心的数量,而是大幅增加运行这些数据中心所需的功率。以数据中心的能耗大户 CPU 和 GPU 为例,目前最新发布的第五代英特尔至强可扩展处理器中,铂金 8593Q的 TDP 功耗已经达到 385 瓦,其余多款铂金 8580、铂金 8558P 等处理器的 TDP 功耗也在 350 瓦。英伟达最新一代的 H100 GPU 峰值功耗为 700 瓦,按照 61%的年利
51、用率,一张 H100 每年将消耗约 3740 千瓦时的电量;而被英伟达称为“传奇”的 DGX H100 共由 8 个 NVIDIA H100 加速卡组成,系统功耗可达 10.2 千瓦。按照英伟达 2023 年底公布的 H100 终端用户销量显示,仅就大型互联网客户来说,H100 GPU全球范围内共售出约 70 万张,这就耗费了约 2000 千兆瓦时,大约20000 万亿度电。2023 年,“液冷”已成为热词,当然这并不代表液冷技术解决方案在早些年并不存在。事实上,液冷技术早在十几年前就已经是高性能计算领域的主流解决方案。我国最早登上 TOP500 冠军宝座的“天河二号”超级计算机就采用了部分液
52、冷技术解决方案。但在更通用、更广泛的云数据中心领域,液冷技术应用虽然一直在发展,却总是表现得不温不火,更多时候用户总是抱着试水的心态在“体验”。随着算力需求的暴增和随之带来的功耗指标居高不下,越来越多的用户意识到液冷技术解决方案的价值和重要性。+UCloud 乌兰察布数据中心20在数字中国万里行暨算力经济中国行的考察调研过程中,我们发现采用液冷技术解决方案的数据中心与智算中心正在大幅增加,部分单位甚至具备了冷板式液冷与浸没式液冷的双重方案,同时也有针对服务器、存储等不同基础设施的差异化液冷模式。比如在西部(重庆)科学城先进数据中心,我们就看到了基于中科曙光全浸式液体相变冷却技术的高密度、模块化
53、数据中心。华南理工大学了解到曙光存储提供的冷板式液冷技术方案也是存算一体化的解决方案。因此在校内数据中心的建设中大胆使用了液冷技术解决方案,通过曙光 ParaStor 分布式液冷存储系统将可存储容量扩展至近 25PB,数据中心 PUE 也降低到了 1.2 以下,为学校的科研数据存储提供了坚定支撑。在京东云华北廊坊数据中心,数字中国万里行团队考察了京东自研的整机柜服务器。考虑到数据中心生命周期很长,尤其是液冷技术的支持,预留三代平台的支持,确保整机柜能够在各种各样的部署环境下使用,既可以在自建新机房使用,也可在液冷机房部署,支持各种各样的设备类型和平台。基于液冷整机柜的部署,京东云华北廊坊数据中
54、心的 PUE 可以控制在 1.1,年度碳排放可节省 2000 吨,也让数据中心的部署密度提升了 28.6%,空间利用率更出色。从服务器到存储,液冷技术已不再是“星星之火”。在具体的落地过程中,益企研究院倡导从全栈数据中心的视角切入。服务器等 IT 设施的设计和液冷等先进技术的应用,需要以业务的视角实现应用与技术联动,以数据中心整体的视角将制冷、供电以及监控运维进行垂直整合,构建高质量的算力供给体系。采用相变浸没冷却技术的刀片式服务器早在十几年前,液冷技术已是高性能计算领域的主流解决方案。随着算力需求的暴增和随之带来的功耗指标居高不下,越来越多的用户意识到液冷技术解决方案的价值和重要性。在 AI
55、应用和绿色低碳的共同推动下,“液冷”从 2023年起成为行业热词。2024 数字中国万里行考察报告 综述21六.算力与能源协同联动AI 需要庞大的算力,AI 也需要大量的能源。要保证算力能够高效地大规模运行,一靠高性能芯片,二靠电力。数据中心的本质就是把能源转化为算力,瓦特转化为比特,成为数字经济发展的基础设施。据Digital Information World 报道,数据中心为训练 AI 模型产生的能耗将是常规云工作的三倍,预计到 2030 年,美国数据中心的电力需求将以每年约 10%的速度增长。2023 年 12 月,国家发展改革委、国家数据局等部门联合印发的关于深入实施“东数西算”工程
56、加快构建全国一体化算力网的实施意见中提到重点推进五个一体化,其中一条便是算力与绿色电力一体化融合。数字中国万里行团队在考察中发现,在产业的转型关键期,新型基础设施发挥着加速转型、促进创新、激活经济的核心作用。一方面,数据中心领域正引入更先进、更节能的新兴技术,不断提升能源使用效率,提供更绿色的算力,通过自身的绿色低碳,为其他行业的智能化转型赋能,促进全社会降碳。另一方面,算力与电力正在形成相互支撑、协同发展的新态势。从算力到绿电,从单一的某一座数据中心到某个产业园区,数字中国万里行团队发现,绿色化加速推动新型算力中心不断演进,而先进的运营理念、低碳的运营方式与智能化的服务能力,让单位比特的能耗
57、和碳排放持续下降,提供更多的“绿色算力”。张北草原天路上密布风力发电机222024 数字中国万里行考察报告 综述+七.“算力经济”创新实践随着“东数西算”等工程深入实施,数据中心、智能计算中心、超级计算中心等算力平台的建设和应用不断加速,数字经济将进一步成为实体经济高质量发展的引擎和助推器。我们调研了甘肃庆阳枢纽节点、成渝枢纽节点和长三角芜湖集群、粤港澳韶关集群等等,完成了最后一块拼图。至此,包括过往调研过的京津冀(北京、天津)、内蒙古(呼和浩特、和林格尔)、粤港澳(广州、深圳)等枢纽节点在内,数字中国万里行团队已经完成了对于“东数西算”工程八大枢纽节点和十大集群的全面调研,因此在算力基础设施
58、建设方面也有了更具广度和深度的视野。同时我们也发现,目前诸多地区已围绕算力强关联的算力服务产业链开始布局,“算力经济”有了更多创新实践成果。张家口市毗邻北京,已融入“首都一小时经济圈”。作为八大算力网络国家枢纽节点、十大数据中心集群之一,张家口市正聚焦全国一体化算力网络国家枢纽节点建设,以起步区怀来、张北、宣化为突破口,加快推进怀来大数据产业基地、张北云计算基地等园区建设,着力推动大数据产业形成特色突出、集约高效的合理空间布局。特别是正在规划建设的数字服务产业基地,将通过与怀来、张北、宣化 3 个数据中心集群起步区的有效衔接,构建起“一廊四区多园”的发展新格局。截至2023年底,张家口市投入运
59、营数据中心27个、标准机柜33万架、服务器 153 万台,算力规模达到 7600P(1P 约等于每秒 1000 万亿次计算速度),已注册大数据企业超 120 家,初步形成“数据存储+算力调度+装备制造+应用服务”的大数据全产业链条。下一步,张家口市将积极承接北京大数据产业项目疏解和转移,持续推进大数据产业开发应用,构建大数据全产业链生态体系,加速建设京津冀“算力之都”。27个运营数据中心33万架标准机柜153万台服务器7600P算力规模达到初步形成“数据存储+算力调度+装备制造+应用服务”大数据全产业链条张家口 聚焦全国一体化算力网络国家枢纽节点建设(截至 2023 年底)232018 年,“
60、数字中国万里行”活动启动时,“草原云谷”乌兰察布数据中心建设刚刚起步;2023 年,乌兰察布数据中心集聚效应显著,官方资料显示,已签约落户 31 个数据中心项目,总投资 858 亿元,签约服务器规模 447 万台,阿里巴巴、苹果、华为、快手、UCloud等10余个已投运项目算力规模达14000P,智能算力占70%以上,“把世界存在乌兰察布”正在成为现实。2023年,和林格尔新区备受产业专业人士的关注。“数字中国万里行”活动期间,华为云在和林格尔新区建设了北方区域最大的云数据中心。同期,和林格尔数据中心集群的重大工程之一中国农业银行总行数据中心 15 栋单体建筑全部封顶。和林格尔新区作为全国一体
61、化算力网络国家枢纽节点和十大国家数据中心集群之一,正在用“产业先行、以产立城、产城一体”的新思维,重点围绕数据中心集群产业链和集成电路产业链规划布局。丰富的能源储备尤其是新能源绿色电力供应是和林格尔新区的优势之一,也是包括华为等诸多行业巨头选择落户于此的重要原因之一。和+内蒙古和林格尔新区云集运营商和大型金融企业的数据中心24林格尔新区以数据中心为载体,带动本地产业高质量发展,促进技术创新链和产业链深度融合,加快形成算力经济新模式新业态。除了充足的能源供给之外,和林格尔新区打动各大企业的因素是价格,尤其是新能源的价格更是低于行业平均水平与企业心理预期。和林格尔新区打造出了底层算力服务平台、数据
62、落地与应用、创新实践与发展等全方位的服务体系,完整、准确、全面贯彻“算力经济”新发展理念,开始同步构建算力中心、算力设备制造、算力服务、算力应用的算力经济产业体系。和林格尔新区在为全国输出绿色算力的同时,正不断强链补链,形成数字技术与实体经济深度融合的新格局。截至目前,和林格尔新区数据中心标准机架达到 15 万架,服务器装机能力达到 120 万台,总算力规模达到 1600P,稳居全国前列。和林格尔新区注重发展算力网络,先后建成了国家互联网骨干直联点,国际互联网数据专用通道,为新型数字基础设施建设和数字化应用打下了坚实的基础,已形成内通全国、外联俄蒙欧的通道网络体系。+2024 数字中国万里行考
63、察报告 综述2023年12月召开的中央经济工作会议提出,要以科技创新推动产业创新,特别是以颠覆性技术和前沿技术催生新产业、新模式、新动能,发展新质生产力。2024年政府工作报告提出的政府工作十大任务,第一项就是“大力推进现代化产业体系建设,加快发展新质生产力”。新质生产力正在从根本上重构传统的生产方式和社会运行逻辑,而算力不仅体现在其作为新质生产力所发挥的动力支持作用上,更体现在算力本身具有的广泛应用场景以及由“算力+”赋能行业而生的算力经济发展前景上,赋能自动驾驶、智能制造等产业,与能源、电力等行业融合协同,带来城市经济发展、社会治理的系统性变革,服务中国经济高质量发展。25PART 行业应
64、用篇2024 数字中国万里行暨算力经济中国行考察报告26第二章 算力与数据驱动 智能驾驶进入下半场自动驾驶是驾驶辅助功能的最终形态,同时作为 AI 技术在汽车行业落地的重要形式,其正在引领着汽车产业的深刻变革。来自 Canalys 的数据显示,中国市场 L2+渗透率连续三个季度达到全球第一,在 2023 年第三季度中国 L2+车型销量已经达到 35 万辆,L2+ADAS(高级驾驶辅助系统)渗透率达到了 5.7%。技术变革、需求显现、产品供给加速以及政策落地共同促成了中国 L2+市场实现销量与市场渗透双增长,中国市场将进入高阶辅助驾驶竞争的重塑期。数据来源:Canalys2020 年 2 月国家
65、颁布了智能汽车创新发展战略,希望在 2025年实现有条件自动驾驶的智能汽车达到规模化生产,实现高度自动驾驶的智能汽车在特定环境下市场化应用。同时大模型对车路协同智能驾驶的赋能效应持续释放。车、路、云、网的协同成为推动自动驾驶安全性提升和规模化应用的必由之路。伴随车路两端数据的增加、智能技术的演进迭代以及政策法规的支持,智能驾驶正式进入下半场。NO.1全球35万辆5.7%中国市场 L2+渗透率连续三个季度2023 年第三季度中国 L2+车型销量L2+ADAS 渗透率+2024 数字中国万里行考察报告 行业应用篇27一.自动驾驶进入数据驱动的 3.0 时代自动驾驶 1.0 时代为硬件驱动,主要依靠
66、激光雷达和人工规则的认知方式提供自动驾驶方案。但在 100 万公里后,硬件不再是决定自动驾驶技术发挥的下限。自动驾驶 2.0 时代则是软件驱动,特点是传感器单独输出结果,用小模型和少数据的模式提供自动驾驶方案。挖掘算力潜能,让 AI 真正发挥价值。在 AI 算力升级后,很多自动驾驶企业加大了对算法模型的应用,这使得其产品最终能够落地,让自动驾驶“走”了起来。伴随智能网联汽车传感器数量的快速增加,ADAS 和自动驾驶车辆数据的生成量也呈现指数级增长,从 GB 到 TB、PB,传统数据存管模式无法应对大规模复杂数据的快速处理、各种传感器数据及外部数据的适配接入。从行业趋势来看,由硬件与软件驱动的自
67、动驾驶 1.0 与 2.0 时代已近尾声。由数据驱动的 3.0 时代正式开启,采用多模态传感器联合输出结果,用大模型大数据的模式提供自动驾驶方案。在自动驾驶3.0时代,数据闭环是核心要素,即从车端数据采集,到处理后形成有效数据集,再通过云服务器进行存储、处理,经过算法模型训练、验证后,将最优模型部署上车,各环节相互连接,形成的自动驾驶数据循环。由硬件与软件驱动的自动驾驶 1.0 与 2.0 时代已近尾声。由数据驱动的3.0 时代正式开启,在自动驾驶 3.0 时代,数据闭环是核心要素,即从车端数据采集,到处理后形成有效数据集,再通过云服务器进行存储、运输,经过算法模型训练、验证后,将有效数据成果
68、部署上车,各环节相互连接,形成的自动驾驶数据循环。28以数字中国万里行团队考察的吉利汽车为例,基于用户车队及集团内运营车辆资源,目前吉利一辆车每个月的合规数据采集量是几个 GB的量级(吉利具有合规采集资质),星睿智算中心每天的采集数据增长量达到了 TB 水平。吉利智能驾驶提出的数据闭环解决方案包括:感知数据闭环、地图数据闭环、驾驶数据闭环和用户数据闭环。依托吉利星睿智算中心和数据闭环技术能力,吉利把目标设定为以车载端0.1 倍的算力,用一套标准的数据格式,利用云端 10 倍的算力,达到100 倍的采集处理效率。当然,数据闭环涉及到海量的数据,其中面临两个问题:其一,在自动驾驶领域需要长周期的数
69、据采集,需要重点发掘 Corner Case(边角场景或极端场景),这些数据分布广、概率低,采集成本高;其二,所有算法或系统要上路之前,必须进行严苛的道路测试,需要覆盖很多的场景和安全隐患。因此,近年来业界开始在视觉问题中引入合成数据(Synthetic Data),一方面用于解决数据难以获取和标注的问题,另一方面合成数据通过排列组合大量参数、引入随机化等方式,产生大量的场景可以解决数据多样性的问题,让训练出来的模型具有更好的泛化能力。目前吉利通过全栈自研 AI Drive 合成数据及虚拟仿真测试平台,采用大模型的技术架构涵盖 AI 技术群和大模型的融合创新,通过真实数据语义挖掘和合成数据仿真
70、能力解决智驾功能开发所需的大量随机/定向场景数据。这改写了智能驾驶算法开发范式,能够大幅提高算法迭代效率。当智能驾驶行业进入了下半场,就需要更深更广的挖掘数据应用场景及价值,让数据发挥价值,让数据流动起来,用来提升产品用户服务,对用户实时进行关怀。而全栈全价值链的数据闭环能力,将会是智能驾驶行业打开提升用户体验、提高功能安全的钥匙。二.多模态大模型促进技术变革智能驾驶的核心是通过用户体验驱动价值创造,让智能化设计回归理性。以 GPT 为代表的大模型为智能驾驶带来了新思路,与早期的 AI模型相比,大模型在参数量上有了质的飞跃,使得复杂任务的建模能力整体上获得提升。比如,以往在城市 NOA 场景中
71、,数据采集、数当智能驾驶行业进入了下半场,就需要更深更广的挖掘数据应用场景及价值,让数据发挥价值,让数据流动起来,用来提升产品用户服务,对用户实时进行关怀。而全栈全价值链的数据闭环能力,将会是智能驾驶行业打开提升用户体验、提高功能安全的钥匙。2024 数字中国万里行考察报告 行业应用篇29据标注成本非常高,现在大模型具备多模态的能力,能够对海量数据进行语义层级的理解,能够把数据做标签化处理,可以快速检索,从而形成模型训练的数据集,继而实现车辆的自动驾驶、智能导航、智能驾驶等功能,提升驾驶的安全性和舒适性。用于车机系统和智能座舱的语言大模型,不仅能实现更高智能的人车交互,还可摆脱座舱的同质化,因
72、算法不同而具有不同的特色和功能,进而形成车企自身独特的智能化差异。视觉大模型的应用通过强大的数据分析和模式识别能力,增强了自动驾驶系统的安全性、效率和用户体验,实现了更准确的环境感知、智能决策。2024 年 Open AI 推出的 Sora,展示出了明显优于此前生成式视觉模型的成果,这也让不少人对其在自动驾驶仿真领域的应用产生了期待。目前国内已经有多家车企宣布推出自己的大模型,助力实现更智能的驾驶、更个性化的服务和更高效的运营。如吉利汽车推出的星睿 AI大模型,是吉利全栈自研的全球首个汽车行业全场景 AI 大模型;一汽联合阿里云通义千问打造的大模型 GPT-BI,则是汽车行业首个落地的大模型
73、BI 应用。用于车机系统和智能座舱的语言大模型,不仅能实现更高智能的人车交互,还可摆脱座舱的同质化,因算法不同而具有不同的特色和功能,进而形成车企自身独特的智能化差异。视觉大模型的应用通过强大的数据分析和模式识别能力,增强了自动驾驶系统的安全 性、效 率 和 用 户 体验,实现了更准确的环境感知、智能决策。30在数字中国万里行团队考察期间,我们看到吉利发布的星睿 AI 大模型拥有超千亿参数量,具备海量常识和情感模块。星睿 AI 大模型以星睿智算中心为算力底座,将自研基础大模型与吉利的 NPDS 研发体系、巨量造车全链路场景数据库深度融合,包括了语言大模型、多模态大模型、数字孪生大模型在内的三大
74、基础模型,以及衍生出的 NLP语言大模型、NPDS 研发大模型、多模态感知大模型、多模态生成大模型、AI DRIVE 大模型、数字生命大模型这六大能力模型。作为星睿智算中心纯自研的成果,星睿 NLP 语言大模型总训练数据量超过 3 万亿 tokens。该模型的出色逻辑推理能力和上下文记忆能力使其在中文语言处理领域达到了领先水平。人机可以互动精准对话,AI 语音支持车内外语言交互,可实现 0.23s 极速响应、全时免唤醒、全画面可见即可说,一句话最多可下达 15 个指令,支持全车多人同时对话。星睿 NPDS 研发大模型是吉利星睿语言大模型在研发端的创新应用。它支持造型设计、机械设计、质量管控和自
75、动驾驶虚拟训练等环节的研发工作。通过高效的数据管理和分析,NPDS 研发大模型可助力研发人员快速发现和解决问题,提高产品的研发效率和质量。2024 数字中国万里行考察报告 行业应用篇31智能体验是消费者评价智能汽车的重要指标,而算力资源是直接影响开发速度的硬性因素,智能驾驶算法的训练需要在有限的时间内完成大量的运算,因而对算力形成极高的要求。随着智能驾驶车辆渗透率的提升,车端算力、城市NOA(NavigateOnAutopilot,自动辅助导航驾驶或领航辅助驾驶)系统需要的云侧训练大算力需求也将持续释放。星睿多模态大模型能够将语音、图像、视频和车辆信号等多种信息模态进行理解和整合,实现智能交互
76、。同时,多模态生成大模型能够将语音输出转化为多种模态信息,为用户提供更加丰富和多样化的服务体验。一句话,星睿多模态大模型具有全场景感知和生成品质高的优势。星睿数字孪生大模型是一个“超级元宇宙生成引擎”,具备完备的3D 生成技术和数字人 AI 驱动技术。它能够快速生成各种逼真的3D 场景和人物形象,为虚拟世界的构建提供了强大的支持。数字孪生大模型的出色表现也为吉利的自动驾驶训练提供了重要支撑。从通用大模型到垂直类大模型,从用大模型合成数据到挖掘数据价值,未来大模型在汽车行业的发展趋势将是多元化的,国内车企的实践给了垂直类大模型极大的想象力。端到端自动驾驶大模型是未来智能驾驶的愿景之一,目前行业内
77、正在极力解决轻量化、本地化、实时全局等技术难题,加速端到端自动驾驶大模型的落地进程。三.智能算力赋能自动驾驶Open AI 一直主张大模型计算量和数据量的暴力美学。同样的原则,也发生在智能驾驶领域。智能体验是消费者评价智能汽车的重要指标,而算力资源是直接影响开发速度的硬性因素,智能驾驶算法的训练需要在有限的时间内完成大量的运算,因而对算力形成极高的要求。随着智能驾驶车辆渗透率的提升,车端算力、城市 NOA(Navigate On Autopilot,自动辅助导航驾驶或领航辅助驾驶)系统需要的云侧训练大算力需求也将持续释放。为实现自动驾驶汽车更全面、精确、可靠地感知、决策、控制和执行行驶任务,自
78、动驾驶等级每提升一级,对算力资源的需求至少增加十倍。同时,数据和算力已扩展到智能汽车全环节。汽车智能化是汽车产业升级发展的重要方向,而新能源汽车正是算力应用的最直接表现,从研发、生产制造、销售/售后、运营等环节的数据都需要打通。数据算力需求将扩大至汽车产业全环节,每一辆汽车出厂之前,工程师们就已经为整车进行了完善的智能操控与应用测试,确保用户体验更安全的智能驾驶、更智能的智能座舱。高强度的算力不仅需要被用于模型的运行、更新、迭代,还需要支撑仿真测试中场景的搭建与渲染。+32因此,承载算力基础设施的大型化智算中心已成为车企快速占领智能汽车市场的基础条件。近两年,国内车企或自建或联合云厂商共建智算
79、中心,努力提升竞争力。吉利汽车湖州“星睿”智算中心,是全球车企首个“云、数、智”一体化超级云计算平台,综合算力已经达到 1027 PFlops。平台通过构建强大的智能化算力体系,统一研发、统一运营、全栈统一租户化管理,AI 场景研发效能提升幅度超过 20%。业务支撑范围覆盖了智能驾驶、智能座舱、人工智能、新能源安全、车联网大数据、试制试验等领域,成为吉利打通“车路云网图”,实现天地一体化和万物互联的坚实底座。小鹏汽车乌兰察布“扶摇”智算中心。在 2022 年数字中国万里行团队考察期间,小鹏汽车和阿里云共同宣布在乌兰察布合建当时最大的自动驾驶智算中心“扶摇”,专用于自动驾驶模型训练,算力可达 6
80、00 PFlops,将小鹏自动驾驶核心模型的训练速度提升了170 倍。雨中的吉利星睿智算中心+2024 数字中国万里行考察报告 行业应用篇33长城汽车旗下毫末智行“雪湖绿洲”智算中心。其算力达到 670 PFlops,采用了自主研发的高性能计算平台和深度学习框架,可支持毫末在自动泊车、自动驾驶等领域的创新。比亚迪云辇智算中心。该智算中心具有多核高性能处理能力,支持多通讯和信号接口,可对车辆行驶实时监测车身姿态,进行快速决策等。蔚来汽车合肥“蔚来云”智算中心。其集成了阿里云、英伟达等合作伙伴的技术资源,支持蔚来在自动驾驶、电池云服务等领域的发展。长安汽车重庆智算中心。基于百度智能云的百舸 AI
81、异构计算平台,长安智算中心的计算能力达到了 142 PFlops,在支持智能网联与自动驾驶研发等相关业务时,模型训练速度最高可提升 125 倍。理想汽车与火山引擎合作,2023 年在大同开始建设智算中心。以 2023 年数字中国万里行团队参观考察的吉利星睿智算中心为例,2022 年 7 月完成一期建设,2023 年 2 月 27 日正式揭牌。该数据中心总投资 10 亿元,占地 52.12 亩,规划机柜 5000 架,一期已建成标准 5kW 机柜 2520 架。截至 2024 年 1 月,数据中心正在运行的CPU 资源约 6 万多个、AI 芯片 2 千多张、存储容量超过 60PB。这也是国内制造
82、业首个落地的超大规模科学计算集群,实测双精度浮点算力达 25.13 PFlops。星睿智算中心的算力设施主要分为四大区域:通用区、智驾区、仿真区、边缘研发区。吉利星睿智算中心机房首个落地国内制造业首个落地的超大规模科学计算集群60000+数据中心正在运行的 CPU 资源2000+AI 芯片 2 千多张60PB存储容量超过 60PB+34星睿智算中心通用技术架构主要面向常规数据入湖、数据存储、大数据计算开发、大数据应用支持、AI 研发等业务领域提供技术服务。IaaS 层由通用计算资源、GPU 计算资源、存储资源、网络资源、数据库/数仓资源、大数据资源组成,统一对 PaaS 层提供资源服务。Paa
83、S 层主要由数据传输服务、数据计算开发服务、数据治理服务、AI服务组成,用于调用 IaaS 层资源,对吉利常规车联业务提供大数据和 AI 业务研发支撑。SaaS 层由车联网大数据应用业务、AI 应用业务相关的一系列应用系统或终端产品组成,直接对产品业务提供数据或计算支持。通用区主要服务智能座舱、云车机研发等,以及研发系统统一的数据湖等。智驾区运行的业务包括数据采集管理、数据标注管理、智驾仿真管理、数据管理平台、模型研发平台等。仿真区是吉利全栈自研 AI Drive 虚拟结合的大模型平台,依托大模型的技术架构能力,涵盖 AI 技术群和大模型的融合创新,通过合成数据仿真能力和真实数据语义挖掘,解决
84、智驾功能开发所需的随机/定向场景数据不足和数据长尾问题。能够大幅提高算法迭代效率,也正在改写着智能驾驶系统的开发范式。边缘研发区则是支撑吉利研究院本地数据业务、智能化业务的研发,如试制试验等业务的开展。吉利星睿智算中心机房 的液冷集群2024 数字中国万里行考察报告 行业应用篇35依托智算中心吉利构建起全场景数字化智能服务。运行一年多来,从产品(新能源车)角度看,吉利星睿智算中心获得了不少阶段性成果。NOA 量产全面接入,给低于 20 万定价的车型带来了更多智驾能力(如博越 L),实现了智能驾驶数据自动闭环;推出了新一代座舱操作系统银河 NOS,覆盖多款车型需求,让用户的车机交互体验与手机无异
85、;全场景 AI 服务,包括全场景 AI 模型、WOW 壁纸、AI 音乐律动、儿童绘本等,实际落地应用了大模型、AIGC 等技术;业内领先的大数据应用服务,如数据湖及治理能力,支持超过 350万辆车的数据实时回传数据平台;可为新能源车提供 724 小时的云端守护,如银河 E8 的神盾电池安全系统,包括了云端的安全智能管控,可以做到事前预警、事中报警。四.车能路云网融合发展加速落地在智能网联时代中,城市就是一个基于数据驱动的智能体,汽车将成为智慧城市中移动的节点,每天产生、接收、传递大量的数据。AI 大模型技术的应用将为智能网联汽车带来革命性的变革。未来,智能网联汽车将与道路基础设施、云计算平台等
86、多个领域实现深度融合,共同构建一个高度智能化的交通系统。这将有助于提高交通效率,降低交通事故发生率,同时也为自动驾驶技术的发展提供了更广阔的空间。为了支持智能网联汽车的发展,中国汽车与交通产业正在探索汽车、交通、城市融合发展的新路径,进一步促进智能驾驶的落地。2016年以来,“车路协同智能交通”的国家战略渐趋明确,行业共识逐步形成,产业化工作正在稳步推进。2019 年 9 月,中共中央、国务院印发交通强国建设纲要,并发出通知,要求各地区各部门结合实际认真贯彻落实。推进数据资源赋能交通发展,构建泛在先进的交通信息基础设施,加强智能网联汽车(智能汽车、自动驾驶、车路协同)研发,开发新一代智能交通管
87、理系统,加速新业态新模式发展。在智能网联时代中,城市就是一个基于数据驱动的智能体,汽车将成为智慧城市中移动的节点,每天产生、接收、传递大量的数据。AI 大模型技术的应用将为智能网联汽车带来革命性的变革。未来,智能网联汽车将与道路基础设施、云计算平台等多个领域实现深度融合,共同构建一个高度智能化的交通系统。这将有助于提高交通效率,降低交通事故发生率,同时也为自动驾驶技术的发展提供了更广阔的空间。+362020 年 2 月,国家发展改革委等十一部门联合印发智能汽车创新发展战略,明确以智能网联汽车强国为建设目标,提出构建智能网联汽车技术创新体系、产业生态体系、基础设施体系、法规标准体系、产品监管体系
88、、网络安全体系。2020 年 11 月,住房和城乡建设部、工业和信息化部两部委办公厅印发关于组织开展智慧城市基础设施与智能网联汽车协同发展试点工作的通知,明确了加强智慧城市基础设施建设、实现不同等级智能网联汽车在特定场景下的示范应用,不断提升城市基础设施智能化水平,加快智能网联汽车产业发展。2021 年 10 月,交通运输部正式发布了 数字交通“十四五”发展规划,明确了未来五年我国的数字交通发展目标,构建交通新型融合基础设施网络,加快推进交通新基建,推动新技术与交通基础设施融合发展,完善公路感知网络,推进公路基础设施全要素全周期数字化,发展车路协同和自动驾驶,推动重点路段开展恶劣天气行车诱导,
89、缓解交通拥堵、提升运行效率,建设监测、调度、管控、应急服务一体的智慧路网平台等智慧公路业务建设。2023 年 11 月,工业和信息化部、公安部、住房和城乡建设部、交通运输部联合发布关于开展智能网联汽车准入和上路通行试点工作的通知,进一步明确 L3 级和 L4 级自动驾驶准入规范,推动L3 级和 L4 级自动驾驶车型实现里程碑式的新跨越。2023 年 12 月,交通运输部印发自动驾驶汽车运输安全服务指南(试行),明确鼓励规范自动驾驶汽车在特定区域、特定时段从事城市公共汽电车、出租汽车、物流配送等商业化试运营,为自动驾驶汽车大规模商业化落地奠定政策基础。有别于国外主导的单车智能方案,我国正在探索车
90、路云一体化,即智能网联汽车中国方案,探索汽车、交通和城市的融合发展。在推动车路云一体化生态的规模化落地和常态化运营进程中,面向车路云一体化的基础设施体系提供了坚实的底部支撑。我国正在探索车路云一体化,即智能网联汽车中国方案,探索汽车、交通和城市的融合发展。在推动车路云一体化生态的规模化落地和常态化运营进程中,面向车路云一体化的基础设施体系提供了坚实的底部支撑。2024 数字中国万里行考察报告 行业应用篇372024 年 1 月,数字中国万里行团队走进了苏州市智能网联汽车发展的核心区苏州市相城区,这里培育着智能车联网全产业链生态,聚集了产业链上下 260 多家企业、覆盖 30 余个细分领域,在自
91、动驾驶核心算法、新型传感器、线控底盘、域控制器、车路协同等领域形成了一批头部企业和代表性产品,已成为长三角地区最具活力和影响力的产业发展高地。在天翼交通科技有限公司(以下简称天翼交通),我们体验了天翼交通车路云一体化运营服务的两个典型应用:智能驾驶辅助服务和智能交通管理辅助服务,进一步了解了该应用背后的天翼交通城市级车路云一体化的智慧底座。天翼交通搭载“轻车熟路”系统的车路协同式自动驾驶,全球首次实现以轻量化自动驾驶汽车+高级别全息智慧道路,依靠纯路端感知在城市级公开道路实现5G网联式L4级别自动驾驶。通过车路云的协同,在苏州市相城区南天成路这条“智驾大道”上,可以看到天翼交通在路端集成安装的
92、激光雷达、毫米波雷达、摄像机、补盲雷达、路端通讯模及边缘计算等多种设备,充分发挥了系统“挂得高、看得远”的+苏州市智能网联汽车发展的核心区苏州市相城区38感知优势,打造出全路段无盲区、无死角的道路感知体系,可将原本实现 L4 级别自动驾驶所需的单车多维度感知转由路端传感器分担,通过后端技术引擎的处理与分析,向车端反馈时空连续、高置信、真智能的感知融合数据,车端获得了道路上包括其他车辆、行人、红绿灯信息等一系列感知结果,并依靠云端的路径规划完成点到点的自动驾驶功能,帮助车辆进行智能决策与控制。目前,天翼交通在苏州市打造了相城三期(51 公里全息感知道路、111 公里智能网联道路)、S17 高速(
93、6.5 公里全息感知道路、49.5公里智能网联道路)以及市级云控平台等标杆示范工程。在未来的规划中,天翼交通将在整个苏州市域范围内建设 1000 公里的全息智慧道路。我们看到,在 S17 高速上,结合路端的实时交通状况,通过 5G 通信,可以为新能源重卡提供节能车速的驾驶建议,车辆按照云端的车速建议结合自身位置开展相应的实际驾驶动作。除此之外,天翼交通还搭建了智能驾驶赋能服务平台、智能交通运营服务平台。在面向交通管理的应用实践中,利用 AI 识别能力,可以第一时间识别到相关交通事故并初步对相关方的责任进行判定,进而提交给交警进行复核,若结果确认就可下发执行,后续也可结合车端或者手机端的应用,直
94、接下发事故处理结果,让事故双方快速离场、恢复交通、避免拥堵。+2024 数字中国万里行考察报告 行业应用篇39对于自动驾驶汽车来说,通过道路感知体系感知的数据显然要比车身上的传感器所能获得的数据更为全面。但在整个车路协调方案中,最关键的是道路与车辆之间的通信问题。天翼交通自诞生之日起就兼顾了云网、数据安全等技术优势和资源优势。一方面,通过中国电信的5G 网络切片技术,为智慧交通提供专网服务,确保道路与车辆通信的高可靠、低时延;另一方面,依靠中国电信的网络基建优势,整套解决方案的设计与部署都在原基础上叠加,利于在城市里的快速部署,也便于后续的运维,减少项目的落地投资。天翼交通城市级车路云一体化基
95、础设施体系由“3系统+1平台”组成。3 系统分别是激光/毫米波雷达与摄像头的场景化定制组合所构建的分级多源感知系统,还有基于算力分层适配的分布式算力系统,以及基于 5G 切片的超稳态智驾专网系统。1 平台即支撑服务分层解耦、应用跨域共用的云控基础平台。目前车路协同主要采用路端开展多点位融合感知计算并把相应结果传输到边缘云进行融合的方式,开展覆盖范围内的环境感知计算。但由于目前 AI 算法对于算力的要求较高,这种方式使得路端算力的投资比较大,随着算法升级,算力平台无法有效扩展,同时接入对应的边缘云还需要相应的光纤部署等一系列工程量大的工作。而天翼交通的分层算力网络系统,可实现算力在中心云、区域云
96、、边缘云、基站、路侧的分级部署和协同,能带来部署便捷、减少投资、统一运维等优点。对 于 自 动 驾 驶 汽 车 来说,通过道路感知体系感知的数据显然要比车身上的传感器所能获得的数据更为全面。但在整个车路协调方案中,最关键的是道路与车辆之间的通信问题。天翼交通自诞生之日起就兼顾了云网、数据安全等技术优势和资源优势。+40具体来说,天翼交通为整个项目建设了微基站,将路端的一部分算力上浮,在 5G 基站侧构建分布式的算力体系,来支撑对路段上多个点位数据的汇聚计算。同时结合实际计算需求,将边缘云一部分数据融合与控制功能下沉,从而可以根据实际算法升级或覆盖升级带来的新计算要求,动态的构建基于基站的边缘算
97、力支持,快速响应计算需求。同时,路侧感知的信息通过中国电信超高可靠、超低时延的 5G 网络实现数据的处理和传输(比如虚拟双频专网、双发选收、动态调度增强功能等),保障车路之间信息传递的实时性。当然,为了避免网络的波动,天翼交通采用 5G 切片技术,让高级别自动驾驶更稳定、更安全,成本也更低。基于三系统,天翼交通依据相应行业标准构建分层云控基础平台,作为相关运营的城市交通数据底座,完成跨域系统之间的数据标准化对接、针对性计算、标准化的分享,从而使得市区相关的业务可以在统一的数据体系下完成协同。可以看出,天翼交通车路云一体化系统通过最可靠的通信和最强大的边缘算力平台,通过全局性的调度,实现了车路协
98、同效率的最大化。这使得宝贵的道路资源也能实现高效和系统性的配置,从而达到整个道路交通系统的智能化提升,最终打造“聪明的车”,建设“智慧的路”,布局“灵活的网”,实现对智能驾驶以及智慧交通的服务赋能。+2024 数字中国万里行考察报告 行业应用篇41从产业生态和国家政策来看,我国正在大力推动车路云一体化生态的规模化落地和常态化运营进程,车路协同智能交通国家战略渐趋明确,行业共识逐步形成,产业化工作正在稳步推进。从技术演进来看,AI 大模型技术的应用将为智能驾驶带来革命性的变革,智算集群可以提升数据处理与模型训练的效率。因此,承载算力基础设施的智算中心成为车企快速占领智能汽车市场的基础条件。国内车
99、企或自建或联合云厂商共建智算中心,希望掌握稳定的算力资源,缩短开发周期,加快自动驾驶产品迭代,提升竞争力。42第三章 算力赋能产学研 助力高校技术创新尽管高校一直在算力应用中的规模不大,却是非常关键的一环。或许是出于对科研的创新与探索,许多高校都愿意采用最新的技术进行尝试。受限于服务对象与客观条件,单一校级数据中心的规模很难与互联网大厂甚至是一般的云数据中心相比,但正所谓“麻雀虽小,五脏俱全”,其所应用的技术及管理水平对于整个高校算力圈乃至教育领域的影响力依然非常大。2024 年的政府工作报告明确提出,要“坚持教育强国、科技强国、人才强国建设一体统筹推进”“加快推动高水平科技自立自强”“深化教
100、育科技人才综合改革,为现代化建设提供强大动力”。这进一步提升了人才教育的价值,也凸显了高校创新的现实意义。除了调研多地的数据中心外,2023 年的数字中国万里行暨算力经济中国行还先后走进了西安电子科技大学、北京大学、中国农业大学、上海交通大学和华南理工大学。数字中国万里行考察团队发现,中国高校在数字化教学、智慧校园等方面的探索与实践早已卓有成效。同时,在高性能算力平台的演进进程中,多元算力、算网融合、大模型技术、液冷技术等绿色算力解决中 国 高 校 在 数 字 化 教学、智慧校园等方面的探索与实践早已卓有成效。同时,在高性能算力平台的演进进程中,多元算力、算网融合、大模型技术、液冷技术等绿色算
101、力解决方案正在高校加速落地。+2024 数字中国万里行考察报告 行业应用篇 2023 年数字中国万里行暨算力经济中国行 走进西安电子科技大学43方案正在高校加速落地。以北京大学为例,通过创新实践解决了算力网络市场中使用、接入和交易三个关键问题,促进了算力网络的进一步发展,充分发挥了算力资源的价值,为国家的“东数西算”“双碳”战略提供了高质量支撑,为业界提供了宝贵的经验和启示。北京大学:算力运营探索,自研 SCOW 管理平台北京大学的计算中心早在上世纪七十年代初就参与了国内第一台百万次计算机的制造工作。如今,北京大学在校级算力平台建设、算力运营方面积极创新实践,推动算力发展。北京大学高性能计算校
102、级公共平台于 2018 年正式揭牌启用,以计算中心技术团队为支撑,面向全校提供高性能科学与工程计算服务满足各学科领域对于大规模数据处理和大规模科学计算的需求。北京大学拥有“未名一号”“未名二号”等多套算力集群,为数学,深度学习、大气海洋环境、新能源新材料、天文地球物理、生物医药健康等领域提供高性能科学与工程计算服务。目前平台资源包括 755 个节点和 33584 个核心,拥有 4.39 PFlops 的双精度峰值计算能力和 15PB 的存储容量。平台的日常工作重点就是对这些算力资源实现有序、精准的管理和运维。在建设层面,北京大学是国内首个大规模采用温水水冷技术降低数据中心 PUE 的高校,推动
103、了液冷技技术在数据中心领域的实践。同时,北京大学也是第一个大规模使用国产 100G 无损高速网的单位,推动了国产高速网络技术的发展。北京大学“未名一号”算力集群+44在应用层面,为了实现平台化的统一管理、算力资源有效调动、不同层级用户的合理分配,北京大学计算中心集思广益,并最终携手北京大学长沙计算与数字经济研究院共同开发出具有独立知识产权的算力中心门户和管理平台SCOW(Super Computing On Web)。从此,算力用户和运维团队只需要一个浏览器就能完成算力中心的算力资源使用、管理全流程,实现算力中心资源易管理、易使用的目标。不同于商业软件的复杂与繁琐,SCOW 强调一体化部署、开
104、箱即用。它提供图形化界面,使用方便。在门户平台,超算用户无需了解和配置 SSH、VNC、命令行等技术,直接在浏览器上就可以使用超算集群,极大降低了用户使用门槛,即使是 Linux“小白”用户也能顺利提交作业。在后端界面,设计了能支撑复杂管理的模型。当所有节点都部署之后,SCOW 还提供了连接层,即算力网络的融合和交易平台。如果某个算力中心的算力资源很丰富,但用户资源不足,就可以通过平台对外销售算力;如果自身的算力需求比较旺盛,还可以通过平台购买算力资源。在 SCOW 的开发过程中,实现了诸多技术的创新和突破。如基于透明代理的全流程审计,主要是把网络安全中的审计引入到系统,加强操作的安全;面向
105、CI/CD 的自动化安全检测机器人,从源代码级别实现自动化安全;高画质低延迟的远程桌面;基于文件元属性和网络自适应的跨集群智能文件传输等。统一用户界面管理系统超算集群智算集群超算集群门户系统标准接口计费收费作业管理用户管理账户管理身份认证调度系统文件系统调度系统文件系统调度系统文件系统权限管理在线作业提交在线资源申请在线shell平台跨集群文件传输可视化桌面可视化应用+2024 数字中国万里行考察报告 行业应用篇45相对于目前不少高校使用的外国平台,北京大学开发 SCOW 并不是为了盈利,也不是为了出名,而是希望通过这一平台让更多中国高校用上自己的管理平台,也同样是证明中国软件并不比国外的差。
106、未来,SCOW将朝着 SCOWForAI 的方向发展,用更强、更多功能和更全面的系统服务更多的高校。樊春在不断迭代与验证 SCOW 的优势之后,北京大学决定将 SCOW 项目开源,便于更多的高校能够体验到统一部署与管理的优势。尤其在 AI调度系统上,SCOW 拥有良好的兼容性,与主流系统都做了对接,方便管理员搭建系统,做到开箱即用。如果某高校尚未建设集群,只能在单机上测试系统的话,可以用 Vagrant 实现一键部署,也可以用Docker 实现快速部署。目前,全国已有 50 多个机构部署、测试或在使用 SCOW。开源下载量在不到半年的时间内已经超过 12000 次。正如计算中心系统管理室樊春老
107、师所说:“相对于目前不少高校使用的外国平台,北京大学开发 SCOW 并不是为了盈利,也不是为了出名,而是希望通过这一平台让更多中国高校用上自己的管理平台,也同样是证明中国软件并不比国外的差。未来,SCOW 将朝着 SCOW For AI 的方向发展,用更强、更多功能和更全面的系统服务更多的高校。”数据显示,北京大学高性能计算平台已经实现了对于 500 多个、总计30 多亿经费的项目支持,支撑高水平论文 1700 多篇,其中Nature正刊 20 篇、JACS顶刊 35 篇和Nature系列的文章 100 多篇,可谓硕果累累。随着全新建成的“未名二号”算力集群上线运行,北京大学在自主创新与科教兴
108、国层面,不断贡献自己的力量,推动中国高校算力的快速、持续、稳定发展。上海交通大学:优化应用部署,关注复合型人才培养上海交通大学在高校算力建设和服务层面也是先行者。上海交通大学的“交我算”平台是校级计算公共服务平台,由校网络信息中心负责建设与日常管理,全面支撑全校教学、科研、管理的计算需求。“交我算”平台早在 2013 年成立,经过“十二五”“十三五”的持续投入与建设,目前已发展成为国内高校顶尖的算力中心,平台包括云计算、AI 计算、高性能计算、Arm 超算、杨元庆科学计算中心五大计算平台和科学大数据平台,通过构建统一聚合门户,为师生提供一致的计算服务体验。“交我算”平台的算力资源非常丰富,除了
109、杨元庆捐助的“思源一号”46高性能计算集群之外,目前运行的还包括 2.0 集群、AI 计算平台、Arm 超算平台以及科学大数据平台等多个算力集群,聚合存储容量达到 65PB,未来将扩展到 100PB。其中,“思源一号”高性能计算集群总算力为 6 PFlops,暂列国内高校第一;Arm 超算平台共有100 个计算节点,是国内高校首个基于 Arm 处理器的高性能计算集群,并在硬件和系统层面上均采用了全国产化解决方案,也为国产操作系统在高性能计算领域的大规模应用和完善提供了应用先例和推广经验。当然,“交我算”作为上海交通大学校级计算公共服务平台,最大的价值还在于为学校的教学与科研赋能。为此,上海交通
110、大学网络信息中心为“交我算”平台打造了集算力基座、计算服务、人才团队在内的三位一体模式,支撑计算服务不断革新升级,赋能科研原始创新与“思源一号”高性能计算集群 2.0 集群65PB聚合存储容量达100PB未来将扩展到6PFlops“思源一号”高性能计算集群总算力100个计算节点Arm 超算平台共有2024 数字中国万里行考察报告 行业应用篇47前沿突破。上述提到的“思源一号”、2.0 集群、Arm 超算平台等等共同构成了“交我算”的算力基座,提供了多元化、多维度的算力服务与应用环境,而真正让这些算力设备发挥价值的,还要数专业的计算服务团队。相较于不少高校网络信息中心的人手不足,上海交通大学可以
111、说是人才济济。在学校大力支持下,“交我算”团队从最开始的 5 人迅速发展到目前的 32 人,其中一半以上来自 C9 高校,具有硕士及以上学历,是国内高校规模最大的计算服务团队。在这个庞大的服务团队中,计算专员占比很高,这些老师们的主要任务就是支持学科交叉,简单来说就是在专业学科与计算机学科之间充当“翻译”。一直以来,高校科研遇到的最大问题就是许多老师不懂计算机语言,或许不少老师是某个领域的教授乃至权威,比如生物、化学、物理等等学科,但是如何将这些学科的专业需求转化为计算机能“听懂”的语言,如何实现有效的代码编程与调优,这就是计算专员们需要解决的问题。尤其近些年,随着数字化、智能化的发展,几乎所
112、有的理工学科实验都可以通过计算机进行模拟,而不断升级变化、层出不穷的计算机软件工具也必需要专业的人才来操作,这也是学科交叉发展的必然。上海交大“交我算”平台的 管理仪表板+48当然,这种“翻译”服务也不可能是一对一的,毕竟目前“交我算”平台已经服务于上海交通大学 1300 多个课题组,如此庞大的数量也让整个服务团队异常忙碌。为了实现有序管理、避免重复问题提交,“交我算”平台开发出全国校级服务平台中可能是唯一的“工单”系统。这样一来,通过对于不同工单系统需求的分析,服务团队就可以为需求一致或者接近的课题组提供标准化的服务,同时也可以保障不同课题组的作业能够有序运行,让算力资源与服务团队运行实现效
113、率最大化。这也是“交我算”推出的全新服务模式。从最早的粗放型采购到后来的按需购买与计算,再到科学融合与计算赋能,其实“交我算”的服务模式已经走在了全国高校的前列。时至今日,“交我算”在科研和教学服务方面取得了新的成就。首先,创新科研支撑模式,数字赋能高水平科学研究。一是面向广大师生,提供“随手用”计算服务。统一调度分布在不同校区的算力资源和存储资源,提供针对教学与科研的计算模板,便于快速调取使用,以满足不同课程与科研任务的需求。近 5 年,累计为 6800 余名师生提供计算服务,支撑各类科研项目 1000 余项。二是面向复杂项目,提供“个性化”计算支撑。打造具有学科背景的计算专员团队,深入“交
114、我算”十年走过的五个阶段自主创新 科研软件十四五学科融合 计算赋能2018-2020帮你算 更快更好2015-2017谁想算 都可以来算2012-2014谁要算 谁就自己买2012 年前2024 数字中国万里行考察报告 行业应用篇49项目共同开展研究,为科研用户提供个性化的计算支撑服务。“交我算”为附属瑞金医院牵头的中国代谢解析计划提供计算服务,助力解决 PB 量级(千万亿字节)的健康大数据“随存随算”和数据构建过程中的高通量生物信息学计算难题。三是面向堵点难点,提供“定制化”解决方案。针对科研过程中遇到的计算领域技术难题和性能瓶颈,优化程序代码,提升计算性能,保障科研工作高效推进。“交我算”
115、助力某院士科研团队,加速白血病早期诊断的基因组分析流程,将分析每个病人的所需时间从 1 周缩短到 13 个小时,以数字赋能推动科研效率和质量提升。其次,创新教学融合模式,数字赋能高素质人才培育。探索实践“计算深度融入专业课教学”新模式,由专业课教师和计算服务团队教师共同参与设计计算材料、计算生物、计算流体力学、计算社会科学等10 余门课程,注重各专业所需的计算知识讲授和技能培养,强化计算实验和实践环节,增强学生用数字化手段解决实际问题的能力。为各专业课程的计算教学创设一站式软硬件环境,支撑 25 个院(系)、100余门课程计算实验和毕业设计,每年为7000余名师生提供服务。针对各类专业课应用需
116、求,定制简单易上手的编程实践环境,努力使计算实验教学不受固定教学时间和专用教室限制,推动数字化教育与实践融入更多课程。与时俱进,守正创新。经过十余年交大人的持续建设,目前“交我算”平台已发展成国内高校顶尖的算力中心,也拥有目前国内最大的校级计算服务团队,可以更好地支持学校科研、教学、管理的创新发展,为促进学科交叉融合提供了行业标杆。面向未来,“十四五”期间“交我算”将继续紧跟国家、上海市及学校的战略布局,着力加强算力基础设施建设和服务模式创新,为推进学校事业高质量发展和拔尖创新人才培养注入强劲动力。+50华南理工大学:以多元化液冷实践打造高效算力、绿色算力 华南理工大学使用的液冷解决方案是目前
117、华南地区高校中较为领先的案例。作为广东省著名的双一流高校,华南理工大学也是整个华南地区一流的理工类大学。目前该校建有 29 个国家级科研平台、231 个省部级科研平台,数量位居广东省高校首位。正因为科研项目众多,该校数据中心广泛承载了科研平台和智慧校园等业务,为在校超 10万名师生提供密集的数据计算资源。换句话说,校数据中心已成为全校的算力“心脏”。如何保证这个“心脏”高效、稳定、健康和绿色地运转,成为摆在管理者眼前的首要问题。相比上述提到的北京大学、上海交通大学来说,华南理工大学在计算中心规模上与之相当。其在液冷应用层面处于先进水平。数字中国万里行考察团队在现场看到了包括曙光数创、联想等多家
118、企业的先进液冷技术解决方案,这证明了华南理工大学在应用领域的创新与大胆。为了向全校师生与科研日常应用提供支持,在考量过诸多建设方案之后,最终曙光和联想的液冷解决方案脱颖而出。存算一栈式的液冷数 华南理工机房2024 数字中国万里行考察报告 行业应用篇51华南理工大学称得上是曙光存储在华南地区的经典案例,一方面基于液冷领域的长久积累,勇于打破“性能、能耗、成本”之间的“不可能三角”,通过液冷存储系统与液冷服务器的技术同源,形成“存算一栈式”液冷方案;另一方面也让数据中心基础设施得以统一规划、设计和通用,在助力数据中心提高运维效率的同时,率先在行业内补全了全栈液冷的拼图。据中心,解决了长久以来困扰
119、学校的数据中心高能耗、难散热等难题,实现能效和性能的双重目标,也让应用体验上了一个新的台阶。不同于其他高校因学院众多所遗留的历史包袱,华南理工大学国际校区是一个全新校区,也是全国唯一的所有学院、专业都是新工科、交叉学科的校区。这种情况一方面对算力、数据利用有比较高的需求,另一方面在数据中心的建设上也给管理者提供了更多发挥的空间。交叉学科的价值就在于并不专注于某一领域的研究,而是借助多个学科、多个专业的融合与协同,通过复杂的分析、实验等手段进行研究的新兴学科,因此数据交流与应用就显得更为重要。此外,学校绝大部分实验都需要计算机进行模拟与仿真,自然也对于系统算力、数据存力提出新的要求。除了教学科研
120、带来的应用压力之外,还有一部分压力来自于政策与发展需求,即绿色低碳。近些年,国家对数据中心排放有了越来越严苛的要求,北上广深等一线城市都陆续出台了数据中心节能要求,明确表示要将数据中心 PUE 降低到 1.3 甚至 1.2 以下。这也意味着,新建数据中心必须要考虑到未来5到10年甚至更长时间的发展问题。因此,在选择解决方案时就要更具战略发展的眼光。在经过仔细的评估与计算之后,华南理工大学最终选择在国际校区采用存算一栈式液冷解决方案,即计算液冷和存储液冷的全栈式方案,算力建设达到双精度7.3P和 AI 计算 94P,并将存储容量扩展了近 25PB。这主要得益于液冷数据中心在节省电力能耗、节约数据
121、中心设备空间、大规模节约线缆和提升应用体验等层面的优势。使用存算一栈式解决方案出于几点考虑:一是要求性能比较高、质量比较好;二是成本比较低;三是环保。这里提到的成本,主要是电力成本,这也是传统风冷数据中心成本的大头。非 IT 设备占据了能耗的40%,这其中很大一部分就是空调等散热设备。而在使用液冷之后,随着 PUE 的降低,用于散热的电量大大减少,长久看来已经远超过液冷部署的一次性成本,从整体 TCO 角度来说达到了降本增效、节能减排的效果。该方案让用户的应用体验也随之提升。相对于风冷散热来说,液冷的散热效果更均衡、更稳定,无论是对服务器还是对存储设备来说,运行也就更为顺畅、平滑,这样用户就感
122、受不到性能的跳跃,可以流畅、1.31.2PUE 降低到25PB存储容量扩展30%整体能耗降低52稳定的进行科研项目操作。据测算,在使用液冷解决方案之后,华南理工大学数据中心整体能耗降低了 30%。按照服务器、存储等 IT 基础设施 5 年的生命周期计算,整体 TCO 有所节省的同时也为后续的升级和迭代提供了良好的基础条件。数字中国万里行考察团队认为,华南理工大学称得上是曙光存储在华南地区的经典案例,一方面基于液冷领域的长久积累,勇于打破“性能、能耗、成本”之间的“不可能三角”,通过液冷存储系统与液冷服务器的技术同源,形成“存算一栈式”液冷方案;另一方面也让数据中心基础设施得以统一规划、设计和通
123、用,在助力数据中心提高运维效率的同时,率先在行业内补全了全栈液冷的拼图。中国农业大学:花小钱办大事,算力强势增长数字中国万里行考察团队走进的第四所大学是中国农业大学。因为“农业”的原因,这所大学在大众的视野中多少有些“神秘”。甚至就连中国农业大学信息化办公室的陈昕主任也开玩笑的表示,大学里并非大家想象的那样“遍地是牛羊”。恰恰相反,国字头的中国农业大学有着太多的光环,“双一流”“985”“211”等称号都彰显出这是一座建校超百年的一流学府。据“星球数据派”统计,2023 到 2024 年中国 985 大学预算经费增速排名中,中国农业大学以 24.3%的增幅排名第二,仅以 0.2%的微小差距落后
124、于冠军南京大学,这也反映出中国农业大学的快速发展。数字中国万里行考察团队发现,中国农业大学从 2022 年开始分一、二期进行了校级算力平台建设,其中一期规模较小,主要是验证建设思路,即实现低成本、高价值的优质服务。在有了一定经验之后,2023 年二期工程快速上马,并获得了校内师生的高度肯定。截至 2023 年 11 月,中国农业大学校级算力平台总计具备 1178 TFlops 的双精度浮点算力,支撑了学校约 160 个实验室的科研应用,助力在自然细胞科学等影响因子大于 20 的期刊发表论文 7 篇,SCI 一区顶刊论文若干。虽然就规模来说,其在全国高校校级算力排行中处于中下水平,但就运算速度已
125、达到了中上层级,真正体现了“花小钱办大事”。7:3高性能计算和 AI 计算23%存储投入占比6.7PB 裸容量4.5PB 可用容量2024 数字中国万里行考察报告 行业应用篇+53对中国农业大学而言,科研项目方向众多,为此在算力的配比上也兼顾了高性能计算和 AI 计算,大概按 7 比 3 的比例配比。同时考虑到生物相关的项目需要大量的存储,平台的存储投入占比约为 23%,其中裸容量 6.7PB,可用容量 4.5PB。在网络方面,平台基本按照全线速设计,所有计算节点均采用 100Gbps 的 IB 网络高速互联,最大限度保证网络无瓶颈。农大校级网络建设54华中农业大学:释放多元算力价值,推动交叉
126、学科应用随着智慧化应用在各行各业普及,农业作为国民经济基础,也在发生着悄然变化。除了精准农业之外,包括农业信息服务、产业链改造升级、资源环境可持续发展,这些都属于农业应用的范畴,各大农业类高校也自然而然地肩负起细分领域科研与应用创新的重担。华中农业大学作为全国“双一流”建设高校,一直以来依托传统优势农科,理农结合培植发展生命科学,通过交叉培植、整合集成、发展巩固、带动提升等几个阶段,用现代生物科学技术提升传统农科,加快推进学科交叉融合,提升农科和生命科学国际影响力与行业影响力。为了解决农业科研时各种变量和因素的复杂数据处理需求,华中农业大学在实际科研与教学中对传统高性能计算集群产生了新的需求。
127、首先就是异构算力的多样化,由于科研场景不同、各学院差异化的需求也不同,因此多元化算力已经成为华中农业大学要解决的首要问题。其次,随着不同集群增多,如何实现不同规模、不同配置的集群统一管理调度,提升资源利用率,实现有效管理和监控,也是需要解决的问题。最后,多元化还需要软件与应用生态的支持,华中农业大学的科研工作多年来一直以开源软件为主,因此在多元化的过程中需要充分考虑部分未识别的软件从 x86 架构平滑迁移至 Arm 架构等问题。为了解决这些应用层面的难题,经过多方考虑与深度评估后,华中农业大学最终决定选择了 Arm+x86+NPU 的异构计算方案。一方面,利用 Arm 处理器低功耗和高效能的特
128、性处理需要长时间运行的任务;另一方面,利用 x86 处理器进行大规模的高性能计算任务,结合昇腾架构的 NPU 加速卡处理特定场景的计算任务,实现计算资源的灵活分配和优化利用。整个集群分为计算节点、大内存节点、NPU 节点、管理节点、登录节点和运维节点。Arm 节点包括五舟 S627K2 通用服务器及五舟 S900K3 训练服务器,整个 x86 和 Arm 架构 CPU 总核数9792,CPU 总理论双精度浮点计算能力 596 TFlops。多元化的效果也是显而易见的。在实际应用中,通过广电五舟提供的完善建设方案,鲲鹏处理器的算力效能层面领先主流纯 x86 架构 10%,又通过软硬件全栈调优使得
129、相关的农科行业应用得到了优化,效能进一步得到提升。目前,针对华中农业大学作物遗传改良全国重点实验华中农业大学作为全国“双一流”建设高校,一直以来依托传统优势农科,理农结合培植发展生命科学,通过交叉培植、整合集成、发展巩固、带动提升等几个阶段,用现代生物科学技术提升传统农科,加快推进学科交叉融合,提升农科和生命科学国际影响力与行业影响力。2024 数字中国万里行考察报告 行业应用篇55室、动物科学技术学院、动物学院、信息学院等 838 个软件都实现了对鲲鹏与昇腾平台的适配,对高频软件进行去重分析已有 691 个适配Arm,适配率高达 82%,也让华中农业大学的异构应用迈上了新台阶。中国人民大学:
130、升级算力应用,打造“玉兰 10B”大模型数字中国万里行考察团队调研的高校多以综合性或理工类为主,类似中国人民大学这样的“文科院校”是非常特殊的存在。与大众印象中以马克思主义哲学、经济学、法学等传统强势专业为主略有不同,如今数据统计、AI、量子计算等诸多热门应用也是中国人民大学所关注的,其自身的算力平台已经初具规模。目前,中国人民大学已经打造出基础算力中心、数据资源、算法模型等团队,借助更直观、操作更简单的图形化界面,提供丰富的案例库和数据集,同时也有 SSH 界面,有利于不同院系、不同专业的学生轻松进行数据分析和交互。在算力应用层面,中国人民大学投入了上千万元对现有平台进行升级和改造,目前 C
131、PU 算力达到 335T,GPU 算力达到 1.3T,并全部采用高速IB网络,解决了让人头疼的延迟与卡顿问题,性能达到行业一流。数据平台的打造则基于目前主流的 Kubernetes 技术,支持多种存储方式,比如 Lustre 并行文件系统和基于 x86 的分布式文件系统。与算力平台相通,用户可以通过图形化界面上的案例库和数据集进行数据分析和交互。为促进跨学科合作,中国人民大学还定期组织了名为“数智工作坊”的系列活动,1 到 2 个月举办一次,专注于大数据与 AI。这些工作坊促进了各学科间的交流和思想碰撞,比如文学语言和商学、管理学等领域的合作。某商科老师进行了一项关于中国专利的分析,但受限于对
132、 Python 代码的优化缺乏经验,利用效率不高。为此,平台运营团队帮助他优化了神经网络 Bert 模型。最终借助 transformer 的方案,将原本需要 500 多个小时的任务缩短至 20 个小时,科研效率大幅度提升。+中国人民大学提出的“国家治理大数据人工智能创新平台”就是算力应用的很好载体,也能够为学校层面提供优秀的平台支持,推动学科间的交流与合作,进一步强化高校科研水平与人才培养。56北京理工大学的“墨子”大模型已经广泛应用于科研与教学中,并在逐步提升“墨子”大模型的应用特性,以应对未来更加高端、多元化和复杂化的挑战,从而彻底、全方位解决数据碎片化、分析力度粗、知识获取难等应用难题
133、。针对当下热门的大模型应用,中国人民大学利用上百张 GPU 加速卡,仅 8 个月的时间就开发出预训练大模型“玉兰 10B”,并携手高瓴 AI学院进行不断的调优。虽然遇到不少挑战,诸如 MPI-IO 要求过高、卡间互联不够、数据清洗难度增加等等,但团队成员信心满满,通过尝试多种技术来解决问题,推动了大模型研究的发展。人们普遍认为理工类大学对计算机、算力应用的需求较为迫切,师生在应用技能上也较为熟练。然而,像中国人民大学这样的文科高校其实更需要关注到数字化创新的应用,因为这能补全综合性大学的技术“短板”。中国人民大学提出的“国家治理大数据人工智能创新平台”就是算力应用的很好载体,也能够为学校层面提
134、供优秀的平台支持,推动学科间的交流与合作,进一步强化高校科研水平与人才培养。北京理工大学:提升大模型价值,“墨子”全新升级与诸多高校一样,北京理工大学也拥有自己的大模型系统,名为“墨子”的科技大模型。这是由北京理工大学自主研发的,专注于科学论文领域的大型语言模型。该模型旨在通过大规模语言和证据检索模型 SciDPR 的支持,生成针对用户关于特定论文的问题,进行简洁准确的回答,并为学术研究人员提供情感支持。“墨子”大模型不仅能够理解科学论文的内容,还能够在实际应用场景中提供帮助,如跨模态科技搜索引擎、科技知识图谱、科技论文阅读器和科技对话系统等学术产品,在科技学术领域具有重要的应用潜力和研究价值
135、。在大模型应用如火如荼的今天,“墨子”的迭代非常迅速。为了进一步提升在科技论文领域的作用,尤其是针对多模态应用、科技论文领域推荐应用、科技论文续写应用三方面所发挥的重要作用,北京理工大学计划将“墨子”大模型进一步升级,通过引入多元化异构算力底座,提供强大的算力支撑。为此,北京理工大学评估了来自行业内第三方的多家方案,最终选择采用 Arm 架构的多核昇腾 AI 处理器打造强大的升级平台。昇腾 AI 处理器集成了图像&视频预处理器、外部通信模块、硬件加速器、芯片2024 数字中国万里行考察报告 行业应用篇+57管理核等模块,提供完整的 SOC 功能。目前,单台设备支持 4 个鲲鹏 920 处理器,
136、能够最大限度地提高多线程应用的并发执行能力;内部具备的 8 个昇腾 AI 处理器,能够最大限度地提高多线程应用的并发执行能力,单台服务器提供 2.5 PFlops 算力,采用 FP16(半精度浮点数格式)。如今,北京理工大学的“墨子”大模型已经广泛应用于科研与教学中,并在逐步提升“墨子”大模型的应用特性,以应对未来更加高端、多元化和复杂化的挑战,从而彻底、全方位解决数据碎片化、分析力度粗、知识获取难等应用难题。58在“2023 数字中国万里行暨算力经济中国行”活动中,考察团队看到了高校算力需求的快速增长,这种增长不仅推动了算力基础设施的建设,也促进了高校在科研、教学、管理等方面的数字化转型。同
137、时,这也带来了诸如运营管理、用户使用难度、算力融合等一系列挑战,而为了克服这些挑战,各大高校又组织网络中心、信息中心等团队进行攻关,从而实现了从技术到应用再到技术的螺旋式循环。针对应用拓展,北京大学和上海交通大学做出了很好的榜样。这两所高校都从自身的日常教学与科研需求出发,通过多年的积累和拓展,形成了符合自身需求、有着明确应用场景的平台级解决方案。其中,北京大学的SCOW平台在北京大学、国家天文台、中南大学等五家机构完成部署;上海交通大学的“交我算”平台则肩负起全面支撑学校教学、科研和管理的计算需求,更是全国高校应用的翘楚,成为了行业标杆与学习典范。在先进IT基础设施和解决方案的应用层面,包括
138、北京大学、上海交通大学、华南理工大学等高校都使用了液冷解决方案,事实证明无论是从效率角度还是从低碳角度,液冷解决方案对于高校应用来说都是未来发展的必然趋势。值得一提的是,这些高校都采用了不止一家的解决方案,甚至在算力层面这些高校也有包括主流 x86、Arm 在内,乃至国产信创平台等多维度的需求,这也有助于未来科研应用的多元化发展,甚至有助于培养复合型人才。目前,数字中国万里行考察团队调研的高校还是以“双一流”“985”“211”为主,这些高校有着相对更充裕的教学资金和师资力量,在科研水平上也排名前列。但在国内还有数量众多、比例更大的普通高等院校。未来,考察团队计划深入更多高校,助力高校的智慧教
139、学场景,让更多高校有机会接触并了解最新的数字化、智能化咨询与应用,推动中国的数字教育发展。2024 数字中国万里行考察报告 行业应用篇59PART 技术演进篇2024 数字中国万里行暨算力经济中国行考察报告602024 数字中国万里行考察报告 技术演进篇第四章 多元算力交织益企研究院过去两年发布了2021 中国云数据中心考察报告和算力经济时代 数字中国万里行 2023 新型算力中心调研报告(以下简称“2021 版报告”和“2023 版报告”),报告的中心篇幅都留给了数据中心服务的核心对象算力单元。这两份报告持续关注了CPU、GPU 和 DPU 等多元算力的发展,重点探讨了大小核、Chiplet
140、等趋势,且均体现在新的一年中业内全面铺开的产品层面上。作为通用算力的代表,CPU 分出“大、小”核本身也是一种多元化的体现。大核为了性能,小核不仅为了能效,也为了在同样的硅片面积上提供更多的 CPU 核心。随着小核越做越多,大核又大又多,Chiplet 势在必行。由于 CPU 自身架构的复杂性,还分为几个流派,所以在 Chiplet 的具体实现上,颇有些不同的风格并存。GPU 的“核”比 CPU 要小得多,主要以量取胜,Chiplet 的驱动力更多来自于芯片整体实在是太大了。要解决这个问题,理论上很简单,直接用两个同样的 Die 拼成一个大的 GPU 或加速器就可以了,英伟达的 B200 和英
141、特尔的 Gaudi3 都是这样做的。AMD Instinct MI300系列和英特尔 Data Center GPU Max 则在封装环节上了难度,一个好处是便于把 CPU 集成进来这也算是一种“大小核”的组合。当然,通常而言,CPU 与 GPU 的集成并不需要如此紧凑,譬如英伟达的 GH200 和 GB200 超级芯片(Superchip)。接下来,我们将从服务器的角度切入,介绍各算力单元的发展状况,最后再回到服务器。DellOro Group 对通用和 AI 服务器的硬件配置特征做了个大致的分类,深有共鸣,就拿来借用一下。+61GPU 等加速器目前还不能完全离开 CPU 独立运作,网卡加上
142、 CPU 也能发展出 DPU,所以照例从 CPU 的发展说起。一.CPU:分而利合CPU 的大、小核始于手机等移动设备,大核负责输出性能,不需要那么强性能的时候就用小核来降低功耗、保障续航。现在 PC 端的 CPU也已经是大小核搭配,而服务器超越单个设备的使用方式决定了大核与小核都可以做成单独的 CPU,但 Chiplet 的手法又是通用的。(一)大小核全面铺开CPU 核心的“大、小”有其相对性,Arm、AMD 和英特尔在具体实现上各有自己的考量;而在目的和手段上,却也不乏共通之处。通用加速(低端)加速(高端)工作负载传统推理推理AI 训练推理客户类型全部公有云,Colo,企业头部云,企业(政
143、府/实验室)CPU1+CPU2 CPU2 CPU加速器CPU 内置1 8 GPU:NVIDIA L40 级或 FPGA或定制加速器4 16 GPU:NVIDIA A100 级或带 HBM 的定制加速器网卡10/25 Gbps 以太网100 Gbps 以太网(头部云)100+Gbps 以太网前端:100+Gbps 以太网后端:200+Gbps 以太网/IB服务器价格范围$3,000$15,000$15,000$80,000$80,000$200,000+网络10/25/100 Gbps 以太网400 Gbps 以太网(头部云)100/400 Gbps 以太网前端:400+Gbps 以太网后端:2
144、00+Gbps 以太网/IB散热方式风冷混合 风/液冷液冷单机柜功率15 kW20 60 kW60 120+kW622024 数字中国万里行考察报告 技术演进篇大核即性能核(Performance Core),强调单核性能,属于纵向扩展(Scale-up)路线,与之相对应的横向扩展(Scale-out)要在同样的芯片面积下提供更多(对特定类型应用)“够用”的核心,即小核。对于大多数云和边缘应用,CPU 的计算强度并不大,而功耗对成本和适用性的影响相对明显。“小核”或者说能效核(Efficiency Core)是一个有利于控制制造成本、提升密度、降低能耗的方案,而且应用这套思路的趋势日趋明显。边
145、缘侧的功耗限制最为突出,也是最先以功耗为目标优化处理器规格的领域。其中的典型如英特尔的 Xeon D 和 Atom,前者主要通过削减核心数量实现目标;后者不仅核心数量有限,处理器架构也大幅精简。处理器架构精简也是能效核的主流操作方式,而减小 CPU 核心面积最直观的办法就是“裁剪”缓存(Cache)容量和向量计算单元的规格。Arm 总结的不同类型应用(工作负载)对 CPU 的要求+631.Arm:VN 不忘 NVArm 的“大小核”(big.LITTLE)概念在手机上被消费者熟知,后来大核又被进一步细分,出现“超大核”,一个手机SoC内混搭三种核心。这种大、中、小核细分的思路,在 Arm Ne
146、overse 上体现的更为清晰。Neoverse V 系列用于打造高性能 CPU,具有更大的缓存、更大的带宽、更大的乱序执行窗口,为追求高性能的计算和内存密集型应用程序的系统提供尽可能高的每核性能。这个系列主要面向高性能计算(HPC)、AI/ML(机器学习)加速等工作负载。Neoverse N 系列关注横向扩展性能,提供经过优化、平衡的 CPU设计,以提供理想的能效比,以及较高的单位面积性能。其主要面向横向扩展云、企业网络、智能网卡/DPU和定制ASIC加速器、5G基础设施以及电源和空间受限的边缘场景。Neoverse E 系列期望以最小的功耗、最小的芯片面积支持高数据吞吐量和高线程数,面向网
147、络数据平面处理器、低功耗网关的 5G部署。N 系列在传统上也属于大核的范畴,但有了“超大”的 V 系列,对性能的重视超过功耗和面积(PPA)。所以V、N、E三个系列对应大、中、小更为合理,不过在只讨论V和N的时候,如果将V称为大核或性能核,N 就是小核或能效核。+Arm Neoverse 平台的 V、N、E 三大系列分别面向高性能、能效平衡、高能效三种需求,目前已经发展到第三代 642024 数字中国万里行考察报告 技术演进篇能效被公认为 Arm 的传统优势,V 系列则直接向 x86 发起性能挑战。Arm 的数据显示,经过 V1 到 V2 的努力,在 SQL 数据库、企业级Java、机器学习加
148、速等工作负载上,Neoverse V2 已经具有一定优势。在生成式 AI(GenAI)如 70 亿参数的 LLaMA 2 模型推理场景中,Neoverse V2 的 性 能 比 V1 高 出 23%。2024 年 2 月 下 旬 发 布 的Neoverse V3 和 N3 也都很强调 AI 性能的提升,SVE/SVE2 支持BFloat16、INT8 等格式的数学运算。根据 Arm 的评估,在 AI 数据分析(AI data analytics)上,Neoverse V3 的性能比 V2 提高84%,Neoverse N3 更是比 N2 提高 196%之多。2.AMD:SRAM 反向操作在 2
149、023 版报告出版后,AMD 推出了代号 Bergamo 的第四代 EPYC 97x4 处理器,每 CPU 最多 128 个 Zen 4c 核心。作为 Zen 家族的第一个“小核”,Zen 4c 的思路比较“取巧”:保持核心架构与(同一代的大核)Zen 4 相同,L1、L2 缓存一样,指令集完全通用,通过 L3 缓存减半(每核从 4MB 到 2MB)、优化 SRAM设计等手段,芯片面积大幅度减小。AMD 宣称,在相同制造工艺(台积电 5nm)下,Zen 4c 的面积减少了 35%,但性能损失相对较小,每瓦特性能还提升了 9%,每单位面积的性能提升了 25%。Arm Neoverse V2的微架
150、构,获得NVIDIA Grace和AWS Graviton4采用;从二代开始,V 和 N 系列都基于 Armv9+652023版报告中曾经指出,随着半导体制造工艺的进步,相对逻辑电路,缓存(Cache)用的 SRAM 电路的微缩效果在 7nm 以下工艺时期遇到了瓶颈,SRAM 的面积成本愈发显得昂贵。Zen 4 的 CCD 中,三级缓存的面积接近一半。因此,Zen 4c 大幅度地缩减缓存容量肯定是有利于降低成本的。但是,即使假设 Zen 4 的三级缓存面积占 50%,容量减半后只是缩减 25%的面积,其余的面积优化如何实现呢?答案是:除了已经是6T 的 L2 缓存,Zen 4c 把核心内的 S
151、RAM 也从 8T 换成了 6T,每单元节约了 2 个晶体管,实际宏面积降低达 40%之多。相应的,Zen 4c 在频率上做了一些牺牲。改用 6T SRAM 对性能会有明显的影响,因为 6T SRAM 只有一对字线和位线,无法进行双端口操作。虽然 AMD 利用了台积电的伪双端口 6T SRAM,双泵操作,可以在同一周期内连续发出读、写两个电压脉冲,改善了性能,但这样的操作会限制频率的提升尽管 AMD 宣称经过优化设计,与 8T SRAM 的频率差异控制到了 20%以内。以 128 个 Zen 4c 核心的 EPYC 9754 为例,基准频率为 2.25GHz,最高加速频率为 3.1GHz;而
152、96 个 Zen 4 核心的 EPYC 9654,基准频率为 2.4GHz,最高加速频率为 3.7GHz。基于 Zen 4 的 EPYC 9004F 系列更是强调高频率,譬如 9474F 的基准频率为 3.6GHz,最高加速频率为 4.1GHz;9174F 基准频率为 4.1GHz,最高加速频率为4.4GHz。+随 着 半 导 体 制 造 工 艺的 进 步,相 对 逻 辑 电路,缓 存(Cache)用的 SRAM 电路的微缩效果在 7nm 以下工艺时期遇到了瓶颈,SRAM 的面积成本愈发显得昂贵。Zen4 的 CCD 中,三级缓存的面积接近一半。662024 数字中国万里行考察报告 技术演进篇
153、降低频率对逻辑电路部分也带来了面积上的优化。譬如直接影响是较低的泄露(减少 50%)和开关电容(减少 25%),可以在布线时减少间距,更宽容的时序要求也可以减少缓冲单元的数量。进一步的,逻辑电路的布局也可以更为紧凑,通过取消分区隔断,可以减少面积损失。更小的核心面积还带来了更小的时钟网格,进一步减少面积的开销。频率降低之后,三级缓存的面积也可以得到精简,标准单元的面积减少 20%以上;数据宏对合并,减少 10%的宏面积。经过重新设计之后,包含二级缓存在内的单个 Zen 4c 核心面积仅为2.48 平方毫米,相比 Zen 4 核心的 3.84 平方毫米,缩小了 35.4,从而可以大大提高核心密度
154、。在减少核心面积和三级缓存容量后,Zen 4c 单个 CCD 内包含两组CCX,各 8 个核心和 16MB 三级缓存。由此,Zen 4c 的 CCD 在核心数量翻倍(8 16)、三级缓存不变(32MB)的前提下,芯片面积依然控制在 72.7 平方毫米,相比 Zen 4 CCD 的 66.3 平方毫米只增加了 9.7。Zen 4 的 L3 缓存向上堆叠得到 3D V-Cache 版(型号以 X 结尾),容量减半结合 L2 缓存以下的设计优化得到小核的 Zen 4c,AMD 真是把 SRAM 玩出了花。需要注意的是,Zen4c 实际上只裁剪 L3 Cache 的做法,意味着它保留了超线程,开启时每
155、个物理核心可以提供 2 个逻辑核心。+673.英特尔:E 核全面精简前五代英特尔至强可扩展(Xeon Scalable)处理器都只有性能核,从采用Chiplet技术的第四代开始,代号格式为“石+Rapids(急流)”,如 Sapphire Rapids(SPR,第四代)和 Emerald Rapids(EMR,第五代),至强 6 的性能核版本延续了这一风格,代号为 Granite Rapids;在这一代加入的能效核版本将统一以 Forest(森林)结尾,如至强 6700E 的 Sierra Forest。对比性能核(P-core,P 核),英特尔对能效核(E-core,E 核)的裁剪相当彻底。
156、超线程:E 核去掉了超线程,即每核心为 1 个线程。缓存容量:L2 缓存,每个 P 核有 2MB,4 个 E 核共享 4MB。P 核有“以一当二”的超线程,所以分摊到逻辑处理器上,双方都是每“核”1MB;但在物理处理器的层面,P 核就是 E 核的 2 倍。从目前的 L3 缓存容量来看,P 核的优势更明显。向量计算单元:AI 和向量操作方面,P 核不仅有 2 个 AVX-512 运算单元,(SPR 起)新增的 AMX 矩阵引擎也加入了 FP16 支持;E 核则“回退”到 256 位的 AVX2,而且是 2 个 128 位拼成,虽然这个 AVX2 加入了 INT8 和 BF16/FP16 的 VN
157、NI(Vector Neural Network Instruction,向量神经网络指令)支持,总体的算力比 P核还是差得远。显然,高性能计算不是 E 核版的目标场景,AI 应用也要量力而行。至强 6700E 由 1 个(E 核的)计算 Die 和 2 个 I/O Die 构成 682024 数字中国万里行考察报告 技术演进篇(二)Chiplet 走向模块化CPU 作为服务器里的“大管家”,提供算力只是其诸多工作之一,还包括且不限于管理内存和其他 I/O 资源(如 PCIe),所以 CPU 的Chiplet 实现必须要考虑按功能划分,模块化计算 Die 和 I/O Die 正在成为潮流。1.
158、AMD:居中扩展,完全分离作为 CPU 应用 Chiplet 技术的先行者,AMD 从代号 Rome 的第二代EPYC 处理器(7002 系列)开始,确立了把 DDR 内存控制器和 PCIe控制器等 I/O 器件集中到一个单独的 IOD(I/O Die)上,多个 CPU核心及其 Cache 构成的 CCD(Core Complex Die)环绕周围的布局。这样做的好处是核心与 I/O 解耦,IOD 和 CCD 的制程可以分别演进,扩充 CPU 核心的数量也较为容易,通过增加 CCD 数量,或迭代更多核心数量的 CCD,都可以获得 CPU 总核心数的上升。譬如 Zen 4 和 Zen 3 都是每
159、个 CCD 有 8 个核心共享 32MB L3 缓存,前者对应的服务器 CPU 代号 Genoa 即 EPYC 9004 系列,通过把CCD 的数量从 8 个增加到 12 个(当然,离不开 IOD 的支持),总的核心数就从 64 个升至 96 个;Zen 4c 单个 CCD 内的核心数量翻番到 16 个,共享 32MB L3 缓存,对应的服务器 CPU 代号 Bergamo,CCD 的数量又回到 8 个,共 128 个小核。AMD 第四代 EPYC 处理器的 Infinity Fabric 3.0 IOD 采用 6nm 制程,支持 12 个 DDR5 内存通道,可挂接12 个 5nm 制程的
160、Zen 4 CCD(含 3D V-Cache 版)或 8 个 Zen 4c CCD+69由 于 Zen 4c 的 CCD 包 含 两 组 CCX,但 复 用 一 个 IFOP(Infinity Fabric On-Package)SerDes,所以占用 IOD 的 IFOP 还减少了(12个到 8 个)。按计划将于 2024 年下半年推出的第五代 EPYC(基于 Zen 5),又回到 1+12 的架构,可以提供多达 192 个核心、384 个线程。2.Arm:两种思路并存2023 年第四季度,微软也借力 Arm 公布了自有品牌的 CPU,其Azure Cobalt 100 具有 128 个基于
161、 Neoverse N2 的核心;AWS 的Graviton则已经发展到第四代,具有96个基于Neoverse V2的核心。96 个大核,或 128 个小核,这一年里的 Arm 和 AMD,在每 CPU 的物理核心数上,算是打个平手。当然,Arm 阵营里还有 72 个 Neoverse V2 核心的 NVIDIA Grace CPU,以及 192 个核心的 AmpereOne,2023 版报告中都有过介绍。一个与 AI 紧密结合,一个主攻云原生,路线和定位都很吻合。2024 年 6 月初召开的 Computex 上,NVIDIA 公布了下一代的 Vera CPU,预计将基于 Neoverse
162、V3,单核性能与核心数都会有所提升。CPU 核心数的增长明显高于 CPU 和服务器出货量的增长(数据来源:IDC)+702024 数字中国万里行考察报告 技术演进篇不论大核小核,单 CPU 都来到了百核时代,Chiplet 就成了必选项,关键在如何实现。2021 版报告已经指出,Arm Neoverse 和英特尔至强可扩展处理器采用的网格(Mesh)结构,在应用Chiplet技术时存在怎么拆分的问题。网格结构的一大特点是内存和 I/O 控制器等布置在外围,CPU 核心部分组成的矩阵在内,初期可以只把它们剥离出来形成单独的 Die,但随着矩阵的规模越来越大,也势必要切分成多块(tile),即不同
163、的Die。从 Graviton3 到 Graviton4 都属于前一种,由多达 7 个 Die 构成:64个Neoverse V1(Graviton3)或96个Neoverse V2(Graviton4)核心构成最大的Die,4个DDR5内存控制器的Die分列左右(东西向);布局上的主要变化来自 2 个 PCIe 5.0 控制器的 Die,从 Graviton3 的紧贴核心 Die 下方(南向),改为 Graviton4 的分列上下(南北向),且拉开一定距离。从初代 Graviton 到 Graviton4,其中 Graviton3 是台积电 5nm 制程,Graviton4 推测是 4nm
164、制程+71 当然,Graviton4 每个 Die 的“内容”都大幅度升级,包括但不限于:CPU 核心的 L2 缓存容量倍增至 2MB;核心数增长 50%;DDR5 内存通道数量增长 50%,达到 12 条,速率也从 4800 提高到 5600;I/O 能力也明显增长,PCIe 5.0 通道可达 96 个,并支持双路(2S)配置。Arm 官 方 推 出 的 一 揽 子 解 决 方 案 Arm Neoverse 计 算 子 系 统(Compute Subsystems,CSS),提供了偏“传统”的 Chiplet 选项,即对等拆分。Hot Chips 2023 上,Arm 介绍了 Neovers
165、e CSS 的概念,将核心、CMN 网格、系统/电源管理,以及开发工具等进行了打包,有利于进一步降低 CPU 的开发周期和成本。以其首款方案 Arm Neoverse CSS N2 为例,单个服务器内可以扩展到 256 核心。典型的布局可以是单个 Die 内提供 64 个 N2 核心,以及 4 组 DDR5/LDPPR5 内存控制器(40bit 8)分列两侧、4 组 PCIe 5.0/CXL x16 通道占一侧,再有一条 IO 边负责 Die to Die 连接。这样一组 CSS 的内核数量也可以是 16、24 核等,随着网格规模的缩减,对应的内存控制器、IO 资源也会相应的缩减。Arm Ne
166、overse CSS N2 的网格架构,有 32 个计算 Tile,每个 Tile 有 2 个核心,单 Die 提供 64 个核心722024 数字中国万里行考察报告 技术演进篇Die to Die 连接可以基于 UCIe,也可以是私有协议和 PHY,既可以两颗 Die 互连后封装为一颗 CPU,也可以用于连接其他高性能加速器。每台服务器可以支持双 CPU 插槽,CPU 之间的 SMP 互联是复用PCIe/CXL PHY这一点与其他 SMP 系统类似,譬如英特尔至强的UPI 与 PCIe 是复用的。双芯 Chiplet 搭配双路插槽,每个系统就可以达到 64 2 2=256 核的规模。+微软
167、Azure Cobalt 100 采用了 Arm Neoverse CSS N2 方案,单 CPU 用 2 个 Die 实现 128 个核心;该方案双路可提供 256 核心73Neoverse CCS N3 面向电信、DPU、网络和云应用,每个 Die 可以有 8 32 个核心,以及一对 DDR5 内存控制器、一对 I/O 控制器和可选的 Die 间互连,32 核心的 TDP(Thermal Design Power,热设计功耗)可以低至 40W(瓦)。Arm 表示,与 Neoverse CSS N2核相比,Neoverse CSS N3 核的每瓦性能可提高 20%。Neoverse CSS
168、V3面向云、高性能计算、AI和机器学习(ML)工作负载,64 个 Neoverse V3 核心配置 6 个 DDR5 内存控制器、4 个 I/O 控制器和 2 个 Die 间互连,可以升级到每个 CPU 槽位 128 个核心,即 2个 Die 直接拼在一起。据称,CSS V3 每 CPU 的性能可以比 CSS N2高一半。+英伟达的数据中心芯片路线图,Vera Rubin 将是接班 Grace Hooper 的 CPU 与 GPU 组合742024 数字中国万里行考察报告 技术演进篇3.英特尔:从等分,向异构第 四、五 代 英 特 尔 至 强 可 扩 展 处 理 器 的 XCC(eXtreme
169、 Core Count,最多核 or 极多核)版本也采用对等拆分的方式,但是经历了一个从四等分到二等分的过程。代号 Sapphire Rapids(SPR)的第四代英特尔至强可扩展处理器由2 种互为镜像的 Die 拼成 22 的(大)矩阵,所以整体高度对称上下、左右都对称,外圈的左右有 DDR 内存控制器,上下是 PCIe 控制器和集成的加速器(DSA/QAT/DLB/IAA),UPI 位于四角,是典型的网格架构布局。四等分的第四代英特尔至强可扩展处理器(上)和二等分的第五代英特尔至强可扩展处理器(下)+75第五代英特尔至强可扩展处理器(代号 Emerald Rapids,EMR)把Die 的
170、数量从 SPR-XCC 的 4 个减半为 2 个,仍然是互为镜像的方式,但用于连接各个 Die 的 EMIB(Embedded Multi-Die Interconnect Bridge,嵌入式多芯片互连桥接)数量从 10 个锐减至 3 个,也可以简化封装环节的工作。EMR 是 SPR 的优化版本,所以核心数增加不多,从 56/60 到 64 个;DDR5 内存控制器的规格从 4800 小幅提升到 5600。最显著的规格变化是 L3 Cache(LLC)容量,从第四代英特尔至强可扩展处理器的1.875MB,暴涨至 5MB,结合 Die 数量的减半,单 Die 的迭代幅度还是蛮大的。不过,从架构
171、层面上,对等拆分的模块化程度不如按功能拆分,如CPU 核心区(包括 LLC)与内存、I/O 等区域相分离。相比 EPYC 二代和 Graviton3 以来的做法,至强 6 选了一条折中的路线:将 UPI、PCIe 控制器、(SPR 开始加入的)DSA/IAA/QAT/DLB 等加速器及I/O Fabric 剥离为模块化的 I/O Die,CPU 核心部分组成的矩阵与(就近的)内存控制器组成模块化的计算 Die,2 个 I/O Die 与 1 3 个计算 Die 通过英特尔的 EMIB 连为一体,封装成一颗完整的处理器。I/O 和计算分属不同的 Die,设计和制程可以分别优化,灵活性更高:+至强
172、 6 的模块化 SoC 架构,2 个 I/O Die 服务 1 3 个(带内存控制器的)计算 Die76I/O 部分从先进制程中的获益不明显,已经得到业界验证,所以 I/O Die 采用成熟的 Intel 7 制程;计算 Die 采用先进的 Intel 3 制程。I/O Die 真的只有 I/O,把内存控制器留在 CPU 核心区,又至少有两个好处:CPU 核心与内存控制器的距离不会太远,时延有保证;可以根据 CPU 核心的不同配置对应的内存规格,包括内存通道数和速率。具体到 6700 和 6900(包括 E 核版和 P 核版),划分的主要依据就是计算 Die 的数量和(2 个)I/O Die
173、的规格。已经发布的 6700E,具有 1 个 E 核计算 Die,最多 144 个 E 核。6700P 有 3 种构型,分别是:1 个较小的(P 核)计算 Die,最多 16 个 P 核,称为 LCC(Low Core Count,低核心数);1 个 计 算 Die,最 多 48 个 P 核,称 为 HCC(High Core Count,高核心数);2个计算Die,最多86个P核,称为XCC(eXtreme CC,极多核)。6900E 有 2 个 E 核计算 Die,最多 288 个 E 核,称为 ZCC。6900P 有 3 个 P 核计算 Die,最多 128 个 P 核,称为 UCC。2
174、024 数字中国万里行考察报告 技术演进篇 为至强 6 设计的主板,左边这块支持 6900 系列,每 CPU 有 12 个内存通道77就单个计算 Die(compute tile Die)而言,E 核 Die 的核心数能达到 P 核 Die 的 3 倍,内存通道数应为 2 倍,即 8 个和 4 个,这样6700 系列是 8 通道,6900 系列可达 12 通道。但是至强 6 的 E 核版支持的内存规格最高为 DDR5-6400,而 P 核版可以支持速率高达 8000/8800 MT/s 的 MCRDIMM(Multiplexer Combined Ranks Dual In-line Memo
175、ry Modules,多路合并阵列双列直插内存模组),带宽提升 25%以上。另外,由于 E 核 Die 上的核心数更多,其单体功耗也不低。譬如:1 个 E 核 Die 的 6780E,TDP 为 330W,6700P 有 2 个 P 核计算Die,看起来 TDP 也不过 350W;2 个 E 核 Die 的 6900E 和 3 个 P 核计算 Die 的 6900P,TDP 均为500W。CPU 的实际功耗受工作频率等因素的影响较大,不能只看一个指标。官方数据显示,双路配置下,与 64 核的第五代英特尔至强可扩展处理器旗舰 8592+(TDP 350W)相比,144 核的至强 6780E 功耗
176、随负载的增长较为线性,在服务器利用率 40%60%的甜点区能降低280W 功耗,还能获得 18%的性能提升。6700 系列有多达 88 个 PCIe 5.0/CXL 2.0(单路可达 136 个)和 4个 UPI 2.0,P 核版支持四路和八路配置;6900 系列增加到 96 个PCIe 5.0/CXL 2.0 和 6 个 UPI 2.0,但只有单双路配置,核数已经够多了。+782024 数字中国万里行考察报告 技术演进篇CXL2.0至强 6 还首次导入了 CXL 2.0,并可以通过三种模式扩展内存。第一种模式是 CXL NUMA 节点,允许将系统原生的 DRAM 内存和通过 CXL 技术扩展
177、的内存作为两个独立的 NUMA 节点,可以在系统软件或应用层进行内存内容的分层管理,优化配置并屏蔽上层业务,这也是 CXL 一直采用的管理模式之一。但是某些厂商、ISV 客户或无法对自身软件进行修改优化的客户,依然希望能够用一个对软件透明,在硬件层面上管理 CXL 和系统原生DRAM 内存的解决方案。针对这样的需求,英特尔提供了两种模式。一种是异构交织(Hetero Interleaved)模式,把系统原生的DRAM 内存和 CXL 内存,在地址上进行混合。从带宽上来看,每个 CXL 内存交织的通路和 DRAM 交织的通路是平衡的,因此 CXL延迟略有区别,但整体对系统的吞吐影响并不大。这种模
178、式仅在6900P/6700P 系列得到支持,可以给系统平台提供更大的内存带宽,而且应用程序并不会直接感知或管理到 CXL 内存。另一种是扁平内存(Flat memory)模式,让 CXL 和原生 DRAM做一个硬件辅助的分层,完全对软件透明。在 1:1 的近/远内存比率下,会尽量把 CXL 常用的数据放在 DRAM 中,获得非常接近于完全 DRAM 的性能表现。79二.GPU:合纵连横晶体管数量增加是算力提升的主要手段之一,但芯片面积受到各种物理限制。因此,顶级 CPU、GPU 通过 Chiplet 技术进一步扩展规模已是当下共识。AMD Instinct MI200 系列、英特尔 Gaudi
179、 3 先后采用了双 Die 拼合,随着 2024 年 3 月英伟达发布 Blackwell,三巨头主要的AI算力都选择了Chiplet方案构建新一代的旗舰级GPU/加速器。从 6 块 HBM(如左边的 Gaudi 2)到 8 块 HBM(右边的 Gaudi 3)是 GPU/加速器走向双 Die 拼合的典型特征2024 年 3 月,英伟达发布了 Blackwell 架构 GPU,包括 B200、B100,以及 GB2001 个 Grace CPU 搭配 2 个 B200 GPU 的组合。1.英伟达:进入双 Die 时代Blackwell 采用台积电 4NP 工艺制造,双芯片封装集成 2080 亿
180、个晶体管,折合每个 Die 的晶体管数量 1040 亿相对 H100/H200 的800亿个有30%的提升。晶体管数量和密度的提升也意味着功耗激增,单 GPU 已经可以达到千瓦级,相应的散热要求也更为严苛,英伟达正式建议引入液冷散热方案。Blackwell 的两个 Die 之间的互连被称为 NV-HBI(NVIDIA High Bandwidth Interface,英伟达高带宽接口),带宽高达 10TB/s。两个 Die 被视作一个统一的 CUDA GPU。封装面积的增加也得益于中介层面积扩大,相应的可封装多达 8 颗HBM3e 内存,单颗容量 24GB,带宽 1TB/s。整个 GPU 合计
181、 192GB+80容 量,8TB/s 带 宽,相 对 H100 的 16GB6 HBM3 和 H200 的24GB6 HBM3e 大幅提升了容量和带宽。Blackwell 采用第二代 Transformer 引擎,并引入了新的数据类型:FP4 和 FP6。由于 FP4 的位宽比 FP8 进一步降低,B200 峰值算力达18 或 9PFLOPs(稀疏张量或密集张量)。如果继续使用 FP8 密集张量作为参考指标,那就是 H100 的 2 倍多一些(4500GFLOPs 相对1980GFLOPs)。另外,所谓有得必有失,这一代的 CUDA 核心不再支持 INT8。简单归纳一下 Blackwell 支
182、持的数据类型,其中 Tensor Core 支 持:FP64、TF32、BF16、FP16、FP8、INT8、FP6、FP4;CUDA Core 支持:FP64、FP32、FP16、BF16。NVLink 升级到第五代,每颗 GPU 提供 18 组 link,每组 link 是50GB/s 的单向带宽,共 1.8TB/s 的双向带宽。最大支持 576 个 GPU的连接,相比上一代是 256 个。配套的第四代 NVSwitch 芯片提供72 个 NVLink Port(端口),每个 Port 双 200Gbps SerDes,由此就构成了 7.2TB/s 的全双工带宽也是上一代的两倍。B200
183、还支持 PCIe 6.0,但暂时还没有平台支持。B200 的最大 TDP 为 1000 瓦,700 瓦的 B100 有利于“平替”现有的 H100/H200,当然性能也有所下降。在良好的散热条件(如液冷)支持下,B200 的 TDP 也可以上升到 1200 瓦,以获取更好的性能。在此将Ampere、Hopper、Blackwell三代GPU的主要规格整理成表,其中 B100 和 B200 的规格根据 8 卡的 HGX B100/B200 系统参数整理。2024 数字中国万里行考察报告 技术演进篇+81架构AmpereHopperBlackwell型号A100H100H200GH200 GH20
184、0B100B200完整 B200GB200显存类型HBM3HBM3 HBM3eHBM3 HBM3e HBM3e显存容量80GB80GB144GB96GB144GB192GB192GB192GB384GB显存带宽2TB/s 3.35TB/S4.8TB/s4TB/s4.9TB/s8TB/s8TB/s8TB/s16TB/s稠密算力FP16(FLOPS)312T1P1P1P1P1.75P2.25P2.5P5PINT8(OPS)624T2P2P2P2P3.5P4.5P5P10PFP8(FLOPS)-2P2P2P2P3.5P4.5P5P10PFP6(FLOPS)-3.5P4.5P5P10PFP4(FLOP
185、S)4-7P9P10P20PNVLink 带宽600GB/s900GB/s1.8TB/s功耗400W700W700W1000W1000W700W1000W1200W2700W备注单芯片1Grace1H1001Grace1H200双芯片1Grace2B200 GB200 的性能超过 B200 的两倍,因此我们以 GB200 的一半性能推定了一款完全版的 B200(TDP 也更高),以体现目前的 SXM 版本B200 并非完全规格。性能打折扣的情况在 H100/200 SXM、H100 PCIe 上同样存在。最直观的原因是功耗的限制。HGX 的 8 GPU 形态本身就带来了很高的功率密度和发热量,
186、兼顾风冷散热方案的时候更有必要降低功耗上限,由此损失一些性能。2.AMD:模块化与 APU与 B200 这些产品采用两颗较大的芯片(Die)组合不同,2023 版报告中详细介绍过的英特尔 Data Center GPU Max(代号 Ponte Vecchio),以及后来推出的 AMD Instinct MI300 系列,都选择用更小的芯片来构建大规模但更灵活的 GPU。GPU Max 的小芯片叫 Xe-core Tile,MI300 的是 XCD 和 CCD。其中,MI300 又可以分为两类产品:AMD Instinct MI300X 是 GPU,集 成 了 8 颗 XCD(Accelera
187、tor Complex Die);AMD Instinct MI300A 是加上了 CPU 的 GPU,集成了 6 颗 XCD 和3 颗 CCD(CPU Complex Die)。822024 数字中国万里行考察报告 技术演进篇其中的 CCD 与 Zen 4 CPU 所用的是相同的,之前已经被用在了 EPYC和 Ryzen 产品线上,每颗 CCD 内有 8 个 CPU 核心。XCD 采用了台积电的 5nm 制造工艺,每颗 XCD 有 38 个 CDNA 3 计算单元。XCD 和 CCD 通过 3D 封装与下方的 4 颗 I/O Die 互连。IOD 使用6nm 制造工艺。4 颗 IOD 总共提
188、供了 256MB 的 Infinity Cache 和128 通道共 8192bit 的 HMB3 接口,以及 8 组第四代 Infinity Fabric Link,其 中 2 组 可 复 用 为 PCIe 5.0 x16。这 些 IOD 通 过 Infinity Fabric 片上网络将 XCD、CCD 互联起来。AMD Instinct MI300X 的封装布局+83AMD Instinct MI300 系列这种 3D+2.5D 封装与英特尔 Data Center GPU Max 也有异曲同工之处,关于后者的详细 Chiplet 结构可以参考益企研究院 2023 版报告第三章存算互联中
189、的“向下发展:基础层加持”部分。英特尔在 Base Tile 中提供了 288MB 的缓存和交换网络,以及 HBM、PCIe、Xe Link 等的 PHY。计算芯片(XCD、CCD、Xe-core Tile)通过 3D 封装堆叠在主动(有源)中介层(AMD是 4 个 IOD,英特尔是 2 个 Base Tile)之上,主动中介层再通过 2.5D封装(EMIB 或硅中介层)连接外部 IO,如 HBM。这种封装方式被称为 3.5D。AMD MI300 系列所使用的 XCD、CCD、IOD 具有很理想的复用效果。三种芯片都只需要设计和生产一种版本,封装时通过 180旋转即可适配,不需要制造镜像芯片,
190、有利于优化成本。相对而言,第四、五代英特尔至强可扩展处理器的 XCC 版本都需要生产镜像布局的芯片,更不要说还有 MCC 甚至 EE LCC 等细分的 Die 规格了。MI300X 集 成 192GB HBM3,是 OAM 形 态,通 过 7 组 Infinity Fabric Link 互联,每个服务器节点内可提供 8 个 MI300X,节点外部扩展是通过 1 组 PCIe 5.0 x16 实现。基于 MI300X 的系统与常见的8 GPU 服务器类似,使用双路处理器(如 AMD EPYC 9004 系列),配置多通道 DDR5 内存,推荐搭配 8 块 RDMA 网卡。作为比较“传统”的 G
191、PU,MI300X 在发布时的主要优势是 HBM 堆栈数量更多,8颗 HBM3 可以提供 5.3TB/s 的带宽和 192GB 的容量,远超 H100 的80GB、3.3TB/s。英伟达的 H200 主要也是提升了 HBM,容量达到141GB,带宽也提升到4.8TB/s,但6颗HBM3的上限还是比8颗的低。AMD Instinct MI300A 的封装布局+842024 数字中国万里行考察报告 技术演进篇MI300A 集成 128GB HBM3,被称为数据中心 APU(加速处理器),外观与CPU类似,采用SH5插槽,通过4组Infinity Fabric Link互联,单节点内可安装 4 颗
192、MI300A。节点外部扩展可使用 4 组 Infinity Fabric Link 或 PCIe 5.0 x16。由于 MI300A 已经集成了 CPU,其服务器不再安装其他的 CPU,也不提供 DDR 内存扩展。整个节点的内存完全来源于 MI300A 内封装的 HBM3,4 颗 MI300A 总共提供512GB 的容量。AMD Instinct MI300X AMD Instinct MI300A+85可以看到,不管是 MI300X 还是 MI300A,都要通过 Infinity Fabric Link 互联。2024 年 5 月,AMD、Broadcom(博通)、Cisco(思科)、Goo
193、gle(谷歌)、HPE(惠普企业)、英特尔、Meta、Microsoft(微软)组建了新的行业联盟 UALink Promoter Group。UALink 即 Ultra Accelerator Link,用于 GPU 之间的通信,对标英伟达的 NVLink。最初的 UALink 规范就将基于经过验证的 Infinity Fabric 协议,预计在 2024 年第三季度释出 1.0 规范,并计划在第四季度更新为带宽更高的迭代版本。3.GPU 集成 CPUNVIDIA Grace Blackwell Superchip(超 级 芯 片)由 1 个 Grace CPU 搭 配 2 个 B200
194、GPU 构 成,目 前 已 发 布 的 被 称 为 GB200 Superchip。GB200 的 CPU 与 GPU 之 间 的 连 接 依 旧 基 于 NVLink C2C,带 宽900GB/s。考虑到 Grace 的宣传当中并没有提及规划了两组 NVLink C2C,不排除每颗 B200 GPU 与 CPU 的互联带宽相对 GH200 会折半为 450GB/s。即便如此,这样的带宽依旧可以超过 PCIe 6.0 x16 可以提供的水平,也依旧大致相当于 NVSwitch 与任一 GPU 互联的带宽(4 或 5 组 link)。GB200 的 480GB LPDDR5X 和两组 192GB
195、 HBM3e 加起来,就有了864GB 的“Fast Memory”。按照目前的配置,GB200 平均到每颗GPU 的 Fast Memory 容量只有 432GB,会明显小于 GH200(621GB或 572GB)。但是,考虑到第五代 NVLink 允许更大规模的 GPU 互联,可以构建的“单”GPU 的内存容量就会远远超过上一代产品。以 GB200 NVL72 为例,36 组 GB200 总共可以获得超过 30TB 的+862024 数字中国万里行考察报告 技术演进篇Fast Memory。如果构建最多 576 颗 B200 的集群,则可以超过2400TB!“显存”如此巨大的“单”GPU
196、在做大模型训练的时候会展现极大的优势。异构整合是 Chiplet 的价值点之一。MI300A 对 CPU 的整合思路与英伟达的 GH200 SuperChip 完全不同。后者的 CPU 除了提供一定的通用算力之外,最大的卖点就是通过 NVLink C2C 将 CPU 的内存接入整个 NVLink 域,为 GPU 提供更大容量的直接内存访问。英伟达将 GPU 上的 HBM 与 Grace CPU 上的 LPDDR5X 统称为 Fast Memory。MI300A 的 CPU 与 CU 共享 HBM 的容量与带宽,虽然容量相对有限,但带宽极大。MI300A 整合 CPU 是希望能够更快地预处理一些
197、数据,减少了跨 CPU(外部)的数据访问。MI300A 的数据访问和处理的能效很高,这种小容量、高带宽的模式,典型的应用场景便是科学计算。AMD 在发布 MI300A 时,便引用 OpenFOAM 测试数据(流体力学)说明其性能是 H100 的 4 倍,其中 GPU 的纸面性能提供了一些优势(FP32 和 FP64 的算力,以及 HBM3),但更大的优势来自于统一内存和内存带宽。MI300A 已被用于下一代 El-Capitan 超级计算机,该超算预计将提供高达 2 Exaflops 的算力。类似的为 CPU 提供高带宽内存的思路包括英特尔的 Xeon Max,以及更早的富士通的 A64FX,
198、在科学计算方面性能突出。英特尔的Falcon Shores XPU 也曾计划异构整合 CPU 和 GPU,但是,Falcon Shores 已经被推迟到 2025 年上市,并取消了异构设计,改为纯GPU 方案。英特尔取消 XPU 可能是暂时的,毕竟目前英特尔还没有一款类似 Zen 4 CCD 这般成熟且通用的计算芯片可供移植,搞融合的风险确实更高。AMD 的 Zen 4 CCD 是 2022 年底上市的,基于它已经发展出了多种产品,出现在 AMD 多个子品牌当中,涵盖笔记本电脑、台式机、工作站、服务器等多个平台。而英特尔的至强 6 才刚刚开始将计算、I/O 的 Tile 分离,初步体现了计算芯
199、片的扩展灵活性和IO 芯片的复用。随着未来的 CPU、GPU 产品线发展,算力的异构集成依旧应该还是会回到英特尔的路线图中。异构整合是 Chiplet 的价值点之一。MI300A 对CPU 的整合思路与英伟达的 GH200SuperChip完全不同。后者的 CPU除了提供一定的通用算力之外,最大的卖点就是 通 过 NVLinkC2C 将CPU 的 内 存 接 入 整 个NVLink 域,为 GPU 提供更大容量的直接内存访问。874.网络:从 400G 到 800G从2022年下半年到2023年上半年,不到一年的时间里,博通、英伟达、Marvell 和思科都推出了 51.2T 的交换机(芯片)
200、,这样的芯片可以提供 128 个 400Gb/s 的交换机端口。2024 年 3 月 中 旬 的 GTC 上,英 伟 达 发 布 了 新 的 X800 系 列InfiniBand(Quantum-X800)和以太网(Spectrum-X800)交换机。Quantum-X800具有多达144个800Gb/s端口,总带宽115.2Tb/s,配合英伟达 ConnectX-8 SuperNIC 使用,端到端带宽达 800Gb/s。下一步就是 1.6Tb/s,以满足 GPU 集群不断提升的互联需求。阿里云的 GPU 服务器和 400G 交换机+882024 数字中国万里行考察报告 技术演进篇三.DPU:
201、由云向智SmartNIC(智能网卡)崛起于云计算的黄金时代,用意包括但不限于为 CPU 减负,或者说从 CPU 那里抢点儿工作出来。于是,一些x86 CPU 核心的负载被转移到智能网卡集成的 CPU 上,为 Arm 创造了市场机会。英伟达收购 Mellanox 之后,DPU、IPU、CIPU 等名词相继出现,网卡上升到了数据或基础设施处理器的高度。1.从 SmartNIC 到 DPU:层层加码DPU 是一个伴随着云计算的成熟而逐步进入人们视野的概念,它也经历了不断的演进,不断增加自身的能力。随着“羽翼丰满”,DPU 甚至已经开始与 CPU、GPU 争夺数据中心的核心地位。随着数据中心的规模增长
202、,虚拟化兴起,使得“软件定义网络”成为主流。数据中心需要调度庞大的网络、存储流量,这个过程需要占用一定的计算资源。这种开销也被称为“数据中心税”,而且,即使没有运行任何业务,这个消耗也是实际存在的。早期的“数据中心税”主要由CPU买单,一台主机当中会有若干CPU核心用于支撑这些开销。考虑到 CPU 相对昂贵,且功耗偏高,将这些工作尽可能地卸载到其他硬件(协处理器、加速器等)上,是一个合理的思路。卸载的任务是一个循序渐进的过程。早期的产品,被称为智能网卡(SmartNIC)。譬如网络传输包转发处理时,首先在内核空间进行查表,如果查找命中,则会下发到内核态进行缓存,以便后续在内核态直接命中,从而直
203、接转发;如果没有命中,则到用户空间进行后续的查找。智能网卡可以优化转发性能,当流缓存到网卡后,后续的报文解析、流表查找和转发直接在网卡内部完成,减轻了 CPU 核心的负担。89再譬如,各种虚拟化协议,SR-IOV、VirtIO、PV 的加速,VxLAN、Geneve Overlay、VTEP 的卸载等等。虚拟化占用资源非常严重,纯软件虚拟化方案可以消耗一半的 CPU 资源。为此 CPU 厂商提供了一些硬件虚拟化能力,如英特尔的 VT-X,可以提供 CPU 和内存的虚拟化,但对于网络和存储的虚拟化并没有什么帮助。亚马逊的 Xen AWS 2013 通过 PCIe SR-IOV 技术,正式引入了网
204、络 I/O 硬件虚拟化,到Xen AWS 2017 又实现了存储 I/O 的硬件虚拟化。随着数据流量的增加,安全方面的开销同样也急剧增大。IP 数据包在公用网络中传输可能会面临被伪造、窃取或篡改的风险,而 IPsec(Internet Protocol Security)是为 IP 网络提供安全性的协议和服务的集合,IP 数据包通过 IPsec 隧道进行加密传输智能网卡还逐步开始承担 IPsec 加解密操作。简而言之,数据中心网络数据传输层面的算力消耗,如虚拟交换、虚拟路由、IPsec 等,使用通用 CPU 核心进行处理不够划算,那就可以交给专用的加速器处理。这种加速器早期均基于 FPGA 进
205、行开发,经过多轮迭代后,逐步出现 ASIC/SoC 形式的产品。譬如前面提到的Xen AWS 2017,亚马逊在 2017 年底发布的 Nitro 卡完全实现网络和存储的卸载,这也意味着云计算架构终于真正实现了业务与基础设施的物理隔离。2.FPGA 开局最早将 FPGA 引入数据中心进行加速的探索者是微软,项目代号Catapult。该项目于 2014 年的 ISCA 会议论文(A Reconfigurable Fabric for Accelerating Large-Scale Datacenter Services)而被业界所了解,被视为第一个在大型数据中心中应用 FPGA 的实例。Cat
206、apult 的早期阶段先是尝试做一些应用加速,第一阶段每张卡采用了 6 颗 Xilinx Virtex-6 FPGA,第二阶段每张加速卡使用单颗 Intel/Altera Stratix V,加速卡之间利用 SAS 接口通讯。这个时期共部署了1632 台服务器,主要应用是为 Bing 搜索加速,如利用深度神经网络做搜索排序,将这类运算从 CPU 卸载下来这就是妥妥的“异构算力”啊!据介绍,Bing搜索引擎的文件排名运算在进行硬件加速后,吞吐量提升了 95%。数据中心网络数据传输层面的算力消耗,如虚拟交换、虚拟路由、IPsec等,使用通用 CPU 核心进行处理不够划算,那就可以交给专用的加速器处
207、理。这种加速器早期均基于 FPGA 进行开发,经过多轮迭代后,逐步 出 现 ASIC/SoC 形 式的产品。+902024 数字中国万里行考察报告 技术演进篇到 2016 年,微软发表了 Catapult 第三阶段的成果,直接将 FPGA与数据中心网络进行互连,终于有了早期智能网卡的雏形。这个加速卡依旧采用 Stratix V 系列 FPGA,网络接口为两个 40Gbps QSFP 端口第二阶段的加速卡是用 SAS 接口互联,现在变成了标准的网络接口。FPGA 加速卡位于服务器和数据中心网络之间,一个网口连接TOR 交换机,另外一个网口与服务器的网卡相连。此外,FPGA 还通过PCIe 3.0
208、 x8与CPU互连。这个阶段,微软将加速卡用于网络虚拟化,将流表固化于 FPGA 当中。FPGA 和 RDMA 网卡,以及 DRAM 等杂七杂八的加起来,成本大约是1000美元。类似的工作如果交给CPU来做,每个主机可能需要消耗 5 个物理核而如果这些 CPU 物理核全部用于出租,整个生命周期内可以获得 4500 美元的收益。微软在自家数据中心的 5670 台服务器中部署了第三代的 FPGA 加速卡。各互联网大厂也陆续部署了类似的加速卡。FPGA 或 ASIC/SoC 与网卡结合,即是智能网卡。随着智能网卡功能的成熟,相关的处理能力也可以加速器的形式回到 CPU 内部,譬如英特尔第四代至强可扩
209、展处理器的 DSA。+91基于 FPGA 的智能网卡存在一些明显的缺点。首先是编程难度较大,普通软件工程师进行二次开发的门槛较高。更主要的问题是,FPGA的逻辑资源有限,或者说逻辑资源对应的芯片成本较高,主流的FPGA 无法容纳复杂的逻辑,因此,通常只能将数据面的功能放入其中,限制了智能网卡的功能进一步发展。基于 ASIC 的智能网卡也存在资源有限的缺点,其网络处理器编程可以基于规模较小的通用处理器核心,早期典型的如 MIPS 等,这些核心做高吞吐量的流处理是足够的,但更复杂的逻辑就捉襟见肘了,毕竟这些小核的算力、缓存容量都极其有限。相应的,控制面的功能还保留在 CPU 上处理,如虚拟化管理程
210、序、容器引擎等等,因为程序复杂,工作量大。一般来说,GPU、SSD 等资源也需要通过 CPU 进行调度。能否实现控制面的卸载呢?当然可以,相应的,DPU 的概念出现了。前面提到的 AWS Nitro 被视为 DPU 的鼻祖,其引入的嵌入式 CPU 可以通过不同的软件实现不同的功能,如 VPC(虚拟私有云)卡、EBS(弹性块存储)卡、安全芯片等。虚拟机的业务管理安排在“额外”的 CPU 上运行,表面上性能开销相同,但主机 CPU 时间的成本通常更高,将负载转移还是划算的。而且,管理和业务运行在不同的处理器上,还带来了安全方面的好处。同一时期,阿里云也开始开发和部署神龙架构,2017 年天猫双十一
211、大促部署了 1000 台服务器进行验证,2019 年起将阿里巴巴集团的所有计算类服务都迁移至神龙架构。在智能网卡到 DPU 的演进过程中,前者经历了业务层层加码的过程,其结构也有 On-Path 和 Off-Path 的不同流派,因此,DPU 的概念与智能网卡在硬件上的区别其实是比较模糊的。3.DPU 与 IPU跟智能网卡越来越复杂一样,DPU 也经过了大量的演进。早期 DPU是 Data Processing Unit(数据处理器)的缩写;后来,有人提出其中的 D 是 Datacenter,叫数据中心处理器;还有更高大上的,叫Data-centric,以数据为中心的处理器。也有的厂商索性起了
212、新的名字,如英特尔推出的是 IPU(Infrastructure Processing Unit,基础设施处理器),阿里云的是 CIPU(Cloud Infrastructure Processing Units,云基础设施处理器)。不论如何,DPU/IPU 要处理的,确实是数据,但已经不仅仅是“数据平面”中的数据,它已经被视为数据中心的重要算力资源,而不仅仅是为 CPU 减负一方面,干的活多了,可谓功高盖主;另一方面,从 DPU 的角度看,DPU 与 CPU、基于 FPGA 的智能网卡存在一些明显的缺点。首先是编程难度较大,普通软件工程师进行二次开发的门槛较高。更主要的问题是,FPGA 的逻
213、辑资源有限,或者说逻辑资源对应的芯片成本较高,主流的 FPGA 无法容纳复杂的逻辑。+922024 数字中国万里行考察报告 技术演进篇GPU、存储类似,只是被调度的资源,它可以存在于数据中心的中枢,也可以部署在边缘包括近边缘和远边缘。考虑到控制平面的复杂性,灵活、易于编程是最为重要的。相对合理的策略是引入通用的 CPU 核负责这部分任务。因此,多数 DPU 可以看做是“通用 CPU+加速器”的组合。这种组合可以是分立的,典型的如英特尔 2021 年推出的代号 Oak Springs Creek 的 IPU 参考平台,就是将 Xeon D CPU 和 Agilex FPGA组合在一张扩展卡上。1
214、6 核的 Xeon D 负责控制平面的工作,FPGA负责数据平面的加速。由于 FPGA 可以重新硬件编程,以及尤其适合于数据流处理的低延迟特性,这种组合可以更好地适应数据中心高吞吐量和时延敏感的技术需求,譬如电信运营商、存储虚拟化等等。也可以将控制平面和数据平面的处理都整合在单一芯片内。譬如同期英特尔也推出了其首个基于 SoC 的 IPU 产品,代号 Mount Evans。这款 SoC 使用了 16 个 Arm Neoverse N1 核心作为通用处理器以处理控制平面部分的业务。数据平面主要是网络和存储的加速器,包括RDMA、NVMe、数据包处理、服务质量控制、流量整形、IPSec 加密等等
215、,以及 PCIe 和以太网的 SerDes。Mount Evans 在高集成度下也实现了很好的灵活性。处理控制平面使用 Arm Neoverse N1 核心可以支持 DPDK 和 SPDK 这些高性能编程框架,数据平面的编程支持 P4 语言。2019 年,英特尔收购了 Barefoot公司,Barefoot 的创始人 Nick McKeown 与英特尔、谷歌、微软等公司联合设计了 P4 语言,专门用来对网络交换的数据面进行编程。+93英伟达的 BlueField-3 DPU 是 AI 时代的明星产品。除了支持 PCIe 5.0 x32 和 400G 网络,BlueField-3 相比 Blue
216、Field-2 的最明显变化是计算能力提升 3 倍BlueField-3 具有 16 个 Arm A78 核心,而上一代是 8 个 A72 核心。大幅增加的 Arm 核心数量和单核性能有利于支持更多的虚拟实例,或为更大规模的无阻塞通信卸载消息传递接口。CPU 核的增加在芯片面积上也产生了明显差异,已经占据了BlueField-3 将近一半的面积。BlueField-3 的 数 据 平 面 可 编 程 性 通 过 可 编 程 的 加 速 流 水 线(Accelerated Programmable Pipeline)和新的可编程数据路径加速器(Datapath Accelerator,DPA)实
217、现。DPA 是一个由 16 个核心组成的 I/O 和数据包处理器,专为设备仿真、拥塞控制、自定义协议等 IO 密集型、低计算任务而构建。我们可以将 BlueField-3 简单看做是 Arm Neoverse N 系同级的 CPU核心与 ConnectX-7 智能网卡核心集成在一颗晶体管数量高达 220 亿的 SoC 内。就架构而言,它是由多核 CPU 负责虚拟机、软件定义存储等数据中心应用的管理,由固化的加速器进行加解密等安全操作,由可编程的数据流加速器处理网络与 CPU、GPU 的通讯。+942024 数字中国万里行考察报告 技术演进篇4.GPU 与 AI 算力为了提高管理能力,DPU 引
218、入了相对较强的嵌入式 CPU,接下来的卖点应该从哪里挖掘呢?那就强化某些方面的能力,尤其是时髦的 AI方向吧。在 2020 年,英伟达和 Marvell 都明示了这一点,前者规划的产品是 BlueField-2X,后者是 OCTEON 10。英伟达当时规划的 BlueField-2 是 8 个 Arm Cortex-A72 核心搭配 ConectX-6。在此基础上规划的 BlueField-2X 计划外挂一颗Ampere GPU。利用 Tensor Core 的 AI 算力可以进行实时安全分析,这在当时确实是相当时髦的概念,譬如英特尔 vPro 中的硬件盾(Intel Hardware Shi
219、eld)宣称是首款商用的基于芯片的 AI 威胁检测解决方案,将病毒扫描工作负载从 CPU 分流到 GPU。DPU 面对的数据流量巨大得多,看上去很是值得挂上一颗GA102等级的核心处理安全问题。计划中的功能包括识别提示窃取机密的异常流量、线速加密流量分析、恶意活动的主机自检、以及动态的安全编排自动化响应(SOAR)等。回顾英伟达 2020 年时期的 DPU 路线图,BlueField 提升通用算力和AI 算力的思路很明确,BlueField-3 的 CPU 性能要比 BlueField-2 高4 倍,BlueField-3X 估计继续使用 Ampere GPU;BlueField-4 则更激进
220、,CPU和GPU都要在BlueField-3X的基础上实现几倍的提升(就当是 GH200 的 DPU 版吧)。实际上,BlueField-2X 和 3X 这样的命名并没有被采用,类似思路的产品变成了“融合加速器”(Converged Accelerator)产品线。除+95了前面提到的基于 AI 的网络安全应用,融合加速器还可以用于 5G 虚拟无线接入网络(vRAN)进行 GPU 加速的信号和数据处理,或者用于边缘场景的 AI 应用(尤其是多实例并行)。真正把 AI 算力集成到 DPU 芯片内部的是 Marvell OCTEON 10。Marvell 将其 DPU 家族的历史上溯到 2005
221、年,当时主要用于防火墙,早期被定位为“基础设施处理器”。2015 年,Marvell 宣布 OCTEON TX 采用 Arm 核心。OCTEON 10 是 Marvell 的第七代DPU,在 2021 年透露,采用台积电的 N5P 制造工艺,支持 PCIe 5.0接口,其主要亮点是首批采用 Arm Neoverse N2 核心的产品之一,+962024 数字中国万里行考察报告 技术演进篇并且集成了机器学习引擎。OCTEON 10 的 24 个 N2 核心每个均有64KB 指令 Cache 和 64KB 数据 Cache,以及 1MB L2 Cache,所有核心共享 48MB L3 Cache
222、再配合 16GB DDR5-5200 ECC DRAM,其处理能力在 DPU 中相当有优势。OCTEON10 除了固化密码处理、虚拟化等功能外,还有向量数据包处理(Vector Packet Processing)和机器学习处理器(ML Processor)。向量数据包处理引擎与前一代的标量处理引擎相比,能够将数据包处理吞吐量大幅提高 5 倍。机器学习处理器支持 INT8、FP16 数据,主要用于推理应用,如威胁检测、波束成形优化、情境感知服务、预测性维护。这些应用也是比较典型的边缘侧场景,包括无线基站、车载等,这也是 Marvell 的传统优势领域。对于计算中心,机器学习除了可以识别恶意流量
223、,也有机会做网络流量分析,分析识别延迟、丢包、抖动等;还可以在存储方面分析数据冷、温、热,协助分层、压缩等。不论是英伟达的融合加速器,还是 Marvell OCTEON10,它们的共同点都是整合了不同程度的 AI 算力。支撑这种算力需求的现实应用是5G 时代大规模 MIMO 天线阵列相关的趋于复杂的波束成形算法,潜在的应用领域则远不止于此。物联网、数据库等应用都可以用上优化的算力进行加速。如何更高效地整合AI算力,平衡性能、成本、灵活性,将是 DPU 发展中的重要议题。5.DPU 也要 Chiplet大语言模型的成功让数据中心的算力和网络带宽都进入到高速发展的阶段,如果要更好地适应这种形势,D
224、PU 的迭代速度必须相应加快。类似 BlueField 的规模较大的 SoC 方案会面临升级滞后的问题。典型的就是在 GTC2024 上,英伟达发布了面向高性能 AI 基础设施大语言模型的成功让数据中心的算力和网络带宽都进入的高速发展的阶段,如果要更好地适应这种形势,DPU 的迭代速度必须相应加快。+97的新一代的 Quantum-X800 网络平台(InfiniBand),其中包括Quantum Q3400 交换机(144 个 800Gbps 端口)和 ConnectX-8 SuperNIC;以 及 Spectrum-X800(以 太 网),包 括 Spectrum SN5600 交换机(6
225、4 个 800Gbps 端口)和 BlueField-3 SuperNIC。BlueField-3 SuperNIC和BlueField-3 DPU的区别后面介绍,重点是,BlueField-3 平台到 GTC2024 召开之时尚未更新。按照 BlueField-2内 置 ConnectX-6、BlueField-3 内 置 ConnectX-7 的“规 律”,ConnectX-8 应该也会被未来的 BlueField-4 整合进去的。不同规模的嵌入式 CPU 可以定义不同卸载能力,如 BlueField-3 SuperNIC 与 BlueField-3 DPU,前者的 CPU 核心数为后者的
226、一半;又如 Marvell OCTEON10 的 CN103 与 CN106,前者的 CPU 核心数为后者的三分之一。DPU 的发展也面临进一步整合异构算力的问题,除了通用CPU核配合若干数据流加速器,高并行的AI算力也趋于重要,不论是 GPU 还是 NPU 形式。高性能、高灵活性的需求一定会促使 DPU 也开始考虑 Chiplet 的思路。相应的,通用 CPU IP 的总线协议也需要为此做好相应的准备。以 Arm 的 AMBA(Advanced Microcontroller Bus Architecture)为例,这是 Arm 推出的高级微控制器总线架构,在近 30 年的历程中不断演进,并
227、获得了广泛的应用。AMBA 包括几种不同定位的总线,早期的 AHB/ASB 是高级高性能总线,通常用于 CPU 和高性能设备之间的交互;APB 是高级外设总线,通常和 AHB 相连接,来访问一些低速的外设。在 AMBA3.0 的协议中增加了 AXI,可以与高性能外设交互,典型的就是 FPGA。AMBA CHI 则有更高的性能,用于片上互联,用于应对 Chiplet 下的 CPU Tile 之间的一致性整合。进一步的,CHI C2C 利用了 CHI 规范的许多特性,供来自不同供应商的小芯片实现互联,如各种加速器。CHI C2C 支持第三方和行业标准,重点之一就是UCIe。简而言之,AMBA CH
228、I C2C 实现了对 UCIe 标准的支持,方便CPU 与各种加速器通过高级封装组合起来。这些加速器可能用于 AI算力,也可用作加速或卸载网络、存储、数据库的操作。加速器在发展早期会采用 FPGA 形式提供(AXI),随着应用趋于成熟和规模化,将会逐步固化为 AISC(AXI)或者 Tile(AXI C2C 或 CHI C2C)的形式,AMBA 涵盖的不同总线协议为不同发展阶段做好了准备。+高性能、高灵活性的需求一定会促使 DPU 也开始考虑Chiplet的思路。相应的,通用 CPUIP 的总线协议也需要为此做好相应的准备。以 Arm的 AMBA 为 例,这 是Arm 推出的高级微控制器总线架
229、构,在近 30 年的历程中不断演进,并获得了广泛的应用。982024 数字中国万里行考察报告 技术演进篇6.GPU 的新助手:SuperNICSuperNIC(超级网卡)的概念在 2021 年的一篇论文(SuperNIC:A Hardware-Based,Programmable,and Multi-Tenant SmartNIC)中提出。当时的概念是一个新的分布式硬件框架,每个 SuperNIC 连接一小组端点,并整合这些端点的网络功能。概念的提出者认为,智能网卡无法同时实现多租户支持、可编程性、硬件加速这三个功能。SuperNIC 是基于硬件的、可编程的、多租户的智能网卡,支持三种类型的网
230、络计算卸载:传统网络堆栈功能,例如传输层;常见的网络功能,例如防火墙和 IPSec;特定应用程序的数据包处理。这看上去,其实有点儿像 DPU 的事情。2023 年 COMPUTEX 期间,英伟达发布了 Spectrum-X 平台,其中包括了 Spectrum-4 以太网交换机与 BlueField-3 DPU。对于高性能集群的网络交互,DPU 有很多独特的价值,譬如可以实现计算和通讯的异步(某 RDMA 发起者的访问请求从本地 DPU 发出,到目标 DPU 接收到,即可返回。目标 DPU和目标内存的处理不需要发起方参与),籍此有效降低 RDMA 操作的性能损耗。到了下半年,英伟达引入了 Blu
231、eField-3 SuperNIC,并将其定义为一种新型网络加速器,旨在为基于以太网的 AI 云上运行的超大规模AI 工作负载提供助力,可在 GPU 服务器之间提供可靠、无缝的连接。英伟达宣传的独特属性包括:NVIDIA BlueField DPU 和 SuperNIC+99高速数据包重排序可确保数据包的接收和处理顺序与源端发送的顺序相同。这可保持数据流的顺序完整性;使用实时遥测数据和网络感知算法进行高级拥塞控制,以管理和预防 AI 网络中的拥塞;输入/输出(I/O)路径上的可编程计算,可实现 AI 云数据中心网络基础设施的自定义和可扩展性;节能高效的半高设计,可在有限的功率预算范围内高效适应
232、 AI 工作负载;全栈AI优化,包括计算、网络、存储、系统软件、通信库和应用框架。以上属性强化了高性能网络的数据处理能力,而不再像 DPU 那样强调租户、容器管理等控制平面的内容。另外,限制了功耗或者说是,不需要 DPU 那么高的功耗。分布式存储和 GPU 集群对数据中心的 RDMA 拥塞控制要求越来越高,这也是各大云厂商高性能以太网需要卷算法的重点,相应的算法需要自研的交换机和网卡支持。英伟达的 Spectrum-X 平台只是其中一个流派,然后将其中配套的网卡赋予了 SuperNIC 之名比智能网卡高级,但又不需要 DPU 那么高的规格。至于InfiniBand网络,并不需要把太多算力消耗在
233、拥塞控制上,用 ConnectX 系列智能网卡就足够了。从功能的角度,BlueField-3 DPU 和 BlueField-3 SuperNIC 的异同点可以参见下表。简单说,BlueField-3 SuperNIC 主要是围绕提升GPU 在以太网中的协同能力设计的。英伟达建议高性能 AI 集群中,GPU 与 SuperNIC 应该以 1:1 的比例进行配置。硬件上,BlueField-3 SuperNIC 相对 DPU 也有了相应的弱化。首先是 Arm 核心数量,从 16 个减半为 8 个,DDR5 内存容量也从32GB(128bit+16bit ECC)降为 16GB(64bit+8bi
234、t ECC)。对应的,功耗也降低了,DPU 需要使用 8pin 的外接 12V PCIe 供电,+1002024 数字中国万里行考察报告 技术演进篇SuperNIC 取消了该辅助供电。BlueField-3 全部是全高卡设计,均提供双网络端口,而 SuperNIC 既有全高卡,也有半高卡,网络端口可单可双。BlueField-3 DPUBlueField-3 SuperNIC任务云基础架构处理器卸载、加速和隔离数据中心基础架构针对 GPU 级系统中的南北向优化加速 AI 计算的联网一流的 RoCE 网络针对 GPU 级系统中的东西向优化共同能力虚拟私有云(Virtual Private Clo
235、uds)网络加速网络加密加速可编程网络流水线精密计时平台安全独特能力强大的计算能力安全、零信任管理数据存储加速弹性基础设施配置每个系统 12 个 DPU强大的网络AI 网络功能集全栈 NVIDIA AI 优化高能效、小尺寸设计每个系统最多 8 个 SuperNIC1017.DPU 中的 CPUDPU 的控制平面主要使用性能较强的通用 CPU 核,以处理较复杂的任务,且面向 Linux 等系统编程友好。常见的通用 CPU 核有英特尔的至强 D 以及 Arm 的大核(Arm v8 的 Cortex-A72/A78、Neoverse N1,v9 的 Neoverse N2),较早期产品还有一些采用
236、MIPS64 核心。英特尔至强 D 的方案主要是搭配 FPGA 使用。至强 D 和 FPGA 都可以自由采购,进入门槛较低。考虑到 DPU 是与具体的应用场景紧密相连的,这种方案可以针对各个云厂商的需求特点选择最重要的协议、功能进行编程,可以少量多样、反复迭代,而且 FPGA 还具有低时延优点,特别适合数据流处理。随着部署量的增加,这样的方案会显得成本偏高。定制化的 SoC 方案一般采用开放授权的核心,Arm、MIPS、RISC-V均可以作为选择。以 Marvell 为例,其网络处理器曾大量使用 MIPS核心,譬如 OCTEON III 就是一个比较庞杂的家族,简单的 CN70XX/CN71X
237、X系列可以用作AP、网关、NAS,使用14核的MIPS64 r3核心;CN73XX/CN72XX 系列可以给防火墙、路由器、虚拟化存储等使用,提供 416 个 MIPS64 r5 核心;CN77XX/78XX 系列可以达到 1648个 MIPS64 r5 核心,供高端路由器、DPU、蜂窝网络接入等使用。到了 2015 年发布的 OCTEON TX,Marvell 全面转向 Arm 架构,使用的是收购的 Cavium 基于 Arm v8 设计的 ThunderX 核心,规模在824 核之间。2019 年发布 OCTEON TX2 最多可以提供 36 个 Arm v8 Cortex-A72 核心。
238、英伟达在 2020 年发布的 BlueField-2 提供了8 个 Arm v8 Cortex-A72 核心,之后的 BlueField-3 增加到 16 个A78 核心。AMD 的 Pensando DSC-200 提供 16 个 A72 核心。+1022024 数字中国万里行考察报告 技术演进篇在 Arm v9 时代,适用于 DPU 的是 Arm Neoverse N 系列核心。譬如英特尔 Mount Evans 有 16 个 N1 核心,Marvell OCTEON 10 可扩展到 36 个 N2 核心,直逼低端服务器 CPU。8.Arm 核心的演进Arm 提供了丰富的 IP 授权,供不
239、同性能、功耗、成本需求的产品选用。在 Cortex-A 系列之后,Arm 面向云计算和数据中心领域推出了Neoverse 平台。在 Arm 的规划中,强调能效比的 Neoverse N 系列适合作为 DPU 的嵌入式 CPU 使用。其中,Neoverse N1 依旧基于 Arm v8 体系,准确的说是 v8.2。顺便一提,Cortex-A78 也是基于这 Arm v8.2 体系,而 Cortex-A72 属于 v8.0A 体系。Neoverse N2 则是比较重要的大版本迭代,基于 Arm v9.0A 架构。从 Arm Cortex-A72 到 A78,CPU 性能上了一个大台阶。譬如,从缓存
240、角度看就很明显:A72 的 L1 指令缓存是 48kB,数据缓存是 32kB(最大可以 64kB),L2 缓存是共享的,容量 512kB 4MB 规模;A78的L1指令和数据缓存均提升至64kB,L2缓存是每个核心私有的,容量 256/512kB,在此基础上又提供了 512kB4MB 的共享 L3 缓存。其他的改进还包括 Arm v8.2A 扩展指令集扩展,让 A78 的 NEON 多媒体处理 SIMD 引擎支持半精度浮点(FP16)数据类型。103同处 Arm v8.2A 指令集架构的 Arm Neoverse N1 相对 Cortex-A78也有不小的提升,譬如前者每个核心的私有 L2 缓
241、存相对后者翻倍。更 重 要 的 是,Neoverse N1 除 了 选 择 Cortex-A 簇 状(Cluster)架构多处理器(4 个核心为一簇),也可以选择直接互联,以构成目前服务器多 CPU 中比较主流的网格(Mesh)架构。换句话说,Neoverse 更适合构建大规模的多核心 CPU。Arm Neoverse N2 相对 N1 并非简单的数字迭代,而是一次重大提升。N2 是 Neoverse 家族首个支持 Arm v9 指令集架构的核心,支持 SVE2(可伸缩矢量扩展,Scalable Vector Extension)、增强加密指令等重要功能。Arm Neoverse N2 的微架
242、构也做了诸多改进,使得 IPC 性能相对 N1有了 40%的提升。譬如前端方面,分支预测宽度翻倍,分支目标缓冲(Branch Target Buffer,BTB)条目也大幅增加;流水线部分,命名宽度从 4 条扩展到 5 条,重排序缓冲(reorder buffer,ROB)从128提升到160以上;L1、L2缓存的吞吐能力提升30%到翻倍水平。Arm Neoverse N2 还将核心的互联方案迭代到 CMN-700,2021 版报告中已有介绍,此处不再重复。相对核心数以百计的服务器系统,拥有 36 个 N2 核心的 Marvell OCTEON 10 仍属于典型的 DPU 应用。Arm 认为
243、12 36 核的配置适合 DPU 使用,更小的核心规模可用于网关等。符合 UCIe 规范的Die to Die 有利于 DPU 通过 Chiplet 方式整合外部加速器构成 SoC,核心核数(最多)Marvell OCTEON TXThunderX24NVIDIA BlueField-2Arm Cortex-A728Marvell OCTEON TX2Arm Cortex-A7236AMD Pensando DSC-200Arm Cortex-A7216NVIDIA BlueField-3Arm Cortex-A7816Intel Mount EvansArm Neoverse N116Mar
244、vell OCTEON 10Arm Neoverse N236+1042024 数字中国万里行考察报告 技术演进篇这个是一个非常有价值的能力。不论是多种版本的 Nitro 卡(虚拟化、分布式存储、本地存储、安全等),还是 BlueField 衍生的融合加速器等,都体现了 DPU 应用的多样性。DPU 的控制平面可以由 Arm、RISC-V 等 CPU IP 构建。CMN700 等一致性网络解决内部互联,如高速内存控制(DDR5、HBM)、PCIe控制器、UCIe 接口等,并易于水平扩展。当然,使用非一致性网络,如 NIC-400/500、NI-700 等也是可以的,具有低时延的特点。9.AI
245、需求推动 DPU 用量大增DPU 起源于为虚拟化和网络流量的开销减负,设计上基于云服务商对自身业务的独特理解,长期以来呈现少量多样的特点,云大厂对于自家 DPU 的介绍也一直犹抱琵琶半遮面。为了应对数据中心网络的高要求,商用交换机的服务很难满足互联网大厂的需求,大厂普遍走上自研交换机、智能网卡/DPU的道路。但随着AI时代数据流量的剧增,+105不论在数据中心内部还是在边缘侧,都有大量的任务值得 DPU 承接,DPU 有可能从少量、多样发展为大量、多样。在英伟达看来,新一代的 AI 算力服务器的算力网络应该实现 GPU 与DPU/SuperNIC 的 1:1 配置,如果考虑到管理网络的需求(每
246、台服务器 1 2 块 DPU),单台算力服务器的 DPU 配置可以达到 10 块。另一个典型新兴领域就是存储,不论是GPU直连NVMe存储的需求,或者是存储子系统的虚拟化,高性能存储节点也需要配置 DPU 降本增效。日益受到重视的还有边缘侧(不论是近边缘还是远边缘)激增的非结构化数据的流量,也需要相应的算力进行更有效地处理。简而言之,早期数据中心的算力来源于通用 CPU,HPC/AI 对大规模并行算力的需求让 GPU 崛起为两强并立,而 DPU 正逐步发展为异构算力的第三极。DPU 内部的算力来自于异构,除了嵌入式 CPU,还有日趋多样的加速器资源。这些加速器既可以是 FPGA,也可以是ASI
247、C 或者 Chiplet 方式提供。四.服务器:重构升级AI 特别是大语言模型(LLM)的训练应用,对算力的总体规模和部署密度有很高的要求,所以 GPU/加速器的互联和服务器所需的网络带宽也一路攀升,后者已经来到 800Gbps 乃至 1.6Tbps 的水平。1.主流训练机型英伟达在 2016 年推出的 DGX-1 系统,不仅首个实体(服务器)捐赠给了 OpenAI,其架构设计也影响深远,一直延续至今。早期数据中心的算力来源 于 通 用 CPU,HPC/AI 对大规模并行算力的需求让 GPU 崛起为两强并 立,而 DPU 正 逐 步发展为异构算力的第三极。DPU 内部的算力来自于异构,除了嵌入
248、式CPU,还有日趋多样的加速器资源。这些加速器既可以是 FPGA,也可以是 ASIC 或者 Chiplet方式提供。1062024 数字中国万里行考察报告 技术演进篇DGX-1 系统架构包含以下要素:8 个 SXM 规格的 GPU 在基板(Baseboard)上通过专用的高速互联(NVLink)结为一体,即纵向扩展(Scale-up);这些 GPU 通过 PCIe 连接 2 个(通常为 x86)CPU 和多块高速网卡(InfiniBand 或 RoCE),以将多台 GPU 服务器组成集群,即横向扩展(Scale-out)。具体配置为:8 个 SXM2 规格的 Tesla P100 或 V100
249、 GPU;2 个 20 核 CPU(英特尔至强 E5-2698 v4);512GB DDR4-2133 内存;4 个 100Gbps InfiniBand(EDR)网卡,2 个 10GbE;4 个 1.92TB SSD 作为本地存储(缓存);3200 3500W 供电需求;3U 高度。除了 2018 年首次引入 NVSwitch 的 DGX-2 容纳多达 16 个(V100)GPU,后续推出的 DGX Xx00(X 代表大写字母,x 代表数字)都采用 8 个 GPU 的配置,如 DGX A100 和 DGX H100。DGX 是英伟达提供的软硬件一体的解决方案,英伟达还向服务器供应商和大型互联
250、网用户提供GPU、基板和NVSwitch构成的HGX模组,这些客户根据各自的需求搭配(英特尔或AMD的)CPU、内存和网卡、NVIDIA HGX H200 107存储,形成完整的系统。HGX 有 4 GPU 和 8 GPU 两个版本,其中(2 CPU+)4 GPU 的组合更适合高性能计算(HPC)场景。在 Blackwell 这一代,暂时只发布两款 HGX 参考设计HGX B100和 HGX B200,以及一款 DGX B200,均为 8 GPU 配置。以 DGX B200 为例:配套的处理器升级到英特尔的第五代的至强铂金 8570,双路 112 核;配置内存 2TB,可以扩展到 4TB;总的
251、 GPU 内存是1440GB,即每个 B200 GPU 为 180GB。开 放 计 算 项 目(OCP)在 2018 年 晚 些 时 候 发 起 的 OAI(Open Accelerator Infrastructure,开放加速器基础设施)子项目,通用基板(UBB)设计支持多达 8 个 OAM(OCP Accelerator Module,开放加速器模块,对标 SXM),可以视为 HGX 的开源版本,获得 AMD、英特尔等全球以及一众国内 GPU/加速器厂商的广泛支持,英伟达也在2022 年 5 月将 HGX H100 的基板物理规范贡献给了 OAI 项目。OAI 项目与 DGX/HGX 的
252、一大区别在于,英伟达 GPU 之间互联使用的 NVLink 及 NVSwitch 都是专有技术。特别是用于基板上 GPU 之间数据交换的 NVSwitch,在 OAI 的体系里并没有类似的角色,常见的解决方案是用通用技术直连各 GPU 或加速器。以英特尔面向训练平台的 Gaudi 系列 AI 加速器为例,OAM 版本之间的直连(Scale-up)和对外的网络(Scale-out)都使用RoCE v2端口。+典型的 OAM 基板1082024 数字中国万里行考察报告 技术演进篇随着加速器所配置的 HBM(高带宽内存)容量和带宽的增长,RoCE端口的数量和速率也随之上升,总带宽呈现倍增趋势。在集群
253、层面,基于 8 个 Gaudi 3 加速器的服务器通过 3 个 800GbE端口上联到标准以太网交换机,由 96 台 Leaf 交换机和 48 台 Spine交换机(均为 64 端口 800GbE)组成的二层网络可支持 512 个服务器节点,共 4096 个 Gaudi 3 加速器。互联与网络的带宽随着芯片算力、内存容量及带宽的增长而“水涨船高”是普遍规律,于英伟达 DGX 就是 NVLink 和 InfiniBand/以太网的速率。Intel Gaudi 3 之间的全互联拓扑+Intel Gaudi 3 对标 NVIDIA H100,抛开这些性能对比,提供的参数和加 速卡的各种形态、冷却方式
254、等信息还是很丰富的109加速器GaudiGaudi 2Gaudi 3芯片制程16nm7nm5nm加速卡HL-205HL-225HHLB-325L内存容量和类型32 GB HBM296 GB HBM2E128 GB HBM2E内存带宽1 TB/s2.46 TB/s3.7 TB/s互联端口10 100Gbps24 100Gbps24 200Gbps加速器互联7 100Gbps21 100Gbps21 200Gbps网络互联3 100Gbps3 100Gbps3 200Gbps+2024 年 发 布 的 B200 GPU 公 开 数 据 不 多,DGX B200 的 网 络 配置,从带宽的角度,与
255、DGX H100 似无不同,主要变化是对接南北向网络的两块 ConnectX-7 双端口网卡被两块功能更丰富强大的BlueField-3 DPU(Data Processing Unit,数据处理器)所取代,东西向网络仍是 8 块 ConnectX-7 单端口网卡。这可能只是暂时的情况,毕竟英伟达已经发布了 ConnectX-8 SuperNIC,支持 800Gbps InfiniBand,适用 PCIe 6.0。PCIe 5.0 不但限制了英伟达新一代网卡的性能,其实也会限制第四代 NVSwitch芯片的性能。目前的 DGX B200 并非“完全体”,随着英特尔或AMD 的下一代 PCIe
256、6.0 平台就绪,DGX B200 也会随之升级。AMD Instinct MI300X 的 OAM 模组,注意高大的散热片1102024 数字中国万里行考察报告 技术演进篇服务器 OEM 基于 HGX 模组提供的 GPU 服务器在内部拓扑上会有2:8:x 的配比范围,即 2 个 CPU、8 个 GPU,网卡数量可变,这也会影响到集群使用的交换机和光模块、线缆的总数。2.CPU 与 GPU 配比2023 年 5 月底,英伟达在 COMPUTEX 2023 大会上有一系列重量级发布,包括 GH200 Grace Hopper 超级芯片(Superchip)、DGX GH200,和用于加速计算的开
257、放模块化服务器设计 MGX。英特尔和 AMD 的 x86 CPU 只能通过相对低速的 PCIe 总线与英伟达 GPU 通信,这限制了 GPU 访问 CPU 内存的速度。英伟达基于Arm Neoverse V2 开发的 Grace CPU 加入了 NVLink-C2C(Chip to Chip),与其 GPU 之间建立 900GB/s 的高速通道,显著提升访问CPU 内存的带宽,缓解 GPU 自身 HBM 容量不足的困境。1 个 Grace CPU 与 1 个 Hopper 架 构 GPU 通 过 NVLink-C2C 连 接并封装为一体,就得到了 GH200 Grace Hopper 超级芯片
258、(简称GH200)。1U 规格的 MGX 机箱可配置 1 或 2 个 GH200。平台DGX-1DGX-2DGX A100DGX H100DGX B200GPUP100V100A100H100B200FP32 算力10.6 T15.7 T19.5 T67 THBM 容量16 GB HBM216/32 GB HBM280 GB HBM2e80 GB HBM3192 GB HBM3eHBM 带宽732 GB/s900 GB/s2039 GB/s3.35 TB/s8 TB/sNVLink 带宽NVLink1160 GB/sNVLink2300 GB/sNVLink3600 GB/sNVLink490
259、0 GB/sNVLink51.8 TB/s数据网络4 100Gbps IB EDR8 100Gbps IB EDR8 单口200Gbps IB ConnectX-72 双口200Gbps以太网ConnectX-7 VPI400GbpsIB/以太网:8 单口ConnectX-7 VPI2 双口ConnectX-7 VPI400Gbps IB/以太网:8 单口ConnectX-7 VPI2 双口BlueField-3 DPU+111DGX GH200 与之前的 DGX 不同,是机柜级的架构。一个机柜内有 2个 15 OU(Open U,48mm)的刀片式机箱,各有 8 个 GH200 和3 台 L
260、evel 1 的 NVLink 交换机。16 个这样的机柜通过 36 个 Level 2的 NVLink 交换机组成 DGX GH200 集群,共有 256 个 GH200 超级芯片,显存(HBM)总容量达 144TB,NVLink 总带宽达 230TB/s,总算力(FP8)达 1 EFLOPS。集群内的网络资源包括单口 400Gbps IB 网卡和双口 200Gbps BlueField-3 各 256 块、24 台 InfiniBand(IB)交换机、20+22 台以太网交换机,光纤总长度达 150 英里(约 240 公里)。半年之后,2023 年 11 月底召开的 AWS re:Inve
261、nt 2023 大会上发布了 GH200 NVL32,单机柜组成 32 个 GPU 的 NVLink 域(domain)。GH200 NVL32 的机柜内包括:+Grace Hooper 超级芯片与Grace CPU 超 级 芯 片(双CPU)2 个 GH200 超级芯片组成的服务器节点 1122024 数字中国万里行考察报告 技术演进篇16 个 1U 的 MGX 节点,每个节点有 2 个升级版 GH200(GPU 为拥有 141GB HBM 3e、带宽 4.8TB/s 的 H200);9 台 NVLink 交换机通过铜缆形成机柜级的“背板”,将 32 个GH200 连为一体。这是整合在单一机
262、柜内的超级 GPU32 颗 GPU 的 NVLink 域,HBM3e 总容量达 4.5TB,统一内存容量达 19.5TB(每块 GH200 Superchip 提 供 Grace CPU 的 480GB LPDDR5X 和 H200 GPU 的144GB HBM3e)。英伟达提供的数据显示,与8卡的HGX H100(NVL8)相比,GH200 NVL32 的 GPT-3 训练性能达到 1.7 倍,大语言模型推理性能达到 2 倍。GH200 NVL32 是一种机柜级方案,使用带冷板式液冷的集中供电机柜,设备空间为 31U。每台 NVLink 交换机(NVSwitch Tray)包含 2 颗第三代
263、 NVSwitch 芯片,提供 128 个 NVLink 端口,每个端口 50Gbps。NVLink 交换机位于机柜中部,上下各安排 8 个计算节点,机柜上下再各 3U 空间安排电源。每颗 GPU 外联 900GB/s的 NVLink 对应 18 个 NVLink 端口,16 个节点 32 颗 GPU 总共需要 576 个端口,通过 9 台 NVLink 交换机实现完全互联非常轻松。NVIDIA GH200 NVL32 的正视图与后视图113互联方案也与半年前的发布不同,GH200 NVL32 不打算通过NVLink Switch 级联扩展更多 GPU,所有 NVLink 集中在一个机柜内,线
264、缆长度可以得到有效控制,可以完全使用无源铜缆连接。因此,如果真的想扩展 GH200 NVL32,建议使用 400Gbps InfiniBand或以太网。翻番的节点密度有利于 GH200 NVL32 转为使用冷板式液冷和能降低机柜内互联成本的铜缆,也给后续推出 GB200 NVL72 打下了基础。2024 年 3 月发布的 GB200 NVL72 依旧是在 1U 空间内安排两组SuperChip,提供 4 个 GPU 和 2 个 CPU,因为每个 GB200 超级芯片由1个Grace CPU和2个B200 GPU组成,即CPU与GPU的配比从1:1调整为 1:2。这样整机柜内有 18 个 GB2
265、00 超级芯片节点,共 36 个GB200 超级芯片,72 个 GPU 叠加 36 个 CPU,一个 GB200 NVL72机柜的 HBM3e 总容量达到 13.3TB,总内存容量更高达 30.2TB。由于 GPU(B200)的功率和数量都大幅度增加,每个 GB200 超级芯片的 TDP 来到 2700W,单柜功率也飙升到 120kW,(冷板式)液冷成为必然。与GH200 NVL32类似,GB200 NVL72的9台交换机也位于机柜中部,上下安排 18 台 GB200 Compute Tray,再上下各 3U 电源框。NVLink 交换机升级到第四代 NVSwitch 芯片,每台交换机 144
266、 个端口,每个 100GB/s。从英伟达发布的信息来看,DGX GH200 发布+NVLinkSwitch 芯片500 亿晶体管,台积电 4NP 制程72 端口 400G SerDes4 个 1.8TB/s NVLink7.2TB/s 全双工带宽SHARP 在网计算,3.6 TFLOPS FP81142024 数字中国万里行考察报告 技术演进篇时的两级 NVLink 网络又回来了,8 台 GB200 NVL72 组成的 DGX SuperPOD 可以连接多达 576 个 Blackwell GPU。在更高密度的 GPU 配置下,机柜内采用铜缆互联方案不仅成本更低,还可以释放更多的供电能力给计算
267、节点。英伟达 CEO 黄仁勋表示,如果采用光纤方案,仅光模块和 Retimer 就要耗电 20kW。同时,采用冷板式液冷也可以减小粗大的铜缆对风道的不利影响。相应的,网络配置也来到了 72 个单口 400Gb/s InfiniBand 网卡和36 个双口 200Gb/s(IB 和以太网)BlueField-3。在自有 Arm CPU 与 GPU 配比较低(目前不高于 1:2)的同时,4U规格的 MGX 服务器还会把 x86 CPU 与(英伟达)GPU 的配比扩大到2:16,多元化的方案也意味着网络架构要有更高的灵活性。3.高带宽存储在数据采集、数据准备、训练和推理等 AI 工作流的各个环节,对
268、存储有着不同的要求。训练过程中会有一些从存储设备中随机读取数据的操作,但对网络和存储压力最大的环节还是设置检查点(Checkpointing)和从中恢复(Restore)数据的操作,大量数据的持续写入和读取,需要网络和 BlackWell 平台全家福115存储提供很高的访问带宽。仍以英伟达为例,从 GPU 服务器内置的本地存储到共享的网络存储,都突出了高带宽的特性。DGX 系列积极的采用高带宽、低时延的 NVMe SSD 作为本地存储,如 DGX A100 和 H100 均配置了 8 个 3.84TB 的 NVMe SSD,总容量达 30TB。英伟达的 GPUDirect Storage(简称
269、 GDS)技术允许 GPU直接访问(挂接在同一 PCIe Switch 上的)NVMe SSD 或网卡(连接NVMe over Fabric 的远程存储),缓解 CPU 的 I/O 瓶颈,提高有效访问带宽并降低时延。在英伟达基于 DGX H100 系统的 DGX SuperPOD 参考架构中,存储性能级别应用场景数据集大小单节点读写性能Good自然语言处理(NLP)数据集通常适合本地缓存4/2 GB/sBetter压 缩 图 像 处 理(如ImageNet)许多甚至大多数数据集都可以放在本地系统的缓存中8/4 GB/sBest使用 1080P、4K 或未压缩图像进行训练,离线推理,ETL 等数
270、据集太大,无法放入缓存,大量的第一次遍历 I/O 需求,只读取数据集一次的工作流40/20 GB/s1162024 数字中国万里行考察报告 技术演进篇+不论如何评论“摩尔定律”,芯片算力提升的贡献越来越来自于先进封装而非制造工艺的改进。于是,在算力密度提升的同时,芯片功耗的上涨也引人关注2024 年,数据中心 CPU 全面进入百核时代,GPU 的功耗则已迈过千瓦大关。一方面,CPU 核心数的持续增长,使得四至八路存在的意义减弱,单路服务器大有抬头之势;另一方面,AI 训练集群的规模越来越大,单台服务器 8 个 GPU 的配置已嫌不足,整机柜级别的“超级节点”正在涌现。集群内的跨节点通信要求,也
271、使得加速服务器(GPU 或加速器为主)配置的网卡不仅数量多,而且端口速率不断攀升,带动网络端口总量及带宽需求剧增,网络基础设施投资变得前所未有的昂贵。对算力密度的追求,促使单芯片功耗和单位空间内的芯片数量同时增长,这种叠加效应对服务器的散热能力提出巨大挑战,成为液冷技术应用迈上新台阶的主要驱动力。网络与计算网络使用同样的 NDR 400Gb/s InfiniBand 交换机,要为每个 DGX H100 节点提供至少 40GB/s(独立 400Gbps 网口)的存储带宽,最大网络性能达到 80GB/s(2 个 400Gbps 端口)更佳。该参考架构给出了建议的性能级别和应用场景。像 Checkp
272、oint 这种应用,主要诉求是读写带宽,对时延的要求没有计算集群那么高,共享存储系统可以跨训练集群或机房楼部署,在必要时可以将一个集群的 Checkpoint 加载到另一个集群中继续训练。基于 DGX GB200 的 NVIDIA DGX SuperPOD 及 其 液 冷配套设施 117第五章 全栈数据中心理念落地近些年,随着云计算、大数据、AI 等应用的不断普及,业界对于承载实际业务的底层数据中心 IT 基础设施的性能要求越来越高。这也使得包括服务器、存储在内的诸多基础设施功耗不断增加。特别是随着“东数西算”工程的启动以及“双碳”目标的提出,如何解决数据中心能源利用率低、节能技术水平不足等问
273、题,已成为数据中心建设的首要难题。为此,全行业都在寻找行之有效的、高性价比的解决方案,促成了液冷技术的大面积应用。2023 年,液冷发展呈现出“井喷”式增长,然而这并非意味着液冷解决方案是新生技术。事实上,早在十几年前,液冷在高性能计算领域就 是主流解决方案了。我国最早登上 TOP500 冠军宝座的“天河二号”超级计算机就采用了部分液冷解决方案。但是在更通用、更广泛的云数据中心领域,液冷虽然一直在发展,却总是显得不温不火,更多的用户是抱着试水的心态在“体验”。直到 AI 的爆发式增长、算力需求的指数级提升,再加上迅猛发展的生成式 AI 不再单纯增加数据中心的数量,而是大幅增加了运行这些数据中心
274、所消耗的功率。液冷已成为从芯片到基础设施,整个产业未来发展的指导方向。无论从政策角度、市场需求,还是技术的成熟度来讲,我们都可以认为数据中心已经来到了“液冷时代”。液冷正成为未来 AI 服务器散热的主流解决方案,其强大的散热能力和经济效率将推动数据中心的持续发展和创新。2024 年不仅是国产算力加速发展的黄金期,也是液冷的放量元年。一.全栈液冷技术新突破据国际能源署(IEA)估算,由于需要靠大量计算才能运行的生成式AI越来越普及,2026年全球数据中心耗电量最多将达到2022年的2.3倍,可能膨胀至 620 至 1050 太瓦时(1 太瓦时=10 亿千瓦时)。斯坦福大学 AI 研究所发布的20
275、23 年人工智能指数报告显示,OpenAI 的 GPT-3 单次训练耗电量高达 1287 兆瓦时(1 兆瓦时+无论从政策角度、市场需求,还是技术的成熟度来讲,我们都可以认为数据中心已经来到了“液冷时代”。液冷正成为未来 AI 服务器散热的主流解决方案,其强大的散热能力和经济效率将推动数据中心的持续发展和创新。2024 年不仅是国产算力加速发展的黄金期,也是液冷的放量元年。118=1000 千瓦时),甚至 OpenAI 每训练一次,就相当于 3000 辆电动汽车同时跑 30 多公里。以数据中心的能耗大户 CPU 和 GPU 为例,在主流的第五代英特尔至强可扩展处理器中,铂金 8593Q 的 TD
276、P 功耗已经达到了 385 瓦,其余铂金 8580、铂金 8558P 等处理器的 TDP 功耗也在 350 瓦,这是相当惊人的数值。GPU 的表现更加“恐怖”。英伟达最新一代的 H100 GPU 峰值功耗高达 700 瓦,按照 61%的年利用率,每张 H100 每年将消耗约3740 千瓦时的电量。被英伟达称为“传奇”的 DGX H100 共由 8 个NVIDIA H100 加速卡组成,系统功耗最高为 10.2 千瓦。按照英伟达2023 年底公布的 H100 终端用户销量数据显示,仅大型互联网客户,H100 GPU 全球范围内共售出约 70 万张,按照 61%的利用率计算,要耗费约 2000 千
277、兆瓦时,大约 20000 万亿度电。公开数据显示,2008 年到 2019 年,CPU 年功耗增长率大约为 4.4%,而 2020 年到 2023 年就增长到 22%;GPU 功耗增长也有相应趋势,2008 年到 2019 年的复合增长率为 1.6%,2020 年到 2023 年的复合增长率就达到了 21%。芯片功耗的急剧增长,给服务器散热带来了非常大的挑战。同理,数据中心的能耗管理也已刻不容缓,否则未来数据中心散热设备的耗电量将会超过 IT 设备,从而让计算“背上的包袱”越来越重。近 10 年主流 CPU/GPU 的功耗增长(益企研究院整理/发布)2024 数字中国万里行考察报告 技术演进篇
278、4.4%2008 年到 2019 年CPU 年功耗增长率大约22%2020 年到 2023 年增长到1.6%2008 年到 2019 年复合增长率为21%2020 年到 2023 年复合增长率就达到+119为此,越来越多的企业也将液冷作为解决数据中心散热难题、缓解数据中心高能耗问题的“关键方案”。当然,真正推动液冷普及的因素是多方面的,还包括技术进步、需求迭代和政策引导等等。早在 2020 年,我国明确提出 2030 年“碳达峰”与 2060 年“碳中和”目标。为实现“双碳”目标,也为解决数据中心的能源利用率低、技术水平不足等问题,各级政府先后出台了相关政策,包括北京、天津、上海、重庆、广州、
279、湖北、深圳等七省市在内启动了地方碳排放权交易市场试点工作并陆续开始上线交易。相应的,这也从政策层面对数据中心提出了全新的挑战。一直以来,我国数据中心占用的能耗较高,年耗电量超过全社会用电量的 1.5%,大多数数据中心的电能使用效率(PUE)甚至大于 2。近些年,包括北上广深在内的一线城市都不约而同的出台了若干限制数据中心 PUE的政策与措施。比如,北京市地方标准数据中心能源效率限额(DB11/T1139)中就明确提出,优先推荐达到先进值的项目(年能耗 2 万吨标煤的 PUE 准入值为 1.25,年能耗 2 万吨标煤的 PUE准入值为 1.2;PUE 先进值为 1.15),其中包括了对于碳排放、
280、水资源消耗量等多维度的需求,目的就是为了引导粗放、低能效的传统数据中心建设向集约、高技术、高能效的新型数据中心变革。目前,建设绿色低碳、集约高效、安全可靠的新型数据中心,也是为了促进整个行业快速、健康、有序地发展。当然,最核心的还是在液冷技术上的突破。散热需求的暴增引导了技术服务商的加速迭代,最终在全球大环境与国内政策导向的双重作用下,让液冷这项已经存在多年的技术获得了全面普及的市场契机。目前看来,冷板式与浸没式是当下最主流的两种液冷散热方式,其中又以冷板式技术的发展更为成熟、接受程度更高、成本更可控。不过,这里提到的冷板式液冷并非只包括全覆盖式,事实上由于设计原理不同,冷板式液冷需要把散热的
281、设备固定在冷板上(比如CPU、GPU等),液体经过冷板将设备的热量传递带走,从而实现散热,这属于间接接触型液冷散热。在数字中国万里行考察团队的调研过程中,我们看到不少数据中心采用的都是风液混合模式,即服务器内主要热源采用液冷冷板套件进行冷却,其余热源仍采用风冷方式进行冷却。如此一来,既能够借助混+早 在 2020 年,我 国 明确 提 出 2030 年“碳 达峰”与2060年“碳中和”目标。为实现“双碳”目标,也为解决数据中心的能源利用率低、技术水平不足等问题,各级政府先后出台了相关政策,包括北京、天津、上海、重庆、广州、湖北、深圳等七省市在内启动了地方碳排放权交易市场试点工作并陆续开始上线交
282、易。120合冷却方式大幅提升服务器散热效率,又可以降低冷却系统能耗,增强服务器可靠性。如今,主流服务器供应商都提供这样的散热方式,也因其超高性价比为广大用户所接受。1.冷板式液冷:全液冷覆盖冷板式液冷在服务器内部首先解决的是 CPU 和 GPU 等高功率芯片的热点问题,让服务器有效提升液冷占比,并初步实现液冷能效对 PUE的贡献。与此同时,由于其他功率器件还未完全实现液冷的覆盖,如硬盘/SSD、PCIe 卡、电源等,其热量耗散仍由风扇带走,所以当前数据中心的冷板液冷服务器仍然处于“风液混合”的发展阶段。一方面,风液并存的架构增大了数据中心基础设施的复杂程度,机房内不仅要同时维护风冷空调和液冷管
283、路两种末端,送风温度和送液温度的设置也是一个系统工程;另一方面,随着液冷趋势的逐步产业化,以及国家对数据中心从包含 PUE、WUE、CUE 的更多维度、更严苛的减碳考核,服务器液冷走向全覆盖就成为了一个必然的走向。以技术突破而言,固定配置下的定制液冷方案都属易于实现的范畴,而拥有众多“变形金刚”式配置的通用机架服务器则一直是液冷圈实现全覆盖难以逾越的难关,包含怎样实现高密度硬盘下的液冷热插拔、内存高频维护场景的便捷拆换、层出不穷的 PCIe 卡的液冷解耦覆盖、电源在风冷液冷下的无缝切换等等,以及必须搭配的更加精细化、智能化的流量分配、调节机制。在2U通用服务器领域,宁畅推出的首款原生全液冷通用
284、机架服务器,让涉及服务器内解热需求的部件都实现原生基因式、标准化的液冷设计突破,包含 CPU、DIMM、SSD/HDD、GPU、PCIe 卡、PSU 等,通过 OCP UQD/UQDB 液体连接器以及特殊高分子材料管路的互通连接,实现整机液冷的全面、解耦覆盖。宁畅的解决方案最大亮点在于 PCIe 区域的首创解耦设计,以及3200W CRPS 冷板 PSU 的首发,突破了业内服务器全液冷覆盖的关键技术瓶颈。这些原生液冷标准化设计可以移植到各种类型的机架服务器中,且支持全生命周期各部件、多规格的适配,从部件液冷模块化组合的思路出发,实现了各种应用场景,满足客户的组合需求。2024 数字中国万里行考
285、察报告 技术演进篇+121相对于机架式服务器来说,刀片服务器的市场覆盖率要小很多,主要是一些注重计算密度与效率的用户在选购。但随着液冷时代来临,在冷板式液冷的全新加持下,刀片服务器也实现了算力密度、散热效率与运维管理等多维度的全面提升,对于注重空间利用率的许多高校、科研机构和企业来说也是节能低碳的新选择。刀片服务器的代表产品就是联想海神 Neptune 温水水冷服务器。作为一款发布于 2012 年的技术产品,海神温水水冷服务器经过不断迭代,已升级到第 6 代。相比过往,新技术增加了对服务器电源部件水冷散热的支持。新一代联想温水水冷系统已经完全实现对 CPU、GPU、内存、IO 设备及电源等关键
286、部件的全水冷散热设计,大幅提高了系统的可靠性。+122温水水冷技术汇集了材料学、微生物学、流体力学、传热学等多个领域的科研成果,可以让使用该技术的服务器乃至数据中心全年自然冷却,将 PUE 值降至 1.1 甚至更低,显著提高了能源再利用效率。实践验证,与传统风冷散热方式相比,联想温水水冷系统可以达到最高 98%的热传导效率,能够将进水温度控制在最高 50 摄氏度,出水温度在 58 摄氏度左右,有效提升了整个系统的性能。即使在海南等热带地区,室外侧散热也能够实现自然冷却而不用空调或风扇等散热设备辅助,大大减少了能源消耗。除了散热效率的提升之外,联想温水水冷还实现了余热的回收利用。比如,在冬季可以
287、利用余热为楼宇供暖,进一步节省能源消耗。不得不说,联想是该领域的先行者,包括北京大学、上海交通大学等多家高校都已经有所应用(更多详细内容请参见第三章)。随着液冷技术应用的深入,不少用户已经不满足于服务器层面的散热,而需要整机柜级液冷解决方案。这一点在互联网、运营商的数据中心愈发明显。超聚变的 FusionPoD 系列商用数据中心整机柜液冷服务器,具有高密度、高性能、高能效、高可靠、一体化交付等特点,也是唯一一家明确表示“PUE 低至 1.06”的厂商。超聚变还是首个获得 TV 南德意志集团认证的品牌,证明了其在数据中心领域具有的先进智能技术及优异性能。2024 数字中国万里行考察报告 技术演进
288、篇+123值得一提的是,FusionPoD for AI 整机柜液冷服务器,支持多种 GPU模组应用,实现 4U 空间内 CPU、GPU 和交换的一体化高密集成,支持水、电、网三总线盲插,即插即通,即拔即断。基于原生液冷设计,通过防喷射、漏液导流、漏液关断等措施保护高价值设备的可靠运行,为高价值设备增加了一层保障。2.浸没液冷快速推广与多样化的冷板式液冷不同,浸没式液冷是一种直接接触型液冷,通过将服务器、存储等有散热需求的 IT 设备完全浸没在冷却液中,让冷却液吸收发热器件的热量实现降温。根据原理不同,浸没式液冷也分为“单相”与“相变”两种,其中“相”指的就是分子或原子的聚集状态。所谓“相变”
289、简单说来就是液态与气态的相互转化,冷却液受热后气化带走热量,再通过冷却后液化进而循环利用。浸没式液冷是目前业界最先进,也是成本相对更高的液冷解决方案。得益于液体比热容较大或相变潜热的优势,浸没式液冷解决方案可以有效解决高功耗的行业难题,确保 CPU 核温低至 65 摄氏度以下(比风冷方式降低约 25 摄氏度),在突发高频运行时不会引起 CPU 温度瞬间大幅变化,保障了系统运行的安全可靠性。相变式浸没液冷解决方案以低沸点、不导电液体作为冷媒,服务器所有部件均浸没在冷媒中,所有元器件做到 100%液冷,利用冷媒沸腾吸热,实现发热元器件高效冷却,为服务器运行提供了一个稳定的环境。数据中心的空调需求大
290、为降低,节省了大部分风扇与空调投资成本。据测算,相比传统风冷机房节能在 20%至 30%以上,浸没式液冷 PUE 可低至 1.1 以下,并大幅度降低数据中心的噪音。曙光数创的 C8000 是针对超高密度刀片服务器散热问题推出的浸没式液冷基础设施产品,在高 2600mm 宽 2100mm 深 1400mm 的空间内,最多可部署 160 个计算节点,单柜功率高达 220 千瓦,节省机房面积超过 85%。发热部件 100%采用浸没式液冷散热技术,利用15 到 35 摄氏度的水作为冷源,实现全年自然冷却,无风扇设计相比传统风冷数据中心节能超过 30%。服务器采用 DC400V 直流供电,减少 AC/D
291、C 转换环节,系统效率高达 96%以上,在满足高功耗供电需求的同时,减少了配电损耗。+124总体来说,由于冷却液和发热设备充分接触,使得散热效率更高;由于没有风扇,也让噪音更低。这都是液冷技术特别是浸没式液冷技术的优势。但是,浸没式液冷的成本与技术难度同样很大,特别是冷却液的选择。数字中国万里行考察团队在调研过程中走访了位于浙江绍兴市的浙江诺亚氟化工有限公司,了解到关于冷却液发展的最新行业进展。国产冷却液的快速发展也让浸没式液冷的成本进一步降低,让其不再是部分超算中心或者互联网大厂才能使用的“贵族技术”,而走向更多行业、更多场景。二.从专业计算到创新实践数字中国万里行考察团队发现,走访的所有数
292、据中心与智算中心都采用了液冷解决方案,部分甚至具备了冷板式液冷与浸没式液冷的双重方案,还有针对服务器、存储等不同基础设施的差异化液冷模式。比如,西部(重庆)科学城先进数据中心、长沙 5A 级智算中心、京东云华北廊坊数据中心、华南理工大学、北京大学、上海交通大学、华中科技大学协和深圳医院(深圳市南山区人民医院)、OPPO AI 滨海湾数据中心、商汤科技临港 AIDC 等,都有液冷应用的落地案例。西部(重庆)科学城先进数据中心肩负着重庆在“东数西算”工程中的重任,是全国一体化大数据中心成渝枢纽节点的重庆数据中心集群起步区之一。这里的单机柜功率为 90 千瓦,集成了 120 个节点服务器和相关网络设
293、备,采用立体化机柜布局,高密集约,相对于传统机柜解决方案来说功率提升了 10 倍,效率更高。更出色的是散热表现,2024 数字中国万里行考察报告 技术演进篇+125得益于曙光全浸式液体相变冷却技术,可以做到服务器 100%的液冷散热,让CPU电子元器件工作的环境更舒适。由于服务器整体无风扇,并与液冷换热设备分层布置,机房内十分安静。同样采用曙光液冷解决方案的还有长沙 5A 级智算中心。这是曙光首家以“立体计算”理念打造的智算中心,秉承了立体算力建设、立体应用赋能、立体生态共生的理念,加速算力转化为生产力。在现场可以看到,该中心采用了层次化、模块化、立体化的创新设计,采用浸没式液冷节点及通用架构
294、,具备强大的性能和良好的生态适配性。同时,浸没式液冷技术也将智算中心的核心系统 PUE 值降低至 1.04,同等算力情况下相比风冷节能超30%。值得一提的是,其命名中的“5A”代表了算力基础设施在“开放、融合、绿色、普惠、服务”五个维度上的能力优势,它们共同定义了当前智能计算中心建设的参考依据和建设标准,也成为了曙光“立体计算”的代表作。在京东云华北廊坊数据中心,京东云部署了针对超大规模数据中心应用的、自主研发的 J360 G3 整机柜。该方案采用模块化设计,支持前后 IO 维护,可配置多元的供电方案,更通过风扇后置实现了热维护,也能够彻底解决通用产品出现的 RV 振动问题。J360 G3 解
295、决方案有多种磁盘和电源配置方式,尤其是前后IO维护可以适合不同机柜应用,更符合互联网快速迭代的实际业务情况。得益于模块化设计,J360 西部(重庆)科学城先进数据中心+126G3 的物料复用率达到了 70%,借助于规模效应可以使开发周期与开发成本同时降低 60%。DC48V 供电模式的引入还可以为单机柜年节省 8500 度电力,碳排放降低 8.7 吨。J360 G3 整机柜解决方案支持冷板式液冷散热,支持包括最新一代英特尔至强可扩展处理器在内的多平台,还支持 Arm 平台和其他国产化平台,最大支持 750W 芯片功耗。在现场我们看到,基于冷板式液冷散热的一排排机柜,这些液冷服务器的部署可以将数
296、据中心的 PUE 控制在 1.1,年碳排放节省 2000 吨,同时让数据中心的部署密度提升了28.6%,空间利用率更出色。如今,京东云也与英特尔共同推出了绿色数据中心的创新实践,实现行业赋能,帮助更多用户走上液冷之路。2024 数字中国万里行考察报告 技术演进篇+127为服务器等算力设备提供液冷已被用户所接受,但是在存储领域乃至网络领域,是否需要液冷解决方案呢?答案是肯定的。因为无论是服务器、存储还是网络都是在一个数据中心甚至一台机柜中,所以存储和网络设备同样需要液冷解决方案。IDC 发布的液冷数据中心白皮书显示,存储在数据中心系统能耗占比即将超过 35%,比例仅次于计算能耗。也就是说,如果存
297、储系统的 PUE 值降低,那整个数据中心的 PUE 值都会明显降低。在这种情况下,存算一体化已经不可避免,而使用液冷解决方案的存储系统也将成为行业的大势所趋。正是看到这一点,华南理工大学在校内数据中心的建设中大胆使用了一栈式液冷解决方案,即选择计算液冷和存储液冷的全栈式方案,通过联想海神 Neptune 温水水冷服务器和曙光 ParaStor 分布式液冷存储系统的解决方案,算力建设达到双精度 7.3P 和 AI 计算 94P,并将存储容量扩展了近 25PB,数据中心 PUE 也降低到 1.2 以下。该方案为学校的科研数据存储和数据处理提供了坚定支撑,优化了运维管理,提升了应用效率的同时能耗降低
298、了 30%。除了高校,医院对于数据安全的重视程度同样很高。根据电子病历应用管理规范(试)要求,门(急)诊电子病历由医疗机构保管的,保存时间自患者最后一次就诊之日起不少于 15 年;住院电子病历保存时间自患者最后一次出院之日起不少于 30 年。换句话说,医院对于数据可靠性、稳定性的要求极高,自然也就需要有强大的 IT 基础设施为数据保驾护航。+存 储 在 数 据 中 心 系 统能 耗 占 比 即 将 超 过35%,比例仅次于计算能耗。也就是说,如果存 储 系 统 的 PUE 值 降低,那整个数据中心的PUE 值都会明显降低。在这种情况下,存算一体化已经不可避免,而使用液冷解决方案的存储系统也将成
299、为行业的大势所趋。1282024 数字中国万里行考察报告 技术演进篇作为广东省医疗机构中的佼佼者,华中科技大学协和深圳医院(深圳市南山区人民医院,简称“南山医院”)年总诊疗量高达 227 万人次,这对后端数据中心的算力与存力都提出了严苛的挑战。为响应“十四五”中关于打造智慧医疗、推进“5G+医疗健康”新模式发展的要求,南山医院提出了以“12345+N”为架构体系的信息化建设方案,在综合现场环境与业务现状、充分考虑未来发展等需求之后,南山医院使用了液冷方案有效地解决数据中心散热难题。考虑到原有设备利旧,南山医院借助曙光数创自产自研的冷板液冷散热套件将其他主流服务器厂家的风冷服务器改造为液冷服务器
300、,不仅节约了新购液冷服务器的成本,还在机房内减少了风扇的使用,有效降低了 PUE 值,超过了深圳当地对 PUE 的政策要求。得益于液冷数据中心的支撑,南山医院的数字化医疗能够更好地了解患者的健康状况和就医需求,为制定个性化的诊疗方案提供科学依据。同时,还可以为医院的科研活动提供强大的计算能力和数据存储能力,推动医院在医学研究领域取得更多创新成果。正如报告前面所提,生成式 AI 应用的崛起造成了数据中心性能与散热的双重压力。如今,该应用不仅仅只停留于后端数据中心领域。从2024 年开始,AI PC 和 AI 手机的概念逐步兴起,让越来越多人看到了大模型应用的新蓝海。2024 年 2 月底,手机厂
301、商 OPPO 发布了 AI 手机,提出包括 OPPO AI 超级智能体和 AI Pr 智能体开发平台组成的 OPPO 1+N 智能体生态+129战略,旨在通过全新 AI 战略让 AI 从尝鲜到常用,为用户带来更高效、自在的下一代 AI 体验。伴随着大模型应用的遍地开花,算力需求已经实现了前端与后端的协同,因此类似手机这样的产品线也需要强大后端数据中心的支撑。OPPO AI 滨海湾数据中心位于粤港澳大湾区核心区域的东莞滨海湾新区,占地面积 6.26 万平方米,总建筑面积 10.22 万平方米,包括 4栋数据中心大楼和 1 栋综合办公楼。数据中心规划建设 6736 个 8 千瓦机柜,单园区 12
302、万台服务器,未来将建成国内超大型数据中心。该数据中心与 OPPO 华南地区多处重要机房的网络时延低于 2 毫秒,能够协同 OPPO 滨海湾总部基地各类硬件创新实验室,提供安全、高效、可持续的数据实验算力资源。面对算力提升带来的巨大散热压力,OPPO AI 滨海湾数据中心部署了浸没式液冷集群,以应对未来激增的 AI 算力需求。至此,OPPO 也成为了手机厂商中首家落地智能计算液冷技术并交付AI业务使用的厂商。OPPO AI 滨海湾数据中心采用了阿里巴巴的单相浸没式液冷散热解决方案。其浸没式液冷机房分布于数据中心的三层和四层,每层各可容纳 6 个 Tank 液冷机柜,单柜支持 16 台高性能高功耗
303、的训练 GPU服务器。浸没式液冷机房的暖通和供电均采用 2N 的冗余架构,暖通和电气单路故障均不影响业务连续性。这也使得该机房整套系统效率达到了 PUE 值 1.15 以下,相较目前主流的冷水机组系统,能够节省45%以上的能耗,并实现实际测试值约 54dB 的低噪音环境。+1302024 数字中国万里行考察报告 技术演进篇在绿色低碳领域,OPPO AI 滨海湾数据中心 100%采用了绿电,实现范围二整体零碳排放,并提出了“电力=算力+热力”的数据中心能源利用新等式,从废热利用的角度为数据中心构建了一种新的生态。即输入电力给服务器使用并生成算力,服务器废热又能够被回收利用,对数据中心的可持续发展
304、具有重要意义。未来,机房服务器对废热回收利用产生的热水,可为园区人才房提供日常生活所需热水。同时,OPPO联合英特尔、埃克森美孚等多家厂商,在浸没式液冷机房开展了基于新型油类冷却液的部件及整机级别的兼容与性能测试。新型冷却液具备显著的低碳优势与成本优势,可满足数据中心低碳发展的多种需要。时至今日,液冷解决方案已经成为数据中心有效降低 PUE、提升利用率的必要手段,甚至可以说是唯一手段。2024 年政府工作报告明确提出,要将“单位国内生产总值能耗降低 2.5%左右”。这意味着节能减排已是大势所趋,各地不断出台的数据中心 PUE 控制标准也在事实上要求数据中心运营者与基础设施所有者最大限度地降低碳
305、排放。这些都为液冷技术的应用与普及提供了先决条件。液冷技术正在强化生态链的创新协同。从传统的双冷角度来看,数据中心的产品和交付界面非常清晰,基础架构和基础设施部门各自为战,但随着液冷技术的应用落地,这样的交付界面正在逐步被打破,传统数据中心的风火水电与 IT 基础设施呈现明显的融合趋势。如上述提到的整机柜液冷解决方案、浸没式液冷解决方案都可以管中窥豹。由此看来,随着应用的进一步落地与大面积普及,未来数据中心发展将呈现全新的协同趋势。过去的 2023 年,我们已经看到液冷技术从之前的不温不火到积极部署。如今,冷板式液冷已经成为诸多用户采购服务器、搭建数据中心的首选项,部署容易改造成本也更低,占据
306、了液冷应用的绝大多数场景。在这种趋势下,全栈液冷也已大势所趋,我们看到包括宁畅、联想、新华三、超聚变等多家企业已经将全栈液冷定义为未来的发展目标和方向,同时全栈液冷也为数据中心散热提供了新的思路与选择。131PART 产业联动篇2024 数字中国万里行暨算力经济中国行考察报告132第六章 算力能源协同在 产 业 转 型 的 关 键 时期,新型基础设施发挥着加速转型、促进创新、激活经济的核心作用。一方面,数据中心领域正引入更先进、更节能的新兴技术,不断提升能源使用效率,提供更绿色的算力,通过自身的绿色低碳,为其他行业的智能化转型赋能,促进全社会降碳。我们可以看到,算力正在促进电力行业的数字化和智
307、能化发展。AI 需要庞大的算力,也需要大量的能源。如何保证算力能够高效且大规模运行,一靠高性能芯片,二靠电力。数据中心的本质就是把能源转化为算力,把瓦特转为比特,夯实数字经济发展的基石。据 Digital Information World 报道,数据中心为训练 AI 模型产生的能耗将是常规云工作的三倍。预计到 2030 年,美国数据中心的电力需求将以每年约 10%的速度增长。来自生态环境部的数据显示,预计到 2025 年,全国数据中心用电量占全社会用电量的比重将提升至5%,到 2030 年全国数据中心耗电量将接近 4000 亿千瓦时。2023 年 12 月,国家发展改革委、国家数据局、中央网
308、信办、工业和信息化部、国家能源局联合印发深入实施“东数西算”工程 加快构建全国一体化算力网的实施意见提出重点推进五个“一体化”,其中之一就是“算力与绿色电力一体化融合”,并提出到 2025 年底,算力电力双向协同机制初步形成,国家枢纽节点新建数据中心绿电占比超过 80%。不难看出,算力与电力需要形成相互支撑的发展态势,形成新质生产力的重要推动力。数字中国万里行考察团队发现,在产业转型的关键时期,新型基础设施发挥着加速转型、促进创新、激活经济的核心作用。一方面,数据中心领域正引入更先进、更节能的新兴技术,不断提升能源使用效率,提供更绿色的算力,通过自身的绿色低碳,为其他行业的智能化转型赋能,促进
309、全社会降碳。我们可以看到,算力正在促进电力行业的数字化和智能化发展。比如中国电子云与华电电科院、华电南自华盾公司合作开发的国内首个行业级自主可控燃机智慧运维云平台,其正式上线推动了燃气发电行业的数字化、智能化发展,不仅助力传统电厂向智慧电厂升级,还支持了新产业、新模式、新业态的创新发展。另一方面,传统的电力供给方式和成本已经无法适应绿色算力的要求,基于新能源的绿色电力早已大势所趋。来自国家能源局的数据显示,2023 年全国新增风电并网装机容量为 7590 万千瓦,同比增长2024 数字中国万里行考察报告 产业联动篇+133102%。截至 2023 年底,全国累计光伏发电装机容量约为 6.1 亿
310、千瓦,同比增长 55.2%。该增长率显示了光伏发电在中国的快速发展和广泛应用。一.绿色节能创新实践对于超大规模的数据中心集群来说,伴随着算力升级带来的高功率密度,园区级别的能源优化就变得尤为重要。数字中国万里行考察团队实地看到,像合盈数据(怀来)科技产业园、UCloud 乌兰察布数据中心,以及商汤上海临港 AI 计算中心,它们在节能、节水、热回收、减碳等方面都有创新性的实践。合盈数据目前以间接蒸发冷却技术为主,包括高效UPS节能运行模式、高效气流组织方案、照明系统节能等举措,通过“组合拳”的方式实现最优节能组合方案。除了引入先进节能技术之外,合盈数据还从园区级的节能方案入手,通过构建多能互补综
311、合能源管理体系,在数据中心冷冻站内设置水源热泵型热回收系统,向周边生活区域及农业设施提供全年稳定的生产热源,同时冷冻水回水温度下降,可持续为 IT设备冷却。除了节能方面的领先实践,合盈数据在园区还规划部署了污水收集系统,每当下雨的时候就可以回收雨水,由此实现海绵调蓄能力。按照规划,怀来园区 1000 亩地块年雨水收集与处理可达 8960 吨,污水回收和再生率达到 85.45%。7590万千瓦2023 年全国新增风电并网装机容量6.1亿千瓦截至 2023 年底全国累计光伏发电装机容量102%同比增长55.2%同比增长134在绿色能源应用方面,合盈数据借助自主研发的能碳管理系统,可以全生命周期实时
312、跟踪并核算数据中心系统、建筑系统、交通系统、基础设施系统、废弃物处理系统以及能源系统等各碳排放源,识别并分析全生命周期能源消耗的瓶颈和浪费点,不断改进能源使用效率,降低能源消耗。同时,合盈数据也融合了绿色能源产业生态的力量,多维度推进绿色能源相关的技术创新、应用落地、产业合作。值得关注的是,在一些大型数据中心园区,热回收作为一种新型节能方案已得到了成功实践。数字中国万里行考察团队先后参观了位于内蒙古的 UCloud 乌兰察布数据中心、位于上海的 UCloud 青浦数据中心,可谓东西呼应,是“东推西训”、“东数西存”、“东数西算”的最佳实践。在乌兰察布,UCloud 按照国际 A 级数据中心标准
313、自建的“西部”数据中心,坐落于国家算力网络枢纽节点内蒙古枢纽集宁片区的大数据产业园内,与北京直线距离 300 公里,三路入京链路时延低至 4.2ms。UCloud 乌兰察布数据中心的清洁能源使用率达到50%,这正符合国家节能减排的“双碳”战略。在机房内部,UCloud 乌兰察布数据中心采用的是房间内水平弥散送风、上回风的气流组织形式,对热通道实施封闭处理,配合温度检测和气流调节措施,保证各类设备均衡冷却,无局部热点。冷/热通道的设计温度为 25/37 摄氏度,是比较理想的应用温度,而设备运行产生的热水也可以回收用于办公空间冬季采暖,节能效果显著。UCloud 乌兰察布数据中心园区内的 110K
314、V 变电站+2024 数字中国万里行考察报告 产业联动篇135名为“启蛰”的数据中心余热回收利用技术,是 UCloud 践行“双碳”政策而构建的创新解决方案。其创造性地提出“集散分离、远近两宜”的余热回收利用理念:利用集中式余热回收方案来实现热量的远距离输送和利用;分布式余热回收方案来实现热量的就近利用。两种方案相辅相成,即保证了余热利用效率,又提高了部署的灵活性和适用性,具有极高的推广应用前景和价值。集中式余热回收方案是建设独立的热回收站,引入制冷系统的冷水作为热源,利用水源热泵螺杆机制取高温热水,输送到需要采暖的建筑空间,然后通过空调末端实现供热。UCloud 乌兰察布数据中心的集中式余热
315、回收系统已经为 2 栋综合办公楼提供了冬季采暖。分布式余热回收利用方案是在 IT 模块的空调间部署水源多联机作为余热利用的主体,水源多联机与精密空调并联,共用一套水输配系统,为周边空间提供冷量和热量。UCloud 乌兰察布数据中心的分布式余热回收系统,为数据中心楼内的电池室、柴发机房、高配间、水泵房、办公室等低发热空间,提供了冬季采暖。在上海,UCloud 青浦数据中心考虑到土地、电力资源紧张,而水资源相对充足的特点,选择了间接蒸发冷却方案以提升制冷效率。与传统的间接蒸发冷却方案不同的是,UCloud 青浦数据中心重构了间接蒸发冷却流程,自主研发了名为“白露”的间接蒸发冷却技术。其利用室外空气
316、的不饱和性,在新风进口增设表冷器,循环喷淋水先流经表冷器,然后通过喷淋装置均匀流入间接蒸发风风换热器的湿通道;新风在表冷器处等湿降温,然后在湿通道内与喷淋水混合,等焓降温;新风和循环喷淋水相互促进降温,不断迭代,最终稳定至室外露点温度;机房回风流过间接蒸发风风换热器的干通道,冷却后送入数据机房。该技术使得数据中心送风极限由室外湿球温度调整为室外露点温度,湿球效率从主流产品的 70%提升至 100%以上。制冷效率提高10%到 25%,减少机械补冷能耗,可以大幅降低数据中心 PUE 和整体运行 TCO。UCloud 青浦数据中心部署应用的“白露”间接蒸发机组共计 60 台,助力数据中心实现了 1.
317、26 的超低 PUE 值。以 1000 台 30A 机柜的规模计算,每年可比常规机组节约电费 130 万元以上。+“集散分离、远近两宜”的余热回收利用理念:利用集中式余热回收方案来实现热量的远距离输送和利用;分布式余热回收方案来实现热量的就近利用。两种方案相辅相成,即保证了余热利用效率,又提高了部署的灵活性和适用性,具有极高的推广应用前景和价值。136二.大模型助力 算电协同创新面对算力集群的用电结构与未来能耗增长趋势带来的挑战,基于商汤大装置 SenseCore 和“日日新 SenseNova”大模型体系强大的架构底座,商汤基于临港算力集群(一期)作为应用场景,在算力电力协同、调度一体化管理
318、中不断创新。依托新片区的前瞻性能源战略部署和源网荷储一体化管理的思路,基于商汤大模型体系强大的架构底座,进行智能预测与决策,并通过生成式 AI 虚拟电厂实现精准、动态、实时的能源调度,参与用户侧需求响应、获取削峰填谷收益、实现绿电交易,最终降低能源费率,目标降低电力成本 5%以上。在基础设施运营层面,为实现智算中心高效用能,实现算力电力的一体化管理,商汤从以下三维维度进行统筹规划实施:电网资源侧:以源网荷储的逻辑进行整体规划,由政府统筹协调管理电网源侧、网侧整体资源,通过源网端的一体化管理实现能源源头的高效规划;用户侧主要解决负载效率的提升,通过企业参与的方式解决负荷端的应用问题;同时政府和企
319、业共同开展储能的建设和应用,提升整体能源储备容量,丰富用能侧应用场景的灵活性。基础设施侧:整体基础设施需要综合考虑用能侧的应用场景和诉求,在算力基础设施的全生命周期践行用能侧实施方案,具体包括:在基础选址中考虑区位、气候、绿能绿电资源、区域内储能资源等因素、在实际运营过程中针对基础设施(机电系统、储能)及 IT系统(服务器、网络)进行分层精细化算力运营、在软件平台中通过通过算力管理平台、任务调度平台等软件系统的应用提升基础设施用能效率。创新应用侧:除以上基础用能方案外,商汤积极践行高效用能的创新应用,包括开发和应用基于生成式 AI 技术,提升算力设施电力运行效率的垂类能源大模型、开发建设拉通能
320、源-电力-机房-服务器-集群-算力全链路数据及流程整合的基础设施运营平台、应用基于数字孪生的算力电力一体化协同调度的算力驾驶舱等。除此之外,商汤构建全生命周期标准化运维管理体系,研发了运维大模型与 AI 智能运维管理平台,利用数字化与智能化技术提升运营效率 15%,通过动态制冷优化,实现能耗降低 5%。2024 数字中国万里行考察报告 产业联动篇+137在算力算效管理层面,商汤基于自身实践,形成了一套实现算电一体化协同管理的算效管理方案,有效的打通了从硬件到软件、从电力到算力的应用场景,能够为算力高效输出提供有效依据。基础设施层:通过对供配电系统、温控系统及 IT 系统的监控,输出算力基础设施
321、 PUE 值;机柜层:记录小时级机房包间、机柜用电量,以及单机柜小时级负载量;GPU 服务器层:通过自研软件对 GPU 服务器进行全维度信息管理,包括 GPU 卡类型、GPU 卡使用属性、服务器负载率监控等;软件管理层:通过 SenseCore 算力云管平台及计算调度平台实现对于算力使用实际情况的有效管理和调度,包括 GPU 使用量、GPU使用率、实时训练/推理任务数、实时算力数等;业务运营层:通过自研软件对于 GPU 算力实际服务客户情况进行整盘监控,包括物料信息、客户属性、运营成本等;基于上述不同层面的管理措施落地,商汤可以实时掌控算力利用效率,建立算力与能耗之间的逻辑关系与评估体系,形成
322、算力电力协同调度平台的优势能力,并根据实际运行数据结合园区能耗管理、储能设备进行及时的电力资源调度,更高效的开展算电一体化管理。在算电协同创新中,商汤大模型体系能力至关重要。商汤自研“日日新”大模型体系,针对各类能源场景(如能源调度、交易、运营等),整合科学计算大模型、气象大模型、风力发电预测模型、用电负荷预测模型、调节能力预测模型和调度决策智能模型,与生态企业合作研发广泛适用的全自主能源大模型体系。能源大模型体系采用多模态MoE架构,基于超过4TB的行业知识文本、能源结构化数据、视觉图像、气象信息等多模态数据训练,形成 700亿模型参数。在保证基础通识能力的同时,该大模型能够通过预测、决策、
323、调度,处理复杂的能源任务,是能源行业内首个具备“分析、优化、决策、交互”等多种能力的全栈式大模型,可以满足行业客户的不同场景需求。能源大模型通过边端能量控制器感知源网荷储资源信息,以节点“能在算电协同创新中,商汤大模型体系能力至关重要。商汤自研“日日新”大模型体系,针对各类能源场景(如能源调度、交易、运营等),整合科学计算大模型、气象大模型、风力发电预测模型、用电负荷预测模型、调节能力预测模型和调度决策智能模型,与生态企业合作研发广泛适用的全自主能源大模型体系。+138量块”数据结构为基本单元,通过预测下一个15分钟的“能量块”数据,生成自适应的“能量系统”,针对能源场景提供分析与决策能力,并
324、通过生成式 AI 虚拟电厂进行能源调度。调度过程中支持人为评估与策略调整,调度完成后自动进行策略校验,所有人为调整和校验结果将被反馈至大模型,以实现模型性能的持续调优。三.绿电应用探索实践在从北京去往怀来的路上,无论是高铁还是自驾,可以看到沿途山上那些星罗棋布的光伏板和“大风车”(风力发电塔)。它们为附近城镇提供着源源不断的绿色电能。一直以来,绿电直供形式对资源、气候条件、区域面积和当地政策等条件要求较为苛刻,实施起来具有较大的局限性,而完全依靠市场化的绿电交易,则成本较高且价格不稳定。如今,合盈数据(怀来)科技产业园在张家口市同城的沽源、蔚县等地配置了风光新能源电站,实现自有绿电同城并网,通
325、过电力市场化交易机制,保障可再生能源电量供应的稳定性且成本可控。数字中国万里行考察团队来到沽源风光新能源电站,看到刚刚建成的“大风车”可以为数据中心提供部分绿色电能。目前,合盈数据通过“源网荷储”一体化的理念,同期部署新型算力业务集群和绿色能源业务集群。沽源风光新能源电站2024 数字中国万里行考察报告 产业联动篇139电源侧:多能互补,多方式并存。产业园同城配置新能源电站,通过电力市场化交易机制,保障可再生能源电量供应稳定;配合园区内分布式光伏,通过综合能源管理系统为园区补充稳定、安全的绿色电力。电网侧:主动配电网络,安全稳定供应。产业园实现主动配网,通过自建 110 千伏变电站,采取 2N
326、 架构,配备同步集中的 UPS,保证供电系统的冗余和容错能力;同时采用主动管理分布式电源、储能设备和双向负荷的模式,让数据中心的能源配置更加平衡,保证长期平稳的能源供应。负荷侧:优化数据中心配电系统架构,提升配电系统的可靠性和调节能力。产业园借助先进的预测算法和调优 AI 算法,对数据中心IT 设备和各类辅助设备的运行功率进行精准的分析和预测,在保障安全稳定运行的基础上,最大限度地消纳可再生能源。储能侧:多元储能,最大程度消纳绿电。由于数据中心耗电量较大,源侧新能源装机容量较大,储能采用共享储能形式,可极大地提升储能设施利用率,减少储能开发成本。荷侧产业园计划通过电化学储能、氢储能等多种储能方
327、式结合分布式新能源,用于非生产楼的电力供应,同时研究通过削峰填谷、需量电费管理等形式,起到一定的替代柴发设备和提高供电可靠性的作用。合盈数据怀来园区140从算力到绿电,从单一的数据中心到整个产业园区,数字中国万里行考察团队发现,绿色化加速推动了新型算力中心的不断演进,先进的运营理念、低碳的运营方式与智能化的服务能力,让单位比特的能耗和碳排放持续下降,提供了更多的“绿色算力”。四.绿电供给实践张家口市毗邻北京,已融入“首都一小时经济圈”。其作为八大算力网络国家枢纽节点、十大数据中心集群之一,正在打造“算力之都”,构建“一廊四区多园”的发展新格局。数字中国万里行考察团队亲历了正在建设的数字服务产业
328、基地与怀来、张北、宣化 3 个数据中心集群起步区。目前,张家口市围绕全国一体化算力网络国家枢纽节点建设,以起步区怀来、张北、宣化为突破口,加快怀来大数据产业基地、张北云计算基地等园区建设,搭建京津冀大数据产业发展廊道,主动承接京津大数据产业外溢。以经开区为龙头,打造数字服务产业功能区;以张北县为龙头,打造数据存储与绿色低碳功能区;以怀来县为龙头,打造数据存算与融合应用功能区;以宣化区为龙头,打造装备制造与数据存算功能区。打造一批分布合理、特色鲜明、运行高效的大数据产业园,构建多园协同联动格局。+绿色化加速推动了新型算力中心的不断演进,先进的运营理念、低碳的运营方式与智能化的服务能力,让单位比特
329、的能耗和碳排放持续下降,提供了更多的“绿色算力”。2024 数字中国万里行考察报告 产业联动篇141截至 2023 年底,全市投入运营数据中心 27 个、标准机柜 33 万架、服务器 153 万台,算力规模达到 7600P(1P 约等于每秒 1000 万亿次计算速度)。张家口市还是全国唯一国家级可再生能源示范区,累计批复风光发电项目 513 个,总规模 5600 多万千瓦。在“双碳”目标过程中先行先试。据河北新闻联播报道,张家口市风光开发总规模稳居全国地级市非水可再生能源第一,域内可开发风能资源储量在4000万千瓦以上,太阳能可开发量超过 3000 万千瓦。目前已有华能、大唐、华电、国电等 1
330、30 多家企业在这里开展风光发电业务。数字中国万里行考察团队发现,在能源供给能力和最终电价上,同作为全国一体化算力网络国家枢纽节点、十大数据中心集群的内蒙古呼和浩特市和林格尔新区,正在通过绿色电力和高质量算力联动,推动中国的算力绿色化发展。众所周知,内蒙古自治区是全国最主要的可再生能源和能源安全保障基地,拥有全国 57%的风能资源,超过 21%的太阳能资源,新能源资源丰富。自治区 6000 千瓦以上的新能源发电装机容量达 6641万千瓦,占全区电力总装机容量的 37.5%。到 2025 年,新能源装机规模将达到 1.35 亿千瓦以上,新能源装机占比将超过 50%,能够为数字经济发展提供更加充足
331、的绿色能源保障。从地理位置来说,呼和浩特市地处京津冀环渤海经济圈腹地,是国家向北开放、连接中蒙俄经济走廊的重要枢纽城市。和林格尔新区距离呼和浩特市中心城区只有 20 公里,是内蒙古首府的城市副中心。丰富的能源储备尤其是新能源绿色电力供应是和林格尔新区的优势之一。同时,和林格尔新区具备完善的供电保障能力,配套建设了系列500 千伏变电站、220 千伏变电站、110 千伏变电站,形成了安全可靠的供电保障。27个全市投入运营数据中心153万台服务器33万架标准机柜7600P算力规模142除了充足的能源供给之外,和林格尔新区打动各大企业的因素还有价格,尤其是新能源的价格更是低于行业平均水平与企业的心理
332、预期。绿色电力交易是以绿色电力产品为标的物的电力中长期交易,用以满足发电企业、售电公司、电力用户等市场主体出售、购买绿色电力产品的需求,并为购买绿色电力产品的电力用户提供绿色电力证书。绿电价格由发电企业与电力用户、售电公司通过市场化方式形成,包括电能量价格和绿色环境权益价格。由于各地资源禀赋不同,绿电电价也有所差异。和林格尔新区接入的蒙西电网是自治区所属电网,通过电力多边交易,风光发电同步参与,并将大数据、云计算等需要建设数据中心的产业用电竞价列入了优先交易的范围,不设置限制。按照内蒙古自治区工业和信息化厅关于印发关于调整战略性新兴产业电力交易的若干政策的通知(内工信经运字 2022405 号
333、)规定,数字经济项目参与电力多边交易到户电价约是 0.29 元/千瓦时,使用绿电比例约50%以上。和林格尔新区正在建设绿色能源供给示范项目,通过绿色直供方式未来绿电使用比例可达到 100%。和林格尔新区的算力可再生能源使用率在全国范围内已有明显优势,可满足当地算力产业持续、快速的发展需求。全国主要区域可再生能源发电量占用电量比例数据来源:中国信通院发布的和林格尔绿色算力指数报告区域区域可再生能源发电量占用电量比例可再生能源发电量占用电量比例青海 75.89%广东 21.11%吉林 36.88%浙江 18.24%甘肃 35.78%河南 17.14%内蒙古 32.49%陕西 14.31%全国 31.60%湖南 13.10%辽宁 30.38%江西 12.82%新疆 28.52%江苏 12.22%黑龙江 23.88%山东 9.86%山西 21.73%安徽 8.42%+2024 数字中国万里行考察报