《华为&超级计算创新联盟:2023数据密集型超算发展白皮书(48页).pdf》由会员分享,可在线阅读,更多相关《华为&超级计算创新联盟:2023数据密集型超算发展白皮书(48页).pdf(48页珍藏版)》请在三个皮匠报告上搜索。
1、数据密集型超算发展白皮书20232023年8月超级计算创新联盟 数据密集型超算工作组数据是对客观世界状态变化的数字化记录,在数字经济和数字中国的大战略下,数据已成为国家基础性战略资源和关键生产要素,是数字化、网络化、智能化的基础。今年发布的数字中国建设整体布局规划进一步强调夯实数字基础设施和数据资源体系“两大基础”。众所周知,高性能计算是国家综合国力和信息化建设能力的一个重要体现,被誉为“国之重器”。数据密集型超算,是高性能计算与人工智能、大数据等新一代信息技术融合后围绕数据价值,而产生的一个重要新增类型,是在高性能计算领域的一次有益的创新探索,在一定程度上代表了高性能计算的未来发展趋势。我们
2、很欣喜地看到,在过去两年中数据密集型超算在产业各界的多方合作下持续创新,相继在商业应用、标准规范等取得了显著的进展。如文中所述,数据密集型超算在国家超算中心、高校等场景、基因测序、AI大模型等行业应用中产生了很多优秀实践。与此同时,我们也看到中国高性能计算所面临的挑战和机遇:应用层面,随着数据爆炸,高性能计算从重计算模型,衍生到重IO,大带宽包括混合负载的数据模型;算力层面,通过AI赋能,科学研究正迈向科学智能新阶段,推动AI 异构加速;连接层面,随着超算互联作为国家战略,需要实现更高效的网络互联和跨域全局管理。另外,在新的复杂国际安全形势和低碳化全球趋势下,超算安全、绿色节能、自主创新也成为
3、高性能计算业内人士关注的问题。白皮书结合高性能计算在数据密集型场景的发展趋势给出了分析和建议,值得深思。面向未来,以ChatGPT为代表的AI大模型兴起,数以千亿的参数投入训练,产生对算力和数据的双重需求。HPC与AI逐步走向融合,将成为数据密集型超算的典型应用场景。数据的准备至关重要,数据的质量和规模决定AI的精度。为了更好应对诸如新应用带来的生态复杂性变化、新业务催生的混合业务负载压力、新数据与算力协同带来的数据跨地域访问等挑战,白皮书中创新性地提出新型数据密集型超算5A架构,以应用为中心,较好地支撑HPDA(HPC+大数据+AI)多系统融合业务发展。长风破浪会有时,直挂云帆济沧海!HPD
4、A正在加速提升科研创新及生产效率,在新的趋势和发展机遇下,期待产业各方深化合作和持续创新,数据密集型超算在推动科研和数字经济发展上发挥更大作用,扬帆远航!顾问陈国良 张云泉 周跃峰主编金钟 林新华 唐卓 张兴军 王毅 肖利民 王怡东 庞鑫 顾雪军 副主编潘景山 李少波 韦建文 王继彬 高巍 苏亮 徐恩松 张洋 李亚子 贾海鹏 韩振兴 王旭东编委(排名按姓氏拼音不分先后)陈阳 陈振华 柴旭清 戴奇志 段芳成 丁江波 樊春 范靖 龚斌 高亦沁 高芬 郭武郭洪星 胡俊 胡广超 李会民 李昕伟 刘畅 李斌杰 鲁蔚征 郄军利 宋平 宋天宇孙晓艺 孙敏淮 唐小勇 王青 王成伟 王继彬 王炳强 万林 魏旗鹏
5、 姚舸 曾帆曾令仿 张凯丽 张震 邹有 赵顺存责任编辑王世葆感谢以下机构参编支持(排名不分先后):北京大学 北京航空航天大学 长沙理工大学 贵州大学 河南师范大学湖南大学 兰州大学 南京大学 上海交通大学 山东大学 深圳大学 西安交通大学中国人民大学 中国医学科学院 中国科学技术大学 中南大学超级计算创新联盟 国家超算济南中心 国家超算长沙中心 华为技术有限公司科大讯飞 崂山实验室 联科中国 鹏城实验室 青岛国实科技有限公司中科院科学计算所 中国信息通信研究院 之江实验室数据是对客观世界状态变化的数字化记录,在数字经济和数字中国的大战略下,数据已成为国家基础性战略资源和关键生产要素,是数字化、
6、网络化、智能化的基础。今年发布的数字中国建设整体布局规划进一步强调夯实数字基础设施和数据资源体系“两大基础”。众所周知,高性能计算是国家综合国力和信息化建设能力的一个重要体现,被誉为“国之重器”。数据密集型超算,是高性能计算与人工智能、大数据等新一代信息技术融合后围绕数据价值,而产生的一个重要新增类型,是在高性能计算领域的一次有益的创新探索,在一定程度上代表了高性能计算的未来发展趋势。我们很欣喜地看到,在过去两年中数据密集型超算在产业各界的多方合作下持续创新,相继在商业应用、标准规范等取得了显著的进展。如文中所述,数据密集型超算在国家超算中心、高校等场景、基因测序、AI大模型等行业应用中产生了
7、很多优秀实践。与此同时,我们也看到中国高性能计算所面临的挑战和机遇:应用层面,随着数据爆炸,高性能计算从重计算模型,衍生到重IO,大带宽包括混合负载的数据模型;算力层面,通过AI赋能,科学研究正迈向科学智能新阶段,推动AI 异构加速;连接层面,随着超算互联作为国家战略,需要实现更高效的网络互联和跨域全局管理。另外,在新的复杂国际安全形势和低碳化全球趋势下,超算安全、绿色节能、自主创新也成为高性能计算业内人士关注的问题。白皮书结合高性能计算在数据密集型场景的发展趋势给出了分析和建议,值得深思。面向未来,以ChatGPT为代表的AI大模型兴起,数以千亿的参数投入训练,产生对算力和数据的双重需求。H
8、PC与AI逐步走向融合,将成为数据密集型超算的典型应用场景。数据的准备至关重要,数据的质量和规模决定AI的精度。为了更好应对诸如新应用带来的生态复杂性变化、新业务催生的混合业务负载压力、新数据与算力协同带来的数据跨地域访问等挑战,白皮书中创新性地提出新型数据密集型超算5A架构,以应用为中心,较好地支撑HPDA(HPC+大数据+AI)多系统融合业务发展。长风破浪会有时,直挂云帆济沧海!HPDA正在加速提升科研创新及生产效率,在新的趋势和发展机遇下,期待产业各方深化合作和持续创新,数据密集型超算在推动科研和数字经济发展上发挥更大作用,扬帆远航!顾问陈国良 张云泉 周跃峰主编金钟 林新华 唐卓 张兴
9、军 王毅 肖利民 王怡东 庞鑫 顾雪军 副主编潘景山 李少波 韦建文 王继彬 高巍 苏亮 徐恩松 张洋 李亚子 贾海鹏 韩振兴 王旭东编委(排名按姓氏拼音不分先后)陈阳 陈振华 柴旭清 戴奇志 段芳成 丁江波 樊春 范靖 龚斌 高亦沁 高芬 郭武郭洪星 胡俊 胡广超 李会民 李昕伟 刘畅 李斌杰 鲁蔚征 郄军利 宋平 宋天宇孙晓艺 孙敏淮 唐小勇 王青 王成伟 王继彬 王炳强 万林 魏旗鹏 姚舸 曾帆曾令仿 张凯丽 张震 邹有 赵顺存责任编辑王世葆感谢以下机构参编支持(排名不分先后):北京大学 北京航空航天大学 长沙理工大学 贵州大学 河南师范大学湖南大学 兰州大学 南京大学 上海交通大学 山
10、东大学 深圳大学 西安交通大学中国人民大学 中国医学科学院 中国科学技术大学 中南大学超级计算创新联盟 国家超算济南中心 国家超算长沙中心 华为技术有限公司科大讯飞 崂山实验室 联科中国 鹏城实验室 青岛国实科技有限公司中科院科学计算所 中国信息通信研究院 之江实验室一年一度的CCF HPC China,给业界提供了很好的契机,促使我们去系统化地思考超算的过去、当下和未来。数据密集型超算HPDA白皮书发布已经两年,这两年间超算领域已经发生了许多令人惊讶的变化,尤其当生成式人工智能AIGC技术爆发,超算的发展也正在迎来一个新的阶段。超算正在加速与AI深度融合,驱动科学研究迈入科学智能时代 AIG
11、C热潮的背后其实就是超级计算机技术与AI大模型技术相结合的结晶:早在2019年,微软就为OpenAI的ChatGPT大模型训练部署超过上万个GPU组成的大型AI超级计算机。超算从诞生开始就致力于加速重大科研的创新,而超算与AI的融合将实现科研创新的又一次跃升。通过Al赋能科学研究,可以解决传统HPC算不了、算不准、算不动的问题。且从科研创新的角度来看,提出问题比解决问题更重要。而AI的本质上实际上是数据驱动通过AI算法拟合成一个符合大概率的规律,尽管有可能这些规律缺乏可解释性,但这些“意料之外”的规律反而就是科研创新突破的最佳指引。这相当于给科研人员开启了一个上帝视角,一切未知皆为参数,数据可
12、及皆为样本,洞明世事皆为模型,进而让科学研究迈入到了科学智能时代。实际上数据密集型超算概念的提出就是洞悉到了超算与AI的融合,因为其核心就是数据驱动,数据的重要性也随着AI大模型的发展变得愈发凸显。AI的三要素,数据、算法和算力。在算力水平基本一致的前提下,如果说当前的AI时代角逐还是数据和算法并重,那么随着AI算法的逐步标准化趋同,决定下一轮胜负的关键必然在数据上。譬如,Meta基于650亿参数和4.5TB训练数据开发了LLaMA,而OpenAI基于1750亿参数和570GB训练数据开发了GPT-3.5。虽然LLaMA在参数规模上不及GPT-3.5的50%,但其表现能力在多数基准上均超越了后
13、者,其主要原因在于数据规模提升了8倍。由此可见,提升AI大模型精度、数据规模以及数据质量比模型参数更具决定性的作用,可以说数据决定了AI智能的高度。超算互联上升为国家级战略,数据互联与流动是基础。“一桥飞架南北,天堑变通途”,超算互联正是这一理念构想在超算产业的践行。在东数西算、算力互联网等国家战略实施的大背景下,超算互联旨在构建一体化超算算力网络和服务平台的目标也上升为国家级战略。欧盟等区域和国家也相继发布了其国家版的超算互联战略,为下一个战略制高点的争夺拉开个序幕。所谓内行看门道,互联普遍意义上是指算力的互联,实际上数据的互联和流动才是超算互联的底蕴和基础:从超算中心的物理部署来看,需要实
14、现不同超算中心的数据互联,并提供跨地域、跨系统的全局统一数据视图以及调度。让任意位置的数据都随时随地可快速访问,并实现数据的按需分级与流动。从业务集群的建设模式来看,需要实现不同业务集群间的数据互联。这是因为数据密集型HPDA往往对应的是数据驱动的一套序贯式科学业务流,譬如基因测序往往包括文库制备、格式转换以及生信分析等多个业务阶段,传统意义上不同的业务集群往往是烟囱式独立建设模式,频繁的数据拷贝与迁移成为影响科研效率的关键。因此,我们认为超算互联要面向多样化业务要构建安全、可靠的统一数据底座,基于高性能专业存储的多协议、冷热温自动分级以及全局文件系统GFS等技术打破影响数据流动的层层壁垒。所
15、谓流水不腐户枢不蠹,数据只有在更大范围的充分流动与共享,才能真正促进信息的数字化,才会有价值数据的智能释放。超算中心大规模集群化,低碳绿色成为关键诉求。E级超算的建设当前已经是屡见不鲜,并且随着整体应用算力需求与单卡之间的算力剪刀差持续加大,导致集群规模越来越大。尽管大规模集群往往意味着国之重器,科研利器,但与此同时超算系统的能耗和散热问题日益突出。因此,提高超算系统的能效比和降低碳排放已经成为超算行业的重要目标,我认为业界可以从如下两点发力:全面加速存储闪存化:超算中心以及智算中心由于其极致的业务性能诉求,特别是随着AIGC业务的爆发,高性能的全闪专业存储将成为首选。全闪存一方面意味着应用性
16、能的极致表现;另一方面在单位容量的功耗上要大幅降低。不仅如此,随着业界闪存大容量盘的加速推出,其逐步凸显的性价比优势也将加速业界全闪化的进程。存储创新提升GPU利用率:随着超算业务的多样化趋势,算力的多元化以及数据的多模态发展愈发明显。数据密集型应用驱动在算力层面GPU占比越来越高。提升GPU的资源利用率,也就意味着用更少的GPU资源能耗去满足相对确定的应用算力需求,提高能效比。在存储创新方面,一方面通过面向混合负载的极致高性能,通过减少GPU在数据加载等待时间提升利用率;另一方面还可以有通过近存计算实现近数据预处理,让数据在存储就完成部分数据准备任务,减少计算和存储之间的数据搬迁,进一步提升
17、GPU的利用率水平。这次数据密集型超算发展白皮书2023的发布,正好是在AI大模型这样的时代背景下,其对于中国超算行业之重大意义,丝毫不亚于无线通讯领域从3G/4G时代突破式地迈向了5G时代。在全新的产业赛道上,中国科技要携手起来坚定并坚持自主创新,引领超算行业的“5G”浪潮。一年一度的CCF HPC China,给业界提供了很好的契机,促使我们去系统化地思考超算的过去、当下和未来。数据密集型超算HPDA白皮书发布已经两年,这两年间超算领域已经发生了许多令人惊讶的变化,尤其当生成式人工智能AIGC技术爆发,超算的发展也正在迎来一个新的阶段。超算正在加速与AI深度融合,驱动科学研究迈入科学智能时
18、代 AIGC热潮的背后其实就是超级计算机技术与AI大模型技术相结合的结晶:早在2019年,微软就为OpenAI的ChatGPT大模型训练部署超过上万个GPU组成的大型AI超级计算机。超算从诞生开始就致力于加速重大科研的创新,而超算与AI的融合将实现科研创新的又一次跃升。通过Al赋能科学研究,可以解决传统HPC算不了、算不准、算不动的问题。且从科研创新的角度来看,提出问题比解决问题更重要。而AI的本质上实际上是数据驱动通过AI算法拟合成一个符合大概率的规律,尽管有可能这些规律缺乏可解释性,但这些“意料之外”的规律反而就是科研创新突破的最佳指引。这相当于给科研人员开启了一个上帝视角,一切未知皆为参
19、数,数据可及皆为样本,洞明世事皆为模型,进而让科学研究迈入到了科学智能时代。实际上数据密集型超算概念的提出就是洞悉到了超算与AI的融合,因为其核心就是数据驱动,数据的重要性也随着AI大模型的发展变得愈发凸显。AI的三要素,数据、算法和算力。在算力水平基本一致的前提下,如果说当前的AI时代角逐还是数据和算法并重,那么随着AI算法的逐步标准化趋同,决定下一轮胜负的关键必然在数据上。譬如,Meta基于650亿参数和4.5TB训练数据开发了LLaMA,而OpenAI基于1750亿参数和570GB训练数据开发了GPT-3.5。虽然LLaMA在参数规模上不及GPT-3.5的50%,但其表现能力在多数基准上
20、均超越了后者,其主要原因在于数据规模提升了8倍。由此可见,提升AI大模型精度、数据规模以及数据质量比模型参数更具决定性的作用,可以说数据决定了AI智能的高度。超算互联上升为国家级战略,数据互联与流动是基础。“一桥飞架南北,天堑变通途”,超算互联正是这一理念构想在超算产业的践行。在东数西算、算力互联网等国家战略实施的大背景下,超算互联旨在构建一体化超算算力网络和服务平台的目标也上升为国家级战略。欧盟等区域和国家也相继发布了其国家版的超算互联战略,为下一个战略制高点的争夺拉开个序幕。所谓内行看门道,互联普遍意义上是指算力的互联,实际上数据的互联和流动才是超算互联的底蕴和基础:从超算中心的物理部署来
21、看,需要实现不同超算中心的数据互联,并提供跨地域、跨系统的全局统一数据视图以及调度。让任意位置的数据都随时随地可快速访问,并实现数据的按需分级与流动。从业务集群的建设模式来看,需要实现不同业务集群间的数据互联。这是因为数据密集型HPDA往往对应的是数据驱动的一套序贯式科学业务流,譬如基因测序往往包括文库制备、格式转换以及生信分析等多个业务阶段,传统意义上不同的业务集群往往是烟囱式独立建设模式,频繁的数据拷贝与迁移成为影响科研效率的关键。因此,我们认为超算互联要面向多样化业务要构建安全、可靠的统一数据底座,基于高性能专业存储的多协议、冷热温自动分级以及全局文件系统GFS等技术打破影响数据流动的层
22、层壁垒。所谓流水不腐户枢不蠹,数据只有在更大范围的充分流动与共享,才能真正促进信息的数字化,才会有价值数据的智能释放。超算中心大规模集群化,低碳绿色成为关键诉求。E级超算的建设当前已经是屡见不鲜,并且随着整体应用算力需求与单卡之间的算力剪刀差持续加大,导致集群规模越来越大。尽管大规模集群往往意味着国之重器,科研利器,但与此同时超算系统的能耗和散热问题日益突出。因此,提高超算系统的能效比和降低碳排放已经成为超算行业的重要目标,我认为业界可以从如下两点发力:全面加速存储闪存化:超算中心以及智算中心由于其极致的业务性能诉求,特别是随着AIGC业务的爆发,高性能的全闪专业存储将成为首选。全闪存一方面意
23、味着应用性能的极致表现;另一方面在单位容量的功耗上要大幅降低。不仅如此,随着业界闪存大容量盘的加速推出,其逐步凸显的性价比优势也将加速业界全闪化的进程。存储创新提升GPU利用率:随着超算业务的多样化趋势,算力的多元化以及数据的多模态发展愈发明显。数据密集型应用驱动在算力层面GPU占比越来越高。提升GPU的资源利用率,也就意味着用更少的GPU资源能耗去满足相对确定的应用算力需求,提高能效比。在存储创新方面,一方面通过面向混合负载的极致高性能,通过减少GPU在数据加载等待时间提升利用率;另一方面还可以有通过近存计算实现近数据预处理,让数据在存储就完成部分数据准备任务,减少计算和存储之间的数据搬迁,
24、进一步提升GPU的利用率水平。这次数据密集型超算发展白皮书2023的发布,正好是在AI大模型这样的时代背景下,其对于中国超算行业之重大意义,丝毫不亚于无线通讯领域从3G/4G时代突破式地迈向了5G时代。在全新的产业赛道上,中国科技要携手起来坚定并坚持自主创新,引领超算行业的“5G”浪潮。3.1 国家超算济南中心:打造中国最大规模数据密集型超算应用标杆3.1.1 国超济南中心发展势头迅猛,构建引领全球科技发展的“最强大脑”3.1.2 面对海量数据存储和计算效率的挑战,国超济南中心积极追求HPC架构转型3.1.3 国超济南中心采用统一存储底座,打造标杆级新型超算中心3.1.4 统一存力底座助力国超
25、济南中心成就超算标杆3.2 上海交通大学:AI存力基座助力教育科研发展3.2.1 AI时代,学校高性能计算中心面临新场景海量数据挑战3.2.2“一存力,多算力”的统一存力基座方案3.2.3 存力基座助力教育科研发展3.3 中国医学科学院:全栈自主可控、GPU生信加速打造安全、高效的基因测序超算平台3.3.1 快速测序、海量基因数据存储成为基因测序领域的重大挑战3.3.2 高效、敏捷、自主可控的一站式基因测序全栈解决方案3.3.3 全栈国产化平台助力医学科研成果转化3.4 科大讯飞:高性能、稳定可靠的统一数据管理底座是大模型训练的关键3.4.1 AI大模型训练中的挑战3.4.2 强强联合,打造最
26、佳大模型算力+存力全栈方案3.4.3 在HPC与AI的融合创新中走向独立自主3 数据密集型超算优秀实践2.3.1 HPC+AI+Big Data多样性应用,需要动态混合负载承载能力2.3.2 E级大规模应用,需要近计算实现加速2.3.3 超算“性能墙”和“能耗墙”两大挑战,推动分布式全闪存储替代势在必行2.4 Anywhere:多地域超算互联,需要跨域全局数据统一管理能力2.4.1 算力和数据协同调度,数据全局可视2.4.2 数据分级管理,应用无感访问2.5 Any Condition:全方位可信设计,保障业务永远在线,数据永不丢失2.5.1 应对数据风险与业务风险挑战,超算平台进行全方面安全
27、保障2.5.2 应对灾难事件时生产中断挑战,超算平台稳定性设计保障业务永远在线2.5.3 数字资产作为企业核心财富,存储数据要做到永远可靠不丢失2.6 Any View:多应用场景的统一智能管理平台提升管理效率2.6.1 统一设备管理系统,提升运维管理效率2.6.2 超算建设模式走向集约化,需要统一高效的作业管理2.6.3 数据全生命周期管理,夯实高效、全面、智能的数据底座22525262727272828292929303033738383940411.1 数据密集型趋势下,高性能计算面临六大挑战和需求1.2 数据密集型应用加速发展,对存储性能提出
28、更高要求1.2.1 大数据、AI技术应用及科学观测仪器能力提升,带来更大数据量1.2.2 数据密集型应用,数据模型对存储大带宽和IOPS有更高的要求1.2.3 多技术融合的新兴业务,带来多业务混合负载1.3 HPC和AI 融合,加速改变科研及生产效率1.3.1 AI 加速科学研究范式变迁,数据驱动的 AI 方法改变科学的渐进发展1.3.2 数据决定AI智能的高度,数据存储成为大模型时代的核心基础设施1.3.3 发展先进数据存力基础设施,是构建大模型时代高质量发展的基石1.4 超算互联上升至世界各国国家战略,数据基础设施先行1.4.1 美国大力推动高性能数据密集型基础设施互联1.4.2 欧洲成立
29、超算联合体,构建一体化超算基础设施1.4.3 中国超算互联网工程,构建一体化算力网络和数据平台1.5 超算安全关系国计民生,数据资产安全成为重点1.5.1 国家级网络攻击对抗愈演愈烈,科研重点单位成为重点目标之一1.5.2 各国陆续出台法律法规,提升数据战略地位,加强数据安全保护力度1.6 中国“数据基础设施”关键根技术有突破、有创新,可支持全栈自主可控1.7 提高能效比和降低碳排放,支持超算发展和持续演进1.7.1 超算系统商业应用和未来演进面临能效挑战1.7.2 通过软硬件设计优化提升超级计算机能效,实现超算系统可持续发展1 数据密集型超算最新趋势0050607080
30、809515161718 1919212.1 HPC与AI走向融合,构建“5A”新型超算架构2.2 Any Application:新型应用不断涌现,数据密集型超算应具备丰富的应用生态承载及演进能力2.2.1 应用快速发展,需要多协议融合互通能力支撑业务未来演进2.2.2 数据分析广泛应用,需要支持科学计算工作流,提升业务效率2.3 Any Workload:多技术融合带来多样负载,数据密集型超算应具备承载动态混合负载及应用加速能力2 数据密集型超算技术架构3.1 国家超算济南中心:打造中国最大规模数据密集型超算应用标杆3.1.1 国超济南中心发展势头迅猛,构建引领全球科
31、技发展的“最强大脑”3.1.2 面对海量数据存储和计算效率的挑战,国超济南中心积极追求HPC架构转型3.1.3 国超济南中心采用统一存储底座,打造标杆级新型超算中心3.1.4 统一存力底座助力国超济南中心成就超算标杆3.2 上海交通大学:AI存力基座助力教育科研发展3.2.1 AI时代,学校高性能计算中心面临新场景海量数据挑战3.2.2“一存力,多算力”的统一存力基座方案3.2.3 存力基座助力教育科研发展3.3 中国医学科学院:全栈自主可控、GPU生信加速打造安全、高效的基因测序超算平台3.3.1 快速测序、海量基因数据存储成为基因测序领域的重大挑战3.3.2 高效、敏捷、自主可控的一站式基
32、因测序全栈解决方案3.3.3 全栈国产化平台助力医学科研成果转化3.4 科大讯飞:高性能、稳定可靠的统一数据管理底座是大模型训练的关键3.4.1 AI大模型训练中的挑战3.4.2 强强联合,打造最佳大模型算力+存力全栈方案3.4.3 在HPC与AI的融合创新中走向独立自主3 数据密集型超算优秀实践2.3.1 HPC+AI+Big Data多样性应用,需要动态混合负载承载能力2.3.2 E级大规模应用,需要近计算实现加速2.3.3 超算“性能墙”和“能耗墙”两大挑战,推动分布式全闪存储替代势在必行2.4 Anywhere:多地域超算互联,需要跨域全局数据统一管理能力2.4.1 算力和数据协同调度
33、,数据全局可视2.4.2 数据分级管理,应用无感访问2.5 Any Condition:全方位可信设计,保障业务永远在线,数据永不丢失2.5.1 应对数据风险与业务风险挑战,超算平台进行全方面安全保障2.5.2 应对灾难事件时生产中断挑战,超算平台稳定性设计保障业务永远在线2.5.3 数字资产作为企业核心财富,存储数据要做到永远可靠不丢失2.6 Any View:多应用场景的统一智能管理平台提升管理效率2.6.1 统一设备管理系统,提升运维管理效率2.6.2 超算建设模式走向集约化,需要统一高效的作业管理2.6.3 数据全生命周期管理,夯实高效、全面、智能的数据底座225
34、25262727272828292929303033738383940411.1 数据密集型趋势下,高性能计算面临六大挑战和需求1.2 数据密集型应用加速发展,对存储性能提出更高要求1.2.1 大数据、AI技术应用及科学观测仪器能力提升,带来更大数据量1.2.2 数据密集型应用,数据模型对存储大带宽和IOPS有更高的要求1.2.3 多技术融合的新兴业务,带来多业务混合负载1.3 HPC和AI 融合,加速改变科研及生产效率1.3.1 AI 加速科学研究范式变迁,数据驱动的 AI 方法改变科学的渐进发展1.3.2 数据决定AI智能的高度,数据存储成为大模型时代的核心基础设施1
35、.3.3 发展先进数据存力基础设施,是构建大模型时代高质量发展的基石1.4 超算互联上升至世界各国国家战略,数据基础设施先行1.4.1 美国大力推动高性能数据密集型基础设施互联1.4.2 欧洲成立超算联合体,构建一体化超算基础设施1.4.3 中国超算互联网工程,构建一体化算力网络和数据平台1.5 超算安全关系国计民生,数据资产安全成为重点1.5.1 国家级网络攻击对抗愈演愈烈,科研重点单位成为重点目标之一1.5.2 各国陆续出台法律法规,提升数据战略地位,加强数据安全保护力度1.6 中国“数据基础设施”关键根技术有突破、有创新,可支持全栈自主可控1.7 提高能效比和降低碳排放,支持超算发展和持
36、续演进1.7.1 超算系统商业应用和未来演进面临能效挑战1.7.2 通过软硬件设计优化提升超级计算机能效,实现超算系统可持续发展1 数据密集型超算最新趋势0050607080809515161718 1919212.1 HPC与AI走向融合,构建“5A”新型超算架构2.2 Any Application:新型应用不断涌现,数据密集型超算应具备丰富的应用生态承载及演进能力2.2.1 应用快速发展,需要多协议融合互通能力支撑业务未来演进2.2.2 数据分析广泛应用,需要支持科学计算工作流,提升业务效率2.3 Any Workload:多技术融合带来多样负
37、载,数据密集型超算应具备承载动态混合负载及应用加速能力2 数据密集型超算技术架构数据密集型超算最新趋势纵观全球,新一轮的科技革命和产业变革正在全方位的改变着社会生产生活,一个以数据服务能力为基础的,万物感知、万物互联、万物智能的数字经济世界正在加速到来。实施数据战略、积累数据资源、保障数据安全、做大做强数据产业,已经成为全球主要国家共同的战略选择。据国际权威数据分析研究机构IDC数据时代2025报告预测,从2018年至2025年,全球数据将从2018年的33ZB增至2025年的175ZB,数据量增长4倍多。其中,中国数据圈增速迅速,预计将从2018年的7.6ZB到2025年将增至48.6ZB,
38、占全球数据圈比重将从23.4发展到27.8,中国将成为全球最大的数据圈。因此,更先进的数字技术、更强大的数据服务能力和更高水平的数字产业,将成为新时代我国发展数字经济的根本内容。超大规模的数据量对数据的存储、数据的安全提出了前所未有的挑战,可靠高效的存储能力是数据供给安全的根本保障。高性能计算HPC是构建下一代数据产业和科学计算的基石,是驱动科研创新的重要计算引擎,帮助人们从海量的数据中探索人类社会和宇宙的未来。早在2007年,图灵奖得主詹姆斯格雷就在题目为科学方法的革命的演讲中提出,随着数据的爆炸性增长,科学计算(即“第三范式”)中的数据密集型范式将成为一个独特的科学研究范式,即“第四范式”
39、。数据密集型超算,成为高性能计算与人工智能、大数据等新一代信息技术融合后而产生的一个重要新增类型,在一定程度上代表了高性能计算的未来发展趋势。在此趋势下,我们发现在高性能计算在应用层、算力层、超算网络互联及全局管理、安全、绿色节能、系统全栈自主可控六个方面都面临新的挑战和需求:应用层面,随着生成式AI、大数据应用以及科学观测仪器能力提升,带来更大数据量,新的数据密集型应用,产生了新的数据模型,驱动新的近数据计算架构发展。算力层面,通过Al赋能科学研究,科学研究正迈向科学智能新阶段,数据规模和质量决定了AI智能高度。发展先进数据存力基础设施,是构建大模型高质量发展的基石。联接层面,需要科研机构之
40、间的大数据量互访,推进超算互联工程进程,打造集应用、数据、算力服务于一体的超算,实现跨超算中心的联接,一体化数据基础设施已成为超算互联建设共性需求。安全层面,对数据资产的安全提出更高的要求,提升数据战略地位,保证数据安全和主权。自主可控层面,从处理器,先进闪存等核心硬件,到跨域数据管理系统,分布式并行文件系统,以及超算集群等软件具备全栈自主可控能力。绿色节能层面,通过改进硬件设计和制造过程,优化软件设计,提高超算系统的能源效率,支持超算持续演进。数据密集型趋势下,高性能计算面临六大挑战和需求随着与大数据、AI等新的数据分析技术和工具结合,HPC的诉求从以数值计算为主,衍生到与大数据知识挖掘及A
41、I训练推理结合的HPDA高性能数据分析时代。大数据、AI技术及科学观测仪器能力提升,给应用带来更大的处理数据量。同时新的数据密集型应用,产生了新的数据模型,驱动新的近数据计算架构发展。数据密集型应用加速发展,对存储性能提出更高要求图1-2 典型超算场景的数据量图1-1 高性能计算六大挑战和需求随着物联网技术、大数据技术的飞速发展,超算系统处理的数据量爆炸式增长。得益于科学观测仪器能力的不断提升,大幅提高了采集的速度和广度,如:高通量测序仪通量从几十个GB,提升到现在几个TB级别通量;全球数以百万计的传感器都在对宇宙、气象、生物、物理和化学过程进行实时观测和记录,在取得更好的计算或者模拟效果的同
42、时也产生大量观测数据。计算设备运行各种科学模型任务,在进行大规模模拟计算的同时会产生大量的科学数据。1.2.1 大数据、AI技术应用及科学观测仪器能力提升,带来更大数据量1 数据密集型超算最新趋势数据密集型超算发展白皮书202302011.21.1互联,跨域全局管理应用,数据密集型化全栈自主可控算力,AI异构加速新安全,数据资产保护绿色,软硬系统节能从重计算模型,到重IO、大带、混合负载数据模型从科学计算到科学智能从网络互联,到跨域超算互联从计算能效节能,到软件、硬件系统节能从芯片自主可控,到全栈自主可控从网络安全,到数据资产安全10-30TB/天-6PB/年一台冷冻电镜500T/天-180P
43、B/年1个FAST天眼60TB/天-200PB/年1辆自动驾驶汽车1立方厘米-PB类脑研究1Pb/s-4000EB/年1个SKA平方公里阵列6TB/天-8.5PB/年(含膨胀)1台基因测序仪50T/天-18PB/年1颗遥感卫星500T/天180PB/年1个高能同步辐射光源中心数据密集型超算最新趋势纵观全球,新一轮的科技革命和产业变革正在全方位的改变着社会生产生活,一个以数据服务能力为基础的,万物感知、万物互联、万物智能的数字经济世界正在加速到来。实施数据战略、积累数据资源、保障数据安全、做大做强数据产业,已经成为全球主要国家共同的战略选择。据国际权威数据分析研究机构IDC数据时代2025报告预
44、测,从2018年至2025年,全球数据将从2018年的33ZB增至2025年的175ZB,数据量增长4倍多。其中,中国数据圈增速迅速,预计将从2018年的7.6ZB到2025年将增至48.6ZB,占全球数据圈比重将从23.4发展到27.8,中国将成为全球最大的数据圈。因此,更先进的数字技术、更强大的数据服务能力和更高水平的数字产业,将成为新时代我国发展数字经济的根本内容。超大规模的数据量对数据的存储、数据的安全提出了前所未有的挑战,可靠高效的存储能力是数据供给安全的根本保障。高性能计算HPC是构建下一代数据产业和科学计算的基石,是驱动科研创新的重要计算引擎,帮助人们从海量的数据中探索人类社会和
45、宇宙的未来。早在2007年,图灵奖得主詹姆斯格雷就在题目为科学方法的革命的演讲中提出,随着数据的爆炸性增长,科学计算(即“第三范式”)中的数据密集型范式将成为一个独特的科学研究范式,即“第四范式”。数据密集型超算,成为高性能计算与人工智能、大数据等新一代信息技术融合后而产生的一个重要新增类型,在一定程度上代表了高性能计算的未来发展趋势。在此趋势下,我们发现在高性能计算在应用层、算力层、超算网络互联及全局管理、安全、绿色节能、系统全栈自主可控六个方面都面临新的挑战和需求:应用层面,随着生成式AI、大数据应用以及科学观测仪器能力提升,带来更大数据量,新的数据密集型应用,产生了新的数据模型,驱动新的
46、近数据计算架构发展。算力层面,通过Al赋能科学研究,科学研究正迈向科学智能新阶段,数据规模和质量决定了AI智能高度。发展先进数据存力基础设施,是构建大模型高质量发展的基石。联接层面,需要科研机构之间的大数据量互访,推进超算互联工程进程,打造集应用、数据、算力服务于一体的超算,实现跨超算中心的联接,一体化数据基础设施已成为超算互联建设共性需求。安全层面,对数据资产的安全提出更高的要求,提升数据战略地位,保证数据安全和主权。自主可控层面,从处理器,先进闪存等核心硬件,到跨域数据管理系统,分布式并行文件系统,以及超算集群等软件具备全栈自主可控能力。绿色节能层面,通过改进硬件设计和制造过程,优化软件设
47、计,提高超算系统的能源效率,支持超算持续演进。数据密集型趋势下,高性能计算面临六大挑战和需求随着与大数据、AI等新的数据分析技术和工具结合,HPC的诉求从以数值计算为主,衍生到与大数据知识挖掘及AI训练推理结合的HPDA高性能数据分析时代。大数据、AI技术及科学观测仪器能力提升,给应用带来更大的处理数据量。同时新的数据密集型应用,产生了新的数据模型,驱动新的近数据计算架构发展。数据密集型应用加速发展,对存储性能提出更高要求图1-2 典型超算场景的数据量图1-1 高性能计算六大挑战和需求随着物联网技术、大数据技术的飞速发展,超算系统处理的数据量爆炸式增长。得益于科学观测仪器能力的不断提升,大幅提
48、高了采集的速度和广度,如:高通量测序仪通量从几十个GB,提升到现在几个TB级别通量;全球数以百万计的传感器都在对宇宙、气象、生物、物理和化学过程进行实时观测和记录,在取得更好的计算或者模拟效果的同时也产生大量观测数据。计算设备运行各种科学模型任务,在进行大规模模拟计算的同时会产生大量的科学数据。1.2.1 大数据、AI技术应用及科学观测仪器能力提升,带来更大数据量1 数据密集型超算最新趋势数据密集型超算发展白皮书202302011.21.1互联,跨域全局管理应用,数据密集型化全栈自主可控算力,AI异构加速新安全,数据资产保护绿色,软硬系统节能从重计算模型,到重IO、大带、混合负载数据模型从科学
49、计算到科学智能从网络互联,到跨域超算互联从计算能效节能,到软件、硬件系统节能从芯片自主可控,到全栈自主可控从网络安全,到数据资产安全10-30TB/天-6PB/年一台冷冻电镜500T/天-180PB/年1个FAST天眼60TB/天-200PB/年1辆自动驾驶汽车1立方厘米-PB类脑研究1Pb/s-4000EB/年1个SKA平方公里阵列6TB/天-8.5PB/年(含膨胀)1台基因测序仪50T/天-18PB/年1颗遥感卫星500T/天180PB/年1个高能同步辐射光源中心从初步统计看,目前大部分典型的超算应用起步档已经是PB级。面向新兴的应用譬如脑科学等,其单场景的数据规模则可能更大。综上所述,由
50、于大数据、AI、HPC仿真等多技术的融合,业务呈现多样业务混合负载特征。数据模型既需要支持高带宽又需要支持高IOPS。图1-3 典型场景数据量分析图1-4 自动驾驶数据流图表1-1 数据模型应用/数据模型分子动力学化学基因组序列比对气象数值预报模式预测油气勘探350023372000700460600015.8MB/s9.56MB/s3.373GB/s600MB/s337MB/s130B/s5KB/s1.275GB/s500MB/s729MB/s小文件小文件大文件(IO为128K以上,文件=1GB)大文件(IO为128K以上,文件=1GB)大文件(IO为4K以下,文件=1
51、MB)和小文件并存读IOPS写IOPS读带宽写带宽文件大小根据测试和分析,数据量的变大,会导致对应的计算数据模型和存储访问数据模型也发生较大变化。基因测序、气象预测、油气勘探等数据密集型应用相对分子动力学、化学等数值型计算应用,在写IOPS和读写带宽上产生数量级的增加,其文件大小普遍超过1GB以上。1.2.2 数据密集型应用,数据模型对存储大带宽和IOPS有更高的要求表 1-2 自动驾驶业务数据模型分析自动驾驶数据流程数据收集导入数据预处理AI训练仿真S3单客户端顺序写大文件大文件聚合顺序读,多客户端顺序写小文件多线程小IO随机读多个小文件单线程大IO顺序读大文件数据模型随着一些新兴业务的出现
52、,带来业务流程的复杂多样。如自动驾驶业务涉及超过10个处理环节,各个环节存在数据互访、数据采集、标注、训练集仿真数据访问、AI推理。其中数据采集和预处理会借助大数据技术和组件;在AI训练阶段会采用AI深度学习训练技术;仿真阶段会采用HPC技术。同时,各个环节数据模型各有差异:如在数据收集和导入环节使用NFS/CIFS上传脱敏数据到存储资源池,此环节IO特征为大IO顺序写;在数据预处理环节采用大文件聚合,大IO顺序读,存在多客户端顺序写小文件;AI模型训练主要是多线程小IO随机读多个小文件。仿真验证则是单线程大IO顺序读大文件。1.2.3 多技术融合的新兴业务,带来多业务混合负载04031 数据
53、密集型超算最新趋势数据密集型超算发展白皮书2023十大应用场景80%的应用场景数据量PB级从初步统计看,目前大部分典型的超算应用起步档已经是PB级。面向新兴的应用譬如脑科学等,其单场景的数据规模则可能更大。综上所述,由于大数据、AI、HPC仿真等多技术的融合,业务呈现多样业务混合负载特征。数据模型既需要支持高带宽又需要支持高IOPS。图1-3 典型场景数据量分析图1-4 自动驾驶数据流图表1-1 数据模型应用/数据模型分子动力学化学基因组序列比对气象数值预报模式预测油气勘探350023372000700460600015.8MB/s9.56MB/s3.373GB/s600
54、MB/s337MB/s130B/s5KB/s1.275GB/s500MB/s729MB/s小文件小文件大文件(IO为128K以上,文件=1GB)大文件(IO为128K以上,文件=1GB)大文件(IO为4K以下,文件=1MB)和小文件并存读IOPS写IOPS读带宽写带宽文件大小根据测试和分析,数据量的变大,会导致对应的计算数据模型和存储访问数据模型也发生较大变化。基因测序、气象预测、油气勘探等数据密集型应用相对分子动力学、化学等数值型计算应用,在写IOPS和读写带宽上产生数量级的增加,其文件大小普遍超过1GB以上。1.2.2 数据密集型应用,数据模型对存储大带宽和IOPS有更高的要求表 1-2
55、自动驾驶业务数据模型分析自动驾驶数据流程数据收集导入数据预处理AI训练仿真S3单客户端顺序写大文件大文件聚合顺序读,多客户端顺序写小文件多线程小IO随机读多个小文件单线程大IO顺序读大文件数据模型随着一些新兴业务的出现,带来业务流程的复杂多样。如自动驾驶业务涉及超过10个处理环节,各个环节存在数据互访、数据采集、标注、训练集仿真数据访问、AI推理。其中数据采集和预处理会借助大数据技术和组件;在AI训练阶段会采用AI深度学习训练技术;仿真阶段会采用HPC技术。同时,各个环节数据模型各有差异:如在数据收集和导入环节使用NFS/CIFS上传脱敏数据到存储资源池,此环节IO特征为大IO顺序写;在数据预
56、处理环节采用大文件聚合,大IO顺序读,存在多客户端顺序写小文件;AI模型训练主要是多线程小IO随机读多个小文件。仿真验证则是单线程大IO顺序读大文件。1.2.3 多技术融合的新兴业务,带来多业务混合负载04031 数据密集型超算最新趋势数据密集型超算发展白皮书2023十大应用场景80%的应用场景数据量PB级AI赋能机理计算是目前超算的一大趋势,通过数据驱动AI计算,利用人工智能技术对机理计算进行优化和加速,提高计算效率和精度,从而实现更加准确的预测和决策。例如日前国际顶级学术期刊Nature杂志正刊发表了华为云盘古大模型研发团队研究成果三维神经网络用于精准中期全球天气预报。受限于气象观测的准确
57、度,大气系统中物理过程的复杂性,传统数值方法所需计算资源规模巨大,全球中期天气预报的有效性每 10 年才提高 1 天。而华为盘古气象大模型是首个精度超过传统数值预报方法的AI模型,速度相比传统数值预报提速10000倍以上,改变了近些年数值天气预报精度提升缓慢的瓶颈。1.3.1 AI 加速科学研究范式变迁,数据驱动的 AI 方法改变科学的渐进发展一、数据数量和质量决定AI智能的高度 在我们探讨机器学习的效果时,无法忽略的一点是高质量数据的重要性。数据质量越高,意味着更准确、更可信、更相关、更有价值的数据,给人工智能提供更可靠的输入,提高模型的可用性和可靠性。如果没有高质量的数据输入,无论多么先进
58、的算法、多么庞大的算力都无法带来高质量的成果。数据质量决定AI智能的高度。传统数据处理方法主要是针对小规模数据,以统计模型为基础寻找数据中的规律。然而基于小规模数据所建立的模型,其表达能力受限于数据规模,只能进行粗粒度的模拟与预测,在精度要求比较高的情况就不再适用。如果想要进一步提升模型精度就需要利用海量数据生成相关模型。数据规模越大,意味着更多的信息、更多的样本、更多的特征,给人工智能模型提供更充分的训练和学习的机会,提高人工智能的泛化能力。数据数量同样决定AI智能的高度。以华为盘古大模型研发团队发现为例,AI气象预报模型的精度不足主要有两个原因:第一,原有的AI气象预报模型都是基于2D神经
59、网络,无法很好地处理不均匀的3D气象数据;第二,AI方法缺少数学物理机理约束,因此在迭代的过程中会不断积累迭代误差。为此,研究团队创造性地提出了适应地球坐标系统的三维神经网络(3D Earth-Specific Transformer)来处理复杂的不均匀3D气象数据,通过提升数据数量还有质量,并且使用层次化时域聚合策略来减少预报迭代次数,从而减少迭代误差。通过在43年的全球天气数据上训练深度神经网络,盘古气象大模型在精度和速度方面超越传统数值预测方法。二、数据存储是大模型时代发展AI的核心基础设施在科学领域,从“数据”中可以提炼出经验性“原理”,也可以使用“原理”来仿真模拟出“数据”。在转化过
60、程中承载数据处理的数据存储至关重要,目前在大模型训练过程中仍然存在很多挑战:首先,数据准备时间长,数据来源分散,归集慢,预处理百TB数据需10天左右,这不利于系统的高效利用。其次,如今大模型的规模越来越大,达到千亿甚至万亿的参数级,训练需要海量的计算资源和存储空间。比如多模态大模型以海量文本、图片为训练 集,但 是 当 前 海 量 小 文 件 的 加 载 速 度 不 足100MB/s,训练集加载效率低。其三,大模型参数频繁调优,训练平台不稳定,平均约2天出现一次训练中断,需要Check-point机制恢复训练,故障恢复耗时超过一天。最后,大模型实施门槛高,系统搭建繁杂,资源调度难,GPU资源利
61、用率通常不到40%。为此,需要非常专业的软件、硬件工程师来进行实施并进行后续的维护。综上所述,构建大容量、高性能的存力数据基础设施成为决胜AI大模型时代的关键。1.3.2 数据决定AI智能的高度,数据存储成为大模型时代的核心基础设施图1-5 华为盘古气象大模型研究成果在Nature正刊发表0605科学研究正迈向科学智能新阶段,通过Al赋能科学研究,解决传统HPC算不快、算不准、算不动的问题。如AI赋能机理计算,DeePMD基于深度学习的分子动力学模拟方法,将Al嵌入机理计算中,在空间尺度和时间尺度上基于数学方程推演,计算效率提高1000倍,计算空间尺度增大100倍。在数据驱动的Al计算中,如A
62、lphaFold蛋白质结构预测,通过Al加速可以使药物临床研究耗时从年减少到月。图1-6 HPC和AI融合,科学计算走向科学智能1 数据密集型超算最新趋势数据密集型超算发展白皮书2023HPC和AI 融合,加速改变科研及生产效率1.3面临挑战理论突破&工程方法创新计算尺度限制维数灾难科学计算(HPC)物理世界的机理参数+AI催生科学智能(HPDA=HPC+BigData+AI)AI+HPC机理计算与AI计算相结合天气预报、生命科学等AI计算+机理计算,更高的准确率和计算效率基于数学方程的推演AI赋能机理计算DeePMD:分子动力学模拟AI嵌入机理计算中,加速机理计算空间尺度时间尺度AI模型数据
63、数据驱动的AI计算AlphaFold:蛋白质折叠全AI计算,效率高,可解释性不足AI训练薛定谔方程麦克斯韦方程蒙特卡洛方程玻尔兹曼方程布莱克-舒尔兹方程纳维-斯托克斯方程算不了、算不准、算不动AI+分子动力学计算效率提升1000倍计算空间尺度增大100倍AI+蛋白质结构预测从年到月药物临床前研究耗时AI+生物制药抗新冠病毒药物筛选30天-1天AI赋能机理计算是目前超算的一大趋势,通过数据驱动AI计算,利用人工智能技术对机理计算进行优化和加速,提高计算效率和精度,从而实现更加准确的预测和决策。例如日前国际顶级学术期刊Nature杂志正刊发表了华为云盘古大模型研发团队研究成果三维神经网络用于精准中
64、期全球天气预报。受限于气象观测的准确度,大气系统中物理过程的复杂性,传统数值方法所需计算资源规模巨大,全球中期天气预报的有效性每 10 年才提高 1 天。而华为盘古气象大模型是首个精度超过传统数值预报方法的AI模型,速度相比传统数值预报提速10000倍以上,改变了近些年数值天气预报精度提升缓慢的瓶颈。1.3.1 AI 加速科学研究范式变迁,数据驱动的 AI 方法改变科学的渐进发展一、数据数量和质量决定AI智能的高度 在我们探讨机器学习的效果时,无法忽略的一点是高质量数据的重要性。数据质量越高,意味着更准确、更可信、更相关、更有价值的数据,给人工智能提供更可靠的输入,提高模型的可用性和可靠性。如
65、果没有高质量的数据输入,无论多么先进的算法、多么庞大的算力都无法带来高质量的成果。数据质量决定AI智能的高度。传统数据处理方法主要是针对小规模数据,以统计模型为基础寻找数据中的规律。然而基于小规模数据所建立的模型,其表达能力受限于数据规模,只能进行粗粒度的模拟与预测,在精度要求比较高的情况就不再适用。如果想要进一步提升模型精度就需要利用海量数据生成相关模型。数据规模越大,意味着更多的信息、更多的样本、更多的特征,给人工智能模型提供更充分的训练和学习的机会,提高人工智能的泛化能力。数据数量同样决定AI智能的高度。以华为盘古大模型研发团队发现为例,AI气象预报模型的精度不足主要有两个原因:第一,原
66、有的AI气象预报模型都是基于2D神经网络,无法很好地处理不均匀的3D气象数据;第二,AI方法缺少数学物理机理约束,因此在迭代的过程中会不断积累迭代误差。为此,研究团队创造性地提出了适应地球坐标系统的三维神经网络(3D Earth-Specific Transformer)来处理复杂的不均匀3D气象数据,通过提升数据数量还有质量,并且使用层次化时域聚合策略来减少预报迭代次数,从而减少迭代误差。通过在43年的全球天气数据上训练深度神经网络,盘古气象大模型在精度和速度方面超越传统数值预测方法。二、数据存储是大模型时代发展AI的核心基础设施在科学领域,从“数据”中可以提炼出经验性“原理”,也可以使用“
67、原理”来仿真模拟出“数据”。在转化过程中承载数据处理的数据存储至关重要,目前在大模型训练过程中仍然存在很多挑战:首先,数据准备时间长,数据来源分散,归集慢,预处理百TB数据需10天左右,这不利于系统的高效利用。其次,如今大模型的规模越来越大,达到千亿甚至万亿的参数级,训练需要海量的计算资源和存储空间。比如多模态大模型以海量文本、图片为训练 集,但 是 当 前 海 量 小 文 件 的 加 载 速 度 不 足100MB/s,训练集加载效率低。其三,大模型参数频繁调优,训练平台不稳定,平均约2天出现一次训练中断,需要Check-point机制恢复训练,故障恢复耗时超过一天。最后,大模型实施门槛高,系
68、统搭建繁杂,资源调度难,GPU资源利用率通常不到40%。为此,需要非常专业的软件、硬件工程师来进行实施并进行后续的维护。综上所述,构建大容量、高性能的存力数据基础设施成为决胜AI大模型时代的关键。1.3.2 数据决定AI智能的高度,数据存储成为大模型时代的核心基础设施图1-5 华为盘古气象大模型研究成果在Nature正刊发表0605科学研究正迈向科学智能新阶段,通过Al赋能科学研究,解决传统HPC算不快、算不准、算不动的问题。如AI赋能机理计算,DeePMD基于深度学习的分子动力学模拟方法,将Al嵌入机理计算中,在空间尺度和时间尺度上基于数学方程推演,计算效率提高1000倍,计算空间尺度增大1
69、00倍。在数据驱动的Al计算中,如AlphaFold蛋白质结构预测,通过Al加速可以使药物临床研究耗时从年减少到月。图1-6 HPC和AI融合,科学计算走向科学智能1 数据密集型超算最新趋势数据密集型超算发展白皮书2023HPC和AI 融合,加速改变科研及生产效率1.3面临挑战理论突破&工程方法创新计算尺度限制维数灾难科学计算(HPC)物理世界的机理参数+AI催生科学智能(HPDA=HPC+BigData+AI)AI+HPC机理计算与AI计算相结合天气预报、生命科学等AI计算+机理计算,更高的准确率和计算效率基于数学方程的推演AI赋能机理计算DeePMD:分子动力学模拟AI嵌入机理计算中,加速
70、机理计算空间尺度时间尺度AI模型数据数据驱动的AI计算AlphaFold:蛋白质折叠全AI计算,效率高,可解释性不足AI训练薛定谔方程麦克斯韦方程蒙特卡洛方程玻尔兹曼方程布莱克-舒尔兹方程纳维-斯托克斯方程算不了、算不准、算不动AI+分子动力学计算效率提升1000倍计算空间尺度增大100倍AI+蛋白质结构预测从年到月药物临床前研究耗时AI+生物制药抗新冠病毒药物筛选30天-1天服务器服务器训练服务器训练数据层原始数据层性能型存储(必选)预处理服务器推理服务器容量型存储训练数据发布 PB级按需读取训练数据本地盘(非必选)PB级CheckPointCheckPoint长期留存模型长期留存模型加载图
71、片视频非结构化文件结构化文件推理结果修正和加速PB数据预处理近数据随路处理全局数据视图训练数据传输存储网络优化向量化存储美国将高性能数据密集型基础设施上升至国家任务,2023年3月10日美国能源部(DOE)宣布了一项提案,要求国家实验室主导高性能数据设施(HPDF)。该项目旨在创建一个专门从事数据密集型科学先进基础设施的新科学用户设施,DOE预计HPDF项目在投资约为3-5亿美元。HPDF的使命将是通过提供最先进的数据管理基础架构、功能和工具来实现和加速科学发现。HPDF将在管理科学数据生命周期方面发挥领导作用,并将推进能源部和政府对公众获取科学数据和公平数据原则(可查找、可访问、可互操作和可
72、重复使用)的承诺。该设施将设计为动态配置计算、网络和存储资源,以访问静止或运动中的数据,支持使用精心策划的数据集,以及直接从实验或仪器对流数据进行近乎实时的分析。1.4.1 美国大力推动高性能数据密集型基础设施互联过去十年,人工智能(AI)的飞速增长与数据基础设施逐步演变密切相关。从存储技术的革新,云计算的大规模采用,到数据湖和数据仓库的出现,以及向量数据库的日益利用,每次的演变都在AI繁荣发展中发挥了重要作用。由于大模型的训练需要快速地处理数据,对性能指标有更高的要求,将会催生高性能存储的新品类,也会加速存储在各环节的融合,类似于数据湖存储,而不是像过去预处理、训练、推理、归集各自构建。在原
73、有的基础架构上,AI for Science 时代下的先进数据存力基础设施将有以下四个方面的全面突破:一、支持数据新范式:数据编织大幅缩短AI大模型数据准备时间多样化数据快速归集:基于GFS,针对S3、HDFS、文件等多种协议接入,支持多样化数据0迁移归集。近计算加速:随路处理缩短IO路径,减少数据搬移,释放CPU资源。二、高性能、向量检索加速AI高性能存储:大、小文件自适应读写,高IOPS支撑预处理和训练集聚合优化,通过算力、存力协同体系研究,提升目标训练效率。向量检索:满足千万并发下的实时推理要求,一套存储满足数据全生命周期需求三、面向AI业务模型分析的可靠数据存储服务IO级负载均衡:单客
74、户端同时访问多个节点,避免存储节点之间进行业务负载转发元数据快速修复:元数据损坏快速定界,支持保底修复,精细化在线修复能力。故障快速恢复:高性能、大容量存储满足PB级高频度CheckPoint要求。四、支持数据价值精准识别与治理,降低数据全生命周期管理TCO全域统一元数据:将线上、线下的元数据统一采集到线下进行统计、分析,为客户展示统一的数据目录、数据视图,对数据价值精准识别。数据智能调度:根据数据价值(上层应用)的需要将数据调度到预期的位置,实现热、温、冷自动分1.3.3 发展先进数据存力基础设施,是构建大模型时代高质量发展的基石0807图1-7 大模型训练时的关键数据挑战图1-8 面向AI
75、 先进存力基础设施级预取和淘汰。热点数据识别后,数据安全流动,同步到多个集群上去。多源数据共池,一个集群故障后,客户端自动failover到其他集群对应的备份目录。1 数据密集型超算最新趋势数据密集型超算发展白皮书2023ECDBA数据准备时间长训练过程易中断企业实施门槛高数据来源分散,归集慢预处理时间长,百TB级需10天训练集加载效率低模型参数大,千亿级、万亿级小文件性能差,数据加载不足100MB/s参数频繁调优,训练平台不稳定平均约2天中断一次系统搭建繁杂,资源调度难GPU资源利用率不到40%数据编织,近存计算海量小文件高吞吐Checkpoints并行高带宽一站式交付超算互联上升至世界各国
76、国家战略,数据基础设施先行1.4服务器服务器训练服务器训练数据层原始数据层性能型存储(必选)预处理服务器推理服务器容量型存储训练数据发布 PB级按需读取训练数据本地盘(非必选)PB级CheckPointCheckPoint长期留存模型长期留存模型加载图片视频非结构化文件结构化文件推理结果修正和加速PB数据预处理近数据随路处理全局数据视图训练数据传输存储网络优化向量化存储美国将高性能数据密集型基础设施上升至国家任务,2023年3月10日美国能源部(DOE)宣布了一项提案,要求国家实验室主导高性能数据设施(HPDF)。该项目旨在创建一个专门从事数据密集型科学先进基础设施的新科学用户设施,DOE预计
77、HPDF项目在投资约为3-5亿美元。HPDF的使命将是通过提供最先进的数据管理基础架构、功能和工具来实现和加速科学发现。HPDF将在管理科学数据生命周期方面发挥领导作用,并将推进能源部和政府对公众获取科学数据和公平数据原则(可查找、可访问、可互操作和可重复使用)的承诺。该设施将设计为动态配置计算、网络和存储资源,以访问静止或运动中的数据,支持使用精心策划的数据集,以及直接从实验或仪器对流数据进行近乎实时的分析。1.4.1 美国大力推动高性能数据密集型基础设施互联过去十年,人工智能(AI)的飞速增长与数据基础设施逐步演变密切相关。从存储技术的革新,云计算的大规模采用,到数据湖和数据仓库的出现,以
78、及向量数据库的日益利用,每次的演变都在AI繁荣发展中发挥了重要作用。由于大模型的训练需要快速地处理数据,对性能指标有更高的要求,将会催生高性能存储的新品类,也会加速存储在各环节的融合,类似于数据湖存储,而不是像过去预处理、训练、推理、归集各自构建。在原有的基础架构上,AI for Science 时代下的先进数据存力基础设施将有以下四个方面的全面突破:一、支持数据新范式:数据编织大幅缩短AI大模型数据准备时间多样化数据快速归集:基于GFS,针对S3、HDFS、文件等多种协议接入,支持多样化数据0迁移归集。近计算加速:随路处理缩短IO路径,减少数据搬移,释放CPU资源。二、高性能、向量检索加速A
79、I高性能存储:大、小文件自适应读写,高IOPS支撑预处理和训练集聚合优化,通过算力、存力协同体系研究,提升目标训练效率。向量检索:满足千万并发下的实时推理要求,一套存储满足数据全生命周期需求三、面向AI业务模型分析的可靠数据存储服务IO级负载均衡:单客户端同时访问多个节点,避免存储节点之间进行业务负载转发元数据快速修复:元数据损坏快速定界,支持保底修复,精细化在线修复能力。故障快速恢复:高性能、大容量存储满足PB级高频度CheckPoint要求。四、支持数据价值精准识别与治理,降低数据全生命周期管理TCO全域统一元数据:将线上、线下的元数据统一采集到线下进行统计、分析,为客户展示统一的数据目录
80、、数据视图,对数据价值精准识别。数据智能调度:根据数据价值(上层应用)的需要将数据调度到预期的位置,实现热、温、冷自动分1.3.3 发展先进数据存力基础设施,是构建大模型时代高质量发展的基石0807图1-7 大模型训练时的关键数据挑战图1-8 面向AI 先进存力基础设施级预取和淘汰。热点数据识别后,数据安全流动,同步到多个集群上去。多源数据共池,一个集群故障后,客户端自动failover到其他集群对应的备份目录。1 数据密集型超算最新趋势数据密集型超算发展白皮书2023ECDBA数据准备时间长训练过程易中断企业实施门槛高数据来源分散,归集慢预处理时间长,百TB级需10天训练集加载效率低模型参数
81、大,千亿级、万亿级小文件性能差,数据加载不足100MB/s参数频繁调优,训练平台不稳定平均约2天中断一次系统搭建繁杂,资源调度难GPU资源利用率不到40%数据编织,近存计算海量小文件高吞吐Checkpoints并行高带宽一站式交付超算互联上升至世界各国国家战略,数据基础设施先行1.4一、“一体化超算基础设施”成为欧洲未来超算建设重点欧洲超算联合体(EuroHPC JU),成立于2018年,旨在承载构建一体化的世界级超算&数据基础设施,支撑欧洲高竞争力创新的HPC&大数据生态的使命。1.4.2 欧洲成立超算联合体,构建一体化超算基础设施近年来,在科技部和各省市政府的积极推动下,中国超算建设已取得
82、一定成绩,有效支撑了科技创新、社会民生、数字经济发展。随着以大数据、人工智能为代表的新一代信息技术迅猛发展,全社会对算力提出了更高要求,亟需突破现有单体超算中心运营模式,以应对算力设施分布不均衡、接口不统一、应用软件自主研发和推广不足等问题,更好地统筹协调全国超算中心算力。为了解决上述挑战,科技部于2023年4月启动国家超算互联网部署工作,用互联网思维运营超算,将全国众多超算中心连接起来,并连接产业生态中的算力供给、应用开发、运营服务、用户等各方能力和资源,构建一体化超算算力网络和服务平台。按照计划,到2025年底,国家超算互联网将可形成技术先进、模式创新、服务优质、生态完善的总体布局,有效支
83、撑原始科学创新、重大工程突破、经济高质量发展等目标达成。1.4.3 中国超算互联网工程,构建一体化算力网络和数据平台1009图1-10 Federation 2023+项目计划互联所有EuroHPC系统的HPC资源图1-11 国家超算互联网正式启动欧 盟 2 0 2 0 年 启 动 8 个 超 算 中 心 建 设,2021-2033年期间将投资80亿欧元新预算用于持续扩大部署世界级的超算中心,其中Federation 2023+项目,计划互联所有EuroHPC系统的HPC资源并提供以下服务:(1)身份验证、授权和认证服务;(2)算力服务,包括交互式计算和云接入-虚拟机-容器的服务;(3)数据服
84、务,包括归档服务和数据库服务,数据流动和传输服务;(4)用户和资源管理服务。二、意大利打造“国家数据湖云计算基础设施”,打破计算存储资源孤岛壁垒意大利国家超算中心(ICSC),是由PNRR投资赞助的的五个国家中心之一,目标最终建设成一个共享与开放的Cloud/HPC分布式基础设施,为国家战略部门存储计算资源,最终通过科研界以及工业界加速国家的数字化。该中心超算建设战略目标是为国家战略部门(超算,人工智能,数值模拟等)提供创新ICT资源,让意大利成为一个建设配备国家数据湖云计算基础设施的国家,该基础设施可被动态和虚拟的分配给科研组织或者用户,打破计算存储资源孤岛壁垒。所有用户之间资源共享,以提升
85、资源分配与使用的灵活性。ICSC成立博洛尼亚意大利数据谷(Data Val-ley),打造1个超算云架构,连接15+数据中心,承接10大领域科研课题。一方面将集中维护和加强意大利的HPC和大数据基础设施,另一方面将开发先进的数值方法,应用程序以及软件工具,将基础设施和计算、模拟、收集和分析科研活动进行整合,同时向云和分布式数据湖架构演进。1 数据密集型超算最新趋势数据密集型超算发展白皮书2023来源:https:/ ESnet6网络连接地图来源:https:/eurohpc-ju.europa.eu/index_enDOE的研究机构之间经常有任务式的PB级大数据量搬运,数据增长越来越快,且新型
86、科学研究需要科研机构之间的大数据量互访。能源部设想,将以HPDF为基础采用“Hub-and-Spoke”模型,在Hub处托管集中的资源,并通过在Spoke或其他地点部署和协调分布式基础设施来支持高优先级的美国能源部任务应用。Hub和Spoke将通过Esnet进行互联。一、“一体化超算基础设施”成为欧洲未来超算建设重点欧洲超算联合体(EuroHPC JU),成立于2018年,旨在承载构建一体化的世界级超算&数据基础设施,支撑欧洲高竞争力创新的HPC&大数据生态的使命。1.4.2 欧洲成立超算联合体,构建一体化超算基础设施近年来,在科技部和各省市政府的积极推动下,中国超算建设已取得一定成绩,有效支
87、撑了科技创新、社会民生、数字经济发展。随着以大数据、人工智能为代表的新一代信息技术迅猛发展,全社会对算力提出了更高要求,亟需突破现有单体超算中心运营模式,以应对算力设施分布不均衡、接口不统一、应用软件自主研发和推广不足等问题,更好地统筹协调全国超算中心算力。为了解决上述挑战,科技部于2023年4月启动国家超算互联网部署工作,用互联网思维运营超算,将全国众多超算中心连接起来,并连接产业生态中的算力供给、应用开发、运营服务、用户等各方能力和资源,构建一体化超算算力网络和服务平台。按照计划,到2025年底,国家超算互联网将可形成技术先进、模式创新、服务优质、生态完善的总体布局,有效支撑原始科学创新、
88、重大工程突破、经济高质量发展等目标达成。1.4.3 中国超算互联网工程,构建一体化算力网络和数据平台1009图1-10 Federation 2023+项目计划互联所有EuroHPC系统的HPC资源图1-11 国家超算互联网正式启动欧 盟 2 0 2 0 年 启 动 8 个 超 算 中 心 建 设,2021-2033年期间将投资80亿欧元新预算用于持续扩大部署世界级的超算中心,其中Federation 2023+项目,计划互联所有EuroHPC系统的HPC资源并提供以下服务:(1)身份验证、授权和认证服务;(2)算力服务,包括交互式计算和云接入-虚拟机-容器的服务;(3)数据服务,包括归档服务
89、和数据库服务,数据流动和传输服务;(4)用户和资源管理服务。二、意大利打造“国家数据湖云计算基础设施”,打破计算存储资源孤岛壁垒意大利国家超算中心(ICSC),是由PNRR投资赞助的的五个国家中心之一,目标最终建设成一个共享与开放的Cloud/HPC分布式基础设施,为国家战略部门存储计算资源,最终通过科研界以及工业界加速国家的数字化。该中心超算建设战略目标是为国家战略部门(超算,人工智能,数值模拟等)提供创新ICT资源,让意大利成为一个建设配备国家数据湖云计算基础设施的国家,该基础设施可被动态和虚拟的分配给科研组织或者用户,打破计算存储资源孤岛壁垒。所有用户之间资源共享,以提升资源分配与使用的
90、灵活性。ICSC成立博洛尼亚意大利数据谷(Data Val-ley),打造1个超算云架构,连接15+数据中心,承接10大领域科研课题。一方面将集中维护和加强意大利的HPC和大数据基础设施,另一方面将开发先进的数值方法,应用程序以及软件工具,将基础设施和计算、模拟、收集和分析科研活动进行整合,同时向云和分布式数据湖架构演进。1 数据密集型超算最新趋势数据密集型超算发展白皮书2023来源:https:/ ESnet6网络连接地图来源:https:/eurohpc-ju.europa.eu/index_enDOE的研究机构之间经常有任务式的PB级大数据量搬运,数据增长越来越快,且新型科学研究需要科研
91、机构之间的大数据量互访。能源部设想,将以HPDF为基础采用“Hub-and-Spoke”模型,在Hub处托管集中的资源,并通过在Spoke或其他地点部署和协调分布式基础设施来支持高优先级的美国能源部任务应用。Hub和Spoke将通过Esnet进行互联。6青岛海洋实验室烟台潍坊临沂威海淄博日照菏泽枣庄德州聊城济宁泰安滨州东营济南超算中心1211图1-15 2023年上半年高级威胁事件涉及行业分布情况图1-12 超算互联网上线启用图1-13“东数西算”数据存储集群系统上线世界各国都在加速高性能数据基础设施部署,推进超算互联工程进程,打造集应用、数据、算力服务于一体的超算平台,实现跨超算中心的链接,
92、包括算力资源和数据资产的统筹与调度。打破计算存储资源孤岛壁垒,支持所有用户之间资源共享,以提升资源分配与使用的灵活性。一体化数据基础设施已成为超算互联建设共性需求。国家超级计算济南中心(以下简称“济南超算”)在超算互联走在了全国前列。2022年7月22日,2022中国算力峰会,超算互联网工程正式上线。通过这一工程,各地的超算中心和大数据中心将实现数据和算力的互联互通,整合成为一个算力融合的网络。济南超算率先在建设省域沿黄9市的算力平台,并逐步构建济南超算-山西超算-西安超算-郑州超算的黄河流域高性能算力圈,并与黄河中上游三个国家一体化大数据中心枢纽节点相互联接,围绕数据存储和应用需求,建立健全
93、多元异构、云边协同的一体化算力体系。图1-14 山东省16地市超算互联网规划超算中心是国家计算基础设施,是推动科研创新和工业发展的关键动力,其平台及数据安全关乎国计民生,也是国家级黑客组织的重点攻击目标之一。近年来,随着网络空间大国博弈的持续深入,网络攻击从民间组织上升到国家级黑客组织,对他国开展网络攻击、网络窃密等活动已屡见不鲜。2022年3月,根据360公司报告披露,具有境外背景的黑客组织对中国开展无差别网络攻击,攻击行为极为隐蔽,持续长达十余年。目标对象涵盖了党政机关、科研院所、高等院校、医疗机构、行业龙头企业,以及关乎国计民生的各个行业关键信息基础设施等。2022年9月,国家计算机病毒
94、应急处理中心和 360公司分别发布了关于西北某高校遭受境外网络攻击的调查报告。调查显示,境外组织使用40余种网络攻击武器,对该高校发起上千次的攻击窃密行动,窃取了学校大量核心敏感信息。与此同时,调查还发现,该境外组织对中国诸多网络目标实施了上万次的恶意网络攻击,控制了包括网络服务器、上网终端、网络交换机、路由器、防火墙等数以万计的网络设备,疑似窃取的高价值数据超过140GB。2023年7月,奇安信公司发布的全球高级持续性威胁(APT)2023年中报告显示,2023 年上半年全球范围内,政府部门和国防军事领域是APT攻击的首要目标。与去年同期相比,教育、科研领域相关的攻击事件比例增高,占比分别为
95、11%和9%。从近年网络攻击态势看,国家级黑客组织的猖獗活动将愈发增多、愈演愈烈,各类基础设施的安全将长期处于前所未有的战略承压期和高危风险期,这一特征在相当长一段时间内不会改变。1.5.1 国家级网络攻击对抗愈演愈烈,科研重点单位成为重点目标之一1 数据密集型超算最新趋势数据密集型超算发展白皮书2023制造 3%媒体 3%加密货币 4%通信4%医疗 4%金融 9%科研 9%教育11%国防军事16%政府30%超算安全关系国计民生,数据资产安全成为重点 1.56青岛海洋实验室烟台潍坊临沂威海淄博日照菏泽枣庄德州聊城济宁泰安滨州东营济南超算中心1211图1-15 2023年上半年高级威胁事件涉及行
96、业分布情况图1-12 超算互联网上线启用图1-13“东数西算”数据存储集群系统上线世界各国都在加速高性能数据基础设施部署,推进超算互联工程进程,打造集应用、数据、算力服务于一体的超算平台,实现跨超算中心的链接,包括算力资源和数据资产的统筹与调度。打破计算存储资源孤岛壁垒,支持所有用户之间资源共享,以提升资源分配与使用的灵活性。一体化数据基础设施已成为超算互联建设共性需求。国家超级计算济南中心(以下简称“济南超算”)在超算互联走在了全国前列。2022年7月22日,2022中国算力峰会,超算互联网工程正式上线。通过这一工程,各地的超算中心和大数据中心将实现数据和算力的互联互通,整合成为一个算力融合
97、的网络。济南超算率先在建设省域沿黄9市的算力平台,并逐步构建济南超算-山西超算-西安超算-郑州超算的黄河流域高性能算力圈,并与黄河中上游三个国家一体化大数据中心枢纽节点相互联接,围绕数据存储和应用需求,建立健全多元异构、云边协同的一体化算力体系。图1-14 山东省16地市超算互联网规划超算中心是国家计算基础设施,是推动科研创新和工业发展的关键动力,其平台及数据安全关乎国计民生,也是国家级黑客组织的重点攻击目标之一。近年来,随着网络空间大国博弈的持续深入,网络攻击从民间组织上升到国家级黑客组织,对他国开展网络攻击、网络窃密等活动已屡见不鲜。2022年3月,根据360公司报告披露,具有境外背景的黑
98、客组织对中国开展无差别网络攻击,攻击行为极为隐蔽,持续长达十余年。目标对象涵盖了党政机关、科研院所、高等院校、医疗机构、行业龙头企业,以及关乎国计民生的各个行业关键信息基础设施等。2022年9月,国家计算机病毒应急处理中心和 360公司分别发布了关于西北某高校遭受境外网络攻击的调查报告。调查显示,境外组织使用40余种网络攻击武器,对该高校发起上千次的攻击窃密行动,窃取了学校大量核心敏感信息。与此同时,调查还发现,该境外组织对中国诸多网络目标实施了上万次的恶意网络攻击,控制了包括网络服务器、上网终端、网络交换机、路由器、防火墙等数以万计的网络设备,疑似窃取的高价值数据超过140GB。2023年7
99、月,奇安信公司发布的全球高级持续性威胁(APT)2023年中报告显示,2023 年上半年全球范围内,政府部门和国防军事领域是APT攻击的首要目标。与去年同期相比,教育、科研领域相关的攻击事件比例增高,占比分别为11%和9%。从近年网络攻击态势看,国家级黑客组织的猖獗活动将愈发增多、愈演愈烈,各类基础设施的安全将长期处于前所未有的战略承压期和高危风险期,这一特征在相当长一段时间内不会改变。1.5.1 国家级网络攻击对抗愈演愈烈,科研重点单位成为重点目标之一1 数据密集型超算最新趋势数据密集型超算发展白皮书2023制造 3%媒体 3%加密货币 4%通信4%医疗 4%金融 9%科研 9%教育11%国
100、防军事16%政府30%超算安全关系国计民生,数据资产安全成为重点 1.5近几年,全球主要经济体包括中国、美国、欧盟、英国等纷纷把数据竞争力上升为国家级战略。虽然2020年受疫情影响,全球整体经济增长减缓,但“减少接触,远程办公”等措施反而使得数字经济发展的势头更加迅猛。各国更加重视数据竞争力,并纷纷出台政策制定数据战略,宣誓数据安全和主权。在保护数据安全的前提下,承认数据价值、促进数据利用,争相在数据政策制订方面建立领导力。中国2020年4月,中共中央国务院关于构建更加完善的要素市场化配置体制机制的意见公布,中央首次明确数据成为继土地、劳动力、资本、和技术之外的第五大生产要素。2022年,党的
101、二十大报告提出了“加快建设网络强国、数字中国”、“健全网络综合治理体系,推动形成良好网络生态”、“强化网络、数据安全保障体系建设”等重要部署要求,对“推进国家安全体系和能力现代化,坚决维护国家安全和社会稳定”进行全局部署,为今后国家网络安全和信息化的发展定下了主基调。为应对数据安全风险带来的严峻威胁,2021年陆续颁布中华人民共和国数据安全法及中华人民共和国个人信息保护法。中华人民共和国数据安全法是数据要素国家战略的基本法,是我国数据时代的重要一步,体现了国家对支持数字经济的决心与信息,是数字经济“安全与发展”并重的体现。同期,各个行业配套落地措施及标准陆续出台。2022年,国家进一步强化了前
102、期法规的纵深推进与落地实施,有力夯实了国家数据安全保障基石。结合我国前期发布的国家安全法、网络安全法与上述其他规范形成配套组合,作为国家整体安全观的组成部分,共同构筑了国家信息网络空间与基础设施的安全壁垒,为保护国家和个人信息数据安全提供了法律依据。美国2019年12月,美国白宫发布了联邦数据战略和2020年行动计划。联邦数据战略以2020年为起始点,描述了美国政府未来十年的数据愿景,其核心思想是将数据作为战略资源来开发,通过确立了一致的数据基础设施和标准实践,来逐步建立强大的数据治理能力,为国家经济和安全提供保障。2020年10月8日,美国国防部发布了国防部数据战略(DoD Data Str
103、ategy),提出国防部应加快向“以数据为中心”的过渡,并制定了数据战略框架。并提出:数据是战略资产、数据要集体管理、数据伦理、数据采集、数据访问和可用性、人工智能训练数据、数据适当目的、合规设计等八大原则;数据应当:可见的、可访问的、易于理解的、可链接的、可信赖的、可互操作的、安全的等七大目标。可见,不管是美国白宫的联邦数据战略,还是美国国防部的数据战略,都希望促进美国内部数据的访问、共享、互操作性和安全性,使数据发挥更大的价值,支持更多创新算法的应用,最终支持美国国家战略和数字现代化战略的实现。欧盟2020年2月,欧盟发布了欧盟数字化战略、数据战略、人工智能战略。其核心思想亦是在建立联邦数
104、据平台的基础上实现数据主权和技术主权,从而达到数字经济时代,国家竞争力提升和领先。同时,欧盟非常重视信息数据流通与个人权利保护相结合,在2018年5月发布了通用数据保护条例(GDPR),明确了个人数据定义和条例适用1.5.2 各国陆续出台法律法规,提升数据战略地位,加强数据安全保护力度1413范围。条例还确定了数据保护的合法性基础、数据主体权利、数据控制者义务、数据流通标准、数据救济和处罚等内容。通过GDPR,欧盟对出境的个人数据保持了高水平保护。同时,欧盟认为GDPR应该成为世界的标杆,在推动世界在数据战略方面向欧盟看齐。因此GDPR也成为全球众多国家、地区制定数据保护条例的重要参考对象。高
105、性能计算做为体现国家综合国力和信息化建设能力的“国之重器”,各国均频繁从国家层面启动研制计划。在中国多次上榜全球高性能计算TOP500后,高性能计算从产业链条和技术层面被遏制,中国E级和后E级高性能计算的发展遇到阻碍。在严峻的国际环境下,如何突破外部限制与封锁,保持我国超级计算机的持续发展,自主可控成为唯一出路!面对挑战,中国超算产业需要在超算系统体系结构的创新,关键技术的突破和软件硬件的协同上发力。近十几年,中国在超算关键根技术上不断加大投入和自主创新,初步完成了超算自主可控生态体系的建设。随着“天河”和“神威”超级计算机、“飞腾”和“申威”处理器等标志性成果的出现,打破了长期以来国产超级计
106、算机平台无“芯”可用的局面,奠定了安全、自主、可控的国产平台技术基础。在“磁退硅进”的全球发展趋势下,我国大力发展以半导体为核心的新一代闪存技术。目前我国企业已实现一部分关键技术的领先和芯片供货的国产化,具备了一定的产业基础。通过提升闪存等先进存储在超算存储系统占比,可以有效规避当前机械硬盘面临的卡脖子风险,进一步构筑自主可控数据底座。截至目前,中国在跨域数据管理系统、分布式并行文件系统以及超算集群等方面,相比国外厂家已取得优势;在超算/AI/大数据等应用生态、容器应用平台。以欧拉为代表的操作系统等均实现对国外厂家的追赶。中国在存储性能、集群扩展、安全可信、绿色节能等领域充分体现了数据基础设施
107、技术的先进性。1 数据密集型超算最新趋势数据密集型超算发展白皮书2023中国“数据基础设施”关键根技术有突破、有创新,可支持全栈自主可控1.6近几年,全球主要经济体包括中国、美国、欧盟、英国等纷纷把数据竞争力上升为国家级战略。虽然2020年受疫情影响,全球整体经济增长减缓,但“减少接触,远程办公”等措施反而使得数字经济发展的势头更加迅猛。各国更加重视数据竞争力,并纷纷出台政策制定数据战略,宣誓数据安全和主权。在保护数据安全的前提下,承认数据价值、促进数据利用,争相在数据政策制订方面建立领导力。中国2020年4月,中共中央国务院关于构建更加完善的要素市场化配置体制机制的意见公布,中央首次明确数据
108、成为继土地、劳动力、资本、和技术之外的第五大生产要素。2022年,党的二十大报告提出了“加快建设网络强国、数字中国”、“健全网络综合治理体系,推动形成良好网络生态”、“强化网络、数据安全保障体系建设”等重要部署要求,对“推进国家安全体系和能力现代化,坚决维护国家安全和社会稳定”进行全局部署,为今后国家网络安全和信息化的发展定下了主基调。为应对数据安全风险带来的严峻威胁,2021年陆续颁布中华人民共和国数据安全法及中华人民共和国个人信息保护法。中华人民共和国数据安全法是数据要素国家战略的基本法,是我国数据时代的重要一步,体现了国家对支持数字经济的决心与信息,是数字经济“安全与发展”并重的体现。同
109、期,各个行业配套落地措施及标准陆续出台。2022年,国家进一步强化了前期法规的纵深推进与落地实施,有力夯实了国家数据安全保障基石。结合我国前期发布的国家安全法、网络安全法与上述其他规范形成配套组合,作为国家整体安全观的组成部分,共同构筑了国家信息网络空间与基础设施的安全壁垒,为保护国家和个人信息数据安全提供了法律依据。美国2019年12月,美国白宫发布了联邦数据战略和2020年行动计划。联邦数据战略以2020年为起始点,描述了美国政府未来十年的数据愿景,其核心思想是将数据作为战略资源来开发,通过确立了一致的数据基础设施和标准实践,来逐步建立强大的数据治理能力,为国家经济和安全提供保障。2020
110、年10月8日,美国国防部发布了国防部数据战略(DoD Data Strategy),提出国防部应加快向“以数据为中心”的过渡,并制定了数据战略框架。并提出:数据是战略资产、数据要集体管理、数据伦理、数据采集、数据访问和可用性、人工智能训练数据、数据适当目的、合规设计等八大原则;数据应当:可见的、可访问的、易于理解的、可链接的、可信赖的、可互操作的、安全的等七大目标。可见,不管是美国白宫的联邦数据战略,还是美国国防部的数据战略,都希望促进美国内部数据的访问、共享、互操作性和安全性,使数据发挥更大的价值,支持更多创新算法的应用,最终支持美国国家战略和数字现代化战略的实现。欧盟2020年2月,欧盟发
111、布了欧盟数字化战略、数据战略、人工智能战略。其核心思想亦是在建立联邦数据平台的基础上实现数据主权和技术主权,从而达到数字经济时代,国家竞争力提升和领先。同时,欧盟非常重视信息数据流通与个人权利保护相结合,在2018年5月发布了通用数据保护条例(GDPR),明确了个人数据定义和条例适用1.5.2 各国陆续出台法律法规,提升数据战略地位,加强数据安全保护力度1413范围。条例还确定了数据保护的合法性基础、数据主体权利、数据控制者义务、数据流通标准、数据救济和处罚等内容。通过GDPR,欧盟对出境的个人数据保持了高水平保护。同时,欧盟认为GDPR应该成为世界的标杆,在推动世界在数据战略方面向欧盟看齐。
112、因此GDPR也成为全球众多国家、地区制定数据保护条例的重要参考对象。高性能计算做为体现国家综合国力和信息化建设能力的“国之重器”,各国均频繁从国家层面启动研制计划。在中国多次上榜全球高性能计算TOP500后,高性能计算从产业链条和技术层面被遏制,中国E级和后E级高性能计算的发展遇到阻碍。在严峻的国际环境下,如何突破外部限制与封锁,保持我国超级计算机的持续发展,自主可控成为唯一出路!面对挑战,中国超算产业需要在超算系统体系结构的创新,关键技术的突破和软件硬件的协同上发力。近十几年,中国在超算关键根技术上不断加大投入和自主创新,初步完成了超算自主可控生态体系的建设。随着“天河”和“神威”超级计算机
113、、“飞腾”和“申威”处理器等标志性成果的出现,打破了长期以来国产超级计算机平台无“芯”可用的局面,奠定了安全、自主、可控的国产平台技术基础。在“磁退硅进”的全球发展趋势下,我国大力发展以半导体为核心的新一代闪存技术。目前我国企业已实现一部分关键技术的领先和芯片供货的国产化,具备了一定的产业基础。通过提升闪存等先进存储在超算存储系统占比,可以有效规避当前机械硬盘面临的卡脖子风险,进一步构筑自主可控数据底座。截至目前,中国在跨域数据管理系统、分布式并行文件系统以及超算集群等方面,相比国外厂家已取得优势;在超算/AI/大数据等应用生态、容器应用平台。以欧拉为代表的操作系统等均实现对国外厂家的追赶。中
114、国在存储性能、集群扩展、安全可信、绿色节能等领域充分体现了数据基础设施技术的先进性。1 数据密集型超算最新趋势数据密集型超算发展白皮书2023中国“数据基础设施”关键根技术有突破、有创新,可支持全栈自主可控1.6 随着超算系统规模的不断扩大和性能的不断提高,其能耗和散热问题日益突出。根据国际能源署的数据,全球超级计算机的能源消耗量已经超过了一些小国家的总能源消耗量。在当前可持续发展的宏观背景下,超级计算的能效不仅影响了超算的运行效率和可靠性,也关系到环境保护和资源利用效率。因此,提高超算系统的能效比和降低碳排放已经成为超算行业的重要目标。其中能效比是衡量计算机性能和能源消耗之间关系的指标,它表
115、示单位计算能力所消耗的能源量。下图是过去10年根据Green 500榜单公布的历年最佳超级计算机的能效比,虽然十年间能效比提升了10余倍,但是近两年持平,维持在60GFLOPS/W。1.7.1 超算系统商业应用和未来演进面临能效挑战为了解决超算系统的能源效率问题,研究人员和工程师们已经提出了一系列的解决方案。首先,改进硬件设计是提高能源效率的重要途径。例如,通过改进超级计算机的制造工艺,减少电子元件的能耗,提高能源利用效率;采用更先进的散热技术,如液冷技术和热管技术,可以提高散热效率,减少能耗。此外,研究人员还提出了一些新的功耗管理技术,如采用动态电压频率调整(DVFS)技术,根据负载情况动态
116、调整处理器的电压和频率,以降低功耗。其次,改进软件设计也是提高能源效率的关键。如通过优化并行计算算法和任务调度策略,减少计算过程中的能耗;另外,超级计算机的大规模数据处理和存储也是能耗的重要来源。通过采用数据压缩和存储优化技术,减少数据传输和存储过程中的能耗。最后,通过采用能耗感知的任务调度策略,根据不同任务的能耗需求和计算资源的能耗特性,合理调度任务,降低能耗。目前,国内超算中心在提能效、降排放方面涌现了很多优秀实践。国家超级计算无锡中心的神威太湖之光E级系统通过软硬协同的多层级功耗管理和基础设施“智冷”技术,等将能耗指标PUE值已降至1.22,实现年均节电量300万千瓦时。超级计算机的能源
117、效率是一个重要的研究领域,对于实现超算系统可持续发展具有重要意义。通过改进硬件设计和制造过程,优化软件设计,以及借助新的能源技术,可以有效提高超算系统的能源效率,减少能源消耗和环境负担。1.7.2 通过软硬件设计优化提升超级计算机能效,实现超算系统可持续发展目前中国已初步具备建立自主可控数据基础设施的条件,可基于端到端全栈完全自主能力构建安全可信的超算系统。1615目前超算系统性能和能效的提升速度之间有大概十多倍的差距,如果性能提升1000倍,能效可能只能提高不到100倍。现在E级计算机能耗大概50兆瓦,按此推算Z级计算机能耗大约在500兆瓦左右。从经济角度来说,P级计算机一年运营经费大概几千
118、万人民币,E级大概几个亿,而Z级一年运营经费需要几十个亿。超级计算机的高能耗也导致高昂的运营成本,限制了其在商业领域的应用。过去超算技术进步有两条路,包括单个芯片性能的提高,以及系统所含的处理器数量的提高,即并行规模的扩大。目前这两条路都碰到了天花板,芯片工艺逐渐接近极限,摩尔定律接近失效;而并行规模基于上述能效原因也不能再无限扩展。从超算系统的演进发展来看,提高能效迫在眉睫。图1-16 中国“数据基础设施”关键根技术持续突破创新,实现安全自主可控图1-17 近10年Green 500 最佳超算计算机能效比1 数据密集型超算最新趋势数据密集型超算发展白皮书2023具备端到端全栈自主可控能力鲲鹏
119、SSD控制器OceanStor Pacific HPDA集群EulerOS操作系统分布式并行文件系统跨域数据管理系统HPC/AI/大数据容器应用平台OceanFSGFS应用生态并跑并跑领跑领跑并跑领跑并跑追赶存储根技术分布式文件系统CPU处理器SSD控制器存储根技术是中国超算产业健康发展的基石坚持科技自立自强,发展自主可控数据基础设施数据基础设施技术先进4要素聚合带宽 10TB/s聚合IOPS 3亿IO时延 10TB/s聚合IOPS 3亿IO时延 训练数据NAS协议HDFS协议训练集数据索引数据多协议融合互通大容量层POSIX模型训练原始数据+训练+调优+评估-模型向量库动态混合负载向量存储加
120、速基础大模型训&推理GDS数据并行Node-1Node-12Node-nPOSIXCheckPointLOG张量并行预处理服务器格式标准化错误纠正异常数据清理重复数据清除智能分级全域数据管理跨域数据灾备热温冷智能分级数据安全可信推理应用输入数据+模型-Vector-应用向量库模型加载向量读取业务数据小文件、高IO行业模型训推一体化GPU1GPU2CPU1CPU2GPU3GPU4数据获取三方收集、网络爬取、边缘汇聚原始数据NAS协议/S3协议脱敏、合规、审批、汇聚全域数据管理高性能层边缘存储MP4ZIP边缘存储TXTJPG模型训练是由计算使用训练数据集对模型进行训练,不断调整模型参数,使其能够更
121、好地拟合数据。一般采用GDS或POSIX等高速接口满足动态混合负载的访问需求。推理应用是通过训练好的模型对输入数据进行处理,系统需要存储过程向量,完成明确目的的任务。多次训练需要频繁访问向量库,处理过程是对小文件的高频调取。GPT4未来训练数据可达PB级别,从单模态发展为兼容多模态,海量数据分配到不同CPU、GPU上并行计算,小文件存储被频繁读取,涉及到数据的频繁迁移,系统间的IO性能差异可能成为制约业务的瓶颈。资源的使用需要通过科学计算工作流进行管理和调度,以确保资源的充分利用和任务的高效完成。因此,加速AI全流程,需要系统支持多协议融合互通、支持混合负载的高性能访问、支持数据的全生命周期管
122、理。当前AI大模型训练有多种实现方式,早期的计算+共享存储+本地SSD盘的存储架构已无法满足大模型的未来发展要求。新的高性能、大容量、独立融合的统一数据基座正成为新的主流方案。(2)利用AI模型优化传统业务计算流,取得了愈加显著的效果例如:利用盘古AI大模型优化气象预报。传统业务把WRF、GFS、ECMWF、CAM等天气预测软件部署在超算上,软件求解物理方程进行预测,求解过程高频反复迭代,累积误差影响精度。如中国气象局台风路径预报精度很难控制在60km范围内,面临计算量大、高IO、耗时长(高IO)挑战,每天仅能进行2-3次预报,通过将原先的HPC数值模拟流程采用。通过采用大模型预测算法,使推理
123、过程迭代次数减少,累积误差减小,计算更加高效,实现10秒1分钟内出7天预报结果,每天可进行多次预报。气象人员还可根据经验通过构建多个数据模型初值,生成预报集合(集合预报),进一步提升预报的准确性。(1)从业务角度来看,各种应用需要不同的协议来支撑 随着业务应用的发展,一套超算常常需要支持多种业务应用。HPC业务采用S3、NFS、CIFS、SMB、标准POSIX、MPI-IO等协议访问,大数据业务采用HDFS、MapReduce等协议访问,AI业务采用NFS、标准POSIX等协议。面向未来业务应用的融合超算,需要支撑兼容业务应用的多种协议。(2)应用不断演进,新的协议还将层出不穷业务的交叉演进,
124、数据的不断增加,迫使应用不断演进出新的协议需求,如何面向未来,兼容新协议接口,做到系统内部改动最小,接口迭代开发,快速上线,对超算提出了新的要求。(3)超算应具备容器native承载能力容器作为一种轻量级的虚拟化技术,可以将应用程序及其依赖项打包成一个可移植的容器,通过让应用程序在不同的环境中运行,提高业务的部署效率和可靠性,减少部署时间和成本。容器化还可以实现快速扩容和缩容,以应对业务高峰期和低谷期的变化,提高了系统的弹性和可靠性。基于容器的技术优势,超算应具备容器native承载能力。随着业务的发展,还将涌现出更多协议、技术栈,未来的超算应支持多协议无损互通,支持多技术栈,具备持续演进能力
125、。2.2.1 应用快速发展,需要多协议融合互通能力支撑业务未来演进科学计算工作流是指在科学研究中,通过计算机模拟、数据分析、比对等方式,对实验数据进行处理和分析,从而得出科学结论的一系列流程。在现代科学研究中,计算已被广泛使用,然而不同应用的计算流程差异很大,不同环节对超算系统要求也不同,如何针对应用场景,支持计算流程是提升业务速率的关键,甚至直接决定了科研的商业转化率。(1)存储需要支持科学计算工作流,目录刷新以AI模型训练为例,业务流主要包括数据获取、数据预处理、模型训练和推理应用:数据获取主要是把多方获取的数据进行脱敏、合规、汇聚到边缘存储,再用NAS协议或S3协议统一存储到中心存储元数
126、据库中,作为原始数据。数据预处理是由预处理服务器对数据进行格式统一、错误纠正、异常数据清理、重复数据清理的过程。这步一般采用NAS协议或HDFS协议进行数据访问,最终形成训练集数据和索引数据集。2.2.2 数据分析广泛应用,需要支持科学计算工作流,提升业务效率 2019图示2-2 AI大模型业务全流程2 数据密集型超算技术架构数据密集型超算发展白皮书2023流程阶段计算处理流程数据处理流程数据预处理原始数据-训练数据NAS协议HDFS协议训练集数据索引数据多协议融合互通大容量层POSIX模型训练原始数据+训练+调优+评估-模型向量库动态混合负载向量存储加速基础大模型训&推理GDS数据并行Nod
127、e-1Node-12Node-nPOSIXCheckPointLOG张量并行预处理服务器格式标准化错误纠正异常数据清理重复数据清除智能分级全域数据管理跨域数据灾备热温冷智能分级数据安全可信推理应用输入数据+模型-Vector-应用向量库模型加载向量读取业务数据小文件、高IO行业模型训推一体化GPU1GPU2CPU1CPU2GPU3GPU4数据获取三方收集、网络爬取、边缘汇聚原始数据NAS协议/S3协议脱敏、合规、审批、汇聚全域数据管理高性能层边缘存储MP4ZIP边缘存储TXTJPG新一代E级超算,作为国家在新信息技术领域的重要部署,将有力驱动国家信息技术产业创新发展,研发适配国产超级计算系统的
128、关键技术和应用软件,构建新的国产E级超级计算应用生态。国家超级中心联合发布了“面向新一代国产E级超算系统的十大应用”,例如:面向通用人工智能的超大规模预训练模型、FAST超大规模观测数据的高分辨率巡天图像处理、全脑千亿神经元动力学仿真、完全分辨率的全球次中尺度海洋数值模拟等,以解决世界科技前沿、国家重大需求等重大挑战性问题。上述大规模应用对E级超算系统带来了如下挑战:(1)如何应对数万节点集群大规模并发访问:大规模RDMA连接导致内存资源开销大、网络交互端口冲突带来了长尾时延;(2)大规模应用如何应对整体系统可靠性:业界E级大规模集群MTBF较小,对CheckPoint具有较高依赖,业务效率对
129、BB性能带来更大挑战;(3)如何应对并发的作业间的互相干扰:IO性能无法达到预期,单系统利用率不高;(4)如何避免少量存储节点慢对整体速度的影响:少量存储节点处于亚健康状态,导致的短木板效应。BurstBuffer作为在E级超算中应用的一种高速缓存技术,需要提供近计算加速部署,突破性能和扩容性瓶颈,利用分布式计算的优势加速大规模应用计算问题的解决。同时,也要求计算节点和缓存节点根据拓扑关系分组配对,就近创建作业,作业间数据隔离。通过RDMA网络,实现大规模网络快速收敛,满足数万级计算扩展能力,支撑EF/10EF级超算系统大应用作业。2.3.2 E级大规模应用,需要近计算实现加速2221图示2-
130、3 气象AI大模型推理流程世界各大超算系统被广泛使用于需要高算力与高数据量的应用,而近年来人工智能的发展也使愈来愈多的与人工智能技术相结合,更进一步对超算系统的基础设施提出新的要求。如:自动驾驶应用随着自动驾驶技术由L3向L4演进,数据量倍增,每车每天可产生约60TB数据。数据收集导入阶段为PB级别的数据量写入,而预处理后的数据集写入即可对存储系统产生百GB/s的带宽需求。之后的训练阶段则需要从存储读出海量大小文件,要求存储提供百万级IOPS。而仿真阶段,亦要求存储提供百GB/s以上带宽。最后在推理阶段,应用的实时性要求数据读写时延在毫秒以下。AI大模型训练如GPT-3这样的大模型,拥有千亿级
131、参数,训练数据集可达几千亿级,而文件平均大小往往在10KB-500KB之间。训练阶段需要从存储快速加载海量小文件,要求存储系统提供千万级IOPS性能。而下一代的GPT-4大模型,则会要求存储提供亿级IOPS性能用于训练。同时,由于大模型训练的出错率较高,平均每天需要多次将体量较大的CheckPoint文件写入存储,而之后的模型评估也对存储系统中模型的读出有极高的带宽要求。这意味着存储系统需要能同时提供小文件的亿级IOPS读写,以及大文件的TB/s级别读写带宽。诸多应用在统一超算平台上同时运行,需要超算平台的数据存储系统能同时满足高性能计算(HPC)、人工智能(AI)、大数据分析(Big Dat
132、a)类别的数据访问。顺序大IO的带宽类、随机小IO的高IOPS类、批量元数据操作的OPS类、还有同时访问同一个文件的并行IO类这些数据访问包含不同的负载类型:批量元数据操作的OPS密集型小文件随机小IO的IOPS密集型 大文件顺序大IO的带宽密集型 2.3.1 HPC+AI+Big Data多样性应用,需要动态混合负载承载能力2 数据密集型超算技术架构数据密集型超算发展白皮书2023气象预报服务气象观测数据卫星数据雷达数据数据前处理后处理算法数据同化算法盘古气象大模型(AI)模型状态变量监测数据预报数据迭代反馈后处理系统热气球数据同化系统预报系统(AI大模型推理)Any Workload:多技
133、术融合带来多样负载,数据密集型超算应具备承载动态混合负载及应用加速能力2.3超算平台的数据存储系统需要设计动态均衡能力,以同时兼顾这几类负载,且在各种负载动态变化的时候能动态调配资源以最大程度优化各类IO性能。实现以应用为中心,面向高性能计算(HPC)、人工智能(AI)、大数据分析(Big Data)各类应用场景,发挥数据价值。图示2-4 Burst butter架构图数据加速(DataTurbo)机柜部署在计算节点附近,直接连接到计算框的L2网络,实现 50TB/s带宽,20亿IOPS能力近计算部署计算节点和缓存节点根据拓扑关系分组配对,就近创建作业。拓扑感知支持作业级FS,支持、,作业间数
134、据隔离,创、删避免无效。作业间抗干扰计算与存储RDMA通信网络融合,满足数2万+计算扩展能力,满足EF/10EF级超算支撑能力。大规模网络收敛计算层加速层存储层存储接入网络计算接入网络计算接入网络计算汇聚网络 智能分级SSD 存储池HDD 存储池DataTurboDataTurbo 新一代E级超算,作为国家在新信息技术领域的重要部署,将有力驱动国家信息技术产业创新发展,研发适配国产超级计算系统的关键技术和应用软件,构建新的国产E级超级计算应用生态。国家超级中心联合发布了“面向新一代国产E级超算系统的十大应用”,例如:面向通用人工智能的超大规模预训练模型、FAST超大规模观测数据的高分辨率巡天图
135、像处理、全脑千亿神经元动力学仿真、完全分辨率的全球次中尺度海洋数值模拟等,以解决世界科技前沿、国家重大需求等重大挑战性问题。上述大规模应用对E级超算系统带来了如下挑战:(1)如何应对数万节点集群大规模并发访问:大规模RDMA连接导致内存资源开销大、网络交互端口冲突带来了长尾时延;(2)大规模应用如何应对整体系统可靠性:业界E级大规模集群MTBF较小,对CheckPoint具有较高依赖,业务效率对BB性能带来更大挑战;(3)如何应对并发的作业间的互相干扰:IO性能无法达到预期,单系统利用率不高;(4)如何避免少量存储节点慢对整体速度的影响:少量存储节点处于亚健康状态,导致的短木板效应。Burst
136、Buffer作为在E级超算中应用的一种高速缓存技术,需要提供近计算加速部署,突破性能和扩容性瓶颈,利用分布式计算的优势加速大规模应用计算问题的解决。同时,也要求计算节点和缓存节点根据拓扑关系分组配对,就近创建作业,作业间数据隔离。通过RDMA网络,实现大规模网络快速收敛,满足数万级计算扩展能力,支撑EF/10EF级超算系统大应用作业。2.3.2 E级大规模应用,需要近计算实现加速2221图示2-3 气象AI大模型推理流程世界各大超算系统被广泛使用于需要高算力与高数据量的应用,而近年来人工智能的发展也使愈来愈多的与人工智能技术相结合,更进一步对超算系统的基础设施提出新的要求。如:自动驾驶应用随着
137、自动驾驶技术由L3向L4演进,数据量倍增,每车每天可产生约60TB数据。数据收集导入阶段为PB级别的数据量写入,而预处理后的数据集写入即可对存储系统产生百GB/s的带宽需求。之后的训练阶段则需要从存储读出海量大小文件,要求存储提供百万级IOPS。而仿真阶段,亦要求存储提供百GB/s以上带宽。最后在推理阶段,应用的实时性要求数据读写时延在毫秒以下。AI大模型训练如GPT-3这样的大模型,拥有千亿级参数,训练数据集可达几千亿级,而文件平均大小往往在10KB-500KB之间。训练阶段需要从存储快速加载海量小文件,要求存储系统提供千万级IOPS性能。而下一代的GPT-4大模型,则会要求存储提供亿级IO
138、PS性能用于训练。同时,由于大模型训练的出错率较高,平均每天需要多次将体量较大的CheckPoint文件写入存储,而之后的模型评估也对存储系统中模型的读出有极高的带宽要求。这意味着存储系统需要能同时提供小文件的亿级IOPS读写,以及大文件的TB/s级别读写带宽。诸多应用在统一超算平台上同时运行,需要超算平台的数据存储系统能同时满足高性能计算(HPC)、人工智能(AI)、大数据分析(Big Data)类别的数据访问。顺序大IO的带宽类、随机小IO的高IOPS类、批量元数据操作的OPS类、还有同时访问同一个文件的并行IO类这些数据访问包含不同的负载类型:批量元数据操作的OPS密集型小文件随机小IO
139、的IOPS密集型 大文件顺序大IO的带宽密集型2.3.1 HPC+AI+Big Data多样性应用,需要动态混合负载承载能力2 数据密集型超算技术架构数据密集型超算发展白皮书2023气象预报服务气象观测数据卫星数据雷达数据数据前处理后处理算法数据同化算法盘古气象大模型(AI)模型状态变量监测数据预报数据迭代反馈后处理系统热气球数据同化系统预报系统(AI大模型推理)Any Workload:多技术融合带来多样负载,数据密集型超算应具备承载动态混合负载及应用加速能力2.3超算平台的数据存储系统需要设计动态均衡能力,以同时兼顾这几类负载,且在各种负载动态变化的时候能动态调配资源以最大程度优化各类IO
140、性能。实现以应用为中心,面向高性能计算(HPC)、人工智能(AI)、大数据分析(Big Data)各类应用场景,发挥数据价值。图示2-4 Burst butter架构图支持作业级FS,支持、,作业间数据隔离,创、删避免无效。作业间抗干扰近计算部署数据加速(Burst butter)机柜部署在计算节点附近,直接连接到计算框的L2网络,实现 50TB/s带宽,20亿IOPS能力拓扑感知计算节点和缓存节点根据拓扑关系分组配对,就近创建作业。大规模网络收敛计算与存储RDMA通信网络融合,满足数2万+计算扩展能力,满足EF/10EF级超算支撑能力。计算层加速层存储层存储接入网络计算接入网络计算接入网络计
141、算汇聚网络 智能分级SSD 存储池HDD 存储池Burst butterBurst butter 对业务应用来讲,并不是所有的数据都具有相同的使用价值。随着时间的推移,有些数据被频繁访问,而有些数据很少被访问,有些数据甚至在最近几年内都没有被访问到。大量的低使用价值数据既占用了高性能、高可靠的宝贵的系统资源、严重影响性能,又占用了大量存储空间,但往往这些数据又由于政策法规、数据仓库建设等原因不能删除。如何解决这些不常用的数据的保存问题,是目前超算中心面临的数据管理问题之一。2.4.2 数据分级管理,应用无感访问传统超算的存储系统大多使用基于HDD构建的分布式文件系统,并配置一定比例的SSD作为
142、缓存以提升性能。而近年来,应用层面的新兴技术与传统业务结合,不断推高业务层面数据加载的性能需求。自动驾驶,AI大模型训练等场景共同在超算平台上运行,要求超算平台的存储系统提供近TB/s带宽性能;以及亿级IOPS性能。同时,在当前能源价格逐步走高以及双碳战略背景下,国家和地方政策对数据中心节能设计提出了新标准。工业和信息化部印发新型数据中心发展三年行动计划(2021-2023年)提出到2021年底,新建大型及以上数据中心PUE降低到1.35以下。到2023年底,新建大型及以上数据中心PUE降低到1.3以下,严寒和寒冷地区力争降低到1.25以下。政策要求数据中心内所有设备必须尽量降低能耗,而以HD
143、D为主的存储系统则无法满足政策的低能耗要求。超算中心的性能需求与节能需求,激发了超算中心对存储全闪化的诉求。同时由于技术的发展,SSD的成本也在不断走低,在数据密集型超算系统中使用SSD替代HDD成为主流存储介质成为可能。SSD所具备的以下优势,将助力超算中心实现更高效业务:高性能:SSD具有稳定可靠的高带宽、高IOPS、低时延性能保障。HDD中的数据被访问时,机械硬盘的磁片内圈和外圈会有3倍以上的性能差异,访问不同的数据块,时延会在310ms之间抖动。而全闪存储可采用从主机接口到硬盘的NVMe架构,确保访问任何数据都可以控制到单系统0.5ms以内。将单次访问时延从5ms降低到1ms。这使得S
144、SD既可以应对高带宽的性能需求,更适用于随机读写的高IOPS场景,并可以在两类场景中保持低时延。低功耗:SSD的平均工作功率约为HDD的20%-80%,而SSD在待机状态功率极低,约为HDD的1%以下。数据密集型超算系统中约有50%-70%数据为冷数据,存放于归档类存储设备中,且设备长期处于待机状态。而归档设备如使用全闪存储,则低功耗属性可帮助超算数据中心实现低碳目标。从分布式存储厂商来看,全闪硬件同样成为厂商硬件创新的主战场。通过使用全闪分布式存储,超算系统可以实现更高速、低延迟的数据存储和访问,从而提高上层业务处理效率和用户体验。全闪存储能很好的解决数据密集型超算中心的“性能墙”和“能耗墙
145、”两大挑战,分布式全闪存储替代已经成为超算存储的大趋势。2.3.3 超算“性能墙”和“能耗墙”两大挑战,推动分布式全闪存储替代势在必行2423打造从边缘中心协同新型数据平台,提供统一数据存储,能对数据进行跨域互联,跨域数据全局统一管理,数据在任何位置都能轻松就近访问,突破地域限制。在5G、云计算、人工智能等新一代信息技术快速发展的潮流中,超算中心作为各行各业的关键基础设施,为我国经济转型升级提供了重要支撑。在国家政策的有力指引下,传统数据中心加快向具有高技术、高算力、高能效、高安全特征的新型数据中心演进,新型超算中心是指以支撑经济社会数字转型、智能升级、融合创新为导向,具备安全可靠能力、提供高
146、效算力服务、赋能千行百业应用的新型基础设施。随着网络支撑能力不断提升,新型超算中心之间通过互联互通,算力水平也高效提升。算力与应用数据通过网络实现分散拉远的作用,把单一应用场景任务调用远程算力实现,把分散应用数据通过网络联接协同,把分散的算力与应用数据通过网络进行聚合。数据存储通过算力网络构建数据存储集群系统,实现对多DC全局设备互联和全局数据共享流动。通过全局文件系统组成全局名字空间,连通多个地域众多存储设备里的数据,探索数据调度/算力调度的应用场景,支撑上层应用跨域调度时必需的数据透明调度能力,助力应用业务流在不同存储场景下的平滑过渡和无缝衔接。全局文件系统(简称GFS)将分布在不同地域存
147、储设备中的非结构化数据跨地域实时同步,呈现相同的数据视图给所有地域的用户和应用,实现了数据按需、自定义流动,满足跨域分析(AI训练,大数据分析)等多种应用场景高效使用数据需求。数据存储在不同的超算中心,根据预定义的策略在不同地域的存储设备间同步或缓存数据,提供应用无感的数据流动与访问的能力;支持多站点协作和数据按需、自定义流动,构建全局任意位置、任意设备间的跨设备、跨集群、跨DC数据访问与流动、协作的基础能力,打破数据孤岛,孵化存储高级数据服务能力,实现数据价值发挥。2.4.1 算力和数据协同调度,数据全局可视2 数据密集型超算技术架构数据密集型超算发展白皮书2023Anywhere:多地域超
148、算互联,需要跨域全局数据统一管理能力2.4对业务应用来讲,并不是所有的数据都具有相同的使用价值。随着时间的推移,有些数据被频繁访问,而有些数据很少被访问,有些数据甚至在最近几年内都没有被访问到。大量的低使用价值数据既占用了高性能、高可靠的宝贵的系统资源、严重影响性能,又占用了大量存储空间,但往往这些数据又由于政策法规、数据仓库建设等原因不能删除。如何解决这些不常用的数据的保存问题,是目前超算中心面临的数据管理问题之一。2.4.2 数据分级管理,应用无感访问传统超算的存储系统大多使用基于HDD构建的分布式文件系统,并配置一定比例的SSD作为缓存以提升性能。而近年来,应用层面的新兴技术与传统业务结
149、合,不断推高业务层面数据加载的性能需求。自动驾驶,AI大模型训练等场景共同在超算平台上运行,要求超算平台的存储系统提供近TB/s带宽性能;以及亿级IOPS性能。同时,在当前能源价格逐步走高以及双碳战略背景下,国家和地方政策对数据中心节能设计提出了新标准。工业和信息化部印发新型数据中心发展三年行动计划(2021-2023年)提出到2021年底,新建大型及以上数据中心PUE降低到1.35以下。到2023年底,新建大型及以上数据中心PUE降低到1.3以下,严寒和寒冷地区力争降低到1.25以下。政策要求数据中心内所有设备必须尽量降低能耗,而以HDD为主的存储系统则无法满足政策的低能耗要求。超算中心的性
150、能需求与节能需求,激发了超算中心对存储全闪化的诉求。同时由于技术的发展,SSD的成本也在不断走低,在数据密集型超算系统中使用SSD替代HDD成为主流存储介质成为可能。SSD所具备的以下优势,将助力超算中心实现更高效业务:高性能:SSD具有稳定可靠的高带宽、高IOPS、低时延性能保障。HDD中的数据被访问时,机械硬盘的磁片内圈和外圈会有3倍以上的性能差异,访问不同的数据块,时延会在310ms之间抖动。而全闪存储可采用从主机接口到硬盘的NVMe架构,确保访问任何数据都可以控制到单系统0.5ms以内。将单次访问时延从5ms降低到1ms。这使得SSD既可以应对高带宽的性能需求,更适用于随机读写的高IO
151、PS场景,并可以在两类场景中保持低时延。低功耗:SSD的平均工作功率约为HDD的20%-80%,而SSD在待机状态功率极低,约为HDD的1%以下。数据密集型超算系统中约有50%-70%数据为冷数据,存放于归档类存储设备中,且设备长期处于待机状态。而归档设备如使用全闪存储,则低功耗属性可帮助超算数据中心实现低碳目标。从分布式存储厂商来看,全闪硬件同样成为厂商硬件创新的主战场。通过使用全闪分布式存储,超算系统可以实现更高速、低延迟的数据存储和访问,从而提高上层业务处理效率和用户体验。全闪存储能很好的解决数据密集型超算中心的“性能墙”和“能耗墙”两大挑战,分布式全闪存储替代已经成为超算存储的大趋势。
152、2.3.3 超算“性能墙”和“能耗墙”两大挑战,推动分布式全闪存储替代势在必行2423打造从边缘中心协同新型数据平台,提供统一数据存储,能对数据进行跨域互联,跨域数据全局统一管理,数据在任何位置都能轻松就近访问,突破地域限制。在5G、云计算、人工智能等新一代信息技术快速发展的潮流中,超算中心作为各行各业的关键基础设施,为我国经济转型升级提供了重要支撑。在国家政策的有力指引下,传统数据中心加快向具有高技术、高算力、高能效、高安全特征的新型数据中心演进,新型超算中心是指以支撑经济社会数字转型、智能升级、融合创新为导向,具备安全可靠能力、提供高效算力服务、赋能千行百业应用的新型基础设施。随着网络支撑
153、能力不断提升,新型超算中心之间通过互联互通,算力水平也高效提升。算力与应用数据通过网络实现分散拉远的作用,把单一应用场景任务调用远程算力实现,把分散应用数据通过网络联接协同,把分散的算力与应用数据通过网络进行聚合。数据存储通过算力网络构建数据存储集群系统,实现对多DC全局设备互联和全局数据共享流动。通过全局文件系统组成全局名字空间,连通多个地域众多存储设备里的数据,探索数据调度/算力调度的应用场景,支撑上层应用跨域调度时必需的数据透明调度能力,助力应用业务流在不同存储场景下的平滑过渡和无缝衔接。全局文件系统(简称GFS)将分布在不同地域存储设备中的非结构化数据跨地域实时同步,呈现相同的数据视图
154、给所有地域的用户和应用,实现了数据按需、自定义流动,满足跨域分析(AI训练,大数据分析)等多种应用场景高效使用数据需求。数据存储在不同的超算中心,根据预定义的策略在不同地域的存储设备间同步或缓存数据,提供应用无感的数据流动与访问的能力;支持多站点协作和数据按需、自定义流动,构建全局任意位置、任意设备间的跨设备、跨集群、跨DC数据访问与流动、协作的基础能力,打破数据孤岛,孵化存储高级数据服务能力,实现数据价值发挥。2.4.1 算力和数据协同调度,数据全局可视2 数据密集型超算技术架构数据密集型超算发展白皮书2023Anywhere:多地域超算互联,需要跨域全局数据统一管理能力2.4当发生自然灾害
155、、人为灾难(例如操作错误)的情况下,数据中心有可能出现整体故障不可用的状况,即数据中心故障,此时业务的稳定与连续性将受到极大的挑战。若遇到数据中心故障时,保证数据持续可访问、业务的稳定不中断,需要通过将业务系统能切换到其他可用数据中心(站点),继续承接业务。业务数据要能通过有效的方式复制到远端集群,一旦主数据中心(站点)出现故障(包括自然灾害、掉电、误操作导致的站点整体故障),上层应用将业务请求调度到其他数据中心(站点)继续提供服务。采用多活数据中心功能保障在多个数据中心间实现负载均衡和灾难自动切换。多活数据中心指两个或多个数据中心均处于运行状态,可以同时承担生产业务,提高数据中心的整体服务能
156、力和系统资源利用率。使用多活架构,为客户提供多活能力,确保业务系统发生设备故障、甚至单数据中心故障时,自动切换,实现RPO(Recovery Point Objective)=0,RTO(Recovery Time Objective)0(RTO与应用系统及部署方式有关),保障数据持续可访问、业务永远在线。2.5.2 应对灾难事件时生产中断挑战,超算平台稳定性设计保障业务永远在线随着信息化技术的飞速发展,业务流程的数字化已覆盖几乎所有领域。超算平台作为业务数字化的承载,与核心的业务是绑定关系。超算平台的崩溃会直接引起业务的中断,往往会导致巨大的经济损失、影响品牌形象并可能导致重要数据丢失;超算
157、系统被攻击,核心数据将会受到直接威胁。因此,保障超算平台的安全、稳定与可靠至关重要。超算平台对于安全的保障,最基本的是要解决供应链安全问题,还需要做好面对病毒攻击的应对与防范,同时确保业务运行过程中的数据0泄密风险。1、抵御病毒攻击病毒攻击通过隐藏在软件和文件中进行传播,存储系统中保存了大量用户的文件,这些文件存在病毒感染的巨大风险。勒索软件作为病毒的一种,是黑客用来劫持用户资产或资源实施勒索的一种恶意程序,黑客利用勒索软件,通过加密用户数据、更改配置等方式,使用户资产或资源无法正常使用,并以此为条件要求用户支付费用以获得解密密码或者恢复系统正常运行。保障超算平台的业务安全,防病毒与防勒索是首
158、要任务。1)防病毒防病毒功能需要支持实时文件扫描(On-Ac-cess Scan)和按需文件扫描(On-Demand Scan);同时支持配置扫描策略、创建配置扫描任务、监控防病毒服务进度等功能;支持防病毒日志的导出和转储。通过以上防病毒功能实现,在面对病毒攻击的状况下,如果使用实时防病毒扫描检测的方式,存储终端用户在打开文件或执行写操作后关闭文件,会触发实时防病毒扫描处理,能够快速准确地将病毒文件进行清除隔离;如果使用按需防病毒扫描检测的方式,存储管理员自主创建多个按需扫描任务,定义需要扫描的命名空间,系统执行按需扫描,并记录扫描日志,对感染病毒的文件进行清除隔离。2)防勒索 面对勒索病毒攻
159、击,一方面,需要提高网络侧的防护能力,减少被攻破的可能性;另一方面,通过防勒索技术,需要提升数据安全的韧性能力,当网络侧漏防,应有效防止数据被加密、及时预警勒索2.5.1 应对数据风险与业务风险挑战,超算平台进行全方面安全保障2625病毒攻击行为,以及当生产数据遭到加密、甚至整个数据中心被“污染”后,可提供一份完整、干净的数据副本,及时有效的恢复业务系统。2、防止数据泄密数据流转、融合、使用更加频繁,数据成为重要的生产要素,数据正经历着从资源到资产再到资本的蜕变,数据安全问题面临新的挑战。当前数据存储的非法访问、盗用和滥用的风险日益增大,并且针对数据的泄密事件影响大。在数据安全法中,明确提出了
160、重要数据加密要求。面对大规模数据的加密要求,目前业界较常采取的从应用层加密的方式面临两个巨大挑战。一个是存量应用的业务改造难以短期完成,部分应用甚至无法改造;一个是大规模数据加密的性能挑战,应用加密性能下降对业务造成较大影响。通过在存储层提供高性能的国密加密能力,可以免去业务应用改造工作,在性能方面获得比应用层改造较大提升,使用内置加密引擎完成静态数据的加密。通过数据加密技术,在面对生产中心数据泄露的情况下,能够保障非授权人员对泄露数据不可读,保护数据机密。3、保障供应安全司法管辖权归属国外政府的海外开源及商业文件系统,中国对海外资源的信息受到封闭,无法做到供应的安全与自主可控,极易受到海外的
161、限制及漏洞攻击。对超算平台端到端供应安全、自主可控的需求日益强烈。超算平台的供应安全与自主可控,需要做到存储自主可控、网络自主可控、平台自主可控。存储自主可控要求数据存储的采用国产CPU芯片,自主可控的数据存储介质,自主可控的数据存储网络以及自研数据存储软件,全方位确保存储的自主可控。采用操作系统与国产CPU构建网络控制系统,保障信息传输安全、产品供应无风险,实现网络自主可控。全栈国产芯片、软件栈、编程框架解决卡脖子问题,实现平台自主可控。通过端到端全栈自主可控设计,实现供应链零风险,保障供应安全与自主可控。2 数据密集型超算技术架构数据密集型超算发展白皮书2023Any Condition:
162、全方位可信设计,保障业务永远在线,数据永不丢失2.5智能数据分级允许将同一个存储池内的不同类型物理节点划分成不同的硬盘池,通过数据放置、搬迁和删除完成对数据的生命周期管理。将高价值的文件放置在高可用性、高性能的存储设备上;低价值的文件放置在成本较低的、性能和可用性规格较低的设备上。不同的硬盘池组成一个统一资源池,通过统一的命名空间访问,支持应用程序在分级存储和跨地域的情况下,具有一致的访问体验。当发生自然灾害、人为灾难(例如操作错误)的情况下,数据中心有可能出现整体故障不可用的状况,即数据中心故障,此时业务的稳定与连续性将受到极大的挑战。若遇到数据中心故障时,保证数据持续可访问、业务的稳定不中
163、断,需要通过将业务系统能切换到其他可用数据中心(站点),继续承接业务。业务数据要能通过有效的方式复制到远端集群,一旦主数据中心(站点)出现故障(包括自然灾害、掉电、误操作导致的站点整体故障),上层应用将业务请求调度到其他数据中心(站点)继续提供服务。采用多活数据中心功能保障在多个数据中心间实现负载均衡和灾难自动切换。多活数据中心指两个或多个数据中心均处于运行状态,可以同时承担生产业务,提高数据中心的整体服务能力和系统资源利用率。使用多活架构,为客户提供多活能力,确保业务系统发生设备故障、甚至单数据中心故障时,自动切换,实现RPO(Recovery Point Objective)=0,RTO(
164、Recovery Time Objective)0(RTO与应用系统及部署方式有关),保障数据持续可访问、业务永远在线。2.5.2 应对灾难事件时生产中断挑战,超算平台稳定性设计保障业务永远在线随着信息化技术的飞速发展,业务流程的数字化已覆盖几乎所有领域。超算平台作为业务数字化的承载,与核心的业务是绑定关系。超算平台的崩溃会直接引起业务的中断,往往会导致巨大的经济损失、影响品牌形象并可能导致重要数据丢失;超算系统被攻击,核心数据将会受到直接威胁。因此,保障超算平台的安全、稳定与可靠至关重要。超算平台对于安全的保障,最基本的是要解决供应链安全问题,还需要做好面对病毒攻击的应对与防范,同时确保业务
165、运行过程中的数据0泄密风险。1、抵御病毒攻击病毒攻击通过隐藏在软件和文件中进行传播,存储系统中保存了大量用户的文件,这些文件存在病毒感染的巨大风险。勒索软件作为病毒的一种,是黑客用来劫持用户资产或资源实施勒索的一种恶意程序,黑客利用勒索软件,通过加密用户数据、更改配置等方式,使用户资产或资源无法正常使用,并以此为条件要求用户支付费用以获得解密密码或者恢复系统正常运行。保障超算平台的业务安全,防病毒与防勒索是首要任务。1)防病毒防病毒功能需要支持实时文件扫描(On-Ac-cess Scan)和按需文件扫描(On-Demand Scan);同时支持配置扫描策略、创建配置扫描任务、监控防病毒服务进度
166、等功能;支持防病毒日志的导出和转储。通过以上防病毒功能实现,在面对病毒攻击的状况下,如果使用实时防病毒扫描检测的方式,存储终端用户在打开文件或执行写操作后关闭文件,会触发实时防病毒扫描处理,能够快速准确地将病毒文件进行清除隔离;如果使用按需防病毒扫描检测的方式,存储管理员自主创建多个按需扫描任务,定义需要扫描的命名空间,系统执行按需扫描,并记录扫描日志,对感染病毒的文件进行清除隔离。2)防勒索面对勒索病毒攻击,一方面,需要提高网络侧的防护能力,减少被攻破的可能性;另一方面,通过防勒索技术,需要提升数据安全的韧性能力,当网络侧漏防,应有效防止数据被加密、及时预警勒索2.5.1 应对数据风险与业务
167、风险挑战,超算平台进行全方面安全保障2625病毒攻击行为,以及当生产数据遭到加密、甚至整个数据中心被“污染”后,可提供一份完整、干净的数据副本,及时有效的恢复业务系统。2、防止数据泄密数据流转、融合、使用更加频繁,数据成为重要的生产要素,数据正经历着从资源到资产再到资本的蜕变,数据安全问题面临新的挑战。当前数据存储的非法访问、盗用和滥用的风险日益增大,并且针对数据的泄密事件影响大。在数据安全法中,明确提出了重要数据加密要求。面对大规模数据的加密要求,目前业界较常采取的从应用层加密的方式面临两个巨大挑战。一个是存量应用的业务改造难以短期完成,部分应用甚至无法改造;一个是大规模数据加密的性能挑战,
168、应用加密性能下降对业务造成较大影响。通过在存储层提供高性能的国密加密能力,可以免去业务应用改造工作,在性能方面获得比应用层改造较大提升,使用内置加密引擎完成静态数据的加密。通过数据加密技术,在面对生产中心数据泄露的情况下,能够保障非授权人员对泄露数据不可读,保护数据机密。3、保障供应安全司法管辖权归属国外政府的海外开源及商业文件系统,中国对海外资源的信息受到封闭,无法做到供应的安全与自主可控,极易受到海外的限制及漏洞攻击。对超算平台端到端供应安全、自主可控的需求日益强烈。超算平台的供应安全与自主可控,需要做到存储自主可控、网络自主可控、平台自主可控。存储自主可控要求数据存储的采用国产CPU芯片
169、,自主可控的数据存储介质,自主可控的数据存储网络以及自研数据存储软件,全方位确保存储的自主可控。采用操作系统与国产CPU构建网络控制系统,保障信息传输安全、产品供应无风险,实现网络自主可控。全栈国产芯片、软件栈、编程框架解决卡脖子问题,实现平台自主可控。通过端到端全栈自主可控设计,实现供应链零风险,保障供应安全与自主可控。2 数据密集型超算技术架构数据密集型超算发展白皮书2023Any Condition:全方位可信设计,保障业务永远在线,数据永不丢失2.5智能数据分级允许将同一个存储池内的不同类型物理节点划分成不同的硬盘池,通过数据放置、搬迁和删除完成对数据的生命周期管理。将高价值的文件放置
170、在高可用性、高性能的存储设备上;低价值的文件放置在成本较低的、性能和可用性规格较低的设备上。不同的硬盘池组成一个统一资源池,通过统一的命名空间访问,支持应用程序在分级存储和跨地域的情况下,具有一致的访问体验。解决方案级可靠 本地数据保护 站点级数据保护系统级可靠 数据冗余保护 数据完整性保护 盘、网络亚健康管理节点级可靠 掉电保护 链路聚合及亚健康智能测试 节点自愈保护 快速感知节点故障,快速故障切换组件级可靠 器件 硬盘 整机 I/O超算随着算力多样化,新兴应用不断涌现,数据量也随之高速增长,数据管理效率越来越低下,如何实现海量数据的高效管理,面临着三大挑战:第一,数据资产量大,评估维度众多
171、,针对海量数据的统计手段匮乏,数据盘点异常困难,无法有效精确的规划IT投资。第二,数据存储系统孤岛严重,需要面对未来业务数据多样管理复杂、数据分散、信息收集耗时、数据量大检索效率低的问题。第三,缺少数据智能分析有效手段,市面常见的性能监控方法指标单一,无联动,数据分析利用价值很低。针对以上三大挑战,数据密集型超算需要更直观、更高效、更智能的统一数据管理手段。第一,在数据管理效率方面,平台需要提供自定义报表统计,支撑多维度资源分析,包括容量、性能、分布、趋势等,使用户可以集中监控数据中心整体运行状态以及健康状态,实现业务及运维可视化,辅助业务决策。第二,解决数据孤岛问题,平台对跨地域、跨系统的数
172、据提供统一元数据管理,提供统一元数据检索能力和多维数据透视能力,实现全局数据冷热分布、冗余分布、容量分布、类型统计等,为用户准确及时决策提供有力支撑。2.6.3 数据全生命周期管理,夯实高效、全面、智能的数据底座 随着业务的快速增长,数据密集型超算系统的规模变得越来越大,建设模式从分散式走向集约化,跨域协同成为超算业务的新常态,大规模跨地域的数据密集型超算管理面临着巨大挑战,提供统一智能全视角的管理平台成为基础能力。提供全视角的可视化管理,和多维度视图透视能力,让各个维度的系统状态看得见、看得清,大幅提升用户管理效率,降低系统运维难度。超算平台需要通过模块级可靠性、节点级可靠性、系统级可靠性、
173、解决方案级可靠性等专业设计,以及精准的制造加工、系统运维管理等,来提供高可靠性。使用灵活的数据故障域安全布局和冗余保护策略,并通过端到端的数据完整性保护和各种故障场景下的数据保护设计,实现数据信息的高可靠存储和业务处理,和对本地的数据提供保护;使用数据中心灾备的技术,保障在极端数据中心故障的情况下,对整体数据进行保护,保障数据永远不丢失。目前超算中心设备类型复杂,计算、网络、存储等不同系统管理方式存在差异,再加上超算中心规模日益扩大,设备运维管理效率也愈发降低。首先,对于不同设备类型管理,需要统一界面管理硬2.6.1 统一设备管理系统,提升运维管理效率超算系统建设模式逐步走向集约化,大部分用户
174、作业需要跨域协同成为新的特征,协调好多个跨域超算系统资源,提高超算系统资源利用率,统一高效的作业管理和调度系统必不可少。针对多集群系统形成的超算互联系统,需要解决好统一数据视图、跨域的高效数据访问和算力均衡利用等问题。在系统作业管理调度层面,基于数据安全和权限管控体系,通过统一的管理和调度系统,实现让数据贴近计算,让任务找到合适的算力,结合应用对资源的性能和优先级要求,实现一体化的多集群超算互联系统。统一高效的新型作业管理系统成为打开超算互联大门的钥匙。2.6.2 超算建设模式走向集约化,需要统一高效的作业管理数据中心往往不可避免地发生设备故障,甚至极端情况下的数据中心故障。其中设备故障指设备
175、的硬件、软件出现损坏和故障,例如磁盘损坏、节点故障、网络故障等。如何在设备故障甚至数据中心故障的情况下做到整个系统的可用、数据永远不丢失,是面临的一个挑战与难题。2.5.3 数字资产作为企业核心财富,存储数据要做到永远可靠不丢失2827图示2-5 可靠性架构图2 数据密集型超算技术架构数据密集型超算发展白皮书2023Any View:多应用场景的统一智能管理平台提升管理效率2.6件基础设施,实现设备集中管理,解决不同设备类型管理的问题,提升用户的运维效率。其次,在设备运维方面,用户无法实时直观地了解和监控各个数据中心资源的运行情况,运维人员对故障的定界、定位困难。最后,在资源管理方面,传统业务
176、的部署和扩容方式无法灵活应对突发的流量,需要在突发之前做出预判并添加物理资源。面对以上挑战,第一,智能管理平台需要实现统一界面对数据中心不同硬件设备的管理,包括管理物理服务器,交换机、存储设备等,解决对不同设备类型的管理困难问题。第二,在设备运维方面,平台不仅需要支持对设备的监控还支持对不同设备进行配置和维护操作,还需要周期性的对相关设备进行健康检测,对设备健康度进行智能预测,让用户提前识别异常指标,提高运维效率。第三,在资源优化方面,通过智能管理帮助用户对资源及时进行调整,保证资源承载业务的平稳运行。因此,用户可以在统一界面上完成对数据中心基础设施的集中管理,提升运维效率。解决方案级可靠 本
177、地数据保护 站点级数据保护系统级可靠 数据冗余保护 数据完整性保护 盘、网络亚健康管理节点级可靠 掉电保护 链路聚合及亚健康智能测试 节点自愈保护 快速感知节点故障,快速故障切换组件级可靠 器件 硬盘 整机 I/O超算随着算力多样化,新兴应用不断涌现,数据量也随之高速增长,数据管理效率越来越低下,如何实现海量数据的高效管理,面临着三大挑战:第一,数据资产量大,评估维度众多,针对海量数据的统计手段匮乏,数据盘点异常困难,无法有效精确的规划IT投资。第二,数据存储系统孤岛严重,需要面对未来业务数据多样管理复杂、数据分散、信息收集耗时、数据量大检索效率低的问题。第三,缺少数据智能分析有效手段,市面常
178、见的性能监控方法指标单一,无联动,数据分析利用价值很低。针对以上三大挑战,数据密集型超算需要更直观、更高效、更智能的统一数据管理手段。第一,在数据管理效率方面,平台需要提供自定义报表统计,支撑多维度资源分析,包括容量、性能、分布、趋势等,使用户可以集中监控数据中心整体运行状态以及健康状态,实现业务及运维可视化,辅助业务决策。第二,解决数据孤岛问题,平台对跨地域、跨系统的数据提供统一元数据管理,提供统一元数据检索能力和多维数据透视能力,实现全局数据冷热分布、冗余分布、容量分布、类型统计等,为用户准确及时决策提供有力支撑。2.6.3 数据全生命周期管理,夯实高效、全面、智能的数据底座随着业务的快速
179、增长,数据密集型超算系统的规模变得越来越大,建设模式从分散式走向集约化,跨域协同成为超算业务的新常态,大规模跨地域的数据密集型超算管理面临着巨大挑战,提供统一智能全视角的管理平台成为基础能力。提供全视角的可视化管理,和多维度视图透视能力,让各个维度的系统状态看得见、看得清,大幅提升用户管理效率,降低系统运维难度。超算平台需要通过模块级可靠性、节点级可靠性、系统级可靠性、解决方案级可靠性等专业设计,以及精准的制造加工、系统运维管理等,来提供高可靠性。使用灵活的数据故障域安全布局和冗余保护策略,并通过端到端的数据完整性保护和各种故障场景下的数据保护设计,实现数据信息的高可靠存储和业务处理,和对本地
180、的数据提供保护;使用数据中心灾备的技术,保障在极端数据中心故障的情况下,对整体数据进行保护,保障数据永远不丢失。目前超算中心设备类型复杂,计算、网络、存储等不同系统管理方式存在差异,再加上超算中心规模日益扩大,设备运维管理效率也愈发降低。首先,对于不同设备类型管理,需要统一界面管理硬2.6.1 统一设备管理系统,提升运维管理效率超算系统建设模式逐步走向集约化,大部分用户作业需要跨域协同成为新的特征,协调好多个跨域超算系统资源,提高超算系统资源利用率,统一高效的作业管理和调度系统必不可少。针对多集群系统形成的超算互联系统,需要解决好统一数据视图、跨域的高效数据访问和算力均衡利用等问题。在系统作业
181、管理调度层面,基于数据安全和权限管控体系,通过统一的管理和调度系统,实现让数据贴近计算,让任务找到合适的算力,结合应用对资源的性能和优先级要求,实现一体化的多集群超算互联系统。统一高效的新型作业管理系统成为打开超算互联大门的钥匙。2.6.2 超算建设模式走向集约化,需要统一高效的作业管理数据中心往往不可避免地发生设备故障,甚至极端情况下的数据中心故障。其中设备故障指设备的硬件、软件出现损坏和故障,例如磁盘损坏、节点故障、网络故障等。如何在设备故障甚至数据中心故障的情况下做到整个系统的可用、数据永远不丢失,是面临的一个挑战与难题。2.5.3 数字资产作为企业核心财富,存储数据要做到永远可靠不丢失
182、2827图示2-5 可靠性架构图2 数据密集型超算技术架构数据密集型超算发展白皮书2023Any View:多应用场景的统一智能管理平台提升管理效率2.6件基础设施,实现设备集中管理,解决不同设备类型管理的问题,提升用户的运维效率。其次,在设备运维方面,用户无法实时直观地了解和监控各个数据中心资源的运行情况,运维人员对故障的定界、定位困难。最后,在资源管理方面,传统业务的部署和扩容方式无法灵活应对突发的流量,需要在突发之前做出预判并添加物理资源。面对以上挑战,第一,智能管理平台需要实现统一界面对数据中心不同硬件设备的管理,包括管理物理服务器,交换机、存储设备等,解决对不同设备类型的管理困难问题
183、。第二,在设备运维方面,平台不仅需要支持对设备的监控还支持对不同设备进行配置和维护操作,还需要周期性的对相关设备进行健康检测,对设备健康度进行智能预测,让用户提前识别异常指标,提高运维效率。第三,在资源优化方面,通过智能管理帮助用户对资源及时进行调整,保证资源承载业务的平稳运行。因此,用户可以在统一界面上完成对数据中心基础设施的集中管理,提升运维效率。山河超级计算平台神威蓝光神威E级原型机机器峰值性能 60Pflops总存储容量 200PB网络带宽1TB/s人工智能计算峰值性能 1000Pops集群管理操作系统作业调度Slurm AIP PBS数学计算库MPI通信库编译环境驱动容灾备份微服务负
184、载均衡数据隔离鉴权认证监控报警山河HPC山河云易算云并行云人工智能更多气候气象材料科学生物医院大科学装置工业仿真更多VASPWRFOpenFOAMANSYSLammps更多TensorFlow应用生态覆盖领域应用软件基础设施层基础服务层服务支撑层应用层为同时满足HPC平台、AI平台及云平台各集群的数据存储需求,国超济南中心规划建设存储系统容量200PB,涵盖高性能存储系统、对象存储、块存储、NAS存储,可满足各类应用对存储的需求。其中,高性能文件存储系统配套的全闪存储系统容量15PB。国超济南中心采用统一存储底座,凭借百G节点互联网络,千万级IOPS超算主存系统,完全能满足超算综合场景高带宽及
185、高IOPS等性能需求,提升业务效率,加速业务创新;整体带宽超1000GB/s,有效解决资源抢占拉低整体体作业效率的问题。同时,采用数据图像压缩算法,进一步提升存储空间利用率,大大降低海量数据的存储成本,为超算中心持续发展降本增效。3.1.3 国超济南中心采用统一存储底座,打造标杆级新型超算中心扩容后的国超济南中心具备国内HPC领域容量最大、性能最高的全闪存阵列集群,可解决国超济南中心当前面临的块、对象、文件互访难题,打通数据流通,促进数据跨域创新,为未来创新业务探索持续助力。3.1.4 统一存力底座助力国超济南中心成就超算标杆“国家超级计算济南中心”建有中国首台全部采用国产CPU和系统软件构建
186、的千万亿次计算机系统,标志着中国成为继美国、日本之后能够采用自主CPU构建千万亿次计算机的国家。科技强国政策背景下,我国开始大力发展和推进HPC事业,建立隶属于科技部的国家超级计算中心,用于发展高性能计算相关产业与应用。截至2021年,科技部批准建立了国家超算济南中心、国家超算天津中心、国家超算深圳中心等八所国家超级计算中心。目前,国超济南中心正在主导山东省“超算互联网工程”,研制建设算力领先的多元算力集群,通过根植山东、覆盖全国、辐射全球的超算互联网建设,构建“E级超算、人工智能、大数据、工业互联网”等大科学装置集群,形成国际一流的“超算大脑”,力争成为推动国家基础科学进步和重大技术攻关,并
187、实现自主可控的超算中心,助力山东省成为“新动能”的最前沿。3.1.1 国超济南中心发展势头迅猛,构建引领全球科技发展的“最强大脑”人工智能、大数据等新型应用进入到超算科研领域,推动济南超算改革创新发展,由单一计算服务向计算加多元数据处理服务变化。面临变化和挑战,国超济南中心积极创新改革中。挑战一:数据量的激增,带来传输与存储成本的 挑 战。国 超 济 南 中 心 规 划 存 储 可 用 空 间 为200PB,数据量变大有两个原因:一是参与计算的原始数据不仅多且杂;二是数据多环节处理计算,带来数据的过度膨胀。伴随人工智能及大数据等新兴产业的爆炸式增长,超算需要处理更多数据,既有结构化数据又有非结
188、构化数据,而在线传输这些数据可能需耗费数周,拷贝TB-PB级数据时更是要耗费数月,这些都是超算中心在转型过程中无法规避的难题,例如卫星遥感场景需要进行PB级的数据存储,TB级传输速率来支撑grace软件高通量并行数据加工与处理作业。挑战二:存储资源抢占导致整体计算效率不高。当前多数超算场景为多任务、多并发计算,一些作业对带宽要求很高,另一些对IOPS要求高,多任务并发造成存储资源抢占,则会导致整体计算效率被拉低。例如生命科学作业等大带宽类作业增多时,传统存储会因资源抢占,计算效率降低50%,CPU利用率不足30%,从而影响整个超算中心的作业效率。挑战三:国超济南中心业务在与传统数据中心类业务融
189、合过程中,也面临着数据管理及数据孤岛的挑战。在提供如人工计算、大数据、虚拟化和灾备等多元化服务时,面对万级用户群体及各种数据形3.1.2 面对海量数据存储和计算效率的挑战,国超济南中心积极追求HPC架构转型3029图示3-1 国超济南中心方案架构数据密集型超算优秀实践式的读写(如文件存储、虚拟化的块存储、AI的对象存储、大数据的HDFS存储等),都会增加管理难度,且数据间易呈现割裂的孤岛状态。如何让数据流动起来进而促进跨域创新,是国超济南中心急需解决的问题。3 数据密集型超算优秀实践数据密集型超算发展白皮书2023国家超算济南中心:打造中国最大规模数据密集型超算应用标杆3.1山河超级计算平台神
190、威蓝光神威E级原型机机器峰值性能 60Pflops总存储容量 200PB网络带宽1TB/s人工智能计算峰值性能 1000Pops集群管理操作系统作业调度Slurm AIP PBS数学计算库MPI通信库编译环境驱动容灾备份微服务负载均衡数据隔离鉴权认证监控报警山河HPC山河云易算云并行云人工智能更多气候气象材料科学生物医院大科学装置工业仿真更多VASPWRFOpenFOAMANSYSLammps更多TensorFlow应用生态覆盖领域应用软件基础设施层基础服务层服务支撑层应用层为同时满足HPC平台、AI平台及云平台各集群的数据存储需求,国超济南中心规划建设存储系统容量200PB,涵盖高性能存储系
191、统、对象存储、块存储、NAS存储,可满足各类应用对存储的需求。其中,高性能文件存储系统配套的全闪存储系统容量15PB。国超济南中心采用统一存储底座,凭借百G节点互联网络,千万级IOPS超算主存系统,完全能满足超算综合场景高带宽及高IOPS等性能需求,提升业务效率,加速业务创新;整体带宽超1000GB/s,有效解决资源抢占拉低整体体作业效率的问题。同时,采用数据图像压缩算法,进一步提升存储空间利用率,大大降低海量数据的存储成本,为超算中心持续发展降本增效。3.1.3 国超济南中心采用统一存储底座,打造标杆级新型超算中心扩容后的国超济南中心具备国内HPC领域容量最大、性能最高的全闪存阵列集群,可解
192、决国超济南中心当前面临的块、对象、文件互访难题,打通数据流通,促进数据跨域创新,为未来创新业务探索持续助力。3.1.4 统一存力底座助力国超济南中心成就超算标杆“国家超级计算济南中心”建有中国首台全部采用国产CPU和系统软件构建的千万亿次计算机系统,标志着中国成为继美国、日本之后能够采用自主CPU构建千万亿次计算机的国家。科技强国政策背景下,我国开始大力发展和推进HPC事业,建立隶属于科技部的国家超级计算中心,用于发展高性能计算相关产业与应用。截至2021年,科技部批准建立了国家超算济南中心、国家超算天津中心、国家超算深圳中心等八所国家超级计算中心。目前,国超济南中心正在主导山东省“超算互联网
193、工程”,研制建设算力领先的多元算力集群,通过根植山东、覆盖全国、辐射全球的超算互联网建设,构建“E级超算、人工智能、大数据、工业互联网”等大科学装置集群,形成国际一流的“超算大脑”,力争成为推动国家基础科学进步和重大技术攻关,并实现自主可控的超算中心,助力山东省成为“新动能”的最前沿。3.1.1 国超济南中心发展势头迅猛,构建引领全球科技发展的“最强大脑”人工智能、大数据等新型应用进入到超算科研领域,推动济南超算改革创新发展,由单一计算服务向计算加多元数据处理服务变化。面临变化和挑战,国超济南中心积极创新改革中。挑战一:数据量的激增,带来传输与存储成本的 挑 战。国 超 济 南 中 心 规 划
194、 存 储 可 用 空 间 为200PB,数据量变大有两个原因:一是参与计算的原始数据不仅多且杂;二是数据多环节处理计算,带来数据的过度膨胀。伴随人工智能及大数据等新兴产业的爆炸式增长,超算需要处理更多数据,既有结构化数据又有非结构化数据,而在线传输这些数据可能需耗费数周,拷贝TB-PB级数据时更是要耗费数月,这些都是超算中心在转型过程中无法规避的难题,例如卫星遥感场景需要进行PB级的数据存储,TB级传输速率来支撑grace软件高通量并行数据加工与处理作业。挑战二:存储资源抢占导致整体计算效率不高。当前多数超算场景为多任务、多并发计算,一些作业对带宽要求很高,另一些对IOPS要求高,多任务并发造
195、成存储资源抢占,则会导致整体计算效率被拉低。例如生命科学作业等大带宽类作业增多时,传统存储会因资源抢占,计算效率降低50%,CPU利用率不足30%,从而影响整个超算中心的作业效率。挑战三:国超济南中心业务在与传统数据中心类业务融合过程中,也面临着数据管理及数据孤岛的挑战。在提供如人工计算、大数据、虚拟化和灾备等多元化服务时,面对万级用户群体及各种数据形3.1.2 面对海量数据存储和计算效率的挑战,国超济南中心积极追求HPC架构转型3029图示3-1 国超济南中心方案架构数据密集型超算优秀实践式的读写(如文件存储、虚拟化的块存储、AI的对象存储、大数据的HDFS存储等),都会增加管理难度,且数据
196、间易呈现割裂的孤岛状态。如何让数据流动起来进而促进跨域创新,是国超济南中心急需解决的问题。3 数据密集型超算优秀实践数据密集型超算发展白皮书2023国家超算济南中心:打造中国最大规模数据密集型超算应用标杆3.12022-02-31淄博2022-04-5001.data666.data900.data2022-03-6潍坊2022-04-9001.data智能预取缓存热温冷分级异地多副本/2022-01-1青岛2022-04-8001.data888.data2022-02-31淄博2022-04-5001.data666.data潍坊900.data2022-03-62022-04-9001.
197、data数据共享流动总线NFS/SMB/S3/HDFS全局文件视图临沂按需访问分级2022-01-1青岛2022-04-8001.data888.data生产生产生产HTTPSHTTPSHTTPSHDFSNFSS3济南 上海交通大学拥有全国高校最大规模的超算集群,包括国内高校最大的高性能计算平台思源一号、国内高校前列的计算平台2.0、搭载了国产ARM芯片的Kunpeng超算平台、云计算平台jCloud2.0,以及人工智能计算平台。在超算科研能力的加持下,学校在量子计算与量子通信、生物高性能计算中心是学校信息化建设和教学科研支撑的关键环节。最近几年,随着以AI为代表的新业务发展,面向海量数据时代
198、的到来,学校的高性能计算系统面临着多项挑战:1、数据爆发式增长,容量需求高据统计,上海交大用户数据正以每年约7PB的速度增长。其中,面向HPDA的十大应用场景中,有八项场景的数据量都在PB级别,分别是气象海洋、自动驾驶、能源勘探、制造CAE、卫星遥感、动画渲染、基因测序和冷冻电镜。当前校级高性能计算平台的存储容量已无法满足支撑科研的需求。2、AI等新业务涌现,对性能要求愈来愈高以AI大模型Chat GPT研究为例,当前GPT3主要是自然语言处理NLP,以内容生成和内容理解为主,其训练数据已达百PB级。而GPT-4已引入多模态研究,支持跨模态检索和内容生成,训练数据将达到EB级。同时,大模型训练
199、过程以小文件读取处理为主,对IO性能要求很高。在当前训练中,TB级小文件训练集的读取时间为60s,需求单节点性能300万IOPS;3TB参数CheckPoint在60s内写入,需求单节点带宽50GB/s。这些研究对高性能计算平台存储容量和集群读写速度提出了新要求。3、传统AI本地盘训练,伴随高并发数据分析,要打破IO墙传统AI训练的流程存在IO瓶颈,IO读写流程冗长。其中,加载数据涉及三次数据搬迁:容量池-本地盘-CPU内存-GPU显存;checkpoint涉及两次数据搬迁:显存-本地盘-容量池。由于数据的多次搬迁,业务流程自动形成IO墙,限制读写速率,处理效率低。3.2.1 AI时代,学校高
200、性能计算中心面临新场景海量数据挑战国超济南中心定制开发,基于数据流动任务和策略,实现数据流动的服务化和可视化,基于用户数据属性标签化进行定制开发,实现数据流动的安全管理,集超级计算、大数据、人工智能于一体的统一开放超算互联平台。可支持济南、青岛、淄博等跨域超算中心的统一资源调度、统一数据管理、统一用户管理、统一入口、统一监控、统一运维、统一运营,解决数据孤岛、海量数据互通难、数据全生命周期安全管理难的痛点。无论是国家政策导向还是超算中心降本增效的考量,绿色节能已逐步落地到生产和经营的方方面面。在数据中心层面,采用高密存储资源池是理想的解决方案,可以极大缩减数据中心空间和能耗的开支,由此带来的高
201、资源利用率和高成本效益是驱动高密全闪存储系统的重要因素。国超济南中心选择高密全闪统一存储底座,具备敏捷性、高效率、可用性、安全性、面向云业务的适配性的特点,基于业界领先的技术和架构,与我国全面推动的“新基建”战略高度契合。同时,高密全闪统一存储底座高密度、低功耗的特点可以显著降低超算中心PUE,降低运营成本20%,助力济南超算成为全球超算中心的领跑者。3231图示3-3 AI训练数据迁移流程图示3-2 山东各地市跨域互联方案医学工程、新能源与环境保护、人工智能与机器人、材料科学与工程等新兴领域均有突破研究和重要影响力。3 数据密集型超算优秀实践数据密集型超算发展白皮书2023训练数据1T-10
202、0T向量数据千亿条大模型数据1T-100TCheckpoint3Checkpoint2Checkpoint1原始数据向量数据(可选)大模型数据向量数据(可选)1次数据搬迁(写请求)GPU0GPUnGPU1解码读取裁剪归一化缩放格式转换显存内存模型数据原始数据预处理向量数据训练数据原始数据-训练数据1次数据搬迁(读请求)2次数据搬迁(读请求)3次数据搬迁(读请求)2次搬迁(写请求)本地盘容量型存储CPUGPU数据预处理AI训练显存训练数据显存训练数据上海交通大学:AI存力基座助力教育科研发展3.22022-02-31淄博2022-04-5001.data666.data900.data2022-
203、03-6潍坊2022-04-9001.data智能预取缓存热温冷分级异地多副本/2022-01-1青岛2022-04-8001.data888.data2022-02-31淄博2022-04-5001.data666.data潍坊900.data2022-03-62022-04-9001.data数据共享流动总线NFS/SMB/S3/HDFS全局文件视图临沂按需访问分级2022-01-1青岛2022-04-8001.data888.data生产生产生产HTTPSHTTPSHTTPSHDFSNFSS3济南上海交通大学拥有全国高校最大规模的超算集群,包括国内高校最大的高性能计算平台思源一号、国内高
204、校前列的计算平台2.0、搭载了国产ARM芯片的Kunpeng超算平台、云计算平台jCloud2.0,以及人工智能计算平台。在超算科研能力的加持下,学校在量子计算与量子通信、生物高性能计算中心是学校信息化建设和教学科研支撑的关键环节。最近几年,随着以AI为代表的新业务发展,面向海量数据时代的到来,学校的高性能计算系统面临着多项挑战:1、数据爆发式增长,容量需求高据统计,上海交大用户数据正以每年约7PB的速度增长。其中,面向HPDA的十大应用场景中,有八项场景的数据量都在PB级别,分别是气象海洋、自动驾驶、能源勘探、制造CAE、卫星遥感、动画渲染、基因测序和冷冻电镜。当前校级高性能计算平台的存储容
205、量已无法满足支撑科研的需求。2、AI等新业务涌现,对性能要求愈来愈高以AI大模型Chat GPT研究为例,当前GPT3主要是自然语言处理NLP,以内容生成和内容理解为主,其训练数据已达百PB级。而GPT-4已引入多模态研究,支持跨模态检索和内容生成,训练数据将达到EB级。同时,大模型训练过程以小文件读取处理为主,对IO性能要求很高。在当前训练中,TB级小文件训练集的读取时间为60s,需求单节点性能300万IOPS;3TB参数CheckPoint在60s内写入,需求单节点带宽50GB/s。这些研究对高性能计算平台存储容量和集群读写速度提出了新要求。3、传统AI本地盘训练,伴随高并发数据分析,要打
206、破IO墙传统AI训练的流程存在IO瓶颈,IO读写流程冗长。其中,加载数据涉及三次数据搬迁:容量池-本地盘-CPU内存-GPU显存;checkpoint涉及两次数据搬迁:显存-本地盘-容量池。由于数据的多次搬迁,业务流程自动形成IO墙,限制读写速率,处理效率低。3.2.1 AI时代,学校高性能计算中心面临新场景海量数据挑战国超济南中心定制开发,基于数据流动任务和策略,实现数据流动的服务化和可视化,基于用户数据属性标签化进行定制开发,实现数据流动的安全管理,集超级计算、大数据、人工智能于一体的统一开放超算互联平台。可支持济南、青岛、淄博等跨域超算中心的统一资源调度、统一数据管理、统一用户管理、统一
207、入口、统一监控、统一运维、统一运营,解决数据孤岛、海量数据互通难、数据全生命周期安全管理难的痛点。无论是国家政策导向还是超算中心降本增效的考量,绿色节能已逐步落地到生产和经营的方方面面。在数据中心层面,采用高密存储资源池是理想的解决方案,可以极大缩减数据中心空间和能耗的开支,由此带来的高资源利用率和高成本效益是驱动高密全闪存储系统的重要因素。国超济南中心选择高密全闪统一存储底座,具备敏捷性、高效率、可用性、安全性、面向云业务的适配性的特点,基于业界领先的技术和架构,与我国全面推动的“新基建”战略高度契合。同时,高密全闪统一存储底座高密度、低功耗的特点可以显著降低超算中心PUE,降低运营成本20
208、%,助力济南超算成为全球超算中心的领跑者。3231图示3-3 AI训练数据迁移流程图示3-2 山东各地市跨域互联方案医学工程、新能源与环境保护、人工智能与机器人、材料科学与工程等新兴领域均有突破研究和重要影响力。3 数据密集型超算优秀实践数据密集型超算发展白皮书2023训练数据1T-100T向量数据千亿条大模型数据1T-100TCheckpoint3Checkpoint2Checkpoint1原始数据向量数据(可选)大模型数据向量数据(可选)1次数据搬迁(写请求)GPU0GPUnGPU1解码读取裁剪归一化缩放格式转换显存内存模型数据原始数据预处理向量数据训练数据原始数据-训练数据1次数据搬迁(
209、读请求)2次数据搬迁(读请求)3次数据搬迁(读请求)2次搬迁(写请求)本地盘容量型存储CPUGPU数据预处理AI训练显存训练数据显存训练数据上海交通大学:AI存力基座助力教育科研发展3.24、跨校区多集群存储共用需求(用户体验)上海交通大学现有6个校区,分别为:徐汇校区、闵行校区、黄浦校区、长宁校区、七宝校区、浦东校区,总占地面积300余万平方米,各校区同市但相距较远。各校区共有5套存储集群,用户业务的集群选择是个问题,异地校区数据访问存在数据丢失、作业启动失败、运行慢等问题,影响使用效率和体验。5、校超实践发现问题:传统超算方案重计算,轻存储,存算比不合理在多年的教育科研实践中,管理着全国高
210、校最大规模超算的上海交大信息中心发现:传统超算重视算力的需求,但忽视存储系统的建设。同时,经典的超算系统评测方案也以算力为主,以此为指导设计出的集群不能满足AI模型训练、生物医学等新型数据应用场景的需求,会出现集群跑分高,实际应用差,存算比低,数据存储和读写成瓶颈等问题,严重影响业务的科研速率和商用进程。面对时代的趋势和新技术的挑战,为满足全院教师学生教育科研、学习生活的需求,学校在超算系统建设和服务领域不断摸索和尝试。“一存力,多算力”以实践为基础,上海交大提出了“一存力,多算力”的发展战略。2019年建设45PB存力,2023年又扩容25PB,形成总容量70PB的统一存力基座,支撑上海交大
211、5个高性能计算平台的数据存储需要。统一的存储基座支撑了全校900+课题组、2000+校内用户的数据需求,有效应对海量数据时代的存储压力,形成了一套高校信息化建设的新范式。统一存力基座具有这些优势:大容量:总容量70PB,满足学校日益增长的数据存储需求。高性能:分布式全闪硬件,成就极致性能,提升带宽与IOPS性能业务高效,每节点80万IOPS,带宽20GB/s,有效支持AI等新业3.2.2“一存力,多算力”的统一存力基座方案(一)高性能计算中心提供学科融合服务,加速计算,缩短时间上海交大高性能计算平台创立“交我算”品牌,在国内高校率先实践数据密集型超算理念,面向全校提供融合数据计算服务,通过优化
212、计算流程、缩短计算时间,有效助力各课题研究组实现科研成果突破,主要成果如下图所示:3.2.3 存力基座助力教育科研发展3433图示3-4 上海交大坚定“一存力,多算力”发展战略,打牢“数据”根基图示3-5 上海交大各校区跨域互联图示3-6 上海交大学科融合服务技术突破案例成果务场景需求。协议互通:无需协议转换,天然支持对象、文件、大数据等多协议互通。自主可控:全套自主可控,从根源解决安全问题,有效只是学校国产化软件开发、适配、性能调优等课题研究。跨校区用户与算力间互联:基座方案中,六个校区算力可以统一访问位于闵行校区的存储中心,并通过GFS全局命名空间,实现跨域数据访问,真正做到算力跟着数据走
213、。3 数据密集型超算优秀实践数据密集型超算发展白皮书2023交我算的统一数据基座文件存储对象存储HDFS存储60,556核Intel 8358国内高校最大高性能计算平台思源一号26,000核Intel 6248国内高校前列高性能计算平台2.016,000核Intel 6148国内高校最大云计算平台jCloud2.092块 A100 8台 DGX-2全球高校唯一人工智能计算平台12,800核Kunpeng 920国内高校首个Kunpeng超算平台闵行校区(主校区)徐汇校区浦东校区长宁校区崇明校区黄浦校区(医学院)闵行校区浦东校区徐汇校区长宁校区崇明校区黄埔校区交大各校区使用异地、异构算力相同的使
214、用体验提供学科融合服务,加速计算,缩短时间加速瑞金医院陈竺、陈赛娟院士团队白血病早期诊断流程加速机动孟祥慧教授团队动态活塞环缸套摩擦学模拟加速电院张文军教授团队神经网络优化加速材料学院张澜庭教授材料基因组模拟模拟物理与天文学院景益鹏院士团队N体问题加速空天院刘洪教授团队DSMC算法仿真模拟模拟海洋学院刘海龙教授团队全球海洋气候加速密西根学院鲍华教授团队BTE仿真模拟助力瑞金医院宁光、毕玉芳团队算法优化18,000X 66X 10X 问题规模 10X 世界最大规模160X 20X 7X 样本规模 14X协助瑞金医院陈赛娟院士团队开发既快又准 的基因组分析流程,将分析时间从1周缩短到13小时,分析
215、结果发表于PNAS。优化物理与天文学院景益鹏院士团队自研的宇宙学代码CUBE,完成世界上粒子数最多的N体模拟计算,突破世界纪录。陈竺院士参观计算平台协助瑞金宁光/毕宇芳团队,优化流行病学归因算法,大幅提升计算效率及样本量,成功运行 140 万危险因子的样本。典型案例:白血病基因分析加速典型案例:世界最大规模 N 体模拟典型案例:流行病学归因算法优化4、跨校区多集群存储共用需求(用户体验)上海交通大学现有6个校区,分别为:徐汇校区、闵行校区、黄浦校区、长宁校区、七宝校区、浦东校区,总占地面积300余万平方米,各校区同市但相距较远。各校区共有5套存储集群,用户业务的集群选择是个问题,异地校区数据访
216、问存在数据丢失、作业启动失败、运行慢等问题,影响使用效率和体验。5、校超实践发现问题:传统超算方案重计算,轻存储,存算比不合理在多年的教育科研实践中,管理着全国高校最大规模超算的上海交大信息中心发现:传统超算重视算力的需求,但忽视存储系统的建设。同时,经典的超算系统评测方案也以算力为主,以此为指导设计出的集群不能满足AI模型训练、生物医学等新型数据应用场景的需求,会出现集群跑分高,实际应用差,存算比低,数据存储和读写成瓶颈等问题,严重影响业务的科研速率和商用进程。面对时代的趋势和新技术的挑战,为满足全院教师学生教育科研、学习生活的需求,学校在超算系统建设和服务领域不断摸索和尝试。“一存力,多算
217、力”以实践为基础,上海交大提出了“一存力,多算力”的发展战略。2019年建设45PB存力,2023年又扩容25PB,形成总容量70PB的统一存力基座,支撑上海交大5个高性能计算平台的数据存储需要。统一的存储基座支撑了全校900+课题组、2000+校内用户的数据需求,有效应对海量数据时代的存储压力,形成了一套高校信息化建设的新范式。统一存力基座具有这些优势:大容量:总容量70PB,满足学校日益增长的数据存储需求。高性能:分布式全闪硬件,成就极致性能,提升带宽与IOPS性能业务高效,每节点80万IOPS,带宽20GB/s,有效支持AI等新业3.2.2“一存力,多算力”的统一存力基座方案(一)高性能
218、计算中心提供学科融合服务,加速计算,缩短时间上海交大高性能计算平台创立“交我算”品牌,在国内高校率先实践数据密集型超算理念,面向全校提供融合数据计算服务,通过优化计算流程、缩短计算时间,有效助力各课题研究组实现科研成果突破,主要成果如下图所示:3.2.3 存力基座助力教育科研发展3433图示3-4 上海交大坚定“一存力,多算力”发展战略,打牢“数据”根基图示3-5 上海交大各校区跨域互联图示3-6 上海交大学科融合服务技术突破案例成果务场景需求。协议互通:无需协议转换,天然支持对象、文件、大数据等多协议互通。自主可控:全套自主可控,从根源解决安全问题,有效只是学校国产化软件开发、适配、性能调优
219、等课题研究。跨校区用户与算力间互联:基座方案中,六个校区算力可以统一访问位于闵行校区的存储中心,并通过GFS全局命名空间,实现跨域数据访问,真正做到算力跟着数据走。3 数据密集型超算优秀实践数据密集型超算发展白皮书2023交我算的统一数据基座文件存储对象存储HDFS存储60,556核Intel 8358国内高校最大高性能计算平台思源一号26,000核Intel 6248国内高校前列高性能计算平台2.016,000核Intel 6148国内高校最大云计算平台jCloud2.092块 A100 8台 DGX-2全球高校唯一人工智能计算平台12,800核Kunpeng 920国内高校首个Kunpen
220、g超算平台闵行校区(主校区)徐汇校区浦东校区长宁校区崇明校区黄浦校区(医学院)闵行校区浦东校区徐汇校区长宁校区崇明校区黄埔校区交大各校区使用异地、异构算力相同的使用体验提供学科融合服务,加速计算,缩短时间加速瑞金医院陈竺、陈赛娟院士团队白血病早期诊断流程加速机动孟祥慧教授团队动态活塞环缸套摩擦学模拟加速电院张文军教授团队神经网络优化加速材料学院张澜庭教授材料基因组模拟模拟物理与天文学院景益鹏院士团队N体问题加速空天院刘洪教授团队DSMC算法仿真模拟模拟海洋学院刘海龙教授团队全球海洋气候加速密西根学院鲍华教授团队BTE仿真模拟助力瑞金医院宁光、毕玉芳团队算法优化18,000X 66X 10X 问
221、题规模 10X 世界最大规模160X 20X 7X 样本规模 14X协助瑞金医院陈赛娟院士团队开发既快又准 的基因组分析流程,将分析时间从1周缩短到13小时,分析结果发表于PNAS。优化物理与天文学院景益鹏院士团队自研的宇宙学代码CUBE,完成世界上粒子数最多的N体模拟计算,突破世界纪录。陈竺院士参观计算平台协助瑞金宁光/毕宇芳团队,优化流行病学归因算法,大幅提升计算效率及样本量,成功运行 140 万危险因子的样本。典型案例:白血病基因分析加速典型案例:世界最大规模 N 体模拟典型案例:流行病学归因算法优化3635图示3-7 以新评测标准测得的上海交大思源1号性能结果中国医学科学院以“将中国医
222、学科学院创建成为世界一流科研院所和医学科技创新体系核心基地和新型国家医学科学院的战略目标”为目标,高标准高要求创建院校级医学科技创新体系生物医学高性能计算平台,为院校在科学研究、学科建设、人才培养、交流合作等方向的发展提供重要技术支撑和平台保障;科学研究方面,平台为院校的各类科研项目提供计算资源,同时承载生信分析为主的医学科研业务。目前各院所生物医学数据类型多、体量大,基础研究和临床转化需求强烈,对高性能计算在科研业务领域的应用需求强烈;亟需建立院校统一的生物医学科研平台,实现智能、高效、便捷以及海量数据的挖掘分析。基因相关科研数据量大:(1)单次采样数据:30X人类全基因组,原始数据文件10
223、0GB;(2)过程数据:文件500GB以上;(3)结果数据:约55GB;(4)归档数据:655G。所有基因数据保留5年;医科院每年基因相关科研数据样本约几千甚至上万例,数据量达到PB级,海量科研数据存储需求大。科研平台性能要求高:基因数据分析过程根据研究目的不同,会有I/O密集型、CPU密集型、内存密集型等各种计算实例需求,因此海量基因数据的分析与挖掘,需要高性能的GPU异构计算集群才能满足需求。软硬件复杂,运维要求高:基因测序所涉及数据收集与分发流程,涉及上百种应用软件,应用资源需求多样,生信软件、硬件科3.3.1 快速测序、海量基因数据存储成为基因测序领域的重大挑战3 数据密集型超算优秀实
224、践数据密集型超算发展白皮书2023其中一项典型案例为AlphaFold并行版本的开发。AlphaFold是谷歌公司开发的蛋白质结构预测软件,上交自主开发的软件ParaFold是针对AlphaFold 官方版本的优化。它采用CPU与GPU分离计算设计,避免GPU闲置浪费,使得CPU并行优化,速度提升3倍;通过GPU优化,降低JAX编译次数,一台16卡DGX-2只需5小时就能计算2万个 mini 蛋白,速度提升了250多倍。ParaFold服务了交大生物、医学等131个课题组,完成约16万个蛋白的结构预测,支撑用户发表高水平论文20余篇,其中包括白斑综合征病毒结构研究、深海古菌代谢特征研究、原核蛋
225、白DNA切割活性、人类基因组组装结构变异研究等。因其性能优越,该软件同时被海外多个生命科学专业学校师生应用。(二)自研软件,服务一批领域用户借助校级计算平台,上海交大高性能计算中心协助各学院孵化自研软件,其中包含高性能计算中心开发的生信平台、蛋白计算软件等5款软件,以及平台用户开发的Fourier Quad星系软件、Fix Phonon声子计算等80余款软件。中心自研的可视化生信分析平台是国内高校首个生物信息分析平台,集存储、作业调度、科学计算、可视化操作界面为一体,提供生信分析云服务,其中包括覆盖全基因组测序(WGS)、全外显子测序(WES)和AlphaFold等流程。平台实现了0代码的生信
226、分析,极大降低了为交大医学院及附属医院用户的使用门槛,已被瑞金、仁济、九院、六院、新华、儿医等多家医疗机构采用。(三)首个高性能计算系统综合评价体系上海交大与华为联合创新孵化了国内首个高性能计算系统综合性能评价规范,联合中国计算机学会、中国信通院、国家超算中心及十多个国内高校发布高性能计算系统性能评价白皮书,建立了国内超算综合评价体系。未来将有望倚重该项目,持续构筑国内外影响力,发展比肩IO500打榜的自有超算评价体系。新规范经过调研,选定了19个指标,从算力、存力、运力、能效、均衡性等5个维度综合评价集群性能,打破了传统超算评价标准偏重计算、忽视存储的设计缺陷,充分考虑了超算系统面向AI新时
227、代的海量数据存储和处理需求。值得肯定的是,评价标准还选取了面向碳达峰、碳中和趋势的能效维度,以及面对未来业务性能提升的系统均衡性维度。每个维度通过对多个指标按权重叠加计算得出该维度的最终得分。该评价标准未来可支持多赛道的超算性能评价工作。80468882080100计算性能AI计算性能存储性能网络性能系统能效系统平衡性中国医学科学院:全栈、存储自主可控、GPU生信加速打造安全、高效的基因测序超算平台3.33635图示3-7 以新评测标准测得的上海交大思源1号性能结果中国医学科学院以“将中国医学科学院创建成为世界一流科研院所和医学科技创新体系核心基地和新型国家医学科学院的战
228、略目标”为目标,高标准高要求创建院校级医学科技创新体系生物医学高性能计算平台,为院校在科学研究、学科建设、人才培养、交流合作等方向的发展提供重要技术支撑和平台保障;科学研究方面,平台为院校的各类科研项目提供计算资源,同时承载生信分析为主的医学科研业务。目前各院所生物医学数据类型多、体量大,基础研究和临床转化需求强烈,对高性能计算在科研业务领域的应用需求强烈;亟需建立院校统一的生物医学科研平台,实现智能、高效、便捷以及海量数据的挖掘分析。基因相关科研数据量大:(1)单次采样数据:30X人类全基因组,原始数据文件100GB;(2)过程数据:文件500GB以上;(3)结果数据:约55GB;(4)归档
229、数据:655G。所有基因数据保留5年;医科院每年基因相关科研数据样本约几千甚至上万例,数据量达到PB级,海量科研数据存储需求大。科研平台性能要求高:基因数据分析过程根据研究目的不同,会有I/O密集型、CPU密集型、内存密集型等各种计算实例需求,因此海量基因数据的分析与挖掘,需要高性能的GPU异构计算集群才能满足需求。软硬件复杂,运维要求高:基因测序所涉及数据收集与分发流程,涉及上百种应用软件,应用资源需求多样,生信软件、硬件科3.3.1 快速测序、海量基因数据存储成为基因测序领域的重大挑战3 数据密集型超算优秀实践数据密集型超算发展白皮书2023其中一项典型案例为AlphaFold并行版本的开
230、发。AlphaFold是谷歌公司开发的蛋白质结构预测软件,上交自主开发的软件ParaFold是针对AlphaFold 官方版本的优化。它采用CPU与GPU分离计算设计,避免GPU闲置浪费,使得CPU并行优化,速度提升3倍;通过GPU优化,降低JAX编译次数,一台16卡DGX-2只需5小时就能计算2万个 mini 蛋白,速度提升了250多倍。ParaFold服务了交大生物、医学等131个课题组,完成约16万个蛋白的结构预测,支撑用户发表高水平论文20余篇,其中包括白斑综合征病毒结构研究、深海古菌代谢特征研究、原核蛋白DNA切割活性、人类基因组组装结构变异研究等。因其性能优越,该软件同时被海外多个
231、生命科学专业学校师生应用。(二)自研软件,服务一批领域用户借助校级计算平台,上海交大高性能计算中心协助各学院孵化自研软件,其中包含高性能计算中心开发的生信平台、蛋白计算软件等5款软件,以及平台用户开发的Fourier Quad星系软件、Fix Phonon声子计算等80余款软件。中心自研的可视化生信分析平台是国内高校首个生物信息分析平台,集存储、作业调度、科学计算、可视化操作界面为一体,提供生信分析云服务,其中包括覆盖全基因组测序(WGS)、全外显子测序(WES)和AlphaFold等流程。平台实现了0代码的生信分析,极大降低了为交大医学院及附属医院用户的使用门槛,已被瑞金、仁济、九院、六院、
232、新华、儿医等多家医疗机构采用。(三)首个高性能计算系统综合评价体系上海交大与华为联合创新孵化了国内首个高性能计算系统综合性能评价规范,联合中国计算机学会、中国信通院、国家超算中心及十多个国内高校发布高性能计算系统性能评价白皮书,建立了国内超算综合评价体系。未来将有望倚重该项目,持续构筑国内外影响力,发展比肩IO500打榜的自有超算评价体系。新规范经过调研,选定了19个指标,从算力、存力、运力、能效、均衡性等5个维度综合评价集群性能,打破了传统超算评价标准偏重计算、忽视存储的设计缺陷,充分考虑了超算系统面向AI新时代的海量数据存储和处理需求。值得肯定的是,评价标准还选取了面向碳达峰、碳中和趋势的
233、能效维度,以及面对未来业务性能提升的系统均衡性维度。每个维度通过对多个指标按权重叠加计算得出该维度的最终得分。该评价标准未来可支持多赛道的超算性能评价工作。80468882080100计算性能AI计算性能存储性能网络性能系统能效系统平衡性中国医学科学院:全栈、存储自主可控、GPU生信加速打造安全、高效的基因测序超算平台3.3科大讯飞股份有限公司成立于1999年,是亚太地区知名的智能语音和人工智能上市企业。作为技术创新型企业,科大讯飞坚持源头核心技术创新,多次在语音识别、语音合成、机器翻译、图文识别、图像理解、阅读理解、机器推理等各项国际评测中取得佳绩。两次荣获“国家科技进
234、步奖”及中国信息产业自主创新荣誉“信息产业重大技术发明奖”,被任命为中文语音交互技术标准工作组组长单位,牵头制定中文语音技术标准。2023年5月6日,科大讯飞正式发布星火认知大模型,并于6月9日发布星火APP以及讯飞星火认知大模型1.5版本。方案为包含底层硬件资源、资源作业调度软件以及上层生信分析应用软件在内的全栈方案。前端对接测序仪,后端对接AI/大数据辅助诊疗,形成中心级HPC基因测序科研平台。下属研究所及科室的生信分析业务可借助中心科研平台统一处理,同时基因数据统一汇总至中心科研平台。通过以上解决方案为中国医学科学院提供一套业务高效、敏捷、自主可控的基因测序科研平台,方案优势:业务高效:
235、基因测序业务流中,需频繁对存储进行读写访问,单流读写性能需达到6GB/s以上,此时存储非应用瓶颈,有效支撑基因组测序效率;业务敏捷发放:资源作业调度软件支持容器化业务秒级发放,应用快速上线,敏捷部署;自主可控:高性能存储国产化,从根源解决数据存储安全问题;海量存储:针对基因数据密集型场景,存储系统能够支撑未来海量数据按需扩展;全栈交付:端到端模块化交付,节省初次业务上线时间,同时AI数据管理,降低运维难度。3.3.2 高效、敏捷、自主可控的一站式基因测序全栈解决方案 3837图示3-8 基因测序全栈解决方案 GPU异构计算生信分析加速,有效提升基因测序效率;资源统一发放,容器化调度,业务自动化
236、上线;数据全生命周期可视可管可查,自定义pipeline数据编排;海量数据按需扩展,满足数据密集型基因测序场景的容量需求;基因HPC、科研大数据Hadoop、AI模型训练平台多合一,数据无迁移,高效支撑基因三级分析;基因数据,结合病理、影像数据二次挖掘,数据价值持续变现;国产化存储系统,配合加密有效保证数据安全性;高密硬件提供大容量存储空间的同时可有效减少机房占地面积及整体功耗,有效节省后期运维电力成本;同时通过集装箱数据中心解决方案,在机房空间有限的情况下实现一整套数据中心基础设施搭建。3.3.3 全栈平台助力医学科研成果转化3 数据密集型超算优秀实践数据密集型超算发展白皮书2023高性能并
237、行文件系统基因注释基因测序系统基因转换基因比对基因变异分析AI/大数据辅助诊疗基因测序仪NFS/SMB/S3/HDFS基因FASTq数据压缩算法多协议互通大比例EC数据分级弹性扩展容量分布式并行文件存储系统热数据温冷数据计算XX研究所基因测序系统科研辅助医疗PC/终端集中存储,基因数据汇聚到中心,NFS/S3协议(下属研究所基因业务对应的热数据或温冷数据)基因业务,下属研究所自身或者借助HPC科研数据中心处理HPC科研平台研平台相关运维工作技术要求高,维护困难。安全可靠要求高:需要具备自主可控、数据安全、架构冗余。基因测序三级分析数据统一难:基因测序数据在生信分析后,仍需进一步挖掘其价值。不同
238、流程涉及不同的数据协议,给后续分析带来困难,一份数据转换不同协议格式存储,不仅效率低,且会增加存储成本。私有高性能并发客户端基因注释基因转换基因比对基因变异分析AI/大数据辅助诊疗科大讯飞:高性能、稳定可靠的统一数据管理底座是大模型训练的关键3.4科大讯飞股份有限公司成立于1999年,是亚太地区知名的智能语音和人工智能上市企业。作为技术创新型企业,科大讯飞坚持源头核心技术创新,多次在语音识别、语音合成、机器翻译、图文识别、图像理解、阅读理解、机器推理等各项国际评测中取得佳绩。两次荣获“国家科技进步奖”及中国信息产业自主创新荣誉“信息产业重大技术发明奖”,被任命为中文语音交互技术标准工作组组长单
239、位,牵头制定中文语音技术标准。2023年5月6日,科大讯飞正式发布星火认知大模型,并于6月9日发布星火APP以及讯飞星火认知大模型1.5版本。方案为包含底层硬件资源、资源作业调度软件以及上层生信分析应用软件在内的全栈方案。前端对接测序仪,后端对接AI/大数据辅助诊疗,形成中心级HPC基因测序科研平台。下属研究所及科室的生信分析业务可借助中心科研平台统一处理,同时基因数据统一汇总至中心科研平台。通过以上解决方案为中国医学科学院提供一套业务高效、敏捷、自主可控的基因测序科研平台,方案优势:业务高效:基因测序业务流中,需频繁对存储进行读写访问,单流读写性能需达到6GB/s以上,此时存储非应用瓶颈,有
240、效支撑基因组测序效率;业务敏捷发放:资源作业调度软件支持容器化业务秒级发放,应用快速上线,敏捷部署;自主可控:高性能存储国产化,从根源解决数据存储安全问题;海量存储:针对基因数据密集型场景,存储系统能够支撑未来海量数据按需扩展;全栈交付:端到端模块化交付,节省初次业务上线时间,同时AI数据管理,降低运维难度。3.3.2 高效、敏捷、自主可控的一站式基因测序全栈解决方案 3837图示3-8 基因测序全栈解决方案 GPU异构计算生信分析加速,有效提升基因测序效率;资源统一发放,容器化调度,业务自动化上线;数据全生命周期可视可管可查,自定义pipeline数据编排;海量数据按需扩展,满足数据密集型基
241、因测序场景的容量需求;基因HPC、科研大数据Hadoop、AI模型训练平台多合一,数据无迁移,高效支撑基因三级分析;基因数据,结合病理、影像数据二次挖掘,数据价值持续变现;国产化存储系统,配合加密有效保证数据安全性;高密硬件提供大容量存储空间的同时可有效减少机房占地面积及整体功耗,有效节省后期运维电力成本;同时通过集装箱数据中心解决方案,在机房空间有限的情况下实现一整套数据中心基础设施搭建。3.3.3 全栈平台助力医学科研成果转化3 数据密集型超算优秀实践数据密集型超算发展白皮书2023高性能并行文件系统基因注释基因测序系统基因转换基因比对基因变异分析AI/大数据辅助诊疗基因测序仪NFS/SM
242、B/S3/HDFS基因FASTq数据压缩算法多协议互通大比例EC数据分级弹性扩展容量分布式并行文件存储系统热数据温冷数据计算XX研究所基因测序系统科研辅助医疗PC/终端集中存储,基因数据汇聚到中心,NFS/S3协议(下属研究所基因业务对应的热数据或温冷数据)基因业务,下属研究所自身或者借助HPC科研数据中心处理HPC科研平台研平台相关运维工作技术要求高,维护困难。安全可靠要求高:需要具备自主可控、数据安全、架构冗余。基因测序三级分析数据统一难:基因测序数据在生信分析后,仍需进一步挖掘其价值。不同流程涉及不同的数据协议,给后续分析带来困难,一份数据转换不同协议格式存储,不仅效率低,且会增加存储成
243、本。私有高性能并发客户端基因注释基因转换基因比对基因变异分析AI/大数据辅助诊疗科大讯飞:高性能、稳定可靠的统一数据管理底座是大模型训练的关键3.4随着ChatGPT 3.5及4.0的发布在全球引发AI GC浪潮,AI大模型的发展已经从原有内容识别、内容理解、内容发现等专用领域的感知理解,升级为跨模态检索、跨模态数据融合、跨模态生成创造等通用领域的内容生产,预示着新一代通用型AI大模型驱动的生产力变革已经到来。大模型经过前三代的发展演进,参数量已从亿级飙升至万亿级,相应的数据集规模从GB级飙升至PB级,内容形态从纯文本扩展为图文视频等多模态数据,总容量也开始迈入到EB级时代。随着大模型向多模态
244、发展,数据数量和质量正在成为核心要素,高性能、稳定可靠统一数据管理存储的意义越发重要,AI大模型的建设也正在面临新的挑战:1、数据归集:数据来源多样,HDFS、文件、对象多种数据类型共存,数据孤岛问题严重;2、混合负载高性能诉求:计算集群规模大,AI模型种类全,有大文件大IO和大文件小IO的语音/自然语言的模型开发,也有小文件小IO海量文件的计算视觉模型开发;3、建设成本高,需要数据资产管理手段盘活数据价值:原有方案使用服务器配置本地NVMe盘才能满足AI训练场景数据加载的性能及可靠性要求,但海量计算节点配置本地NVMe盘增加了成本,新建数据归档又进一步增加了建设成本。科大讯飞与华为通过联合创
245、新,将OceanStor分布式存储、昇腾AI基础软硬件和讯飞星火平台相融合,打造出了最佳大模型算力+存力全栈方案,并在以下几个方面实现或规划了技术创新:1)、分布式存储提升模型开发效率3.4.2 强强联合,打造最佳大模型算力+存力全栈方案4039图示3-10 科大讯飞AI大模型算力+存力全栈方案图示3-9 大模型向多模态发展,数据数量和质量是核心要素3.4.1 AI大模型训练中的挑战3 数据密集型超算优秀实践数据密集型超算发展白皮书2023火石平台昇思全场景AI框架CANN异构计算架构昇腾AI基础软硬件数据存储服务可靠性提升算力、存力协同体系研究数据价值精准识别与治理统一存力底座:OceanS
246、tor 分布式存储Atlas系列AI芯片和服务器训练和数据闭环全流程设计大规模异构算力兼容大模型训练和推理一体化设计支持混合云架构易拓展讯飞星火图示3-11 大模型训练全流程数据交互处理服务器服务器训练服务器训练数据层原始数据层预处理服务器推理服务器训练数据发布训练数据读取PB级CheckPointCheckPoint长期留存模型长期留存模型加载图片视频非结构化文件结构化文件推理结果修正和加速全局数据视图容量层存储(数据湖)数据预处理性能型AI存储计算存储大模型发展三要素算法算力数据第三代第二代第一代新一代参数量亿级亿级千亿级万亿级数据集GB数十GB数十TBPB多模态文本文本图文图文总容量PB
247、PB百PBEB专用领域,感知理解通用领域,生成创造PB级数据量EB级数据量大模型演进内容识别内容发现内容理解跨模态创造跨模态检索跨模态数据融合跨模态生成随着ChatGPT 3.5及4.0的发布在全球引发AI GC浪潮,AI大模型的发展已经从原有内容识别、内容理解、内容发现等专用领域的感知理解,升级为跨模态检索、跨模态数据融合、跨模态生成创造等通用领域的内容生产,预示着新一代通用型AI大模型驱动的生产力变革已经到来。大模型经过前三代的发展演进,参数量已从亿级飙升至万亿级,相应的数据集规模从GB级飙升至PB级,内容形态从纯文本扩展为图文视频等多模态数据,总容量也开始迈入到EB级时代。随着大模型向多
248、模态发展,数据数量和质量正在成为核心要素,高性能、稳定可靠统一数据管理存储的意义越发重要,AI大模型的建设也正在面临新的挑战:1、数据归集:数据来源多样,HDFS、文件、对象多种数据类型共存,数据孤岛问题严重;2、混合负载高性能诉求:计算集群规模大,AI模型种类全,有大文件大IO和大文件小IO的语音/自然语言的模型开发,也有小文件小IO海量文件的计算视觉模型开发;3、建设成本高,需要数据资产管理手段盘活数据价值:原有方案使用服务器配置本地NVMe盘才能满足AI训练场景数据加载的性能及可靠性要求,但海量计算节点配置本地NVMe盘增加了成本,新建数据归档又进一步增加了建设成本。1)、分布式存储提升
249、模型开发效率3.4.2 强强联合,打造最佳大模型算力+存力全栈方案4039图示3-10 科大讯飞AI大模型算力+存力全栈方案科大讯飞将OceanStor分布式存储、昇腾AI基础软硬件和讯飞星火平台相融合,打造出了最佳大模型算力+存力全栈方案,并在以下几个方面实现或规划了技术创新:图示3-9 大模型向多模态发展,数据数量和质量是核心要素3.4.1 AI大模型训练中的挑战3 数据密集型超算优秀实践数据密集型超算发展白皮书2023火石平台昇思全场景AI框架CANN异构计算架构昇腾AI基础软硬件数据存储服务可靠性提升算力、存力协同体系研究数据价值精准识别与治理统一存力底座:OceanStor 分布式存
250、储Atlas系列AI芯片和服务器训练和数据闭环全流程设计大规模异构算力兼容大模型训练和推理一体化设计支持混合云架构易拓展讯飞星火图示3-11 大模型训练全流程数据交互处理服务器服务器训练服务器训练数据层原始数据层预处理服务器推理服务器训练数据发布训练数据读取PB级CheckPointCheckPoint长期留存模型长期留存模型加载图片视频非结构化文件结构化文件推理结果修正和加速全局数据视图容量层存储(数据湖)数据预处理性能型AI存储计算存储大模型发展三要素算法算力数据第三代第二代第一代新一代参数量亿级亿级千亿级万亿级数据集GB数十GB数十TBPB多模态文本文本图文图文总容量PBPB百PBEB专
251、用领域,感知理解通用领域,生成创造PB级数据量EB级数据量大模型演进内容识别内容发现内容理解跨模态创造跨模态检索跨模态数据融合跨模态生成41科大讯飞将自身在AI训练领域的实践经验与高性能数据存储领域的方案技术相结合,在构建分布式存储方案赋能AI模型训练的同时,也在以下方面取得了些许成绩与进展:1、国产硬件+科大讯飞AI大模型的模式构建了全栈国产化解决方案的新样板,证明了国产全栈AI训练路线的可行性;2、相较于传统本地盘加速方案,分布式存储方案通过对AI训练作业访问存储流程的优化,表明了该方案在提升AI模型开发效率、降低存储系统成本及提升数据服务可靠性等方面具备有效优势;3、通过HPC与AI两个
252、领域的合作经验表明,HPC、AI、大数据在向着HPDA融合中统一数据底座的可行路径正在拓宽,而不同领域的协同创新正是通往这一道路的基石。3.4.3 在HPC与AI的融合创新中走向独立自主数据密集型超算发展白皮书2023原有本地盘方案工作流数据需要先从OBS拷贝到本地NVMe盘,然后启动训练作业,启动等待时间长,同时一份数据需要拷贝N份,占用网络带宽。而分布式存储存算分离方案优化了AI训练作业访问存储的流程,实现计算主机根据AI任务按需读取数据,无需每次拷贝全量数据到本地盘,不仅解决传输网络风暴、启动等待时间长等问题,还免去了计算本地盘的数据管理难题,提升AI模型开发效率30%+。2)、存储大集
253、群支持作业级文件系统,提升数据存储服务可靠性(探索中)通过文件系统支持基于作业级FS,实现文件系统故障隔离、作业级QoS控制策略、作业间存储资源动态逻辑隔离,并进一步通过三个方案创新点提升数据存储服务的可靠性:(1)近计算部署:数据加速(DataTurbo)机柜部署在计算节点附近,直接连接到计算;(2)拓扑感知:计算节点和缓存节点根据拓扑关系分组配对,就近创建作业;3)大规模网络收敛:计算与存储RDMA通信网络融合,满足数万计算扩展能力。3)、算力、存力协同体系研究,提升训练效率通过与华为在原始数据存储、训练数据存储及计算调度全流程层面开展协同体系研究,针对数据与性能提出了两点创新以实现大模型训练效率的提升:多样化数据快速归集:基于GFS,针对S3、HDFS、文件等多种协议接入,多样化数据0迁移归集;训练推理性能优化:大、小文件自适应读写,高IOPS支撑预处理和训练集聚合优化。