《“科创中国”开源创新联合体:2022全球开源科学软件发展态势报告(22页).pdf》由会员分享,可在线阅读,更多相关《“科创中国”开源创新联合体:2022全球开源科学软件发展态势报告(22页).pdf(22页珍藏版)》请在三个皮匠报告上搜索。
1、全球开源科学软件发展态势 2022“科创中国”开源创新联合体中国科学院成都文献情报中心2022 年 11 月 1 全球开源科学软件发展态势 2022 引言“开源软件”意指软件开发者将软件源代码免费提供给用户,同时要求用户遵循一定的开源规范,包括源代码的使用和修改、软件传播、公平性、中立性等方面。开源软件主要采用依靠大众、自下而上的模式,软件开发者和大量用户可以在鼓励创新和交流的环境中持续完善软件,有助于发掘出真正具备潜力和价值的软件产品与服务,同时可有效助力创新生态的协同构建。联合国教科文组织 开放科学建议书 将开放科学定义为一个集各种运动和实践于一体的包容性架构,旨在实现人人皆可公开使用、获
2、取和重复使用的科学知识,增进科学合作和信息共享,并向传统科学界以外的社会行为者开放科学知识的创造、评估和传播进程。开放科学具有开放、透明、合作和包容的特征,可以提高科学的质量、可再现性和影响力,推动科学知识、数据和信息的共享,有助于加强国际或跨领域科学合作,以及减少科技创新领域的不平等不均衡问题。图 1 开放科学主要支柱(来源:联合国教科文组织开放科学建议书)开放科学建议书将开源软件和源代码作为开放科学主要支柱之一的开放式科学知识的重要组成部分。并且,科学出版物、开源硬件、开放科学基础设施、社会行为者的开放式参与等也涉及开源软件(图 1)。可见,开源软件是广泛存在于开放科学活动中的要素。开源科
3、学软件是开放科学与开源软件的重要交汇点,以开源的模式开发和应用科学软件,充满了开放和创新的活力,吸引了科研工作者、软件开发者和民众的广泛参与和支持。本报告聚焦开源科学软件,通过对包括政府科技部门、顶尖科研机构、一流高校、领先科学软件汇聚平台等在内的全球百余家重要机构或组织进行调研,采集到 3040 款开源科学软件相关信息,在此基础上分析凝练了全球开源科学软件的发展态势,以期为各界推动开源科学软件高质量发展提供参考,进而更好服务开放科学和开源创新。2 全球开源科学软件发展态势 2022 1.开源科学软件总体发展态势 1.1 开源科学软件应用学科领域 本报告共采集到 3040 款开源科学软件的信息
4、,涉及的学科领域包括数理科学、化学科学、生命科学、地球科学、工程与材料科学、信息科学、管理科学、医学科学和交叉科学,另有部分开源科学软件可多学科通用。从各学科领域使用的开源科学软件来看(图 2),信息科学、数理科学、工程与材料科学这类主要涉及科学计算的工科型学科对应的开源科学软件占比最大。其中,主要面向信息科学的开源科学软件有 915 款,面向数理科学的开源科学软件有 516 款,面向工程与材料科学的开源科学软件有 466 款。通用性开源科学软件有 339 款,面向生命科学、交叉科学、医学科学这三个学科的开源科学软件存在高度交叉的情况,分别有 275 款、254 款、73 款。此外,面向地球科
5、学的开源科学软件有 174 款,面向化学科学的开源科学软件有115 款,面向管理科学的开源科学软件有 92 款。图 2 开源科学软件主要应用学科领域分布及代表性软件 从开源科学软件的主要功能来看,解决学科关键科学问题是相应开源科学软件的主要目标,包括:数理科学领域开源科学软件主要实现力学、物理学、数学等学科领域的各种过程模拟、仿真和建模分析,代表性开源科学软件包括 Geant4、FermiLib、ChaNGa、NEK5000、LYNX 等;化学科学领域开源科学软件主要实现对复杂分子体系的原子模拟、晶格中原子的位置计算、辅助分析质谱数据等,代表性开源科学软件包括 BigDFT、Dalton、fu
6、elcell、ML4Chem、Nwchem 等;生命科学领域开源科学软件主要实现蛋白质 3D 结构的快速预测、宏基因组序列分类、染色质状态的检测、DNA 和 RNA 序列数据的短读比对等,代表性开源科学软件包括 AlphaFold、Centrifuge、ChromHMM、BBmap 等;地球科学领域开源科学软件主要实现遥感探测数据可视化、水文观测数据建模与模拟等功能,代表性开源科学软件包括 ORBIT、PETGEM、Earth System Grid、Earthdata、ParFlow 等;工程与材料科学领域的开源科学软件主要实现航天航空、材料、能源电力、车辆和地面交通、工业机械、船舶、电子等
7、工程领域的仿真开发、可视化分析等,代表性开源科学软件包括 OpenFOAM、3 全球开源科学软件发展态势 2022 ChASE、Golem、HZDR、MATSim 等;信息科学领域开源科学软件主要实现面向超级计算系统的软硬件协同优化、高性能近似计算、人工神经网络高效训练等,代表性开源科学软件包括 ExaSAT、HPAC、LBANN 等;管理科学领域开源科学软件主要实现辅助研究金融风险管理体系、处理多种经济模型、评估货币政策等功能,代表性开源科学软件包括 Dynare、Bake、dynamo 等;医学科学领域开源科学软件主要实现辅助医疗决策、估计透射电镜照片中的物镜散焦参数、完善大规模质谱研究等
8、,代表性开源科学软件包括 OpenCMISS、Ctffind、Skyline 等;交叉科学领域开源科学软件主要实现分子动力学模拟、结构优化、流体建模等,代表性开源科学软件包括 NAMD、LAMMPS、Pysam、GENESIS、WindSE 等;通用型开源软件主要实现数据可视化分析、矩阵计算、有限元分析等,代表性开源科学软件包括VisIt、ELPA、CAMELLIA、CEED 等。1.2 开源科学软件开发者类型 参与开源科学软件的开发者类型众多,包括科研院所、高校、企业、个人,以及其他的联合体、开源项目社区等类型。通过对 3040 款开源科学软件的开发者统计发现,开源科学软件最主要的贡献者是科
9、研院所,占比 86%。其次是高校和个人,各占 5%,企业和其他类型各占 2%(图 3)。图 3 开源科学软件的开发者类型分布情况 需要指出的是,本报告数据采集自百余家全球重要的科研院所、高校、开源科学软件汇聚平台,其中科研院所约占 37%,高校约占 56%。科研院所有法国原子能和替代能源委员会、德国亥姆霍兹联合会以及美国能源部国家实验室等;高校有美国麻省理工学院、加州大学伯克利分校以及瑞士洛桑联邦理工学院等。本报告发现,中、美、欧、日等国部分科研院所在开源科学软件的开发、应用和管理方面具有较超前的管理秩序与思路,搭建了开源科学软件汇聚平台,为研究人员提供了便捷的查询和使用途径。4 全球开源科学
10、软件发展态势 2022 1.3 开源科学软件遵守的开源许可协议 开源软件的知识产权主要通过开源许可协议(也称开源许可证)进行许可与约束。开源许可协议是涉及专利、版权、商标等一系列权利义务的格式合同。一个开源项目依赖众多开源软件包或组件,开源软件在开发过程中也会不断加入新的开源组件,可能引入多个开源许可协议,表 1 列出了主流的开源许可协议。表 1 主流开源许可协议类型对比 (注:“”代表是,“”指没有明确规定是否必须公开修改后的源代码,可完全公开、部分公开或在有限范围内公开)1 在本报告调研的开源科学软件所遵守的开源许可协议中(图 4),BSD 许可占据了主导地位,共 939 款软件遵守;GP
11、L 许可也有较大影响力,有 603 款软件遵守;MIT 许可、Apache 许可、LGPL 许可分别吸引有 334 款、243 款和 107 款软件遵守,具有一定影响力;另有 865 款软件分别遵守 Zlib、QPL、QNCL 等不同许可协议。图 4 开源科学软件遵守的开源许可协议分布情况 1 张平,马骁.共享智慧:开源软件知识产权问题解析M.北京:北京大学出版社出版,2005 5 全球开源科学软件发展态势 2022 目前较为主流的开源许可协议目前较为主流的开源许可协议 Apache 许可(许可(Apache License)Apache 许可是由著名的非营利组织 Apache 软件基金会发布
12、的,允许源代码的复制、修改和分发,鼓励保护原著者版权,注重专利保护。Apache 许可也是对商业应用友好的许可,使用者可以在需要的时候修改代码来满足自身需要并作为开源或商业产品发布/销售。MIT 许可(许可(MIT License)MIT 许可是由麻省理工学院创建的,是对软件的分发使用限制条件极为宽松的协议,具有很好的兼容性。MIT 许可不包含专利许可证条款,任何人可以无限制地使用、修改、分发甚至出售作品副本,但在软件和软件的所有副本中都必须保留所有版权信息并附有 MIT 授权协议。GPL 许可(许可(GNU General Public License)GPL 许可由 Richard Sta
13、llman 于 1989 年编写。它是最具影响力与使用最广泛的开源许可,同时也是限制条件最严格的许可之一。GPL 许可的出发点是保证用户可以自由地使用、修改和分发开源代码,但是不允许用户将修改后的代码或创建的衍生作品在完全闭源之后,以商业软件的形式进行分发或借此方式来实现盈利。LGPL 许可(许可(GNU Lesser General Public License)LGPL 许可是由自由软件基金会公布的接口级别的开源许可,其主体内容仍沿用 GPL 许可证的主要内容,但 LGPL 的限制条款更为宽松,主要针对类库的使用进行了规范,明确了以动态链接方式使用 LGPL 代码时不属于 LGPL 衍生作
14、品。BSD 许可(许可(Berkeley Software Distribution)BSD 许可由加州大学伯克利分校发布,是对软件的分发使用的限制条件最为宽松的许可。它鼓励代码共享,允许使用者修改和重新发布代码,也允许使用或在 BSD 代码上开发商业软件并发布和销售,是对商业集成很友好的协议。MPL 许可(许可(Mozilla Public License)MPL 许可是由 Mozilla 基金会开发并持有的模块级别的开源许可。MPL 许可的出现,主要是为了平衡专业软件与开源软件之间的关系。它允许免费再发布、免费修改,但要求修改后的代码版权归软件的发起者。AGPL 许可(许可(Affero
15、General Public License)AGPL 许可是 GPL 许可的一个补充,原有的 GPL 许可存在 Web Service Loophole 的漏洞,AGPL 在此基础上增加了一条限制:如果使用 AGPL 许可的软件与用户通过网络进行交互,也需要提供源代码给用户,所有的修改也要给用户。NOSA 许可(许可(NASA Open Source Agreement)NOSA 许可是开源促进组织(Open Source Initiative,OSI)批准的开源许可,允许公开发布 NASA 资助的软件。自 2003 年以来,NASA 已经在 NOSA 许可下发布了 60 多个软件项目。其他
16、许可(其他许可(Others)其他许可包括 Zlib、QPL(The Qt Public License)、QNCL(Qt Non Commercial License)、IBM(IBM Public License)、EPL(Eclipse Public License)等。6 全球开源科学软件发展态势 2022 2.重点学科领域开源科学软件发展与应用 2.1 数理科学 面向数理科学领域的开源科学软件共 516 款,包括 Geant4、FermiLib、ChaNGa、NEK5000、LYNX 等。就数理科学领域开源科学软件的贡献者来看,科研院所共开发了 427 款相关软件,占据绝对主导地位;
17、高校和个人开发者也做出了贡献,分别开发了 32 款和 25 款相关软件;来自企业的相关软件有 13 款,表明数理科学领域的开源科学软件具有一定的商业价值;来自社区、基金会等其他类型开发者的相关软件有 12 款。就数理科学领域开源科学软件遵守的开源许可协议来看,BSD 许可占据了主导地位,共 172 款软件遵守 BSD 许可;GPL 许可和 MIT 许可的影响力紧随其后,分别有 87 款、48 款软件遵守;Apache 许可和 LGPL许可影响力相差无几,分别吸引 20 余款软件遵守;而遵守 AGPL 许可的软件较少(图 5)。图 5 数理科学领域开源科学软件的开发者类型和遵守的开源许可协议分布
18、情况 Geant4 是基于 C+环境开发的开源应用软件包,主要用于模拟粒子在物质中输运的物理过程2。Geant4由多国人员共同合作开发,目前最新版本为 11.0 版,已经在高能物理、空间物理等研究领域进行了大量应用,其中两个典型应用案例如下:(1)在高能物理研究领域,研究人员在国际线性对撞机模拟实验中使用 Geant4 进行探测器仿真;在BABAR 粒子物理实验中利用 Geant4 模拟粒子运动的物理过程;在 HARP 实验中使用 Geant4 模拟强子产生过程。(2)在空间物理研究方面,Geant4 被集成到欧空局 SPENVIS 空间环境信息系统中,用于空间环境模拟及分析。欧空局研究人员还
19、使用Geant4 在太空辐射分析研究中进行空间环境影响分析 3D 建模,以及模拟国际空间站的辐射环境,并进行剂量估算。2 Geant4.https:/geant4.web.cern.ch/应用案例:Geant4 7 全球开源科学软件发展态势 2022 2.2 生命科学 面向生命科学领域的开源科学软件共 275 款,包括 AlphaFold、Centrifuge、CoreNeuron、ChromHMM、Kraken 等。就生命科学领域开源科学软件的贡献者来看,科研院所共开发了 149 款相关软件,是主要贡献者;高校和个人开发者也做出了较大贡献,分别开发了 53 款和 49 款相关软件;来自企业的
20、相关软件有 5款,表明生命科学领域的开源科学软件具有一定的商业价值。就生命科学领域开源科学软件遵守的开源许可协议来看,GPL 许可吸引了最多相关软件,有 73 款相关软件遵守此许可;BSD 许可、MIT 许可、LGLP 许可分别吸引有 56 款、44 款、12 款相关软件遵守,具有一定影响力(图 6)。图 6 生命科学领域开源科学软件的开发者类型和遵守的开源许可协议分布情况 AlphaFold 是一款人工智能开源软件,可根据氨基酸序列快速预测蛋白质的 3D 结构。确定蛋白质结构的实验技术非常费力和费时,借助 AlphaFold 可在几分钟内大规模预测蛋白质的形状,准确性可与实验结果媲美。Alp
21、haFold 由英国人工智能公司 DeepMind 开发,遵守 Apache2.0 开源协议,代码托管于 GitHub 平台,目前的最新版本是 v2.2.4。DeepMind 和欧洲生物信息学研究所(EMBL-EBI)还合作创建了 AlphaFold DB,免费提供给科学界,最新的数据库版本包含 2 亿多个条目。AlphaFold 具备的独特功能使其特别适用于蛋白质结构求解、药物设计、靶点发现、疾病机理等生命科学领域的研究。例如,丹麦奥胡斯大学研究人员利用 AlphaFold 成功预测了 Boesen 中心已确定但尚未公布的蛋白质形状。美国北卡罗来纳大学研究人员利用 AlphaFold 准确地
22、预测了 G 蛋白偶联受体的蛋白质独特特征,以作为重要的药物靶标。美国科罗拉多大学博尔德分校的研究人员使用 AlphaFold 加速抗生素的抗药性研究3。3 Whats next for AlphaFold and the AI protein-folding revolution.https:/ 8 全球开源科学软件发展态势 2022 2.3 地球科学 面向地球科学领域的开源科学软件共 175 款,包括 ORBIT、PETGEM、Earth System Grid、Earthdata、ParFlow 等。就地球科学领域开源科学软件的贡献者来看,科研院所共开发了 160 款相关软件,是最主要贡献
23、者;高校、个人等开发者的参与程度不高。就地球科学领域开源科学软件遵守的开源许可协议来看,BSD 许可占据了主导地位,共 53 款相关软件遵守 BSD 许可;遵守 GPL 许可、NOSA 许可、Apache 许可、MIT 许可的软件分别有 26 款、19 款、16 款和 11 款,具有一定影响力(图 7)。图 7 地球科学领域开源科学软件的开发者类型和遵守的开源许可协议分布情况 ParFlow 是一种先进的数值计算模型,模拟从基岩到植物冠层顶部的水文循环。它利用物理方程将三维地下水流与坡面流及植物生长过程结合起来,严格模拟真实世界复杂系统中的水通量和能量通量。作为过程研究、预测分析、数据同化框架
24、、追测工具和气候变化预测的一部分,ParFlow 模型广泛用于理想条件和现实条件下的水循环研究,模拟从基岩到植物冠层顶部的水文循环。ParFlow 由来自多个国家的多家科研院所、高校共同研发,遵守 LPGL 开源许可,已经过广泛的基准测试,在全球十几个流域得到了广泛应用。其中两个典型应用案例如下:(1)中欧农业土壤水分监测与预测:为了解中欧植被在过去几年频繁出现干旱的原因,研究人员将ParFlow 用于中欧农业土壤水分的监测和预测,使用分辨率为600m的 ParFlow 来监测和预测德国及其邻近地区的土壤水分收支变化。(2)圣华金河流域地下水-地表水相互作用研究:研究人员使用ParFlow 模
25、拟美国加利福尼亚州圣华金河流域地下水-地表水动力学,研究水-食物-能量间的关系及其对气候变化的敏感性,以更好地了解流域的物理水文。结果表明,山区水力传导率可能占中央山谷总补给量的 7-23%,这是加利福尼亚州水资源管理的一项重要发现。应用案例:ParFlow 9 全球开源科学软件发展态势 2022 2.4 化学科学 面向化学科学领域的开源科学软件共 115 款,包括 BigDFT、Dalton、fuelcell、ML4Chem、Nwchem 等。就化学科学领域开源科学软件的贡献者来看,科研院所共开发了 77 款相关软件,是主要贡献者;高校和个人开发者也做出了较大贡献,分别开发了 13 款和 1
26、1 款相关软件;来自企业的相关软件有 2 款,表明化学科学领域的开源科学软件具有一定的商业价值。就化学科学领域开源科学软件遵守的开源许可协议来看,BSD 许可占据了主导地位,共 40 款相关软件遵守;GPL 许可也吸引了较多相关软件,有 29 款相关软件遵守;MIT 许可、Apache 许可、LGPL 许可也具有一定影响力,分别有 13 款、7 款、6 款相关软件采用上述许可(图 8)。图 8 化学科学领域开源科学软件的开发者类型和遵守的开源许可协议分布情况 BigDFT 是一种基于密度泛函理论(DFT)并使用小波基组的大规模并行电子结构编码,同时支持使用线性标度法,不但可以对周期性系统、表面
27、和孤立体系进行从头算原子模拟,还可以模拟包含成千上万个原子的超大规模系统。BigDFT 由多位开发者共同开发,不同的软件包遵守不同的开源许可协议,包括:GPLv2、GPLv3、MPL v2、MIT、LGPLv3。BigDFT 初版于 2009 年发布,目前的最新版本是 1.9。BigDFT 目前已在许多超级计算机上部署使用,例如,日本的“富岳”、英国的 Archer2、法国的 Irene-ROME 等。BigDFT 具备的独特功能使其特别适用于表面吸附、异质催化、有机晶体、OLED 等化学科学领域的研究4。例如,日本、法国、英国和西班牙的研究人员合作,利用 BigDFT 对酶-底物组合进行常规
28、的全量子力学计算,从而确定了系统中分子间不同相互作用的特征。欧洲科学家利用 BigDFT 研究有机超分子结构,从而快速准确地计算控制有机超分子电荷转移的关键参数。该方法已被应用于由力场模拟产生的无序结构模型。4 BigDFT.https:/bigdft.org/wp-content/uploads/BigDFT_brochure.pdf 应用案例:BigDFT 10 全球开源科学软件发展态势 2022 2.5 医学科学 面向医学科学领域的开源科学软件共 73 款,包括 Map3d、ComPaSS-GWAS、Poisson Hidden Markov Model、BuddySuite、coMot
29、if 等。就医学科学领域开源科学软件的贡献者来看,科研院所共开发了 42 款相关软件,是主要贡献者;高校和个人开发者也做出了较大贡献,分别开发了 10 款和 5 款相关软件。就医学科学领域开源科学软件遵守的开源许可协议来看,遵守的协议分布广泛,MIT 许可吸引了最多相关软件,有 17 款相关软件遵守此许可;BSD 许可、GPL 许可也吸引了较多相关软件,分别有 11 款相关软件遵守此许可;此外,还有 2 款相关软件遵守 LGPL、Apache 许可(图 9)。图 9 医学科学领域开源科学软件的开发者类型和遵守的开源许可协议分布情况 Map3d 是一款用于医学科学的可视化应用程序,用于显示和编辑
30、复杂的三维几何模型以及与这些模型相关的标量数据,该程序界面提供几何图形和相关数据,可以读取立体图形多个表面的关联数据5。Map3d 得到了美国国立卫生研究院国家普通医学科学研究所支持,由犹他大学心血管研究和培训研究所(CVRTI)的多位研究人员共同开发,遵守 MIT 许可。Map3d 初版于 2004 年发布,目前的最新版本是6.5。Map3d 目前已在美国国立卫生研究院下的多个研究部门部署使用,发布在美国国立卫生研究院综合生物医学计算中心(CIBC)网站上。Map3d 的功能特别适用于医学科学研究,主要包括以下用途:可视化电生理学实验中空间采样时间信号,并提供许多缩放选项和颜色图以及可视化元
31、素;显示任意数量的单个时间信号;实现来自多个三维表面实验和模拟结果的交互式可视化等。例如,研究人员利用 Map3d 对由线段、三角形和四面体构建的几何模型进行可视化和交互式编辑,以及对血管、切割平面等进行标记。5 Map3d:The NIH/NIGMS Center for Integrative Biomedical Computing.https:/www.sci.utah.edu/cibc-software/map3d.html 应用案例:Map3d 11 全球开源科学软件发展态势 2022 2.6 工程与材料科学 面向工程与材料领域的开源科学软件共 459 款,包括 OpenFOAM、
32、ChASE、Golem、HZDR、MATSim等。就工程与材料科学领域开源科学软件的贡献者来看,科研院所共开发了 428 款相关软件,是最主要的贡献者,其贡献占比高达 94%;高校、个人开发者和企业也有部分贡献,但相较科研院所差距很大。就工程与材料科学领域开源科学软件遵守的开源许可协议来看,BSD 许可占据了主导地位,共 128 款相关软件遵守 BSD 许可;Apache 许可、NOSA 许可和 GPL 许可也吸引了较多相关软件,分别有 86 款、63款和、41 款相关软件遵守,具有较大影响力;而遵守 MIT 许可、LGPL 许可、AGPL 许可和 MPL 许可的相关软件较少(图 10)。图
33、10 工程与材料科学领域开源科学软件的开发者类型和遵守的开源许可协议分布情况 OpenFOAM 是基于 C+环境开发的用于计算流体动力学的开源软件6,可安装在 Linux、macOS 和Windows 10 系统上,遵守 GPL 开源许可协议,支持用户在许可条款范围内免费修改和使用。OpenFOAM 主要由 Henry Weller(OpenFOAM的创建者),Chris Greenshields(OpenFOAM 联合创始人)和 CFD Direct Ltd.的 Will Bainbridge 等多位人员共同开发,由 OpenFOAM 基金会拥有,并在GitHub 托管平台上公开发布,目前最
34、新版本为OpenFOAM v10,且每年都会向公众发布新版本。OpenFOAM 已经在航天航空和兵器、能源电力、车辆和地面交通、重工业机械、船舶、电子等领域中得到广泛应用,例如大众集团汽车工程师采用 OpenFOAM 软件进行多个汽车系统的仿真和开发,包括温度控制设计、造型空气动力学模拟、进气和排气歧管设计以及发动机燃烧仿真等。6OpenFOAM.https:/openfoam.org/应用案例:OpenFOAM 12 全球开源科学软件发展态势 2022 2.7 管理科学 面向管理科学领域的开源科学软件共 92 款,包括 Dynare、Dynamo、PyForecastTools、TEAL、W
35、bstats等。就管理科学领域开源科学软件的贡献者来看,科研院所共开发了 89 款相关软件,是主要贡献者。就管理科学领域开源科学软件遵守的开源许可协议来看,BSD 许可占据了主导地位,共 37 款相关软件遵守 BSD 许可;GPL 许可、MIT 许可、Apache 许可、LGPL 许可分别有 2 至 12 款相关软件遵守,具有一定影响力(图 11)。图 11 管理科学领域开源科学软件的开发者类型和遵守的开源许可协议分布情况 Dynare 是一个软件平台,用于处理各种经济模型,特别是动态随机一般均衡(DSGE)和戴蒙德(OLG)模型。它能够在给定模型参数的情况下对模型进行模拟,在给定数据集的情况
36、下估计这些参数。其采用了大量应用数学和计算机科学技术,例如多元非线性求解和优化、矩阵分解、局部函数近似、卡尔曼滤波器和平滑器、图算法、最优控制等7。Dynare 由法国的多位科学家联合开发,遵守的开源协议是 BSD 许可、GPLv3 许可,最初版于 2012 年发布,目前最新的版本是 5.3。有许多公共机构和私人金融机构使用Dynare 进行政策分析,并作为预测活动的支持工具。在学术界,Dynare常被用于研究宏观经济学。Dynare 非常适合用来进行货币政策评估。例如,欧洲科学家基于格林斯潘统计的美国数据样本,利用 Dynare 对根据拉姆齐问题设定的货币政策模型和具有泰勒规则的同一模型进行
37、对比,进而研究货币政策评估框架8。7 Dynare.The model file.https:/www.dynare.org/manual/the-model-file.html#occasionally-binding-constraints-occbin 8 Adjemian,Stphane A.and Darracq Paries,Matthieu and Moyen,Stephane,Towards a Monetary Policy Evaluation Framework(September 9,2008).ECB Working Paper No.942,Available at
38、 SSRN:https:/ or http:/dx.doi.org/10.2139/ssrn.1265506 应用案例:Dynare 13 全球开源科学软件发展态势 2022 2.8 交叉科学 面向交叉科学领域的开源科学软件共 254 款,包括 NAMD、MyPresto、FQCDB、BGK-MD、LAMMPS等。就交叉科学领域开源科学软件的贡献者来看,科研院所共开发了 204 款相关软件,是主要贡献者;高校和个人开发者也做出了较大贡献,分别开发了 25 款和 13 款相关软件;来自企业的相关软件有 7 款,表明交叉科学领域的开源科学软件具有一定的商业价值。就交叉科学领域开源科学软件遵守的开源
39、许可协议来看,BSD 许可占据了主导地位,共 87 款相关软件遵守 BSD 许可;GPL 许可也吸引了较多相关软件,有 56 款相关软件遵守此许可;MIT 许可、Apache 许可、LGPL 许可分别吸引有 31 款、21 款、9 款相关软件遵守,具有一定影响力(图 12)。图 12 交叉科学领域开源科学软件的开发者类型和遵守的开源许可协议分布情况 NAMD 是一种面向对象的并行分子动力学代码,专为大型生物分子系统的高性能仿真而设计,通过数值求解运动方程计算原子轨迹,利用视觉分子动力学(VMD)可视化包进行仿真和分析。NAMD 的并行模式建立在 Charm+(并行编程框架)提供的并行框架之上,
40、采用了空间/力混合划分模式来划分并行任务,相对于其他主要采用空间划分实现并行的同类软件而言,对计算的划分粒度更细。NAMD 由伊利诺伊大学开发,获得了美国国立卫生研究院的资助,遵守伊利诺伊大学 NAMD 分子动力学软件许可协议,源代码可通过 Git 存储库获得,目前最新的版本是 3.0。基于该软件的科研成果曾获得 2002年戈登贝尔奖、2012 年 Sidney Fernbach 奖、2020 年戈登贝尔特别奖。NAMD 主要应用于交叉科学领域,如病毒的分子动力学模拟,是美国国家科学基金会超级计算中心使用最多的软件之一。美国加州大学研究人员利用 Frontera 超级计算机在约 25 万个处理
41、器上运行 NAMD,对约 2 亿个原子组成的冠状病毒模型进行分子动力学模拟,阐明了新型冠状病毒刺突动力学机理,为新药设计提供了支撑9。9 NAMD.https:/www.ks.uiuc.edu/Research/namd/应用案例:NAMD 14 全球开源科学软件发展态势 2022 2.9 信息科学 面向信息科学领域的开源科学软件共 915 款,包括 ExaSAT、HPAC、LBANN、GRAPPA、ARMCI 等。就信息科学领域开源科学软件的贡献者来看,科研院所共开发了 821 款相关软件,是主要贡献者;个人和高校也做出了一定贡献,分别开发了 26 款和 25 款相关软件;来自企业的相关软件
42、有 11 款,表明信息科学领域的开源科学软件具有一定的商业价值。就信息科学领域开源科学软件遵守的开源许可协议来看,BSD 许可占据了主导地位,共 298 款相关软件遵守 BSD 许可;MIT 许可和 GPL 许可也吸引了较多相关软件,分别有 118 款和 114 款软件遵守相关许可;Apache 许可和 LGPL 许可也具有一定影响力,分别吸引了 77 款和 31 款相关软件遵守(图 13)。图 13 信息科学领域开源科学软件的开发者类型和遵守的开源许可协议分布情况 ExaSAT 是面向百亿亿次级超算系统软硬件协同设计的静态分析工具,基于美国能源部劳伦斯利弗莫尔国家实验室的 ROSE 开源编译
43、器而开发,可利用编译器直接从源代码中自动提取参数化的性能模型,对各种不同性能指标的硬件和软件协同优化设计进行定量评估,为使用精确的架构模拟器探索更具针对性的百亿亿次级超算系统设计方案奠定了基础10。ExaSAT 由美国能源部劳伦斯伯克利国家实验室 Chan Cy 和 Nguyen Tan 共同开发,v1.0 版于 2017 年发布,代码托管在GitHub 平台。ExaSAT 可用于浮点运算分析、状态变量/寄存器分析、阵列访问模式和工作集分析、模板循环(Stencil Loop)优化分析、内存技术分析等。例如,ExaSAT 可提取浮点算术以及指数和对数等特殊数学函数,检查每个循环中的浮点运算组合
44、,并根据硬件的能力对每项运算的成本进行加权,模拟其对计算吞吐量的贡献;分析两个软件转换对缓存阻塞和循环融合等模板循环的影响,降低片外存储需求。10 EXASAT:AN EXASCALE STATIC ANALYSIS TOOL FOR HARDWARE/SOFTWARE CO-DESIGN.http:/www.codexhpc.org/?p=98#overview.应用案例:ExaSAT 15 全球开源科学软件发展态势 2022 2.10 多学科通用 可多学科通用的开源科学软件共 339 款,包括 VisIt、ELPA、GIMP、CAMELLIA、CEED 等。就通用开源科学软件的贡献者来看,
45、科研院所共开发了 279 款相关软件,是主要贡献者;高校和个人开发者也做出了较大贡献,分别开发了 18 款和 16 款相关软件;来自企业的相关软件有 8 款,表明多学科通用开源科学软件具有一定的商业价值。就多学科通用开源科学软件遵守的开源许可协议来看,BSD 许可占据了主导地位,共 114 款相关软件遵守 BSD 许可;GPL 许可也吸引了较多相关软件,有 72 款相关软件遵守此许可;Apache 许可、LGPL 许可、MIT 许可分别吸引有 7 至 34 款相关软件遵守,具有一定影响力(图 14)。图 14 多学科通用开源科学软件的开发者类型和遵守的开源许可协议分布情况 VisIt 是一款开
46、源、交互式、可扩展的可视化分析工具。用户可使用各种运算符和数学表达式对研究对象进行分析,并保存生成的图像和动画以供演示。VisIt 支持一组丰富的可视化功能,使用户能够查看各种数据,包括在结构化、自适应和非结构化的二维和三维网格上所定义的标量和矢量字段。VisIt 具备可定制的插件,能够可视化来自 120 多种不同科学数据格式的数据11。VisIt 由美国能源部劳伦斯利弗莫尔国家实验室开发,初始版本于 2002 年发布。目前,VisIt 最新版本为3.3,不仅可实现大规模数据的可视化,也可处理千字节范围内的小数据集。最新版本遵守 BSD 开源许可,托管在 GitHub 平台上。美国和欧洲的商业
47、、政府和学术组织已经开发并维护了专用插件和用户界面,以满足自己的实际需求。VisIt 在数理科学、工程科学、生命科学、信息科学、地球科学、化学科学、交叉科学等领域具有广泛应用,可实现的可视化效果类型包括人脑视图、纳米粒子电荷密度、飞机结构化网格图和速度场的切片矢量图、复杂曲面渲染、混合流体之间的界面状态、涡流形态、星系模拟中气体/尘埃密度图等。11 VisIt.https:/visit-dav.github.io/visit-website.应用案例:VisIt 16 全球开源科学软件发展态势 2022 3.开源科学软件汇聚平台 3.1 中国科技云 中国科技云(CSTCloud)是我国自主设计
48、、开放汇聚的新型国家级科研信息化基础设施,相继被纳入“十三五”和“十四五”的国家信息化规划,已基本实现高速科研网络、海量数据存储、大规模计算分析、科学数据与信息资源、科学软件资源等的云化集成,建立了开放的资源与服务汇聚机制及技术体系。目前,中国科技云已汇聚 1000 余款科学软件,涵盖地球科学与环境科学、生物学与生命科学、化学与物理学、空间科学与天文学、信息科学等多个学科领域。中国科技云专门打造了一个科学软件开源社区,汇聚了一批优秀的国产开源科学软件。该社区向公众开放并提供开源软件相关服务,致力于摆脱科研领域对国外软件的长期依赖,成为我国开源科学软件汇聚、管理与开放共享的平台。此外,依托该科学
49、软件开源社区,中国科学院计算机网络中心先后组织了三届中国开源科学软件创意大赛,将开源文化融入到科学研究中,有力促进了我国开源科学软件生态的形成。3.2 欧洲开放科学云 欧洲开放科学云(EOSC)是欧盟委员会于 2016 年推出的欧洲云计划的一个重要组成部分。它利用云计算,将欧洲现有信息化基础设施联合起来,约定统一的访问接口和协议,形成一体化的信息化基础设施环境,为 170 万欧洲科研人员及 7000 万各领域的专业人士提供跨境、跨领域的科研数据存储、管理、分析与再利用服务。EOSC 门户网站汇集了超过 17 万款软件,涵盖自然科学、工程与技术、医学与健康科学等领域,其中 90%以上的软件代码是
50、可以完全开放获取的。EOSC 检索界面拥有访问权限、年份、学科领域、发布机构、语种等字段的筛选功能。此外,EOSC 最大特色是设置不同的研究社区,聚焦 Covid-19、欧洲海洋科学、数字人文与文化遗产等主题,支持研究人员上传、发布并使用相关主题下的软件及代码。EOSC 门户网站中开源软件大多来自 Zenodo 和 Figshare 两大数据共享平台,两者均是“面向欧洲科研的开放获取基础设施项目(OpenAIRE)”的代表性成果。17 全球开源科学软件发展态势 2022 3.3 美国能源部科技信息办公室软件服务平台 美国能源部科技信息办公室软件服务平台(DOE CODE)是由美国能源部科学和技
51、术信息办公室资助开发的一个软件服务平台和搜索工具,保存了美国能源部资助的科研项目所开发的科学软件和商业软件,以及相关软件的手册、用例、测试数据、项目信息等。DOE CODE 提供软件的协作、存档和检索功能,用户可以将不开放的软件提交到 DOE CODE 用 GitLab搭建的内部数据仓库中,也可以通过 DOE CODE 在 GitHub 平台上的社区发布开源软件。DOE 汇聚的软件包括三种类型,分别是:开源且可开放获取的软件,即任何人都可以自由访问、使用、更改和共享软件;开源但尚不可开放获取的软件,即软件是开源的,但尚不可通过公共存储库开放获取,需要联系软件开发者或存储机构获取访问权和使用权;
52、闭源软件,即软件不是开源软件,必须通过联系许可官员来授予访问权限。3.4 日本高性能计算基础设施软件资源 日本高性能计算基础设施(HPCI)是由日本文部科学省发起,日本理化学研究所、东京大学等多家顶尖科研院所和高校联合建设和管理的大型高端科研基础设施,通过高速网络连接日本主要的超级计算机以及大学和科研机构的计算、数据和存储资源,打造了一个共享的计算环境。日本高性能计算基础设施目前汇集了包括 167 款开源科学软件在内的 247 款科学软件,涉及分子动力学、量子化学、凝聚态物理、计算生物学、天气与气候、计算流体力学、电磁场分析、机器学习、统计分析等研究方向,又可分为仿真软件、数据科学软件、预/后
53、处理、程序库等类型。18 全球开源科学软件发展态势 2022 4.结语 目前,全球开源科学软件已初步形成创新生态,主要国家政府科技部门、顶尖科研院所、一流高等院校、企业、开源社区及个人均参与其中。为解决纷繁复杂的各种科学问题,各大学科领域分别开发了特色不同、功能各异的开源科学软件,并取得显著应用成效。在全球各界积极推动开放科学的进程中,随着科学研究数字化转型持续加速,开源科学软件将更加蓬勃发展,发挥无可替代的支撑和纽带作用。同时,各界在推进开源科学软件发展的过程中仍需克服多方面挑战,包括开源基础设施、人才队伍、安全风险、标准规范、知识产权、生态建设等。我国各类开源社区已经超过 500 个,开源
54、生态发展正从平稳起步迈向加速繁荣的新阶段,开源科学软件正快速成长。同时,我国科技界正与国际科技界围绕科学数据、科技设施、科研成果、教育资源等创新要素的开放共享深化合作,共促开放科学运动在全球纵深发展。开源科学软件社区和生态有望继续发展壮大,将更好地帮助科学信息、科学数据和科学成果被更广泛地获取和更有效地利用,助力开源创新新时代。发布单位发布单位“科创中国科创中国”开源创新联合体开源创新联合体“科创中国”开源创新联合体是在中国科协倡导下,由中国科协科学技术传播中心、中国电子学会、中国标准化协会、中国通信学会、腾讯、百度、麒麟软件、CSDN 等 36 家单位共同发起成立的开放性、非营利、非法人组织
55、,以打造自主开源生态为宗旨,以建设产学研深度融合的开源创新体系为目标,以营造中国开源文化、提升开源创新能力为导向,广泛联系开源领域政产学研金介用媒等各类创新主体,汇聚开源创新资源,发展自主开源基金,建设开源实验室、开源社区、开源创新示范基地等新型融合机构。中国科学院成都文献情报中心中国科学院成都文献情报中心中国科学院成都文献情报中心(简称“成都中心”)成立于 1958 年,是中国科学院设在西南地区的研究型图书馆,是国家高水平科技智库建设的重要支撑和国家科技文献信息保障的重要力量,是中科院文献情报系统的重要组成部分和中科院国家高端智库建设的重要有机组成部分。成都中心是具有全国影响力的高水平情报咨
56、询与知识服务机构,为国家和中科院党组等决策一线提供战略情报保障,为科研院所和重大科技攻关任务等科研一线提供科技情报支撑,为国家重大区域创新战略和区域重要创新单元等创新一线提供竞争情报和科技评价服务。编写单位与编写组编写单位与编写组新一代信息科技战略研究中心新一代信息科技战略研究中心新一代信息科技战略研究中心是中国科学院成都文献情报中心下属创新单元,重点围绕人工智能、先进软件、量子信息、半导体、大数据、移动互联、物联网、数字经济等前沿与关键科技方向,开展国际科技动态监测、领域前沿态势分析、科技战略研究等战略情报决策咨询与服务。编写组组长:唐川副组长:张娟,王立娜,徐婧成员:杨况骏瑜,唐蘅,黄茹,石李妍,敖丽娟,李若男,韩一君