《24d-3s4-2-OpenMPL_rvcs_20230824.pdf》由会员分享,可在线阅读,更多相关《24d-3s4-2-OpenMPL_rvcs_20230824.pdf(13页珍藏版)》请在三个皮匠报告上搜索。
1、张先轶PerfXLab 澎峰(北京)科技有限公司2023.8RISC-V 性能开源计算库 OpenMPL2016年,澎峰科技(PerfXLab)成立,推出智能边缘计算全栈解决方案,服务于国产芯片和行业边缘智能2018年,加入RISC-V基金会,再次发力RISC-V基础软件能力和生态建设公司一直致力于研发算力基础软件(高性能计算库、异构计算软件栈以及软硬融合解决方案等),为国公司一直致力于研发算力基础软件(高性能计算库、异构计算软件栈以及软硬融合解决方案等),为国内外知名企业和院所提供了加速计算解决方案内外知名企业和院所提供了加速计算解决方案(中科院,华为,燧原,平头哥=,华大九天,中船等)关于
2、澎峰科技2016年,中国计算机学会科技进步二等奖2017年,中国科学院杰出科技成就奖2018年,北京雏鹰人才计划,国家高新企业2021年,数字中国集成电路赛道特等奖2021年,创芯中国决赛一等奖2021年,CRVA联盟,软件工作组副组长单位2022年,OpenCAX SIG10组长单位2022年11月15日,ChinaSC中国超级算力大会荣获“算力软件基建领军企业”和“中国智能计算卓越贡献奖”双项荣誉2023年,入选北京市“专精特新”中小企业2023年,入选中国互联网协会算网云协同系统工作委员会成员单位2020年RISC-V Global Forum2019年CRVA生态贡献奖2016年中国计
3、算机学会科技进步二等奖2021年数字中国.集成电路赛道公司为算力行业构建了从数学计算库、异构计算框架、直到新的科学计算工具全栈解决方案。公司核心技术与产品PerfXPyPerfXAPIPerfMPLfor 高性能异构计算平台x86/ARM/RISC-V CPU,GPU、NPU/DSA、FPGA面向科学家的高性能Python计算平台异构计算,并行优化,AI and HPC高性能数学库和各类算子库赋能跨架构的计算平台赋能跨架构的计算平台。为异构计算编程平台提供系统解决方案。实现算法跨平台敏捷迁移,实现加速计算和自主可控。赋能新一代计算芯片。赋能新一代计算芯片。为各类处理器架构提供高性能的、稳定可靠
4、的计算库软件。赋能科研新范式。赋能科研新范式。建设软硬件融合算力的全栈国产可控生态,支持源生创新。RISC-V 软硬件融合类产品衡山系列(高密度RISC-V计算型服务器)密度计算型服务器处理器:国产RISC-V 4 X 64核2.0GHz持RDIMM/NV-DIMM 3200MHz的DDR4 ECCPCIe4.0 x8*3(可扩展100G通信)1.5U 标准机箱,持GPU/NPU异构软件集成:Linux+PerfMPL+PerfXAPI+PerfXPy澎峰科技与中科计算技术部研究院共同研发!2023.12023.62023.9+设计批量试产样品与发布全球第款RISC-V密度通计算型服务器202
5、3.10批量出货全球第个RISC-V超算平台(验证)1024cores 16Tflops4 X HS-S1 Server双精2048cores32Tflops8 X HS-S1 Server双精Stronger performance成熟架构计算领域软件生态Intel公司MKL库(数学库、几千个函数,闭源)稠密矩阵计算BLAS/LAPACK快速傅里叶变换FFT稀疏矩阵计算 SparseBLAS稀疏解法器(直接、迭代)随机数发生器向量数学库VML统计加速.DAAL库(数据分析)IPP库(图像、信号处理)MKL-DNN库(深度学习)持续增长、持续优化开源数学计算库:分散名称简介主导类型备注Open
6、BLAS性能BLAS和LAPACK库中国,澎峰科技开源澎峰科技提供商业版本PerfMPLBLISBLAS和扩展接库美国,UT Austin开源ATLASBLAS库美国开源LAPACK稠密线性和特征值解法器美国开源常用稠密线性代数方程组求解器常用稠密线性代数方程组求解器常用稀疏特征值求解器常用稀疏特征值求解器名称简介主导类型备注ARPack稀疏特征值求解器美国开源已停滞ARPack-NG基于ARPack开发法国开源Spectra基于C+模版的特征值求解中国,上海财经学开源基于EigenRISC-V计算领域现状(2023)RISC-V Vector扩展RVV 0.7.1 量产(阿里平头哥 C906
7、/C910,全志D1)RVV 1.0 发布多核/众核单核2核、4核软件生态支持编译工具链对Vector支持加速计算库优化新增 Libmoepgf可惜没有优化OpenMPL开源数学计算库统一API和库参考Intel MKL持续针对各个架构处理器性能优化X86ARMRISC-VOpenBLAS开源矩阵计算库,12年历史https:/ OSX/Android目前支持RISC-V架构已经支持C910 RVV指令优化(RVV 0.7.1,1.0支持)RVV 1.0进行中,已merge sifive x280 PROpenMPL on ARM020004000600080005913
8、74656973778185899397MFlops矩阵规模 m=n=k双精度实数 GEMM NN单线程性能(越高越好)OpenBLASPerfMPL(JIT)ARMPLEigenBLIS华为鲲鹏920055257359455367547256659225GFlops数据规模N1D FFT C2C Out-of-Place单线程性能(越越好)FFTWPerfMPLARMPL055257359455367547256615
9、98453307599225GFlops数据规模N1D FFT C2C InPlace单线程性能(越高越好)FFTWPerfMPLARMPLFT-2000(ARM)FT-2000(ARM)FT-2000/4OpenMPL应用在PerfXPy科学计算软件上,与原生Python比较,带来性能大幅提升。优势:1)性能对标国际;2)一致精度;3)安全、可靠、稳定。OpenMPL on RISC-VRISC-V C920优势:1)性能对标国际;2)一致精度;3)安全、可靠、稳定050002500300035004000sinsinfsinhsinhfexpex
10、pf时间(ms)PerfMathlibm007080906 112 128 144 160 176 192 208 224 240 256 272 288 304 320 336 352 368 384 400 416 432 448 464 480 496 512DGEMM Performance(MFlops)Netlib BLASOpenBLAS051015202530memcmp:8memcmp:64memcmp:8192memcmp:65536memcpy:16memcpy:512memcpy:16384memcpy:131072memse
11、t:32memset:1024memset:32768strcat:8strcat:64strcat:8192strcat:65536strcmp:16strcmp:512strcmp:16384strcmp:131072strcpy:32strcpy:1024strcpy:32768strlen:8strlen:64strlen:8192strlen:65536wcscat:16wcscat:512wcscat:16384wcscat:131072wcscpy:32wcscpy:1024wcscpy:32768wmemcmp:8wmemcmp:64wmemcmp:8192wmemcmp:65536wmemcmp:16wmemcmp:512wmemcmp:16384wmemcmp:131072memcpy等内存函数时间对比RVV 优化标量实现总结OpenMPL统一的开源数学计算库,降低迁移成本OpenBLASOpenVML未来工作开源FFT模块:fftw,openfft其他的稀疏解法器库感谢各位期待与各位交流,为RISC-V计算生态发展贡献力量欢迎全职/兼职/实习生