上海品茶

您的当前位置:上海品茶 > 报告分类 > PDF报告下载

02-阿里云峰会上海-弹性高性能计算-何万青(25页).pdf

编号:83957 PDF 25页 5.58MB 下载积分:VIP专享
下载报告请您先登录!

02-阿里云峰会上海-弹性高性能计算-何万青(25页).pdf

1、何万青阿里云高性能计算总监阿里云高性能计算总监阿里云弹性高性能计算E-HPC:一站式并行开发与优化云上开发新时代,codecode up!up!何万青何万青HPC概念及发展趋势高性能计算高性能计算(High Performance Computing)(High Performance Computing)是计算机科学的一个分支。主要聚焦于解决大规模科学问题的计算和海量数据的处理,如科学研究、气象预报、计算模拟、军事研究、CFD/CAE、生物制药、基因测序、图像处理等等。构建高性能计算系统的主要目的就是提高运算速度,要达到每秒万亿次级的计算速度,对系统的处理器、内存带宽、运算方式、系统I/O、

2、存储等方面的要求都十分高,这其中的每一个环节都将直接影响到系统的运算速度。10 PFlops1 PFlops100 TFlops10 TFlops1 TFlops100 GFlops10 GFlops1 GFlops100 MFlops100 PFlops10 EFlops1 EFlops100 EFlops92005201120231 ZFlops2029医疗图像基因研究预测天气预报中国超算24年2015:云计算落地2010:国家超算中心2005:集群普及2000:集群出现1995:MPP大型机2017:阿里云超算阿里云3招拆解超算上云障碍基于Virtualizatio

3、n 2.0的ECS弹性裸金属服务器低延迟RDMA50Gb 网络阿里云并行文件系统NAS/CPFS(Lustre*)ECS弹性裸金属服务器 无硬件性能/特性损失 硬件隔离/独占超级计算集群SCC弹性资源快速服务部署,横向扩展和热迁移运维自动化统一服务接口面向“大计算”设计的弹性基础设施CPUGPU内存网络带宽网络延迟96 核8xv100384GB50Gb2.0s最高配置的单一实例一张图描述E-HPC从传统超算到云超算,将云服务整合为HPC集群图形节点头节点计算节点客户PC超算中心或线下机房图形化的作业前后处理(可选)用户与资源管理、作业调度并行运行HPC作业文件存储保存作业数据LAN远程桌面访问

4、,或直接本地进行前后处理图形节点登录节点与管理节点计算节点客户PC图形化的作业前后处理(可选)远程登录、用户资源管理、作业调度并行运行HPC作业文件存储保存作业数据VPC客户云上HPC集群EIPWANGPU实例云图站ECS实例NASOSSSCC/ECS/GPU/FPGA实例弹性伸缩作业管理资源管理软件部署OpenAPI性能监控阿里云E-HPC服务E-HPC管控服务Region化部署E-HPCAgentE-HPCAgentE-HPCAgentE-HPCAgentE-HPCAgentE-HPCAgent一键创建集群E-HPC控制台E E-HPCHPC环境搭建、部署与使用开通并创建NAS硬件配置软件

5、配置部署集群01020304控制台提交作业命令行提交作业作业模版管理OSS数据导入任务提交和数据导入性能大盘节点/进程性能性能剖析集谛性能分析工具配置自动伸缩服务自动伸缩实例远程可视化弹性伸缩和可视化VPC服务(虚拟专用网络)OSS服务(对象存储)云监控服务HPC软件部署运行监控云桌面服务结果展示E E-HPCHPC让云超算强大易用让云超算强大易用虚拟交换机EIP服务(公网IP)文件存储服务(共享文件系统)安全组/云盾登录节点管控节点M计算节点NAlibaba Cloud E-HPCE-HPC控制台资源管理作业管理日志报表应用软件:GROMACS/LAMMPS/NAMD/GAUSSIAN提交作

6、业查看结果高性能运行时支撑:MPICH/OpenMPI/BLAS/Boost/CUDA开发与调试工具:GNU(gcc/g+/gfortran)/Autotools(autoconf)筛选适合HPC的机型:SCC/CPU计算型/GPU计算型/FPGA/网络增强型作业调度器:PBS/Slurm/GridEngine按量付费:按量付费:精确到小时的付费粒度,按需使用随时释放包年包月:包年包月:按周/月/年预付费,长期使用成本大减竞价实例:竞价实例:低至1折,至少保持1小时可用时长多部署模式多部署模式:高可用,简易模式,OneBox模式集群停机不收费集群停机不收费一键一键:一键启动集群,一键修复异常集

7、群镜像市场与容器镜像市场与容器:支持镜像市场镜像部署集群,支持HPC容器模式单集群支持扩容多单集群支持扩容多种规格计算节点种规格计算节点部署集群基础配置查看配置清单查看配置拓扑图任务提交和查看导入/导出作业文件控制台SSH登陆提交作业命令行作业调度器PBSSLURMSGEOpenGridCUBE上传数据通过OSS导入数据通过HTTP访问VPC网络Endpoint导入数据私用Bucket 临时含签名的URL 通过HTTP访问VPC网络Endpoint导入数据对象存储OSS命令行控制台wget http:/e-hpc-quickstart.vpc100-oss-cn- http:/e-hpc-qu

8、ickstart.vpc100-oss-cn- 微架构算法难容易度易低性能受益高算法运行环境(系统+运行平台)程序实现CPU 微架构CPU型号,核数,网络,文件系统,内存,NUMA,HT SOA/AOS,负载均衡,并行化,向量化,循环优化(block,unroll and jam,reorder)修改源码或可借助编译器进行优化寄存器级、Cache级,指令选择(latency、throughput/CPI),指令流水(乱序执行),分支预测 1.运行环境优化,收益高,容易实现,尤其是云上资源配置丰富、更换成本低的场景。2.性能优化的关键是定位性能问题,确定优化点。结构网格,非结构、无结构 解法器,

9、预条件子 层级递进的性能监控工具 集群级(性能大盘),了解集群所有节点负载;节点级(系统资源饱和度),与作业调度系统绑定,查看节点相关度:按节点维度,查看指标间的变化关联;按指标维度,查看不同节点间的指标差异。进程级(进程信息),查看节点占用OS时间片最高的进程信息;函数级(热点函数),确定占用CPU资源最多的函数信息 bottom-up(热点函数)和top-down(逻辑调用关系)。应用级性能监控工具集谛算法运行环境(系统+运行平台)程序实现CPU 微架构集群级节点级进程级函数级已上线,功能截图登录节点与管理节点计算节点远程登录、用户资源管理、作业调度并行运行HPC作业登录节点与管理节点计算

10、节点远程登录、用户资源管理、作业调度并行运行HPC作业登录节点与管理节点计算节点远程登录、用户资源管理、作业调度并行运行HPC作业登录节点与管理节点计算节点远程登录、用户资源管理、作业调度并行运行HPC作业时间点t0,无作业提交时间点t1:提交作业1需4个节点运行时间点t2:提交作业2,需4个节点,作业1继续运行时间点t3:作业1、2运行完毕无新作业提交 E-HPC管控服务监控调度器作业资源需求,动态创建/删除计算节点(数据保留在共享存储),按实际负载弹性计费。可针对调度器队列制定差异化的伸缩策略,支持抢占式实例,支持跨可用区伸缩,降低客户使用成本。作业负载基于作业负载的弹性伸缩基于作业负载的

11、弹性伸缩弹性伸缩扩容扩容时间间隔额外节点百分比扩容比例集群最大计算节点数量缩容缩容时间间隔节点连续空闲次数例外节点列表将成本作为重要因素的云上计算方案,利用以下技术将云上普惠的高性能计算服务提供给绝大部分HPC用户抢占式实例:控制计算资源在期望的成本之下自动伸缩:自动扩容抢占式实例,无需用户干预断点续算:在计算资源被释放和重新获取之后,作业可以续算E E-HPCHPC闲时计算方案闲时计算方案与混合云与混合云断点续算应用算例:GROMACS 在算例输入文件中设定步长 在作业提交脚本中设定checkpoint文件生成的时间间隔数据全流程可视化作业前处理作业前处理作业前处理可视化编辑调度器配置项可视

12、化控制台直接作业文件编辑器作业运行作业后处理作业后处理作业后处理计算结果可视化控制台直接提供Web化的图形桌面支持云图站等多种可视化服务作业运行作业运行可视化性能分析节点性能:按节点查看物理资源性能进程性能:按进程查看软件运行性能性能剖析:剖析进程,查看函数级性能数据控制台远程可视化创建实例连接实例使用可视化设置流程创建可视化集群创建可视化实例连接实例E-HPC可视化集群E-HPC计算集群阿里云 VPCE-HPC NAS共享存储E-HPC可视化实例数据共享创建计算集群可视化集群:管理一个或多个可视化实例负责实例状态的维护管理实例连接token生命周期可视化实例:支持不同硬件配置(CPU/内存/

13、GPU)桌面型实例:每个实例提供一个远程桌面App型实例:每个实例提供一个远程App不同子账号可分配不同实例实例与计算集群数据互通连接连接实例:为连接会话提供token鉴权每个用户每次会话都有独立的token关闭连接后失效上传作业文件 GUIGUI创建作业提交作业到调度器 下载作业包并解压 调度、执行HPCHPC作业 创建后处理作业,上传作业结果用户访问阿里云控制台E-HPC后台服务OSS服务集群实例完成作业计算共享文件系统存储作业数据高性能计算集群多种数据传输方案EIP服务控制台直接传输适合GB级以下数据高速通道服务专线连接,直接访问集群闪电立方硬盘快递上门,适合TB级数据下载作业结果线下数

14、据中心控制流数据流图形工作站服务远程结果可视化HPC工作流与数据迁移E-HPC 工业计算业务架构:被集成到SaaSE-HPC 作业管理与调度E-HPC 资源生命周期管理E-HPC ISV应用软件与运行环境管理商业软件栈导入、部署与生命周期管理框架商业License生命周期管理E-HPC 商业License管理商业License调度ECSSCCGPUFPGAVPCSecurityOSSNAS/CPFS闪电立方闪电立方E-HPC OpenAPIE-HPC 通用解决方案支撑混合云解决方案可视化解决方案SaaS合作伙伴合作伙伴地质勘探地质勘探工业制造工业制造生物医药生物医药气候气象气候气象电子设计电子设计行业行业客户客户ISV合作伙伴合作伙伴

友情提示

1、下载报告失败解决办法
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。

本文(02-阿里云峰会上海-弹性高性能计算-何万青(25页).pdf)为本站 (小时候) 主动上传,三个皮匠报告文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三个皮匠报告文库(点击联系客服),我们立即给予删除!

温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。
会员购买
客服

专属顾问

商务合作

机构入驻、侵权投诉、商务合作

服务号

三个皮匠报告官方公众号

回到顶部