亚马逊第二代EC2UltraClusters算力集群(采用英伟达H100) 原图定位 ◆ AWS推出了第二代 EC2 Ultra Clusters集群,包括H100 GPU和自研Trainium ASIC方案。AWS EC2 Ultra Clusters P5实例(即H100方案)提供3200 Gbps的聚合网络带宽并支持 GPUDirect RDMA,最大可支持2万张GPU组网;Trn1n实例(自研Trainium方案)单集群16卡,提供1600 Gbps的聚合网络带宽,最大支持3万张ASIC组网,对应6 EFlops算力。AWS EC2 Ultra Clusters卡间互联分别采用NVLink(H100方案)和NeuronLink(Trainium方案),集群互联采用自研EFA网络适配器。对比英伟达方案,AWS自研Trainium ASIC集群单卡上行带宽推算为100G(1600G聚合带宽/16卡=100G),因此AWS目前架构中暂无800G光模块需求。