上海品茶

您的当前位置:上海品茶 > 报告分类 > PDF报告下载

2023企业上云暨算云融合产业大会-软硬一体云系统论坛-DPU驱动的网内计算系统与应用-清华大学胡效赫.pdf

编号:122241 PDF 39页 13.53MB 下载积分:VIP专享
下载报告请您先登录!

2023企业上云暨算云融合产业大会-软硬一体云系统论坛-DPU驱动的网内计算系统与应用-清华大学胡效赫.pdf

1、胡效赫高速可编程网络关键技术与系统应用网络安全实验室清华大学&北京信息科学与技术国家研究中心分布计算与智能加速技术团队网络安全实验室(成立于2003年)http:/tsinghua-nslab.org研究方向网络算法(始于2003年)网包分类、模式匹配、网流识别、流量管理系统设计(始于2007年)统一威胁管理、软件定义网络、可编程网络网络自动化(始于2016年)网络策略编排与验证2023/4/6Network Security Laboratory,Research Institute of Information Technology2网络处理器 DPU2023/4/6Network Sec

2、urity Laboratory,Research Institute of Information Technology32013年 72众核网包分类、正则匹配Intel IXPCavium OCTEON2014年2016年2019年2020年NVIDIA BlueField-2 DPU网内计算In Network Computing异构计算2023/4/65MemoryALU可编程解析器可编程“匹配+处理”流水线header_type ethernet_t header_type l2_metadata_t headerethernet_t ethernet;headervlan_tag_

3、t vlan_tag2;metadata l2_metadata_t l2_meta;包头与元数据声明解析程序parser parse_ethernet extract(ethernet);return switch(ethernet.ethertype)0 x8100:parse_vlan_tag;0 x0800:parse_ipv4;0 x8847:parse_mpls;default:ingress;流表与控制table port_table control ingress apply(port_table);if(l2_meta.vlan_tags=0)process_assign_v

4、lan();CPU计算Java/CGPU图形OpenCLDSP信号处理MATLAB人工智能TPUTensorFlow网络P4FPU/DPU领域专用处理器网络抽象传统网络是一个黑盒2023/4/6Network Security Laboratory,Research Institute of Information Technology6网络抽象可编程使得网络逐渐白盒化2023/4/6Network Security Laboratory,Research Institute of Information Technology7网内计算在数据移动时进行处理基于可编程网络,将数据事务的部分计算从

5、CPU转移到网络满足I/O密集型系统的高吞吐量、低延迟和低功耗的需求2023/4/6Network Security Laboratory,Research Institute of Information Technology8通用服务器大数据人工智能智能网卡白盒交换机共识缓存集合通信网内计算学术界工作2023/4/6Network Security Laboratory,Research Institute of Information Technology9When In-Network Processing Meets Distributed Systems,Bojie Li,APNe

6、t 2021应用场景交换机侧-转发处理器服务器侧-数据处理器拥塞控制HPCC SIGCOMM 19,pFabric SIGCOMM 13,DeTail SIGCOMM 12,CP NSDI 14,NDP SIGCOMM 17DCQCN SIGCOMM 15,TIMELY SIGCOMM 15,MP-RDMA SIGCOMM 18,IRN SIGCOMM 18负载均衡SilkRoad SIGCOMM 17VFP NSDI 17,Tiara NSDI 22键值缓存SwitchKV NSDI 16,NetCache NSDI 17,IncBricks ASPLOS 17Pilaf ATC 2013,

7、FaRM NSDI 2014,DrTM SOSP15,FaSST OSDI 16,KV-Direct SOSP 17数据聚合SHARP Mellanox,DAIET SoCC 17,SwtichML NSDI 21,ATP NSDI 21,Trio SIGCOMM 22,ASK ASPLOS 23NetAgg CoNEXT 14,CamCube SIGCOMM 10锁、共识NetLock SIGCOMM 20,NetChain NSDI 18,NetPaxos SOSR 15,SpecPaxos NSDI 15,NOPaxos OSDI 16,Eris SOSP 17DSLR SIGMOD 1

8、8,Consensus in a Box NSDI 16,DARE HPDC 15,APUS SoCC 17,DerechoCornell TR 16,Mu OSDI 20编程平台P4Visor CoNEXT 18,P4 SIGCOMM 20,Domino SIGCOMM 16,Lyra SIGCOMM 20,Gallium SIGCOMM 20,NetRPC NSDI 23Floem OSDI 18,iPipe SIGCOMM 19,StRoM EuroSys 20,ClickNP SIGCOMM 16,FairNIC SIGCOMM 19,-NIC ICDCS 20负载均衡2023/4/6

9、Network Security Laboratory,Research Institute of Information Technology10RS_IPRS_IP负载均衡2023/4/6Network Security Laboratory,Research Institute of Information Technology11$200k each100-200 servers50-100MB SRAMTiara2023/4/6Network Security Laboratory,Research Institute of Information Technology12Tiara

10、系统架构2023/4/6Network Security Laboratory,Research Institute of Information Technology13Tiara实现评测2023/4/6Network Security Laboratory,Research Institute of Information Technology14Tiara实现评测2023/4/6Network Security Laboratory,Research Institute of Information Technology15Tiara实现评测2023/4/6Network Securit

11、y Laboratory,Research Institute of Information Technology16分布式机器学习可扩展性模型、规则集不断增大,训练效率依赖于基础设施层面的创新2023/4/6Network Security Laboratory,Research Institute of Information Technology17大模型的多机多卡集群训练时间长达数天分布式机器学习2023/4/6Network Security Laboratory,Research Institute of Information Technology18分布式机器学习2023/4/

12、6Network Security Laboratory,Research Institute of Information Technology19Parameter server(PS)and all-reduce(ring)Accelerator?Accelerator?分布式机器学习2023/4/6Network Security Laboratory,Research Institute of Information Technology20网内聚合减少每次迭代所需同步的数据量,提升吞吐量、降低延迟、降低训练时间INA/RARSwitchML2023/4/6Network Secur

13、ity Laboratory,Research Institute of Information Technology21SwitchML2023/4/6Network Security Laboratory,Research Institute of Information Technology22 The switch performs integer aggregation Hosts manage reliability and perform more complex computations SwitchMLStreaming aggregationSeparate aggrega

14、tion for SGD on different portions of the input dataEach workers can have at most outstanding packets at any time to match the slots in the switch2023/4/6Network Security Laboratory,Research Institute of Information Technology23SwitchMLFloating point quantizationTest accuracy of ResNet-110 on CIFAR1

15、0.SwitchML achieves similar accuracy to the baseline.2023/4/6Network Security Laboratory,Research Institute of Information Technology24SwitchML实现评测2023/4/6Network Security Laboratory,Research Institute of Information Technology25SwitchML实现评测2023/4/6Network Security Laboratory,Research Institute of I

16、nformation Technology26产业成果转化基流 Infrawaves可编程网络应用场景基础设施 系统应用2023/4/6Network Security Laboratory,Research Institute of Information Technology28DeepInsightOpenNorthboundAPIsOpenTelemetryReportFormatdefinedbytheP4.orgApplicationsWorkingGroup1BarefootDeepInsightMonitoringSystemEnabledbyDataPlane Telemet

17、ryDeepInsightAnalyticsSoftwareReal-timeAnomalyDetectionMachineLearningbasedAnalyticsModularArchitectureSeamlessScale-outonCommodityServersBarefootData-PlaneTelemetryIn-BandNetworkTelemetry(INT.P4)IntelligentDeduplicationandTriggersLineRateMonitoring1Howdiditgethere?2Whyisithere?3Howlongwasitdelayed?

18、4Whywasitdelayed?AnswerforEvery Packet.INTMetadataCopyright2018-BarefootNetworks网络可视化网络虚拟化存储虚拟化当前商用场景未来落地场景安全互联AggregationAI/数据四到七层网络功能2023/4/6Network Security Laboratory,Research Institute of Information Technology29七层慢速通道计算密集型任务四层快速通道输入输出密集型任务网络功能CPU可编程硬件裸金属应用公有云裸金属服务器应用性能与隔离的需求DPU提供虚拟网络和云盘2023/4/

19、6Network Security Laboratory,Research Institute of Information Technology30RDMA应用高性能网络通信抽象接口远程内存访问,协议卸载到网卡执行,可显著降低传输延迟和CPU负载AI训练、超算与高性能存储等高带宽场景中的主流通信方案2023/4/6Network Security Laboratory,Research Institute of Information Technology31TCP/IPNIC driverUserKernelHardwareRDMA transportIP EthernetRDMA app

20、DMARDMA verbsTCP/IPNIC driverEthernetRDMA appDMARDMA verbsLossless networkRDMA transportIP KernelNICKernelNICR-MemQPQPCQCQSend WQERecv WQEPoll CQEPoll CQE TransmissionDRAMApplicationApplicationR-MemR-MemR-MemDRAM2023/4/6Network Security Laboratory,Research Institute of Information Technology32大模型是什么

21、级别的事件,有几年的机遇?GPT-3GPT-4GPT-5175B1T?个人电脑移动终端人工智能大模型时代2023/4/6Network Security Laboratory,Research Institute of Information Technology33大模型基础设施GPU网卡服务器交换机硬件设备系统框架算力NCCLRCCL通信库驱动层计算层并行库2023/4/6Network Security Laboratory,Research Institute of Information Technology34大模型网络通信GPU网卡服务器交换机硬件设备系统框架算力NCCLRCCL

22、通信库驱动层计算层并行库“由于这些工作跨越了数千个GPU,需要确保有可靠的基础设施,也需要在后端拥有网络,这样才能更快地进行通信并能够连续数周这样运转。”微软Azure高性能计算和人工智能产品负责人Nidhi Chappell称“这不是买了一大堆GPU,把它们连在一起就可以开始工作的。为了获得最佳的性能,需要有很多系统级的优化,而这又需要经过许多人的经验总结出来。”2023/4/6Network Security Laboratory,Research Institute of Information Technology35基础设施网络趋势网络通信是分布式机器学习训练的重要组成AI大模型GP

23、T-3在单个英伟达V100 GPU上训练需要288年增加GPU数量后,1024张A100的训练时长可以减少到1个月优化网络调度传输机制可以提升训练速度大模型训练中的网络通信开销超过60%能效比提升30%,相当于节省30%的GPU投资资料来源:数据中心智能无损网络白皮书,开放数据中心委员会ODCC,20212023/4/6Network Security Laboratory,Research Institute of Information Technology36基础设施网络趋势2013年低性能低带宽、高时延高性能高带宽、低时延RDMAInfiniBandTCP/IPEthernet超算HP

24、C通信网络互联、安全2023年中低性能低带宽、高时延极高性能高带宽、极低时延RDMA InfiniBandTCP/IPEthernet超算HPC通信网络互联、安全RDMAEthernet大模型分布式存储中高性能高带宽、低时延RDMA网络2023/4/6Network Security Laboratory,Research Institute of Information Technology37InfiniBand 05年Linux添加IB支持 高性能计算的主要方案 高带宽和极低时延 二三层“轨道交通”网络 基于信用的流量控制RoCE 15年微软试点RoCE 云数据中心的主要方案 高带宽和低

25、时延 二三层“快递分发”网络 基于反压的流量控制 支撑RDMA的专有网络通信标准,需要从网卡到交换设备的整套专有方案 支撑RDMA的以太网标准,基于UDP实现IB传输层协议,需要网卡与交换设备协作2023/4/6Network Security Laboratory,Research Institute of Information Technology38初期产品端到端以太网RDMA互联系统国产化,IB专网替换:稳定、易用、高性能监控闭环:参数配置优化,拥塞控制、网包调度算法升级去PFC,减少抖动,降低时延,提升训练速度和存储吞吐网络状态信息可视化,网络运维自动化智能化通信调度:数据/模型并行,拓扑优化,硬件卸载产品形态整体解决方案:商用硬件配套自研管控调度软件产品预期解决方案功能完备,达到行业前三支持千卡至万卡环境的大模型训练商用网卡主机应用通信驱动商用交换机操作中心网内计算编译器自动驾驶控制器算法CCPS金星Venus端网、算网、软硬协同CCL谢谢

友情提示

1、下载报告失败解决办法
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。

本文(2023企业上云暨算云融合产业大会-软硬一体云系统论坛-DPU驱动的网内计算系统与应用-清华大学胡效赫.pdf)为本站 (2200) 主动上传,三个皮匠报告文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三个皮匠报告文库(点击联系客服),我们立即给予删除!

温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。
会员购买
客服

专属顾问

商务合作

机构入驻、侵权投诉、商务合作

服务号

三个皮匠报告官方公众号

回到顶部