上海品茶

您的当前位置:上海品茶 > 报告分类 > PDF报告下载

软件定义全光交换在高性能计算和数据中心应用-张华.pdf

编号:152081 PDF 16页 3.46MB 下载积分:VIP专享
下载报告请您先登录!

软件定义全光交换在高性能计算和数据中心应用-张华.pdf

1、知识和理性知识和理性软件定义全光交换软件定义全光交换在高性能计算和数据中心应用在高性能计算和数据中心应用凌云光技术股份有限公司张华2023年6月目目 录录1.HPC1.HPC和和数据中心互联挑战数据中心互联挑战2.OCS2.OCS全光交换应用方案全光交换应用方案3.OCS3.OCS技术和产品技术和产品4.4.总结和展望总结和展望LUSTER ConfidentialGoogle TPUGoogle TPU集群规模演变集群规模演变AIAI模型模型规模的演进规模的演进 ChatGPTChatGPT引爆了人工智能引爆了人工智能(AI)/(AI)/机器学习机器学习(ML)(ML)新的需求高潮,当前新的

2、需求高潮,当前GPUGPU互联端口已采用互联端口已采用800G(2x400G)800G(2x400G),下一代会演进到,下一代会演进到1.6T(2x800G)1.6T(2x800G),数据中心对光互联的带宽需求越来越高。数据中心对光互联的带宽需求越来越高。伴随着带宽增长,伴随着带宽增长,AI/MLAI/ML集群规模从几百张加速卡到上万张扩展,集群互联距离从数十米到上百米延伸,集群规模从几百张加速卡到上万张扩展,集群互联距离从数十米到上百米延伸,Al/MLAl/ML集群互联对低功耗和低集群互联对低功耗和低延迟需求迫切,现有电交换面临瓶颈。延迟需求迫切,现有电交换面临瓶颈。1.1 1.1 HPCH

3、PC发展趋势发展趋势和挑战和挑战LUSTER Confidential1.2 1.2 大规模大规模数据中心数据中心互联互联挑战挑战挑战挑战1 1:SpineSpine交换机成为性能瓶颈交换机成为性能瓶颈 Spine交换机一般会提前预部署,但随着速率不断升级,低速Spine交换机成为新技术应用的性能瓶颈。Spine交换机成本和功耗在整个数据中心占比40%,升级Spine交换机,将会带来一系列问题,如耗时,费钱,增加功耗。挑战挑战2 2:能效提升进入平台期:能效提升进入平台期 随着速率提升,200G及以上速率单纯依赖硬件升级能效提升不明显,需要通过架构重构等方式进一步提升能效,降低运营成本。目目

4、录录1.HPC1.HPC和和数据中心互联挑战数据中心互联挑战3.OCS3.OCS技术和产品技术和产品4.4.总结和展望总结和展望LUSTER Confidential2.12.1 OCSOCS全光交换简介全光交换简介入射到光纤中的任意光信号均可被交换入射到光纤中的任意光信号均可被交换是是全光全光交换交换 不是光电转换交换不是光电转换交换 全光域切换全光域切换:纯光信号输入,纯光信号交换,纯光信号输出。光纤级切换光纤级切换:光信号从一根光纤切换到另一根光纤。无时钟抖动,无延迟,不读取数据,无泄漏风险。无时钟抖动,无延迟,不读取数据,无泄漏风险。是是线路线路交换交换 -不是分组交换不是分组交换 不

5、选择路由不选择路由IPIP数据包。数据包。交换光纤上传输的全部数据。交换光纤上传输的全部数据。光信号光信号完全透明完全透明传输,支持光纤中传输,支持光纤中任意速率任意速率/任意调制格式任意调制格式/任意通信波长任意通信波长光信号交换光信号交换 任意速率/任意调制格式的数字信号:如数据中心400 Gbps+,CPRI,Ethernet等 任意速率/任意调制格式的模拟信号:如RoF,视频,传感数据(即油井传感器数据)任意通信波长850nm,1260nm-LUSTER Confidential2.2 2.2 OCSOCS全光交换在全光交换在HPCHPC实施方案实施方案-Google TPUv4-Go

6、ogle TPUv4可靠性提升可靠性提升 如果使用常规的固定互联架构,有一小部分的芯片出故障,可能会影响整个系统工作。采用可重配置的OCS,只需要把出故障的芯片旁路切换到备用节点,不会影响整个系统的工作。不同不同TPUTPU切片下,切片下,TPUTPU主机可靠性和系统平均性能的曲线主机可靠性和系统平均性能的曲线(如图如图)。不使用OCS时,主机可靠性必须做到99.9%99.9%,才能保证TPU切片有较好的性能;而使用使用OCSOCS之后,99.0%99.0%和99.5%99.5%的主机可靠性仍能保证TPU切片有较好的性能。当主机可靠率在99%和1000片TPU切片的情况下,使用OCS可使系统的

7、性能提升6 6倍以上倍以上。取得以上收益,光交换互联方案包括取得以上收益,光交换互联方案包括OCSOCS,光模块及光纤占总体超算节点光模块及光纤占总体超算节点 成本成本5%5%功耗功耗3%Leaf-Spin引入OCS-消除Spin,仅保留OCS和Leaf层.采用采用SDNSDN动态调整拓扑路由适配流量变化:动态调整拓扑路由适配流量变化:流量工程流量工程(traffic engineering,TE,适应秒分钟级变化)和拓扑工程拓扑工程(topology engineering,ToE,适应以天为单位变化)扮演重要角色,适配异质速率(speed heterogeneity)和实时应用通信模式。过

8、去过去(10(10年前年前)中间过渡中间过渡现在现在(Direct-Connect(Direct-Connect架构架构)LUSTER Confidential收益:收益:网络网络CAPEXCAPEX降低30%,功耗下降40%。成本下降主要来自两方面:(1)消除多代Spine交换机和相关光模块和光纤硬件成本;(2)降低功耗。Fabric拓扑重构速度提升10倍以上。流完成时间(FCT)提升10%,吞吐量提升30%。难点:难点:拓扑和路由控制复杂性2.3 2.3 OCSOCS全光交换在数据中心实施方案全光交换在数据中心实施方案-Google Jupiter-Google Jupiter数据中心网络

9、数据中心网络目目 录录1.HPC1.HPC和和数据中心互联挑战数据中心互联挑战2.OCS2.OCS全光交换应用方案全光交换应用方案4.4.总结和展望总结和展望LUSTER Confidential1.DirectLightDirectLight技术,采用压电陶瓷材料带动准直器旋转,空间直接耦合对准(“针尖对麦芒”),实现任意端口光路切换,目前矩阵规模最大576x576;3.1 OCS3.1 OCS技术一览技术一览2.2D/3D MEMS技术,采用微型镜片在二维/三维方向转动,对输入信号反射,实现任意端口光路切换,目前无阻塞矩阵规模最大320 x320.3.其他光开关技术 Other switc

10、hing technology 液晶光开关,Silica PLC,热光开关,电光开关“基于基于压电陶瓷压电陶瓷的的光交换技术光交换技术在插入和回波损耗在插入和回波损耗方面具有方面具有先天先天优势,如果基于优势,如果基于MEMSMEMS的解决方案的解决方案的的良率良率和和可靠性可靠性不再易于管理,则可能会在给定不再易于管理,则可能会在给定的的交换交换端口数量上向该技术倾斜端口数量上向该技术倾斜”“Piezo-based switching has some fundamental Piezo-based switching has some fundamental advantages in i

11、nsertion and return loss,which may tip advantages in insertion and return loss,which may tip the scales to this technology at a given switch port the scales to this technology at a given switch port count if yields and reliability for MEMS-based solutions count if yields and reliability for MEMS-bas

12、ed solutions are no longer manageable.are no longer manageable.”-引自引自GoogleGoogle论文论文“Mission Apollo:Landing OpticalMission Apollo:Landing Optical Circuit Switching at Datacenter ScaleCircuit Switching at Datacenter Scale”LUSTER Confidential3.2 SDN3.2 SDN使能控制使能控制支持支持WebUI(webWebUI(web浏览器浏览器)、TL1TL1、

13、SCPI SCPI、SNMP(SNMP(网管网管)、RESTCONFRESTCONF、NETCONF(SDN)NETCONF(SDN)等多种控制协议;等多种控制协议;HW InterfaceOXCOPMBSPLogicControlsReportsDataUser servicesSCPISNMPTL1WebUINETCONFAPIRESTCONF3rd Party NMS/SDNAPIsNSOAPIsAPIsAPIsNetwork Op CenterHW InterfaceOXCOPMBSPLogicControlsReportsDataUser servicesSCPISNMPTL1Web

14、UINETCONFAPIRESTCONF3rd Party NMS/SDNAPIsNSOAPIsAPIsAPIsNetwork Op CLUSTER Confidential3.3 3.3 DirectLightDirectLight技术成熟度技术成熟度 基于基于DBSDBS技术的矩阵光开关自从技术的矩阵光开关自从20032003年商用化以来,已经广泛应用于各种场合,稳定性和可靠性已经年商用化以来,已经广泛应用于各种场合,稳定性和可靠性已经得到充分验证。得到充分验证。Since matrix optical switch based on DBS technology has been rel

15、eased in 2003,it has been widely used to verify the stability and reliability.智能监控系统智能监控系统 Intelligence Monitoring Systems国际空间站国际空间站 International Space Station光学测试自动化光学测试自动化 Optical Test Automation数据中心数据中心/超算中心超算中心 Data Centers/Supercomputer视频信号路由视频信号路由 Video Signal Routing光通信链路保护光通信链路保护 Fiber Opti

16、c Communications Protection油井传感器油井传感器 Oil field sensors 累计现网运行时间累计现网运行时间150150亿亿+端口小时端口小时;4500+4500+套套系统已铺设系统已铺设;300+300+个个客户在使用;客户在使用;只要需要光信号动态路由的地方,都有矩阵光开关应用只要需要光信号动态路由的地方,都有矩阵光开关应用Anywhere there is a need to dynamically route optical signals目目 录录1.HPC1.HPC和和数据中心互联挑战数据中心互联挑战2.OCS2.OCS全光交换应用方案全光交换应

17、用方案3.OCS3.OCS技术和产品技术和产品LUSTER Confidential4.OCS4.OCS应用总结和展望应用总结和展望HPCHPC和数据中心规模日益增长,对功耗、延迟、成本等要求越来越高,和数据中心规模日益增长,对功耗、延迟、成本等要求越来越高,OCSOCS全光交换方案可以很好适配全光交换方案可以很好适配这些需求,并且在以这些需求,并且在以GoogleGoogle为代表的超算和数据中心已成功应用。为代表的超算和数据中心已成功应用。随着数据中心随着数据中心OCSOCS应用将进一步下沉应用将进一步下沉(Spine-Leaf)(Spine-Leaf),需要,需要更快切换速度更快切换速度、小端口低成本小端口低成本OCSOCS,适配,适配TORTOR汇聚交换机之间突发流量。汇聚交换机之间突发流量。未来随着集群规模扩展,将需要未来随着集群规模扩展,将需要更大端口更大端口OCSOCS,同时需提升,同时需提升OCSOCS可靠性可靠性和和插回损插回损性能,性能,DirectLightDirectLight OCSOCS技术方案会有更广阔应用前景技术方案会有更广阔应用前景;与您携手,迈向人工智能大时代!与您携手,迈向人工智能大时代!

友情提示

1、下载报告失败解决办法
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。

本文(软件定义全光交换在高性能计算和数据中心应用-张华.pdf)为本站 (2200) 主动上传,三个皮匠报告文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三个皮匠报告文库(点击联系客服),我们立即给予删除!

温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。
会员购买
客服

专属顾问

商务合作

机构入驻、侵权投诉、商务合作

服务号

三个皮匠报告官方公众号

回到顶部