上海品茶

您的当前位置:上海品茶 > 报告分类 > PDF报告下载

紫金山实验室:2022确定性算力网络白皮书(49页).pdf

编号:87913 PDF 49页 3.08MB 下载积分:VIP专享
下载报告请您先登录!

紫金山实验室:2022确定性算力网络白皮书(49页).pdf

1、-1-1/51目录前言一、算力网络概述1.1 算力网络背景1.2 算力网络概念1.3 算力网络现状1.4 算力网络发展趋势1.5确定性算力网络二、突破关键技术2.1异构算力融合技术2.1.1 统一标识2.1.1.1 统一标识技术架构2.1.2 统一调度2.1.3 多云算力融合技术2.1.3.1 算力度量2.1.3.2 算力建模2.1.3.3 算力调度编排2.1.3.3.1 算力调度编排关键技术2.1.3.3.2 4A算力调度流程2.1.4 算网一体确定性算力技术2.1.4.1 算网一体背景2.1.4.2 算网一体关键技术2.1.4.3 算网一体化研究现状2.1.4.4 SRv6通用可编程算力标

2、识系统2.1.4.5 确定性算力和雾计算2.1.4.5.1 雾计算调度系统2.1.4.5.2 分布式雾算力发布2.1.4.5.3 分布式雾算力获取2.1.4.6 确定性算网一体机009093282829303363839404462.1.4.6.1算网一体机2.1.4.6.2 算网分布式管理平台2.2弹性可扩展的分布式架构和容器技术2.2.1多集群联邦技术2.2.2 GPU、FPGA高性能异构计算技术2.2.3 Serverless无服务计算技术2.2.4分布式容

3、器批量调度技术2.3 确定性网络技术2.3.1 算力网络的确定性需求2.3.2 确定性网络技术体系2.3.3 时延确定性技术2.3.3.1 CQF技术2.3.3.2 DIP技术2.3.3.3 CSQF技术三、典型应用场景3.1 工业互联网3.2科学研究3.3人工智能3.4能源物联网3.5 车联网四、总结与展望-01-前言随着5G/6G时代的到来,随着AR/VR、元宇宙、数字孪生、工业互联网等新型数字应用的发展,需要一个具备云网资源精确感知、全局实时智能调度控制、大带宽低时延低抖动高可靠传输能力的下一代云网融合体系架构,现在的ICT融合技术侧重于解决云网的自动化编排,采用软件定义和虚拟化技术,实

4、现云网资源的灵活调度和统一管理,但是云和网仍然存在算力和网络不感知、算力和网络不均衡、算力分布不均衡,网络连接不确定等诸多问题,因此,如何解决算力网络关键技术痛点难点问题是算力网络应用落地的一个亟需突破的关键抓手,如何在算力网络体系架构上和关键技术上包括算力建模、算力发现、算力路由、算力调度、算力交易明确其技术规范和标准成为推动算力网络从创新概念到产业落地的关键推手。本文聚焦于算力网络体系架构的综述分析,聚焦于算力网络关键技术的分析,着重阐述算网一体确定性网络架构和算网一体计算平台,首次在业界提出确定性算力概念场景。在上述体系架构和关键技术基础上,根据几个典型垂直行业应用场景归纳垂直行业对算力

5、网络的需求为行业应用提供定制化服务参考。最后,总结算力网络在产业的成熟度并展望未来应用趋势。-02-一、算力网络概述1.1算力网络背景作为一种新兴网络技术理念,算力网络的提出是响应国家战略、推动经济发展、加速技术创新的必然趋势。从国家战略角度,近年来国家高度重视互联网发展,算力网络是建设网络强国的根本要求,是建设新型基础设施的重要举措,是实施“东数西算”工程的关键保障。从经济发展角度,5G、云计算、人工智能、区块链等技术的创新与应用加速了经济社会向数字化转型,我国数字经济体量再创历史新高。中国信息通信研究院报告显示,2020年我国数字经济规模达到39.2万亿元,GDP占比为38.6%,2021

6、年我国数字经济规模超过45万亿元,GDP占比超过40%,数字经济已经成为国民经济高质量发展的新引擎1。数字经济的蓬勃发展伴随着多样化应用场景、百亿级联接、爆炸式数据增长的出现,带来了海量数据分析处理的需求。算力网络可为海量数据的分析处理提供泛在计算能力与优质网络服务,从而推动数字经济持续健康发展。从技术创新角度,随着单核硅基芯片的算力与多核堆叠带来的算力提升逐渐走向极限,算力从单核、多核向着网络化演进,计算与网络的边界逐渐被打破,计算与网络开始融合2。而在算力需求持续增长的背景下,受限于网络技术发展以及网络带宽成本,云数据中心与终端的两级计算架构已无法满足需求,算力正从云和端向网络边缘扩散。据

7、IDC预测,2020-2025年,我国边缘计算服务器市场规模年复增长率为22.2%,到2025年,全球边缘计算服务器支出占总体服务器比重将从14.4%提升至24.9%3。未来算力将呈现云-边-端泛在分布的态势,计算与网络的融合将会更加紧密。算力网络是计算与网络两大技术体系深度融合的产物,算力网络的出现将引发大量跨领域融合技术的突破,为占领ICT技术的制高点提供新的机遇。-03-1.2算力网络概念目前,算力网络在概念定义上尚未形成统一的认识。一种相对比较简单且全面的定义是:算力网络是指在算力不断泛在化的基础上,通过网络手段将计算、存储等基础资源在云-边-端之间进行有效调配的资源解决方案,以此来满

8、足业务需求,提升业务服务质量4-5。算力网络以算为中心,以网为根基,其目标是联通散落在全网中的资源孤岛,避免被动资源扩容中的低效陷阱,构造云-边-端的泛在计算体系。正如网络的核心价值是提高效率,电话网提高了人类沟通的效率,互联网提高了人类协作的效率,算力网络将提高云、边、端的协作效率。在算力网络中,用户无需关心网络中的计算资源的位置和部署状态,只需关注自身获得的服务即可,用户的一致体验通过计算和网络的协同调度来保证。算力网络是云网融合发展的新阶段,是对云网融合的深化和升级6。现阶段的云网融合一方面是网络为云计算提供联接服务,例如用于数据中心内部的虚拟网络与数据中心之间的专线网络以及用于联接用户

9、与云的SD-WAN网络,主要体现为云网协同;另一方面是云计算为网络云化提供支持,例如对核心网网元进行云化改造、对承载网进行转控分离的改造、实现网络架构控制云化与转发极简,主要体现为云网一体。随着云网一体的继续演进,云网融合步入算力网络新阶段,算力网络将进一步深化和升级云网融合成果,实现算网协同与算网一体。具体地,在算网基础设施方面,算力泛在化使算网基础设施覆盖面更广,边侧算力成为重要算力分布形态,网络向边缘侧延伸,算力网络需屏蔽异构算力差异、异构网络差异,具备算力资源抽象与标识能力,提供高质量的网络联接服务;在算网控制与管理方面,算力网络上可根据算网需求完成算网编排,下可感知算网资源状况,灵活

10、匹配算力需求与算网资源,实现高效算网运营与调度;在算网服务方面,算力网络能够承载泛在计算的各类应用,根据-04-1.3算力网络现状在政策制定方面,我国政府高度重视数字经济发展,强调要加大投入,加强信息基础设施建设,指出要建设全国一体化的国家大数据中心。2018年-2019年,国家发改委积极推动全国一体化大数据中心体系课题研究,形成了国家算力网络布局方案、“东数西算”实施路径等成果;2020年12月,国家发改委等四部委联合印发关于加快构建全国一体化大数据中心协同创新体系的指导意见,提出在京津冀、长三角、粤港澳大湾区、成渝等重点区域部署大数据中心国家枢纽节点,节点之间建立高速数据传输网络,支持开展

11、全国性算力资源调度,形成全国算力枢纽体系;2021年5月,国家发改委等四部委联合印发全国一体化大数据中心协同创新体系算力枢纽实施方案,明确在国家枢纽节点之间进一步打通网络传输通道,提升跨区域算力调度水平;2022年2月,“东数西算”工程正式全面启动。国家枢纽节点的部署和“东数西算”工程的启动将推动算力网络体系的构建。在标准推进方面,国内与国际标准化组织积极开展算力网络标准化工作。中国通信标准化协会(CCSA)TC3已设立算力网络总体技术要求、算力网络算网编排管理技术要求、算力网络交易平台技术要求、算力网络基于SRV6的算力路由技术要求、算力网络算力度量与算力建模技术要求等标准项目,目前算力网络

12、总体技术要求项目送审稿已经通过审查。国际电联电信标准化部门(ITU-T)SG11组启动了Q.CPN 标准(算力网络的信令要求)与Q.BNG-INC标准(算力网络边界网关智能控制信令要求)的制定工作;ITU-T SG13组通过了Y.2501标准(算力网络框架与架构),启动了Y.ASA-CPN(算力网络认证调度架构)、Y.CAN-req(算力感知网络的功能需求)应用需求,合理解构算力应用、抽象算网需求。-05-等标准的制定工作。互联网工程任务组(IETF)发布了COMPUTING FIRST NETWORK 系列文稿,推动算力路由协议的标准化进程。宽带论坛(BBF)针对算力网络在城域网中的应用,启

13、动了“METRO COMPUTING NETWORK(SD-466)”项目。在生态建设方面,国内三大运营商与各大云计算厂商积极参与算力网络建设,包括开展产业合作、升级云网融合产品、布局数据中心建设等。网络5.0产业和技术创新联盟成立了“算力网络特别工作组”,负责制定算力网络架构、明确算力网络技术规范。中国联通一方面成立了“中国联通算力网络产业技术联盟”,联合华为成立算力网络联合实验室,旨在联合产学研合作伙伴,促进算力网络的标准完善,开展算力网络核心技术攻关和产品研发;另一方面积极探索云网融合迈向算网一体,基于“1+N+X”打造算网一体服务,基于虚拟化+云原生的双引擎技术架构融合场景创新,升级联

14、通云产品,打造物联感知云、数海存储云、5G边缘云等云产品。中国移动借助全面升级的5G专网,完善移动云“N+31+X”资源池布局,深化边缘服务能力,升级云网一体策略及行业应用能力,着力构建算力网络大生态。中国电信提出“网是基础、云为核心、网随云动、云网一体”的云网融合方向,充分发挥云网融合优势,按照国家一体化大数据中心枢纽节点的建设要求,进一步完善“2+4+31+X+O”的云和大数据中心布局。在云计算厂商方面,阿里云已在全球25个地域部署上百个云数据中心,包括规划建设了5座超级数据中心;腾讯云计划未来5年新增多个超大型数据中心集群,加码绿色数据中心建设;华为面向多样性计算,基于“鲲鹏+昇腾”算力

15、底座,推出一体化集群计算解决方案。在试验验证方面,中国电信与中国移动均已完成算力网络领域的实验室原型验证,并在GSMA巴塞罗那展、ITU-T 和GNTC 相关展-06-会上发布成果。中国联通研究院开展了多方面的算力网络试验验证。例如,与广东联通、华为联合发布大湾区算力网络行动计划,研发的算力网络服务系统已在广东上线试验;与北京联通合作,首次在现网验证了算力网络CFN协议体系;与河北联通、华为合作,在雄安新区建设了基于SRV6+FLEXE技术的综合承载网并已投入运营;联合山东联通提出智慧光云十六城规划,以建设全光算力网络为目标,推进云光一体服务体系,目前已启动OTN点到多点创新试点;与中兴通讯携

16、手,基于SDN+SRV6框架完成算力网络服务调度POC验证。由算力网络的概念与算力网络的现状可见,当前算力网络的发展尚且处于初期阶段,确定性算力网络将在算网资源、控制与管理、服务提供等方面持续演进,突破关键技术,最终实现低成本、高性能、高安全、可定制的算网一体化服务供给。在算网资源方面,算力网络打破了原有的围绕数据中心内部算力资源实现共享的围墙,构建了基于异构网络连接、异构算力接入的分布式计算形态。确定性算力网络的算力规模将持续扩大、算力异构化程度将持续加深、网络环境将持续优化。当前,我国算力规模呈现蓬勃发展的态势,2020年算力规模达到135EFLOPS,同比增加48EFLOPS,增长率为5

17、5%。2021-2022全球计算力指数报告显示,算力与经济增长紧密相关,算力指数平均每提高1%,数字经济与GDP将分别增长3.5和1.8,保持经济稳定健康发展的目标必将反向推动算力规模的扩大7。现阶段的算力由基于CPU芯片的基础算力、基于GPU/FPGA/ASIC等芯片的智能算力、以及基于超级计算机的超算算力三部分构成,三种算力占比约为57%、41%、2%8。作为经济发展的核心技术驱动力,大数据、人工智能等新兴技术的应用将带来智能算力的1.4算力网络发展趋势-07-持续投入,智能算力在算力结构中的占比将继续攀升,算力异构化程度将持续加深。我国持续推进骨干网、城域网结构优化与关键环节扩容,持续推

18、进5G基站、NB-IOT基站建设,积极探索无损数据中心、确定性网络等先进网络技术,网络环境将持续优化。在算网控制与管理方面,现阶段的云网融合存在云网信息不互通、相互调用接口不标准,难以形成云网整体视图,云网资源缺乏统一、灵活的控制机制,云网资源分域管理,域间管理数据共享程度低,域间协同效率低,端到端管理困难。算网控制将支持对网络、算力、存储等多维资源的全网感知与通告,以集中式或分布式的方式形成算网整体视图,奠定算网高效管控的基础。在此基础上,算网控制将采用IPV6/SRV6等算力路由协议,感知上层业务的需求,结合实时的算网资源状态,采用高效算网编排、调度算法定制算网资源分配方案,支持灵活、可编

19、程的数据面转发。除了实现基于算网整体视图的运维与运营之外,算力注册将成为算网管理的重要内容。区块链技术将融入算力网络,其去中心化、难以篡改、不可抵赖等特点可实现算力可信接入、交易、结算等,保障算力网络的安全性9。在算网服务方面,算力网络将承载各类计算服务与应用,服务对象范围不断扩大至制造业、交通运输业、医疗卫生业、金融业等高精度、高安全垂直行业。在服务架构上,算力网络将从广泛采用微服务架构向着采用SERVERLESS架构的方向演进,以进一步降低服务成本、提升服务安全性与稳定性;在服务部署上,算力网络将采用更加轻量级的容器编排工具,实现服务的敏捷部署。-08-1.5确定性算力网络确定性算力网络以

20、确定性网络为根基,以算力为中心,以产业发展为牵引,为工业企业提供低成本、高性能、高安全的算网一体化服务的新型基础设施。确定性算力网络采用“1+3+3+3”模式,即运营1个一体化算网平台,接入3类算力资源(超算资源、智算GPU资源、闲散算力资源),采用3类接入方式(公有云接入、边缘云接入、私有云接入),通过3种一体化部署设备(算网纳管一体机、算网调度一体机、算网应用一体机)实现算网的部署即建成。推动算力基础设施建设进程,重点满足支撑工业企业的科研探索和数字化转型的算力要求。确定性算力网络发展的基础是确定性网络技术落地、分布式云技术和闲散的算力资源等。基于浪潮在分布式云计算的信息分发、资源调度、可

21、信交易和区块链等技术积累以及山东未来网络研究院确定性网络保证端到端确定性服务质量的技术积累,利用闲散算力资源,面向工业生产企业,率先搭建以确定性网络为根基的确定性算力网络。在网络控制面实现协同与调度网络资源、计算资源、存储资源、算法资源与应用资源,在算力路由层和编排管理层突破关键技术,从根本上解决当前算网无法实现算和网统一调度的难题。图1-1确定性算力网络架构-09-二、突破关键技术2.1异构算力融合技术2.1.1统一标识算力的需求促进了算力架构的多样性和算力性能的不断提升,当前算力网络架构中的算力可以由不同的硬件架构组成,一般包括 CPU、GPU、FPGA 和 AISC 等类型,在不同的应用

22、场景中,异构算力发挥不同的计算效力。围绕以“云、边、端”为主体架构的三级算力调度需要满足不同场景下的算力需求:云端主要面向以高性能计算为主的传统集约化的性能计算,主要处理大流量、高并发的数据处理场景;边缘侧的数据中心主要考虑用户的快速接入和内容推送,为用户提供快速处理和及时响应;而端侧的算力应用主要面向物联网、工业互联网为主要场景的嵌入式设备能够长期稳定运行,要求有低功耗和多连接等算力要求的场景。面对不同的算力场景,通过异构算力的协同能够最大化的实现异构算力的效力。而若将底层算力作为资源进行有效的管理,首先需要建立异构算力的统一标识。异构算力的统一标识体系的建立是将底层异构算力作为资源服务进一

23、步开放和共享的基础。统一标识是实现在算力网络连接范围内异构芯片的统一标识。实现异构厂家和多数据中心算力资源接入算力网络内部以期能够共同打造算力流通、算力溯源以及确保数据在可信算力环境中可管可控提供切实有效的保障机制,对于统一标识的顶层设计应满足以下条件:1)信任接入:基于统一标识,实现算力可信接入、安全认证和鉴权,打造算力安全有效的计算环境,切实保障算力网络安全有效的生态环境。-10-2.1.1.1统一标识技术架构2.1.2统一调度2)算力可塑:基于统一标识,可以实现算力溯源,实现算力在云、边、端侧的溯源和安全等级。3)算力度量:基于统一标识,构建算力度量,实现算力在分场景下的算力匹配和专业推

24、荐,从而实现算力在联盟范围内的流通。基于异构算力统一标识的需求和场景,保障在一个算力接入的算力资源时能够提供切实可信的计算环境和算力溯源机制,提出了异构算力技术架构。1)算力鉴权:在算力接入过程中需要通过第三方认证中心进行算力认证并且发放签名证书并通过操作系统保存在可信区中。只有经过认证合法的算力才能够作为可信算力纳入到算力管理中,并且经过统一资源模型成为算力资源。2)算力纳管:算力管理构建统一算力类型和算力使用情况统计信息体系,通过统一算力标识来维护和管理算力和厂商的唯一性,接入时间、运行情况以及接入地点等算力的上架、算力运行以及算力增加等全生命周期的管理信息。3)算力推荐:结合不同应用场景

25、提供算力度量机制,为算力流通提供可度量、可推荐的算力评价机制。异构算力资源的抽象是为上层应用进一步屏蔽底层算力的差异化,使得用户更关注上层业务代码的开发,而无需关注底层差异性资源的申请和调度等方面。采用异构算力资源抽象能够进一步屏蔽掉底层算力的差异性,并且上层开发者无需关心算力具体部署在哪个集群的节点上。而对于新增加的算力类型能够实时的同步更新到上层开发环境中,从而缩短了新算力上线到用户应用之间的使用周期,可以更好的为用户服-11-务。对于异构算力屏蔽的顶层设计应满足以下条件:1)规范应用接口衔接应用业务对资源的需求与系统资源的统一调度,以用户友好的应用资源需求方式和交互界面屏蔽异构算力的资源

26、调度复杂性,实现调度器使用者与统一调度系统之间对作业的联动控制和实时反馈。2)弹性调度策略调度策略应满足异构算力资源最佳分配,作业调度流程和策略具有高度模块化、灵组合、插件式扩展等能力。3)资源实时感知实时收集系统内各节点的异构算力资源数量,感知硬件拓扑及运行健康变化,反馈到调度引擎用于匹配作业的资源需求。算力是在完成不同的计算任务过程中衡量单位时间内计算设备可处理数据量的指标,数据处理方式包括但不限于浮点计算、稠密矩阵计算、向量计算、并行计算等方式,数据处理过程受硬件、算法、数据提供方式等多方面因素影响,算力度量主要包含以下三个方面:1)异构硬件算力的度量 异构硬件算力的度量主要是指对不同芯

27、片、芯片的组合以及不同形态的硬件进行统一的算力度量,对异构芯片及硬件的度量是建立算力度量的基础。2)多样化算法算力的度量 通过对不同的算法,如神经网络、强化学习、深度学习等算法所需的算力进行度2.1.3多云算力融合技术2.1.3.1 算力度量-12-量,可以有效的了解应用调用算法所需的算力,从而更有效的服务于应用。3)用户算力需求的度量 通过对网络延迟、计算量、计算类型、业务种类等需求的分析构建用户算力需求度量体系,把用户需求映射为对应实际所需的算力资源,从而更有效的感知用户的需求,提高与用户交互效率。通过对异构计算资源进行建模,可以建立统一模型描述语言,从而探索节点资源性能模型,实现异构节点

28、的统一模型化功能描述;通过探索不同算法算力需求的功能描述结合节点资源性能模型,从而构建服务能力模型实现节点服务能力。算力建模过程中,首先需要对异构的物理资源进行建模,将FPGA、GPU、CPU等异构的物理资源构建统一的资源描述模型;然后,从计算、通信、存储等方面对资源性能建模,构建统一的资源性能指标;最后,通过构建资源性能指标与服务能力的映射完成对服务能力的建模,算力建模的最终目的是实现对外提供统一的算力服务能力模型。建模场景主要归类为以下三种类型:异构资源建模现有的 FPGA、GPU、CPU 等计算模块通常采用了各种不同的架构,具备的能力也各不相同,通过对不同计算设备中异构的计算资源进行建模

29、,可以对服务屏蔽底层物理资源的异构性,建模过程需要考虑现有的 CPU、GPU、FPGA、ASIC 等多维异构资源。资源性能建模从计算、通信、存储等方面对资源性能建模,可以构建统一的、可度量的资源性2.1.3.2 算力建模-13-能指标从而可以统一标识不同算力设备在各个方面的性能。3)服务能力建模 算力建模的最终目标是实现对外提供统一的算力服务能力模型,通过建立服务能力指标与资源性能映射机制,可以构建服务能力模型。为了构建可运营、可开放的算力网络资源调度和编排环境,构建面向上层的算力网络编排调度平台,按照业务功能划分为:资源层、路由层、调度层、编排层、应用层和监控层共六个层次,其中:1)资源层:

30、主要面向底层的计算、存储、网络等资源进行统一的纳管,这其中包括金属的管理,同时也包括虚拟机、容器、边缘集群等基础设施资源等;资源从单一的数据中心转变为公有云、私有云、边缘云、数据中心互联等泛在多云分布。2)路由层:算力交换的高速公路高路网,支持SRV6等源路由技术,支持算力切片,支持感知算力的分布式路由交换协议和转发能力,支持确定性转发能力以保障算力SLA指标。3)调度层:通过底层资源的抽象,在调度层主要专注于基于调度策略实现对于算力资源、网络资源以及存储资源的调度,同时为了实现平台能力下沉,在调度层实现四大能力集,即:算力3A能力集、计算能力集、算力交换控制能力集和机器学习能力集。4)编排层

31、:将调度层的能力以服务化的方式提供服务注册、服务发现、服务路由等功能,并且按照最新的服务网格的方式提供扁平化的服务编排方式。2.1.3.3 算力调度编排-14-5)交易层:开放的算力应用市场,根据算力需求的种类,可以划分为四类应用:算力资源服务(CIAAS),算力平台服务(CPAAS),算力应用服务(CSAAS),算力交换服务(COMPUTING EXCHANGE AS A SERVICE:CBASS)算力注册算力感知网络中遍布不同的算力,为了实现节点的管理以及业务的动态卸载,算力感知网络需要对全网的算力节点进行注册,由算力管理平台下发各算力节点的配置,包括算力信息的通告,和业务在计算节点之间

32、的分配与调度策略。因此,算力管理层需要支持算力节点注册功能,包括:1.区分包含算力的网络节点和传统的网络节点 2.算力节点上线后,向算力管理平台通告其算力使能信息 3.算力管理平台获取算力节点的参数信息,包含设备类型、芯片类型、存储等资源 图2-1:算力调度编排层次图2.1.3.3.1 算力调度编排关键技术-15-4.算力管理平台下发配置策略,可以包括算力节点 ID 的分配等。算力节点注册之后可以由管理平台对各节点的算力进行存储,并订阅/接收算力的实时更新信息,进而向路由器下发算力节点信息,由路由器存储节点列表并配置相应的路由通告策略。算力运营算力运营包括建立算力的服务合约以及生成相应的计费管

33、理策略,由统一的算力计费管理中心进行管理。算力服务合约是服务提供商和用户双方之间协商而确定的关于算力服务质量等级的协议或合同,而制定该协议或是合同是为了使服务提供商和用户对服务、优先权和责任等达成共识。该合约一般可保存至用户签约数据库 HSS/AAA/UDM等模块中。算力计费管理:需要具备多维度多量纲的算力服务计费功能,比如按照 API调用次数的计费,按照资源使用情况计费,或者根据用户等级计费等。同时算力计费管理中心可以与现有的网络计费中心合设,通过扩展和增强现有的计费相关接口和协议支持算力计费功能,提供算网一体的新型算力系统。针对网络计算融合的发展趋势,算力感知网络能够实现资源的最优调度,需

34、要这种算网融合的新型计费方案,不仅是对网络资源的要求,也包含计算、存储等多种需求。同时可以基于服务等级协议(SLA)进行算网融合精细化计费,满足未来行业用户多样化的网络和计算资源的需求。算力监控算力监控指对设备的算力性能进行监控,通过多种类型的算力信息采集和上报策略配置,支持最优算力节点的实时选择,并在故障时予以修复。算力信息采集:由路由节点主动周期性地向算力节点发起探测(如通过 ICMP协议等多种方式),或者通过下发算力探针的形式按需采集节点状态,实时收集算力等信息,如果算力节点的链路状态或算力性能不能满足当前业务需求,则进行链路倒换或重新选择节点,保障最-16-优算力服务节点的选择。故障检

35、测:边界路由节点作为多个算力节点的管理设备,需要感知到每个算力节点的节点状态以及链路状态,一旦链路故障或节点故障可以及时的切换到新的链路以及新的节点,满足低时延等极致的用户体验。可以考虑将当前的计算能力状况、网络状况、业务请求作为监控信息发布到路径当中,网络将相关的信息随数据报文转发到相应的计算节点,各节点做 OAM信息表存储,实现最优的计算资源调度,最终实现最优的用户体验和网络利用率。如图2-2所示,算力调度流程主要分为算力认证、算力授权、算力计量和算力审计四个阶段,其中算力认证阶段决定了算力调度的优先级,算力授权阶段决定了算力需求资源的最终分配方式。算力从时间、SLA需求和算力场景三个维度

36、分类定义,不同类型对应不同的核心调度流程和策略:1)队列资源公平调度基于不同资源池、不同资源类型的使用优先级,划分不同的作业资源请求队列,依据使用资源情况,对作业进行优先级排序,保证队列资源使用的公平性。2.1.3.3.2 4A算力调度流程图2-1:算力调度编排层次图-17-2)用户资源配额调度基于集群多用户场景,以树状形式描述不同组织、用户的资源使用策略,根据使用资源情况,对作业进行优先级排序,保证多用户间资源使用的公平性。3)作业优先级调度依据用户作业递交时指定的作业优先级、递交时间、资源请求量、用户资源使用量等维度综合考虑进行排序,优先级更高的作业优先进行调度。4)节点资源排序 不同的场

37、景需要采取不同的节点资源排序策略,如在集群负载均衡场景下,优先选择资源使用量最少的节点;在集群节能场景下,优先选择未休眠的节点,避免不必要的唤醒操作和能源消耗。5)算力亲和性调度 不同作业负载存在多样化的算力需求,如 AI 推理作业对于张量计算需求高,亲和 TPU、NPU 等计算资源、图像处理作业对于矢量计算需求高,亲和 GPU 等计算资源。通过算力亲和调度,实现多样化算力需求任务的最优资源匹配分发,可实现算力资源的最大化利用。6)内存容量、CPU/DPU/GPU XPU资源调度 异构算力资源调度,此外还支持自定义扩展资源调度。7)资源抢占调度 统一调度支持用户、队列间的资源借用,用以提高集群

38、资源利用率,同时涉及高优先级作业针对被借用资源的紧急回收问题,即资源抢占调度。8)资源预留调度 通过资源预留的方式,解决大作业和小作业混合负载的场景下,小作业资源-18-频繁,导致大作业资源需求持续无法被满足的问题。9)资源回填调度 资源回填调度是基于资源预留调度的前提下,通过感知作业结束时间,将已预留但又暂时无法满足作业需求的资源,在一定时间范围内进行重新调度分发,提高集群资源利用率。连接挑战疫情加速了企业上云的步伐,85%以上的应用会承载在云中,未来企业和个人都会与多云进行连接。云应用会根据业务处理的时延、带宽及体验需求,跨公有云、私有云、边缘云等地部署,网络需要具备有广覆盖以及敏捷接入能

39、力,随时、随地、随需将用户接入多云,满足客户按需快速获取内容的诉求。体验挑战企业数字化转型,业务上云分为互联网应用上云、信息系统上云、核心系统上云三个阶段,网络需求差异性显著。互联网应用上云追求高性价比,要求敏捷上云,快速开通;核心系统上云要求网络稳定可靠,确定性时延和高安全;信息系统上云要求大带宽和确定性时延,例如 VR 课堂要求带宽50MBPS/学生,时延20MS;核心系统上云需要低时延,例如某电网差动保护业务要求承载网确保时延2MS。面对不同的业务诉求,网络应能够基于业务的带宽、时延等不同的 SLA 诉求,提供多个分片并做到按需灵活调整,实现一网承载千行百业。运营挑战云和网是企业数字化转

40、型的基石,客户在考虑云网能力的时候,首先考虑的是一2.1.4算网一体确定性算力技术2.1.4.1 算网一体背景-19-体化解决方案能力,以最小的沟通协同成本,最便捷的业务开发,最完善的维护体系形成最高效的业务产出。因此,一体化服务能力是当今企业的迫切需求,管家型的贴心服务最终会在市场竞争中胜出。其次是在线化,在线化是打通“客户最后一米”的环节,提升客户业务感知,在线申请,在线开通,在线服务,实现电商化业务流程体验。安全挑战云计算正在不断改变数据被使用、存储和共享的方式,随着越来越多的数据进入云端,尤其是进入混合云的场景下,原有的安全物理边界被打破,同时在端侧,随着海量 IOT 设备接入,现在的

41、网络不仅需要连接人,同时还要连接物,这将导致更多的潜在威胁。从 2019 年统计数字看,全球平均每天产生的恶意邮件多达 4.65 亿件,DDOS 威胁攻击较上一年增长 64%。为应对新的安全威胁,2019年国家发布了新的信息技术等级保护标准,重点解决云计算、物联网、移动互联和工控领域信息系统的等级保护问题,网络安全等级保护正式进入 2.0 时代。未来的云网融合解决方案不仅要确保云和网的自身安全,同时可以向用户提供云网场景下的安全服务,从网络到业务构筑立体化的安全保障。2.1.4.2 算网一体关键技术算网一体化标识与发现将计算、存储、网络、智能等多维资源和服务统一纳入网络体系架构设计中,构建通算

42、存学一体化融合架构,实现计算、存储、网络、智能一体化管控。目前主流技术方案为:1、采用新型标识解析协议对内容、算力资源统一命名标识,在路由节点集成计算和存储能力(转存+计算)实现基于underlay的转算存融合。-20-2、通过引入PURSUIT技术和计算资源,集中式对计算、存储、网络资源一体化管控,实现转算存融合落地方案 3、在现有IP网络层通过扩展路由协议,添加算力信息和内容存储信息,实现算力和内容路由,实现基于underlay的转算存融合。算网一体智能化编排与部署业务服务无须关注底层基础设施资源异构泛在资源编排管理器,目前主流技术方案为:a)基于Serverless的资源编排,边缘计算应

43、用对节点资源需求的感知(资源消耗或资源极限情况);形成编排配置(可视化);自动化策略制定和策略下发。b)基于人工智能的应用编排,基于用户需求分析、业务历史操作数据分析等,通过机器学习和智能分析,智能化的对服务、应用进行编排。确定性调度与管控 确定化服务调度:域内调度:域内服务放置问题;基于负载均衡的域内调度;跨域调度:跨域的服务放置,基于负载均衡的跨域调度;包括边边和云边的场景。智能化服务与转算存资源协同:Serverless服务调度充分利用底层的转算存资源;通算存学资源基于serverless服务需要进行按需分配,实现服务调度最优;确定性边缘网络管控:在边缘网络中,通过 SRv6 技术简化网

44、络结构,实现灵活的编程功能,实现面向泛在计算场景的网络资源敏捷、按需、可靠调度。在边缘计算架构中,本地数据的实时获取,用户任务的跨节点传输,都对传输时延有较高要求,并且时延对用户服务质量影响巨大;引入TSN等确定性网络技术,实-21-现边缘网络的时延确定性。智能体互联与共享多维度建立智能资源可信互联与共享体系机制,为通算存学一体化边缘计算网络的信任与安全管理提供支持。由山东未来网络研究院牵头,浪潮工业互联网股份有限公司、山东未来集团有限公司、北京大地云网科技有限公司参与的确定性雾计算网络研究,聚焦于确定性网络底座能力、确定性网络综合试验、确定性网络创新示范应用等基础理论和应用,形成一套完备的技

45、术体系,完成相关原型系统研制;基于山东省确定性大网、未来网络试验设施(CENI)、未来网络云网融合试验网建设新型网络承载、智能云网算力编排、云网融合服务三大平面应用系统,面向工业、国防、智慧城市、智慧能源、智慧交通、智能制造等场景构建自主可控的算网一体化应用示范系统,引领工业互联网产业生态发展。主要研究内容包括以下几个方面:下一代互联网不仅仅是围绕人和人、人和机器的消费互联网,正快速迈入一个万物互联的时代,互联网连接的可以是具体的一个人、一台机器、一辆车、一个摄像头、一部手机,也可以是无形的一个API、一个函数、一个服务、一个文件、一个视频片段、一个email,连接对象的种类及其标识数量繁多经

46、常变化且不统一,连接的量级也呈爆炸性增长,连接本身需要一个弹性的可差异化的能保障连接质量的网络。研究方向主要解决下一代互联网如何解决有序可靠可扩展的海量资源标识及其连接问题,通过SRv6技术、SRv6 SRH和SRv6 TLV来实现海量资源的统一且可扩展的2.1.4.3 算网一体化研究现状2.1.4.4 SRv6通用可编程算力标识系统-22-标识,通过SRv6分段路由技术实现弹性的可差异化的资源连接,通过SRv6标识网关实现新旧标识的翻译和映射,通过Anycast SRv6技术实现任务资源连接的就近服务随需随取。SRv6技术和SRv6算力标签如下图2-4所示,IPv6地址有128bit编码,地

47、址空间高达7.9x1028空间,足够给宇宙内每一个原子分配一个唯一的IPv6地址,互联网上每一个资源对象都可以分配一个或一组IPv6地址。SRv6技术充分利用IPv6地址空间分割成多个子空间分别对应“寻址空间”、“指令子空间”、“参数子空间”,每个空间的长度可灵活定义,如图2-4所示,寻址空间用于匹配标识资源对象(match),指令和参数用于传递资源对象的处理策略(action),这样一对match-action相当于一条计算机指令。一组这样的SRv6地址可以描述资源到资源的指令集合,包括连接路径指令、计算指令、存储指定、快照指令等。研究方向主要研究基于SRv6技术的新型资源标识系统,系统设计

48、基于三大原则:(1)资源标识是唯一的,只要是同一个资源,不论处于任何位置任何状态其图2-3:IPV6地址空间-23-SRv6标签是唯一且不变的;(2)资源标识是无状态的,网络节点无需存储资源标识的状态信息;(3)资源是多态的,一个资源可以对应多个资源标识。研究内容包括资源标识解析系统,实现根据用户需求用户意图自动编译成可寻址的可执行的指令集完成资源间交互,包括资源标识发现和注册系统,实现资源的自动化注册、注销、迁移、发现,也就是资源的CRUD抽象,包括资源标识的标准化系统,完成资源标识的格式规范和定义流程框架的指定。根据算力标识设计的顶层原则和SRv6空间格式,建议通过算力SRv6位置SID、

49、算力SRv6资源标识SID,算力TLV属性来表示标识算力资源。算力Token TLV属性保证算力标识的可信认证和完整性验证,HMAC TLV属性保证SRv6 SRH的完整性和未被篡改。SRv6算力路由技术资源在网络上分布式的可处于任何位置和状态,资源和资源之间的交互必须有一个可定制的可控的方式完成资源连接。研究内容基于SDN控制器和实时遥测技术,结合SRv6资源标识系统,实现基于最小时延的、基于最短路径的、基于带宽保障的、基于确定性时延的等SLA需求及组合需求的实时SRv6路径计算和网络设备配置能力。图2-4:SRV6算力标识格式-24-SRv6算力标识网关互联网的演进是渐进的,必须考虑对接存

50、量资源的兼容性问题。SRv6算力标识网关研究内容包括SRv6算力标识和传统的不支持SRv6的算力资源标识的映射,代替存量资源完成SRv6算力标识的注册,代理SRv6连接实现传统资源的sidecar边车服务。SRv6算力标识网关系统必须支持多种形态,支持虚拟化形态、手机APP形态、桌面APP形态、硬件CPE形态、API/SDK形态等多种形态的泛在部署和灵活集成能力。SRv6 Anycast 算力标识技术资源在其生命周期中可能在多个位置出现例如移动算力,或者在多个地域部署例如分布式算力,类似传统互联网的CDN服务,一个视频内容可能存在于多个边缘CDN节点,但其标识是唯一的,用户不感知不关心其位置和

51、状态。本技术方向研究SRv6 Anycast 算力标识技术,通过唯一的SRv6算力标识地址的路由通告,算力消费者可以实时的探知资源的位置,就近获取就近服务。“东数西算”在整体上实现资源的优化配置和按需使用,但是网络和算力仍然是分离的,算力是分布式部署但仍然有高度的集中性,雾计算基于“白盒交换机+xPU(GPU+DPU+X86)+SDN/NFV”的一体化算网融合设备,该设备随网部署随网服务,类比高速公路的服务区,算力遍布于各个网络节点,可以根据算力对时延、对带宽、对资源的需求,可由任意一个满足需求的融合节点提供算力服务,我们称之为雾计算网络。雾计算设备本身支持SRv6标识能力和SRv6标识网关功

52、能,具备高吞吐、低时延、可编程、可扩展能力。同时研究雾计算设备的微服务SDN管控系统,将雾计算设备抽象为一个微服务节点,将雾计算设备的功能抽象为一个个微服务,2.1.4.5 确定性算力和雾计算-25-通过Kubernetes技术和SDN技术,实现雾计算设备及服务的弹性管理和统一编排,通过K8S的CNI和CRD标准扩展机制,实现雾计算设备的可定制可扩展的算力服务。2.1.4.5.1 雾计算调度系统2.1.4.5.2 分布式雾算力发布算力是分布式供给的,但是算力的需求侧有可能在任何位置任何时间发生,如何像自来水一样在任何时候按需获取相应的算力,如何根据算力特性提供差异化确定性服务质量的连接调度能力

53、,这是决定算力网络成败的一个关键能力。移动算力从算力发布和算力获取两个方面研究雾计算网络调度系统,研究雾算力发布的调度机制和算法以保证算力热度、命中率、成本最优,研究雾算力获取的调度机制和算法以保证就近服务、按需服务、智能回源。算力不是固定不变的,比如一个无服务函数、一个容器应用、一个人工智能模型,算力可以在任意位置部署和执行。研究内容探索分布式算力发布的两个基本问题:(1)算力的生命周期管理,何时生效,何时休眠、何时老化、何时撤销,系统基于人工智能、大数据和算力行为,高效地预测和调度算力。(2)算力的智能推送,根据当前算力请求数据、网络拓扑、实施和历史算力数据,动态地预测和计算热点推送节点,

54、探索一对多、多对多、多对一等各种场景下的最优算力发布算法和模式。图2-5:雾计算调度系统-26-2.1.4.5.3 分布式雾算力获取一个算力任务往往需要多个算力资源来支撑,算力任务请求一般具有高突发性、高并发性、高可靠低时延等多个特性和需求,为了解决上述问题,雾算力获取着力于算力预热和算力预测两个关键技术,通过算力预热提供就近的热点算力服务于多个算力请求以保障算力的高可靠低时延需求,通过算力预测提前规划和布放算力以应对算力的高突发性和高并发性挑战。在网计算(In-network computing)是近年来出现的一个新的研究领域,侧重于网络内的计算,利用新型可编程网络设备(如可编程交换机ASI

55、C,网络处理器,FPGA和可编程NIC)的功能,将计算从数据中心转移到网络边缘,从CPU/GPC转移到可编程网络设备。在以传统数据中心为代表的高密度计算集群中,应用呈多元化和分布化,更大的网络带宽也带来了海量数据,对I/O处理的计算需求也不断飙升,新型的网络功能虚拟化也在进一步蚕食CPU的算力,同时GPU的负载转移工作也是杯水车薪,主要挑战集中于两个方面:a)网络带宽远远超过计算能力:数据中心网络带宽正面临快速增长。100Gbps以太网网卡逐步成为主流,厂商还在不断研发新的400Gbps NIC,而1Tbps很快将成为下一个目标。另一方面,处理网络I/O的计算容量空间正在不断缩小。未来具有线速

56、I/O处理需求的应用程序注定要受到CPU和内存的限制。商用服务器对于线速I/O的低延迟处理需求达到了前所未有的高度,硬件无法跟上数据中心网络工作负载的快速变化。b)xPU的计算效率挑战网络I/O的性能问题长期以来一直备受关注,其重点在于消除操作系统网络堆栈中的低效率以及优化NIC-CPU交互。目前实现VNF的常用方法是完全绕过网络堆栈,-27-直接从用户级库(例如DPDK)访问原始数据包。此外,CPU和NIC硬件提供了几种机制来提高I/O处理的效率,例如,将数据直接引入CPU LLC(DDIO),并通过减少CPU内核之间的缓存争用(例如,接收端扩展)和降低中断频率(例如,中断调制)来提高可扩展

57、性。但即使采用了这些增强功能,在10Gbps的速度下依旧需要多个CPU内核来执行公共网络功能。此外,现有系统也会因为CPU资源争用而导致延迟增加,包处理性能也出现波动。在过去,网络设备的功能是固定的,仅支持制造商定义的功能。可编程switch-ASIC的引入和SmartNIC的兴起是网内计算的推动力,可编程网络设备允许用户在用高级语言编写代码时实现自己想要的功能。如今将软硬件创新结合的时代正是网内计算真正发挥作用的时代。从系统的角度看,网内计算的定义意味着无需向网络中添加新设备,因为你已经使用了交换机和NIC。因此,网内计算的开销很小,因为不需要额外的空间、成本或空闲功率。此外,网内计算在事务

58、通过网络时就终止事务,可以减少网络上的负载。迄今为止,网内计算是在三类设备上实现的:FPGA,SmartNIC和可编程交换机。在网计算的优势主要体现在高吞吐量、低延迟、低能耗。由于网内计算指的是网络内的处理,这意味着事务在其路径中就终止,无需到达终端主机,从而节省了终端主机引入的延迟,以及网内计算节点到终端主机之间的网络设备。如今硬件和软件创新的结合,给网内计算注入了新的生机。在硬件方面,许多硬件供应商已经发布了可在不牺牲性能的情况下提供可编程性的产品,例如可编程芯片(Barefoot Tofino)、现代智能网卡SmartNIC(Cavium XP,Netronome Agilio)。在软件

59、方面,除了网内遥测和第4层负载平衡等新的网络功能外,还提出了许多超越传统分组处理的新的应用级功能。在网计算平台的新型架构如图2-6所示,硬件上融合可编程交换机和智能-28-结合未来网络研究院确定性网络技术,浪潮工业互联网股份有限公司运用自研超融合服务器打造了软硬一体的算网一体机系列产品,根据其功能主要划分为:算网调度一体机,算网纳管一体机和算网应用一体机。算网调度一体机部署算网分布式管理平台,算网纳管一体机部署算网适配器,通过适配第三方算力资源提供平台,纳管算力资源,算网应用一体机部署算网网关,企业客户接入网络,访问算网资源。计算单元同时提供高性能转发和智能计算服务,软件上结合雾计算调度可以实

60、现移动算力,部署上结合雾计算路由可以实现随网计算,可以综合考虑吞吐、延迟、能耗、负载、算力和网络的协同等多个因素实现算力和网络的深度融合按需计算就近服务。图2-6:算网一体机原理图2.1.4.6 确定性算网一体机2.1.4.6.1算网一体机-29-2.1.4.6.2 算网分布式管理平台算网分布式管理平台,是未来网络研究院与浪潮工业互联网股份有限公司合作研发打造的算力运营平台,该平台以确定性网络为根基,以算力为中心,以产业发展为牵引,承载运营一体化算网平台,可快速搭建云网一体化的服务体系,算力提供方不再是专有的某个数据中心或集群,而是将云边端这种泛在的算力通过确定性网络连接在一起,实现算力的高效

61、共享,满足企业智能化改造中算网的即需即用,全面提升企业自身数字化水平。平台可以快速接入超算资源、智算资源、闲散算力等3类算力资源,提供私有云、公有云、边缘云3类接入方式,通过3种算网一体机设备实现算网的快速部署,构建多样化算力资源调度和服务体系,实现算力资源在云-边-端之间有效调配,为工业企业提供低成本、高性能、高安全的一体化服务的新型基础设施,提升业务服务质量和用户服务体验。算网管理平台分为算网服务系统、算网运营系统、算力管理系统和算力适配系统。其中,算网服务系统实现算网平台用户自服务门户、运维运营门户以及大屏分析展示能力。算网运营系统实现服务合规审计、算力资源计量计费、运营分析和系统管图2

62、-7:算网一体化服务体系图-30-2.2弹性可扩展的分布式架构和容器技术浪潮自主研发采用弹性可扩展的分布式资源调度技术,包括多集群联邦技术、GPU、FPGA高性能异构计算技术、轻量级虚拟计算实现大规模异构云混合协同调度。通过分布式集群云基础资源管理与调度技术,提升云基础设施资源使用效率,提供多样化计算能力,加速云基础设施资源的交付,简化云运维配置与维护工作,实现自动化、智能化、高可用的云基础设施资源供给。在算力网络中对上层云应用提供云中间件与云应用的自动化部署、弹性调度、图2-8:算网管理平台架构理能力。算力管理系统实现算力资源发现注册、监控、管理、调度、编排以及额度管理能力。算力适配系统屏蔽

63、底层不同算力资源平台的异构性,通过适配器实现对具体算力资源平台(例如浪潮云平台)的适配和对接,完成对算力资源的调度和分配。-31-服务化管理、运行监控以及配置管理,对下层基础设施提供适配资源服务层,实现基础资源服务化。通过改进传统系统设计架构,改良传统中间件,采用新兴分布式大数据中间件等方案,让应用系统具备了支撑弹性扩展、高并发、海量数据、高可靠业务的能力,并大大缩短业务的上线和更新周期。前后架构对比如下图2-9所示:分布式架构具有如下优势:轻量化:将复杂业务碎片化,有利于业务复用、组合和更新。高并发:通过数个业务处理节点同时处理同一业务逻辑,增强业务的并发处理能力。高可靠:同一业务由多个节点

64、处理,即使一个节点宕机,业务也会由其他节点接管。可扩展:某一业务处理能力不够时,可迅速通过增加节点实现性能扩容。为了能够快速有效的、低成本的跨区跨域、甚至在异构云平台上运行集群,并按照地理位置创建一个复制机制,将多个容器云集群进行连接,当遇到某个区域连接中断或某个数据中心故障时可保持关键服务运行。图2-9:分布式云架构2.2.1多集群联邦技术-32-集群配置对象用于管理集群联邦成员,实现多集群管理功能,如图2-10所示,Type-Config用于定义集群联邦管理的资源,Propagation用于把资源分配给集群联邦管理的集群成员中,Status用于收集集群联邦成员的资源状态,Policy用于定

65、义资源调度策略,Scheduling用于根据资源的状态和策略进行跨集群的资源调度,DNS用于维护集群联邦成员的的DNS服务器,通过DNS实现跨集群的服务访问。近几年来,由于GPU在浮点计算和并行计算上,拥有极其出色的性能,甚至超越了CPU的数十倍,使其被广泛使用在数据挖掘,深度学习等需要大量重复计算的工程之中。在虚拟化环境中,可通过直通模式(pci passthrough)把物理GPU直接挂载给计算节点上的一个虚拟机使用,这种模式存在资源浪费且受限于计算节点的PCIe插槽,无法支持很多虚拟机使用。GPU虚拟化计算技术是通过GPU虚拟化,把一个物理GPU虚拟为多个vGPU,然后再把vGPU挂载给

66、虚拟机。图2-10:多集群联邦架构2.2.2 GPU、FPGA高性能异构计算技术-33-vGPU信息整理计算管理服务定期调用libvirt接口获取物理GPU和vGPU的对应关系,重点是vGPU的类型(PCI-VF)和厂商型号的信息,计算调度组件收到计算管理服务的上报信息后,把信息录入到设备表(pci_devices);vGPU挂载和卸载用户申请使用GPU虚拟机时,调度到对应计算节点的管理服务,后者调用libvirt的PCI设备挂载接口进行挂载,同时调度组件会把pci_devices中对应的vGPU记录中状态置为使用中。挂载,计算节点管理服务调用libvirt的PCI设备卸载接口进行卸载,同时调

67、度组件会把设备表中对应的vGPU记录中状态置为可用。本技术充分利用GPU硬件辅助虚拟化技术,把vGPU提供给虚拟机使用,降低GPU计算成本提高业务运维效率。Serverless是指不用创建和管理服务器、不用担心服务器的运行状态(服务器是否在工作等),只需动态申请应用需要的资源,把服务器留给专门的维护人员管理和维护,进而专注于应用开发,提升应用开发效率、节约企业IT成本。传统上使用容器集群运行容器,首先需要创建运行容器的容器集群服务器集群,然后再创建容器负载,需要有专门的维护人员来管理和维护容器集群,增加了企业的运维成本。容器化的serverless弹性计算技术基于安全容器,使用安全容器提供虚拟

68、机级别的安全隔离,结合自有硬件虚拟化加速技术,提供高性能安全容器,无需创建和管理服务器集群即可直接运行容器,可以通过控制台、容器集群工具、API 创建和使用容器负载,且从2.2.3 Serverless无服务计算技术-34-单一用户角度看资源“无限大”,能够提供容器秒极弹性伸缩能力,能够轻松应对业务快速变化,保障业务SLA。高性能强隔离容器使用安全容器提供虚拟机级别的安全隔离,结合自有硬件虚拟化加速技术,提供高性能安全容器。依靠安全容器的强隔离特性,多个租户之间的容器运行环境强隔离,不同租户之间的容器不感知、不可见,可以在同一台裸金属服务器上混合部署而安全无虞。使用安全容器技术可以最大化资源利

69、用率,降低性能开销。统一调度管理多集群统一管理,容器负载统一调度,使用上无需感知集群存在,基于容器集群的负载模型提供负载快速部署、弹性负载均衡、弹性扩缩容、蓝绿发布、灰度发布等重要能力。对于单一超算任务进行切片,批量调度大数量节点并行计算,在云原生环境下,通过容器化技术实现计算任务切片,这些进程作为互不相关的多个程序独立执行,每个节点作为单独进程具有自己独立的堆栈和代码段,并通过消息传递实现并行协同。本技术基于kubernets容器编排平台,扩展容器调度、分发策略,灵活感知集群内部2.2.4分布式容器批量调度技术图2-11:批量调度架构-35-资源情况,对分布式计算容器进行分布式调度,将计算任

70、务与计算资源进行精准匹配,将计算任务按批次调度到匹配的计算资源片。针对分布式容器迁移场景,建立任务调度队列,在考虑作业等待时间的同时,兼顾作业的运行时间,既照顾短作业又不使长作业的等待时间过长,避免发生饥饿现象,优化整体调度性能,扩展联合调度、公平调度、队列调度、预定或回填式调度算法,实现批量调度的能力,抽象计算作业CRD,提供作业生命周期管理。算力是全社会数智化转型的基本生产要素,算力之于数字经济的重要性如同水电之于工业,网络也从云化网络向算力网络全面转型,从流量管道哑网络转变为算力感知智网络,从有损网络转变为无损网络,从尽力而为式网络转变为确定性网络。确定性网络技术以提供确定性服务质量为目

71、标,可在提供确定性服务与非确定性服务之间灵活切换,可自主控制确定性服务质量等级,实现确定性服务质量按需定制 。算力网络时代的新兴业务,例如工业自动化控制、车联网、远程手术、AR/VR游戏等,需要将端到端时延控制在微秒到数毫秒级,将时延抖动控制在微秒级,将可靠性控制在99.9999%以上。表2-1列出了工业自动化控制对网络服务质量的具体要求。这就要求算力网络提供零丢包、有界时延、有界抖动、超高可靠性的服务质量,保障数据“准时、准确”的传输。因此,确定性网络技术是算力网络的关键技术之一。确定性算力网络意义重大:是网络强国建设的重要成果;将有效推动制造业、交通运输业、医疗卫表2-1 部分工业控制场景

72、对网络服务质量的要求2.3 确定性网络技术2.3.1 算力网络的确定性需求10场景时延要求抖动要求可靠性要求远程控制5毫秒-99.999%离散自动运动控制1毫秒1微秒99.9999%离散自动化10毫秒1毫秒99.99%过程自动化远程控制50毫秒20毫秒99.9999%过程自动化监控50毫秒20毫秒99.999999%-36-确定性网络技术通过网络切片、边缘计算等技术实现确定性带宽,通过时钟/频率同步、资源预留、整形调度、帧抢占等技术实现确定性时延与抖动,通过包复制与消除、冗余备份等技术实现确定性可靠性。确定性网络技术不是单一技术,而是一系列协议与机制的合集。从确定性网络技术应用场景来看,确定性

73、网络技术体系主要包括灵活以太网(Flexible Ethernet,FlexE)技术、时间敏感网(Time-sensitive Networking,TSN)确定性网(Deterministic Networking,DetNet)、5G确定性网络(5G Deterministic Networking,5GDN)、确定性WiFi(Deterministic WiFi,DetWiFi)。FlexE技术由光互联网络论坛(Optical Internetworking Forum,OIF)推动,旨在解耦业务速率与物理通道速率,提供比传统以太网更加灵活的带宽颗粒度,支撑物理通道向更高速率(400GE

74、、1TE)演进。FlexE基于时分复用思想,在MAC层与PHY层之间增加Shim层,向上承接业务逻辑,向下对接物理通道,提供链路捆绑、子速率与通道化三种图2-12:端到端确定性算力网络2.3.2 确定性网络技术体系生业、金融服务业等行业的数智化转型;是先进技术的代表,有望成为ICT技术新的制高点。、-37-应用模式,物理通道专用可实现确定性带宽,且能够根据上层业务需求按需、灵活分配物理通道带宽,提高带宽利用率。TSN技术由IEEE 802.1 TSN工作组推动,定义了一套协议标准,用于实现局域网络的确定性。TSN在现有以太网的基础上,增加时钟同步、整形调度和网络配置等关键技术,以提供零丢包率、

75、确定性低时延、确定性低抖动的数据传输服务。TSN要求所有网络设备时钟同步,在IEEE 1588-2008的精确时间协议(Precision Time Protocol,PTP)的基础上扩展,形成IEEE 802.1AS-2011的通用精确时间协议(general Precision Time Protocol,gPTP);TSN整形调度主要包括兼有队列调度和流量整形的IEEE 802.1Qav 基于信用的整形(Credit-Based Shaper,CBS)、基于门控列表的IEEE 802.1Qbv的时间感知调度(Time-Aware Shaper,TAS)与基于奇偶队列的IEEE 802.1

76、Qch的循环排队转发(Cyclic Queuing and Forwarding,CQF);TSN分别在IEEE Qat和IEEE Qcc中定义了分布式和集中式两种网络配置方式,用于实现资源预留与网络管控。DetNet技术由IETF的DetNet工作组推动,旨在帮助IP网络实现从“尽力而为”向“准时、准确”的蜕变,将确定性网络技术通过IP/MPLS等技术从局域网扩展到广域网上。DetNet借鉴TSN的机制,改进时钟同步、整形调度和网络配置等关键技术,为网络提供了一种低丢包、确定性端到端时延与抖动的数据传输能力。在时钟同步方面,DetNet可以利用IEEE 802.1AS-2011实现精确时钟同

77、步,也可以参考IEEE 1588v2实现频率同步;在整形调度方面,借鉴TSN的IEEE 802.1Qch的周期循环转发的思想,DetNet现有两种可行的技术路线,一种是基于传统IP协议的确定性IP(Deterministic IP,DIP)转发,在传统IP的基础上,采用确定的时隙映射关系,转发设备采用三队列用于确定性流的调度,避免了复杂的流时隙规划问题,另一种是基于SRv6的时隙具化排队转发(Cycle Specified Queuing and Forwarding,CSQF)转发,通过SRv6显式携带路径与转发时隙信息,通过时隙规划确定时隙映射关系,转发设备采用多队列用于确定性流调度,可实

78、现更大规模-38-确定性流的传输。DetWiFi技术由IEEE 802.11be任务组推动,旨在提供无线接入侧确定性服务能力,专注于解决PHY和MAC修正案的设计问题。DetWiFi考虑无线介质的固有限制(链路不可靠、路径不对称、接口不兼容等),在时钟同步、流量调度等方面重新设计TSN机制,改进介质访问机制,保持与现有WiFi标准的兼容性。在时钟同步方面,DetWiFi考虑路径不对称带来的时延不对称问题,在IEEE 802.1AS基础上增加时序测量,允许时钟同时在主/从同步帧中传播,从而计算时钟偏移来调整时钟;在流量调度方面,在IEEE 802.1Qbv的基础上,允许设备定义新规则控制流量到达

79、,减少访问竞争;在介质访问方面,可有两种促进无冲突操作的介质访问方法,一种是触发器机制,允许AP调度上行链路MU传输,后续可向速率自适应机制改进,增加时间敏感帧的传输比率,以减少触发信令带来的控制开销,另一种是目标唤醒时间机制,基于唤醒时间表,定期唤醒设备以发送/接收数据。5GDN由3GPP推动,旨在5G网络中打造有确定性传输能力的移动专网。由于5G网络涉及无线接入网、传输承载网、核心网等不同部分,5GDN可集成现有确定性网络技术,强化其端到端确定性传输能力和网络切片能力。例如,以FlexE作为5G承载网可提升5G网络切片能力;将TSN、DetNet与5G结合,可进一步保证确定性端到端传输质量

80、。时延确定性技术是确定性网络技术的重要内容。传统网络中由于时延长尾效应的存在而无法实现确定性时延与抖动。以单跳场景为例,单跳时延由链路传播时延、端口传输时延、节点内处理时延与节点内排队时延构成。其中,链路传播时延主要与相邻网络设备节点之间的链路距离以及传输介质有关,端口传输时延主要与端口速率以及数据包/帧的大小有关,节点内处理时延是指节点完成包/帧头分析、数据提取、差错检验、路由选择等所需的时间,节点内排队时延是包/帧在节点内排队等待传输消耗的时间。在一个稳定的网络拓扑中,前三项时延基本不变,而节点内排队时延则会随着网络负载的变化而改变,导致2.3.3 时延确定性技术-39-了单跳时延的不确定

81、性。即使网络轻载,由于微突发的存在,单跳时延的不确定性仍然存在。因此,实现确定性时延需要控制节点内时延以消除长尾效应。目前,实现确定性时延的主流技术主要有CQF、DIP、CSQF。表2-2总结了三种技术的差异。CQF采用两个输出缓存队列用于确定性流量的转发,每个队列的入队侧与出队侧均放置逻辑门,逻辑门存在打开与关闭两种状态。当门处于打开状态时,允许该队列接收或输出数据帧,否则禁止。输出端口的输出时间等间隔划分为时隙,两个队列以时隙为单位交替执行入队、出队操作,即在任一时隙内,两队列始终保持一队列出开入关,另一队列出关入开的状态。在CQF中,数据帧在相邻节点间的转发周期映射关系固定,为xx+1,

82、即数据帧在上游节点的第x个时隙内转发,则需在下游节点的第x个时隙内到达输出队列,并在该节点的第x+1个时隙内转发。若假设时隙大小为T,传输跳数为H,则CQF可保证端到端最大时延为(H+1)*T,最小时延为(H-1)*T,抖动为2T。其原理如图2-13所示。CQF要求所有网络设备保持严格时间同步,以确保所有的节点时隙对齐。其固定的转发时隙映射关系要求链路传播时延与节点内处理时延必须小于时隙大小T,容错性能差,不适用于广域网场景。2.3.3.1 CQF技术表2-2.CQF vs.DIP vs.CSQF时延确定性技术CQFDIPCSQF队列数23多个同步要求时间同步频率同步频率同步时隙映射xx+1x

83、y+1xy+n时延(H-1)*T,(H+1)*T-抖动2T2T2T适用范围局域网广域网广域网数据平面以太网IP/MPLS/SRv6等SRv6关键算法注入时间规划路由域整形参数设计路由与时隙偏移规划-40-在DIP中,网络设备采用三个输出缓存队列用于确定性流量的转发,每个队列的入队侧与出队侧均放置逻辑门,逻辑门存在打开与关闭两种状态。当门处于打开状态时,允许该队列接收或输出数据帧,否则禁止。输出端口的输出时间等间隔划分为时隙,三个队列以时隙为单位交替执行入队、出队操作,即在任一时间间隔内,两队列始终保持一队列出开入关,其余两队列出关入开的状态。数据包在相邻节点间的转发周期映射关系固定,为xy+1

84、,即数据包在上游节点的第x个时隙内转发,且在下游节点的第y个时隙内到达输出队列,则该节点将在第y+1个时隙内转发该数据包,抖动为2T。其原理如图2-14所示。在DIP中,所有网络设备保持频率同步,以确保所有节点时隙大小相同。在一个稳定的网络拓扑中,其转发时隙映射关系固定,相邻节点间的时隙映射关系表可由集中式配置得到,也可通过分布式学习得到。DIP适用于多种数据面封装,可以基于但不限于IP。2.3.3.2 DIP技术图2-13:CQF技术原理图2-14:DIP调度原理-41-基于上述转发原理,DIP为每个准入的确定性业务计算路径、预留资源;入口网关对业务流整形,并为数据包打上初始时隙标签,随后往

85、下一跳转发;网络设备收到数据包后,根据本地维护的时隙映射关系表,替换数据包的时隙标签后送入相应的输出队列等待转发至下一跳;重复上一步骤,直到数据包到达出口网关11。CSQF采用多个输出缓存队列用于确定性流量的转发,每个队列的入队侧与出队侧均放置逻辑门,逻辑门存在打开与关闭两种状态。当门处于打开状态时,允许该队列接收或输出数据帧,否则禁止。输出端口的输出时间等间隔划分为时隙,三个队列以时隙为单位交替执行入队、出队操作,即在任一时间间隔内,两队列始终保持一队列出开入关,其余两队列出关入开的状态。数据包在相邻节点间的转发周期映射关系固定,为xy+n,即数据包在上游节点的第x个时隙内转发,且在下游节点

86、的第y个时隙内到达输出队列,则该节点将在第y+n个时隙内转发该数据包,抖动为2T。其原理如图2-15所示。CSQF要求所有网络设备保持频率同步,以确保所有节点时隙大小相同。在一个稳定的网络拓扑中,其转发时隙映射关系取决于时隙规划结果。CSQF是基于SRv6的实现,每个确定性业务流的转发路径与转发时隙由集中式计算得到,并映射为SRv6的SIDs,数据包携带SID发送,每一跳接收数据包后解析栈顶的SID,获得数据包在该节点的转发端口和时隙信息,并按该信息转发数据包。2.3.3.3 CSQF技术图2-15:CSQF技术原理-42-工业互联网网络是构建工业环境下人、机、物全面互联的关键基础设施,根据业

87、务需求和数据流向,工业互联网网络又可进一步划分为工厂内网和工厂外网。工厂内网指在工厂或园区内部,满足工厂内部生产、办公、管理、安防等连接需求,用于生产要素互联以及企业IT管理系统之间连接的网络。工厂外网指以支撑工业全生命周期各项活动为目的,满足工厂数据、工业应用、工厂业务需要出工厂与云平台或者其他网络互联的需求,用于连接企业上下游之间、企业多分支机构、企业与云应用/云业务、企业与智能产品、企业与用户之间的网络。算力网络可以应用在工业内网,对边缘云、网关、PLC等异构算力节点进行编排管理。不同形态的设备在工业网络中所处的位置不同,所包含的芯片种类以及计算和存储能力不同,相应负责的业务也有所差异。

88、同一类业务中的不同任务可以分别在所对应的计算节点进行,例如边缘智能场景中的云中心训练模型,边缘节点可以通过算力网络的调度更高效地进行推理决策。当前对应最近的边缘节点负载较高时,可以实时调度到附近负载较低的边缘节点执行业务请求。在网计算面向网络和计算逐步一体化阶段,计算任务开始从网络边缘的数据中心逐渐迁移至网络内部,由交换机、路由器、网关、服务器等设备共同完成计算任务。当前工业互联网中的计算节点种类、部署方式越来越多样化,边缘计算已经促进了业务的分布式部署,在网计算可以进一步加速工业互联网业务的处理,提供无处不在的连接和计算服务。确定性网络自提出以来,首先在车载网络、工业网络得以应用,当前工业以

89、太网、三、典型应用场景3.1工业互联网-43-时间敏感网络等技术已经应用在工业互联网,IP网络的确定性技术和标准仍在制定中。面向工业互联网IP化等趋势,可以预见确定性网络将会应用在更广的范围。确定性网络提供更可靠、更精准的网络连接,和算力网络相结合,将为工业互联网提供端到端的确定性服务。随着数字经济的蓬勃发展,数据量的暴增,高性能计算正逐渐向新兴的大数据、深度学习以及云计算等方向进行融合和演进,以支撑人工智能、基因测序、仿真模拟等诸多领域的研究,特别是在工业仿真、生物信息、新材料、气象、海洋等科学计算领域,高校等科研机构对算力资源的需求愈加迫切。高性能计算已经成为高校的基础设施,助力科研成果落

90、地,与此同时也面临效率、运营、运维、安全和能耗五个维度的挑战。确定性算力网络不仅可以满足科研机构对算力的需求,还能很好地解决系统利用率最大化;减轻技术人员负担,提升运营效率;缩短SLA的相应时长提升运维效率;高校数据中心所面临的黑客入侵问题;追求极致算力所带来的高能耗等问题。人工智能科技和产业开始步入全面融合发展的新阶段,在本地便捷部署异地人工智能计算中心的超大规模预训练模型,促进行业应用的流动,并实现基于网络的快速迭代,对人工智能计算中心提出新的需求。新的形势迫切需要在加强人工智能计算中心建设的过程中,不仅仅将计算中心作为独立的系统发挥作用,而是逐步形成相互联接的人工智能算力网络,以满足网络

91、化算力联通调度,大模型通过网络部署并结合不同区域产业优势应用落地,数据集、行业应用等3.2科学研究3.3人工智能-44-基于人工智能的算力网络包含以下三个方面。1、一张算力网络;将不同人工智能计算中心节点连成一张人工智能算力网络,算力网络吸纳和调度全国人工智能计算中心算力,以统一服务的方式,输送高可靠、可度量、通用化的算力、算法、算据资源,使能人工智能应用。2、算力汇聚;不同人工智能计算中心之间高速网络互联,实现算力合理调度,资源弹性分配,提升各个人工智能计算中心的利用率,为大模型训练提供超级算力,还可实现整体能耗的节省。3、数据汇聚:多方合作 推进Al领域的公共数据开放,基于人工智能计算中心

92、汇聚高质量的开源开放的Al数据集,促进Al算法开发和行业落地。生态汇聚;采用互联、应用接口等标准,实现网络内大模型能力开放与应用创新成果共享,强化跨区域科研和产业协作,为所有用户进行Al应用创新提供更多的资源选择和更便捷的合作方式,加速产业聚合,激活产业共融共生。新型电力能源系统加速了能源物联网的转型与发展。新型电力系统“双高”特征对能源系统建设提出更高的技术要求,高新能源占比造成新型电力系统的供需实时平衡挑战性更大;高电子器件特征造成了新型电力系统在物联网平台建设能力、算法算力、网络时效性、稳定性以及网络覆盖广度和深度等方面有着前所未有的技术挑战。确定性算网一体化可以为能源物联网中能碳大数据

93、的采集、分析、管理和应用提供算网基础能力。确定性网络云网边端高效协同、算力任务的广域确定性传输及局域超低时延保障、智能任务的绿色高效计算等能力,可以为各类能碳应用提供高性能、低成本、灵活便捷的算力服务;确定性网络毫秒级的延时、微秒级的抖动控制,能够有效地保障高度物联的新型电力系统高质量运转,保障数据端到端时延,为高并发数据实时采3.4能源物联网-45-集、能源交易撮合、碳排放交易撮合等时间敏感业务提供技术保障;另外,确定性网络具有完整的网络安全和数据安全机制,可以提供从物联终端、数据终端到云端系统的全程防护。基于确定性网络,山东未来集团、山东未来网络研究院和浪潮打造了未来能源大数据中心,为能源

94、监管侧、能源使用侧、能源供给侧和能源交易侧提供能源物联网、算力及应用服务,助力山东省实现双碳管理和能耗双控目标,从降低用能成本,提升用能安全,优化用能质量三个方面着手,为山东的经济发展保驾护航。车联网进入“算力时代”之后,汽车将获得更好的支撑,应用和生态有了更多的想象空间。算力需求日益剧增,第一是高精地图,其中包括厘米级精度、丰富的路标数据和三维重建能力。第二是多传感器,其中包括摄像头、激光雷达、毫米波雷达、超声传感器、惯导和卫星天线等。第三是环境建模及智能决策,其中包括多传感器融合感知、道路和区域识别、环境模型构建、智能预测和决策等。第四是车身控制,其中包括车辆自动控制、驾驶策略执行及规划。

95、面对剧增的算力,算网一体化具有相对较多的优势。在靠近网络接入的路侧基础设施上进行算完一体设备不熟,它的好处是非常明显的。第一,计算能力大幅提升,有利于准确度的提升;第二,不需要占用过多的核心网或者骨干网络带宽;第三,可以有效降低时延,在网络的边缘侧只要通过基站就可以直接将消息分发给路上的终端,数据传输路径比互联网到无线核心网再到无线接入网的路径短了很多,这就是算网一体在车联网中应用的优势。3.5车联网-46-算力网络是网络强国建设的重要内容,是数字经济发展的关键推手,是ICT技术的前进方向。自提出以来,各方均积极响应,推动算力网络的发展。然而,无论是在标准制定、生态建设,还是试验验证方面,算力

96、网络都处于初期发展阶段,距离算网一体的终极目标仍有很长的路要走。在标准制定方面,我国是算力网络标准化工作的主要推动力,但已形成的算力网络标准文档寥寥无几,后续呼吁各方结合自身的标准研究与应用经验,进一步推动算力网络的标准化进程,重点关注算力网络架构设计、算网端到端确定性技术融合、异构算力度量与标识、算网资源协同编排与调度等问题,突破算力网络技术瓶颈。在生态建设方面,当前算力网络产业联盟还较少,后续呼吁算力网络相关产业积极开展协作互通,积极拥抱开源,围绕算力网络的典型应用场景,构建算力网络大生态,加速产业发展。在试验验证方面,各企业应充分利用云网融合阶段积累的丰富成果,积极开展算力网络的试验验证

97、工作,推动算力网络的落地进程。作为算力网络建设的重要参与者,山东未来网络研究院目前已建设完成覆盖山东省16地市的全球首张5600公里确定性网络,浪潮集团云网数联合实验室研发的算网一体机分别在算力资源侧、应用侧、调度运营侧落地试用。展望未来,山东未来网络研究院与浪潮集团将继续把算力网络列为重要工作方向,积极投入到标准制定、生态建设、试验验证的工作中,按照“1+3+3+3”模式打造算力网络,即1个一体化算网运营平台,3种算力资源(基础算力、智能算力、超算算力),3种接入方式(公有云接入、边缘云接入、私有云接入),3种一体化产品(算网纳管一体机、算网调度一体机、算网应用一体机),实现算力网络规模化应用在山东率先落地,助力数字经济的腾飞。四、总结与展望

友情提示

1、下载报告失败解决办法
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。

本文(紫金山实验室:2022确定性算力网络白皮书(49页).pdf)为本站 (皮匠报告) 主动上传,三个皮匠报告文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三个皮匠报告文库(点击联系客服),我们立即给予删除!

温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。
会员购买
客服

专属顾问

商务合作

机构入驻、侵权投诉、商务合作

服务号

三个皮匠报告官方公众号

回到顶部