上海品茶

您的当前位置:上海品茶 > 报告分类 > PDF报告下载

面向分布式机器学习的边缘网络协同技术(15页).pdf

编号:86282 PDF 15页 2.47MB 下载积分:VIP专享
下载报告请您先登录!

面向分布式机器学习的边缘网络协同技术(15页).pdf

1、空白演示空白演示单击输入您的封面副标题演讲人王尚广(北京邮电大学)面向分布式机器学习的边缘网络协同技术面向分布式机器学习的边缘网络协同技术研究背景研究背景n 网络承载 AI 应用剧增网络承载 AI 应用剧增:全球数据总量不断持续增长,预计2020年达到47ZB,2025年达到163ZB,年复合增长率为20%20%,分布式机器学习产生的数据进一步加剧了增长n 网络传送带宽压力巨大网络传送带宽压力巨大:全球数据中心网络安装服务器数量年增长仅约 4%4%迫切需要对面向大规模分布式人工智能应用的网络技术展开研究!迫切需要对面向大规模分布式人工智能应用的网络技术展开研究!n 网络与通信技术已成为世界大国

2、博弈的焦点网络与通信技术已成为世界大国博弈的焦点n AI在网络中的大规模应用导致竞争进一步加剧AI在网络中的大规模应用导致竞争进一步加剧研究背景研究背景n 面向大规模分布式人工智能应用的网络技术国内外研究现状面向大规模分布式人工智能应用的网络技术国内外研究现状 分布式机器学习算法框架:谷歌(TensorFlow)、微众(FATE)、CMU等 边缘计算与网络资源协同:微软、阿里巴巴、CMU、北邮等 数据中心网络与智能网卡:迈络思(智能网卡)、浪潮、阿里、微软等位置相对集中网络相对封闭数据直接处理资源相对同构边缘网络跨域传输异构计算隐私保护位置碎片分布跨域传输频繁加密数据剧增资源异构多样网络资源、

3、存储资源、计算资源如CPU、GPU、FPGA等金融、社交、银行、医疗、政务等敏感数据大规模分布式人工智能应用导致跨广域网数据传输需求剧增5G、车联网、AR/VR等应用需要边缘数据中心广泛分布式部署过去现状过去现状()()()()研究背景研究背景n 面向大规模分布式人工智能应用的网络技术面临的挑战面向大规模分布式人工智能应用的网络技术面临的挑战位置碎片分布跨域传输频繁加密数据剧增资源异构多样加密导致数据量激增,传输压力增大模型同步引发海量数据传输压力剧增CPU+GPU+FPGA混合异构环境调度复杂跨域计算与网络资源协同困难,造成瓶颈AI应用与网络拓扑缺乏感知严重制约网络传输效率挑战一:数据隐私与

4、通信效率难兼顾挑战一:数据隐私与通信效率难兼顾挑战二:跨域计算资源与网络资源难协同挑战二:跨域计算资源与网络资源难协同挑战三:数据处理能力与网络传输效率难提升挑战三:数据处理能力与网络传输效率难提升研究背景研究背景n 国家重点研发计划项目国家重点研发计划项目面向大规模分布式人工智能应用的关键网络技术研究面向大规模分布式人工智能应用的关键网络技术研究挑战一:数据隐私与通信效率难兼顾挑战一:数据隐私与通信效率难兼顾挑战二:跨域计算资源与网络资源难协同挑战二:跨域计算资源与网络资源难协同挑战三:数据处理能力与网络传输效率难提升挑战三:数据处理能力与网络传输效率难提升研究背景研究背景n 国家重点研发计

5、划项目国家重点研发计划项目内容五:分布式机器学习加速技术与实验验证内容五:分布式机器学习加速技术与实验验证内容一:面向网络感知的大规模分布式机器学习机理内容一:面向网络感知的大规模分布式机器学习机理内容四:意图驱动的路由控制与负载均衡内容四:意图驱动的路由控制与负载均衡内容三:跨域网络的低时延传输技术内容三:跨域网络的低时延传输技术算力感知 网络传输能力支撑网络能力保障机器学习能力加速算力感知 网络传输能力支撑网络能力保障机器学习能力加速AI应用底层资源服务化AI应用底层资源服务化网络感知网络感知 AI需求感知 算力供应AI需求感知 算力供应新新准准快快稳稳狠狠内容二:面向分布式机器学习的边缘

6、网络协同技术内容二:面向分布式机器学习的边缘网络协同技术研究内容研究内容面向分布式机器学习的边缘网络协同技术:基于服务计算理论与方法将算力进行封装与抽象,面向分布式机器学习的边缘网络协同技术:基于服务计算理论与方法将算力进行封装与抽象,通过算力发现、构建算力路由和拓扑,实现算力共享与高效协同通过算力发现、构建算力路由和拓扑,实现算力共享与高效协同,解决边缘网络能力不足、算力有限、协同缺乏导致的分布式机器学习效率低下问题,解决边缘网络能力不足、算力有限、协同缺乏导致的分布式机器学习效率低下问题跨广域网的分布式边缘智能网络跨广域网的分布式边缘智能网络协同协同分布式机器学习的资源联合优化分布式机器学

7、习的资源联合优化调度调度方法方法跨广域网的分布式边缘智能网络管理框架分布式边缘智能网络分层学习技术面向分布式机器学习的算力动态调度方法研究基于信息年龄的算力感知技术研究跨广域网算力协同方法研究边缘网络可靠性边缘网络可靠性分析分析边缘网络算力可靠性预测方法面向机器学习任务的边缘网络可靠性模型边缘网络主动容错方法分布式边缘智能网络快速感知与反馈技术边缘节点边缘节点边缘节点边缘节点边缘节点边缘节点边缘节点边缘节点边缘节点边缘节点边缘节点边缘节点边缘节点边缘节点边缘节点边缘节点算力调度算力调度算力调度算力调度算力调度算力调度算力调度算力调度算力调度算力调度算力调度算力调度算力抽象算力抽象算力路由算力路

8、由算力路由算力感知算力感知研究进展一研究进展一n 跨广域网的分布式边缘智能网络协同方法跨广域网的分布式边缘智能网络协同方法l全球首个全球首个大规模边缘云节点度量分析工作,发现了边缘网络负载失衡的主要原因大规模边缘云节点度量分析工作,发现了边缘网络负载失衡的主要原因n 对跨广域网云边端环境的算力特征与网络特征进行全面度量对跨广域网云边端环境的算力特征与网络特征进行全面度量l阿里阿里1000+城市3个月运行状态数据1000+城市3个月运行状态数据lWIFI、4G LTE、5G、有线4种连接方式WIFI、4G LTE、5G、有线4种连接方式l阿里云、阿里边缘节点、实验室服务器、终端设备4类计算节点阿

9、里云、阿里边缘节点、实验室服务器、终端设备4类计算节点lDocker Hub130个镜像仓库、2200个镜像、8,305,000 个文件Docker Hub130个镜像仓库、2200个镜像、8,305,000 个文件n 主要科学发现主要科学发现l虚拟机主导的粗粒度服务提供模式是主要原因,边缘网络上的工作负载更复杂,相同节点内资源使用率差异可虚拟机主导的粗粒度服务提供模式是主要原因,边缘网络上的工作负载更复杂,相同节点内资源使用率差异可高达14倍高达14倍l容器镜像的传输与存储导致带宽资源激增,单次启动带来的网络资源占用容器镜像的传输与存储导致带宽资源激增,单次启动带来的网络资源占用高达2.9G

10、高达2.9GXu et al.,From Cloud to Edge:A First Look First Look at Public Edge Platforms,Proc.ACM IMC 2021研究进展一研究进展一n 跨广域网的分布式边缘智能网络协同方法跨广域网的分布式边缘智能网络协同方法l容器驱动的边缘网络端到端时延降低了40.23%,获得IEEE SCC2021最佳论文奖容器驱动的边缘网络端到端时延降低了40.23%,获得IEEE SCC2021最佳论文奖n 基于大规模度量分析,进行边缘网络协同联合优化:基于大规模度量分析,进行边缘网络协同联合优化:l利用吉布斯采样和凸优化理论,设

11、计了任务卸载感知的资源分配机制,实现容器驱动的边缘网络算力分配,端到端时延降低了40.23%利用吉布斯采样和凸优化理论,设计了任务卸载感知的资源分配机制,实现容器驱动的边缘网络算力分配,端到端时延降低了40.23%l基于镜像重建的高效镜像层共享,提出了基于镜像的分布式算力协同方法,以实现高效的容器镜像层共享,基于镜像重建的高效镜像层共享,提出了基于镜像的分布式算力协同方法,以实现高效的容器镜像层共享,降低了9.4%的数据传输量和10%的镜像存储降低了9.4%的数据传输量和10%的镜像存储IMC2021SCC2021WWW2022研究进展二研究进展二n 分布式边缘网络协同框架分布式边缘网络协同框

12、架l主要目的:为面向分布式机器学习的网络协同提供支撑平台,以实现可控制、可扩展、可协同目的主要目的:为面向分布式机器学习的网络协同提供支撑平台,以实现可控制、可扩展、可协同目的l实现功能:云网协同部署技术、边缘服务快速迁移技术、终端分布式算力协同技术实现功能:云网协同部署技术、边缘服务快速迁移技术、终端分布式算力协同技术可控制会话可控路由可控可扩展网络可伸缩系统可扩展可协同资源协同服务协同研究进展二研究进展二研究进展三研究进展三n 分布式机器学习的资源联合优化调度方法分布式机器学习的资源联合优化调度方法l基于多臂赌博机的联邦学习调度方法基于多臂赌博机的联邦学习调度方法:在分布式机器学习有限的资

13、源中,如何挑选有价值的设备参与到每一轮的联邦学习,提升资源利用率:在分布式机器学习有限的资源中,如何挑选有价值的设备参与到每一轮的联邦学习,提升资源利用率Huang et al.,Context-aware Federated Learning by Estimating the Training and Reporting Phases of Mobile Clients,ICDCS 2022n解决方案解决方案提出一个基于多臂赌博机的联邦学习调度方法,在每轮联邦学习的参与者选择阶段,设备对自身资源状态进行感知与预测,并上报资源状态信息,选择成功率最高且本地数据量最多的设备作为参与者进行训练,

14、最终使得参数服务器累计选择参与者获得的收益最大化,在有效数据贡献度方面,提出一个基于多臂赌博机的联邦学习调度方法,在每轮联邦学习的参与者选择阶段,设备对自身资源状态进行感知与预测,并上报资源状态信息,选择成功率最高且本地数据量最多的设备作为参与者进行训练,最终使得参数服务器累计选择参与者获得的收益最大化,在有效数据贡献度方面,相比FedAvg方法提高约40%,相比FedCS方法提高约30%相比FedAvg方法提高约40%,相比FedCS方法提高约30%研究进展三研究进展三n 分布式机器学习的资源联合优化调度方法(隶属任务2)分布式机器学习的资源联合优化调度方法(隶属任务2)l多机构联合训练框架

15、的调度优化方法多机构联合训练框架的调度优化方法:如何通过调整机构间的网络拓扑(不用等待离群机构,异步全局模型更新)来保证多机构之间一致的收敛性:如何通过调整机构间的网络拓扑(不用等待离群机构,异步全局模型更新)来保证多机构之间一致的收敛性l解决方案解决方案:提出一个网络拓扑调整机制以动态绕开离群机构,并利用一个补偿算法将离群机构的同步信息保存并在后续的联合训练中加以利用,从而实现保证收敛性的同时加快训练效率,提出一个网络拓扑调整机制以动态绕开离群机构,并利用一个补偿算法将离群机构的同步信息保存并在后续的联合训练中加以利用,从而实现保证收敛性的同时加快训练效率,训练时间加速了3倍,广域网流量节省

16、了40倍训练时间加速了3倍,广域网流量节省了40倍Device to Device Communication for Federated Learning,ISO/IEC JTC 1/SC 6/WG 1 N 307,国际标准草案Yuan et al.,Accelerating Federated Learning with Edge-free Hierarchical Aggregation,IEEE TMC,在审计算资源机构 A1机构 A1机构 A2机构 A2Org A3.Org A3.机构 0机构 0Computational Servers机构 B3机构 B3Org B1Org B1C

17、omputational Servers机构 B2关键节点(机构)Ring All-ReduceRing All-Reduce机构 B2关键节点(机构)Ring All-ReduceRing All-Reduce.计算资源计算资源计算资源计算资源计算资源计算资源.总结总结 未来工作取得成果 未来工作取得成果主要任务主要任务汇报总结汇报总结跨广域网的分布式边缘智能网络协同方法全球首个大规模边缘云节点度量分析工作相似容器镜像层共享技术获得最佳论文奖跨广域网的分布式边缘智能网络协同方法全球首个大规模边缘云节点度量分析工作相似容器镜像层共享技术获得最佳论文奖可通用可通用可复制可复制开放开源开放开源国家科研任务国家科研任务面向分布式机器学习的边缘网络协同技术面向分布式机器学习的边缘网络协同技术l跨广域网的分布式边缘智能网络协同跨广域网的分布式边缘智能网络协同l分布式机器学习的资源联合优化调度方法分布式机器学习的资源联合优化调度方法l边缘网络可靠性分析边缘网络可靠性分析谢谢关注谢谢关注

友情提示

1、下载报告失败解决办法
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。

本文(面向分布式机器学习的边缘网络协同技术(15页).pdf)为本站 (云闲) 主动上传,三个皮匠报告文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三个皮匠报告文库(点击联系客服),我们立即给予删除!

温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。
会员购买
客服

专属顾问

商务合作

机构入驻、侵权投诉、商务合作

服务号

三个皮匠报告官方公众号

回到顶部