上海品茶

您的当前位置:上海品茶 > 报告分类 > PDF报告下载

清华大学:2022联邦学习全球研究与应用趋势报告(109页).pdf

编号:96259 PDF 109页 8.40MB 下载积分:VIP专享
下载报告请您先登录!

清华大学:2022联邦学习全球研究与应用趋势报告(109页).pdf

1、人工智能之联邦学习 2022 联邦学习全球研究与应用趋势报告 1 联邦学习全球研究与应用趋势报告2022 a m i n e r.c n 深圳 TR 清华大学深圳国际研究生院知识工程研究中心 北京智谱华章科技有限公司 开放群岛开源社区 人工智能之联邦学习 2022 联邦学习全球研究与应用趋势报告 2 主要发现主要发现 “中美双雄”引领全球联邦学习发展“中美双雄”引领全球联邦学习发展 中国和美国的联邦学习论文发布量遥遥领先于其他国家。高被引论文之中有六成以上是来自中美两国,中美两国论文合作数量也全球最多;杰出论文之中有 45.5%来自美国、31.8%来自中国,中美两国合占达七成以上。联邦学习全球

2、高被引论文领先的机构是谷歌(8 篇)、卡内基梅隆大学(5 篇)。中国的高被引论文量较多的机构是北京邮电大学(4 篇)、微众银行(3 篇)。杰出论文数量则是美国的卡内基梅隆大学与中国的香港科技大学各以 3 篇而并列第一。联邦学习领域的全球高被引论文作者主要聚集在中美。美国的高被引论文作者数量最多,占全球一半,也是中国的 2.6 倍。全球专利受理数量以中国地区最多,约占全球受理总量的六成,是在美国受理专利量的 4 倍。专利申请数量前三名机构全部是中国机构。开源框架主要来自中美,其中 OpenMined 推出的 Pysyft、微众银行的 FATE 和谷歌的 TFF 框架的热度居于全球前三位。未来联邦

3、学习研究趋势将更多与算法模型和安全隐私技术相关未来联邦学习研究趋势将更多与算法模型和安全隐私技术相关 目前联邦学习研究热点主要聚焦在机器学习方法、模型训练、隐私保护三方面。未来几年研究趋势将更多涉及算法模型和安全隐私技术,如数据隐私、深度学习、差分隐私、边缘计算、物联网、云计算、移动设备、同态加密、优化问题、沟通效率等。行业应用越来越成熟,应用研究方向呈现出更多与物联网、区块链、车辆交互、5G/6G等技术融合的态势。人工智能之联邦学习 2022 联邦学习全球研究与应用趋势报告 3 目目 录录 1.1.报告说明报告说明.5 5 1.1 1.1 数据范围数据范围.6 6 1.2 1.2 联邦学习知

4、识树联邦学习知识树.6 6 2.2.引言引言 .8 8 3.3.联邦学习技术研究与应用现状联邦学习技术研究与应用现状 .1010 3.1 3.1 技术研究现状技术研究现状 .1010 3.1.1 科研论文成果现状 10 3.1.2 高被引论文分析 18 3.1.3 联邦学习的特刊、书籍和综述 32 3.1.4 联邦学习研讨会杰出论文 36 3.1.5 高被引论文作者的人才地图与画像 41 3.1.6 专利申请现状 55 3.2 3.2 联邦学习框架与系统现状联邦学习框架与系统现状 .6060 3.2.1 开源框架 60 3.2.2 非开源框架与系统 70 3.3 3.3 联邦学习行业应用现状联

5、邦学习行业应用现状.8080 4.4.联邦学习发展趋势联邦学习发展趋势 .8787 4.1 4.1 研究趋势研究趋势.8787 4.2 4.2 技术成熟度技术成熟度 .8888 4.3 4.3 市场化与商业化趋势市场化与商业化趋势 .8989 4.4 4.4 国内外相关标准国内外相关标准.9090 4.5 4.5 生态建立与发展生态建立与发展.9292 5.5.结语结语 .9393 附录一 联邦学习领域顶级国际期刊会议列表.95 附录二 联邦学习架构和应用规范简介.96 附录三 联邦学习五份特刊的已发表文章.97 参考文献.103 致谢.107 版权说明.108 人工智能之联邦学习 2022

6、联邦学习全球研究与应用趋势报告 4 人工智能之联邦学习 2022 联邦学习全球研究与应用趋势报告 编写团队编写团队 顾问顾问 李涓子 清华大学人工智能研究院知识智能中心 唐杰 清华大学人工智能研究院知识智能中心 编写团队编写团队 张淼 张建伟 张淳 商莹玥 数据数据 仇瑜 赵慧军 宋健 孙尧 排版设计排版设计 边云风 韩宇 人工智能之联邦学习 2022 联邦学习全球研究与应用趋势报告 5 1 1.报告说明报告说明 自上期联邦学习全球研究与应用趋势报告发布以来,联邦学习领域在科研成果持续增长的同时,其行业环境越来越规范化。尤其是随着数据安全法、关键信息基础设施安全保护条例、个人信息保护法等政策的

7、陆续发布实施,安全行业界对信息安全与隐私数据的重视再度升级,将深度影响到联邦学习研究和应用的发展动向和趋势。因此,我们对报告进行了更新,旨在寻找与展示最新发现。联邦学习(Federated Learning)是在进行分布式机器学习的过程中,各参与方可借助其他参与方数据进行联合建模和使用模型。参与各方无需传递和共享原始数据资源,同时保护模型参数,即在数据不出本地的情况下,进行数据联合训练、联合应用,建立合法合规的机器学习模型1。联邦学习是一种新兴的人工智能基础技术,其概 念 于 2016 年 由 谷 歌 公 司 H.Brendan Mcmahan 在 论 文Federated Learning

8、of 1 杨强、刘洋、陈天健等:联邦学习,载中国计算机学会通讯,2018 年版,第 49-55 页。2 McMahan,H.B.,Moore,E.,Ramage,D.,&y Arcas,B.A.(2016).Federated learning of deep networks using model averaging.arXiv preprint arXiv:1602.05629.3 https:/www.fedai.org/cases/utilization-of-fate-in-anti-money-laundering-through-multiple-banks/4 Liu,Y.,

9、Huang,A.,Luo,Y.,Huang,H.,Liu,Y.,Chen,Y.,Feng,L.,Chen,T.,Yu,H.,&Yang,Q.(2020).“FedVision:An Online Visual Object Detection Platform Powered by Federated Learning,”Proceedings of the AAAI Conference on Artificial Intelligence,34(08),13172-13179.5 Li W.et al.“Privacy-Preserving Federated Brain Tumour S

10、egmentation,”In:Suk HI.,Liu M.,Yan P.,Lian C.(eds)Machine Learning in Medical Imaging.MLMI 2019.Lecture Notes in Computer Science,vol 11861.Springer,Cham.6 Ben Tan,Bo Liu,Vincent Zheng,and Qiang Yang.2020.A Federated Recommender System for Online Services.In Fourteenth ACM Conference on Recommender

11、Systems(RecSys 20).Association for Computing Machinery,New York,NY,USA,579581.DOI:https:/doi.org/10.1145/3383313.3411528 Deep Networks using Model Averaging 2 中最先提出,原本用于解决安卓手机终端用户在本地更新模型的问题,后经香港科技大学与微众银行杨强教授所领导团队在 2018 年将其扩展为机构间B2B 分布式联合建模架构,包括按样本、特征分割以及异构多方建模,同时可以建立去中心协调器的Peer-to-Peer 架构形式,其设计目标是在保

12、障大数据交换时的信息安全、保护终端数据和个人数据隐私、保证合法合规的前提下,在多参与方或多计算结点之间开展高效率,安全、可靠的机器学习。联邦学习同时包括鼓励多方持续参与合作生态的激励机制,建立正向激励的数据价值交易市场机制。当下,联邦学习已经被大量应用于金融3、安防4、医疗5、在线推荐系统6等领域。联邦学习有望成为下一代人工智能协同算法,隐私计算和协作网络的基础。人工智能之联邦学习 2022 联邦学习全球研究与应用趋势报告 6 2022 联邦学习全球研究与应用趋势报告主要从技术研究、学者画像、主流框架、行业应用,以及发展趋势几大方面,较为全面深入地介绍联邦学习自 2016 年诞生以来到 202

13、1 年的技术研究和应用进展,并展望该技术的未来发展方向与前景。本期报告不仅将数据范围扩展到 2016-2021 年、更新了相关技术数据统计、现状进展等内容,而且重点突出了对科研实践具有较大影响力的高被引论文及其作者的分析,同时增加了来自几个知名人工智能国际顶会中关于联邦学习专题研讨会的杰出论文相关分析,以展示该领域具有较高技术质量、创新力的科研成果。1 1.1.1 数据范围数据范围 本报告研究数据范围是科技情报大数据挖掘与服务系统平台 AMiner 数据库所收录的 2016-2021 年期间与联邦学习研究主题强相关的论文数据、专利数据以及公开数据等。论文的引用量数据统计截止日期为 2022 年

14、 3 月 31 日。1 1.2.2 联邦学习联邦学习知识知识树树 本报告根据联邦学习的关键技术和相关技术,利用 AMiner 数据库中该领域的高水平学术论文,将挖掘出的全球活跃的联邦学习重要技术点表征为知识树结构,如图 1所示。人工智能之联邦学习 2022 联邦学习全球研究与应用趋势报告 7 图图 1 1 联邦学习联邦学习知识树知识树 人工智能之联邦学习 2022 联邦学习全球研究与应用趋势报告 8 2 2.引言引言 人工智能未来能否可持续发展面临两大困境。一是数据困境数据困境。人工智能和机器学习算法具有对数据强依赖的特性。现实中,多数行业领域存在着数据有限且质量较差的问题,并且以碎片化的形式

15、分散存在,不足以支撑人工智能技术的实现。同时,数据源之间存在着难以打破的壁垒。由于行业竞争、隐私安全、行政手续复杂等问题,数据还多是以孤岛形式存在的。此外,研究界和企业界目前的情况是收集数据的一方通常不是使用数据的一方。因此,将分散在各地、各机构的数据进行整合用于机器学习所需的成本非常巨大。二是法律法律挑战挑战。当前,重视数据隐私和安全已经成为世界性的趋势,各国都在不断地推出和加强完善对数据安全和隐私保护的相关法规。欧盟2018 年正式施行通用数据保护条例(General Data Protection Regulation,GDPR)。在中国,全国信息安全标准委员会先后于 2017 年 12

16、 月和2020 年 3 月发布了两版信息安全技术个人信息安全规范(GB/T 35273-2017、GB/T 35273-7 中华人民共和国网络安全法,中共中央网络安全和信息化委员会办公室、中华人民共和国国家互联网信息办公室,http:/ 8 中华人民共和国民法总则,中华人民共和国中央人民政府,http:/ 9 中华人民共和国数据安全法,中国人大网,2021 年 06 月 10 日,http:/ 10 中华人民共和国个人信息保护法,中国人大网,2021 年 08 月 20 日,http:/ 11 关键信息基础设施安全保护条例,中国政府网,2021 年 08 月 17 日http:/ 12 杨强、

17、刘洋、陈天健等:联邦学习,载中国计算机学会通讯,2018 年版,第 49-55 页。2020),对个人信息收集、储存、使用做出了明确规定。此外,在 2017 年起实施的中华人民共和国网络安全法7 和 中华人民共和国民法总则8 中也指出网络运营者不得泄露、篡改、毁坏其收集的个人信息,并且与第三方进行数据交易时需确保在合同中明确约定拟交易数据的范围和数据保护义务。2021 年陆续公布实施了数据安全法9、个人信息保护法10、关键信息基础设施安全保护条例11,为数据安全提供了法律保护,更规范了数据的合法合规使用。针对以上困境,“狭义”联邦机器学习的概念于 2016 年由谷歌研究人员首先提出,随后成为一

18、个解决数据孤岛问题、满足隐私保护和数据安全的一个可行性解决方案 12。联邦学习的特征是数据不出本地、各个参与者的身份和地位平等、它能够实现多个参与方在保护数据隐私、满足合法合规要求的前提下进行机器学习,协同地进行模型训练与结果预测,并且建模效果和将整个数据集放在一处建模的效果相同或相差不大(在各个数据的用户对齐(user alignment)或特征对齐(feature alignment)的条件下)12,从而实现企业间的数人工智能之联邦学习 2022 联邦学习全球研究与应用趋势报告 9 据融合建模,解决数据孤岛问题。“广义”联邦学习的概念,由香港科技大学杨强教授所领导的微众银行 AI 团队在

19、2018 年提出,将联邦学习扩展为机构和个人间的 B2C 模式和不同机构间 B2B分布式联合建模架构,包括按样本、按特征分割以及异构多方建模,同时可以建立去中心协调器的 Peer-to-Peer 架构形式,其设计目标是在保障大数据交换时的信息安全、保护终端数据和个人数据隐私、保证合法合规的前提下,在多参与方或多计算结点之间开展高效率,安全、可靠的机器学习和模型使用。联邦学习同时包括鼓励多方持续参与合作生态的激励机制,建立正向激励的数据价值交易市场机制。如上所述,根据孤岛数据的分布特点(用户与用户特征的重叠情况),联邦学习可以分为横向联邦学习、纵向联邦学习与联邦迁移学习13。联邦学习能够成功的一

20、个重要根基,在于与激励机制、隐私保护等技术的融合。联邦学习激励机制研究的是如何量化每个参与方对数据联邦带来的收益,公平地与参与者分享部分收益以此作为激励,从而实现数据联邦长期的可持续经营14。为了防止恶意攻击者通过模型反演等攻击手段复现原始数据,联邦学习通过与安全多方计算(Secure Multi-Party Computation,MPC)、同态加密(Homomorphic Encryption,HE)、差分隐私(Differential Privacy,DP)和可信执行环境(Trusted Execution Environment,TEE)等隐私计算技术相融合,进一步提升对数据的隐私保护

21、。联邦学习与隐私计算技术的融合通常需要在模型精度、模型训练效率和数据安全性这三个维度之间进行权衡和取舍。如何能够在这三个维度上得到综合性的提升,是联邦学习的一个热点研究方向。联邦学习作为未来 AI 发展的底层技术,它依靠安全可信的数据保护措施下连接数据孤岛的模式,将不断推动全球 AI 技术的创新与飞跃。随着联邦学习在更大范围和更多行业场景中的渗透及应用,它不仅能辅助人类的工作及生活,也将逐步改变人类的认知模式,促进全社会智能化水平提升,并以“合作共赢”的模式带动跨领域的企业级数据合作,有效降低技术应用的成本和门槛,催生基于联合建模的新业态,进而推动社会经济及发展15。截至目前尚没有关于联邦学习

22、技术发展的权威统计,本报告将主要回顾其从 2016 年诞生至2021 年的技术发展趋势,作为学者们了解该技术进展的重要渠道。未来我们将定期进行该技术的阶段性回顾。13 Liu Y,Chen T,Yang Q.Secure Federated Transfer Learning FrameworkJ.IEEE Intelligent Systems,vol.35,no.4,pp.70-82,1 July-Aug.2020.14 杨强,刘洋,程勇,康焱,陈天健:联邦学习,电子工业出版社:北京,2020 年:99-99.15 微众银行人工智能部、鹏城实验室、腾讯研究院、中国信通院云大所、平安科技、招

23、商局金融科技、电子商务与电子支付国家工程实验室(中国银联):联邦学习白皮书 V2.0,深圳,2020 年,第 5-7 页。人工智能之联邦学习 2022 联邦学习全球研究与应用趋势报告 10 3 3.联邦学习联邦学习技术研究与技术研究与应用应用现现状状 3 3.1.1 技术技术研究研究现状现状 3.1.3.1.1 1 科研科研论文论文成果成果现状现状 (1)论文发表量复合年增长率为 40%基于 AMiner 系统,通过关键词组16在标题和摘要中检索 2016 年至 2021 年论文数据。结果显示,研究时段内联邦学习相关论文共计 4576 篇,自 2016 年被提出以来,研究论文数量逐年增多,到

24、2021 年的复合年增长率为 40.78%,相关论文趋势如错误错误!未找到引用源。未找到引用源。所示。图图 2 2 联邦学习研究论文趋势(联邦学习研究论文趋势(2 2 年)年)(2 2)论文发布量论文发布量以中美两国以中美两国为为引领引领 根据论文作者所在机构所属国家进行排序分析,发现近年来联邦学习论文发布量 TOP10 国家依次是中国、美国、英国、俄罗斯、德国、印度、16 联邦学习关键词检索式:Federated Machine Learning OR Federated optimization OR federated learning OR federat

25、ion learning OR(Privacy AND Distributed AND data mining)OR(Secure AND Distributed AND data mining)OR(Secure AND Multiparty)OR(Secure AND Multi-party)OR(privacy AND Multi-party)OR(privacy AND Multiparty)OR(Privacy AND Distributed AND machine learning)OR(Secure AND Distributed AND machine learning)OR(

26、Privacy and joint learning)OR(Secure and joint learning)OR(Privacy AND Distributed AND deep learning)OR(Secure AND Distributed AND deep learning)澳大利亚、加拿大、日本和法国。相关论文量较突出的国家是中国(1245 篇)和美国(1175 篇),详细信息如图 3所示。人工智能之联邦学习 2022 联邦学习全球研究与应用趋势报告 11 图图 3 3 联邦学习论文发表量联邦学习论文发表量 TOP 10 TOP 10 国家国家(2 2

27、1 1 年)年)(3 3)研究热点涵盖应用、系统和模型设计)研究热点涵盖应用、系统和模型设计、安全隐私三个领域安全隐私三个领域 总体研究热点总体研究热点 总体来看,基于 AMiner 系统的论文热词分析,发现 2016-2021 年联邦学习领域的研究热点 TOP 10 按热度递减依次包括:Internet of Things(物联网)、blockchain(区块链)、edge computing(边缘计算)、optimization(优化)、deep network(深度网络)、aggregation(聚合)、differential privacy(差分隐私)、healthcare(医疗保健

28、)、Multiparty Computation(多方计算)、reinforcement learning(强化学习)等,如图 4所示。可见,在研究时段内,联邦学习的主要研究热点是关于应用及相关算法模型。此外,data heterogeneity(数据异质性)、communication efficiency(沟通效率)、wireless communication(无线通信)的研究也较热,但没能进入热点 TOP10。1245 1175 325 313 276 276 225 223 195 177 02004006008000论文量(篇)人工智能之联邦学习 2022 联

29、邦学习全球研究与应用趋势报告 12 图图 4 4 20 1 年联邦学习领域研究热点词云图年联邦学习领域研究热点词云图 年度研究热点年度研究热点 分年度来看,联邦学习研究热点从机器学习到优化、从信息统计到量子密码、从数据隐私到行业应用,学者们不断探索落地联邦学习的方法,一方面是利用交替方向乘子法(ADMM)、量化、压缩等方式进行联邦学习算法优化,另一方面是引入区块链、密码学、物联网等技术建立全局共享的数据集,并对抗恶意攻击和信息泄露。同时,学者们也对多任务学习、个性化及元学习等方法进行广泛的研究来应对联邦学习中的数据的非独立同分布(Non-IID)问题。各年度研究热点

30、具体情况如下。主要研究热点包括 differential privacy,communication efficiency,deep network,edge computing,database 等技术,关注secret sharing,quantum signature,homomorphic encryption,secure aggregation 等安全技术问题,应用领域研究以biology medicine,healthcare 为主。此外,当时热点还包括 Support vector machine,graph computation,vertical federated lea

31、rning 等。人工智能之联邦学习 2022 联邦学习全球研究与应用趋势报告 13 延 续 了 上 年 的differential privacy,database,secure aggregation,communication efficiency 等研究热点,新增出 现 了 Multi-task learning,Quantum Key Agreement,ADMM,anomaly detection,Bayesian learning,social network,collusion attack,quantum machine,reinforcement learning 等研究热点

32、。在应用方面,healthcare依 然 是 联 邦 学 习 的 热 点 应 用 方 向,cloud computing 和 Internet of Things 和联邦学习的结合也成为研究热点。2018 年联邦学习应用相关研究热度增加并居于前列,如 healthcare,Internet of Things,biology medicine,edging computing。同时,学者们依旧较关注 differential privacy,secret sharing,homomorphic encryption,Quantum Key Agreement,communication eff

33、iciency 等联邦学习安全与效率问题的研究。在这一阶段区块链“blockchain”技术成为热点,为联邦学习提供了保障用户隐私的新方法。2019 年,edge computing,Internet of Things,blockchain 成 为 热 门 研 究 领 域,homomorphic encryption,secret sharing,secure aggregation 等隐私保护技术依旧受到高度关注。2019 年加大了对数据异构和模型压缩等技术的研究力度,transfer learning,multi-task learning,quantization,compressio

34、n 成为热点研究方向。如何在联邦学习中有效地利用资源也人工智能之联邦学习 2022 联邦学习全球研究与应用趋势报告 14 成为 2019 年研究的热点之一。2020 年,edge computing,Internet of things,healthcare 依旧是联邦学习的应用热点。联邦学习中的效率和隐私保护技术依旧是研究热点。2020 年加大了对联邦学习数据异构方向的研究,热门的研究点包括 personalization 和transfer learning。同时,联邦学习激励机制“Incentive mechanism”的研究开始增加,以此激励更多机构加入数据联邦。2021 2021 年

35、明显加大了对联邦学习技术应用的研究力度,Internet of Things 成为最热门的研究点,其次是 blockchain 和edge computing 等应 用 研 究。Deep network,optimization,aggregation,reinforcement learning 等相关算法技术研究依旧受到高度关注。同时,privacy protection,distributed learning,multiparty computation 等成为新的热点研究方向。主题热点趋势主题热点趋势 通过 TF-IDF 算法对所研究时段内每一年的联邦学习主题相关论文数量进行计算,获

36、取论文数量TOP30 的热点词,然后聚合成联邦学习的应用(application)、系统和模型设计(system and model design)和 安 全 隐 私(secure and privacy)三个主题领域的研究热点集。这三个细分主题的研究趋势呈现出如下特征。在应用研究领域在应用研究领域,联邦学习的研究热点按照总热度由高到低依次包括物联网(Internet of things)、边 缘 计 算(edge computing)、医 疗 保 健(healthcare)、车辆交互(vehicle)、无线通信(wireless communication)、数 据 库(database)、

37、5G(第 5 代移动网络)、以及推荐(recommendation),详细信息如图 5 所示。联邦学习近年来在物联网、边缘计算、医疗保健、数据库、车辆交互以及推荐方面的应用研究热度逐渐上升。相比而言,数据库、医疗保健的研究热度曾在 2016 年与 2017 年的研究热度相对较高且不人工智能之联邦学习 2022 联邦学习全球研究与应用趋势报告 15 相上下,近三年则被其他主题的研究热度所超过,2018 年联邦学习相关的医疗保健应用研究热度明显超出其他的应用研究热度。边缘计算在 2019 年与 2020 年是联邦学习技术应用研究热度之榜首,在 2021 年则被物联网方面应用研究所赶超。联邦联邦学习

38、在物联网方面应用研究学习在物联网方面应用研究热度热度于于2 2017017年开始出年开始出现现且且当当前最热前最热,在,在车辆车辆交互交互方面应用研究方面应用研究热度热度于于2 2018018 年开始出现,在年开始出现,在 5 5GG 方面应用研究方面应用研究热度热度则是则是从从 2 2019019 年开始出现年开始出现的的。图图 5 5 联邦学习在应用方面的研究热点趋势(联邦学习在应用方面的研究热点趋势(2 2 1 年)年)关于联邦学习在系统和模型设计方面的研究热点趋势情况如图 6 所示。由图可见,截止目前,在系统和模型设计方面研究热点依照热度递减分别是优化(op

39、timization)、聚合(aggregation)、鲁 棒 性(robustness)、通 信 效 率(communication efficiency)、异 构(heterogeneity)、公平性(fairness)、资源效率(resource efficiency)和激励机制(incentive mechanism)。优化主题曾经在 2016 和 2017 年研究热度最高,经过 2018-2020 年的热度相对弱化后,在 2021 年再度成为最热门的研究主题。2017 年,资源效率和公平性相关主题研究开始崭露头角;2018 年通信效率相关研究占据热度榜第一;2019 年热度最高的是与

40、安全聚合相关研究,同时,对联邦学习(数据和系统)异构的研究大幅提升;2020 年与异构相关研究上升为最热门,和激励机制相关的研究数量大幅提升;2021 年与优化和聚合相关主题研究上升幅度显著。从热度持续性看,聚合、优化、鲁棒性、激励机制和公平性的相关研究在研究时段内一直保持着不同程度的热度上扬。0500边缘计算 物联网 无线通信 医疗保健5G数据库 车辆交互推荐论文量(篇)2016年2017年2018年2019年2020年2021年人工智能之联邦学习 2022 联邦学习全球研究与应用趋势报告 16 图图 6 6 联邦学习系统和模型设计方面的研究热点趋势(联邦学习系统和模型

41、设计方面的研究热点趋势(2 2 1 年)年)在安全隐私方面,联邦学习研究主题依据总热度递减依次包括区块链(blockchain)、差分隐私(differential privacy)、安 全 多 方 计 算(multiparty computation)、恶 意 攻 击(malicious attack)、隐 私 泄 露(privacy leakage)、同 态 加 密(homomorphic encryption)、网络安全(cyber security)以及容错(fault tolerance),具体热度趋势情况如图 7 所示。在研究时段内,区块链、差分隐私、多

42、方计算、恶意攻击、隐私泄露和同态加密的研究热度总体持续逐年上涨。2016 年研究最热的是对联邦学习中恶意攻击的研究,2017 年研究最热的是差分隐私,2018 年研究最热的是安全多方计算所涉及数据安全和隐私保护技术,与区块链结合的相关研究虽然于 2018 年出现但快速成为 2019 年至2021 年最热的研究主题。0204060800180异构通信效率聚合优化资源效率 鲁棒性 激励机制 公平性论文量(篇)2016年2017年2018年2019年2020年2021年人工智能之联邦学习 2022 联邦学习全球研究与应用趋势报告 17 图图 7 7 联邦学习安全隐私方面的研究热

43、点趋势(联邦学习安全隐私方面的研究热点趋势(2 2 1 年)年)050100150200论文量(篇)2016年2017年2018年2019年2020年2021年人工智能之联邦学习 2022 联邦学习全球研究与应用趋势报告 18 3.1.3.1.2 2 高被引高被引论文论文分析分析 根据联邦学习领域论文被引用量进行排序,选取了排名前 3%的论文作为具有重大学术影响的高被引论文进行相关的作者及其所隶属机构与国家等特征分析。数据显示,本年度联邦学习领域高被引论文的最低被引次数是 120 次,是去年高被引论文最低被引次数的 3 倍,反映出该领域论文的整体学术影响力大幅提升。

44、考虑到在科研实践中,一篇论文通常由来自不同国家或不同机构的几名作者共同合作完成,本报告采用以第一作者所属国家和机构的方法进行统计。统计分析得到以下的相关发现。(1 1)六成六成以上高被以上高被引引论文论文来自中美两国来自中美两国 根据论文第一作者所在机构的所属国家进行统计分析,发现联邦学习的近年来高被引论文发表主要是来自于美国和中国。其中,美国的高被引论文占 39.2%,虽然较上期下降了 1 个百分点,但仍为全球最多;中国的高被引论文占 26.4%,虽仍居于全球第二位,但数量比上期增加了近 10 个百分点;德国、英国、澳大利亚与新加坡也拥有一定数量的高被引论文;其余国家所发表高被引论文的占比均

45、低于 4%,详细信息如图 8 所示。图图 8 8 联邦学习高被论文国家分布(联邦学习高被论文国家分布(2 2 1 年)年)(2 2)美国的)美国的论文论文被被引用引用量量全球全球显著显著领先领先 联邦学习相关论文总引用量 TOP 10 国家是美国、中国、澳大利亚、德国、新加坡、英国、印度、日本、以色列和波兰,具体信息如图 9所示。其中,美国的论文总被引用量明显高于其他国家,其较上期增长 1.6 倍,仍占据榜首;中国的论文被引用量较上期增长近 3 倍,保持第二位置。印度、以色列和波兰是本期新进入前十的国家,上期居于前十的沙特阿拉伯、韩国和瑞士本期未能进入前十。美国39

46、.2%中国(含香港)26.4%德国6.4%英国4.8%澳大利亚4.0%新加坡4.0%其他15.2%人工智能之联邦学习 2022 联邦学习全球研究与应用趋势报告 19 图图 9 9 联邦学习论文引用量联邦学习论文引用量 TOP 10 TOP 10 国家(国家(20 1 年)年)从领先国家来看,美国联邦学习被引用量最高的论文是谷歌公司 研究科学家 H.Brendan Mcmahan作 为 一 作 发 表 的 论 文Communication-efficient learning of deep networks from decentralized data 17,该论

47、文于 2016 年发表于 ArXiv e-prints(2016):arXiv-1602,并在2017年收录于AISTATS(International Conference on Artificial Intelligence and Statistics),目前其被引用 4534 次18。中国联邦学习总体论文引用量居于第二,其中被引用最高的论 17 McMahan,B.,Moore,E.,Ramage,D.,Hampson,S.,&y Arcas,B.A.(2017,April).Communication-efficient learning of deep networks from

48、decentralized data.In Artificial Intelligence and Statistics(pp.1273-1282).PMLR.18 引用量数据统计截止到 2022 年 3 月 31 日。19 Yang,Q.,Liu,Y.,Chen,T.,&Tong,Y.(2019).Federated Machine Learning:Concept and Applications.ACM Trans.Intell.Syst.Technol.10,2,Article 12,February,2019.DOI:https:/doi.org/10.1145/3298981 20

49、 论文的被引用量数据统计截止到 2022 年 3 月 31 日。文是香港科技大学计算机科学与工程学系教授杨强为第一作者、与微众银行 AI 部门、北京航空航天 大 学 计 算 机 学 院 的 研 究 人 员 联 合 发 表 的Federated Machine Learning:Concept and Applications19,该文被引用量 1936 次20。(3 3)谷歌谷歌拥有最多数量拥有最多数量的高被引的高被引论文论文 根据论文第一作者所属机构进行排序分析,发现从全球范围来看,联邦学习领域高被引论文来自全球 80 多家机构。谷歌的相关高被引论文数量最多,有 8 篇;卡内基梅隆大学的相关

50、高被引论文22959944760547505000000025000美国中国澳大利亚德国新加坡英国印度日本以色列波兰论文被引用量(次)本期的论文被引量上期的论文被引量人工智能之联邦学习 2022 联邦学习全球研究与应用趋势报告 20 数量居于第二,有 5 篇;以色列的巴伊兰大学与中国的北京邮电大学各有 4 篇,并列第三;弗劳恩霍夫 HHI、IBM、南洋理工大学、微众银行则各有 3篇。其余机构的高被引论文量均在 3 篇以下。在高被引论文量较多(3 篇及以上)的八家机构之中,有三家企业、五家大学或研究所;美国机构三家,中国机构两家,

51、另外三家分别来自以色列、德国和新加坡。相关机构详细分布情况如图 10 所示。图图 1010 联邦学习联邦学习高被高被引引论文量论文量 3 3 篇及以上的篇及以上的机构(机构(20 1 年)年)(4 4)联邦学习十大算法)联邦学习十大算法 通过对 2016 年至 2021 年底所发表的涉及联邦学习算法的论文进行引用量排序(去除高引综述论文),选出了引用量大于 100 的前十大算法相关论文,包括 8 篇横向、2 篇纵向的联邦学习场景。这些算法及具体信息按照相关论文引用量排序显示如表 1 所示。表表 1 1 联邦学习十大算法联邦学习十大算法算法算法名名 主要研究问题主要研

52、究问题 联邦学习场景联邦学习场景 论文论文标题标题 被被引用量引用量(次)(次)Federated Federated Averaging Averaging(FedAvgFedAvg)Aggregation 横向联邦学习 Communication-Efficient Learning of Deep Networks from Decentralized Data 4534 854433330246810美 谷歌美 卡内基梅隆大学以 巴伊兰大学中 北京邮电大学德 弗劳恩霍夫HHI美 IBM新 南洋理工大学中 微众银行论文量(篇)人工智能之联邦学习 2022 联邦学习全球研究与应用趋势报告

53、21 Secure Secure AggregationAggregation Security,Aggregation 横向联邦学习 Practical Secure Aggregation for Privacy-preserving Machine Learning 1254 Federated Federated Stochastic Variance Stochastic Variance Reduced Gradient Reduced Gradient(FedSVRG)(FedSVRG)Communication-efficient 横向联邦学习 Federated Optimi

54、zation:Distributed Machine Learning for On-device Intelligence 927 Data heterogeneity MOCHAMOCHA Communication-efficient 横向联邦学习 Federated Multi-Task Learning 843 Data heterogeneity FedProxFedProx Data heterogeneity 横向联邦学习 Federated Optimization in Heterogeneous Networks 808 System heterogeneity Fede

55、rated Learning Federated Learning with Client Selection with Client Selection(FedCS)(FedCS)System heterogeneity 横向联邦学习 Client Selection for Federated Learning with Heterogeneous Resources in Mobile Edge 548 SCAFFOLDSCAFFOLD Data heterogeneity 横向联邦学习 SCAFFOLD:Stochastic Controlled Averaging for Feder

56、ated Learning 353 Agnostic Federated Agnostic Federated Learning(AFL)Learning(AFL)Data heterogeneity 横向联邦学习 Agnostic Federated Learning 349 Secure Logistic Secure Logistic RegressionRegression Security,Aggregation 纵向联邦学习 Private Federated Learning on Vertically Partitioned Data via Entity Resolution

57、 and Additively Homomorphic Encryption 250 Lossless Lossless PrivacyPrivacy-preserving Treepreserving Tree-Security 纵向联邦学习 SecureBoost:A Lossless Federated Learning Framework 209 人工智能之联邦学习 2022 联邦学习全球研究与应用趋势报告 22 boosting Algorithm boosting Algorithm(SecureBoost)(SecureBoost)Aggregation 注:引用量数据统计截止到

58、 2022 年 3 月 31 日。(5 5)高高被被引引论文论文 TOP10TOP10 解读解读 通过对 2016 年至 2021 年底所发表论文的引用量进行统计和排序,得到联邦学习领域高引论文TOP10,如表 2 所示。其中,论文的被引用量数据统计截止到 2022 年 3 月 31 日。本部分将对这些论文进行解读。表表 2 2 联邦学习领域高引论文联邦学习领域高引论文 TOPTOP 10 10(2 2 1 年)年)排名排名 论文标题论文标题 作者作者 发表年份发表年份 被被引用量引用量(次)(次)1 Communication-Efficient Learning

59、 of Deep Networks from Decentralized Data McMahan,H.Brendan;Moore,Eider;Ramage,Daniel;2016 21 4534 2 Federated learning:Strategies for improving communication efficiency J Konen,HB McMahan,FX Yu,P Richtrik,AT Suresh,D Bacon 2016 2209 3 Federated Machine Learning:Concept and Applications Yang,Qiang;L

60、iu,Yang;Chen,Tianjian;2019 1936 4 Advances and open problems in federated learning P Kairouz,HB McMahan,B Avent,A Bellet,M Bennis,AN Bhagoji,2019 1546 5 Practical Secure Aggregation for Privacy-Preserving Machine Learning Bonawitz,Keith;Ivanov,Vladimir;Kreuter,Ben;2017 1254 6 Federated Learning:Chal

61、lenges,Methods,and Future Directions Li,Tian;Sahu,Anit Kumar;Talwalkar,Ameet;2020 1249 7 Towards federated learning at scale:System design K Bonawitz,H Eichner,W Grieskamp,D Huba,A Ingerman,V Ivanov,2019 1206 8 Federated optimization:Distributed machine learning for on-device intelligence J Konen,HB

62、 McMahan,D Ramage,P Richtrik 2016 927 9 Federated Multi-Task Learning Virginia Smith,Chao-Kai Chiang,Maziar Sanjabi,Ameet Talwalkar 2017 843 10 Federated Optimization in Heterogeneous Networks Tian Li;Anit Kumar Sahu;Manzil Zaheer;Maziar Sanjabi;Ameet Talwalkar;Virginia Smith 2020 808 注:引用量数据统计截止到 2

63、022 年 3 月 31 日。21 该文最早发表在 ArXiv e-prints(2016):arXiv-1602,后于 2017 年被 International Conference on Artificial Intelligence and Statistics(AISTATS)收录。人工智能之联邦学习 2022 联邦学习全球研究与应用趋势报告 23 论文标题:论文标题:CommunicationCommunication-Efficient Learning of Deep Networks from Decentralized DataEfficient Learning of D

64、eep Networks from Decentralized Data 作者:McMahan,H.Brendan;Moore,Eider;Ramage,Daniel;Seth Hampson;Blaise Agera y Arcas 发表期刊:ArXiv e-prints(2016):arXiv-1602;International Conference on Artificial Intelligence and Statistics(AISTATS),2017 论文地址:https:/ IID 数据分布具有鲁棒性,这是该设置的一个定义特征。通信成本是主要限制因素,与同步随机梯度下降相比,

65、该方法显示所需的通信轮次减少 10-100 倍。论文标题:论文标题:Federated Federated Learning:Learning:Strategies Strategies for Improving Communication Efficiencfor Improving Communication Efficiency y 作者:J Konen;HB McMahan;FX Yu;P Richtrik;AT Suresh;D Bacon 发表期刊:arXiv:Machine Learning(cs.LG),2018 论文地址:https:/ 2022 联邦学习全球研究与应用趋势

66、报告 24 论文标题:论文标题:Federated Machine Learning:Concept and ApplicationsFederated Machine Learning:Concept and Applications 作者:Yang,Qiang;Liu,Yang;Chen,Tianjian;Yongxin Tong 发表期刊:ACM Transactions on Intelligent Systems and Technology,Article No.:12pp 119,2019 论文地址:https:/ 论文摘要:今天的人工智能仍然面临两大挑战。一是在大多数行业中,数

67、据以孤岛的形式存在;另一个是加强数据隐私和安全。本文为这些挑战提出了一个可能的解决方案:安全联邦学习。除了谷歌在 2016年首次提出的联邦学习框架之外,本文还引入了一个全面的安全联邦学习框架,其中包括横向联邦学习、纵向联邦学习和联邦迁移学习。本文提供了联邦学习框架的定义、体系结构和应用程序,并提供了关于这个主题的现有工作全面调查。此外,还提出了在组织间建立基于联邦机制的数据网络,作为在不损害用户隐私的前提下实现知识共享的有效解决方案。论文标题:论文标题:Advances Advances a and Open nd Open Problems in Federated LearningProb

68、lems in Federated Learning 作者:Kairouz Peter;McMahan H.Brendan;Avent Brendan;Bellet Aurlien;Bennis Mehdi;Bhagoji Arjun Nitin;Bonawitz Keith;Charles Zachary;Cormode Graham;Cummings Rachel;DOliveira Rafael G.L.;Rouayheb Salim El 发表期刊:Foundations and Trends in Machine Learning,no.1,2019 论文地址:https:/ Sec

69、ure Aggregation for PrivacyPractical Secure Aggregation for Privacy-Preserving Machine LearningPreserving Machine Learning 作者:Bonawitz,Keith;Ivanov,Vladimir;Kreuter,Ben;Antonio Marcedone;H.Brendan McMahan;Sarvar Patel;Daniel Ramage;Aaron Segal;Karn Seth 发表期刊:Computer and Communications Security pp:1

70、175-1191,2017 论文地址:https:/ 2022 联邦学习全球研究与应用趋势报告 25 论文摘要:本论文设计了一种新颖、通信高效、故障稳健的协议,用于高维数据的安全聚合。该协议允许服务器以安全的方式(即无需了解每个用户的个人贡献)计算来自移动设备的大型用户持有数据向量的总和,并且可以用于(例如,在联邦学习设定中)聚合用户提供的深度神经网络模型更新。本文在诚实但好奇且活跃的对手设置中证明了该协议的安全性,并表明即使任意选择的用户子集随时退出,也能保持安全性。本文评估了该协议的效率,并通过复杂性分析和具体实现表明,即使在大型数据集和客户端池上,其运行时和通信开销仍然很低。对于 16

71、位输入值,本文的协议以明文形式发送数据,为 210 个用户和 220 维向量提供 1.73 倍的通信扩展,并为 214 个用户和 224 维向量提供 1.98 倍扩展。论文标题:论文标题:Federated Learning:Challenges,Methods,and Future DirectionsFederated Learning:Challenges,Methods,and Future Directions 作者:Li,Tian;Sahu,Anit Kumar;Talwalkar,Ameet;Smith Virginia 发表期刊:IEEE Signal Processing M

72、agazine,no.3,pp:50-60,2020 论文地址:https:/ Towards Federated Learning at Scale:Federated Learning at Scale:System System DesignDesign 作者:Keith Bonawitz;Hubert Eichner;Wolfgang Grieskamp;Dzmitry Huba;Alex Ingerman;Vladimir Ivanov;Chloe Kiddon;Jakub Konen;Stefano Mazzocchi;H.Brendan McMahan;Timon Van Ove

73、rveldt;David Petrou 发表期刊:Proceedings of Machine Learning and Systems Volume:1,pp:374-388,2019 论文地址:https:/ TensorFlow 为移动设备领域的联邦学习构建了一个可扩展的生产系统,描述了由此产生的高级设计,勾勒出一些挑战及其解决方案,并涉及未解决的问题和未来的方向。人工智能之联邦学习 2022 联邦学习全球研究与应用趋势报告 26 论文标题:论文标题:Federated Federated Optimization:Optimization:Distributed Distributed

74、 Machine Learning for Machine Learning for OnOn-Device IntelligDevice Intelligenceence 作者:J Konen;HB McMahan;D Ramage;P Richtrik 发表期刊:arXiv preprint arXiv:1610.02527(2016).论文地址:https:/ usersu0027 移动设备本地,而不是将其记录到数据中心进行培训时,就出现了一个激励的示例。在联合优化中,这些设备被用作计算节点,对本地数据执行计算,以更新全局模型。假设在网络中有非常多的设备与给定服务的用户数量一样多,每个用

75、户只拥有一小部分可用数据的。特别是,本文预计本地可用的数据点数量要比设备数量少得多。此外,由于不同的用户使用不同的模式生成数据,可以合理地假设没有任何设备具有总体分布的代表性样本。本文证明了现有的算法不适合这种设定,并提出了一种新的算法,它显示了稀疏凸问题,出现了令人鼓舞的实验结果。这项工作还为联邦优化方面的未来研究奠定了基础。论文标题:论文标题:Federated MultiFederated Multi-Task LearningTask Learning 作者:Virginia Smith;Chao-Kai Chiang;Maziar Sanjabi;Ameet Talwalkar 发表

76、期刊:Advances in Neural Information Processing Systems 30(NIPS),2017 论文地址:https:/ MOCHA,它对实际系统问题具有鲁棒性。本文的方法和理论首次考虑了分布式多任务学习的高通信成本、滞后性和容错性问题。与联合设置中的替代方法相比,所得到的方法实现了显著加速,正如作者通过模拟真实世界联合数据集所证明的那样。论文标题:论文标题:Federated Optimization in Heterogeneous NetworksFederated Optimization in Heterogeneous Networks 作者:

77、Tian Li;Anit Kumar Sahu;Manzil Zaheer;Maziar Sanjabi;Ameet Talwalkar;Virginia Smith 发表期刊:ArXiv 人工智能之联邦学习 2022 联邦学习全球研究与应用趋势报告 27 论文地址:https:/ fedprox 框架来解决统计异质性,它包含了 fedavg 作为一个特例。通过一种新颖的设备相异性假设为 fedprox 提供收敛保证,能够表征网络中的异质性,最后,对一套联合数据集进行了详细的实证评估,证明了广义 fedprox 框架相对于 fedavg 在异构网络中学习的鲁棒性和稳定性有所提高。(6 6)中美

78、两国中美两国论文合作论文合作数量数量全球全球最多最多 AMiner 发现,四成以上的高被引论文存在着跨国科研合作,涉及到 28 个国家。如图 11 所示,中国和美国合作的论文数量最多,高达 16 篇;其次是美国和英国、中国和新加坡、美国和新加坡,两者之间各分别有11篇、8篇和6篇的合作论文;之后,美国和法国、加拿大和中国之间都各有 4 篇合作论文。其他各国家之间虽有合作但大部分为 3篇及以下。图图 1111 联邦学习高被联邦学习高被引引论文的国际合作论文的国际合作 3 3 篇以上篇以上情况(情况(2 2 1 年)年)在中国的高被引论文之中,有 60.6%存在国际之间

79、科研合作,涉及到 17 个国家。其中,有两篇中外合作论文涉及合作国家数量各多达 5 个。从中国在联邦学习领域所开展的国际合作情况看,美国是中国科研论文合作最多的国家,新加坡和加拿大也与中国开展了较多的合作,此外,中国还与澳大利亚、英3333305101520中国/美国中国/新加坡美国/法国澳大利亚/新加坡美国/芬兰中国/澳大利亚中国/挪威合作论文量(篇)合作国家人工智能之联邦学习 2022 联邦学习全球研究与应用趋势报告 28 国、俄罗斯、韩国、日本等国进行过论文合作。图图 1212 联邦学习高被联邦学习高被引引论文论文的的中外合作情况(中外合作情况(2 2016016-

80、2022021 1 年)年)(7 7)中美中美两两国合作论文被引量国合作论文被引量全球全球领先领先 在各个国家之间合作发表的高被引论文之中,美国与中国、美国与英国,以及新加坡与中国的合作论文引用量居于前三,详细情况如图 13 所示。由图可见,中国和美国、美国与英国合作论文的总引用量明显高于其他国家之间合作论文的影响力。从跨国合作的单篇论文被引用情况看,美国谷歌研 22 Konen,J.,McMahan,H.B.,Yu,F.X.,Richtrik,P.,Suresh,A.T.,&Bacon,D.(2016).Federated learning:Strategies for improving

81、communication efficiency.arXiv preprint arXiv:1610.05492.23 论文的被引用量数据统计截至到 2022 年 3 月 31 日。究人员与沙特阿卜杜拉国王科技大学以及英国爱丁堡大学(苏格兰)学者等合作发表的论文 Federated learning:Strategies for improving communication efficiency22引用量最高,达2209 次23。中国/美国,16中国/新加坡,8中国/加拿大,4中国/澳大利亚,3中国/挪威,3中国/英国,3中国/芬兰,2中国/卡塔尔,2中国/丹麦,1中国/法国,1中国/以色列

82、,1中国/日本,1中国/马其顿,1中国/荷兰,1中国/俄罗斯,1中国/韩国,1中国/越南,1单位:篇人工智能之联邦学习 2022 联邦学习全球研究与应用趋势报告 29 图图 1313 联邦学习国际合作论文的引用量联邦学习国际合作论文的引用量 TOPTOP1010 国家组合(国家组合(2 2 1 年)年)(8 8)七成论文存在跨七成论文存在跨机构合作机构合作现象现象 国内外机构之间开展联邦学习论文合作较为常见。高被引论文中有 76.8%是通过机构之间合作发表的。在机构之间合作的论文之中,一篇论文合作机构数量少则两家、多则十几家,具体分布情况如图 14 所示。由图可见,

83、由 3 家机构合作完成的论文占比最多,其次是由 2 家机构合作的论文占比。值得一提的是,合作机构数量最多的论文是The future of digital health with federated 24 Rieke,N.,Hancox,J.,Li,W.,Milletari,F.,Roth,H.,Albarqouni,S.,Maier-Hein,K.H.(2020).The future of digital health with federated learning.Npj Digital Medicine,3(1),119119.learning 24,该论文合作机构涵盖了来自德国的慕尼

84、黑工业大学、德国癌症研究中心、海德堡大学医院,美国的宾夕法尼亚大学、范德比尔特大学、英特尔、国立卫生研究院,英国的伦敦帝国理工学院、伦敦国王学院、牛津大学、人工智能治理中心、OpenMined 和法国的奥金以及英伟达在各国的公司等共计 16 家机构。59775259335630862444220922092004000500060007000中国/美国美国/英国中国/新加坡美国/新加坡澳大利亚/新加坡美国/沙特阿拉伯沙特/英国美国/法国芬兰/法国美国/芬兰被引用量(次)合作国家人工智能之联邦学习 2022 联邦学习全球研究与应用趋势报告 30 图图

85、1414 联邦学习合作论文的机构联邦学习合作论文的机构合作合作数量分布数量分布 (9 9)A ArXivrXiv 是高被引论文是高被引论文的的最最多多发布渠道发布渠道 从发布渠道看,2016-2021 年期间联邦学习的高被引论文发表在共计 74 个期刊会议等渠道上,比上期报告时扩大了 80%。其中,有 12 个发行渠道(约占 16%)发布了 3 篇及以上高被引论文,如图 15 所示。由图 15 可知,高被引论文仍是最多发布在 ArXiv 渠道(由美国康奈尔大学运营维护的一个非盈利的数据库),有 14 篇,其次是人工智能领域国际学术会议神经信息处理系统大会 NIPS(包括 workshop)以及

86、物联网领域顶级期刊 IEEE Internet of Things Journal,分别各发布了 6 篇高被引论文。图图 1515 高被引论文的高被引论文的较多发布来源较多发布来源 2家,33篇,34.4%3家,35篇,36.5%4家,14篇,14.6%5家,5篇,5.2%5家,9篇,9.4%33051015ArXivNIPSIoT-JIEEE INFOCOMTWCIEEE Communications SurveysIEEE Transactions onIEEE Transactions on IndustrialIEEE AccessIEEE Transaction

87、s on NeuralIEEE Communications MagazineIEEE Intelligent Systems高被引论文量(篇)人工智能之联邦学习 2022 联邦学习全球研究与应用趋势报告 31 ArXiv 上发表过的联邦学习最高引用论文是2016 年的Federated Learning:Strategies for Improving Communication Efficiency,提出了结构化更新和草图更新这两种降低上行链路通信成本的方法,目标是利用联邦学习提高通信效率。发表在 NrIPS 上的最高被引论文是Federated Multi-Task Learning,该

88、论文发表于 2017 年,针对联邦学习在分布式设备网络上训练机器学习模型时统计和系统问题,提出了一种具有鲁棒性的系统感知优化方法 MOCHA。发表在 IoT-J 上的最高被引论文是 2019 年的Incentive Mechanism for Reliable Federated Learning:A Joint Optimization Approach to Combining Reputation and Contract Theory,该文提出了一种将声誉与契约理论相结合的有效激励机制,以激励具有高质量数据的高声誉移动设备参与模型学习。(1010)国际顶会相关论文收录量逐年增加国际顶会

89、相关论文收录量逐年增加 人工智能国际顶会(主会)所收录的联邦学习相关论文数量自 2019 年起呈现成倍增长趋势,如图 16 所示。2019 年仅 ICML、INFOCOM、IJCAI三个会议收录了相关论文,共计 6 篇。2020 年,这些会议收录联邦学习的论文量达 43 篇,而 2021年会议截止目前收录联邦学习的论文量已达 110篇。其中,联邦学习在 2019 年被收录论文最多的会议是 ICML,在 2020 年和 2021 年被收录论文最多的会议都是 NeurIPS,收录量分别是 17 篇和33 篇。图图 1616 联邦学习国际顶会论文联邦学习国际顶会论文 人工智能之联邦学习 2022 联

90、邦学习全球研究与应用趋势报告 32 3.1.3.1.3 3 联邦联邦学习学习的特刊、书籍和综述的特刊、书籍和综述 (1)特刊 截至 2021 年底国内外关于联邦学习主题的特刊已出版的有五份,涉及到联邦学习技术及其在智能终端、网络安全、6G 等方面应用与挑战。这些特刊主题及出版方情况如表 3 所示。特刊的相关具体文章信息见附录三。表表 3 3 已出版的联邦学习主题的特刊已出版的联邦学习主题的特刊 序序号号 特刊名称及链接特刊名称及链接 期刊期刊(出版方)(出版方)影响因子影响因子/Cites/Citescorecore 已发表的论文量(篇)1 Special section on Enablin

91、g Blockchain and Federated Learning for Smart Services in Beyond 5G/6G Networks Computer Networks 25(Elsevier)4.474/8.1 7 2 Special Issue on Federated Learning for Decentralized Cybersecurity Computers&Security Computers&Security 26(Elsevier)4.438/8.5 2 3 Special Issue on Federated Machine Learning

92、IEEE INTELLIGENT SYSTEMS 27((Volume:35,Issue:4,July-Aug.1 2020)3.405/9 10 4 Special Issue Federated Learning:Challenges,Applications and Future Electronics 28(MDPI)2.397/2.7 1 5 Special Issue on AI-Based Federated Learning for 6G Mobile Networks Wireless Communications&Mobile Computing 29(WILEY&Hind

93、awi)2.336/4.300 13 此外,还有四份特刊已截稿、目前尚未发表,如表 4 所示。表表 4 4 待发表的联邦学习特刊一览待发表的联邦学习特刊一览 序号序号 特刊名称及链接特刊名称及链接 期刊期刊 截稿日期截稿日期 1 Special IssueSpecial Issue on Robust Federated Learning over Future Wireless Networks Internet of Things and Cyber-Physical Systems 8 月 30 日 2021 2 Special IssueSpecial Issue:FMLDH-CMC

94、2021:Federated Machine Learning on Digital Health CMC-Computers,Materials&Continua 9 月 15 日 2021 3 Special IssueSpecial Issue on Federated Learning:Algorithms,Systems,and Applications ACM Transactions on Intelligent Systems and Technology 8 月 30 日 2021 4 Special Issue Special Issue on Trustable,Veri

95、fiable,and Auditable Federated Learning IEEE Transactions on Big Data,Special Issue 1 月 15 日 2022 注:数据信息截至 2022 年 3 月 31 日。25 Aims and scope-Computer Networks|ScienceD by Elsevier 26 COSE|Computers&Security|Journal|ScienceD by Elsevier 27 https:/ieeexplore.ieee.org/xpl/RecentIssue.jsp?punumber=9670

96、28 Electronics|An Open Access Journal from MDPI 29 AI-Based Federated Learning for 6G Mobile Networks|Hindawi 人工智能之联邦学习 2022 联邦学习全球研究与应用趋势报告 33(2 2)书籍)书籍 联邦学习主要书籍截至目前发现有五本,其中两本在 2020 年出版,其余三本于 2021 年出版。相关介绍如下。书名书名 Federated LearningFederated Learning:Privacy and IncentivePrivacy and Incentive 作者 Qia

97、ng Yang,Lixin Fan,Han Yu 出版社 Springer International Publishing,Switzerland 出版时间 2020 年 第 1 版 正文语种 英文 ISBN 9783030630768 该书对联邦学习进行了全面而自成一体的介绍,从基础知识和理论到各种关键应用,隐私和激励因素是全书的重点。该书包含三个主要部分:首先,它引入了不同的隐私保护方法来保护联邦学习模型免受不同类型的攻击,例如数据泄漏和/或数据中毒;其次,介绍了旨在鼓励个人参与联邦学习生态系统的激励机制;三是描述了联邦学习如何在工业和商业中应用,以解决数据孤岛和隐私保护问题。书名书名

98、联邦学习联邦学习=Federated Learning=Federated Learning 作者 杨强,刘洋,程勇,康焱,陈天健,于涵 出版社 电子工业出版社 出版时间 2020-04-01 第 1 版 正文语种 中文 ISBN 9787121385223 该书是首部全面和系统论述联邦学习的中文著作。该书阐述了联邦学习的定义、分类和发展历程,并且介绍了与联邦学习紧密相关的基础知识,比如分布式机器学习和隐私保护技术。该书对联邦学习的每一分类,即横向联邦学习、纵向联邦学习和联邦迁移学习,所涉及的架构和算法进行了详尽的介绍。同时,该书也讨论了联邦强化学习,联邦学习的激励机制和应用实例。该书适合作为

99、读者入门和探究联邦学习的第一本书。书名书名 联邦学习技术及实战联邦学习技术及实战 作者 彭南博,王虎 等 出版社 电子工业出版社 出版时间 2021-03-01 第 1 版 正文语种 中文 ISBN 9787121405976 该书由京东科技集团有着多年联邦学习实战经验的工程人员合作编写,内容包括联邦学习基础、具体的联邦学习算法、联邦学习的产业应用和展望三个大部分,并给出较多案例。该书针对产业界在智能化过程中普遍面临的数据不足问题,详细地阐述了联邦学习如何帮助企业引入更多数据、提升机器学习模型效果。该书广泛介绍了联邦学习技术的实战经验,主要内容包括隐私保护、机器学习等基础知识,联邦求交、联邦特

100、征工程算法,以及工程架构、产业案例、数据资产定价等。人工智能之联邦学习 2022 联邦学习全球研究与应用趋势报告 34 书名书名 联邦学习实战联邦学习实战 作者 杨强,黄安埠,刘洋,陈天健 出版社 电子工业出版社 出版时间 2021-05-01 第 1 版 正文语种 中文 ISBN 9787121407925 该书是微众银行联邦学习团队在该领域的第二本专著。相较于第一本以理论和概述为主,该书以实战为主,兼顾对理论知识的系统总结。该书在联邦学习的理论知识基础上,主要介绍如何使用 Python 和 FATE 进行联邦学习建模,包括大量联邦学习的案例分析,筛选了经典案例进行讲解,部分案例用 Pyth

101、on 代码实现,部分案例采用 FATE 实现。此外,介绍了联邦学习相关的高级知识点,包括联邦学习的架构和训练的加速方法等。该书适合对联邦学习和隐私保护感兴趣的高校研究者和企业研发人员阅读。书名书名 深入浅出联邦学习:原理与实践深入浅出联邦学习:原理与实践 作者 王健宗,李泽远,何安珣 出版社 机械工业出版社 出版时间 2021-05-01 正文语种 中文 ISBN 9787111679592 该书从理论与实践的双重维度对联邦学习进行了阐述,提供了可动手实践的源码案例,也分享了作者对联邦学习发展趋势的洞察和思考。全书分为四个部分。第一部分主要介绍了联邦学习的概念、由来、发展历史、架构思想、应用场

102、景、优势、规范与标准、社区与生态等基础内容。第二部分详细讲解了联邦学习的工作原理、算法、加密机制、激励机制等核心技术。第三部分主要讲解了 PySyft、TFF、CrypTen 等主流联邦学习开源框架的部署实践,并给出了联邦学习在智慧金融、智慧医疗、智慧城市、物联网等领域的具体解决方案。第四部分概述了联邦学习的形态、联邦学习系统架构、当前面临的挑战等,并探讨了联邦学习的发展前景和趋势。(3 3)综述综述 联邦学习自 2016 年提出以来,就吸引了学界和工业界的广泛兴趣。在联邦学习的各个领域如基础理论、系统设计方法、实施应用,面临的挑战和范式创新等都涌现了大量研究,相应地也产生了许多综述文章。这里

103、我们基于综述的引用量和关注范围的多样性,选取了 9 篇综述进行介绍。详细信息如表 5 所示。表表 5 5 联邦学习综述性文章一览联邦学习综述性文章一览 序号序号 文章文章 PaperPaper 范围范围 S Scopingcoping 1 Federated Machine Learning:Concept and Application 30 General overview 是联邦学习领域最早的综述,介绍了联邦学习的概念,分类,系统架构和涉及的主要技术方法。基于数据分布特点,该综述将联邦学习分为横向联邦学习,纵向联邦学习和联邦迁移学习,并列举了相关应用场景。此 30 Q.Yang,Y.Li

104、u,T.Chen,and Y.Tong,“Federated Machine Learning:Concept and Applications,”ArXiv190204885 Cs,Feb.2019,Accessed:Jun.16,2021.Online.Available:http:/arxiv.org/abs/1902.04885 人工智能之联邦学习 2022 联邦学习全球研究与应用趋势报告 35 序号序号 文章文章 PaperPaper 范围范围 S Scopingcoping 外,通过总结相关领域的论文,讨论了联邦学习与其它学习范式,如分布式学习,边缘计算和联邦数据库系统的关联和区别

105、。2 Advances and Open Problems in Federated Learning 31 General overview 对联邦学习的理论和应用进行了系统和全面的介绍,涵盖了联邦学习的各个方面,包括定义,分类,效率和效能,数据隐私保护,攻击及故障的鲁棒性,参与方的公平性等,并重点探讨了联邦学习待解决的问题和面临的挑战,给研究员总结了联邦学习的研究方向。3 Federated Learning:Challenges,Methods,and Future Directions 32 General overview 主要讨论了联邦学习的特点及其相较于传统分布式计算面临的挑战,

106、包括节点间的通信效率,系统的异构性,数据的不均匀性和隐私保护能力。通过深入分析这些问题提出了解决思路和未来研究方向。4 A Survey on Federated Learning System:Vision,Hype and Reality for Data Privacy and Protection 33 System review 作者主要从系统的角度对于联邦学习进行了归纳,分析和总结。首先,介绍了联邦学习系统的定义和系统组件。基于数据分布、机器学习模型、隐私保护技术、通信架构,系统规模和联邦的动机六个维度对现有联邦学习系统和方法进行了分类和研究总结,此外还探讨了联邦学习系统的设计方法

107、,典型案例和未来的研究方向。5 Federated Learning in Mobile Edge Networks:A Comprehensive Survey 34 mobile edge networks 聚焦将联邦学习应用于移动端边缘计算。首先介绍了边缘计算的动机和如何与联邦学习结合进行联合模型训练。然后重点分析了基于联邦学习的边缘计算在通信成本、计算资源分配、数据隐私和数据安全方面所面临的挑战及未来研究方向。此外,介绍了联邦学习与边缘计算结合的一些应用和实现。6 Threats to Federated Learning:A survey 35 Security and privac

108、y 从联邦学习系统的威胁模型及可能受到的攻击方式的角度进行了总结,主要聚焦会影响模型期望行为的“投毒”和“推断”攻击。7 A Survey on Security and Privacy of Federated Learning 36 Security and privacy 在为研究员在联邦学习安全和隐私保护领域提供一个清晰的研究方向。该综述对联邦学习中所涉及的安全威胁和隐私隐患进行的全面的阐述,并且给出了可能降低这些安全威胁和隐私隐患的基本方法和可能带来的成本。31 P.Kairouz et al.,“Advances and Open Problems in Federated Lea

109、rning,”ArXiv191204977 Cs Stat,Dec.2019,Accessed:Aug.10,2020.Online.Available:http:/arxiv.org/abs/1912.04977 32 T.Li,A.K.Sahu,A.Talwalkar,and V.Smith,“Federated Learning:Challenges,Methods,and Future Directions,”IEEE Signal Process.Mag.,vol.37,no.3,pp.5060,May 2020,doi:10.1109/MSP.2020.2975749.33 Q.L

110、i et al.,“A Survey on Federated Learning Systems:Vision,Hype and Reality for Data Privacy and Protection,”ArXiv190709693 Cs Stat,Jan.2021,Accessed:Jun.16,2021.Online.Available:http:/arxiv.org/abs/1907.09693 34 W.Y.B.Lim et al.,“Federated Learning in Mobile Edge Networks:A Comprehensive Survey,”IEEE

111、Commun.Surv.Tutor.,vol.22,no.3,pp.20312063,thirdquarter 2020,doi:10.1109/COMST.2020.2986024.35 L.Lyu,H.Yu,and Q.Yang,“Threats to Federated Learning:A Survey,”ArXiv200302133 Cs Stat,Mar.2020,Accessed:Jun.16,2021.Online.Available:http:/arxiv.org/abs/2003.02133 36 V.Mothukuri,R.M.Parizi,S.Pouriyeh,Y.Hu

112、ang,A.Dehghantanha,and G.Srivastava,“A survey on security and privacy of federated learning,”Future Gener.Comput.Syst.,vol.115,pp.619640,Feb.2021,doi:10.1016/j.future.2020.10.007.人工智能之联邦学习 2022 联邦学习全球研究与应用趋势报告 36 序号序号 文章文章 PaperPaper 范围范围 S Scopingcoping 8 A Systematic Literature Review on Federated

113、 Machine Learning From a Software Engineering Perspective 37 Software engineering perspective 从软件工程的角度对联邦学习的研究进行了系统的分析和总结。该综述详细阐述了软件开发生命周期中的需求分析,背景理解,架构设计,系统实现和性能评估等各个环节所对应的联邦学习研究问题。9 Federated Learning for Healthcare Informatics 38 Healthcare 分析了联邦学习技术应用于医疗领域所面临的困难与挑战,并总结了现有的解决方案。同时分享了联邦学习在医疗领域的应用场

114、景。3 3.1.4.1.4 联邦学习联邦学习研讨会研讨会杰出论文杰出论文 一些人工智能国际学术顶会在年度会议举办期 间,专 门 设 立 了 联 邦 学 习 主 题 研 讨 会(workshop)并且评选出联邦学习领域杰出论文。2016 年至 2021 年期间人工智能顶会期间联邦学习专题研讨会的杰出论文共计发现 22 篇,它们来自包括 FL-NeurIPS、FL-IJCAI、FL-ICML 三个顶会 37 S.K.Lo,Q.Lu,C.Wang,H.-Y.Paik,and L.Zhu,“A Systematic Literature Review on Federated Machine Lear

115、ning:From A Software Engineering Perspective,”ACM Comput.Surv.,vol.54,no.5,pp.139,Jun.2021,doi:10.1145/3450288.38 Xu,B.S.Glicksberg,C.Su,P.Walker,J.Bian,and F.Wang,“Federated Learning for Healthcare Informatics,”ArXiv191106270 Cs,Aug.2020,Accessed:Jun.16,2021.Online.Available:http:/arxiv.org/abs/191

116、1.06270 系列。(1 1)七成以上七成以上杰出论文杰出论文来自中美两国来自中美两国 基于论文一作的所属国家,发现联邦学习的杰出论文来自于美国、中国、瑞士、沙特阿拉伯、新加坡和韩国六个国家,如图 17 所示。其中,美国的杰出论文有 10 篇,占 45.5%;中国的杰出论文有 7 篇,占 31.8%。中美两国合计占比达七成以上。人工智能之联邦学习 2022 联邦学习全球研究与应用趋势报告 37 图图 1717 联邦学习联邦学习 worksworkshophop 杰出论文国家分布杰出论文国家分布 这些杰出论文的所有作者共计 81 位,来自美国、中国、瑞士、沙特阿拉伯、新加坡、韩国、俄罗斯、日本

117、 8 个国家的 30 多个不同机构,其中,有 4 位作者(Honglin Yuan,Junxue Zhang,Kai Chen,Tengyu Ma)参与了 2 篇杰出论文。(2 2)卡内基卡内基梅隆梅隆大学大学和香港科大和香港科大杰出杰出论文量并论文量并列第一列第一 从杰出论文一作的所在机构来看,美国的卡内基梅隆大学(Carnegie Mellon University)与中国的香港科技大学(Hong Kong University of Science and Technology)各分别获得 3 篇杰出论文,并列第一。斯坦福大学(Stanford University)获得 2 篇杰出论文

118、,其余的 10 多家机构各自获得1 篇杰出论文。从杰出论文所有作者所在机构来看,中国的香港科技大学是出现杰出论文作者数量最多的机构,达 11 人次;其次为美国的卡内基梅隆大学,出现杰出论文作者 10 人次;美国的 IBM 和瑞士的EPFL 这 2 个机构各出现 6 人次的杰出论文作者,并列第三;美国的谷歌(Google)和斯坦福大学各出现 5 人次的杰出论文作者,并列第五。此外,韩国的 KAIST 出现 4 次杰出论文作者,中国的清华大学与香港理工大学(Hong Kong Polytechnic University),沙特阿拉伯的 KAUST,以及美国的东北大学(Northeastern U

119、niversity)、Oracle Labs、明尼苏达大学(University of Minnesota)、伯克利大学(University of California at Berkeley)均各出现了 3 人次杰出论文作者,具体信息如图 18所示。美国45.5%中国31.8%瑞士9.1%沙特阿拉伯4.5%新加坡4.5%韩国4.5%人工智能之联邦学习 2022 联邦学习全球研究与应用趋势报告 38 图图 1818 联邦学习联邦学习 worksworkshophop 杰出论文作者数量杰出论文作者数量 3 3 人次人次以上的机构分布以上的机构分布 (3 3)FLFL-NeurIPS NeurI

120、PS 系列系列论文合作者数量最多论文合作者数量最多 FL-NeurIPS 系列杰出论文有 10 篇,分别于FL-NeurIPS21 和 FL-NeurIPS19 的 workshop 评选出,它们均是由多位作者合作完成的。相关论文作者共计 38 位,来自美国、日本、中国、新加坡四个国家的 10 多个机构。其中,出现杰出论文作者次数最多的机构是美国的卡内基梅隆大学(Carnegie Mellon University)(为 10 人次)。这些杰出论文的具体信息如表 6 所示。表表 6 6 FLFL-NeurIPSNeurIPS WorkshopWorkshop 杰出论文杰出论文 WWo orks

121、hoprkshop 名名称称 序序号号 杰出论文标题杰出论文标题 作者作者 FL-NeurIPS21 1 A Unified Framework to Understand Decentralized and Federated Optimization Algorithms:A Multi-Rate Feedback Control Perspective Xinwei Zhang(University of Minnesota),Mingyi Hong(University of Minnesota),Nicola Elia(University of Minnesota)2 Archit

122、ecture Personalization in Resource-constrained Federated Learning Mi Luo(National University of Singapore),Fei Chen(Huawei Noahs Ark Lab),Zhenguo Li(Huawei Noahs Ark Lab),Jiashi Feng(UC Berkeley)3 Efficient and Private Federated Learning with Partially Trainable Networks Hakim Sidahmed(Google Resear

123、ch),Zheng Xu(Google Research),Ankush Garg(Google),Yuan Cao(Google Brain),Mingqing Chen(Google)4 FLoRA:Single-shot Hyper-parameter Optimization for Federated Learning Yi Zhou(IBM Almaden Research Center),Parikshit Ram(IBM Research AI),Theodoros Salonidis(IBM T.J.Watson Research Center),Nathalie Barac

124、aldo(IBM Almaden Research Center,USA),Horst Samulowitz(IBM Research),Heiko Ludwig(IBM Research)5 Personalized Neural Architecture Search for Federated Learning Minh Hoang(Carnegie Mellon University),Carl Kingsford(Carnegie Mellon University)人工智能之联邦学习 2022 联邦学习全球研究与应用趋势报告 39 WWo orkshoprkshop 名名称称 序序

125、号号 杰出论文标题杰出论文标题 作者作者 6 Sharp Bounds for Federated Averaging(Local SGD)and Continuous Perspective Margalit R Glasgow(Stanford University),Honglin Yuan(Stanford),Tengyu Ma(Stanford)FL-NeurIPS19 1 Private Federated Learning with Domain Adaptation Daniel Peterson(Oracle Labs),Pallika Kanani(Oracle Labs)

126、,Virendra Marathe(Oracle Labs)2 FedMD:Heterogenous Federated Learning via Model Distillation Daliang Li(Harvard University),Junpu Wang(Yale University&University of Pennsylvania)3 Think Locally,Act Globally:Federated Learning with Local and Global Representations Paul Pu Liang(Carnegie Mellon Univer

127、sity),Terrance Liu(Carnegie Mellon University),Liu Ziyin(University of Tokyo),Russ Salakhutdinov(Carnegie Mellon University),Louis-Philippe Morency(Carnegie Mellon University)4 MATCHA:Speeding Up Decentralized SGD via Matching Decomposition Sampling Jianyu Wang(Carnegie Mellon University),Anit Sahu(

128、Bosch Center for Artificial Intelligence),Zhouyi Yang(Carnegie Mellon University),Gauri Joshi(Carnegie Mellon University),Soummya Kar(Carnegie Mellon University)(4 4)F FL L-IJCAIIJCAI 系列系列杰出论文中国作者较多杰出论文中国作者较多 在 FL-IJCAI 系列 Workshop 中,被评选出的联邦学习杰出论文有 8 篇。它们出现在 2021 和2019 年,也均是由多位作者合作完成的。相关论文作者共计 29 位,

129、来自美国、新加坡、中国、瑞士四个国家的 10 多个机构。其中,出现杰出论文作者次数最多的机构是中国的香港科技大学(Hong Kong University of Science and Technology)(为 11 人次);相关具体信息如表 7所示。表表 7 7 FTLFTL-IJCAI WorkshopIJCAI Workshop 杰出论文杰出论文 WWo orkshoprkshop 名名称称 序序号号 杰出论文标题杰出论文标题 作者作者 FTL-IJCAI21 1 Robust Federated Learning with Attack-Adaptive Aggregation Ch

130、ing Pui Wan(The Hong Kong University of Science and Technology)Qifeng Chen(The Hong Kong University of Science and Technology)2 A Contract Theory based Incentive Mechanism for Federated Learning Mengmeng Tian(Northeastern University,China),Yuxin Chen(Northeastern University,China),Yuan Liu(Northeast

131、ern University,China),Zehui Xiong(Singapore University of Technology Design),Cyril Leung(Nanyang Technological University),Chunyan Miao(Nanyang Technological University)3 Aegis:A Trusted,Automatic and Accurate Verification Framework for Vertical Federated Learning Cengguang Zhang(Hong Kong Universit

132、y of Science and Technology),Junxue Zhang(Hong Kong University of Science and Technology&Clustar Technology Co.,Ltd),Di Chai(Hong Kong University 人工智能之联邦学习 2022 联邦学习全球研究与应用趋势报告 40 WWo orkshoprkshop 名名称称 序序号号 杰出论文标题杰出论文标题 作者作者 of Science and Technology&Clustar Technology Co.,Ltd),Kai Chen(Hong Kong U

133、niversity of Science and Technology&Peng Cheng Lab)4 Learning Transferable Features With Deep Adaptation Networks Mingsheng Long(Tsinghua University&University of California),Yue Cao(Tsinghua University),Jianmin Wang(Tsinghua University),Michael I.Jordan(University of California)FL-IJCAI19 1 Preserv

134、ing User Privacy For Machine Learning:Local Differential Privacy or Federated Machine Learning?Huadi Zheng(Hong Kong Polytechnic University),Haibo Hu(Hong Kong Polytechnic University)and Han Ziyang(Hong Kong Polytechnic University)2 FedHealth:A Federated Transfer Learning Framework for Wearable Heal

135、thcare Yiqiang Chen(Institute of Computing Technology,CAS),Jindong Wang(Microsoft Research Asia)and Chaohui Yu(Alibaba Group)3 Quantifying the Performance of Federated Transfer Learning Qinghe Jing(Hong Kong University of Science and Technology),Weiyan Wang,Junxue Zhang(Hong Kong University of Scien

136、ce and Technology),Han Tian(Hong Kong University of Science and Technology)and Kai Chen(Hong Kong University of Science and Technology/Peng Cheng Lab)4 Federated Generative Privacy Aleksei Triastcyn and Boi Faltings(Ecole Polytechnique Fed erale de Lausanne Lausanne,Switzerland)(5 5)FLFL-ICMLICML 系列

137、杰出论文系列杰出论文作者次数最多的机构作者次数最多的机构是瑞士是瑞士 EPFLEPFL 与韩国与韩国 KAISTKAIST 在 FL-ICML 系列 Workshop 中,联邦学习杰出论文有四篇,出现在 2020 和 2021 年,均是由多位作者合作完成。相关论文作者共计 14 位,来自瑞士、沙特阿拉伯、美国、韩国、俄罗斯五个国家六个机构。没有来自中国的机构获得该系列Workshop 杰出论文。其中,出现杰出论文作者次数最多的机构是瑞士的 EPFL(洛桑联邦理工学院)与韩国的 KAIST(韩国科学技术高等研究院),各自分别为 4 人次;具体信息如表 8 所示。表表 8 8 FLFL-ICML

138、WorkshopICML Workshop 杰出论文杰出论文 WWo orkshoprkshop 名名称称 序序号号 杰出论文标题杰出论文标题 作者作者 FL-ICML21 1 Optimal Model Averaging:Towards Personalized Collaborative Learning Felix Grimberg(EPFL),Mary-Anne Hartley(EPFL),Sai Praneeth Karimireddy(EPFL),Martin Jaggi(EPFL)2 Lower Bounds and Optimal Algorithms for Smooth

139、and Strongly Convex Decentralized Optimization over Time-Varying Networks Dmitry Kovalev(KAUST),Elnur Gasanov(KAUST),Peter Richtarik(KAUST),Alexander Gasnikov(MIPT&ISP RAS)人工智能之联邦学习 2022 联邦学习全球研究与应用趋势报告 41 WWo orkshoprkshop 名名称称 序序号号 杰出论文标题杰出论文标题 作者作者 FL-ICML20 1 Federated Accelerated Stochastic Gra

140、dient Descent Honglin Yuan(Stanford University),Tengyu Ma(Stanford University)2 Federated Semi-Supervised Learning with Inter-Client Consistency Wonyong Jeong(KAIST),Jaehong Yoon(KAIST),Eunho Yang(KAIST&AITRICS),Sung Ju Hwang(KAIST&AITRICS)3.1.3.1.5 5 高被引论文高被引论文作者的作者的人才人才地图与画像地图与画像 (1 1)全球全球高被引论文作高被

141、引论文作者者主要聚集在美国和中国主要聚集在美国和中国 基于 AMiner 系统,通过关键词组39在标题和摘要中检索 2016 年至 2021 年联邦学习相关论文数据,然后根据联邦学习领域论文被引用量进行排序,选取了排名前 3%的论文作为具有重大学术影响的高被引论文。对这些高被引论文进行数据挖掘而获取论文作者信息,通过命名消歧和信息抽取等大数据分析和挖掘技术,进行作者画像和人才相 39 联邦学习关键词检索式:Federated Machine Learning OR Federated optimization OR federated learning OR federation learni

142、ng OR(Privacy AND Distributed AND data mining)OR(Secure AND Distributed AND data mining)OR(Secure AND Multiparty)OR(Secure AND Multi-party)OR(privacy AND Multi-party)OR(privacy AND Multiparty)OR(Privacy AND Distributed AND machine learning)OR(Secure AND Distributed AND machine learning)OR(Privacy an

143、d joint learning)OR(Secure and joint learning)OR(Privacy AND Distributed AND deep learning)OR(Secure AND Distributed AND deep learning)40 作者统计未去重,包含同一作者发表多篇高被引论文情况,下文同。关分析。此外,还抽取论文作者发表该论文时的供职机构和国家信息,对不同国家和机构的研究者进行统计和特征分析。在研究时段内,联邦学习领域高被引论文作者共计 664 位40,分布在亚洲、北美洲、欧洲以及大洋洲的 29 个国家之中,所在国家分布如图 19 所示,从分布密度

144、来看,这些学者主要聚集在东亚的中国(129 位)、新加坡(24 位),北美洲的美国(332 位)和欧洲的英国(31 位)、德国(28 位)等国家。人工智能之联邦学习 2022 联邦学习全球研究与应用趋势报告 42 来源:AMiner 知因系统 图图 1919 联邦学习联邦学习全球全球高被引论文作高被引论文作者者位置分布位置分布(20 1 年年)(2 2)美国高被引论文美国高被引论文学者量学者量是是中国的中国的两两倍倍以上以上 联邦学习高被引论文作者主要聚集在美国和中国,这两个国家拥有的学者数量分别为 332 位和 129 位,明显多于其他国家的学者数量,如图 20

145、所示。其他前十国家的学者数量的均不足百人。印度和加拿大的高被引论文作者数量并列第十。值得注意,美国的高被引论文作者数量全球最多,占全球一半,也是中国高被引论文作者数量的 2.6 倍。图图 2020 联邦学习联邦学习高被引论文作高被引论文作者数量者数量 TOPTOP 10 10 国家国家(20 1 年年)(3 3)谷歌谷歌是高被引论文是高被引论文学者量学者量最多的最多的机构机构 基于对研究时段内相关高被引论文作者所供职机构信息的抽取分析,发现从全球范围来看,联邦学习领域高被引学者总量 TOP 10 机构之中,半数席位被美国机构占据,其余几家机构则来自中国、新加坡,其中

146、,中国电子科技大学与英特尔公司并3320300350作者数量(位)人工智能之联邦学习 2022 联邦学习全球研究与应用趋势报告 43 列第十,如图 21 所示。前十机构包括五家企业,分别是谷歌、IBM、英伟达、微众银行和英特尔;谷歌的高被引论文作者数量最多,其余各家机构的联邦学习领域研究学者数量在 1020 位。图图 2121 联邦学习领域联邦学习领域高被引高被引学者数量学者数量 TOPTOP 1010 机构机构(20 1 年年)(4 4)近三成高被引论文作近三成高被引论文作者者供职于企业供职于企业

147、研究联邦学习的高被引论文作者之中,有26.1%供职于企业,如图 22所示。同时,如前文所述,高被引论文作者数量全球前十机构有约一半是企业,而且,谷歌的高被引论文作者数量最多。可见,在联邦学习领域,企业人才是一个不可忽视的研究群体。究其这种现象的原因,可能是由于联邦学习是一个起源于工业界且已落地于医疗、金融等应用场景的新技术,更是一个有活力、有前途的热门发展领域,工业界研究者有较多实践研究成果来发布。图图 2222 联邦学习联邦学习高被引论文作高被引论文作者者供职机构性质供职机构性质分布分布 80708090作者数量(位)大学69

148、.7%企业26.1%研究组织4.2%人工智能之联邦学习 2022 联邦学习全球研究与应用趋势报告 44(5 5)不同研究方向的代表学者画像不同研究方向的代表学者画像 在 AMiner 学术搜索服务平台上,根据相关算法,通过对 AAAI、CCS、ICLR、ICML、IJCAI、NIPS、SP 等联邦学习领域顶尖学术会议近年来收录论文的挖掘,并结合热心网友的推荐和整理,筛选出了“联邦学习”主题领域 100 篇经典必读论文(简称 Topic 必读论文)。可以帮助用户快速了解该领域知识,从而提高学习效率。用户只需在检索框输入“Federated Learning”或中文“联邦学 习”,就 能 看 到

149、联 邦 学 习 TOPIC 页 面(https:/ 2016-2021 年发表的引用量大于 30 41 的论文。这里,代表性学者的排名不分先后。限于报告篇幅,我们不能对所有学者逐一罗列,如要获得更多学者信息,请查看网址https:/ QiaQiang Yangng Yang(杨强杨强)香港科技大学 教授;微众银行 首席人工智能官 最高学位毕业院校:美国马里兰大学 博士 曾经任职:香港科技大学计算机与工程系主任、第四范式有限公司联合创始人、华为诺亚方舟研究实验室创始主任、加拿大 BC 省西蒙弗雷泽大学副教授/正教授、加拿大滑铁卢大学计算机科学系任助理/副教授等。研究兴趣:人工智能、迁移学习、联邦

150、学习、机器学习、数据挖掘 41 论文引用量数据统计截至到 2022 年 3 月 31 日。人工智能之联邦学习 2022 联邦学习全球研究与应用趋势报告 45 相关论文代表作:序号序号 论文名称论文名称 论文地址论文地址 发表期刊发表期刊/年份年份 1 1 FedVision:An Online Visual Object Detection Platform Powered by Federated Learning https:/ AAAI,no.08(2020):13172-13179 2 2 A Fairness-aware Incentive Scheme for Federated

151、Learning https:/ AIES,pp.393-399,(2020)3 3 FedBCD:A Communication-Efficient Collaborative Learning Framework for Distributed Features https:/ arXiv preprint arXiv:1912.11187(2019)/FL-NeurIPS 2019;IEEE Transactions on Signal Processing,2022 4 4 A Secure Federated Transfer Learning Framework https:/ I

152、ntelligent Systems,35(4),70-82.5 5 SecureBoost:A Lossless Federated Learning Framework https:/ Intelligent Systems(2021)6 6 Secure Federated Matrix Factorization https:/ Intelligent Systems(2020)7 7 Federated Machine Learning:Concept and Applications https:/ Transactions on Intelligent Systems and T

153、echnology(TIST)10.2(2019):1-19.8 8 Privacy-preserving Heterogeneous Federated Transfer Learning https:/ IEEE International Conference on Big Data(Big Data)人工智能之联邦学习 2022 联邦学习全球研究与应用趋势报告 46 H.Brendan McmahanH.Brendan Mcmahan 谷歌公司 研究科学家 最高学位毕业院校:美国卡耐基梅隆大学 计算机科学博士 研究兴趣:机器学习、联邦学习、分布式优化、差异隐私、深度学习 相关论文代表作

154、:序号序号 论文名称论文名称 论文地址论文地址 发表期刊发表期刊/年份年份 1 1 Advances and Open Problems in Federated Learning https:/ Foundations and Trends in Machine Learning,no.1(2019)2 2 Generative Models for Effective ML on Private,Decentralized Datasets https:/ 3 Communication-efficient learning of deep networks from decentrali

155、zed data https:/ 4 Federated Optimization:Distributed Optimization for On-Device Intelligence https:/ preprint arXiv:1610.02527(2016)5 5 Federated Learning:Stragegies for Improving Communication Efficiency https:/ preprint arXiv:1610.05492(2016)6 6 Can You Really Backdoor Federated Learning?https:/

156、preprint arXiv:1911.07963(2019)JakubJakub KonenKonen 谷歌公司 研究科学家 最高学位毕业院校:英国爱丁堡大学 博士 人工智能之联邦学习 2022 联邦学习全球研究与应用趋势报告 47 研究兴趣:联邦学习 相关论文代表作:序号序号 论文名称论文名称 论文地址论文地址 发表期刊发表期刊/年份年份 1 1 Federated learning:Strategies for improving communication efficiency https:/ 2 Federated optimization:Distributed machine l

157、earning for on-device intelligence https:/ 3 Expanding the Reach of Federated Learning by Reducing Client Resource Requirements https:/ 4 Improving federated learning personalization via model agnostic meta learning https:/ 5 AIDE:Fast and communication efficient distributed optimization https:/ Kai

158、rouzPeter Kairouz 谷歌公司 研究科学家 最高学位毕业院校:美国伊利诺伊大学厄巴纳-香槟分校 博士 曾经任职:斯坦福大学 博士后 研究兴趣:差分隐私、联邦学习、人工智能、机器学习、信息理论 人工智能之联邦学习 2022 联邦学习全球研究与应用趋势报告 48 相关论文代表作:序号序号 论文名称论文名称 论文地址论文地址 发表期刊发表期刊/年份年份 1 1 Advances and Open Problems in Federated Learning https:/ and Trends in Machine Learning,no.1(2019)2 2 Can You Real

159、ly Backdoor Federated Learning?https:/ 3 DP-cgan:Differentially Private Synthetic Data and Label Generation https:/ of the IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops.2019 4 4 Context-aware Generative Adverarial Privacy https:/ 19.12(2017):656.A Ananda Theertha Sureshnan

160、da Theertha Suresh 谷歌公司 高级研究科学家 最高学位毕业院校:美国加州大学圣地亚哥分校 博士 研究兴趣:联邦学习、统计分析、信息理论 人工智能之联邦学习 2022 联邦学习全球研究与应用趋势报告 49 相关论文代表作:序号序号 论文名称论文名称 论文地址论文地址 发表期刊发表期刊/年份年份 1 1 Three Approaches for Personalization with Applications to Federated Learning https:/ 2 SCAFFOLD:Stochastic Controlled Averaging for Federate

161、d Learning https:/ Foundations and Trends in Machine Learning,2019.3 3 Agnostic Federated Learning https:/ Conference on Machine Learning.PMLR,2019.4 4 cpSGD:Communication-efficient and Differentially-private Distributed SGD https:/ 5 Distributed Mean Estimation with limited Comunication https:/ Con

162、ference on Machine Learning.PMLR,2017 Tian LiTian Li 最高学位毕业院校:美国卡内基梅隆大学 博士 研究兴趣:大规模机器学习、分布式优化、数据密集型系统 人工智能之联邦学习 2022 联邦学习全球研究与应用趋势报告 50 相关论文代表作:序号序号 论文名称论文名称 论文地址论文地址 发表期刊发表期刊/年份年份 1 1 Federated Learning:Chanlleges,Methods,and Future Directions https:/ Signal Processing Magazine,no.3(2019):50-60 2 2

163、 Federated Learning in Heterogeneous Networks https:/arxiv.org/abs/1812.06127 MLSys(2020).3 3 Fair Resource Allocation In Federated Learning https:/ 4 Feddane:A Federated Newton-type method https:/ Liu(Liu(刘洋刘洋)清华大学智能产业研究院 副研究员/副教授 最高学位毕业院校:美国普林斯顿大学 博士 曾经任职:深圳前海微众银行股份有限公司 资深研究员、AI 部门研究团队负责人、美国 Datam

164、inr Inc公司 数据科学家、美国空气产品公司(Air Products)高级研究工程师等 研究兴趣:机器学习、联邦学习、迁移学习、多代理系统、统计力学以及这些技术在行业中的应用。人工智能之联邦学习 2022 联邦学习全球研究与应用趋势报告 51 相关论文代表作:序号序号 论文名称论文名称 论文地址论文地址 发表期刊发表期刊/年份年份 1 Secure Federated Transfer Learning Framework https:/ Intelligent Systems,vol.35,no.4,pp.70-82,1 July-Aug.2020 2 FedVision:Visual

165、 Object Detection Powered by Federated Learning https:/ Annual Conference on Innovative Applications of Artificial Intelligence,AAAI,no.08(2020):13172-13179 3 Federated Machine Learning:Concept and Applications https:/ Transactions on Intelligent Systems and Technology(TIST)10.2(2019):1-19.4 FedBCD:

166、A Communication-Efficient Collaborative Learning Framework for Distributed Features https:/ arXiv preprint arXiv:1912.11187(2019)/FL-NeurIPS 2019;IEEE Transactions on Signal Processing,2022 5 BatchCrypt:Efficient Homomorphic Encryption for Cross-Silo Federated Learning https:/ Annual Technical Confe

167、rence 2020 算法安全算法安全(隐私保护隐私保护)方向方向 Reza Reza ShokriShokri 新加坡国立大学 教授 最高学位毕业院校:瑞士洛桑联邦理工学院 EPFL 博士 研究兴趣:计算机安全和隐私、机器学习 人工智能之联邦学习 2022 联邦学习全球研究与应用趋势报告 52 相关论文代表作:序号序号 论文名称论文名称 论文地址论文地址 发表期刊发表期刊/年份年份 1 1 Comprehensive Privacy Analysis of Deep Learning:Passive and Active White-box Inference Attacks against

168、 Centralized and Federated Learning https:/ IEEE symposium on security and privacy,pp.739-753,(2019)2 2 Machine Learning with Membership Privacy using Adversarial Regularization https:/ of the 2018 ACM SIGSAC Conference on Computer and Communications Security.3 3 Privacy Risks of Securing Machine Le

169、arning Models against Adversarial Examples https:/ 4 Synthesizing Plausible Privacy-preserving Localtion Traces https:/ Symposium on Security and Privacy,pp.546-563,(2016)5 5 Membership Inference Attacks against Machine Learning Models https:/ Symposium on Security and Privacy,(2017)Dawn songDawn so

170、ng(宋晓东)(宋晓东)加州大学伯克利分校电气工程与计算机科学系 教授 最高学位毕业院校:美国加州大学伯克利分校博士 曾经任职:卡内基梅隆大学助理教授 研究兴趣:深度学习、区块链和去中心化系统,计算机安全、隐私和应用密码学,使用程序分析、算法设计和机器学习来确保安全和隐私。人工智能之联邦学习 2022 联邦学习全球研究与应用趋势报告 53 相关论文代表作:序号序号 论文名称论文名称 论文地址论文地址 发表期刊发表期刊/年份年份 1 1 Epione:Lightweight Contact Tracing with Strong Privacy https:/ Data Eng.Bull.,no

171、.2(2020):95-107 2 2 Keystone:An Open Framework for Architecting Trusted Execution Environments https:/ 20:Fifteenth EuroSys Conference 2020 Heraklion Greece April,2020,pp.1-16,(2020)3 3 The Secret Revealer:Generative Model-Inversion Attacks Against Deep Neural Network https:/ 4 The Secret Sharer:Eva

172、luating and Testing Unintended Memorization in Neural Network https:/ Security Symposium,pp.267-284,(2019)5 5 Towards Pratical Differential Privacy for SQL Queries https:/ of the Vldb Endowment,no.5(2018):526-539 6 6 Ekiden:A Platform for Confidentiality-preserving,Trustworthy,and Performant Smart C

173、ontracts https:/ 7 Targeted Backdoor Attacks on Deep Learning System using Data Poisoning https:/ and Security,(2017)Kallista.BonawitzKallista.Bonawitz 谷歌公司 最高学位毕业院校:美国麻省理工学院 博士 研究兴趣:人工智能、隐私保护技术(差分隐私、安全多方计算)人工智能之联邦学习 2022 联邦学习全球研究与应用趋势报告 54 相关论文代表作:序号序号 论文名称论文名称 论文地址论文地址 发表期刊发表期刊/年份年份 1 1 Practical

174、Secure Aggregation for Privacy-preserving Machine Learning https:/ of the2017 ACM SIGSAC Conference on Computer and Communications Security 2 2 Secure Single-Server Aggregation with(Poly)Logarithmic Overhead https:/ of the 2020 ACM SIGSAC Conference on Computer and Communications Security.2020.3 3 T

175、owards Federated Learning at Scale:System Design https:/ Mach.Learn.,no.1-2(2021):1-210 4 4 Federated Learning with Autotuned Communication-Efficient Secure Aggregation https:/ 5 Practical Secure Aggregation for Federated Learning on User-held Data https:/ preprint arXiv:1611.04482(2016)人工智能之联邦学习 20

176、22 联邦学习全球研究与应用趋势报告 55 3.3.1.1.6 6 专利专利申请申请现状现状 基于 AMiner 和智慧芽专利数据库,通过联邦学习相关关键词检索式 42,在“标题/摘要/权利要求”中进行相关专利搜索,并按照受理局进行简单同族申请去重,统计截止日期为 2022 年 3 月 31日。数据结果显示,2016 年至 2021 年六年期间,共计得到 2,669 件简单同族(共 4,082 条)联邦学习技术相关专利申请记录。(1 1)全球全球专利申请专利申请总体呈现总体呈现上上升升趋势趋势 联邦学习的专利申请数自 2016年以来呈现不断攀升的趋势,直至 2020 年达到峰值,随后的2021

177、 年稍有回落,其中,从 2019 年和 2020 年的专利申请量增长幅度最大,具体情况如图 23所示。预计接下来几年内,随着联邦学习技术的进一步发展,相关专利申请数量仍将热度不减。图图 2323 20 1 年联邦学习专利申请趋势年联邦学习专利申请趋势 (2 2)全球专利受理情况)全球专利受理情况以中国地区最多以中国地区最多 全球范围内,近年来受理联邦学习专利申请数最多的地区是中国,有 1637 件,约占全球受理总量的六成,数量优势非常突出,如图 24 所示。其他国家和地区的专利受理数量存在较大差异,美国和世界知识产权组织受理的专利数也较多。这反映出联邦学习技术创新和

178、推广应用在这些国家和地区相对比较 42关键词检索式:TAC_ALL:(Federated Machine Learning OR Federated optimization OR federated learning OR federation learning OR(Privacy AND Distributed AND data mining)OR(Secure AND Distributed AND data mining)OR(Secure AND Multiparty)OR(Secure AND Multi-party)OR(privacy AND Multi-party)OR(p

179、rivacy AND Multiparty)OR(Privacy AND Distributed AND machine learning)OR(Secure AND Distributed AND machine learning)OR(Privacy AND joint learning)OR(Secure AND joint learning)OR(Privacy AND Distributed AND deep learning)OR(Secure AND Distributed AND deep learning)AND APD:20160101 TO 2021231 6311518

180、74449379230200400600800720021年份专利申请数(单位:件)人工智能之联邦学习 2022 联邦学习全球研究与应用趋势报告 56 热门。图图 2424 联邦学习专利申请全球受理局分布联邦学习专利申请全球受理局分布(20 1 年)年)(3 3)中国是联邦学习中国是联邦学习技术技术第一大第一大来源国来源国 截至本报告时段,全球联邦学习第一大技术来源国为中国,中国联邦学习专利申请量占全球联邦学习专利总申请量的 68.1%;其次是美国,美国联邦学习专利申请量占全球联邦学习专利总申请量的 14.1%。印度和韩国

181、虽然排名第三和第四,但是与排名第一的中国专利申请量差距较大。相关信息如图 25所示。图图 2525 联邦学习专利申请联邦学习专利申请技术来源国分布技术来源国分布 (4 4)两家金融机构两家金融机构专利申请量专利申请量较为突出较为突出 从专利申请人来看,联邦学习专利申请量TOP10 的机构主要分布在中国和美国两个地区,依次分别占据八席和两席,同时,排名前 3 名机构都位于中国。具体情况如图 26所示。TOP10 的机构中只有一所高校即西安电子科技大学,其余都0393675023015002000中国美国世界知识产权组织中国香港印度欧洲专利局韩国德国日本

182、澳大利亚专利数(单位:件)中国68.1%美国14.1%印度3.1%韩国2.8%其他11.9%人工智能之联邦学习 2022 联邦学习全球研究与应用趋势报告 57 是全球顶尖的科技或者是互联网公司。由图可见,机构之间的专利申请数量差别较大,只有支付宝(杭州)信息科技有限公司与深圳前海微众银行股份有限公司这两家金融机构的专利申请数是超100 件的。图图 2626 联邦学习专利申请量联邦学习专利申请量 TOPTOP 10 10 机构机构(20 1 年)年)(5 5)国内专利申请)国内专利申请以广东、以广东、北京北京和和浙江浙江领先领先 国内近年来联邦学习专利申请量 TOP1

183、0 省市分别是广东、北京、浙江、上海、江苏、陕西、四川、山东、湖北和安徽,其中包括了较多的沿海地区省市,详细申请情况如图 27 所示。其中,广东、北京和浙江属于该领域第一梯队,专利申请量均高于 200 件,明显超过其他省市。图图 2727 联邦学习专利量联邦学习专利量 TOPTOP 10 10 国内省市分布国内省市分布(2 2 1 年)年)7363430300支付宝(杭州)信息技术有限公司深圳前海微众银行股份有限公司平安科技(深圳)有限公司国际商业机器公司创新先进技术有限公司西安电子科技大学谷歌有限责任公司华为技术有限公司

184、华控清交信息科技(北京)有限公司云图有限公司专利申请量(单位:件)377285276272500广东北京浙江上海江苏陕西四川山东湖北安徽专利申请量(单位:件)人工智能之联邦学习 2022 联邦学习全球研究与应用趋势报告 58(6 6)专利专利技术技术创新点创新点最多聚焦于最多聚焦于安全与隐私安全与隐私 通过算法对联邦学习相关专利进行词频统计分析和文本聚类,提取该领域排名靠前的关键词并制作词云图,如图 28 所示。最热门的联邦学习技术主题词包括区块链、服务器、客户端、分布式、隐私保护、机器学习、安全多方计算、模型参数、学习方法、电子设备、数据处理、学习

185、模型、模型训练、全局模型等。这反映出联邦学习目前的专利布局主要聚焦安全与隐私保护方向,以及机器学习方法、模型训练等方面。图图 2828 联邦学习相关专利申请联邦学习相关专利申请涉及的涉及的关键词云关键词云 (7 7)专利)专利申请最多布局在申请最多布局在机器学习机器学习与与数据存取访数据存取访问平台保护问平台保护两个两个 IPCIPC 分类分类 在联邦学习专利之中,申请数量最热门的专利IPC 分类是 G06N20 机器学习2019.01,相应的专利申请约占四分之一;其次是 G06F21/62 (通过一个平台保护数据存取访问,例如使用密钥或访问控制规则2013.012013.01),相关专利量居

186、于第二位。详细信息如图 29 所示。人工智能之联邦学习 2022 联邦学习全球研究与应用趋势报告 59 图图 2929 联邦学习专利申请量联邦学习专利申请量 TOPTOP 10 10 的的 IPCIPC 分类分类 在联邦学习专利的数据存取访问平台保护、机器学习两个最热门的 IPC 分类下,领先专利申请机构主要来自中国和美国,详细情况如图 30 所示。其中,支付宝公司在 G06F21/62(数据存取访问平台保护)方面进行了最多数量的联邦学习专利布局,微众银行在 G06N20(机器学习)方面了进行最多数量的联邦学习专利布局,此外,西安电子科技大学在机器学习、数据保护等不同分类的专利技术布局较均衡,

187、国际商业机器公司和平安科技也较多布局在机器学习方面技术。66662748834834432629426225200400500600700G06N20/00G06F21/62G06F21/60G06N3/08H04L29/06G06K9/62G06N3/04H04L9/08G06N20/20H04L29/08专利申请量(单位:件)人工智能之联邦学习 2022 联邦学习全球研究与应用趋势报告 60 图图 3030 联邦学习专利联邦学习专利 IPCIPC 分类分类 TOPTOP 3 3 专利专利领先申请人领先申请人技术分布技术分布 3 3.2.2 联邦联邦学习框架学习框架与系

188、统现状与系统现状 近年来,联邦学习算法框架和系统的开发和部署正在蓬勃发展。目前,市面上既有许多开源的联邦学习框架平台,也有许多非开源的自研式框架平台。本部分通过 AMiner 数据库中的新闻数据,分析梳理了国内外知名高校、科研机构、科技企业巨头、金融科技公司,以及初创公司等推出的主要联邦学习相关系统框架,具体信息如下。3.2.3.2.1 1 开源开源框架框架 开源的联邦学习框架多数是由国内外企业推出发布的,高校科研机构发布的相对较少。Pysyft是 2017 年也是最早推出开源框架,随后几年陆续有新的开源框架推出,2020 年开源的联邦学习框架数量最多,如图 31 所示。

189、3587020406080100120G06F21/62G06N20/00G06F21/60专利量(单位:件)支付宝(杭州)信息技术有限公司深圳前海微众银行股份有限公司西安电子科技大学国际商业机器公司平安科技(深圳)有限公司人工智能之联邦学习 2022 联邦学习全球研究与应用趋势报告 61 图图 3131 联邦学习框架开源趋势图联邦学习框架开源趋势图 注:图中的数字代表该联邦学习框架在 Github 平台的热度值(截止到 2022 年 3 月 31 日)。根据这些联邦学习框架在 Github(代码托管服务平台)上的热度排序(数据统计日期截至到2022 年 3 月 31 日

190、),发现 OpenMined 推出的Pysyft 热度最高,微众银行的 FATE 热度居于第二,谷歌的 TFF、FedML.AI 的 FedML、Facebook 的CrypTen 几个框架的热度也较高,均过千。联邦学习相关开源系统框架的详细信息如表 9 所示。表表 9 9 开源开源的联邦学习的联邦学习框架框架 GiGithub thub 热度热度 发布方发布方 系统名称系统名称 开源时间开源时间 系统特点系统特点 8000 OpenMined PySyft 2017.7 一个用于安全和私有深度学习的 Python 库 基于 PyTorch,使用 Unity Game Engine 安全多方计

191、算 联合学习、差异隐私 4100 微众银行 FATE 2019.2 工业级框架,采用 Python 开发,底层计算存储基于EGGROLL、Spark等高性能计算引擎 提供一站式的联邦模型企业级服务解决方案。提供多插件支持联邦学习企业和科研应用 支持主流的分类、回归、聚类和迁移学习的联邦化算法 提供多种安全计算协议支撑上层应用,支持同态加密协议、秘密共享协议、不经意传输协议和 DH 密钥交换算法等 人工智能之联邦学习 2022 联邦学习全球研究与应用趋势报告 62 GiGithub thub 热度热度 发布方发布方 系统名称系统名称 开源时间开源时间 系统特点系统特点 提供 20 多个联邦算法组

192、件 1800 谷歌 TensorFlow Federated 2019.3 可以选择 ML 模型架构 模型设计理念以数据为主 11001100 FedML.AI FedML 2020.7 支持分布式训练、移动设备/物联网训练、独立仿真 1000 Facebook CrypTen 2019.10 安全多方计算 988 DropoutLabs,OpenMined,阿里巴巴 TF-Encrypted 2018.3 安全多方计算、同态加密 TensorFlow 中的加密机器学习框架 809 Adap Flower 2020.11 一个友好的联邦学习框架 联合学习、分析和评估的统一方法 753 字节跳动

193、 Fedlearner 2020.1.20 代码里有大量的 JS、HTML 模块 强调联邦学习在推荐、广告等业务中的落地 可输出性 435 矩阵元 LatticeX-Foundation Rosetta 2020.8 安全多方计算 基于 TensorFlow 358 百度 PaddleFL 2020.2.19 可信计算 基 于 飞 桨(PaddlePaddle)和Kubernetes 面向深度学习设计,提供在计算机视觉、自然语言处理、推荐算法等领域的联邦学习策略及应用场景 简化大规模分布式集群部署 二次开发接口允许各方定义私有化的数据读取器 提供了基础编程框架,并封装了一些公开的联邦学习数据集

194、 276 Intel 英特尔实验室、英特尔物联网集团 openfl 2021.2 Python*3 项目 开放式联合学习实用程序 聚合器与框架无关 210 微众银行 eggroll 2019.10 联邦机器学习的简单高性能计算框架 197 FedML-AI 南加州大学团队 FedNLP 2021.5 以研究为导向的联邦学习赋能NLP 的FedNLP 框架 支持两种类型的模型:Transformer和 LSTM 175 SMILELab-FL FedLab 2021.8 联邦机器学习的简单高性能计算框架 170 谷歌 fedjax 2021.2 一种适用于研究、速度较快且简单易用的联邦学习模拟库

195、 99 京东 9NFL 九数联邦学习 2020 初 支持百亿级规模样本、百 T 级容量数据的超大规模的样本匹配、联合训练 在电商推荐领域可实现线上业务落地 实现分布式异步框架、Failover、拥塞控制等机制 针对跨域与跨公网的复杂环境,设计了一系列的可用性与容灾的机制与策略 68 天冕科技 tianmiantech WeFe 2021.9.23 同态加密算法 内置多种常用机器学习算法和特征工程工具 支持私有化、云端化以及安全一体机人工智能之联邦学习 2022 联邦学习全球研究与应用趋势报告 63 GiGithub thub 热度热度 发布方发布方 系统名称系统名称 开源时间开源时间 系统特点

196、系统特点 等多样化部署方式 45 同盾科技 tongdun/iBond-flex 2020.2 一套标准化的联邦协议:约定了联邦过程中参与方之间的数据交换顺序,以及在交换前后采用的数据加解密方法 11 台湾人工智能实验室 ailabstw/harmonia 2020.6 去中心化的信息分享算法 旨在开发系统/基础设施和库,以简化联邦学习在研究和生产中的应用 来源:根据公开资料整理 以上部分的联邦学习系统框架的详细介绍信息如下。(1 1)OpenMinedOpenMinedPySyftPySyft PySyft 是开源社区 OpenMined 推出的一个用于安全和私有深度学习的 Python 库

197、。它使用联邦学习、差分隐私和加密计算来解耦私人和敏感数据,可以在主要的深度学习框架中使用,例如 TensorFlow 和 PyTorch。PySyft 代表了在深度学习程序中启用可靠的隐私模型的首批尝试之一。PySyft的核心组件是称为 SyftTensor 的抽象。SyftTensors 旨在表示数据的状态或转换,并且可以链接在一起。链结构始终在其头部具有PyTorch 张量,并且使用 child 属性向下访问由SyftTensor 体现的变换或状态,而使用 parent 属性向上访问由 SyftTensor 体现的变换或状态。开源地址:https:/ PySyft 的系统框架如图 32 所

198、示。来源:https:/arxiv.org/pdf/1811.04017.pdf 图图 3232 OpenMined PySyftOpenMined PySyft 系统框架系统框架 (2 2)微众银行微众银行FATEFATE 微众银行 AI 部门研发了 FATE(Federated AI Technology Enabler)联邦学习开源项目,是首个开源的联邦学习工业级框架。目前 FATE 开源社区已汇聚了 700 多家企业、300 余所高校等科研机构的开发者,是国内最大的联邦学习开源社区。人工智能之联邦学习 2022 联邦学习全球研究与应用趋势报告 64 FATE 项目使用多方安全计算(MP

199、C)以及同态加密(HE)技术构建底层安全计算协议,以此支持不同种类的机器学习的安全计算,包括逻辑回归、树算法、深度学习(人工神经网络)和迁移学习等。FATE 目前支持三种类型联邦学习算法:横向联邦学习、纵向联邦学习以及迁移学习。开源地址:https:/ 整体架构如图 33 所示。FATE 主仓库包含 FederatedML 核心联邦算法库和多方联邦建模 Pipeline 调度模块 FATE-Flow,FATE 拥抱大数据生态圈,底层引擎支持使用微众银行自主研发的EGGROLL 或者 Spark 进行高性能的计算。围绕FATE 联邦学习生态,FATE 还提供了完整的联邦学习生态链,如联邦可视化模

200、块 FATE-Board、联邦在线推理模块 FATE-Serving、联邦多云管理 FATE-Cloud 等。来源:Architecture-FATE 图图 3333 微众银行微众银行 FATE FATE 系统架构系统架构 FederatedML 是 FATE 的联邦学习算法库模块,提供了 20+种联邦学习算法,支持纵向联邦学习、横向联邦学习、联邦迁移学习三种联邦建模场景,覆盖了工业建模的数据处理、特征变换、训练、预测、评估的全建模流程。另外,封装了众多的多方安全计算协议以提供给上层算法的调度和支持联邦学习开发者的联邦算法开发。FATE-Flow 为 FATE 提供了端到端联邦建模Pipeli

201、ne 调度和管理,主要包括 DAG 定义联邦建模 pipeline、联邦任务生命周期管理、联邦任务协同调度、联邦任务追踪、联邦模型管理等功能,实现了联邦建模到生产服务一体化。FATE-Board 联邦学习建模的可视化工具,为终端用户提供可视化和度量模型训练的全过程。人工智能之联邦学习 2022 联邦学习全球研究与应用趋势报告 65 FATE-Board 由任务仪表盘、任务可视化、任务管理与日志管理等模块组成,支持模型训练过程全流程的跟踪、统计和监控等。FATE-Serving 为 FATE 提供联邦在线推理服务,主要包含实时在线预测、集群管理与监控、在线模型管理与监控、服务治理等功能。FATE

202、-Cloud是构建和管理联邦数据合作网络的基础设施,为跨机构间、机构内部不同组织间提供了安全可靠、合规的数据合作网络构建解决方案,实现多客户端的云端管理,FATE Chain 是联邦学习区块链网络框架,在满足多方数据隐私、安全和监管要求的前提下,将联邦学习与区块链融合,提供去中心化的应用,通过分布式的存储和运行,保证极高的透明度和安全性,使数据管控满足不可篡改、可追溯、可审计等要求,实现联邦多方对等合作与合规有序的发展。(3 3)谷歌谷歌TensorFlow FederatedTensorFlow Federated,TFFTFF TensorFlow Federated project(TF

203、F)由谷歌公司开发和维护,是一个为联邦机器学习和其他计算方法在去中心化数据集上进行实验的开源框架。TFF 让开发者能在自己的模型和数据上模拟实验现有的联邦学习算法,以及其他新颖的算法。TFF 提供的建造块也能够应用于去中心化数据集上,来实现非学习化的计算,例如聚合分析。TFF 的接口有两层构成:联邦层(FL)应用程序接口(API)和联邦核心(FC)API。TFF 使得开发者能够声明和表达联邦计算,从而能够将其部署于各类运行环境。TFF 中包含的是一个单机的实验运行过程模拟器。该联邦学习的框架如图 34 所示。来源:Open-Source Federated Learning Framework

204、s for IoT:A Comparative Review and Analysis 43 图图 3434 谷歌谷歌 TFFTFF 框架框架图图 43 Open-Source Federated Learning Frameworks for IoT:A Comparative Review and Analysis,Dec 2020,https:/ by Evgeniy D.Shalugin 人工智能之联邦学习 2022 联邦学习全球研究与应用趋势报告 66 在实现方面,Tensorflow 专门为联邦学习推出了一个学习框架(TensorFlow Federated,简称 TFF),现有的

205、 TensorFlow(简称 TF)或 Keras模型代码通过一些转换后就可以变为联邦学习模型,甚至可以加载单机版的预训练模型,以迁移学习的模式应用到分散式数据的机器学习中。不同于分布式训练理念,TFFTFF 框架设计理念是框架设计理念是以数据为主,以数据为主,而不是代码分离上。在编写模型、训练代码的时候,将clients和server看作一个整体,同一个文件里不需要分割开 Server 端(S 端)和Clients 端(C 端)的代码,C 端和 S 端的区分是在代码逻辑层面的。也就是说,用户在编写 TFF 代码时,不需要指明某段代码是应该运行在 C 端还是S端)仅需要指出每个数据是储存在C端

206、/S端、是全局唯一的还是有多份拷贝的即可。类似 TF 的non-eager 模式,当用户编写完模型代码和训练代码后,TFF 会自动地将代码分别放置到 clients 和server 设备上。用户只要关注模型架构、C&S 端交互的数据格式、聚合多 clients 模型的方式即可。TFF 通过 Python 代码来编写运算逻辑,实际运行则是编译成另一种语言去执行,以便让模型能运行在真实分布式场景下。开源地址:https:/ 4)字节跳动字节跳动FedlearnerFedlearner 字节跳动联邦学习平台 Fedlearner 基于字节跳动在推荐和广告领域积累的机器学习建模技术和个性化推荐算法,可

207、以支持多类联邦学习模式,已经在电商、金融、教育等行业多个落地场景实际应用。该平台已经于 2020 年初开源并持续更新,开源地址:https:/ 联邦学习平台整个系统包括控制台、训练器、数据处理、数据存储等模块,各模块对称部署在参与联邦的双方的集群上,透过代理互相通信,实现训练。Fedlearner 双方在发起训练之前,必须要基于双方的数据进行求交,找出交集从而实现模型训练。训练数据求交的方式主要分为两种:流式数据求交、PSI 数据求交。(5 5)百度百度PaddleFLPaddleFL PaddleFL是 一 个 基 于 百 度 飞 桨(PaddlePaddle)的 开 源 联 邦 学 习 框

208、 架。PaddleFL提供很多联邦学习策略及其在计算机视觉、自然语言处理、推荐算法等领域的应用,例如,横向联邦学习(联邦平均、差分隐私、安全聚合)和纵向联邦学习(带 privc 的逻辑回归,带 ABY3的神经网络)。研究人员可以用 PaddleFL 复制和比较不同的联邦学习算法。此外,PaddleFL 还提供传统机器学习训练策略的应用,例如多任务学习、联邦学习环境下的迁移学习、主动学习。依靠 PaddlePaddle 的大规模分布式训练和 Kubernetes 对训练任务的弹性调度能力,PaddleFL 可以基于全栈开源软件轻松地部署。PaddlePaddle 背靠百度的信息库,提供人工智能之

209、联邦学习 2022 联邦学习全球研究与应用趋势报告 67 的预训练模型的准确率较高。开源地址:https:/ 35所示。来源:https:/ 图图 3535 百度百度 PaddleFLPaddleFL 整体架构整体架构 PaddleFL 中主要提供两种解决方案:Data Parallel 以及 Federated Learning with MPC(PFM)。通过 Data Parallel,各数据方可以基于经典的横向联邦学习策略(如 FedAvg,DPSGD 等)完成模型训练。此外,PFM 是基于多方安全计算(MPC)实现的联邦学习方案。作为 PaddleFL 的一个重要组成部分,PFM 可

210、以很好地支持联邦学习,包括横向、纵向及联邦迁移学习等多个场景。(6 6)京东京东九数联邦学习九数联邦学习 9NFL9NFL 京东自研的九数联邦学习平台(9NFL)于2020年初正式上线。9NFL 平台基于京东商业提升事业部 9N 机器学习平台进行开发,在 9N 平台离线训练、离线预估、线上推断(inference)、模型的发版等功能的基础上,增加了多任务跨域调度、跨域高性能网络、大规模样本匹配、大规模跨域联合训练、模型分层级加密等功能。整个平台可以支持百亿级/百 T 级超大规模的样本匹配、联合训练,并且针对跨域与跨公网的复杂环境,对可用性与容灾设计了一系列的机制与策略,保障整个系统的高吞吐、高

211、可用、高性能。开源地址:https:/ 9NFL 整体系统架构分为四大模块:整体调度与转发模块、资源管理与调度模块、数据求交模块、训练器模块。如图 36 所示。人工智能之联邦学习 2022 联邦学习全球研究与应用趋势报告 68 来源:新浪 VR 44 图图 3636 九数联邦学习平台(九数联邦学习平台(9NFL9NFL)(7 7)F FedML.AIedML.AIF FedMLedML FedML 是一个以研究为导向的联邦学习图书馆,支持分布式计算、移动/物联网设备上训练和独立模拟,可促进新的联合学习算法的开发和公平的性能比较。支持分布式计算、移动/物联网设备上训练和独立模拟。该成果曾获 Ne

212、urIPS 2020 联合学习研讨会最佳论文奖。发布方 FedML.AI 来自于美国南加州大学 USC 联合 MIT、Stanford、MSU、UW-Madison、UIUC 以及腾讯、微众银行 44 京东开源超大规模联邦学习平台,2020-09-15 来源:新浪 VR,http:/ 等众多高校与公司联合发布的 FedML联邦学习开源框架。其系统架构如图 37 所示。FedML 还通过灵活且通用的 API 设计和参考基准实现和促进了各种算法研究。针对非 I.I.D 设置的精选且全面的基准数据集旨在进行公平比较。FedML 可以为联合学习研究社区提供开发和评估算法的有效且可重复的手段。开源地址:

213、https:/ 人工智能之联邦学习 2022 联邦学习全球研究与应用趋势报告 69 来源:FedML-AI/FedML,https:/ 图图 3737 FedML.AI/FedML.AI/FedMLFedML 系统架构系统架构 (8 8)台湾人工智能实验室台湾人工智能实验室HarmoniaHarmonia 台湾人工智能实验室(AI Labs)开发了一个开源项目 Harmonia,旨在开发系统/基础设施和图书馆,以简化联合学习的研究和生产用途。Harmonia 使用工程师熟悉的环境和语言,比如热门的开源工具 Kubernetes、Git Large File Storage 和 GitOps 等

214、。Harmonia 利用 Git 进行访问控制、模型版本控制和服务器和联合培训(FL)运行参与者之间的同步。FL 训练策略、全局模型和本地模型/渐变保存在 Git 存储库中。这些 Git respoitroies 的更新会触发 FL 系统状态转换。这将自动化 FL 培训过程。FL 参与者被激活为由操作员和应用容器组成的 K8S 吊舱。操作容器负责维护 FL 系统状态,并通过 gRPC 与应用程序容器通信。本地训练和聚合函数封装在应用程序容器中。此设计可在 Kubernetes 群集环境中轻松部署,并快速插件现有机器学习(ML)工作流。开源地址:https:/ Harmonia 系统架构如图 3

215、8 所示。人工智能之联邦学习 2022 联邦学习全球研究与应用趋势报告 70 来源:AI Labs.tw 图图 3838 HarmoniaHarmonia 系统架构系统架构 3.2.3.2.2 2 非开源非开源框架框架与系统与系统 非开源的联邦学习框架基本上都是由企业推出的。根据其正式发布时间进行排序,发现这些联邦学习框架最多集中发布于 2020 年,如图 39 所示。其中,发布时间较早的是翼方健数的联邦学习框架,以及星云 Clustar 的 AIOS,两者均于 2019年发布;最新发布的是 2022 年 2 月中国银联发布的联邦学习平台。图图 3939 非开源的联邦学习框架发布趋势图非开源的

216、联邦学习框架发布趋势图 非开源联邦学习系统框架的详细信息如表 10所示。表表 1010 非开源的非开源的联邦学习系统一览联邦学习系统一览 发布时间发布时间 发布方发布方 系统名称系统名称 系统特点系统特点 2019 年 4 月15 日 翼方健数 翼数坊 XDP 基于隐私计算的原理和应用 通过多方安全计算 MPC/同态加密、联邦学习、安全沙箱计算/TEE 等技术实现 人工智能之联邦学习 2022 联邦学习全球研究与应用趋势报告 71 发布时间发布时间 发布方发布方 系统名称系统名称 系统特点系统特点 通过自主研发的 DaaS 服务进行数据治理和清洗以达到数据可用 2019 年 9 月5 日 星云

217、 Clustar AIOS 以联邦学习和区块链作为基础设施 采用 FATE 联邦学习软件框架 2019 年 9 月19 日 华为 NAIE 目前以横向联邦为基础,内置了众多联邦学习能力,包括联邦汇聚、梯度分叉、多方计算、压缩算法等。2020 年底 星环科技 Sophon FL 底层为分布式架构,使用差分隐私、同态加密、不经意传输和可信计算等隐私保护机技术 2020 年 3 月23 日 腾讯 Angel PowerFL 支持超大规模数据量的多方联合建模 有高容错性 不依赖于可信第三方 2020 年 4 月23 日 上海富数科技 FMPC 密文训练联邦学习误差小于 1%安全计算支持的算法包括:普通

218、多方计算、统计分析、机器学习(LR、DT、RF、LightGBM 等)机器学习训练收敛速度提高了 3 倍;匿踪查询 100 亿条+记录秒级响应 支持本地私有化、对等网络链接的部署 2020 年 5 月27 日 光之树科技 天 机 可 信 计算框架、云间联 邦 学 习 平台 基于芯片 TEE 技术和其他加密技术的可信计算体系 基于机器学习、深度学习算法和加密协议的安全计算框架 2020 年 8 月28 日 平安科技 蜂巢平台 定位是服务于营销、获客、定价、风控、智慧城市和智慧医疗 支持传统的统计学习以及深度学习的模型,比如逻辑回归、线性回归、树模型等 提供加密方式,支持同态加密等多方安全计算机制

219、。在模型训练中,对梯度进行非对称加密,整合梯度和参数优化、更新模型;最后加密原始传输数据,实现推理结果 支持单机和多机训练 可使用 CPU 和 GPU 训练 支持多种深度学习框架,如 TensorFlow,Keras,Pytorch,Mxnet 2020 年 10月 12 日 京东数科 Fedlearn 提出了并行加密算法、异步计算框架、创新联邦学习等技术架构,达到融合亿级规模数据的能力 在通讯方面,引入中心化数据交换的概念,使得数据交换独立于参与方 采用异步计算框架,提高了模型训练速度,并推动异步联邦学习的发展 应用于信贷风控、智能营销等方向 2021 年 2 月 华为云 FedAMP 首创

220、自分组个性化联邦学习框架,引入了一种注意消息传递机制 让拥有相似数据分布的客户进行更多合作,并对每个客户的模型进行个性化定制 已被集成至华为云一站式 AI 开发管理平台 ModelArts 联邦学习服务中 2021 年 6 月 联易融 蜂隐联邦学习平台 支持本地化与 SAAS 部署,可应用于供应链金融业务中,合同、票据 OCR、关键要素提取、文本分类等图像和 NLP 场景下的深度学习联合建模 2021 年 6 月 洞见科技 洞见数智联邦平台(INSIGHTTONE)基于隐私计算和区块链技术的金融级隐私保护计算平台产品 2021 年 11月 新心数科 新心数述联邦学习平台 多方安全计算金融应用技

221、术 2021 年 12字节跳动安火山引擎 Je 融合了多方安全计算 MPC、全同态加密 FHE、差分隐私 DP、人工智能之联邦学习 2022 联邦学习全球研究与应用趋势报告 72 发布时间发布时间 发布方发布方 系统名称系统名称 系统特点系统特点 月 全研究团队 ddak 联邦学习平台 可信计算 TEE 等多种技术 2022 年 2 月 中国银联 中国银联联邦学习平台 多方安全计算 采用开放云原生架构 来源:根据公开资料整理 以上部分非开源的联邦学习系统平台的介绍信息如下。(1 1)腾讯腾讯AngelAngel PowerFLPowerFL Angel Power FL(原名 AngelFL)

222、安全联合计算是基于腾讯自研的多数据源联合计算技术,提供安全、易用、稳定、高性能的联邦机器学习、联合数据分析解决方案,助力数据融合应用。它构建在 Angel 机器学习平台45上,利用 Angel-PS 支持万亿级模型训练的能力,将很多在 Worker 上的计算提升到 PS(参数服务器)端;Angel PowerFL 为联邦学习算法提供了计算、加密、存储、状态同步等基本操作接口,通过流程调度模块协调参与方任务执行状态,而通信模块完成了任务 45 46 Angel PowerFL 安全联合计算_联邦学习_联合数据分析-腾讯云()训练过程中所有数据的传输。采用去中心的架构设计,全自动化流程,算法支持

223、LR、XGBoost、PCA、用户自定义神经网络模型(如 MLP、CNN、RNN、Wide&Deep,DeepFM,DSSM 等)46。Angel PowerFL 联邦学习已经在腾讯金融云、腾讯广告联合建模等业务中开始落地。目前主要应用产品是腾讯云安全隐私计算。Angel Power FL 目前没有开源,平台架构如图 40 所示。腾讯于 2021 年 1月 22 日申请公开“联邦学习方法、装置、计算机设备及介质”专利信息,公开号为 CN112257876A。人工智能之联邦学习 2022 联邦学习全球研究与应用趋势报告 73 来源:腾讯 Angel PowerFL 联邦学习平台47 图图 404

224、0 腾讯腾讯 AngelFLAngelFL 联邦学习系统架构联邦学习系统架构图图 (2 2)京东京东科技科技FedlearnFedlearn 京东数字科技集团(简称:京东数科,现名:京东科技)于 2020 年 10 月推出自主研发的联邦学习平台 Fedlearn。Fedlearn 平台具有“六位一体”核心能力:多自研联邦学习算法、多方同态加密、轻量级分布式架构、区块链与联邦学习融合、数据安全容器、一站式操作平台。京东科技 Fedlearn 平台具有三大特点:第一,在数据和模型隐私方面,不同参与方之间没有直接交换本地数据和模型参数,而是交换更新参数所需的中间数值。为了避免从这些中间数值中恢复数据

225、信息,采用增加扰动对这些数值进行保 47 Angel PowerFL 安全联合计算_联邦学习_联合数据分析-腾讯云()护,确保了数据和模型的隐私安全;第二,在通讯方面,引入中心化数据交换的概念,使得数据的交换独立于参与方;第三,采用异步计算框架,提高了模型训练的速度。Fedlearn 平台融合了密码学、机器学习、区块链等联邦学习算法,搭建出一套安全、智能、高效的链接平台,在各机构数据不用向外传输的前提下,通过联合多方机构数据,实现共同构建模型等多方数据联合使用场景,获得加成效应。相较于传统的数据共享交换方法,Fedlearn 平台创新性地提出了并行加密算法、异步计算框架、创新联邦学人工智能之联

226、邦学习 2022 联邦学习全球研究与应用趋势报告 74 习等技术架构,在保证数据安全的前提下提升学习效率,并逐步达到融合亿级规模数据的能力。京东科技Fedlearn平台实现了“基于核的非线性联邦学习算法”。这一方法不传输原始样本及梯度信息,充分保护数据隐私;并使用首创的双随机梯度下降,大大提高计算速度,充分利用计算资源,通过增加扰动提高数据的安全保护。产品地址:https:/ 3)平安科技平安科技蜂巢蜂巢 平安科技研发的蜂巢联邦智能平台,是数据安全保护、企业数据孤岛、数据垄断、数据壁垒等问题的商用级解决方案。它能够让参与方在不共享原始数据的基础上联合建模,从技术上打破数据孤岛,从而综合化标签数

227、据,丰富用户画像维度,从整体上提升模型的效果,实现 AI 协作。蜂巢平台的功能框架如图 41 所示。来源:平安官网链接 https:/ 4141 蜂巢平台功能结构蜂巢平台功能结构 平安科技联邦智能平台蜂巢的建模是在保护用户隐私的前提下进行。原始数据不离开用户,建模所交换的是模型的中间参数和梯度。此外,采用GPU 等异构计算芯片来加速联邦学习的加密和通信过程,从而达到效率升级的效果。(4 4)富数富数科技科技FMPCFMPC 富数多方安全计算平台(FMPC)是上海富数科技旗下产品,目前未开源,主要通过体验或者服务 购 买 方 式 使 用。产 品 官 网 地 址:https:/ 目前公开的技术架构

228、如图 42 所示。人工智能之联邦学习 2022 联邦学习全球研究与应用趋势报告 75 来源:两大主流联邦学习产品体验_hellompc 的博客-CSDN 博客 图图 4242 富数科技富数科技 FMPC FMPC 系统架构系统架构 FMPC 架构具有以下特点特点:联邦学习:原始数据不出门,参与各方本地建模;没有敏感数据流通,只交互中间计算结果;整个模型被保护,参与各方只有自己模型参数;私有化部署;开放 API 快速开发;支持主流机器学习算法,如 LR,DT,RF,Xgboost 等;建模速度快 3倍;密文训练精度误差1%。多方安全计算:落地应用计算量 1.1 万+次/天;支持多方数据安全求交;

229、支持一次多项式;支持多方归因统计分析;支持多方多维数据钻取分析;私有化部署。匿踪查询:支持 100 亿+条记录;秒级响应时间;查询授权存证;甲方查询信息不泄露;加密隧道避免中间留存;私有化部署。联盟区块链:联盟节点 30+;高性能扩展1 万 TPS;合约调用 20 万次/天;电子存证和智能合约;隐私保护协议;快捷部署场景应用;开源开发社区。(5 5)星云星云 clustarclustar AIOSAIOS 星云 AIOS(AI Operating System)是一款具备高性能、高可靠、高灵活及高扩展特性的人工智能操作系统,由高性能 AI 加速中间件、深度学习训练平台及数据推理平台三个子系统构

230、成,为用户提供数据处理、模型训练、推理服务及 AI 应用等完整的 AI 解决方案。总体框架如图 43 所示。人工智能之联邦学习 2022 联邦学习全球研究与应用趋势报告 76 来源:星云 Clustar 官网 图图 4343 星云星云 AIOSAIOS 系统框架系统框架 AIOS 产品矩阵 48 星云联邦数据网络(数据):通过 API 提供服务,隐私保护的大数据安全连接平台,以联邦学习和区块链作为基础设施,拼接多方数据源,建立企业间数据合作的安全桥梁,实现企业效能和数据价值的最大化。星云联邦计算平台(框架)FATE 联邦学习软件框架,由多个主要功能模块构成:联邦算法仓库、联邦训练服务、联邦推理

231、服务、可视化面板。企业可以轻松的通过可视化面板直接对各类联邦算法模型进行调用与实验,可大幅降低联邦学习的使用门槛。星云星云 FATEFATE 企业版企业版,为基于数据隐私保护的安全建模过程提供丰富的可视化呈现,为终端用户可视化和度量模型训练的全过程,支持模型训练过程全流程的跟踪、统计和监控等,帮助模型开发人员快速搭建联邦学习任务,可根据客户需求深度定制开发。来源:星云 Clustar 官网 图图 4444 星云星云 FATEFATE 企业版企业版联邦架构层联邦架构层 48 来源:星云 Clustar 官网 https:/ 人工智能之联邦学习 2022 联邦学习全球研究与应用趋势报告 77 星云

232、隐私计算一体机(算力)针对数据使用方和数据提供方提供不同产品方案:一体机完美融合CPU/GPU/FPGA服务器、FATE 和 FDN,开箱即用,大大降低了企业使用联邦学习的门槛;密态计算效率提升 400%、降低延迟 300%、降低功耗 70%,强大算力推动各方数据协作,实现数据资产变现。(6 6)光之树科技光之树科技天机、云间天机、云间 光之树科技旗下有天机可信计算框架天机可信计算框架和云间云间联邦学习平台联邦学习平台两个隐私计算产品,提供从共享模型训练即“云间”联邦学习到基于芯片 TEE 技术的“天机”机密计算在内的全流程、多场景安全多方计算框架,保护数据资产权益,安全发挥数据价值。天机可信

233、计算框架天机可信计算框架 天机可信计算框架于 2019 年 8 月发布。它是一个基于芯片中的可信执行环境(TEE:Trusted Execution Environment)和其他加密技术的可信计算体系,主要通过将数据从共享到联合计算在硬件创建的可信执行环境中进行的方式,从而做到数据可用不可见,确保了数据隐私、安全和合规。它具有的安全机制可同时保护模型和计算过程中的数据,可直接运行机器学习级别的高复杂度计算模型,兼容当前主流的大数据和机器学习框架包括xgboost、scikit-learn(支持逻辑回归等算法)、tensorflow 等。用户无需二次开发,可快速部署于公有云、私有或线下环境,并

234、兼容主流数据库以及数据服务。它搭配区块链用于数据存证和权限控制,做到数据使用全程可追溯可审计。来源:光之树官网49 图图 4545 天机可信计算框架总体框架图天机可信计算框架总体框架图 云间联邦学习平台云间联邦学习平台 云间联邦学习平台是基于机器学习、深度学习算法和加密协议的安全计算框架。数据无需离开本地,主要通过将模型下发到数据联盟本地服务器训 49 来源:光之树官网 https:/ 2022 联邦学习全球研究与应用趋势报告 78 保险反欺诈、供应链金融等场景。具有以下优势:a.安全性:通过联邦学习特有的算法保证数据不出本地,并通过加密协议确保数据交互的安全性。b.一键式训练和模型部署:拥有

235、自动建模功能,支持多种机器学习和深度学习的联邦学习训练和模型部署。c.可视化:对训练状态和训练效果进行全方位监控。d.快速部署:支持多种数据库的接入,快速进行私有化部署。e.场景多样性:支持多种场景,包括横向和纵向学习。(7 7)翼方健数翼方健数翼数坊翼数坊 XDPXDP 翼方健数通过多方安全计算 MPC/同态加密、联邦学习、安全沙箱计算/TEE 等前沿技术,实现数据“可用而不可见”,提出“数据和计算互联网”(IoDC)的概念并付诸实践。在技术运用层面,翼方健数自主研发的 DaaS 服务,可以对多组学数据、表型数据、临床数据进行数据治理和清洗,达到数据可用的状态,从而实现不分享原始数据、数据在

236、平台内授权使用、通过计算来分享数据的价值这一目的。2019 年 4 月 13 日,医疗数据隐私计算平台 XDP 翼数坊 v1.0 发布。翼数坊 XDP 利用隐私安全计算技术,实现合理的、授权下的数据价值共享,创造数据流通性,降低数据科学的门槛。翼数坊XDP 平台的整体设计从最底层开始,完全基于隐私计算的原理和应用。采用了一系列新型技术,包括多方安全计算、同态加密、联邦学习、可信执行环境、零知识验证等,具有开放、安全、整合、高效、智能五大性能。XDP平台可基于智能合约技术追溯源数据集,建立“数据血缘”。此外,XDP 构筑出的封闭的数据存储和计算环境,将从各医疗机构采集到的数据进行清洗、脱敏、归一

237、,形成 DaaS 数据集后进行加密,杜绝数据的泄露。形成的数据权限管理系统,可以确保平台用户所有者授权后才能使用数据,数据所有者的权益也可以得到保障。平台数据仅限于在平台内使用,即使被授权的数据也不能离开平台,从而进一步保护数据所有者的权益。XDP 平台上可以关联、集成并融合各个医疗机构、检验检查以及健康数据;数据应用方面,XDP 平台拥有分层可扩展的技术架构,能够实现高密度存储、快速访问和迅速分析计算,并且支持多种人工智能模型的建立,从而多角度直观分析和展示数据。人工智能之联邦学习 2022 联邦学习全球研究与应用趋势报告 79 来源:翼方健数官网 50 图图 4646 翼数坊翼数坊 XDP

238、XDP 平台平台总体架构总体架构 50 来源:翼方健数官网 https:/www.basebit.me/人工智能之联邦学习 2022 联邦学习全球研究与应用趋势报告 80 3 3.3.3 联邦学习联邦学习行业行业应用现状应用现状 通 过 新 闻 事 件 分 析 挖 掘 和 搜 索 系 统NewsMiner 数据库,从已公开的新闻数据发现,联邦学习技术的行业应用最早出现在 2018 年,当时被应用在金融、IT 和通信领域,后来几年其应用探索逐渐扩展到智慧城市、教育、汽车等其他多个行业领域。1 1.在金融业应用在金融业应用 联邦学习在金融业应用目前处于框架设计、合作探索、在几个业务场景中初步试点的

239、阶段。推进联邦学习在金融业应用落地的参与主体主要是科技公司(百度、腾讯、京东等)、互联网金融机构(微众银行、蚂蚁金服等)、少数传统商业银行(江苏银行、浦发银行、建设银行等)等。相关信息如表 11 所示。表表 1111 20 1 年度联邦学习技术在金融业应用动态年度联邦学习技术在金融业应用动态 金融业应用场景金融业应用场景 标题标题 年年-月月 来源来源 金融风险管理 建设银行创新合作伙伴揭晓 京东数科、科大讯飞、同盾科技等企业入选 2018-06 CSDN 数据安全、隐私保护 蚂蚁金服推出“摩斯 MORSE”多方安全计算平台 2018-08 CSDN 小微信贷 微众

240、银行开源 FATE 2019-02 新华网 解决数据孤岛问题 微众银行与瑞士再保险合作探讨联邦学习技术如何解决数据孤岛的挑战,助力保险行业共同发展。2019-5 同花顺 深度联合建信用模型、客服、侦测欺诈 同盾科技与招联金融共建 AI 创新实验室 联邦学习为主攻方向之一 2019-06 搜狐 高性能分布式异构计算技术、软硬件解决方案 星云和微众达成合作,推动 AI 新技术联邦学习的发展 2019-08 科学中国 提升金融服务质量、安全深入地挖掘数据价值 微众银行和腾讯云合作升级 联邦学习携手神盾沙箱共建行业标杆 2019-09 搜狐 数据价值共享、加速金融行业转型进化 英特尔助力平安科技联邦学

241、习落地 2019-09 新浪 多方联合建模 蚂蚁金服基于 MPC 的共享学习 2019-09 ITPUB 支持多方纵向联邦建模、支持 spark 引擎、支持 FATEServing 服务治理、支持 secureboost 在线预测、支持公有云和私有云部署和使用 微众银行发布 FATE v1.1,联合 VMware 中国研发开放创新中心云原生实验室的团队发布 KubeFATE 项目。FATEBoard:简单高效,联邦学习建模过程可视化 2019-11 贤集网 打造大规模 AI 协作通用方案 微众银行与蒙特利尔学习算法研究所合作打造安全金融 AI 实践 2019-12 腾讯 智能化信用卡 江苏银行

242、与腾讯安全举行联邦学习线上发布会,将联合共建“智能化信用卡管理联合实验室”,围绕联邦学习开展合作 2020-04 CSDN 金融数据保密、信贷业务综合评估、控制企业技术升级成本 编织联邦学习的产业路径,腾讯向金融智能化的更远处进发 2020-04 搜狐 金融产品管理、营销、安全风控、客户服务、运营管理 百度金融安全计算平台(度信)建设与实际应用 2020-06 腾讯安全 帮助银行解决数字化转型的风险(风险识别、信贷风险控制、贷记卡风控、风险定价、反洗钱、精准营销、保险定价、视觉安防)腾讯安全天御凭借其在信贷风控场景的落地实践,荣获首个 CCF-GAIR“联邦学习应用奖”2020-08 搜狐 人

243、工智能之联邦学习 2022 联邦学习全球研究与应用趋势报告 81 金融业应用场景金融业应用场景 标题标题 年年-月月 来源来源 反诈骗技术、普惠金融 反诈骗、管控金融风险,腾讯安全发力联邦学习技术 2020-09 新浪 星云 Clustar 与 VMware 联合发布联邦学习企业级解决方案 2021-9 新华网 金融服务、风险识别能力、数字营销 京东数科自研联邦学习平台 Fedlearn,助力数据安全保护并大幅提升学习效率 2020-10 机器之心 电商营销、广告投放、个性化内容推荐、广告推荐 字节跳动破局联邦学习:开源 Fedlearner 框架,广告投放增效 209%2020-10 CSD

244、N 信用卡管理 江苏银行与腾讯安全共建“智能化信用卡管理联合实验室”,围绕联邦学习开展合作。2020-5 腾讯 普惠金融试点应用 腾讯安全灵鲲与浦发银行、北京金控合作的“多方数据学习政融通在线融资项目”入选北京金融科技创新监管第二批 11 个试点名单,成为基于联邦学习的普惠金融试点应用。2020-8 第一财经 金融风控、营销 光大科技加入FATE联邦学习社区技术指导委员会(TSC)并贡献关键算法源码基于“可验证秘密分享技术”研发的“联邦学习平台多方安全求和算法”2021-1 搜狐 数字信贷 新网银行联合多家金融机构、互联网公司、公共单位,探索联邦学习在数字信贷领域的应用,将商业银行的金融大数据

245、挖掘和建模经验与互联网公司、数据生态和公共单位丰富的客户画像数据及完善的大数据支持环境相结合,打破数据孤岛、保护客户隐私、实现数据价值。2021-3 中国金融电脑 银行风险管理 京东金融云携手平安银行首次实现跨平台金融科技开发新突破_联邦()2021-3 金融界 健康险的保险获客 数鸣科技获过亿元 A 轮融资,用 AI 算法赋能医疗健康险 2021-3 新浪 数据融合应用 央行启动金融数据综合应用试点 2021-5 新华网 信贷风控 微众银行的普惠金融 AI 全布局 2021-6 雷锋网 金融数据安全与合规流通 星云 Clustar 与 VMware 联合发布联邦学习企业级解决方案 2021-

246、9 中国网 数据共享应用 北京法定数字货币试验区揭牌 将推进数字人民币全场景试点|数字人民币 2021-9 新浪 中小微企信贷评估 应科院伙渣打及 PAOB 以联盟式学习为中小微企进行信贷评估 2021-10 辅助医疗保险金给付理赔核算 14 家产险强制险理赔 跨入 2.0 版 2021-10 工商时报 工商银行的风控 数智银行让服务更民生化更智慧化 2021-11 新浪 来源:根据公开资料整理 2 2.在医疗业应用在医疗业应用 联邦学习在医疗业应用目前处于研究探索、项目试点的阶段,参与主体不仅有科技公司,而且有较多的国内外权威科研机构、大学院所、医疗机构。国际性科技期刊 Nature自然曾发

247、表关于联邦学习在医疗领域应用的文章,展示出联邦学习技术医疗应用的强大潜力,如表 12 所示。新冠疫情以来,通过使用联邦学习和来自各地区各医疗机构的数据来开发模型的研究意愿和实践更加强烈。人工智能之联邦学习 2022 联邦学习全球研究与应用趋势报告 82 表表 1212 自然关于联邦学习技术在医疗业应用相自然关于联邦学习技术在医疗业应用上海品茶相关的文章关文章 应用场景应用场景 论文论文 简介简介 来源来源 精准医疗、医疗数据隐私保护 Swarm Learning for Decentralized and Confidential Clinical Machine Learning 引入分散式机器学习方

248、法Swarm Learning 来整合各地医疗数据,它结合了边缘计算、基于区块链的点对点网络和协调,无需中央协调器即可保持机密性。Nature,no.7862(2021):265-270 医疗成像及潜在攻击向量和未来 Secure,Privacy-Preserving and Federated Machine Learning in Medical Imaging 为了促进旨在改善患者护理的大型数据集科研并保护患者隐私,必须实施技术解决方案以同时满足数据保护和利用的需求。该文概述了当前和下一代联合、安全和隐私保护人工智能的方法,重点是医学成像应用,以及医学成像及其他领域的潜在攻击向量和未来前

249、景。Nature Machine Intelligence,no.6(2020):305-311 医疗数据集分析;医疗用药诊断;精准/个性化医疗 Federated Learning in Medicine:Facilitating Multi-Institutional Collaborations Without Sharing Patient Data 表明通过多个数据私有机构合作而增加的数据访问可以更多地有益于训练模型质量。联邦学习的临床采用有望对精准/个性化医学产生催化影响。Scientific reports,no.1(2020):12598 数字健康 The Future of

250、Digital Health with Federated Learning 如果无法获得足够的数据,机器学习将无法充分发挥其潜力,并最终无法从研究过渡到临床实践。本文探讨了联邦学习如何为数字健康的未来提供解决方案,并强调需要解决的挑战和注意事项。NPJ DIGITAL MEDICINE,no.1.0(2020):119 联邦学习在医疗行业已开展的项目,不仅包括系统平台,而且具体落地到脑卒预测、识别脑肿瘤、预测新冠患者的氧气需求等实践。已公开的应用信息如表 13 所示。表表 1313 20 1 年度联邦学习技术在医疗业应用动态年度联邦学习技术在医疗业应用动态 医疗业

251、应用场景医疗业应用场景 标题标题 年年-月月 来源来源 解决信息孤岛,提供数据安全和授权使用机制 医疗数据隐私计算平台 XDP 翼数坊 v1.0 全球首发 2019-04 搜狐 医疗成像 英伟达在 MICCAI 2019 上发布首个面向医学影像的隐私保护型联邦学习系统 2019-10 摩尔芯闻 医疗服务患者数据保护 英伟达推出了 NVIDIA Clara 联邦学习 2019-12 极客公园 生物医药、健康管理、养老旅游、医疗设备、健康保险、保健食品等 Hitacea(医图亚)打造成为基于区块链+联邦学习等新兴技术的亚洲首家全链条大健康科技产业平台 2020-04 科学中国 疾病预测 腾讯天衍实

252、验室联合微众银行研发医疗联邦学习 AI 利器让脑卒中预测准确率达 80%2020-04 CSDN 医疗诊断 英特尔和宾夕法尼亚大学佩雷尔曼医学院组建医疗联盟研发用以识别脑肿瘤的人工智能模型 2020-05 中电网 AI 影像辅助诊断、高精度疾病检测、多维分析以及 3D 术前规划与模拟 商汤科技 SenseCare智慧诊疗平台推出包含胸部 CT、胸部 X 线、心脏冠脉、病理、骨肿瘤等多款产品解决方案 2020-07 趣味科技 保护用户隐私建模、医保基金控费、个人与机构拒付识别、医学腾讯医疗健康携手微众银行成立联合实验室 2020-08 TechWeb 人工智能之联邦学习 2022 联邦学习全球研

253、究与应用趋势报告 83 医疗业应用场景医疗业应用场景 标题标题 年年-月月 来源来源 影像辅助诊断、医院运营、临床医疗、健康管理、科研教学 医学统计分析、临床试验模、药物研发 中科院上海药物所联合华为云发布基于 ModelArts 平台的药物联邦学习服务 2020-09 飞象网 药物隐私数据保护 药物研发 同济大学与微众银行 AI 团队协同提出了一种基于联邦学习的协同药物定量构效原型系统 FL-QSAR 2020-12 科学中国 临床验证评估、医学影像辅助诊断 德国癌症研究中心、伦敦国王学院、麻省总医院、NVIDIA、斯坦福大学和范德堡大学推出 MONAI(Medical Open Netwo

254、rk for AI)2020-12 电子发烧友 电子病例相似性搜索、病人表征学习、SplitNN、社区特异性模型、预测健康风险 康奈尔大学研发团队发现联邦学习将可应用于众多生物医学领域的场景 论 文:Federated Learning for Healthcare Informatics 2021-5 澎湃新闻 辅助医生诊疗 推出拟人化、全技能的“主动式 AI 医生”,左手医生获得 1 亿元 B 轮融资 2021-8 36 氪 新冠患者对呼吸器的需求预测 来自美国、英国、加拿大、日本、韩国、泰国、巴西以及台湾等国家地区 20 间医院及研究机构,共同开发能够精准预测新冠患者对呼吸器的需求程度,

255、透过先进 AI 技术辅助医事人员预测患者的氧气需求,以便最有效率地安置患者,使医疗资源达到更适切的运用。2021-10 中时新闻网 医学成像、基因分析、肿瘤学和新冠肺炎(COVID-19)研究 NVIDIA 利用 FLARE 进行联邦学习,将协作式 AI 带入医疗健康及其他领域 2021-11 英伟达中国 AI 诊疗、新冠 CT 数据采集 华中科技大学、剑桥大学、斯坦福大学、约翰霍普金斯大学等国内外权威科研机构提出基于联邦学习开源医学人工智能计算框架(UCADI)论文:Advancing COVID-19 Diagnosis with Privacy-Preserving Collaborat

256、ion in Artificial Intelligence 2021-12 机器之心 精准医疗 英特尔与高雄荣总、纬创打造 OWL 数字病理平台,同步实现数字化病理学 2021-12 ETtoday 财经云 来源:根据公开资料整理 3.3.在电信业应用在电信业应用 联邦学习的最初提出就是为了解决移动设备数据训练问题,可以看作是其在电信业的最早应用。从公开的新闻数据看,联邦学习在电信业应用探索从 2018 年开始至今,应用场景从早期的通信资源分配已扩展到近期的客户体验和精准营销、6G 和卫星网络等。其中的参与主体主要是大型通信运营商、软硬件制造商等。相关信息如表 14 所示。表表 1414 2

257、0 1 年度联邦学习技术在电信行业应用动态年度联邦学习技术在电信行业应用动态 电信业应用场景电信业应用场景 标题标题 年年-月月 来源来源 车联网通信 华为数字算法实验室利用联邦学习原理解决车联网中可靠低延迟通信的联合功率和资源分配问题 2018-07 arXiv.org 人工智能之联邦学习 2022 联邦学习全球研究与应用趋势报告 84 电信业应用场景电信业应用场景 标题标题 年年-月月 来源来源 智能手机 谷歌发布全球首个移动端分布式机器学习系统,数千万手机同步训练 2019-02 亿欧 联邦节点管理、边缘节点管理、联邦实例运行 华为 NAIE 联邦学习服务助力

258、华为 CloudMSE 基于业务感知(Service Awareness,SA)技术的业务管理 2019-09 知乎 数据采集、模型训练、推理判断及智能预测 中国移动在3GPP标准引入基于联邦学习的分布式智能架构 2020-07 通信世界 识别业务流量后的带宽控制、阻塞控制、业务保障,用户信用评估、用户满意度提升 华为 CloudMSE 的业务感知(Service Awareness,SA)技术 2020-10 知乎 精确营销并推荐最佳产品权益 天津移动打造基于“联邦学习+区块链”的多方安全计算引擎系统-“珍珑”,在运营商、本地生活、视频内容、交通出行等多行业数据的支撑下,实现精确的营销识别,

259、并推荐最佳产品权益,让区块链+联邦学习成为智慧零售的引擎、智脑。2020-12 C114 技术 语音识别、打字预测、更新系统 苹果和谷歌运用联邦学习技术,在不获取原始数据的情况下更新基于云的机器学习系统。此前,谷歌使用该技术来使其移动打字预测与语言趋势保持同步;苹果已使用它来更新语音识别模型的研究。2021-6 Wired 6G 网络、卫星互联网 北邮深研院与天仪研究院共建“天算星座”,首发星计划明年择机发射 2021-11 中国科技网 手机用户体验提升 手机 AI 怎么突然就智商井喷了?_高通_模型_量化 2021-12 搜狐 客户体验管理 联邦学习在移动通信网络智能化的应用,进行客户体验感

260、知模型训练 2022-2 移动通信J 来源:根据公开资料整理 4 4.在在 IT IT 行业应用行业应用 联邦学习在 IT 业应用动向主要聚焦于数据安全和基于数据的增值服务方面,主要参与者是互联网科技公司以及一些有地方政府背景的数据交易所,如表 15 所示。表表 1515 20 1 年度联邦学习技术年度联邦学习技术在在 IT IT 行业应用动态行业应用动态 IT IT 行业应用场景行业应用场景 标题标题 年年-月月 来源来源 用户数据保护 腾讯云发布数据安全解决方案数盾 2018-05 腾讯 隐私数据安全流转 ARPA 测试网 1.0 版本 ASTRAEA 正式发布

261、 2019-03 金色财经 可扩展分布式数据协作 趣链科技自主研发 BitXMesh 正式发布 2019-05 太平洋电脑 联合学习、联合计算、数据共享、模型训练 光之树发布天机可信计算框架和云间联邦学习平台 2019-08 搜狐 跨行业数据融合、隐私保护 富数科技结合联邦学习和安全多方计算技术推出了富数安全计算平台 2019-08 凤凰网 面向产业应用的工具组件 百度发布 3 项深度学习前沿技术工具组件:联邦学习PaddleFL、图神经网络 PGL 和多任务学习 PALM 等 2019-11 钱江晚报 提出知识联邦框架 同盾科技人工智能研究院深度学习实验室发布成果:“面向联邦学习的加密神经网

262、路”2019-09 极客网 人工智能之联邦学习 2022 联邦学习全球研究与应用趋势报告 85 IT IT 行业应用场景行业应用场景 标题标题 年年-月月 来源来源 扩大光大联邦学习生态圈 光大科技加入 FATE 联邦学习社区技术指导委员会(TSC)并贡献关键算法源码 2020-01 新华网 数据脱敏及去标识化、加密算法支持、DMZ 区建设 同盾科技联邦学习技术加持 让数据“可用不可见”2020-03 网易 大数据安全 平安科技联邦智能平台“蜂巢”落地 2020-09 搜狐 解决数据交易过程中确权困难、定价困难、隐私保护困难等问题 北部湾大数据交易中心建设运营取得初步成效 2021-1 人民网

263、 支撑数据使用权交易 北京国际大数据交易所成立 探索全国数据交易新样板 2021-3 财经网 根据用户浏览习惯进行广告投放 新技术刚测试就被禁 谷歌“杀死”Cookies 真能重写规则?2021-4 新浪 用户数据保护 抹掉你的网络痕迹,从未如此简单。谷歌宣称,从今年起,所有用户的所有使用数据都会默认在 18 个月后自动删除 2021-7 搜狐 公共数据交易 深圳已经在筹备数据交易所等多项基础设施建设 预计今年底可开始公共数据交易 2021-8 新浪 广告平台客户隐私数据保护 SaaS+云计算,能打开汇量科技的增长空间吗?2021-10 OFweek 物联网 解决企业信息安全及隐私外泄 科技园

264、推金融科技虚拟实验室 采用联邦学习技术保数据安全 2021-11 香 港经济 日报 来源:根据公开资料整理 5.5.在在其他行业应用其他行业应用 2019 年以来,智慧城市、教育、汽车/自动驾驶等领域也尝试引入联邦学习技术,进行相关的应用探索,如表 16 所示。表表 1616 20 1 年度联邦学习技术在其他行业应用动态年度联邦学习技术在其他行业应用动态 行业行业 应用场景应用场景 标题标题 年年-月月 来源来源 智慧城市 智慧城市政务、安全、交通、医疗、物流,跨部门、跨领域、跨区域的即时数据处理和数据融合 京东城市基于城市计算和联邦学习技术打造的产品“数字网关”2

265、019-10 技术前线 公共安全、智能交通、智能能源 京东城市发布了城市操作系统升级版本“智能城市操作系统 2.0”2019-12 链财经 重大灾难中的人群疏散;零售、物流业的仓库选址 微众银行 AI 团队可视化再获新里程碑,两篇论文获 EuroVis 2020 收录 2020-03 CSDN 城市交通监测 星云 Clustar 打造智慧城市领域的数据集 CityNet 2020-09 腾讯 城市管理、公安、社区安防 微众银行与特斯联在北京宣布成立“AIoT 联合实验室”2019-12 贤集网 信用城市、市域治理现代化、智能商业等 京东数科联邦数字网关、区块链技术获工信部网络安全应用试点示范项

266、目殊荣 2020-12 央广网 市域治理现代化 全球首个!京东科技搭建雄安新区数字孪生城市的数字底座 2021-3 时代在线 电力数据共享 以安全合规为基础推进电力数据开放共享 2021-9 北极星输配电网 教育 教育客户广告跑量、课程客户获课续费 字节跳动与教育行业结合,基于 Fedlearner,提升客户的续课率 2020-10 CSDN 未成年人防沉迷处理 支付宝公开未成年人防沉迷专利|2021-7 新浪 人工智能之联邦学习 2022 联邦学习全球研究与应用趋势报告 86 行业行业 应用场景应用场景 标题标题 年年-月月 来源来源 智慧零售 居民消费 苏宁控股与科大讯飞联合推进数字经济发

267、展,提高 AI 普惠能力 2020-11 新浪 促成企业的交叉销售 创略科技尝利用联邦学习更多促成企业的交叉销售,可以降低获客成本、提高客户留存率、培养客户忠诚度 2021-11 钛媒体 汽车/自动驾驶 共享数据、云计算 英伟达发布了用于自动驾驶和机器人的软件定义平台NVIDIA DRIVE AGX Orin 2019-12 镁客网 汽车产品质量检测 将 AI 视觉应用于质量管理,菲特智能检测完成数千万元 A+轮融资 2021-3 36 氪 用户行为数据建模 自动驾驶除了能省人工费,还能节省 10%油耗 2021-7 第一财经 人工智能之联邦学习 2022 联邦学习全球研究与应用趋势报告 87

268、 4 4.联邦学习联邦学习发展趋势发展趋势 4 4.1.1 研究研究趋势趋势 根据关键词,从 AMiner 数据库中查找出联邦学习相关论文,其中包含论文所在领域的分支术语和年份,统计含有这些术语的论文数量,给出论文量排名前十的术语,再统计这些术语的起止年份,划分时间窗格,生成大数据智能的发展趋势河流图,如图 47 所示。图图 4747 联邦学习技术发展趋势联邦学习技术发展趋势 来源:AMiner 知因系统。(注:图中的每个色带表示一个技术术语,其宽度表示该技术在当年的热度,与当年的论文数量呈正相关;各项技术在每一年份中按照其热度进行排序,热度越高的技术,其位置越排在靠上方。)由图 47 可见,

269、本期的联邦学习热度前十的研究主题依次分别是:Data Privacy(数据隐私)、Deep learning(深度学习)、Differential Privacy(差分隐私)、Edge Computing(边缘计算)、Internet of Things(物联网)、Cloud Computing(云计算)、Mobile Device(移动设备)、Homomorphic Encryption(同 态 加 密)、Optimization Problem(优 化 问 题)、Communication Effiency(沟通效率)。整体来看,这些研究主题均呈现平稳上升的发展趋势,其中,近一年来研究热度

270、增幅最大的主题是物联网,边缘计算次之。对比上期热点结果,本期的联邦学习技术研究热度前十主题尽管仍然聚焦于安全与隐私技术方面,但在应用方面发生了一些变化,更加突出了物联网与移动设备方面的研究,而上期的区块链本期没能入榜。同样本期没能上榜的研究热点主题还有关于 Aggregation(聚合)与 Malicious Attack人工智能之联邦学习 2022 联邦学习全球研究与应用趋势报告 88(恶意攻击)方面的问题研究,以及联邦学习在Healthcare(医疗保健)方面的应用研究。4 4.2.2 技术成熟度技术成熟度 技术成熟度指单项技术或技术系统在研发过程中所达到的一般性可用程度51。研究机构Ga

271、rtner 发布的技术成熟度曲线(Hype Cycle)因模型较成熟,已被广泛用来评估新科技的可见度,目前已成为是科技产业界技术预测的风向标。基于 Gartner 近年发布的相关技术成熟度曲线,本报告发现,联邦学习(Federated Machine Learning)于 2019 年首次出现在 Gartner 数据科学与机器学习技术成熟度曲线(Hype Cycle for Data Science and Machine Learning)之中,并且被视为“在分布环境下的训练机器学习算法的重要创新”52。这表明联邦学习技术应用趋势发展较快,自诞生后仅用了三年时间就吸引了投资者、企业家和消费者

272、的关注,也吸引到 Gartner 对该技术应用影响的研究。此后两年,联邦学习相继出现在其他四个Gartner 的技术成熟度曲线里面,分别是 2020 与2021 年发布的数据科学与机器学习技术成熟度曲线、以及 2021 年的隐私技术成熟度曲线(Hype Cycle for Privacy)与公用事业行业 IT 技术成熟度曲线(Hype Cycle for Utility Industry IT),详细情况如表 17 所示。由表 17 可见,在这些技术成熟度曲线之中,联邦学习都是处于“创新触发期”(Innovation Trigger),效益评级均为“高”,都属于“新兴”技术,到达生产高峰期(t

273、he Plateau of Productivity)的时间都预计为 510 年,且市场渗透率(Market Penetration)都低于 1%。表表 1717 联邦学习相关联邦学习相关 GartnGartner er 技术成熟度曲线技术成熟度曲线 Hype CycleHype Cycle T Timeime Benefit Benefit RatingRating MaturityMaturity Time to PlatTime to Plateaueau Market PenetratiMarket Penetrationon Hype Cycle for Data Science a

274、nd Machine Learning,2019 53 Innovation Trigger High Emerging 510 年 Less than 1%of target audience Hype Cycle for Data Science and Machine Learning,2020 54 Innovation Trigger High Emerging 510 年 Less than 1%of target audience 51 朱毅麟.技术成熟度对航天器研制进度的影响J.航天器工程,2009,18(2):9.52 Hype Cycle for Data Science

275、and Machine Learning,2019,ARCHIVEDPublished 6 August 2019-ID G00369766-By Shubhangi Vashisth,Alexander Linden,et al,https:/ 53 Hype Cycle for Data Science and Machine Learning,2019,ARCHIVEDPublished 6 August 2019-ID G00369766-By Shubhangi Vashisth,Alexander Linden,et al,https:/ 54 Hype Cycle for Dat

276、a Science and Machine Learning,2020,28 July 2020 G00450404,Analyst(s):Shubhangi Vashisth,Alexander Linden,Jim Hare,Pieter den Hamer,https:/ 人工智能之联邦学习 2022 联邦学习全球研究与应用趋势报告 89 Hype Cycle for Data Science and Machine Learning,2021 55 Innovation Trigger High Emerging 510 年 Less than 1%of target audience

277、 Hype Cycle for Privacy,2021 56 Innovation Trigger-High Emerging 510 年 Less than 1%of target audience Hype Cycle for Utility Industry IT,2021 57 Innovation Trigger High Emerging 510 年 Less than 1%of target audience 来源:Gartner 公司 值得关注的是,在 2019 年“数据科学与机器学习”技术成熟度曲线之中,由于首轮风投刚开始以及边缘数据收集问题等因素影响,当年 Gartner

278、预计联邦学习技术按照当时进行中的研究进展“不太可能在 5 到 10 年内”达到“生产高峰期”(the Plateau of Productivity)。随着隐私法规的激增、对数据隐私保护的需求增加,以及集中收集和存储大数据难度的增加等多个驱动因素影响,联邦学习被采用的范围和程度逐年增加。在 2020 年之后的技术成熟度曲线之中,虽然联邦学习技术仍然都处于“创新触发期”(Innovation Trigger),但相比2019 年,联邦学习在 2020 年距离“期望膨胀期”(Peak of Inflated Expectations)又更近一步,已经度过了公司初创和第一轮风投的发展阶段,正处于“第

279、一代产品期、价格高、大量客户化定制”(First-generation products,high price,lots of customization needed)的阶段;在 2021 年距离“期望膨胀期”(Peak of Inflated Expectations)再 近 一 步,进 入 了 早 期 采 用 者 调 查(进 入 了 早 期 采 用 者 调 查(Early Early adopters investigateadopters investigate)阶段)阶段 58。而在隐私技术成熟度曲线(Hype Cycle for Privacy)与公用事业行业 IT 技术成熟度曲线

280、(Hype Cycle for Utility Industry IT)中,联邦学习则是于 2021 年开始 59 才占有一席之地的。这主要是由于联邦学习的采用在过去一年加速发展,特别是因为它在新冠流行期间已成功用于医疗保健,以及该技术特别适用于例如物联网、网络安全、隐私、数据货币化和数据共享等受监管行业。4 4.3.3 市场化与商业化趋势市场化与商业化趋势 联邦学习技术在国内外发展快速。有公开资料 55 Hype Cycle for Data Science and Machine Learning,2021,August 2021-ID G00747536-By Farhan Choudh

281、ary,Alexander Linden,Jim Hare,Pieter den Hamer,Shubhangi Vashisth,https:/ 56 Hype Cycle for Privacy,2021,Published 13 July 2021 ID G00743765,By Bart Willemsen,https:/ 57 Hype Cycle for Utility Industry IT,2021,Published 21 July 2021 ID G00747517,By Nicole Foust,https:/ 58 Gartner Hype-Cycle:Everythi

282、ng You Need To Know,https:/www.wowso.me/blog/gartner-hype-cycle 59 联邦学习首次被纳入 Gartner 隐私计算技术成熟度曲线,东方财富网,2021-08-09 60 一文读懂联邦学习的前世今生,东科技技术说,2020-11-17,可查的联邦学习研究或应用单位已超过百家 60。人工智能之联邦学习 2022 联邦学习全球研究与应用趋势报告 90 联邦学习可以被看成是一种连接联邦成员的大数据资产“连接”工具,具有非常广泛的市场应用价值,适用于医学研究、金融风控、医疗、智慧城市、移动互联网等多个实际场景。一些大型企业也开展了联邦学习技

283、术的战略布局和应用,推出了相关的行业解决方案和项目,这反映出联邦学习的市场需求较热。随着国内外相关标准和法规的完善和实施,以及解决方案和开源项目的不断迭代,联邦学习技术的未来应用场景将持续增加。未来能否出现大规模联邦学习商业化应用,将主要与网络带宽问题密切相关。这是因为联邦学习需要非常大量的中间结果交互,在某些场景下需要超过 100Mb/s 的网络带宽才能在有效的时间内完成建模,而某些银行仅支持 2Mb/s 的网络带宽,在样本量较大的情况下,这可能导致建模时间长达数月,无法满足业务的需求。5G 技术的发展和信息高速公路的建设,将会促进联邦学习大规模商业化应用的实现。此外,联邦学习未来市场与商业

284、化的实际落地将出现更多的异构场景下的应用。应用场景可分为同构场景和异构场景。同构场景指的是两个企业属于相同或相近的领域,所拥有的数据性质相似、特征相近,但是样本不同。如在银行和金融机构间的合作,双方拥有的不同的用户样本,但是样本属性同质,这种场景下使用横向联邦学习,可达到将双方样本放到一起的建模效果。异构场景指的是两个企业分属不同的领域,所拥有的数据性质不同、特征不同,但是有重叠的样本ID。比如银行与互联网公司之间的合作,双方有重叠的用户 ID,但是企业间各自拥有用户不同的特征,如银行有用户的收入和交易行为,互联网公司有用户的社交或出行行为,这种场景下使用纵向联邦学习建模,可达到特征增加的建模

285、效果。在当前的联邦学习市场化应用中,同构场景下的探索更为成熟。未来预计将出现更多的联邦学习在行业垂直领域的应用尤其是异构场景下的应用。4 4.4.4 国内外国内外相关相关标准标准 技术标准化建立与实施是联邦学习技术落地应用的重要依据。通过研制和建立联邦学习的国内标准(如团体标准和国家标准)与国际标准(如 IEEE企业标准),制定联邦学习的算法框架规范、使用模式和使用规范,可帮助更多行业和海内外不同类别的实体在保证用户隐私和数据安全的情况下,合 https:/ 作共赢、建立更准确的数据模型,同时,也给人工智能在不同产业中的实际落地提供可行性依据。截至目前,联邦学习领域已经由企业或行业联盟协会发起

286、并建立了初步的企业级国际标准和国家级团体规范。部分标准信息如表 18 所示。人工智能之联邦学习 2022 联邦学习全球研究与应用趋势报告 91 表表 1818 联邦学习相关国内外标准联邦学习相关国内外标准 领域领域 类别类别 标准名称标准名称 发布方发布方 发布时间发布时间 人工智能人工智能 团体规范标准 信息技术服务联邦学习参考架构 61 中国人工智能开源软件发展联盟(AIOSS)2019 年 6 月 国际标准 IEEE P3652.1 联邦学习架构和应用规范(Guide for Architectural Framework and Application of Federated Mac

287、hine Learning)电气与电子工程师协会(IEEE)标准委员会(SASB)2021 年 3 月 5G5G 通信通信 国际标准 NWDAF(Network Data Analytics Function-5G 网络 AI)的联邦学习技术标准62 3GPP 通过,由亚信科技与中国移动共同提交 2020 年 7 月 国际标准 面向物联网和智慧城市/社区的联邦机器学习需求及参考架构(Requirements and Reference Architecture of IoT and Smart City&Community Service based on Federated Machine

288、Learning)63 华中科技大学、中国信科、中兴通讯、中国联通和中国移动共同提交,在国际电信联盟(ITU)获批正式立项 2020 年 7 月 团体标准 基于联邦学习的数据流通产品技术要求与测试方法64 中国通信标准化协会 2020 年 7 月 金融金融 行业标准 多方安全计算金融应用技术规范(JR/T 0196-2020)65 中国人民银行 2020 年 11 月 随着国际与国内联邦学习标准的相继出台,在未来发展中,相关标准的实施与执行将是联邦学习领域的发展重点,影响着该技术作为下一代人工智能协作网络基础的能力。能够有效推行标准化的联邦学习技术规范,不仅有利于来自不同行业、不同业务类别的企

289、业在开展业务或进行合作的过程中合法合规地共同使用数据、保护用户隐私和数据安全,而且有助于建立更为准确的数据模型,进而促进该技术走向成熟化和开启大规模工业化应用。61 国内首个联邦学习标准正式出台,微众银行 AI 团队领衔,2019-07-01,https:/ 62 国内首个联邦学习标准正式出台,微众银行 AI 团队领衔,2019-07-01,https:/ 63 华中科技大学牵头制定的全球首个面向物联网与智慧城市的联邦学习参考架构国际标准正式获批立项,中国教育在线,2020-07-29 64 中国信通院解读“隐私计算系列标准与测试方法”2021-01-25,https:/ 65 央行发布多方安

290、全计算金融应用技术规范 确保数据安全,2020-12-24,https:/ 人工智能之联邦学习 2022 联邦学习全球研究与应用趋势报告 92 4 4.5.5 生态生态建立建立与发展与发展 国际与国内联邦学习标准的相继出台有力促进了联邦学习生态的建立与发展。随着更多行业的更多企业机构加入和布局该技术的应用,联邦学习生态逐渐从当前的跨地域、跨平台互联互通向开放通用的方向进发66。截至目前,联邦学习生态建设较成规模的有FATE 开源社区与开放群岛(Open Islands)开源社区。其中,FATE 开源社区成立于 2019 年,是面向全球隐私计算联邦学习开源生态中的开发者、贡献者、用户及生态伙伴建

291、立的学习与交流平台,拥有全球首个工业级安全联邦学习框架;现有 3000多位来自近千家企业及科研机构的开发者参与社区生态共建。开放群岛开源社区成立于 2022 年 5月,是由深圳数据交易有限公司联合包括中国信通院、鹏城实验室、中经社、国家超级计算深圳中心等国家智库及研究机构,以及中国工商银行、平安银行、建信金科、华为云、腾讯云等大型企业及科技公司共计近 50 家发起单位牵头成立的国内首个国际化自主可控隐私计算开源社区,促进全国性科技资源开放共享,推动数据要素流通关键基础技术发展,打通数据、平台、机构之间的孤岛,实现跨地区、跨地域、跨平台互联互通。未来在联邦联盟中,所有成员的数据在合法合规下可以带

292、来真正的价值流动,为自身带来收益,同时各个行业还可以建立各自的联邦数据网络,不同行业的网络间还将有所交甚至连接紧密 67,从而促进各自行业良性发展。在良好的联邦学习生态联盟中,联邦学习参与方,不仅可以获得相关的技术支持等服务与产品,快速便捷地完成相关应用的开发部署工作,而且可以在良好的开源环境下,更加高效、准确地自建模型、联合建模、共享模型、共建联邦学习生态。联邦学习生态的建立,需要学术界和产业界的共同推动 6868,使之将成为参与各方机构之间数据合作的桥梁,挖掘数据背后的真正的知识和价值。66 联邦学习开源社区 FATE 技术委员会 2021 年第二次会议召开,2021 年 7 月 5 日,

293、 67 微众银行人工智能部、鹏城实验室、腾讯研究院、中国信通院云大所、平安科技、招商局金融科技、电子商务与电子支付国家工程实验室(中国银联):联邦学习白皮书 V2.0,深圳,2020 年,第 28-30 页。68 微众银行首席 AI 官杨强:建立联邦学习生态需学术和产业界共同推动 N TechWeb,2020 年 11 月 16.日http:/ 2022 联邦学习全球研究与应用趋势报告 93 5 5.结语结语 通过回顾联邦学习技术从 2016 年被提出至2021 年的发展,可以发现该“新兴”技术研究热度逐年上升,研究论文数量和专利申请量都在逐年增多。总体而言,相比其他国家而言,我国学术界和产业

294、界对联邦学习科研和推广应用更为热衷。全球联邦学习论文发布量以中美两国为引领。从论文影响力来看,六成以上高被引论文来自中国和美国,同时中美两国合作的论文数量也最多。全球高被引论文数量最多的机构是谷歌,最多的大学是卡内基 梅隆大学。中国的高被引论文量较多(3篇及以上)的机构是北京邮电大学、微众银行,分别居于全球的第三、五位。人工智能国际顶会研讨会评选出的联邦学习杰出论文来自于美国、中国、瑞士、沙特阿拉伯、新加坡和韩国六个国家,其中,美国的杰出论文数量占 45.5%;中国的占 31.8%,中美两国合计占比达七成以上。就单个机构的杰出论文数量而言,美国的卡内基 梅隆大学与中国的香港科技大学并列第一。全

295、球高被引论文作者主要聚集在美国和中国。美国的高被引论文作者数量最多,占全球一半,同时也是中国高被引论文作者数量的 2.6 倍。就机构而言,高被引学者数量较多的机构主要位于美国、中国、新加坡,其中,中国拥有该领域高被引学者数量较多的机构是香港科技大学、微众银行、北京邮电大学、中国电子科技大学。值得注意,企业人才(例如供职于谷歌等)是联邦学习领域中的一个不可忽视的研究群体,因为全球研究联邦学习的高被引论文作者之中,有 26.1%供职于企业。在专利申请方面,中国是受理联邦学习专利申请数最多的地区,约占全球受理总量的六成,约是在美国受理专利量的 4 倍,数量优势非常突出。联邦学习专利申请量 TOP10

296、 的机构主要分布在中国和美国两个地区,同时,专利申请量排名前三的机构都位于中国。从国内地域布局来看,近年来联邦学习专利申请量领先的地区主要是广东、北京、浙江、上海、江苏等省市。从技术研究热点看,联邦学习研究较多聚焦于机器学习方法模型、模型训练、隐私保护等主题。2021 年明显加大了物联网相关的联邦学习研究力度。联邦学习目前的专利布局也主要聚焦安全与隐私保护方向,以及机器学习方法、模型训练等方面。这反映出联邦学习应用已经越来越接近于“生产高峰期”。本报告还展示了联邦学习不同细分研究方向上的代表学者学术画像,梳理了市面上主要的联邦学习系统框架,以及在 IT 科技、金融、医疗健康、通信、智慧城市、智

297、慧零售、教育、汽车等多个行业落地应用场景,并探讨了该技术的市场化与商业化趋势,以及推行的国内外标准与建立联邦学习生态等问题。人工智能之联邦学习 2022 联邦学习全球研究与应用趋势报告 94 联邦学习从技术维度上解决了人工智能发展过程中的安全问题,从产业维度上解决了合法合规训练数据的问题,被学术界和产业界寄予厚望。中国已经成为联邦学习技术的深度参与方,国内企业和科研机构积极参与联邦学习的技术研发和应用,以及标准制定。未来,随着人工智能技术和应用的不断升级,联邦学习的技术研发焦点仍将关注于数据安全与隐私,其应用场景还将进一步扩大和深入。人工智能之联邦学习 2022 联邦学习全球研究与应用趋势报告

298、 95 附录附录一一 联邦学习领域联邦学习领域顶级国际顶级国际期刊会议列表期刊会议列表 以CCF 推荐国际学术期刊和会议目录为数据来源,并征求领域顾问专家意见而确定。序号序号 期刊期刊/会议名称会议名称 简称简称 1 ACM Conference on Computer and Communications Security CCS 2 The Network and Distributed System Security Symposium NDSS 3 USENIX Security Symposium USENIX Security 4 IEEE Symposium on Securit

299、y and Privacy SP 5 International Conference on Learning Representations ICLR 6 Neural Information Processing Systems NIPS 7 Machine Learning and Systems MLSys 8 Distributed AI DAI 9 IEEE International Conference on Distributed Computing Systems ICDCS 10 International Conference on Machine Learning I

300、CML 11 AAAI Conference on Artificial Intelligence AAAI 12 International Joint Conference on Artificial Intelligence IJCAI 13 ACM Transactions on Intelligent Systems and Technology 14 IEEE International Conference on Big Data 15 Nature NATURE 16 IEEE Internet of Things Journal 17 IEEE Transactions on

301、 Industrial Informatics IINF 18 IEEE Transactions on Parallel and Distributed Systems TPDS 19 IEEE Transactions on Big Data 20 Future Generation Computer Systems 21 Procedia Computer Science 22 Journal of Network and Computer Applications 23 Computer Networks 24 Computers&Security 25 Network and Sys

302、tem Security NSS 26 IEEE International Conference on Communications ICC 27 International Conference on Machine Learning and Intelligent Communications MLICOM 人工智能之联邦学习 2022 联邦学习全球研究与应用趋势报告 96 附录附录二二 联邦学习联邦学习架构和应用规范架构和应用规范简介简介 IEEE P3652.1联邦学习架构和应用规范(Guide for Architectural Framework and Application

303、of Federated Machine Learning)相关信息如下。1.目标(Purpose)本规范的目的是为 AI 工业应用提供可行的解决方案,即集体使用数据而无需直接交换数据。在隐私和数据保护问题变得越来越重要的情况下,本规范有望促进协作,将促进并允许使用分布式数据源来开发 AI,而不会违反法规或道德考量。(The purpose of this guide is to provide a feasible solution for industrial application of AI-using data collectively without exchanging data

304、 directly.This guide is expected to promote and facilitate collaborations where privacy and data protection issues have become increasingly important.This guide will promote and enable to use of distributed data sources for the purpose of developing AI without violating regulations or ethical consid

305、erations.)2.范围(Scope)联合学习定义了一种机器学习框架,该框架允许从分布在数据所有者之间的数据构建一个集体模型。本规范提供了跨组织的数据使用和模型构建的蓝图,同时满足了所适用的隐私,安全和法规要求。它定义了联合机器学习的体系结构框架和应用程序准则,包括:1)联合学习的描述和定义,2)联合学习的类型和每种类型适用的应用场景,3)联合学习的性能评估,以及 4)相关法规要求。(Federated learning defines a machine learning framework that allows a collective model to be constructed

306、 from data that is distributed across data owners.This guide provides a blueprint for data usage and model building across organizations while meeting applicable privacy,security and regulatory requirements.It defines the architectural framework and application guidelines for federated machine learn

307、ing,including:1)description and definition of federated learning,2)the types of federated learning and the application scenarios to which each type applies,3)performance evaluation of federated learning,and 4)associated regulatory requirements.)人工智能之联邦学习 2022 联邦学习全球研究与应用趋势报告 97 附录三附录三 联邦学习联邦学习五份五份特刊

308、的特刊的已发表已发表文章文章 研究时段内,联邦学习相关特刊的已发表文章按照期刊影响因子及刊文顺序如下。Computer Networks Computer Networks 联邦学习特刊已发表文章联邦学习特刊已发表文章 期刊 Computer Networks 的联邦学习特刊主 题 是“Special section on Enabling Blockchain and Federated Learning for Smart Services in Beyond 5G/6G Networks”69,上海品茶相关的文章于 2021 年相继发表在该期刊的 Volume 203-205 上。相关的联邦学习文

309、章共 7 篇,相关介绍如下。卷号卷号 序号序号 论文标题及链接论文标题及链接 作者作者 被引量被引量(次)(次)亮点亮点 203 1 A blockchain-based Fog-oriented lightweight framework for smart public vehicular transportation systems Thar Baker,Muhammad Asim,Hezekiah Samwini,Nauman Shamim,.Rajkumar Buyya 1 提出了一种响应式和轻量级的框架,该框架采用区块链进行身份验证,利用雾计算对分布式应用程序云计算的改进,提供高效

310、、安全的交通系统。2 Optimal pricing-based computation offloading and resource allocation for blockchain-enabled beyond 5G networks Kaiyuan Zhang,Xiaolin Gui,Dewang Ren,Tianjiao Du,Xin He 2 提出了两种基于定价的方案来解决这两个计算卸载问题,其中分析了贝叶斯-纳什均衡和斯塔克尔伯格均衡。3 Deep data plane programming and AI for zero-trust self-driven networki

311、ng in beyond 5G Othmane Hireche,Chafika Benzad,Tarik Taleb 0 提出了一个以支持跨多个域的完全分布式的可信赖 SelfDN 框架。204 1 Privacy-preserving blockchain-enabled federated learning for B5G-Driven edge computing Yichen Wan,Youyang Qu,Longxiang Gao,Yong Xiang 0 建议将启用区块链的 FL 与启用差异隐私(DP)的 Wasserstein 生成对抗网络(WGAN)集成,以保护 B5G 网络中

312、边缘设备的模型参数。2 Blockchained service provisioning and malicious node detection via federated learning in scalable Internet of Sensor Things networks Zain Abubaker,Nadeem Javaid,Ahmad Almogren,Mariam Akbar,.Jalel Ben-Othman 0 为传感器物联网(IoST)提出了一种支持超越第五代(B5G)的区块链恶意节点检测模型,还为 IoST 提出了一种使用级联加密和特征评估过程的安全服务提供方案。

313、3 Federated learning for malware Valerian Rey,Pedro 14 调查了联邦学习在物联网 69 Computer Networks|Enabling Blockchain and Federated Learning for Smart Services in Beyond 5G/6G Networks|ScienceD by Elsevier 人工智能之联邦学习 2022 联邦学习全球研究与应用趋势报告 98 卷号卷号 序号序号 论文标题及链接论文标题及链接 作者作者 被引量被引量(次)(次)亮点亮点 detection in IoT device

314、s Miguel Snchez Snchez,Alberto Huertas Celdrn,Grme Bovet 恶意软件检测方面的可能性,并提出了一个使用联合学习来检测影响物联网设备的恶意软件的框架。205 1 A lightweight federated learning based privacy preserving B5G pandemic response network using unmanned aerial vehicles:A proof-of-concept Nidal Nasser,Zubair Md Fadlullah,Mostafa M.Fouda,Asmaa

315、Ali,Muhammad Imran 0 设想了一个保护隐私的流行病响应网络,该网络使用概念验证的空中-地面网络系统为移动用户实体/设备(UE)提供服务。通过利用无人驾驶飞行器(UAV),提出了一种轻量级的联合学习模型,可以使用单个 UE 使用环境传感器和可穿戴设备收集的数据,以协作方式私下学习高精度的医学(例如 COVID-19)症状。注:表中文章的被引用量统计截至 2022 年 3 月 31 日。Computers&Security Computers&Security 联邦学习特刊已发表文章联邦学习特刊已发表文章 期刊Computers&Security的联邦学习特刊主 题 是“Spec

316、ial section on Federated Learning for Decentralized Cybersecurity”70,上海品茶相关的文章于 2021 年 10 月相继发表。相关的联邦学习文章截止目前共 2 篇,相关介绍如下。序号序号 论文标题及链接论文标题及链接 作者作者 被引量被引量(次)(次)亮点亮点 1 Digestive neural networks:A novel defense strategy against inference attacks in federated learning Hongkyu Lee,Jeehyeong Kim,Seyoung Ahn,Ra

317、sheed Hussain,.Junggab Son 7 提出了一种消化神经网络(DNN),一种附加在 FL 上的独立神经网络。DNN 会最大限度地提高 FL 的分类准确度,同时最大限度地降低推理攻击的准确度。所提出的 DNN 在基于梯度共享和权重共享的 FL 机制上都表现出显着的性能。2 Integration of federated machine learning and blockchain for the provision of secure big data analytics for Internet of Things Devrim Unal,Mohammad Hammou

318、deh,Muhammad Asif Khan,Abdelrahman Abuarqoub,.Ridha Hamila 5 提出了一种将区块链与 FL 集成以提供隐私保护和安全大数据分析服务的实用方法。为了保护用户数据和训练模型的安全性,建议利用模糊散列来检测 FL 训练模型中的变化和异常,以防止中毒攻击。注:表中文章的被引用量统计截至 2022 年 3 月 31 日。70 COSE|Computers&Security|Federated Learning for Decentralized Cybersecurity|ScienceD by Elsevier 人工智能之联邦学习 2022 联

319、邦学习全球研究与应用趋势报告 99 IEEE INTELLIGENT SYSTEMSIEEE INTELLIGENT SYSTEMS 联邦学习特刊联邦学习特刊已发表文章已发表文章 IEEE INTELLIGENT SYSTEMS 联邦学习特刊的主题是“Special Issue on Federated Machine Learning”71,上海品茶相关的文章发表在该期刊的 2020 年第 35 卷,第 4 期。相关的联邦学习文章共 10 篇,相关介绍如下。序号序号 论文标题及链接论文标题及链接 作者作者 被引量被引量(次)(次)亮点亮点 1 Introduction to the Special I

320、ssue on Federated Machine Learning Yang Liu,Han Yu,and Qiang Yang 1 展示所刊文章的主要内容亮点 2 Preserving User Privacy for Machine Learning:Local Differential Privacy or Federated Machine Learning?Huadi Zheng,Haibo Hu,and Ziyang Han 15 比较了在物联网应用中 LDP 和 FL 的可实现效率和隐私保护属性 3 Joint Intelligence Ranking by Federated

321、 Multiplicative Update Chi Zhang,Yu Liu,Le Wang,Yuehu Liu,Li Li,and Nanning Zheng 2 提出了一种隐私保护矩阵分解方法,该方法在自动驾驶等许多智能系统中具有潜在的适用性 4 Distributed Privacy Preserving Iterative Summation Protocols Yang Liu,Qingchen Liu,Xiong Zhang,Shuqi Qin,and Xiaoping Lei 0 开发了一种用于隐私保护的分布式迭代协议,该协议对节点的动态加入和离开具有弹性,可以成为增强动态 F

322、L 系统中隐私保护的有用技术 5 SMSS:Secure Member Selection Strategy in Federated Learning Kun Zhao,Wei Xi,Zhi Wang,Jizhong Zhao,Ruimeng Wang,and Zhiping Jiang 2 寻求通过选择那些具有更多共同实体的数据所有者加入 FL 模型训练来解决来自不同数据所有者的不同数据质量问题 6 Federated Generative Privacy Aleksei Triastcyn and Boi Faltings 22 关注隐私保护数据共享问题,提出基于 GAN 的方法来生成人

323、工数据样本以支持联合平均操作,而无需公开敏感的本地信息 7 A Sustainable Incentive Scheme for Federated Learning Han Yu,Zelei Liu,Yang Liu,Tianjian Chen,Mingshu Cong,Xi Weng,Dusit Niyato,and Qiang Yang 31 着眼于 FL 设置中的激励机制设计重要问题,开发了一个公平意识的利润分享计划,以激励数据所有者参与联邦学习 8 A Secure Federated Transfer Learning Framework Yang Liu,Yan Kang,Cha

324、oping Xing,Tianjian Chen,and Qiang Yang 215 提出了第一个联邦迁移学习方法,帮助 FL 应用程序处理那些样本空间和特征空间重叠的都很罕见的具有挑战性的情况 9 FedHealth:A Federated Transfer Learning Framework for Wearable Yiqiang Chen,Xin Qin,Jindong Wang,218 报告了在医疗保健应用领域应用 FTL 的经验 71 Federated Learning,IEEE INTELLIGENT SYSTEMS,JULY/AUGUST 2020,VOLUME 35,N

325、UMBER 4 人工智能之联邦学习 2022 联邦学习全球研究与应用趋势报告 100 序号序号 论文标题及链接论文标题及链接 作者作者 被引量被引量(次)(次)亮点亮点 Healthcare Chaohui Yu,and Wen Gao 10 Proxy Experience Replay:Federated Distillation for Distributed Reinforcement Learning Han Cha,Jihong Park,Hyesung Kim,Mehdi Bennis,and Seong-Lyun Kim 12 提出了一种在分布式深度强化学习中提高通信效率和保护

326、私人信息的方法 注:表中文章的被引用量统计截至 2022 年 3 月 31 日。Electronics Electronics 联邦学习特刊已发表文章联邦学习特刊已发表文章 期刊 Electronics 的联邦学习特刊主题是 Special Issue Federated Learning:Challenges,Applications and Future 72,上海品茶相关的文章于 2021 年 8 月发表,截止目前共发表 1 篇,相关介绍如下。序号序号 论文标题及链接论文标题及链接 作者作者 被引量被引量(次)(次)亮点亮点 1 Multi-Party Privacy-Preserving Log

327、istic Regression with Poor Quality Data Filtering for IoT Contributors Kennedy Edemacu;Jong Wook Kim 1 提出了一个多方隐私保护逻辑回归框架。具体来说,在分布式设置中提出了一种新的度量梯度相似性,使用该度量梯度相似性来过滤掉来自质量较差数据的数据贡献者的参数;采用同态加密解决隐私挑战。Wireless Communications and Mobile ComputingWireless Communications and Mobile Computing 联邦学习特刊联邦学习特刊已发表文章已

328、发表文章 期刊 Wireless Communications and Mobile Computing 的联邦学习特刊主题是“Special Issue on AI-Based Federated Learning for 6G Mobile Networks”73,上海品茶相关的文章在 2021 年 5 月至 12 月相继发表。相关的联邦学习文章共 13 篇,相关介绍如下。序号序号 论文标题及链接论文标题及链接 作者作者 被引量被引量(次)(次)亮点亮点 1 Multimedia Concepts on Object Detection and Recognition with F1 Amutha

329、Balakrishnan,Kadiyala Ramana,5 提出了一种基于全局特征和轮廓检测图像中对象的框架。72 Electronics|Special Issue:Federated Learning:Challenges,Applications and Future()73 AI-Based Federated Learning for 6G Mobile Networks|Hindawi 人工智能之联邦学习 2022 联邦学习全球研究与应用趋势报告 101 序号序号 论文标题及链接论文标题及链接 作者作者 被引量被引量(次)(次)亮点亮点 Car Simulation Using

330、Convolutional Layers Gaurav Dhiman,Gokul Ashok,Vidhyacharan Bhaskar,Ashutosh Sharma,Gurjot Singh Gaba,Mehedi Masud,and Jehad F.Al-Amri 2 Sixth Generation(6G)Cognitive Radio Network(CRN)Application,Requirements,Security Issues,and Key Challenges Muhammad Muzamil Aslam,Liping Du,Xiaoyan Zhang,Yueyun C

331、hen,Zahoor Ahmed,and Bushra Qureshi 2 研究了 6G CR 网络通信的预测应用、可能的技术和安全问题。3 Image Recognition Method for Pitching Fingers of Basketball Players Based on Symmetry Algorithm Wanquan Chen 0 提出一种基于对称算法的篮球运动员投球手指动作识别方法,构建采集模型,对篮球运动员投球手指动作图像进行边缘轮廓检测和自适应特征分割,并采用固定阈值对手指进行分割。4 An Enhanced Secure Deep Learning Alg

332、orithm for Fraud Detection in Wireless Communication Sumaya Sanober,Izhar Alam,Sagar Pande,Farrukh Arslan,Kantilal Pitambar Rane,Bhupesh Kumar Singh,Aditya Khamparia,and Mohammad Shabaz 15 在互联网商务和银行领域,提出了一种将 Spark 与深度学习方法相结合的新框架,还实现了不同的机器学习技术来检测欺诈。5 Hierarchical Coordinated Control Method for Multil

333、oad DC Microgrid Units Zhigang Zhang and Jinping Mo 0 设计了微电网的分层控制结构,根据微电网的控制目标和控制时间尺度进行分层,采用多智能体技术实现分层控制结构。针对微电网能量协调和优化的需求,提出了微电网并网和/或离网模式的运行策略。6 Prediction of Traffic Generated by IoT Devices Using Statistical Learning Time Series Algorithms Shilpa P.Khedkar,R.Aroul Canessane,and Moslem Lari Najafi 3 对使用经典时间序列和人工神经网络的物联网流量预测模型进行了完整概述。7 Design and Simulation of Capacitive MEMS Switch for Ka Band A

友情提示

1、下载报告失败解决办法
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。

本文(清华大学:2022联邦学习全球研究与应用趋势报告(109页).pdf)为本站 (小时候) 主动上传,三个皮匠报告文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三个皮匠报告文库(点击联系客服),我们立即给予删除!

温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。
会员购买
客服

专属顾问

商务合作

机构入驻、侵权投诉、商务合作

服务号

三个皮匠报告官方公众号

回到顶部