《1-4 联邦学习技术应用创新探索.pdf》由会员分享,可在线阅读,更多相关《1-4 联邦学习技术应用创新探索.pdf(16页珍藏版)》请在三个皮匠报告上搜索。
1、联邦学习技术应用创新探索|周旭华博士中国电信研究院 安全技术研究所2022年07月09日01联邦学习简介联邦学习简介背景介绍联邦学习概念联邦学习分类与其他隐私保护计算技术02联邦学习技术创新探索联邦学习技术创新探索创新探索一:不同技术架构灵活适应不同的业务场景需求创新探索二:抗数据污染或恶意窃取的新数据检测方法创新探索三:抗成员推断攻击的联邦线性模型在线推理创新探索四:针对纵向联邦学习的异步优化方法创新探索五:参与方在联邦学习系统中对模型的价值贡献目录目录 CONTENT|联邦学习简介 背景介绍 联邦学习概念 联邦学习分类 与其他隐私保护计算技术01|背景介绍Background Introd
2、uction政府数据运营商数据行业数据运营商数据孤岛群政府数据孤岛群行业数据孤岛群彼此独立的 数据孤岛DATA“数据孤岛”现象普遍存在|联邦学习概念Federated Learning Definition联邦学习或联邦机器学习,是实现在本地原始数据不出平台的情况下,通过对中间加密数据的流通和处理来完成多方联合的机器学习训练和预测。其设计目标是在保障大数据联合价值开发时的数据安全、保护终端数据和个人数据隐私、保证合法合规的前提下,在参与多方或多计算结点之间开展高效率的机器学习,实现数据可用不可见。|横向联邦学习可简单理解为建模算法在不同分段数据上进行训练和合并。纵向联邦学习可简单理解为将建模算
3、法拆分为不同模块,分别在各数据提供方进行训练,期间需要中间参数交互。联邦学习分类Federated Learning Classification|与其他隐私保护计算技术With Other Privacy-preserving Computing Technologies|提供技术框架,容易与其他隐私保护计算技术结合联邦学习特点:针对传统集中模型训练存在泄露数据隐私问题而提出,增加交互安全设计强调“数据不出平台”,核心理念是“数据不动模型动”模型性能接近或几乎无损多种隐私保护计算技术交叉应用|技术创新探索 创新探索一:不同系统架构灵活适应不同的业务场景需求 创新探索二:抗数据污染或恶意窃取的
4、新数据检测方法 创新探索三:抗成员推断攻击的联邦线性模型在线推理 创新探索四:针对纵向联邦学习的异步优化方法 创新探索五:参与方在联邦学习系统中对模型的价值贡献02创新探索一:标准架构、交易中心架构灵活适应不同的业务场景需求隐私保护计算系统计算引擎模块安全多方计算引擎隐匿查询安全求交安全数值计算 联邦学习引擎联邦预测联邦建模 联邦特征工程业务功能模块合作方管理数据管理任务管理模型管理权限管理项目管理计算引擎模块安全多方计算引擎隐匿查询安全求交安全数值计算 联邦学习引擎联邦预测联邦建模 联邦特征工程业务功能模块合作方管理数据管理任务管理模型管理权限管理项目管理隐私保护计算系统数据池数据池对等模式
5、安全连接标准架构可满足中国电信作为数据提供方向多行业提供电信数据开发数据价值的需要|解决了现网应用遇到的亿级大数据量、兆级低带宽高延时、网络不直达问题标准版特点一标准版特点二创新探索一:标准架构、交易中心架构灵活适应不同的业务场景需求|交易中心架构隐私保护计算系统数据池数据池中心模式控制流数据接入网关安全多方计算引擎联邦学习引擎数据接入网关安全多方计算引擎联邦学习引擎业务功能中心平台合作方管理数据管理任务管理模型管理权限管理项目管理控制流数据流本地化部署本地化部署实现管理模块与计算模块相分离保证数据不出各方管理域的前提下,做到统一管理、统一入口交易中心版特点一交易中心版特点二创新探索二:纵向联
6、邦学习场景的数据污染的新数据检测方法|联邦学习数据污染检验技术探索在联邦学习框架下参与方不能直接访问他方的数据,污染数据或恶意数据更有可能发生,使模型失效。通过训练数据特性的提取与存储以及针对其不同特征的分类分析来计算参与方新提供数据是有效数据的概率。存在问题数据污染检方案将出现概率P(x)与概率阈值进行比较来判定是否异常计算单条数据x的出现概率P(x)根据各特征的概率分布特征设置正常出现概率阈值存储基于一批有效训练数据得到的各特征的概率分布特征创新探索二:纵向联邦学习场景的数据污染的新数据检测方法|联邦学习数据污染检验技术探索在联邦学习框架下参与方不能直接访问他方的数据,污染数据或恶意数据更
7、有可能发生,使模型失效。通过训练数据特性的提取与存储以及针对其不同特征的分类分析来计算参与方新提供数据是有效数据的概率。存在问题数据污染检方案创新探索三:抗成员推断攻击的联邦线性模型在线推理|联邦在线推理技术探索联邦模型通过联邦在线推理提供数据预测功能,传统过程中使用明文方式进行,存在数据泄露和用户隐私信息问题。利用过滤器、同态加密算法和随机数乘法盲化法保护发起方的请求无法被响应方精确获悉,从而抵抗成员推断攻击。存在问题安全在线推理方案创新探索四:针对纵向联邦学习的异步优化方法|联邦异步加速技术探索每个参与方数据量、计算速度、网络延迟都不一致,训练时间由处理最慢的参与方决定,从而形成木桶效应,影响训练效率。引入存储参与方特征计算值的缓存单元,打破参与方编码模型训练时的相互依赖,实现各参与方编码模型之间的异步训练。存在问题联邦异步加速方案创新探索五:参与方在联邦学习系统中对模型的价值贡献|联邦模型贡献量评估当前联邦学习系统中忽视各参与方数据对联邦模型增益的贡献差异,无法推动跨域跨行业数据共享的良性循环。探索提出基于SV理论的贡献量评估方法,通过考虑特征重要性来反映各方数据在联邦学习系统中对模型的价值贡献。存在问题贡献量评估方案非常感谢您的观看|