《4-5 差分隐私原理以及在数据安全中的应用.pdf》由会员分享,可在线阅读,更多相关《4-5 差分隐私原理以及在数据安全中的应用.pdf(42页珍藏版)》请在三个皮匠报告上搜索。
1、差分隐私原理以及在数据安全中的应用刘勇 中国人民大学 副教授 博导|0101隐私保护的挑战隐私保护的挑战0303差分差分隐私算法隐私算法0202差分隐私原理差分隐私原理0404差分差分隐私应用隐私应用目录|0505前景与展望前景与展望隐私保护的挑战01|隐私保护的挑战:数据隐私|大数据时代,个人数据隐私成为了广泛关注的问题社交信息医疗信息金融信息隐私问题!隐私保护的挑战:数据隐私|姓名姓名出生地出生地年龄年龄喜好喜好存款存款xxx北京市19舞蹈2w匿名化方法:敏感数据库(匿名保护)隐私保护的挑战:数据隐私|姓名姓名性别性别出生地出生地星座星座年龄年龄喜好喜好小明男山东省水瓶座25篮球小红女北京
2、市天蝎座19舞蹈姓名姓名出生地出生地年龄年龄喜好喜好存款存款xxx北京市19舞蹈2w匿名化方法:非敏感数据库(无匿名保护)敏感数据库(匿名保护)隐私保护的挑战:数据隐私|姓名姓名性别性别出生地出生地星座星座年龄年龄喜好喜好小明男山东省水瓶座25篮球小红女北京市天蝎座19舞蹈姓名姓名出生地出生地年龄年龄喜好喜好存款存款xxx北京市19舞蹈2w匿名化方法:非敏感数据库(无匿名保护)敏感数据库(匿名保护)在可以获取到外部数据库的情况下,匿名化方法往往无法提供良好的个人敏感信息保护隐私保护的挑战:模型隐私|在机器学习领域,如果不发布训练数据,而只发布训练模型,个人隐私会得到有效的保证吗?隐私保护的挑战
3、:模型隐私|在机器学习领域,如果不发布训练数据,而只发布训练模型,个人隐私会得到有效的保证吗?机器学习模型也会遭受多种攻击,导致敏感信息泄露Model Inversion Attacks Matt Fredrikson et al.CCS 2015Membership Inference Attacks Reza Shokri et al.S&P 2017隐私保护的挑战:模型隐私|在机器学习领域,如果不发布训练数据,而只发布训练模型,个人隐私会得到有效的保证吗?机器学习模型也会遭受多种攻击,导致敏感信息泄露Model Inversion Attacks Matt Fredrikson et a
4、l.CCS 2015Membership Inference Attacks Reza Shokri et al.S&P 2017需求:有数学保证的隐私保护方法隐私保护的挑战:差分隐私|更加严格的、更加数学化的隐私保护方法:差分隐私差分隐私可以有效屏蔽诸如多种攻击手段:Membership Inference Attack Michael Backes et al.(SIGSAC 2016)Attribute Inference AttackNicholas Carlini et al.(USENIX 2019)Memorization Attack Bargav Jayaraman and
5、David Evans(USENIX 2019)差分隐私原理02|差分隐私:原理|数据集D数据集D模型A模型B训练训练攻击者or如果攻击者对任意,都无法判断模型A,B是由哪个数据集训练得到的,那么个人数据隐私就是有保证的。?则称该算法满足-差分隐私。差分隐私:定义|如果数据集,中仅有一条数据样本不同,则称它们互为相邻数据集,记作。如果在相邻数据集,上,对于算法值域中的所有事件,即 (),满足如下不等式:差分隐私的数学定义要求算法在相邻数据集上的输出分布具有相似性 相似性越大,越小,所对应的模型隐私性越强 ()差分隐私:原理|那么,如何保证攻击者无法分辨由相邻数据集,训练得到的模型?差分隐私:原
6、理|那么,如何保证攻击者无法分辨由相邻数据集,训练得到的模型?添加适当的随机噪声传统方法训练得到的机器学习模型随机噪声满足差分隐私定义的机器学习模型差分隐私算法03|差分隐私:算法|有三种添加随机噪声的方式以保证模型的差分隐私性 输出扰动=argmin(;),=+噪声差分隐私:算法|有三种添加随机噪声的方式以保证模型的差分隐私性 输出扰动=argmin(;,),=+目标函数扰动;=;+,=argmin;噪声噪声差分隐私:算法|有三种添加随机噪声的方式以保证模型的差分隐私性 输出扰动=argmin(;,),=+目标函数扰动;,;=;,+,=argmin;,;梯度扰动+1=;+=噪声噪声噪声随机噪
7、声vs干净数据|随机噪声是否一定导致性能下降?随机噪声vs干净数据|随机噪声是否一定导致性能下降?不一定!跳出鞍点/局部最小点,加速收敛 增加模型鲁棒性(对抗性)差分隐私:数据异质性差分隐私算法|经典差分隐私+1=;,+=传统算法将所有训练数据等同视之,利用任意数据对模型进行训练时均添加同样的随机噪声差分隐私:数据异质性差分隐私算法|若某条数据对模型输出的影响很小,攻击者本就无法分辨该条数据是否参与训练,那么在利用该条数据训练模型时,就不必对其添加噪声基于这种想法,提出数据异质性差分隐私算法。经典差分隐私+1=;,+=传统算法将所有训练数据等同视之,利用任意数据对模型进行训练时均添加同样的随机
8、噪声 数据异质性差分隐私算法Yiling Kang,Yong Liu.Differential Privacy Based on Data Heterogeneity.2022|相较于传统算法,该算法在梯度下降前先对数据点对模型的影响进行判断。如果影响很小,以至于攻击者无法从中得到有用的信息,那么则不添加噪声,以此减少模型训练中噪声添加的总量,进而提升模型精度差分隐私:数据异质性Yiling Kang,Yong Liu.Differential Privacy Based on Data Heterogeneity.2022|差分隐私:数据异质性理论分析表明,经验风险和总体风险的提升分别为:|
9、实验结果:差分隐私:数据异质性差分隐私算法差分隐私应用04|差分隐私应用:联邦学习|数据不动模型动差分隐私应用:联邦学习|数据不动模型动相对分布式学习,联邦学习的难点:数据集非独立同分布不平衡的数据量慢速且不稳定的通信连接非独立同分布|联邦学习:非独立同分布|基于隐私考虑,联邦学习使用模型交互代替数据交互,而由于用户的使用习惯不同等原因,联邦学习中各客户机的本地数据之间是非独立同分布(Non-IID)的:数据分布不同数据量不相等联邦学习的全局模型是本地模型的加权平均,所以Non-IID问题严重影响了全局模型的效果。不同的本地数据分布不平衡的本地数据量本地模型之间差异较大影响全局模型的效果+|全
10、局模型合并方式为本地模型的加权平均:+=,为第个本地模型的组合权重。估计的全局分布:=1 联邦学习假设1:一个服务器与个客户机,第个客户机上的数据量为,服从概率分布假设2:全局分布为本地分布组成的混合分布=,混合权重为组合方式:非独立同分布联邦学习的泛化理论与算法研究|衡量两个分布之间的距离特征映射范数目标函数:=,+()+(,)Bojian Wei,Jian Li,Yong Liu,Weiping Wang,Federated Learning for Non-IID Data:From Theory to Algorithm,PRICAI 2021,Best Student Paper非独
11、立同分布联邦学习的泛化理论与算法研究Bojian Wei,Jian Li,Yong Liu,Weiping Wang,Federated Learning for Non-IID Data:From Theory to Algorithm,PRICAI 2021,Best Student Paper|目标函数:=,+()+(,)参数估计非独立同分布联邦学习的泛化理论与算法研究|FedAvgR在多组Non-IID数据上的测试精度显著优于其他算法(显著度95%)对比实验结果:非独立同分布联邦学习的泛化理论与算法研究|分布不一致性距离的约束对算法效果的提升影响最大,与理论相契合消融实验结果:非独立同分布联邦学习的泛化理论与算法研究|随着训练的进行,本地特征分布与全局特征分布之间的不一致性距离逐渐减小特征空间分布变化:前景与展望05|前景与展望|非凸问题:现有的复杂深度模型往往是高度非凸的,该类问题下如何提升模型精度仍是难点 非iid问题:联邦学习的现实场景中,不同数据源所拥有的数据往往无法满足iid假设,该类问题仍是研究的重点基于人工智能领域的发展现状,差分隐私机器学习领域还有如下难点:致谢|康艺霖中国科学院信息工程研究所 在读博士生李健中国科学院信息工程研究所 预聘研究员韦博舰中国科学院信息工程研究所 在读硕士生非常感谢您的观看|