《7-1 隐私保护图学习和推荐.pdf》由会员分享,可在线阅读,更多相关《7-1 隐私保护图学习和推荐.pdf(31页珍藏版)》请在三个皮匠报告上搜索。
1、隐私保护图学习和推荐陈超超 浙大计算机学院 特聘研究员、金智塔科技 CTO|Privacy-PreservingGraphLearningand Recommendationhttps:/ 2021年9月,中华人民共和国数据安全法正式实施,要求确立数据分级分类管理、落实数据安全保护责任、支持促进数据安全与发展的措施。2021年11月,中华人民共和国个人信息保护法正式实施,对个人信息的采集、加工、使用全流程做责任落实要求。|Social GraphKnowledge GraphWeb GraphDevice GraphGene GraphBrain GraphMolecular GraphCon
2、trol Flow GraphGraph is Everywhere图数据孤岛Graph is IsolatedRong Y,Xu T,Huang J,et al.Deep graph learning:Foundations,advances and applicationsC/Proceedings of the 26th ACM SIGKDD International Conference on Knowledge Discovery&Data Mining.2020:3555-3556.|图孤岛-A Motivating ExampleC1s KGC2s KGChaochao Che
3、n,Jamie Cui,Guanfeng Liu,Jia Wu,Li Wang.Survey and Open Problems in Privacy Preserving Knowledge Graph:Merging,Query,Representation,Completion and Applications.Preprint.2021.|机器学习视角数据隐私模型隐私参数隐私PrivacyPreservingMachineLearningandDataMining|预备知识02|隐私计算技术分类|Security时效性可用性安全性差分隐私:Differentially Privacy(
4、DP)Cynthia Dwork,Frank McSherry,Kobbi Nissim,and Adam Smith.Calibrating noise to sensitivity in private data analysis.In Proceedings of the 3rd Conference on Theory of Cryptography,TCC 06,pages 265284,Berlin,Heidelberg,2006.Springer.Pr D O !Pr D O定义(-差分隐私):令为正实数,A为随机函数,其阈值为Ran(A)。如果对于在单个记录中不同的两个数据集和
5、以及函数的任何输出O,函数被称为可提供-差分隐私,是隐私预算,越小,隐私保护程度越高常用的噪声机制有拉普拉斯机制、高斯机制和指数机制,拉普拉斯机制是应用最广泛的噪声机制。算法A在相邻数据库上的输出概率|多方安全计算 Secure Multi-party Computation(MPC)在MPC计算模式中,不存在一个中立(可信)的第三方通常一个计算方需要跟其他所有参与方通信来协同计算以密码学为基石,除输入和输出外,不泄露任何中间信息,计算过程可以做到可证安全传统集中式计算模式基于MPC的计算模式秘密分享Secret Sharing有限域内的随机数混淆电路GarbledCircuit电路的生成与执
6、行同态加密Homomorphic Encryption依赖于密钥(私钥和公钥)零知识证明Zero-Knowledge Proof证明方的交底材料与验证方的试探Cramer,Ronald,and Ivan BjerreDamgrd.Secure multiparty computation.Cambridge University Press,2015.浙大计算机学院&金智塔科技 陈超超112022年07月|联邦学习 Federated Learning(FL)通过在模型(梯度)中加入噪音来提升安全性噪音可以由Client来加或者由Server来加在做模型(梯度)聚合时,使用MPC来做,而非明文
7、来做,从而避免单个Client梯度的泄露Huang X,Ding Y,Jiang Z L,et al.DP-FL:a novel differentially private federated learning framework for the unbalanced dataJ.World Wide Web,2020,23(4):2529-2545.Kanagavelu R,Li Z,Samsudin J,et al.Two-phase multi-party computation enabled privacy-preserving federated learningC/2020 2
8、0th IEEE/ACM International Symposium on Cluster,Cloud and Internet Computing(CCGRID).IEEE,2020:410-419.浙大计算机学院&金智塔科技 陈超超122022年07月|将模型拆分成多个计算模块,分别交由不同的参与方来执行经典的模型并行思路,尤其选用于数据垂直切分的场景Vepakomma P,Gupta O,Swedish T,et al.Split learning for health:Distributed deep learning without sharing raw patient dat
9、aJ.arXiv preprint arXiv:1812.00564,2018.浙大计算机学院&金智塔科技 陈超超132022年07月拆分学习 Split Learning(SL)|图学习03|方案一:MPC与拆分学习结合Features Label?:?XAXB?:y?使用MPC将神经网络逐层转换为在密态空间进行计算方案一:方案一:MPCNN方案二:方案二:SplitNN特点二:非线性特点一:逐层执行将大量的非线性运算转换为明文计算?:?:XAXBMPC?:A?:B?:y?A?BPrivacyEfficiencyUtilityMPCNN效率低SplitNN性能差Plaintext-NN隐私泄
10、漏MPCNNSplitNN|方案一:MPC与拆分学习结合|Scalable and secure Neural Network(SSNN)可以轻松构建出隐私保护LR,DNN,CNN,RNN,GNN等深度学习模型隐私保护SGLDGAN Bingzhe Wu,Shiwan Zhao,Chaochao Chen and others.Generalization in Generative Adversarial Networks:A Novel Perspective from Privacy Protection.NeurIPS 2019.Bingzhe Wu,Chaochao Chen,Shi
11、wan Zhao,and others.Characterizing Membership Privacy in Stochastic Gradient Langevin Dynamics.AAAI 2020.Jun Zhou,Longfei Zheng,Chaochao Chen(*),et al.Towards Scalable and Privacy-Preserving Deep Neural Network via Algorithmic-Cryptographic Co-design.ACM TIST,2021.Chaochao Chen et al.Vertically Fede
12、rated Graph Neural Network for Privacy-Preserving Node Classification.IJCAI 2022.splitDPMPC方案二:联邦学习与拆分学习结合联邦学习基本模型(FedAVG)采 集 时 间样 本 人 群采 集 地 域数据分布Non-IID严重影响联邦模型的准确性。联邦学习的前提:数据独立同分布(IID)DP+SGX|方案二:联邦学习与拆分学习结合Zheng L,Zhou J,Chen C(*),et al.ASFGNN.Automated separated-federated graph neural network.Pe
13、er-to-Peer Networking and Applications,2021.解决联邦学习Non-IID的性能问题,关键在于协调local模型的个性化表征能力和global模型的全局表征能力。Federated-NNSplitNN个性化模型全局化模型上传部分模型,降低梯度L2范数,降低DP噪声,提高模型准确性。个性化模型网络结构可以不同,个性化能力更强上传部分模型,降低通信传输量,提高训练效率。|方案三:MPC与随机排列结合隐私保护图神经网络中一个关键的性能瓶颈就是非线性激活函数。!#$%&线性计算,常用多方安全计算协议实现非线性激活函数,可以用混淆电路、布尔秘密分享或其他定制协议实
14、现,开销往往很大MPC方法拆分学习方法(服务器(暴露中间结果,数据隐私泄露风险大数据隐私计算性能隐私保护与性能不可兼得?|方案三:MPC与随机排列结合由于非线性激活函数往往是逐元素的,采用随机排列方法,将随机重排后的中间结果发送给第三方进行计算。!#$%&($#!%(&$#!%(&!#$%&(随机排列后发送给第三方计算秘密分享计算随机排列计算使用MPC执行线性计算,使用随机排列执行非线性计算(如激活函数)即使是只有10个元素,也能产生10!=3628800种随机排列。而神经网络隐藏层+批样本计算,使得可能的随机排列数几乎无穷。Fei Zheng,Chaochao Chen,Xiaolin Zh
15、eng,Mingjie Zhu,Towards secure and practical machine learning via secret sharing and random permutation,Knowledge-Based Systems,2022|推荐算法04|隐私保护推荐(2C)公开数据隐私数据用户公开数据可以收集,但隐私数据无法明文采集保护隐私数据的同时,训练推荐模型|隐私保护推荐(2C)使用本地化差分隐私收集隐私数据隐私数据相关模型使用去中心化算法来训练其余模型使用联邦学习来训练Chaochao Chen,Jun Zhou,Bingzhe Wu,Wenjin Fang,
16、Li Wang,Yuan Qi,Xiaolin Zheng.Practical Privacy Preserving POI Recommendation.ACM TIST 11(5):52:1-52:20,2020Chaochao Chen,Ziqi Liu,Peilin Zhao,Jun Zhou,Xiaolong Li.Privacy Preserving Point-of-interest Recommendation Using Decentralized Matrix Factorization.AAAI 2018:257-264|隐私保护跨域推荐(2B)Source Domain
17、Target Domain源域和目标域数据类型相同使用源域数据提升目标域的推荐效果保护双方数据隐私|隐私保护跨域推荐(2B)Chaochao Chen,Liang Li,Bingzhe Wu,Cheng Hong,Li Wang,Jun Zhou.Secure Social Recommendation based on Secret Sharing.ECAI 2020:506-512Jamie Cui,Chaochao Chen(*),Lingjuan Lyu,Carl Yang,Wang Li.Exploiting Data Sparsity in Secure Cross-Platfor
18、m Social Recommendation.NeurIPS 2021Chaochao Chen,Huiwen Wu,Jiajie Su,Lingjuan Lyu,Xiaolin Zheng,Li Wang.Differential Private Knowledge Transfer for Privacy-Preserving Cross-Domain Recommendation.WWW 2022:1455-1465基于差分隐私的(稀疏)矩阵降维发布,保证用户距离不变性|产品简介05|n 国家重点研发计划项目(No.2018YFB1403003)落地成果金智塔隐私计算平台|产品能力隐私计算平台前置结果区前置数据区计算模块读入前置结果区前置数据区隐私计算节点1源数据导入计算模块算法库同态加密秘密分享差分隐私计算模块读入本地子模型模型结果模型结果发起 任务计算生成子模型计算模块算法库同态加密秘密分享差分隐私本地子模型计算生成子模型任务调度数据发起 任务账号权限管理多方运维监测加密样本对齐模型应用留痕数据应用留痕2314675加密交互计算隐私计算节点2源数据导入构建“数据不出域,可算不可见”的数据融合计算场景|非常感谢您的观看|陈超超 浙大计算机学院 特聘研究员、金智塔科技 CTOhttps:/