《北京金融科技产业联盟:2023金融业隐私计算联合建模技术与应用研究报告(136页).pdf》由会员分享,可在线阅读,更多相关《北京金融科技产业联盟:2023金融业隐私计算联合建模技术与应用研究报告(136页).pdf(136页珍藏版)》请在三个皮匠报告上搜索。
1、金融业隐私计算联合建模技术 与应用研究 北京金融科技产业联盟 2023 年 11 月 版权声明 本报告版权属于北京金融科技产业联盟,并受法律保护。转载、编摘或利用其他方式使用本报告文字或观点的,应注明来源。违反上述声明者,将被追究相关法律责任。编制委员会 编委会成员:何 军 聂丽琴 薛 勇 编写组成员:王润元 张翼飞 袁鹏程 王云河 王礼斌 曹 伟 昌文婷 果 伦 陈 琨 单进勇 黄翠婷 王湾湾 黄 文 邱晓慧 李晶晶 金银玉 张育涵 田 江 王 鹏 卢春曦 洪 爵 靳 晨 张 垚 王健宗 胡师阳 叶展豪 黄一珉 时 代 朱 礼 李武璐 卞 阳 何 浩 蔡超超 陈 浩 张志慧 统 审:黄本涛
2、郭 栋 刘宝龙 1 参编单位:中国银行股份有限公司 华控清交信息科技(北京)有限公司 蚂蚁科技集团股份有限公司 深圳市腾讯计算机系统有限公司 北京数牍科技有限公司 深圳市洞见智慧科技有限公司 光大科技有限公司 上海富数科技有限公司 网联清算有限公司 北京银联金卡科技有限公司 中国工商银行股份有限公司 中国农业银行股份有限公司 中国建设银行股份有限公司 中国民生银行股份有限公司 深圳前海微众银行股份有限公司 建信金融科技有限责任公司 北京百度网讯科技有限公司 深圳壹账通智能科技有限公司 北京融数联智科技有限公司 上海光之树科技有限公司 华为技术有限公司 2 百行征信有限公司 深圳长亮科技股份有限
3、公司 3 目 录 一、发展综述一、发展综述.1(一)联合建模概念探讨.1(二)技术发展历程及驱动力.6 二、国内外实践情况二、国内外实践情况.13(一)国外应用情况.13(二)国内应用情况.21 三、支撑联合建模应用的隐私计算技术体系三、支撑联合建模应用的隐私计算技术体系.42(一)隐私计算技术体系简述.43(二)隐私安全技术当前面临的主要问题及参考解决方案.56(三)主要建模技术对比分析.61 四、联合建模通用技术平台参考框架四、联合建模通用技术平台参考框架.65(一)联合建模通用技术平台建设的目的与意义.65(二)联合建模通用技术平台的技术架构参考.66(三)联合建模通用技术平台非功能指标
4、与设计参考.79(四)联合建模通用技术平台关键机制.91 五、联合建模应用分析五、联合建模应用分析.100(一)联合建模应用场景分类与特征细分.100(二)联合建模的应用场景的其他分类方式.119 六、发展与建议六、发展与建议.122(一)当前技术与平台挑战.122(二)未来技术与平台的发展趋势.125(三)未来应用场景展望与建议.127 参参 考考 文文 献献.129 1 一、发展综述(一)联合建模概念探讨(一)联合建模概念探讨 1 1.联合建模的含义联合建模的含义 近年来,“联合建模”伴随“数据要素化”“隐私安全”、多方计算等热点领域的研究与应用,不断涌现在各类媒体和大众面前,然而,“联合
5、建模”作为一个专业词汇至今尚无一致的、明确的标准定义。从字面观其内涵,“联合建模”由“联合”和“建模”两个关键词有机组合而成。“联合”意指多方共同参与,是完成“建模”的环境和条件“联合”意指多方共同参与,是完成“建模”的环境和条件。“多方参与”既表示“多方数据”的参与,又表示“建模”过程有不同角色的多个构建方(包括:数据供给方、数据加工方、数据消费方和收益方、数据联邦运营方及管理部门等)。其中,“多方数据”的参与是“联合建模”的前提约束,是“联合建模”的核心要素。如果没有“多方数据”的参与,即使存在多个构建实施方,也多是为了解决资源缺口、专业能力缺口、效率不足与合作伙伴契约关系等项目实施与管理
6、过程问题而采取的分工协作方式。这里的“多方数据”是指“建模”过程的数据集必须由属“多方数据”是指“建模”过程的数据集必须由属于多个不同“数据所有权”的数据集组成。于多个不同“数据所有权”的数据集组成。同一数据所有权范围内的不同领域数据的集成与加工,应纳入常规“大数据应用”或“机器学习建模”范畴讨论,非本报告主要的研究和论述对象。2 (注:文中如不特别指出,“多方数据”均指多方不同数据所有注:文中如不特别指出,“多方数据”均指多方不同数据所有权的数据权的数据)“建模”意指构建“模型”的行为,是数据“联合”的目的“建模”意指构建“模型”的行为,是数据“联合”的目的和价值体现。和价值体现。其中,模型
7、泛指对于某个实际问题或客观事物、规律进行抽象后的一种形式化表达方式。这种形式化的“抽象”表达主要包括“数学模型”“程序模型”“数据模型”和“系统模型”等。通常构建上述“模型”的行为都属于“建模”过程。综上,本报告将“联合建模”概念明确定义为:基于多方数基于多方数据所有权的数据集合,由一家或多家数据模型构建方联合构建模据所有权的数据集合,由一家或多家数据模型构建方联合构建模型的过程。同时强调:型的过程。同时强调:(1)强调“建模”所需数据必须由多方提供的所有权数据多方提供的所有权数据组成组成,而不强调“建模”过程是否一定存在多家构建方。例如,多家数据供给方将所有权数据(加密或未加密)交付给某个数
8、据加工方,由该数据加工方独立完成全部建模工作,此类集中建模的过程同样属于联合建模。(2)强调“模型”的广义范畴广义范畴,而非特指机器学习或深度学习的“模型”,也非特指某一种“隐私安全计算”技术。例如,简单的统计分析算法(可以选择使用某种多方计算技术)与较为复杂的“机器学习”“神经网络”(可以选择使用联邦学习技术)都可以算作“联合建模”的模型对象。(3)强调数据和加工的联合,联合,而未限制必须符合“隐私安全要求”或必须采用某项隐私计算技术。从不加限定的基本概念 3 上讲,即没有“隐私安全与合规性”要求的前提下,只要能达成业务目标,所有实现“联合建模”的技术手段均可选择。但是,当前联合建模的应用市
9、场一方面要求数据要素加快实现“共享”与“流通”,而另一方面又面临“数据无限复制”“数据无限供给”“侵犯隐私”“数据确权难”等“数据滥用”、“难以监管”等难题,因此,在明确多方数据“责权利”的基础上,专注研究面向“隐私安全”的联合建模的关键技术、基础设施平台及应用场景,以“可用而不可见”的方式实现多方数据“共享”和多方价值“流通”,更有价值和意义。本报告的研究范围将主要聚焦于面向“隐私安全”的联合建模场景。在展开相关论述之前,下面先就基于“多方数据隐私安全”下的联合建模与“传统”的联合建模作简要对比分析。2 2.隐私安全联合建模与传统联合建模的对比分析隐私安全联合建模与传统联合建模的对比分析 传
10、统的联合建模方式是将所有数据汇聚到一处进行建模,并未特别考虑数据所有权因素,因此,从技术上看,这种基于数据汇聚式的联合建模和传统的单方集中数据建模,在技术上并没有本质上的区别。目前主流的联合建模是通过隐私计算技术,在保证各方数据隐私安全的基础上进行模型训练。也就是说,基于隐私计算技术的联合建模与传统方式的本质区别在于强调了各方数据的隐私安全,具体通过多方协同计算来实现,在数据对齐、特征工程、模型训练等过程中需要多方之间交互必要的、受隐私保护的数据。4 从技术复杂性上看,为保证隐私安全,这种交互可能涉及一种或多种隐私计算技术,如同态加密、多方安全计算、差分隐私等。建模过程一般分为数据对齐、特征工
11、程、模型训练和模型推理四个部分,以下分别从这四个建模流程来对传统联合建模和隐私保护方式下的联合建模进行对比分析。(1 1)数据对齐:)数据对齐:在传统的联合建模模式下,模型需求方和数据提供方约定好共同的 ID 加密方式后将双方加密后的 ID 汇集到一起进行样本匹配,从而得到双方可用于建模的共有样本集。在这种模式下,由于目前已经有“彩虹表”密码破解器的存在,常用的加密方式如 md5、sha256 等加密方式可以被暴力破解,因此在样本 ID 传输过程中存在着合法合规、隐私泄露的风险。在隐私保护的方式下,针对样本 ID 对齐场景,可基于密码学、多方 安 全 计 算 等 技 术,通 过 隐 私 集 合
12、 求 交(Private Set Intersection-PSI)技术得到双方的样本交集,双方样本 ID 的原始数据不出各自私域,且各建模参与方无法获取对方除交集以外的样本 ID。针对特征对齐的场景,各个参与方只需要把特征名称进行匹配对齐,无需汇聚具体的 ID 和特征数据。(2 2)特征工程:)特征工程:在传统的联合建模模式下,确定双方共有样本后,模型需求方提供共有样本的 Y 标签,数据提供方提供共有样本的特征数据,双方将所有的建模数据归集到一起进行特征预处理、特征筛选、特征衍生等工作。在隐私保护的联合建模模式下,各参与方的原始数据在各自私域,部分特征处理的工作如 5 特征相关性分析、特征
13、IV 值计算等需要多方数据交互计算的步骤,通过利用同态加密、多方安全计算等技术进行计算,计算过程中各参与方的原始数据始终不出私域。(3 3)模型训练:)模型训练:在传统的联合建模模式下,所有的建模数据全部归集到一起进行模型训练,训练速度更快。在隐私保护的联合建模模式下,利用联邦学习、多方安全计算等技术进行模型训练,训练过程中各参与方的原始数据在各自私域内进行计算,参与方之间只交互密态信息或中间计算结果(如梯度,Loss等),而这些密态信息或中间计算结果需要通过加密或隐私保护方法如同态加密、差分隐私等方式进行交互与传输。(4 4)模型推理:)模型推理:在传统的联合建模模式下,训练完成的模型是一个
14、整体,进行模型推理时直接调用模型即可得到推理结果。在隐私保护的方式下,模型一般分布在各参与方,各参与方部署的是局部模型,进行模型推理时需要多个参与方共同参与计算、进行交互,但在整个模型应用过程中,各参与方原始数据均不出库。另外,传统联合建模和隐私保护的联合建模比,在建模效率,数据安全保护,建模参与方上也有区别,如表 1 所示。表 1:传统联合建模与隐私保护联合建模对比 建模效率 数据安全 建模参与方数量 6 传统联合建模 建模数据全部归集到一起,建模速度更快。建模过程中,一方数据出私域,存在隐私泄露的风险。更容易支持多方联合建模。隐私保护联合建模 建模过程需要进行加密传输、加密计算汇总中间结果
15、,因此建模速度相对传统建模方式较慢。建模过程中,各参与方原始数据不出私域,保证数据安全。建模过程需要参与方之间的多次交互,由于性能等方面的约束,参与方数量通常有限,两方或三方之间的联合建模情况较多。(二)(二)技术发展历程及驱动力技术发展历程及驱动力 1 1.主流技术的演进历史主流技术的演进历史 联合建模主流技术的发展历程是以现代密码学为核心,协同计算机体系结构、计算复杂性理论、信息论、统计学、抽象代数及数论等理论发展的渐进过程。大致可分为四个阶段,即萌芽期、探索期、成长期和发展期,由最初的理论研究为主逐渐发展为理论指导实践的实验室应用初创,直至近几年的规模化发展。第一阶段为 1976 至 1
16、985 年的萌芽期,密码学诞生以后,同态加密、秘密分享、不经意传输、多方安全计算等计算理论思想在该阶段先后提出。香农于 1948 年发表的通信的数学理论一文确立了现代信息论的研究开端,内容涉及信息量化、存储和通信,是密码学发展的基石。Diffie 和 Hellman 于 1976 年创立公钥密码学,拓宽了密码学的研究范围。Rivest、Shamir 和 Adleman 于 1977 年提出 RSA 算法,RSA 7 公开密钥密码体制使用不同的加密密钥与解密密钥,由已知加密密钥推导出解密密钥在计算上不可行。紧接着,Rivest 本人于1978 年提出同态加密思想,从抽象代数角度保持了同态性,即对
17、密文直接处理和对明文处理后加密得到的结果相同。Shamir 和 Blakley 于 1979 年提出秘密分享思想。该思想基于 Lagrange 插值和矢量方法,分发者通过秘密多项式将秘密 s分解为 n 个秘密并分发给持有者,其中任意不少于 k 个秘密均能恢复密文,而任意少于 k 个秘密均无法得到密文的任何信息。Michael O.Rabin 于 1981 年提出不经意传输理论。在不经意传输中,发送者 Alice 发送一条消息给接收者 Bob,Bob 以 1/2的概率接收到信息,在结束后 Alice 并不知道 Bob 是否接收到了信息,而 Bob 能确信地知道自己是否收到了信息。图灵奖得主姚期智
18、于 1982 年提出多方安全计算协议。该协议主要研究针对无可信第三方情况下安全计算约定函数的问题。该协议最早应用于匿名竞拍和电子投票,近年来在密钥管理解决方案,以及基于隐私保护的数据检索、数据挖掘和机器学习等分布式协同计算领域有实践应用。第二阶段为 1986 至 2003 年的探索期,混淆电路、零知识证明、隐私检索、半同态加密等协议和算法在该阶段相继提出。继MPC 之后,姚期智于 1986 年提出混淆电路概念,混淆电路通过布尔电路的观点构造安全函数计算,参与者可以针对某个数值来计算答案,而无需知道计算式中输入的具体数字。8 Goldreich 于 1987 年提出基于秘密分享的 MPC,即可以
19、计算任意函数的计算意义下安全的多方安全计算协议。Goldwasser、Micali 和 Rackoff 于 1989 年提出零知识证明,即证明者能够在不向验证者提供任何有用信息的情况下,使验证者相信某个论断是正确的。Chor 于 1995 年提出隐私信息检索,即保证查询用户在向服务器上的数据库提交查询请求时,可以在用户查询隐私信息不被泄漏的条件下完成查询。Paillier 于 1999 年提出半同态加密,这是一种满足加法同态的公钥加密算法,即密文相乘等于明文相加。第三阶段为 2004 至 2012 年的成长期,可信执行环境、差分隐私、全同态加密等概念在该阶段纷纷提出。可信执行环境是软硬件结合的
20、信息安全技术,支持对隐私数据的安全存储隔离、传输、计算和删除。ARM 于 2006 年提出硬件虚拟化技术 TrustZone及硬件实现方案;2011 年,智能卡国际标准化组织 Global Platform 开始起草 TEE 规范标准,并联合相关公司开发基于 GP TEE 标准的可信操作系统。Dwork 于 2006 年提出差分隐私,该技术针对统计数据库隐私泄露问题,通过对原始数据进行转换或对统计结果添加噪声来实现隐私保护。谷歌和苹果在 Chrome 和 iOS 系统中使用该技术进行数据脱敏和匿名化。Gentry 于 2009 年提出全同态加密,即能够同时满足加法和乘法同态的公钥加密算法。9
21、第四阶段为 2013 年至今的发展期,随着人工智能技术的发展,机器学习技术和密码学技术进入了深度融合,此时也相继出现了联邦学习和隐私保护机器学习的概念。2013 年,各类面向通用计算的零知识证明系统开始涌现,主要应用于安全认证、身份管理、金融数据保护、供应链体系等场景。同年,Intel 推出 SGX指令集扩展,通过新的访问控制机制,实现不同程序的隔离运行,保障用户关键代码和数据的机密性和完整性不受恶意软件破坏。同时,已经有学者开始探索基于隐私保护技术的应用,王爽教授团队提出了分布式隐私保护在线机器学习的概念,并将技术应用于医疗领域。McMahan 于 2016 年提出联邦学习的概念,用于解决安
22、卓手机终端用户的模型更新问题。Mohassel 于 2017 年提出 SecureML,是一种可扩展的隐私保护机器学习系统,首次将秘密分享引入到该问题中。2018 年,杨强教授拓展了联邦学习的计算范畴,提出了纵向联邦学习和联邦迁移学习。2 2.驱动力分析驱动力分析 (1 1)技术驱动)技术驱动 隐私保护的联合建模作为新兴的人工智能基础技术,主要是大数据广泛应用、算力提升,以及算法技术发展等多方面因素的联合技术驱动的结果。首先,大数据近年来的快速发展与应用大数据近年来的快速发展与应用,使得模型训练需要依托海量的、高质量的数据驱动,随着人工智能行业的蓬勃发展,10 各机构自有数据的利用和挖掘几近饱
23、和,为了扩大模型应用场景,提升模型效果,必须打破数据瓶颈,将分散在不同机构的数据组合起来加以利用。这就促使了必须寻找新的技术手段来实现跨机构间的联合建模,同时需要满足隐私保护的需求。其次,算力在近些年得到大幅提升算力在近些年得到大幅提升。同态加密,多方安全计算等技术的提出已经有几十年的历史,在学术领域也已经较为成熟,但由于这些安全计算技术依赖于密码学算法以及多方的交互,计算性能是制约这些技术实际落地应用的重要因素,而近十年来得益于算力的提升,这些安全计算技术真正开始成为“现象级”话题,开始在实际场景中落地应用。而与这些安全计算技术紧密融合的隐私保护的联合建模技术,同样由于算力的提升得到技术的驱
24、动而实现在短短几年时间内的快速发展。最后,算法技术的发展算法技术的发展也是基于隐私保护的联合建模技术的发展的一个重要的技术驱动力。大数据与人工智能发展的一个重要产物,是分布式机器学习(Distributed Machine Learning),也是目前机器学习最热门的研究领域之一。很多机器学习的模型,包括传统的回归算法,树类算法,神经网络、深度学习、图模型,矩阵分解等模型,他们的训练算法都可以被抽象成一个迭代收敛过程。而分布式机器学习,将模型计算分布式地部署在多台、多类型机器上,同时进行计算,成为面向大数据量和高复杂度的机器学习的重要解决方法。而隐私保护的联合建模技术在本质上也是一种分布式的机
25、器学习算法,借鉴于分布式机器学习技术的发 11 展,并通过与安全计算技术融合实现隐私保护的目的,也必然成为联合建模的一个重要技术。(2 2)业务价值驱动)业务价值驱动 在数据要素化的数字经济时代,随着产业数字化、政务数字化和社会数字化逐步发展,各行业数据逐步完善的同时,迫切要求克服数据孤岛壁垒、挖掘和拓展数据应用场景、保护数据隐私与安全。数据融合价值:数据融合价值:受政策、观念、技术等方面的影响,“不愿、不敢、不能”分享数据的现象普遍,导致不同系统、不同组织之间的数据共享开放程度较低,数据流转不畅,加重了“数据孤岛”问题,智能化服务难以获取可融合运用的数据,导致“智能”受限。解决数据流转障碍,
26、促进各行业内和行业间数据融合运用,是行业数字化面临的核心问题和价值所在。数据应用价值:数据应用价值:当下,各行业机构随着在获客导流、精准营销、信用管理和风险管控等业务领域的深入变革,在完成自身数据标准化、企业级数据整合以及完善内部数据应用的基础上,进一步以点带面挖掘跨机构跨行业的要素资源(特别是数据要素)价值,实现网络化共享、集约化整合、协作化发展,不断激发新的业务发展动能。数据隐私保护价值:数据隐私保护价值:在运用数据过程中,潜在风险也在不断加剧,包括“数据寡头”引发的信息集中泄露风险、数据过度挖掘、侵犯客户数据隐私、越权数据共享等带来的信息滥用风险和 12 数据质量引发的决策风险等。围绕数
27、据的黑客攻击、违规交易等风险事件有所加剧,全球范围内重大信息泄露事件时有发生,因此,在实现数据融合和数据应用价值的同时,必须积极应对数据融合运用过程中的安全可信挑战,满足国家及监管的政策要求,实现数据主体合法的数据所有权保护价值。(3 3)宏观政策驱动)宏观政策驱动 随着数字经济时代的到来,数据要素将成为经济发展的新引擎。习近平总书记指出,要“发挥数据的基础资源作用和创新引擎作用”,“要构建以数据为关键要素的数字经济”。党的十九届四中全会首次明确数据可作为生产要素按贡献参与分配,提出“健全劳动、资本、土地、知识、技术、管理、数据等生产要素由市场评价贡献、按贡献决定报酬的机制”。2020 年初,
28、中共中央、国务院发布了中共中央国务院关于构建更加完善的要素市场化配置体制机制的意见,强调完善要素市场化配置是建设统一开放、竞争有序市场体系的内在要求,是坚持和完善社会主义基本经济制度、加快完善社会主义市场经济体制的重要内容。意见还明确提出“加快培育数据要素市场”,并在“推进政府数据开放共享”“提升社会数据资源价值”“加强数据资源整合和安全保护”等方面作出了部署。不同于传统生产要素,数据要素本身作为生产要素既有生产要素的一般性特征,又具有独特的生产成本结构,即初始生产的固定成本高、此后以复制和优化为主要技术手段的再生产成本非常低,且数据质量不易损耗。这些特性 13 直接决定了只有解决数据安全和隐
29、私保护问题,才能充分挖掘数据要素价值,规范建立数据要素市场。同时,法律法规对数据开发利用提出了新要求。我国正在不断完善数据安全相关制度和规则,保障个人数据和重要数据安全的同时充分发挥数据的经济价值,并不断推动数据安全协同治理机制的形成。2015 年,国务院发布关于促进大数据发展行动纲要,提出了对涉及国家利益、公共安全、商业秘密、个人隐私、军工科研生产等数据保护。之后,各地也陆续出台了大数据或政务数据安全方面的条例、办法和细则等文件。2016 年 网络安全法首次提出了重要数据的概念,并在第三十七条规定了关键信息基础设施运营者掌握的重要数据境内存储及出境应进行安全评估。二、国内外实践情况(一)国外
30、应用情况(一)国外应用情况 1 1.国外相关产品和产业国外相关产品和产业 基于隐私保护的联合建模技术在欧洲,美国,澳大利亚等国家和地区也发展非常迅速,涌现了一批相关的技术和应用的公司。欧洲方面,欧盟牵头了一个名为“机器学习分类帐编排的药物发现”(Machine Learning Ledger Orchestration for Drug Discovery,以下简称 MELLODDYMELLODDY)的项目。该项目是欧盟创新药物计划的一部分,预算大概 1840 万欧元,并获得了地平线 2020 14 计划和欧洲制药工业协会联合会的支持。该项目的主要内容是由10 家顶级药企在内的共 17 家合作
31、伙伴构建了一个建模平台,在该平台上可以利用多家制药企业的数据,创建更准确的模型,以确定药物开发最有效的化合物。该项目发起于2019年6月1日,计划运行 3 年。2020 年 7 月 28 日,MELLODDY 跨过了一个关键的里程碑:在第一个保护隐私的联邦学习中启动来自 10 家制药企业的海量数据集,证明了技术的可行性。除了欧盟牵头的大型项目外,欧洲也出现不少专注于联邦学习的初创公司。例如:参与了 MELLODDY 计划的 OwkinOwkin 公司,其总部位于巴黎,致力于利用联邦学习推进药物的研究。目前其融资已超过了 8000 万美元。EdgifyEdgify 是一家位于伦敦的初创公司。该公
32、司提供基于联邦学习的边缘 AI 训练框架,其框架可以在任何配备 CPU、GPU 或 NPU(神经处理单元)的设备,包括 MRI 机器、联网汽车、结账通道和移动设备上运行。Edgify 允许任何行业的公司直接在自己的边缘设备上训练完整的深度学习和机器学习模型,减少了将任何数据传输到云的需求。SherpaSherpa 是一家西班牙毕尔巴鄂的初创公司,Sherpa 构建面向企业客户的基于联邦学习的 AI 平台,目前该平台已经帮助西班牙公共卫生服务在COVID-19 疫情期间预测全国急诊室的需求和容量。此外 Sherpa还试图将联邦学习与其原有的智能助理服务相结合,构建隐私保护的提供预测服务的智能助理
33、。目前 Sherpa 已经为其业务转型募集了 850 万美元的资金。Sherpa 的转型之路也可以看出,联 15 邦学习产业在未来具备的市场潜力。SharemindSharemind 是爱沙尼亚cybernetica 旗下用于安全处理机密数据信息的数据分析系统,产品使用多方安全计算技术,可以比标准数据库更好地保护数据,允许企业与合作伙伴共享记录,而不会失去控制权,Sharemind入选欧盟地平线 2020 研究和创新计划。Partisia 是一家丹麦公司,成立于 2008 年,由丹麦战略研究委员会资助的创新性科研项目孵化产生,同样基于多方安全计算技术,实现多方联合安全计算,实现数据可用不可见。
34、在美国方面,谷歌谷歌早在 2017 年就将联邦学习运用于自家的输入法中,通过横向联邦学习改进输入法的下一词预测。此外,谷歌还运用联邦学习在自家手机上推出了闻曲知音功能,使得手机可以随时随地自动识别附近正在播放的歌曲。该功能是通过设备本地的歌曲指纹数据库来实现的,而提高设备的本地数据库质量则是通过联邦学习来实现的,在这个过程中收集收听到的歌曲信息并不会离开本机。类似的,苹果苹果也将联邦学习运用在自家虚拟助理 Siri 中,其通过联邦学习提高了 Siri 在识别用户唤醒时的准确率而不会暴露用户的声音信息。而英伟达英伟达除了作为著名的人工智能硬件公司,还于 2018 年发布了 NVIDIA Clar
35、a 人工智能(AI)平台。目前,该平台已经包含 13 个最先进的分类和分割AI,以及为放射科医生构建的软件工具。而在 2019 年的北美放射学会年会(RSNA)上,NVIDIANVIDIA 又推出了 NVIDIA Clara 联邦学习,能够将患者数据保存在医疗服务机构内部。NVIDIA 与 20 家 16 医院合作构建了 AI 模型,可以预测患者的氧气需求,以更好地对 COVID-19 患者进行分类。美国放射学会、麻省总医院、布莱根妇女医院的临床数据科学中心、加州大学洛杉矶分校健康中心和伦敦国王学院都在使用 Clara 联邦学习技术。而英伟达除了推出自己的联邦学习产品外还在自己的初创加速计划(
36、NVIDIA Inception Program)中扶持了多家涉及联邦学习业务的公司。例如:Rhino Health 是一家位于麻省剑桥的初创公司,其使用 Clara 构建了自己的联邦学习平台,为跨医院数据使用提供了解决方案。Doc.ai 是一家位于硅谷的创业公司,其目前产品已经有利用联邦学习构建的对重症肌无力的预测模型,帮助癫痫患者寻找最佳药物的模型以及血液检测新冠病毒的模型。除此之外也有越来越多的初创公司在美国涌现,例如:ConsilientConsilient 是一家成立于 2020 年的初创公司,由 Giant Oak 公司和 K2 Integrity 公司合作成立,该公司已经发布了利
37、用联邦学习创建的反洗钱及打击恐怖主义融资(AML/CFT)系统 Dozer。该公司与英特尔进行合作,并已经于 2021 年 2 月 10 日宣布在银行实验中成功验证了其系统的可行性。SECURE AI LABSSECURE AI LABS(SAILSAIL)是来自 MIT 团队的初创公司。其目前主要产品是为医院提供患者数据的管理平台,一方面通过安全技术保证医院数据安全,另一方面通过联邦学习在本地训练模型协助医护人员研究患者的相关数据。最近,SAIL 和美国肾癌协会合作(KCA)达成了合作,为KCA 的数据联盟提供联邦学习和数据安全技术。KCA 将利用 SAIL 17 的平台利用来自全国各地医院
38、的关键医疗数据,同时保护患者隐私。大量数据的使用可能使得该研究在肾癌治疗和护理方面取得突破。而在世界其他地方也相继涌现出基于联邦学习的初创公司,比如:澳大利亚的 PresagenPresagen 公司,其致力于连接全球的医疗数据,目前该公司已推出第一款产品 Life Whispere。该产品通过AI 算法来帮助筛选试管婴儿的胚胎。以色列的初创公司 Lynx.MD则试图构建一个不会泄露隐私的临床数据共享平台。行研机构 Gartner 预测,到 2024 年,隐私驱动的数据保护和法规遵从性技术支出将在全球突破 150 亿美元,这还将是一个很大的市场。2 2.国外相关政策国外相关政策 欧盟:欧盟:于
39、 2016 年发布了通用数据保护条例(GDPR),该条例于 2018 年 5 月 25 日正式生效。这也是世界范围内目前最广泛最全面的数据隐私保护条例,从此开启了隐私保护方面立法的浪潮。在 GDPR 之后,越来越多的国家开始推出本国的数据安全法,这也意味着能够让科技公司躲避 GDPR 的避风港将越来越少。在 GDPR 的跨境数据传输中有一项很重要的“充分性决议”。其中提到个人数据只能从欧盟/欧洲经济区输出至被认为能够提供充分数据保护的国家-即通过了“充分性决议”的国家。而欧盟委员会有权通过签发充分性决议,认定任何欧盟/欧洲经 18 济区以外的指定国家,或该第三国的某一区域或一个或多个特定行业,
40、或某国际组织,能够确保充分的数据保护。目前通过了充分性决议的共有十二家,分别是:安道尔、阿根廷、加拿大(商业组织)、法罗群岛、根西岛、以色列、马恩岛、日本、泽西岛、新西兰、瑞士和乌拉圭。而目前还有许多国家为获取该“充分性决议”而修订该国的数据保护法。英国:英国:在 2016 年公投脱欧后便于 2018 年推出了该国最新的数据保护法 2018 年数据保护法(Data Protection Act 2018)以取代其原有的1998 年数据保护法。该最新法案在相应法规和保护措施上都与 GDPR 类似。2021 年 6 月 28 日,欧盟委员会已经通过了两项关于将个人数据传输到英国的充分性决议,英国目
41、前已经很接近获得 GDPR 的“充分性决议”。美国:美国:尽管目前还没有联邦层面的数据隐私法,但各州都有自己的数据隐私法,其中影响力最大,最严格的是加利福尼亚州的 加州消费者隐私法(CCPA),其中有不少条款与 GDPR 重叠。而在 CCPA 通过以来,其他州以及联邦层面都有提出过类似的法案和提案。其中,弗吉尼亚州于 2021 年 3 月 2 日通过了消费者数据隐私保护法(CDPA),科罗拉多州于 2021 年 7 月 7 日通过了科罗拉多州隐私法(CPA)。就目前形势来看,在美国,更多隐私保护法律的出现将丝毫不令人意外。日本:日本:个人信息保护法于 2005 年 4 月 1 日开始实施,其后
42、为了适应信息技术的快速发展,该法案于 2015 年进行了大 19 幅度的修订,并于 2017 年 5 月 30 日开始实施。此外,日本还和欧盟于 2019 年 1 月通过了一项数据共享协议,该协议是欧盟与日本经济伙伴关系协定的补充协议。欧盟执委会认为日本法律能够对个人数据提供严格的保护,并对日本数据保护相关法规得出“充分性决议”认证。该协议的通过,使约 6 亿人口的数据实现互通,形成了“全球最大安全数据流动区域”。韩国:韩国:在 2011 年 9 月就生效了类似 GDPR 的隐私保护法个人信息保护法(PIPA)。到了 2020 年,韩国一年内对该法案进行了三次修订。早在 2017 年韩国就试图
43、获得欧盟认证,但是欧盟认为韩国的监督机构不够充分独立,个人信息保护法也不够完善,曾两次中断了审查程序。而韩国的一系列努力也确实也收到了成效,2021 年 3 月 30 日,欧盟认可了韩国最新的个人信息保护法以及韩国个人信息保护委员会权力的加强。按照标准流程,韩国目前已经十分接近获得该“充分性决议”认证。其他国家:印度其他国家:印度以 GDPR 为蓝本提出了个人数据保护法案(PDPB),该法案于 2019 年 12 月提交给了议会,有可能于今年通过。相较于 GDPR,印度中央政府将有更多自由裁量权来决定如何执行及何时可以例外。加拿大加拿大于 2020 年 11 月 17 日提出了2020 年数字
44、宪章实施法案 来修改其之前的数据隐私政策,其目的与 GDPR 类似,而对于严重违规行为,公司可能面临高达全球收入 5%的罚款,该比例高于 GDPR 的 4%。瑞士瑞士于 2020 年 9 月对其已有法律瑞士联邦数据保护法(DSG)提出了修订,修正 20 案将于 2022 年生效。本次修订的重点在于如何保护个人数据处理过程中的隐私权,相关规定较之前将变得更为严格。泰国泰国于2019 年 2 月通过了个人数据保护法(PDPA),因新冠疫情的影响,将于 2022 年 6 月 1 日起正式生效。虽然目前 PDPA 并未完全执行,但是相关公司仍需按照泰国数字经济与社会部(MDES)规定的标准来制定个人数
45、据安全措施。PDPA 相较于 GDPR,处罚更为复杂,包括有行政罚款和惩罚性赔偿,此外还有可能受到最长一年监禁的刑事处罚。南非:南非:于 2020 年 7 月 1 日生效了个人信息保护法(POPIA),宽限期为一年。与 GDPR 相比,POPIA在某些情况下更为严格,例如:不同于 GDPR 对中小企业进行的某些豁免,POPIA 适用于所有规模的公司;而在有些方面 POPIA则更为宽松,例如 GDPR 对管理数据可移植性有相关要求,但POPIA 则没有,此外 POPIA 还包括了刑事指控。智利:智利:于 2018 年对其宪法进行修订,将数据隐私列为人权中的一项,此后又对其数据隐私法(即 1962
46、8 号法律)提出了多个修正案。新西兰:新西兰:于2020 年 6 月通过了其 1993 年隐私法的新修正案。尽管新西兰通过了欧盟的“充分性决议”,与 GDPR 相比该修正案要宽松不少,比如:罚款数目要明显低于 GDPR;未对数据的可移植性做出相关要求;关于离岸数据的限制对于云服务器不适用,这也使得该限制实际作用有限,因为大多数云服务器都位于新西兰境外。21 (二二)国内应用情况国内应用情况 1.1.政策环境政策环境 联合建模主要用于解决数据孤岛,以及数据流通中的数据安全保护两大难题。联合建模的产业环境不可避免地受到国家宏观政策、金融管理,以及行业协会相关政策、规范的约束和影响。在国家政策方面在
47、国家政策方面,随着信息技术和人类生产生活场景的深度融合,数字化与促进数据流通成为国民经济中重要的一环,国家也为此多次发文指导。2019 年 10 月底,在中国共产党十九届四中全会上,中央提出“健全劳动、资本、土地、知识、技术、管理和数据等生产要素按贡献参与分配的机制”,数据作为生产要素这一论述拉开了数字资产新时代序幕。2020 年 4 月 9 日,中共中央、国务院发布了中共中央国务院关于构建更加完善的要素市场化配置体制机制的意见,数据要素将在推动数字经济发展的过程中扮演重要角色,培育数据流通市场,提出要加强数据信息安全,制定数据隐私保护制度和安全审查制度,加快了重视数据隐私安全的进程。2020
48、 年底,中央经济工作会议指出,“要大力发展数字经济”,加强科技创新。党的十九届五中全会进一步提出推进数据要素市场化改革、加快数字化发展,建立完善网络综合治理体系。同时数据安全问题日益严峻,同样受到高度重视,多项法律法规出台,聚焦数据信息安全,规范市场加强监管。2021 年 6 月 10 日,第十三届全国人民代表大会常务委员会第二十九次会议通过中华人民共和国数据安全法,为了规范数据 22 处理活动,保障数据安全,促进数据开发利用,保护个人、组织的合法权益,维护数据安全,建立健全数据安全治理体系,提高数据安全保障能力,促进数字经济高质量发展。2021 年 8 月 20日,十三届全国人大常委会第三十
49、次会议表决通过中华人民共和国个人信息保护法,规范个人信息的使用和处理,保障个人信息在数据的有序流通中得到有效保护。在金融在金融管理管理方面方面,中国人民银行多次发文论述数据流通及数据保护的技术。2019 年 8 月,中国人民银行印发了金融科技(FinTech)发展规划(2019-2021 年),文中提到“在切实保障个人隐私、商业秘密与敏感数据前提下,强化金融与社保、工商、税务、海关、电力、电信等行业的数据资源融合应用”“构建适应互联网时代的移动终端可信环境,充分利用可信计算、多方安全计算、密码算法、生物识别等信息技术,建立健全兼顾安全与便捷的多元化身份认证体系,不断丰富金融交易验证手段,保障移
50、动互联环境下金融交易安全,提升金融服务的可得性、满意度与安全水平”“探索人脸识别线下支付安全应用,借助密码识别、隐私计算、数据标签、模式识别等技术,利用专用口令、无感活体检测等实现交易验证”,率先提出金融行业中对金融业和其他行业的数据融合使用,以及通过多方安全计算,隐私计算等技术来保障数据安全。2020 年,中国人民银行在多次实行金融科技创新试点项目,发布的试点项目中就有不少是隐+私计算技术应用的金融科技项目。2020 年 11 月,中国人民银行发布 多 23 方安全计算金融应用规范,作为金融行业第一个隐私计算相关技术的标准,引起了行业巨大反响。2021 年 9 月,中国人民银行科技司副司长李
51、兴峰在北京国际服贸会期间举办的 2021 中国国际金融科技论坛上,提出“在技术上,为严防数据泄露、篡改和不当使用,既要利用加密存储、去标识化、身份认证等“老办法”,更要应用多方安全计算、联邦学习、联盟链等“新方法”实现数据可用不可见、数据不动价值动”。中国人民银行有关领导曾在2021 中国(北京)数据金融论坛上,谈到“在数据共享方面,坚持最小必要、专事专用原则,探索应用多方安全计算、联邦学习等技术,在保障原始数据不出域前提下规范开展数据共享”。与此同时,金融行业组织金融行业组织也在积极开展相关研究。2020 年11 月,中国互联网金融协会发布金融业数据要素融合应用研究,报告提出“运用多方计算(
52、业界亦称多方安全计算或多方安全计算)、联邦学习等技术,推动金融业数据要素在确保安全合规前提下实现融合应用创新,在促进金融业数字化转型、提升数字普惠金融水平、落实金融消费者保护要求、提升金融穿透式监管效能等方面具有重要意义”。近几年,北京金融科技产业联盟也在为数据安全保护与隐私计算技术相关的标准孵化,研究报告上做了大量研究探索工作。2021 年,已经开展了联邦学习标准的研制工作,并开展了多个场次的企业关于隐私计算技术的企业分享会。24 2.2.行业应用概况行业应用概况 (1 1)技术产品市场)技术产品市场 据毕马威隐私计算行业研究报告数据显示,隐私计算国内市场将达到空前规模,三年后技术服务营收有
53、望触达 100-200亿人民币空间,甚至将撬动千亿级数据平台运营收入空间。自上而下推算,根据 IDC 全球大数据和分析支出指南 预测,到 2024年,中国大数据市场将达 208 亿规模,其中软件、硬件、服务各占三分之一,则软件市场约为 70 亿美元。若 AI 软件平台占比16.7%,则规模为 12 亿美元。根据 IDC 另一份报告,假设大数据软件平台 2018-2024 年复合增长率为 39%,则到 2024 年其规模为 15 亿美元。假设 AI 软件中增加联合建模模块,则 2024 年我国隐私计算软件平台市场规模约为 12-15 亿美元。考虑 TEE 技术带来的芯片硬件支出,总规模可突破百亿
54、人民币。另据 gartner报告指出,到 2025 年,60%的大型组织将在分析、商业智能或云计算中使用一种或多种隐私增强的计算技术,且在这一周期中,“联邦学习”将发挥主流作用,引领商业化大潮。(2 2)金融行业应用市场)金融行业应用市场 由于多行业均存在数据合规流通和基于共享数据挖掘更大数据价值的需求,以数据联合为核心基础的联合建模应用场景也必然分布于各行各业。政务、金融、能源、运营商、互联网、医疗、安防等对联合建模都有具体需求和落地方向。其中,在金融行业构建数据合作生态,开展有效合规的联合建模的需求和实践 25 更为迫切。金融业中,银行是联合建模的主要客户,其 IT 投入占金融业 80%,
55、目前应用场景以风险管理和反欺诈为主。根据亿欧智库和智研咨询研究,我国智能风控规模在 2024 年预计将达到 203亿元,其中反欺诈 81 亿元、信贷风控 91 亿元。由于联合建模未来将成为智能风控的主要技术模块,预计其在金融业的潜在市场空间可达 170 亿元。根据Gartner发布的2021隐私相关的技术成熟度曲线显示,多方安全计算,差分隐私,联邦学习,可信计算,差分隐私等技术还需要 5-10 年才能达到稳定的成熟应用阶段。“技术成熟度不足”“数据隐私保护监管趋严”“金融业风险厌恶偏好”“数据要素应用创新”等综合因素决定了金融行业联合建模应用实践整体仍处于起步、试点及标准规范健全的阶段,如图
56、1 所示。26 图 1:Gartner 发布的 2021 隐私相关的技术成熟度曲线 金融行业作为信息技术应用、数据价值最大化最早的行业,在数据采集、生产、挖掘中有着丰富的经验,尤其是依托本机构长期积累的、真实而翔实的多维客户数据与交易数据,以数据价值挖掘驱动业务创新业已成为各家金融机构数字化转型的主要手段和抓手。其中,泛金融(涉及非金融领域合作)以及客户完整画像(特别是小微企业)、信贷风险评估(包括黑名单共享)、多头借贷、反洗钱反欺诈、信用风险控制、商业秘密保护等数据应用场景,往往需要更为广泛的客户行为数据、非本机构的金融交易数据和非金融场景数据来增强模型精度和评估准确性,进一步优化业务模式、
57、提升综合经营效益。这些数据源分散在其他金融机构、政务平台、数据公司及互联网公司手中,因此,各家金融机构都会“审慎”采取传统数据联合建模方式或基于隐私安全 27 的联合建模方式,与各家合作机构或数据源公司展开合作。目前,各家金融机构基于隐私安全技术的联合建模应用主要体现在风控联合建模上,其次是以隐私求交等技术联合外部数据进行的精准营销模型构建。例如,工商银行与工银瑞信合作的“债券违约风险预测模型”,突破了工行集团内部不同法人主体之间的数据壁垒,模型 AUC 指标超过了 0.8,违约企业前 6%召回率提升 7%,前 11%召回率提升 13%;光大银行在隐私计算领域有多项学术研究成果,且与运营商合作
58、基于双方的标签数据、征信分数据、通话标签数据,利用纵向联邦分析技术训练个人消费贷智能风控评分卡模型,AUC 提高了约 10%;中国银行成立技术创新研究团队,开展基于开源 Fate 框架的中小规模数据集的原型验证及智能营销、信贷风控、智能外呼等方面的应用研究,后续拟首先在与集团综合经营子公司联合建模的业务场景进行试点;招商银行与政务部门合作,利用行内数据与政府数据开展联合建模,实现对中小微企业的拓客,与平安集团合作,利用隐私求交技术实现黑名单数据的安全共享。同时考虑到以下几种因素,在金融场景下基于隐私安全技术、跨多个数据所有权的联合建模应用仍处于试水阶段,达到普遍成熟推广的程度尚需时日:1)隐私
59、保护的宏观政策与监管力度趋严,跨数据所有权下数据共享的“灰色地带”逐渐收窄;2)联合建模所依赖的隐私安全技术尚未达到“市场成熟应用”的阶段,且不少底层隐私安全技术的“可用不可见”承诺难以“可信论证”,28 也难以让业务人员“显性理解”,如果现阶段大面积推广,与金融业普遍的“低风险偏好”相违背;3)联合建模所依赖的技术栈和平台,尚无统一的业界标准,在“多方”技术平台不统一的情况下,多方集成存在“互联互通”的技术难度和高适配成本;4)个别场景适合采取“一家为主体构建模型并共享成果”的模式。如果延续“各自为政”的建设方式,事实上形成了另一种形式上的“价值孤岛”,同时从整体上也浪费了社会资源。5)“术
60、业有专攻”,隐私安全技术专业性很强,需要专业机构长期专注的研究与研发,而金融机构的专长在于“金融业务的研究与实践、金融领域应用软件研发”,联合建模应用的真正落地需要建立“金融业务模型+联合建模隐私技术+金融应用系统”三方持久、互信的合作机制与配套的技术平台与运营平台,避免“昙花一现”式的高成本“试错”。6)要真正寻找“跨数据所有权”的应用场景,要综合评估成本与收益,避免“为应用隐私技术而联合建模”的情况。(3 3)其他行业的联合建模应用)其他行业的联合建模应用 政务是联合建模的重要行业之一,当数据成为生产要素之一,将政务大数据赋能于新基建下的各行各业也成为一个重要课题。政务大数据具体包括司法数
61、据、社保数据、公积金数据、税务数据、水电燃气数据、交通数据、违章数据等,举例来说,对城市居民的多维度信用评级,授予或者限制更多的权限,要做到对个人联合风控,其中需要横向打通的数据包括交通出行数据、水电 29 燃气数据、公安数据、征信数据等,需要打通各个委办局,这是一个复杂、错综、协助、共创的业务生态,包括信用、安保、能源、交通、规划、环保、文旅等各个领域,业务数据涉及跨部门协同。在医疗行业,病例数据作为最需要保护隐私安全的数据,对医疗科研与病情推断具有重要的价值。然而单个医疗机构的数据样本不足以支撑大规模的模型训练,传统的做法是将病例数据汇总、统计、销毁,这种操作是极其不安全的。而在联合建模领
62、域,采用多方安全计算的方式,可以保证各家医疗机构数据不出库,加密计算,最终得到统计结果。像运营商、SDK 厂商、支付厂商等机构,在开展业务的同时会积累大量的用户数据。通常会成立一个大数据子公司来做数据增值业务。传统的 API 直接调用和线下联合建模的方式已经不满足数据安全的相关要求。联合建模技术也可服务于数据公司的对外服务平台,成为数据合规合法输出价值的一种解决方案。3.3.主流技术平台介绍主流技术平台介绍 (1 1)蚂蚁集团隐语平台)蚂蚁集团隐语平台 蚂蚁集团通过自研隐私计算框架隐语隐语帮助不同机构在满足用户隐私保护、数据安全和政府法规的要求下进行数据联合使用和建模。该框架希望通过构建一套统
63、一的技术框架,支撑不同的应用场景,提供一致的开发体验。框架包括两个层次:上层是编译层,通过对用户的数据分析和建模命令进行编译,生成可执行 30 的密态计算图;发送到下层的 PPU(Privacy Preserving Unit)分布式计算节点,由 PPU 完成具体的计算任务。通过编译器和PPU 的配合,可以实现可信、可度量、可证三种模式的计算能力。隐语系统架构,具有以下几个特点:(1)一体化的编程体验:可以像使用常用机器学习框架,或使用 SQL 类似的方式来使用该框架,用类明文计算的开发方式仍然获得密态联合计算的效果。一方面可以使用户获得平缓的学习曲线,另一方面,用户可以在一个编程界面完成从数
64、据分析到训练建模的全流程,为用户提供一致的编程体验。(2)扩展能力:框架通过支持 XLA,上层可以对接包括 TF、Pytorch、JAX在内的多种主流机器学习框架。通过Privacy Aware IR 的抽象,可以屏蔽掉下层安全协议的实现差异,使得下层可以插拔包括 ABY、ABY3、Blaze、SecureNN 等在内的多种安全协议。(3)隐私保护能力:框架支持包括可信安全、可度量安全和可证安全在内的多种隐私计算能力,可以适用不同场景的需要。(4)计算性能:整个系统框架针对隐私计算的特点,在计算和通讯等性能关键点上都进行了针对性地设计。此外,通过编译层和 PPU 的双层设计,在编译层可以借助现
65、有的很多优化技术来提升性能,在 PPU 层,通过 IR 的抽象屏蔽掉底层协议的差异 31 性,在不同运行环境下可以选择最适合的协议来提升性能,如图2 所示。图 2:蚂蚁隐私架构隐语框示意图(2 2)华控清交产品)华控清交产品 华控清交多方计算平台通过吸收、转化清华大学的科研成果而来,采用了多方安全计算等多种密码技术,将数据可见的具体信息和不用看见就可以用于计算的使用价值区分开来,实现“数据可用不可见、用途可控可计量”。主要技术特点有:(1)易编程:采用业界通用的 Python 和 SQL 开发接口,封装了常用 Python 密文基础函数库和人工智能算法密文函数库,兼容 Numpy 和 Pyto
66、rch,提供易于开发调试的编程环境,让不懂基础算法和密码学的普通程序员能够直接调用基于密文的计算函数和分析工具,就像在明文环境里一样开发隐私计算应用,大大降低了技术使用门槛。支持通过明密文混合计算框架来支持联Appl i cati onAl gori thmTensorFl owJAXAI C om pi l erSQ L I nterpreterXLA D AG -PPU D AGSQ L Q uery-PPU Executi on Pl anC om pl i erPytorchSQ L+Pri vacy Aw are I RPri vacy Aw are I RRunti m eRunt
67、i m eD el egated Pri vacy Engi neD el egated Pri vacy Engi neM easurabl e Pri vacy Engi neM easurabl e Pri vacy Engi neM easurabl e Pri vacy Engi neM easurabl e Pri vacy Engi nePPUPPUParty 1Party N 32 邦学习。(2)性能:通过对密码学基础理论、底层协议、分布式计算、系统、变异、算法等全方位的持续优化和创新,把多方计算的性能耗费从明文的 5-6 个数量级降低到了目前的几十倍,并创造了明文和密文的混合
68、运算,大幅提高计算性能和应用的灵活性。(3)扩展性:支持数据类型、算法类型、参与方数量、任务数量等动态扩展。(4)自主可控:从底层的基础运算(加法、乘法、比较等)开始进行工程实现,完全自主可控,具有原创性和自主知识产权。(5)平台允许多角色接入,可以根据不同应用场景进行按需调整。具体如图 3 所示。图 3:华控清交多方计算平台应用示意图(3 3)腾讯云隐私安全计算平台)腾讯云隐私安全计算平台 腾讯云隐私安全计算是腾讯云推出的以联邦学习(FL)、安全多方计算(MPC)、可信执行环境(TEE)等隐私数据保护技术 33 为基础的隐私计算平台,产品针对机器学习算法进行定制化的隐私保护改造,保证原始数据
69、不出本地即可完成联合建模,同时支持安全多方 PSI(隐私保护集合求交技术)、安全隐私查询、安全统计分析,提供基于硬件的 TEE 可信执行环境。通过腾讯云安全隐私计算,各合作机构既能保障数据安全,又能发挥数据最大价值,很好地解决了业界数据孤岛的难题。腾讯云隐私安全计算主要使用 Angel PowerFL 框架,其基于腾讯自研的多数据源联合计算技术,提供安全、易用、稳定、高性能的联邦机器学习、联合数据分析解决方案,助力数据融合应用。此框架主要优势如下:全自动化流程:安全样本对齐、特征工程、联邦算法以及预测打分;算法丰富:支持 LR、XGBoost、PCA、用户自定义神经网络模型(如 MLP、CNN
70、、RNN、Wide&Deep,DeepFM,DSSM 等);性能卓越:基于腾讯开源 Angel 分布式机器学习框架,异步并发计算,轻松处理千亿级数据量。一个小时左右可以完成千万级数据的 XGBoost 模型训练,十分钟左右可以完成千万级数据的预测;去中心的架构设计:独创的联邦安全协议,合作双方只需要传递加密的参数,保护数据隐私;更加安全、实用,支持多方联合和可视化操作。如图 4 所示。34 图 4:腾讯 Angel PowerFL 产品架构图(4 4)洞见数智联邦平台)洞见数智联邦平台 InsightOneInsightOne 洞见数智联邦平台 InsightOne 是基于多方安全计算、联邦学
71、习和区块链技术独立创新自研的“MPC+FML”双计算引擎的金融级隐私保护计算平台产品,涵盖了从资源管理到计算引擎再到应用服务的三层架构,具有“高安全、高性能、高兼容”三大特性:推出无第三方联邦学习(NTP-FL)技术,解决多方联合建模中的第三方可信风险问题;推出快速联邦学习技术,相比开源算法有数十倍的速度提升,解决联合建模中的性能问题;通过“MPC+FL”的双计算引擎,适配不同计算场景,并在一定标准内支持异构计算框架之间的互联互通。此外,InsightOne 平台通过匿踪查询、集合运算、联合统计与智能建模等应用服务矩阵的构建,已在政务、金融、保险等行 35 业有数十个应用落地案例。INSIGH
72、TONE 平台是国内唯一通过工信部中国信通院多方安全计算、联邦学习、隐私计算+区块链全系列评测的隐私计算产品。(5 5)富数科技阿凡达平台)富数科技阿凡达平台 Avatar(阿凡达)平台是富数科技自主研发的一站式企业级多方安全计算平台、集成多方安全计算、联邦学习、匿踪查询等核心技术,提供企业级的数据安全匹配,安全联合计算、安全联合建模、匿踪查询等跨机构间可信数据协作能力。在此基础上,用户可以结合实际场景以及自身实际需求,增加相关模块(包括定制联盟区块链模块、安全策略模块 Al 计算模块等)对标准平台进行补充以实现更多功能。Avatar 可应用于金融风控、精准营销、医疗科研、政务数据开放共享、可
73、溯源供应链等场景。具有以下特点:(1)安全技术与权威认证:首批通过中国信通院多方安全计算标准认证,拥有公安部等保等多项权威安全认证。领先的自有安全算法,原始数据及其秘密分片不出域,支持无第三方直联组网。独有的安全可视化模块,让复杂的多方安全技术黑盒透明化,工程安全可解释。(2)私有化部署:支持纯软件私有化部署或软硬一体机等多种形式进行交付机构可灵活投入硬件与计算资源。(3)开箱即用:通过图形化建模,算法流程化编排等技术简单高效地完成多方安全建模、统计、服务部署任务,灵活应对 36 各种应用场景,操作门槛低。(4)开放互联:底层算子开放架构,可以热插拔的算法组件,支持二次开发;开放的模型、算法与
74、数据服务市场,为数据服务方和场景需求方提供互联通道,客户可一站式接入金融风控、智能营销,政府医疗等关键数据与模型。(6 6)百度点石数据开放平台)百度点石数据开放平台 百度点石数据安全开放平台,是一整套数据安全开放解决方案,根据客户实际需求和业务场景提供针对性的产品形态。主要包括数据安全隔离域、联邦学习、MesaTEE 三个产品。(1)数据安全隔离域:一款安全驱动的数据分析和 AI 工作台,通过数据脱敏、数据置换、数据抽样、用户权限和数据权限管控,将运行环境和调试环境分离,外部数据分析人员只能在调试环境对样本数据进行数据分析、模型构建,然后将模型部署至运行环境进行训练,最后只输出运行结果。(2
75、)联邦学习平台:基于数据安全和隐私保护技术,在数据不出本地的情况下和多个参与方之间通过共享加密数据的参数交换与优化,来进行机器学习,建立虚拟共享模型。支持数据赋能金融、汽车、教育、互联网等行业客户,解决风险控制、精准营销等场景的业务需求,打破数据孤岛,实现数据价值的充分流动。37 (3)MesaTEE 平台:MesaTEE 安全计算平台是“强安全、高性能”的芯片级数据安全计算解决方案。通过私有化或云服务帮助金融、政务、互联网等行业在联合建模、联合营销、联合风控等场景下一站式完成数据联合计算,实现“数据可用不可见”的安全体验。如图 5 所示。图 5:百度点石平台产品架构图(7 7)数牍)数牍 T
76、usitaTusita 隐私计算平台隐私计算平台 数牍科技开发的基于隐私计算的多方安全数据协作平台,包括底层加密协议、系统架构及安全、算法功能、场景应用等四层,如图所示。底层加密协议使用各种国际通用和国家密码局发布的加密算法,覆盖同态加密、秘密共享、不经意传输、联邦学习等技术。架构提供安全的任务调度、调用、传输等功能。协调多个参与方(企业,政府机关及其他组织)进行 ID 融合、AI 建模、统计分析等具体功能。例如,匿名数据查询功能可以不泄露自己查询条 38 件下得到查询结果;多方联合 AI 建模可以支持海量数据的复杂模型建模;多方联合数据统计可以在目标数据及原始数据不暴露的前提下获取汇总统计结
77、果;实时线上模型服务可以支持实时预测。平台提供全流程的数据科学解决方案,包括数据打通、联邦分析、联邦建模、联邦预测等功能,以支持实际落地业务场景,例如用户画像,安全查询,ID 打通,联合征信等。如图 6。图 6:Tusita 隐私计算平台系统架构及功能分层图(8 8)融数联智善数平台)融数联智善数平台 融数联智公司自主知识产权的“善数”隐私计算平台具备安全求交、安全求和、匿踪查询、安全建模等系列产品。“善数”平台提供了端到端的全流程可视化操作环境,让用户无需编写代码即可如顶尖专家一样深入进行各项隐私计算工作。平台致力于从软件算法优化、硬件芯片/板卡以及网络等多个层面持续进行隐私计算的效率和效果
78、提升。平台具有高扩展和高开放性,可以和开源的第三方系统实现对接和算子互通。目前,平台已经通过 39 了工信部信通院的评测,获得了国家软件质量监督认证中心的认证证书,已经服务于近百家客户,覆盖金融、医疗、政府、零售等多个领域,如图 7 所示。图 7:融数联智善数平台架构(9 9)平安蜂巢联邦智能隐私计算平台)平安蜂巢联邦智能隐私计算平台 蜂巢联邦智能隐私计算平台是数据隐私保护的一站式解决方案,为金融业务提供全方位数据安全合作服务。蜂巢联邦智能隐私计算平台包含数据生态、联邦计算、联邦建模、推理应用、平台管理、监管审计等六大模块组成,提供中心化联邦及去中心化联邦两种方案,覆盖各个业务场景中从数据管理
79、到生产应用的全流程体系,支持同态加密、秘密分享、国密等多种加密方式。系统配备的可视化客户端与监管管理平台,具备“易用性”“安全性”“高效性”。蜂巢平台当前已广泛应用于跨机构数据合作、金融风控、交叉营销等场景,有效降低模型安全求交集(合数)安全求并集(叠数)隐秘查询(匿踪)安全建模平台隐私计算能力开放平台软件:善数隐私计算平台数据接入服务隐私计算培训精准营销咨询服务风控建模咨询GPU加速方案CPU加速方案FPGA板卡硬件隐私计算芯片画像补全联合征信精准营销反洗钱反电诈.应用场景隐私计算产品与解决方案数据化运营咨询 40 训练成本,提升训练效率。平台的联邦图谱技术,可以在不泄露双方图数据和特征信息
80、的前提下,构建合作方脱敏的隐私图,大幅提升模型效果,完善业务策略。同时,蜂巢平台达成多个跨异构平台互联互通建模案例,在信贷风险管理场景中完成落地应用。(1 10 0)建信金科数易联隐私计算平台)建信金科数易联隐私计算平台 基于建设企业级隐私保护计算平台的总体目标,建信金科设计并开发了基于区块链的存证审计系统,进而完成了“数易联”企业级隐私计算平台开发工作,如图8所示。本平台使用了中心化管理与分布式计算相结合的系统架构,基于同态加密、秘密分享、不经意传输等底层密码算法,支持包含联合查询、联合运算、联邦学习在内的多种功能范式。基于区块链的存证审计系统可以对参与方的恶意攻击行为进行有效追责,安全性进
81、一步提升,并已获得专利授权。此外,“数易联平台”支持数据和模型市场,支持多种源数据类型,支持账户和权限管理,支持节点管理与资源监控,系统功能完备,能够解决建行内外部的隐私计算业务需求。41 图 8:“数易联”隐私计算平台 42 三、支撑联合建模应用的隐私计算技术体系 广义上,支撑联合建模的技术生态非常庞大,包括基础设施类技术(如云平台环境、大数据平台环境、边缘计算环境、可信安全基础环境等)、基础中间件技术(如分布式数据库、分布式文件系统、微服务框架、通信中间件等)、基础算法组件库(如机器学习算法、传统密码学、分布式一致性算法等)以及隐私保护计算(Private-Preserving Compu
82、tation)等多领域、跨学科技术体系。本报告聚焦讨论“多方数据隐私安全”下的联合建模,主要简述隐私保护计算(Private-Preserving Computation)有关隐私计算过程的相关技术要点。(有关隐私保护计算的详细解读推荐阅读中国信通院于 2021 年发布的隐私保护计算与合规应用研究报告(2021 年)。隐私保护计算按照UN Handbook on Privacy-Preserving Computation Techniques 定义,是指在提供隐私保护的前提下,实现数据价值挖掘的技术体系。隐私保护技术是包括通用数据科学、传统密码学、硬件可信技术、人工智能等众多领域交叉融合的技
83、术体系,目前主要有四类技术路线:多方安全计算、联邦学习、差分隐私以及可信执行环境。此外,隐私保护类技术还包括安全查询、数据脱敏、匿名算法、代理重加密、零知识证明等技术工具。43 (一)隐私计算技术体系简述(一)隐私计算技术体系简述 1 1.联邦学习联邦学习 联邦学习是一种分布式机器学习技术,包括两个或多个参与方,这些参与方通过同态加密等安全的算法协议进行联合机器学习,可以在各方数据不出域的情况下在线完成建模,提供模型推理与预测服务。在联邦学习框架下,各参与方只交换密文形式的中间计算结果,不交换原始数据,保证各方原始数据不露出。联邦学习是多方安全计算的一种应用场景,常常通过同态加密、秘密共享同态
84、加密、秘密共享等多方安全计算工具提高数据协作过程中的安全性。联邦学习根据训练数据在不同数据方之间的特征空间和样本空间的分布情况,分为横向联邦学习、纵向联邦学习和联邦迁移学习。其与传统分布式学习的区别主要表现在数据属主的绝对掌控、参与方不稳定、负载不均衡(短板效应)、数据非独立同分布、通讯代价高以及由梯度、隐私求交和半同态加密引起的安全问题等方面,具体可参阅隐私保护计算与合规应用研究报告(2021 年)联邦分析的主要关键机制如下:联邦分析的主要关键机制如下:(1 1)隐私求交)隐私求交 隐私求交指在多机构联合计算时,允许得到各参与方持有数据集合的交集部分,而不暴露任何交集外数据。保证隐私数据安
85、44 全的前提下,解决了单一机构数据量有限和数据维度不高的局限,促进了数据价值的深层次挖掘。常见的基于 Blind-RSA 算法的隐私求交为,合作双方首先对原始数据进行脱敏,随后进行多轮加密,再对双方加密数据隐私求交,得到双方数据的交集部分,而不暴露双方数据交集外的其他数据。隐私求交是整个联邦学习过程的第一步,是联邦特征工程和联邦学习的前置过程。(2 2)联邦特征工程)联邦特征工程 金融中常用到的联邦特征工程为 IV 和 WOE 值的计算。其中包含了分箱、WOE 计算、IV 计算等操作。分箱操作是一项特征工程,将数据按照设定的规则进行划分。此操作可将连续变量(continuous)转成可离散变
86、量(discrete)。WOE 与 IV 值是完成分箱操作后,基于信息熵评价分箱好坏的指标。在基于 IV 最优分箱的时候,最终计算的 IV 值越高,表示此分箱的预测能力越强。联邦特征工程在此过程中,利用同态加密保护标签信息。根据加法同态性质,Enc(a)+Enc(b)=Enc(a+b),正负样本标签的“明文的和”与正负样本标签的“密文的和”解密后相等。此过 45 程保护数据中的标签 Y 不被泄露,同时得到每一个分箱的样本分布,从而计算出 WOE 和 IV。联邦特征工程往往是联邦学习的前置过程,对原始特征进行加工后供联邦学习算法使用。(3 3)模型训练)模型训练 1)1)联邦逻辑回归(联邦逻辑回
87、归(Federated Logistics RegressionFederated Logistics Regression)逻辑回归(Logistics Regression)是一种“二分类”的算法模型,其基本形式是使用 Logistic 函数来对二元(binary)因变量建模。联邦逻辑回归在互不传输数据明文的情况下,完成模型训练和打分。此算法综合使用了秘密分享和同态加密等方法,使训练模型的梯度下降算法在计算中同使用上分置于多方的标签数据和特征数据,但同时这些数据都通过加密来进行保护,不会在计算的 46 交互过程中被其他方所得知。图 9 详细介绍了联邦逻辑回归的具体算法供参考。图 9:联邦学
88、习逻辑回归算法示意图 联邦逻辑回归往往在风控场景用于评分卡模型的建立,通过联合多方数据,联邦逻辑回归能具有比单方数据更强的区分度,从而更好地识别坏用户。2)2)联邦提升树模型(联邦提升树模型(Secured Boosting TreeSecured Boosting Tree)联邦提升树模型是 boosting 算法的其中一种。Boosting 算法的思想是将许多弱分类器集成在一起形成一个强分类器。因为XGBoost是一种提升树模型,所以他是将许多树模型集成在一起,形成一个很强的分类器。而所用到的树模型则是 CART 回归树模型。47 此算法使用同态加密技术,在中间数据交互的过程中保护原始数据
89、不泄漏或被反推。具体来说由于一阶梯度 g 和二阶梯度 h依赖标签 y 以及上一棵树的预测结果,属于敏感数据,经过同态加密保护明文后传送给 Host 方。Host 方利用同态加密的加法同态性质,即 Enc(a)+Enc(b)=Enc(a+b),计算节点两侧的密文和。由于 Guest 方需要保护标签信息,Host 方不清楚具体的标签无法进行决策树节点筛选,所以 Host 方需要计算每个可能的分割点左右两侧的密文和,并发送给 Guest 方计算出最优的分割点。如图 10 所示。图 10:联邦学习树模型算法示意图 联邦提升树模型同样能通过联合多方数据提升模型的区分能力。同时,由于其模型结构本身的特点,
90、使用相同的数据训练,往往比逻辑回归有着更好的区分能力。但是,由于结构较为复杂,解释性较差,常常用于反欺诈等领域。48 3)3)联邦神经网络(联邦神经网络(Federated Deep Neural NetworkFederated Deep Neural Network)神经网络具有大规模并行、分布式处理、自组织、自学习等优点,因此常常应用于大规模数据计算,目前神经网络在自然语言处理、语音识别、计算机视觉、推荐系统等领域具有非常广泛的应用。在多方联合建模的场景下需要使用联邦模式下的深度学习算法,联邦神经网络采用类似双塔网络形式的网络结构(如图 11所示)。图 11:联邦神经网络采用的双塔网络结
91、构 2 2.多方安全计算多方安全计算 多方安全计算意图解决一组互不信任的参与方之间保护隐私的协同计算问题,其目的在于参与方获得正确的计算结果的同 49 时,无法获取其他任何信息,特别是无数据权利的明文信息。多方安全计算本质上是解决上述问题的一种协议统称,在整个计算协议执行过程中,用户对个人数据始终拥有控制权,只有计算逻辑是公开的。计算参与方无需依赖第三方就能完成数据计算,并且各参与方拿到计算结果后也无法推断出其他原始数据。该协议的形式化表达为:在一个多方参与的分布式网络中,n 个互不信任的参与方P1,P2,.Pn,每个参与方 Pi 利用自身的秘密输入数据 Xi,共 同 计 算 一 个 n 元
92、功 能 随 机 函 数 F:(X1,X2,.Xn)-(Y1,Y2,.Yn),(Y1,Y2,.Yn)为计算完成的输出结果,且每个参与方 Pi 除了自身的 Xi 和 Yi 外,得不到任何其他参与方的输入信息。该协议目前主要包括三类解决方案和一个主要技术工具:基于同态加密(Homomorphic Encryption)的解决方案、基于混淆电路(Garbled Circuits)的解决方案、基于秘密共享(Secret Sharing)的解决方案,以及不经意传输(Oblivious Transfer)。基于这些技术的组合产生了隐匿查询、联邦学习等应用技术。(1 1)同态加密)同态加密 50 同态加密是指
93、对其加密数据进行处理得到一个输出,将此输出进行解密,其结果与用同一方法处理未加密原始数据得到的结果相同。同态加密算法提供了一种对加密数据进行处理的功能。也就是说,其他人可以对加密数据进行处理,但是处理过程不会泄露任何原始内容。同时,拥有密钥的用户对处理过的数据进行解密后,得到的正好是处理后的结果。同态加密也是联邦特征工程和联邦学习算法的核心底层技术。(2 2)混淆电路)混淆电路 混淆电路作为一种通用化的 SMPC 解决方案,将计算过程表达为电路运算,以实现多方安全计算的目的。其核心思想是将计算函数编译成布尔电路的形式,并将电路真值表加密打乱,从而实现电路的正常输出但又不泄露参与计算的双方的私有
94、数据。具体来说,混淆电路至少包含一个 garbler 和一个evaluator。Garbler 根据算法逻辑生成混淆电路,由若干 XOR、AND 基本电路组成。每个基本电路就是一个加密混淆的真值表,有两个输入和一个输出,每个输入或输出有两条电线,用两个随机数表示,称为标签,分别对应输入或输出取值为 0 和 1 的情况,如图所示。该对应关系对 evaluator 保密。Evaluator 根据 51 各输入电线上指定的输入标签,解密混淆电路,得到输出标签,并发送给 garbler。Garbler 根据对应关系获得最终的电路输出。混淆电路是一种通用化的多方安全计算解决方案,将计算过程表达为电路运算
95、,就能够实现多方安全计算的目的,如图 12。图 12:混淆电路原理图(3 3)秘密分享)秘密分享 秘密分享的思想是将秘密以适当的方式拆分,拆分后的每一个份额由不同的参与者管理,单个参与者无法恢复秘密信息,只有若干个参与者一同协作才能恢复秘密消息。更重要的是,当其中任何相应范围内参与者出问题时,秘密仍可以完整恢复。秘密分享在联邦学习、联邦分析等场景均有应用,是一项重要的底层技术。(4 4)不经意传输)不经意传输 52 不经意传输处理的问题是:数据持有方拥有 n 个数据,数据需求方需要从这 n 个数据中选取 k(k=8 小时),小时级(8 小时),分钟(小于 1 小时)级属性指标。取值建议:0-分
96、钟级、1-小时级,2-天级 天级响应时效性:是目前最为场景的应用模式,业务往往基于批量样本数据的跑批和建模来完成数据和模型的例行更新;小时级响应时效性:往往基于小批量数据进行增量建模来实现 分钟级响应时效性:需要系统具有流式更新和流式建模的能力,实现系统新增数据的高效更新和生效。特别说明:无(7 7)建模数据形态特征)建模数据形态特征 109 定义:建模数据形态特征是指针对不同的业务场景和性能目标,系统建模所采取的不同的模型算法和模型计算方式。属性描述:根据用来建模数据的形态可将联合建模划分为结构化的数据建模、基于自由文本数据的建模,基于图像数据的建模,基于语音数据的建模以及简单统计分析与多维
97、分析、联合数据查询。取值建议:0-结构化的数据建模-机器学习、1-基于自由文本数据的建模,2-基于图像数据的建模,3-基于语音数据的建模、4-结构化的数据建模-简单多维分析、5-结构化的数据建模-联合数据查询 基于结构化的数据建模:一般集中在二分类(如反欺诈、信用风险评估模型等)、多分类(如信用风险等级预测等)、线性回归(如收入预测模型、损失预测模型)、简单大数据多维分析(传统数据仓库领域的 OLAP 分析,即传统的多维分析建模)、联合数据查询(基于多方数据存储和处理系统之上的数据检索)等场景。这也是目前应用最为广泛的情形。基于自由文本数据的建模:即自然语言处理,往往需要对文本进行一些处理才能
98、够进一步使用,如文本纠错、情感倾向分析、评论观点抽取、对话情绪识别、文章标签、文章分类、新闻摘要、地址识别等场景;有时候也会对自由文本进行结构化抽取,然后通过结构化的方式进行隐私保护的建模;基于图像数据的建模:图像的隐私越来越受到重视,人脸等具有隐私信息的图片在信息收集和计算中也需要进行保护;110 基于语音数据的建模:随着语音交互场景的增多,如音响,车载等等场景语音交互的日益普及,机器或 APP 对人声处于长期监听的状态,如为了保护日常对话的隐私信息,需要对机器人的交互声音和日常生活的对话进行区分。特别说明:1)建模数据形态所代表的特征属性最能直接反映业务的功能需求和功能目标,其他指标多为刻
99、画业务的非功能需求或管理目标。2)单纯的数据形态(结构化数据、文本、图像、语音等)并不是决定选择模型算法的根本因素,建模数据形态特征的核心要素是模型细分类型,由业务场景要素、业务评估指标、数据形态等多种因素共同决定。因此要求:在应用本特征在应用本特征刻画场景应用时,必须明确标注具体的模型类型刻画场景应用时,必须明确标注具体的模型类型。例如:在“人脸匹配与识别过程”这个应用场景下,如果追求速度快,而对识别率低有较高的业务容忍度,可以选择“基于人脸特征统计学的识别方法”,但如果要求对人脸身份和属性有很强的识别率,且能很好解决局部遮挡效果,但不追求过快的识别速度,则应该选择“基于深度学习的识别方法”
100、。(8 8)体验友好性特征)体验友好性特征 定义:体验友好性特征是指在联合建模的产品设计研发、部署运维以及生产运营全流程中,向所有参与者(如研发人员、运维人员、业务运营人员和客户等)提供了好用、易用的工具,使该联合建模产品具有全流程的良好用户体验。属性描述:针对不同的参与角色提供不同“友好”工具,分 111 为业务产品设计友好性、架构友好性(松耦合、共享性、组件化、热插拔等)、开发测试友好性、底层封装友好性、功能扩展友好性、运维友好性及运营管理友好性等。取值建议:0-业务产品设计友好性、1-架构友好性(松耦合、共享性、组件化、热插拔等)、2-开发测试友好性、3-底层封装友好性、4-功能扩展友好
101、性、5-运维友好性及 6-运营管理友好性、7-其他 最后,需要特别指出:针对任何一个具体的联合建模应用场景,如果要取得“良好”的业务价值和效果,应在明确场景业务目标和业务要素的同时,综合评估并准确界定上述七类特征属性的“真实需求”,进而明确相匹配的模型算法、构建方法,精准选择最轻量级、最小成本的技术平台与运营模式。例如,不考虑业务价值取向,单纯强调“建模速度最快”或者一味热衷追求最热门的“机器学习”“神经网络”算法都是不正确的。3 3.联合建模应用场景特征细分案例联合建模应用场景特征细分案例 以下给出两个联合建模实际案例的特征细分样本,因涉及商业隐私,数据详实程度仅供参考,如表 4、表 5 所
102、示。表 4:案例一、某隐私计算平台隐语在银行金融风控中的应用样本 案例名称 某隐私计算平台隐语在银行金融风控中的应用 行业领域 金融 业务领域细分 联合风控 应用场景目标 通过联合建模,提升银行的风控能力和业务效果,为客户提供更加精准的信贷服务 112 场景要素说明 场景客群、金融产品、非金融服务和内容资讯 长尾个人用户,小微企业用户 以下内容,针对不同具体属性取值,分多种细分情况加以说明。【填写前,务必先阅读和理解报告第五章内容】属性值 具体说明 隐私数据存储特征 涉客体隐私 0-不涉客体隐私数据;1-涉及客体明文隐私数据;2-涉及客体模型参数半隐私数据;3-涉及客体中间结果半隐私数据;4-
103、涉及客体密文隐私数据 4 对于参与方客体的数据都是通过密态的方式进行交互计算,不接触明文数据 涉主体隐私 0-外部不涉主体隐私数据;1-外部涉及主体明文隐私数据;2-外部涉及主体模型参数半隐私数据;3-外部涉及主体中间结果半隐私数据;4-外部涉及主体密文隐私数据;5-技术上无法判断外部是否涉及主体隐私数据 4 对于主体数据,提供给客户进行计算时,也是提供的密态结果进行计算,过程中不涉及明文 隐私数据传输特征 0-通信明文传输;1-通信密文传输 1 参与方之间的数据传输是通过密态方式进行交互和计算 数据明密文计算特征 0-全明文计算;1-全密文计算;2-明密文混合计算 1 通过对双方数据进行密态
104、建模计算,参与双方均生成分片的模型,基于分片模型之上进行联合预测生成预测结果 数据运营模式特征 0-集中运营模式、1-去中心化模式、2-中心调度与聚合计算模式、3-混合运营模式 1 参与方进行点对点计算,数据提供方也是计算方,参与双方基于此模式进行联合建模分析,生成模型并基于此进行预测 113 样本规模特征 样本平均规模 0-小规模数据建模、1-中规模数据建模,2-大规模数据建模,3-超大规模数据建模 1 数据规模大约在几十万到百万量级 样本最小传输速率 0-小规模数据通信、1-中规模数据通信,2-大规模数据通信 0 专线传输,带宽较低,通信安全性和稳定性保障好 响应时效性特征 0-分钟级、1
105、-小时级,2-天级 2 数据批量采集,可进行天级建模计算 建模数据形态特征 0-结构化的数据建模-机器学习、1-基于自由文本数据的建模,2-基于图像数据的建模,3-基于语音数据的建模、4-结构化的数据建模-简单多维分析、5-结构化的数据建模-联合数据查询【需在每个取值下明确标注具体的模型】0 主要基于结构化数据的建模,支持 LR、XGB 等多种金融领域算法,及 NN 等扩展性算法 体验友好性特征 0-业务产品设计友好性、1-架构友好性(松耦合、共享性、组件化、热插拔等)、2-开发测试友好性、3-底层封装友好性、4-功能扩展友好性、5-运维友好性及 6-运营管理友好性、7-其他 0、1、2、3、
106、4、5、6 0-平台支持可视化及拖拽操作方式,方便对算法没那么了解或对开发不是很熟悉的同学也可以进行建模流程操作,简化了使用成本;1-平台支持安全算子和算法开发解耦编程,让算法开发工程师和安全算子开发工程师可独立开发,独立优化;2-平台整体分层设计保障了开发测试同样可分层实现;3-技术底层提供统一的技术产品接口,方便平台进行集成;4-平台框架支持多种算子开发,支持基于 tf,pytorch,sql,以及 python 编程等多种方式开 114 发,可方便集成已有的算法 5-提供运维平台,可在允许的情况下监控任务以及模型运行过程中的状态及统计信息 6-提供运营管理统一平台,方便项目运营人员进行平
107、台化操作 表 5:案例二、基于多方安全计算的信贷营销样本 案例名称 基于多方安全计算的信贷营销 行业领域 银行业 业务领域细分 信贷营销 应用场景目标 子行利用母行客群信息进行潜客挖掘,并对其进行精准触达、营销和转化。场景要素说明 场景客群、金融产品、非金融服务和内容资讯 对私信贷客户群、信贷营销类金融产品等 以下内容,针对不同具体属性取值,分多种细分情况加以说明。【填写前,务必先阅读和理解报告第五章内容】属性值 具体说明 隐私数据存储特征 涉客体隐私 0-不涉客体隐私数据;1-涉及客体明文隐私数据;2-涉及客体模型参数半隐私数据;3-涉及客体中间结果半隐私数据;4-涉及客体密文隐私数据 3
108、模型训练阶段,客体模型的中间计算结果(即参数或梯度)以密文形式输入多方安全计算平台(在两方分别部署),用于联合模型更新。涉主体隐私 0-外部不涉主体隐私数据;1-外部涉及主体明文隐私数据;2-外部涉及主体模型参数半隐私数据;3-外部涉及主体中间结果半隐私数据;4-外部涉及主体密文隐私数3 模型训练阶段,客体模型的中间计算结果(即参数或梯度)以密文形式输入多方安全计算平台(在两方分别部署),用于联合模型更新。115 据;5-技术上无法判断外部是否涉及主体隐私数据 隐私数据传输特征 0-通信明文传输;1-通信密文传输 1 母行及子行客群数据以密文形式输入多方安全计算平台(在两方分别部署)进行隐私集
109、合求交以及联合模型训练 数据明密文计算特征 0-全明文计算;1-全密文计算;2-明密文混合计算 2 模型训练阶段涉及明密文混合计算:子行和母行在各自本地执行基于明文数据的模型训练,模型中间计算结果以密文形式交互。数据运营模式特征 0-集中运营模式、1-去中心化模式、2-中心调度与聚合计算模式、3-混合运营模式 2 多方安全计算平台作为中心调度方,将各方传输的计算因子进行聚合计算。样本规模特征 样本平均规模 0-小规模数据建模、1-中规模数据建模,2-大规模数据建模,3-超大规模数据建模 0 100000 样本最小传输速率 0-小规模数据通信、1-中规模数据通信,2-大规模数据通信 0 100M
110、 以内 响应时效性特征 0-分钟级、1-小时级,2-天级 0 模型训练阶段:30 分钟/轮;模型预测阶段:1 分钟/次 建模数据形态特征 0-结构化的数据建模-机器学习、1-基于自由文本数据的建模,2-基于图像数据的建模,3-基于语音数据的建模、4-结构化的数据建模-简单多维分析、5-结构化的数据建模-联合数据查询【需在每个取值下明确标注具体的模型】0 XGBoost 116 体验友好性特征 0-业务产品设计友好性、1-架构友好性(松耦合、共享性、组件化、热插拔等)、2-开发测试友好性、3-底层封装友好性、4-功能扩展友好性、5-运维友好性及 6-运营管理友好性、7-其他 0、1、2、3、4、
111、5、6 0:支持可视化建模,降低模型训练门槛;1:平台微服务架构为不同功能(隐私集合求交、匿踪查询、联合统计、联邦学习)提供单独组件;平台的松耦合架构可实现数据、算法、算力与应用解耦,数据与算法解耦,算法与算力解耦;2:提供 Jupyter Notebook IDE 环境,提供完善的密文算法库和函数库;3:平台已封装 500 余个密文计算函数;4:平台采用中心代理计算架构,可满足多场景开发的灵活需求。具体为:(1)数据提供方(参与方)可以任意扩展;(2)算力可任意扩展;(3)支持多协议的按需组合,包括秘密共享、同态计算、不经意传输、混淆电路等多方安全计算协议;(4)兼容各种密码体系,如国密;5
112、:云原生、微服务架构;方便集成多种现有明文大数据平台;6:存证机制实现业务全流程的可追溯、可审计、可监管;提供合约机制审核机制。4 4.特征细分对通用平台架构设计的指导意义特征细分对通用平台架构设计的指导意义 应用场景特征细分对于面向联合建模业务应用的通用平台架构与系统设计有着非常重要的指导意义。众所周知,任何一个在市场与客户中口碑良好的产品,都会坚守“需求决定设计”的基本原则。一个令客户满意的软件产品也同样必须“尊重”客户需求,具体表现为软件系统设计力求对客户需求的准确把握与合理抽象。单凭程序员的直觉,设计“符合程序员的 117 逻辑,不符合客户逻辑”的程序,是系统设计的反模式。一个具体业务
113、场景的业务功能需求与数据模型需求决定业务程序代码的计算执行逻辑和数据结构设计,而抽象自同类业务场景需求的通用特征、属性及其相互关系,视为同类业务场景的高阶需求,也必然决定通用技术平台所应该具有的通用组件能力、分工与架构层次。因此,基于完备的“联合建模应用场景”特征细分成果,同时,充分借鉴当下前沿的架构设计理论,依托成熟的隐私计算、云计算、大数据、机器学习等底层技术栈实践成果,方能真正设计出可以动态支持、敏捷适配不同个性化客户需求的通用、平台化的联合建模软件系统。为此,本文简要给出如下平台设计的参考思路:首先,对联合建模应用场景的通用特征进行细致挖掘,提炼归纳出对业务功能、运营服务、管理决策以及
114、性能等方面有密切影响的关键特征,并对特征的具体属性进行分解和量化。其次,对特征进行 IT 组件化分析与设计,完成从高阶业务需求到高阶 IT 架构设计的抽象映射。在本项工作的组件化设计中,应重点关注三类设计要点:其一是特征的功能定位应符合“业务可见性”及“职责单一化”原则,且粒度适中,该特征或细分属性可以直接映射为平台应用类通用组件;其二是特征的功能定位符合职责单一化原则但不符合“业务可见性”原则,其能力一般表现对其他通用组件的支撑(组合与封装),该类特征或细分属性可以映射设计为平台通用支撑组件;其三 118 是特征的功能定位不符合“职责单一化”原则但符合“业务可见性”原则,其能力明显需要借助多
115、个平台应用类通用组件的封装与组合来实现,该类特征或细分属性可以映射设计为平台应用通用套件。另外,那些不依赖业务特征细分的技术组件,如云技术组件、算法组件、安全组件以及多方计算组件等,统称为平台底层技术组件。一般而言,组件自下而上形成基本层组件自下而上形成基本层次关系:平台底层技术组件(最下层)、平台通用支撑组件、次关系:平台底层技术组件(最下层)、平台通用支撑组件、平台应用通用套件、场景应用业务代码(最上层)平台应用通用套件、场景应用业务代码(最上层)。最后,需进一步对上述组件按照如下三个维度进行分析、评估和分类:一是各层组件之间的功能依赖与耦合关系;二是各类组件与业务代码之间的功能依赖关系;
116、三是各类组件之间的部署依赖及不同接口协议匹配关系。基于上述分析与分类的结果,平台将对各层中的组件按功耦合度进行聚类(族)划分,再按照不同聚类间的关联关系,将聚类划分为“共享”“个性”“扩展”等不同类别,并以此来决定组件聚类的使用范围和边界,进而决定不同聚类的软件打包策略及物理部署策略。通过不同粒度和聚类软件包的“低成本、最小化”低成本、最小化”组合方式来精准满足不同运营角色、不同建模角色、不同管理角色的实际需求,既要避免向客户交付“功能缺失”的产品,也要避免让客户为“与需求无关的功能”及其他额外成本买单。119 (二)(二)联合建模的应用场景的其他分类方式联合建模的应用场景的其他分类方式 1
117、1.按照机器学习算法进行分类按照机器学习算法进行分类 在隐私计算的语境下,联合建模属于分布式机器学习。不同的建模目的与场景往往需要采用不同的机器学习算法。通常我们将机器学习分为有监督的机器学习和无监督的机器学习两大类,与此相对应的,联合建模可以分为有监督学习的联合建模和无监督学习的联合建模两大类。有监督学习指的是通过有标记的训练样本集去进行学习训练,获得一个最优模型,此后同类的数据可按照此模型进行输入,根据输出的结果进行预测、分类。有监督学习要实现的目标是“对于输入数据 X 能预测变量 Y”,通常适合于拥有不同特征、样本有重叠的多个机构之间的联合建模。有监督学习一般包括分类与回归两种类型,有监
118、督的机器学习算法常见的有:逻辑回归算法、BP 神经网络算法、决策树、支持向量机、KNN 等;无监督学习指的是训练集不会有人为标注的结果(无反馈),单纯由计算机自行分析,从而“得出结果”。无监督学习要回答的问题是“从数据 X 中能发现什么”,通常适合于拥有相同特征、不同样本的多个机构之间的联合建模。无监督算法常见的有:密度估计、异常检测、层次聚类、EM 算法、K-Means 算法等。120 2 2.按照应用部署架构进行分类按照应用部署架构进行分类 模型训练重点关注的是如何通过训练策略来得到一个性能更好的模型,而模型部署则关注的是如何实现模型的快速落地和运营管理。联合建模应用根据按照部署架构的不同
119、可分为中心化部署、本地化终端部署、中心化部署一般直接以训练的引擎库作为推理服务模式,模型集中部署中心服务器,用户通过URL 访问或者 API 接口调用等形式向中心服务器发出“建模”请求,中心收到请求后进行处理并返回结果;本地化终端部署主要用于嵌入式设备,当模型用于对时间要求严格的系统中,需要立即作出决策时,可以采取本地化终端部署。通过将模型打包封装到 SDK,集成到嵌入式设备中,数据的处理和模型推理都在本地终端设备上执行,以提供高性能的推理能力。3 3.按照技术路线分类按照技术路线分类 联合建模底层依赖的技术路线一般包括联邦学习、多方安全计算、可信执行环境等,根据业务场景具体的建模目标、问题复
120、杂程度、安全合规要求、性能效果要求的不同,可设计不同的联合建模技术方案,如有的建模场景要求无第三方机构参与且训练性能较高,在技术层面可在联邦学习模型训练计算过程中引入 MPC 实现多方协同学习;还有建模场景为横向联邦,高准确性、高性能要求,可在横向联邦学习中基于 TEE 来完成梯度聚合。联合建模案例中用到的隐私计算技术组合多样,根 121 据技术路线的丰富程度,可将联合建模案例划分为单一技术应用的案例,混合技术应用的案例。4 4.按照数据量级分类按照数据量级分类 不同场景的联合建模在数据量级上往往差异比较大,像金融风控场景的建模一般需要把数据维度归到人或者企业上,建模数据量级一般在百万以内;像
121、推荐场景,数据量级一般会在百万级别以上,甚至达到千万级别;像基于图数据进行关联关系挖掘,数据量级会达到亿以上级别。随着建模样本数据量级的增大对联合建模采用的技术方案、硬件资源、网络资源都提出了新的要求。百万以内的样本建模,多种技术路线都可以支持;百万到一亿级别的数据建模,可能有的技术方案对应的模型训练耗时会很长,无法满足商业应用的要求;亿级别以上的数据建模可能需要放弃安全性或者采用数据集中式的建模方式。根据数据量级带来的影响,可以将联合建模案例归纳分类为百万以内数据的联合建模,百万到一亿数据的联合建模,亿级以上数据的联合建模。122 六、发展与建议(一)当前技术与平台挑战(一)当前技术与平台挑
122、战 1.1.全流程的安全保障全流程的安全保障 安全联合建模技术主要用于解决数据安全问题,目前业界广泛使用多方安全计算、联邦学习、可信执行环境等安全计算来解决跨机构的数据合作,但是其中有不少安全的挑战,主要有:(1 1)隐私计算过程中的安全风险隐私计算过程中的安全风险。例如,联邦学习是一种在原始数据不出域的情况下多方协同训练机器学习模型的方法。但是在训练过程中,恶意参与方有可能会进行推理攻击,通过训练过程中的中间参数进行推理,还原原始数据。这样一来,便触犯了法律规定的“经过处理无法识别特定个人且不能复原”的条件,导致对个人信息主体权益的侵犯。因此,企业需要从输入数据、模型数据、训练数据、输出结果
123、等各方面保护数据和隐私的安全性。(2)技术的安全性往往基于一定的假设和前提基于一定的假设和前提。比如半诚实模型下的多方安全计算技术,其安全性基于所有的参与方不能违反协议(比如发送错误的数据给其他参与方)。当这些技术用于解决金融领域相关问题时,技术服务方和应用方应该就技术成立的安全条件和实际环境的匹配性达成共识。如果实际环境与技术安全性假设不符,则相关产品在正式应用时就可能存在安全漏洞。123 (3)工程实现工程实现也是安全性的重要一环,各种技术在工程实现的时候往往会考虑和其他要求的权衡。例如,安全参数越高,往往会导致计算成本提高,效率降低,为了提高可用性、实用性,一般会在可容许范围内设置适度的
124、密码长度。(4)数据可信验证数据可信验证。对于联合建模来说,训练数据的可信程度如何,似乎只有数据提供方自己能够控制。安全联合建模因数据“可用却不可见”的性质,数据的真实性、数据来源、数据确权及流转过程是否满足合规要求是其面临的新的挑战。如果数据提供方提供虚假的训练数据,或者构造特殊的训练数据,那么不仅可以扰乱模型结果,甚至在某些特殊数据上可以呈现指定的预测结果,后果严重。(5)密码技术复杂不易理解密码技术复杂不易理解。实现联合建模的隐私保护的技术路线和密码算法众多,而密码学本身的特性导致原理难以简单解释,而隐私计算的黑箱特性也使得安全性较难评估,阻碍了这些技术的可接受度和大规模的推广。2.2.
125、性能瓶颈仍需打破性能瓶颈仍需打破 安全联合建模技术虽然有众多技术实现路径,但大部分的场景均聚焦于少量数据的支持,对海量数据场景的支持能力有待提升。性能问题依旧是影响大面积普及的根本原因,主要体现在以下几个方面:(1)基于密码学理论,数据加密解密及密态下的计算,带来额外的计算量 124 (2)多轮大数据量的交互通信,带来较低的通信效率(3)多方联合建模的模型仍在不断迭代发展中;(4)对于需要满足实时性的特殊建模场景(例如一些金融应用场景),目前的联合建模技术仍面临较大困难。3.3.异构平台的互联互通异构平台的互联互通 尽管在本报告第三章中给出了联合建模平台互联互通的解决思考建议,但是在一定时期内
126、真正能够在管理面、算法协议面和基础设施面全方位实现互联互通,还“任重道远”。随着隐私计算技术的发展,各家金融机构及金融科技公司从各自发展战略和经济利益出发,纷纷推出具有个性特色的隐私计算平台。然而,从技术角度来说,各个平台的产品与平台实现不尽相同,异构平台相互之间无法互通,导致“数据孤岛”转变成了“技术孤岛”。从使用联合建模的参与方角度来说,和不同参与方合作,可能需要部署不同的平台才能与不同参与方进行对接,这样会导致部署平台费用的累加,企业将面对巨额的部署成本。互联互通问题的根本原因在于,一是基于市场竞争原则的“护城河”创新意识所致,二是跨组织联合建模平台的对接涉及很多细节,包括支持的技术种类
127、、产品架构、算法实现到通信架构等均有差异。在行业没有形成统一事实标准的情况下,各科技公司或金融机构已经提前布局市场应用。例如对于算法实现,同时实现一个 PSI(隐私集合求交)功能,可以使用基于 Diffie-Hellman 密钥交换的方法、基于电路的方法或者基于不经意传输 125 的方法等,导致不同平台之间无法直接进行同样的算法计算。同时,通信框架和通信协议、数据的编码方式各家的选择也不尽相同,导致平台间根本无法有效通信。(二)未来技术与平台的发展趋势(二)未来技术与平台的发展趋势 1.1.更高安全性与更高性能的结合更高安全性与更高性能的结合 在基于隐私保护的联合建模领域,高安全性和高性能会是
128、永恒追求的主题,随着各种建模平台的广泛应用,各种攻击必将接踵而来,平台的安全性将一定会成为平台关注的重点,通过建立安全分级体系,构建更加可控安全的系统将会是行业参与者共同的目标。同时,通过加密方式进行的联合建模,性能和集中式明文建模比,损失几个数量级,不断缩小加密方式带来的性能损耗,提高技术在产业中的可用能力,是各技术厂商需要长期探索的课题。面对越来越大的数据处理量以及计算能力需求,仍需借助通用算法优化和协议设计、软硬件协同设计等方式共同带来决定性的算力和效率突破。2.2.互联互通生态构建互联互通生态构建 各联合建模平台间实现互联互通是联合建模产业规模化发展的前提,目前虽然已经有少数厂商实现了
129、局部的互联互通,但仍未形成技术互通的生态,数据互通的网络效应无法有效发挥。期待在建立统一的技术协议的基础上,以安全性、兼容性、多样性、便利性、灵活性和扩展性为目标,强化合作共识,实现多联合建模异构平台的互通互联,多方联合建立健康的、广泛连接的 126 联合建模合作网络。3.3.标准化进程的加快标准化进程的加快 目前国内外关于联合建模相关技术的标准已经起步,相关技术概念在逐步理清,业界也在逐步探索基于某一项技术的产品的测评标准,贴近产业现状的指引文件也正在制定中,联合建模技术相关的标准化工作还有很大的发展空间。一是形成各行业数据标准。提炼各行业通用数据标准,围绕数据业务、技术、管理属性,打造元数
130、据通用语言,有利于对数据质量进行快速评估,也有助于推动数据融合,发挥数据红利;在行业内形成数据分级分类细则,梳理行业内数据的保护等级,对不同安全级别、隐私保护模式进行分级管理。二是逐步完善联合建模技术规范体系。在现有已发布的规范基础上,逐步发展、研制联合建模国际级、国家级、行业级、团体级、企业级的技术标准,形成联合建模的技术标准及应用指南体系、互联互通标准体系;统筹考虑联合建模的不同技术路线,逐步完善形成联合建模不同细分领域的标准。4.4.多元技术融合多元技术融合 联合建模涉及不同的数据持有方,可以是跨部门、跨组织、跨企业、跨行业、跨国际的不同的实体,其安全性受到所有利益相关方的密切关注。除了
131、联合建模技术本身的安全性得到提升与保障,融合其他的技术来补足技术和业务上的问题也是极其必要的。例如,利用区块链的不可篡改性、可追溯性、可审计性的特点,将联合建模当中的重要印记进行上链存证,可以加强数据提 127 供方的数据可信度,进一步提高联合建模的整体安全性,完善联合建模的业务流程,也为金融管理部门提供了强有力的支撑;通过去标识化、数据治理等技术,可以解决联合建模前数据脱敏、匿名化等问题;还可以结合 TEE、同态加密、差分隐私等技术,满足不同安全程度、不同性能要求的联合建模需求。不同技术优势融合互补,能够提供多层级的、按需的安全解决方案,从而适应多种应用场景,整体推动数据合作的大数据产业发展
132、。(三)未来应用场景展望与建议(三)未来应用场景展望与建议 在新一轮科技革命和产业变革的背景下,大中型企业引领数字化转型,行业间的数据共享和联合建模的需求会越来越多。随着未来 5G 技术的推广以及物联网、工业互联网的普及,我们产生和可利用的数据量级将爆发式上升,通过联合建模实现数据流通的前景巨大,同时也看到挖掘各方的数据价值还依赖于安全、方便、可靠的联合建模技术。金融业是隐私计算技术应用主要行业之一,随着隐私计算和联合建模技术日渐成熟,其在反洗钱、资金监管、农村金融的应用也将变得越来越广泛。与此同时,金融数据的安全威胁范围逐步从机构内扩大到行业间,甚至可能会影响国家安全、社会秩序、公众利益与金
133、融市场的稳定。对联合建模在金融行业的应用展望并建议如下:一是政策法规合规层面,需要促进联合建模技术应用和相关法律有效衔接,让联合建模技术的使用有法可依。目前国家出台 128 了多部数据安全保护的法律,但是产业中所使用的数据安全保护技术是否满足这些法律条款尚不明确。技术服务方、技术应用方和法律等多领域专家应加强沟通、探讨,从技术、业务、法律等多角度共同推动相关制度的落地实施,从而促进联合建模技术在金融领域的应用。二是技术推广与创新方面,加大对联合建模相关技术的普及力度,提高金融机构对相关技术商业价值的认识。联合建模涉及多个领域非常前沿的理论知识和专业技术,一般客户对这些新技术的理解相对困难,在实
134、际业务中进行追踪的技术难度大,客观上加大了技术的应用难度。建议通过政府侧、学术界、产业方普及相关概念和价值,鼓励金融机构增加对基础技术研究开发的投入和技术引进,实现技术及应用的突破。三是行业应用方面,需要多方积极推动联合建模技术在金融机构间、跨行业间的数据协作应用,包括数据协作、技术协作和运营合作等多种方式,比如在多方数据可信性方面,也可考虑通过合作伙伴间严格遵守合规红线、共建“合作共赢”的联邦治理制度来解决。目前金融行业中虽然有部分联合建模技术应用的试点,但是整体上应用于生产线上业务的仍然较少,技术的规模化应用落地还有漫长的旅程。建议加大金融场景的试验力度,推动金融机构的业务部门、技术创新部
135、门等积极合作,将联合建模技术真正应用到金融生产业务上,为推广到更多的金融场景中奠定良好的基础。129 参 考 文 献 01 Rivest R L,Adleman L M,Dertouzos M L.On Data Banks and Privacy HomomorphismsJ.Foundations of Secure Compuation,1978.02 Shamir A.How to share a secretJ.Communication of the ACM,1979,22(11):612-613 03 Rabin M O.How to Exchange Secrets by Ob
136、livious TransferJ.Technical Memo TR-81,1981.04 Yao A C.Protocols for secure computationsC.Proc.of the 23rd Annual IEEE Symposium on Foundations of Computer Science,1982.05 Yao A C.How to Generate and Exchange SecretsC.IEEE Symposium on Foundations of Computer Science,1986 06 Goldreich O,Micali S,Wig
137、derson A.How to play ANY mental gameC.Proceedings of the 19th Annual ACM Symposium on Theory of Computing,1987.07 Fortnow L,Goldwasser S,Micali S,et al.The Knowledge Complexity of Interactive Proof SystemsJ.Journal of Symbolic Logic,1991,56(3):1092.08 Chor B,Goldreich O,Kushilevitz E,et al.Private i
138、nformation retrievalC Proceedings.36th Annual Symposium on.IEEE Computer Society,1995.09 Paillier,Pascal.Public-key cryptosystems based on composite degree residuosity classes.International Conference on the Theory and Applications of Cryptographic Techniques.Springer,Berlin,Heidelberg,1999.10 Alves
139、 T,Felton D.Trustzone:Integrated Hardware and Software SecurityJ.white paper,2004.11 Global Platform,Specifications of TEE,https:/globalplatform.org/specs-library/?filter-committee=tee 12 Dwork.C,Differential PrivacyJ.lecture notes in computer science,2006.13 Gentry C,A fully homomorphic encryption
140、schemeM.Stanford University,2009.14 Intel Corporation.Intel Software Guard Extensions(Intel SGX).Intel Labs.,2013.https:/ 15 Mcmahan H B,Moore E,D Ramage,et al.Federated Learning of Deep Networks using Model AveragingJ.CoRR abs/1602.05629(2016).arXiv:1602.05629 16 Mohassel P,Zhang Y.SecureML:A Syste
141、m for Scalable Privacy-Preserving Machine LearningC/Security&Privacy.IEEE,2017:19-38.17 Yang Q,Liu Y,Chen T,et al.Federated Machine Learning:Concept and ApplicationsJ.ACM Transactions on Intelligent Systems and Technology,2019.18 Michael O Rabin.How to exchange secrets with oblivious transfer.Techni
142、cal Report(Harvard University),2005.130 19 ElGamal,Taher.A public key cryptosystem and a signature scheme based on discrete logarithmsC.Proceedings of CRYPTO 84 on Advances in cryptology.Springer-Verlag,Berlin,Heidelberg,1985:10-18.20Rivest,R.L.,Adleman,L.,Dertouzos,M.L.,et al.On Data Banks and Privacy HomomorphismsJ.Foundations of Secure Computation,1978,4(11):169-180.21 Gartner,Hype Cycle for Privacy,2021 22 李振华,王同益等数据治理,中央党校出版社,2021 23 中国银行 金融场景生态建设行业发展白皮书2021 24 中国信通院 隐私保护计算与合规应用研究报告 2021