上海品茶

北京金融科技产业联盟:FATE隐私计算开源框架金融行业技术应用报告(2023)(63页).pdf

编号:117033 PDF  DOCX   63页 2.37MB 下载积分:VIP专享
下载报告请您先登录!

北京金融科技产业联盟:FATE隐私计算开源框架金融行业技术应用报告(2023)(63页).pdf

1、 FATE 隐私计算开源框架金融行业技术应用报告 1 FATE 隐私计算开源框架金融行业技术应用报告 The Application and Development Report of Open Source Privacy Computing Framework(FATE)in Financial Industry 北京金融科技产业联盟 2023 年 1 月 FATE 隐私计算开源框架金融行业技术应用报告 2 前 言 本报告由北京金融科技产业联盟开源专业委员会组织编写并拥有相关版权。凡转载、引用、摘录或以其他方式利用本报告观点、内容、图表的,都应注明“引用来源:北京金融科技产业联盟”。FAT

2、E 隐私计算开源框架金融行业技术应用报告 3 编制委员会 主任:潘润红 编委会成员(按姓氏笔画排序):杨强 涂晓军 聂丽琴 鲁金彪 编写组成员:夏知渊 丁文定 苗天麒 范涛 葛娴 高鹏飞 陈东熠 周雍恺 张远健 丁锐 徐梓丞 周柚池 李艳 黄安埠 梁晔华 胡玉杰 刘微 王鹏 霍昱光 樊昕晔 李钰 申超波 张国庆 刘文懋 徐安滢 张宏 高翔 胡达川 李寻 耿航 程勇 李克鹏 杨扬 统稿:丁文定 参 编 单 位:北京金融科技产业联盟、中国工商银行股份有限公司、深圳致星科技有限公司、深圳前海微众银行股份有限公司、中国银联股份有限公司、中国银行股份有限公司、建信金融科技有限责任公司、光大科技有限公司、

3、广发银行股份有限公司、北京神州绿盟科技有限公司、中国农业银行股份有限公司、腾讯云计算(北京)有限责任公司 另有以下单位也为本次报告编制分析提供了行业案例参考:中国邮政储蓄银行股份有限公司、交通银行股份有限公司、平安银行股份有限公司、上海浦东发展银行股份有限公司、兴业银行股份有限公司、华夏银行股份有限公司、泰康保险集团股份有限公司、星环信息科技(上海)股份有限公司、同盾科技有限公司、上海同态信息科技有限责任公司、神谱科技(上海)有限公司、神州融安数字科技(北京)有限公司 感谢以上机构及人员对本报告编写的大力支持!FATE 隐私计算开源框架金融行业技术应用报告 4 目目 录录 概述.5 一、研究背

4、景.7(一)数据需求推动发展.8(二)开源成为重要途径.9(三)政策环境提供支持.10 二、主流开源隐私计算框架介绍.12(一)特点概况.12(二)应用情况.16 三、金融业隐私计算开源生态建设现状.21(一)发展历程.21(二)路径及形式.22(三)痛点和需求.25(四)隐私计算开源生态位全景图.27 四、FATE 开源框架技术分析.30(一)框架特点.30(二)一站式解决方案.32(三)灵活适配.36(四)云原生.36 五、未来展望.38(一)技术发展展望.38(二)生态建设展望.40 参考文献.43 附录:FATE 开源框架的典型应用案例.44(一)应用概况.44(二)应用场景.44 F

5、ATE 隐私计算开源框架金融行业技术应用报告 5 概 述 近年来,我国 数据安全法 网络数据安全管理条例 个人信息保护法陆续出台,数据安全已经迈入了重要发展阶段。在充分保护数据和隐私安全的前提下,隐私计算技术实现不泄露数据本身的情况下,对数据进行分析与计算,满足数据“可用不可见”的要求,促进数据价值的转化和释放。2022 年,隐私计算技术体系不断完善,行业标准日趋统一,应用场景逐渐丰富,实践案例不断增加,隐私计算技术蓬勃发展。金融行业是隐私计算技术应用落地的最重要领域,金融机构在数字化转型升级中有着强烈的数据流通需求,迫切需要打破数据流通的壁垒,实现数据融合运用。金融机构通过开源共建方式能够解

6、决互信协作难的问题,但如何在保障用户隐私安全同时,释放数据要素价值,成为金融机构必须面对的挑战。回顾隐私计算技术的发展历程,开源模式已经成为隐私计算技术创新及产业协同发展的重要驱动力,极大促进了隐私计算技术的进步与融合。开发者们通过大量的落地案例及场景应用实践,对开源隐私计算框架进行持续的技术验证与创新,不断推进开源隐私计算技术快速发展与完善。同时,我国形成了以 FATE 为代表的隐私计算开源社区,各大院校、科技企业、科研机构、协会团体、金融机构等积极参与其中,共建隐私计算开源生态,为隐私计算产学研用的深度融合起到了良好的示范及推动作用。从长期来看,开源是促进隐私计算技术互联互通的重要模式,也

7、是隐私计算技术规模化发展的必要途径。在政策层面在政策层面,国家和金融行业积极鼓励开源创新;在技术层面在技术层面,开源有效加速构建隐私计算生态,降低技术开发门槛,促进行业标准统一及互联互通,并推动隐私计算技术朝着更安全、更可信、更普惠的方向稳步发 FATE 隐私计算开源框架金融行业技术应用报告 6 展;在行业应用层面在行业应用层面,开源隐私计算技术已经在金融、政务、医疗等领域中具备丰富的成功案例,并通过大量的实践案例持续反哺技术的不断成熟。本报告对主流隐私计算开源框架和金融业隐私计算开源生态建设现状进行研究,结合金融业对隐私计算技术的实际场景需求,以业界影响力较大的 FATE 隐私计算开源框架为

8、研究对象,通过丰富的实践案例,探索金融业对隐私计算开源框架的通用技术能力要求,为隐私计算开源框架更好地适配金融业数据流通需求提供指导和建议,从而实现金融业隐私计算技术需求与开源技术框架供给的双向循环和良性互动。FATE 隐私计算开源框架金融行业技术应用报告 7 一、研究背景 随着大数据时代的到来,数据的价值得到越来越深的发掘,数据的应用方式更加多样化,数据正和土地、劳动力、资本等生产要素一样,成为促进经济增长和社会发展的基本要素。在数据要素的经济价值和战略价值愈发重要的同时,数据安全、隐私保护引发的“数据孤岛”问题也愈发凸显。隐私计算技术因具有“数据可用不可见”的特性,能够充分发挥数据要素价值

9、,促进数据要素安全流通。开源能够降低隐私计算技术的应用门槛、增强软件安全性、打破“计算孤岛”,是隐私计算技术规模化的重要途径,对数据要素市场的建设有着积极推进作用。金融行业是最早应用信息技术的产业之一,从上世纪 80 年代的 ATM 机到近年的开放银行,金融行业已经产生、收集、积累了大量的数据1。同时,金融行业也是可以最大化利用数据价值的行业之一,从个人征信到公司估值,从价值投资到技术分析,金融行业想提供高效服务、赋能实体经济,离不开对数据的合理使用。随着金融行业对多维度数据需求的增加,和数据安全、隐私保护重要性的提升,全行业亟需安全、易用、普适的数据要素流通解决方案。在金融数据要素流通需求的

10、推动下,金融机构开始逐渐参与开源隐私计算框架的开发与共建,促进机构数字化转型升级工作。FATE 隐私计算开源框架金融行业技术应用报告 8 (一)(一)数据需求推动发展数据需求推动发展 数据作为战略性和基础性资源,是数字经济体系中技术创新、需求挖掘、效率提升的重要动能2。数据虽然在不断地创造价值,但其存在的隐私泄漏、安全合规等潜在问题,引起了社会各界的广泛关注。金融行业作为数据密集型行业,天然具备数据流通的大规模应用场景和更严格的管理要求,因此,数据的安全合规流通需求推动了隐私计算技术在金融行业的发展。1金融行业隐私计算的必要性金融行业隐私计算的必要性 在新的数据监管要求下,金融机构认真做好用户

11、隐私保护和数据安全,但也出现了“不敢、不愿、不得”共享数据和数据流通不畅的情况,金融机构无法通过便捷引入互联网公司的行为数据,丰富自身数据项及数据维度,解决数据存在片面、单一等问题,提升金融服务的质量和效益。金融机构难以获取外部数据,导致智能化程度受限,如何保障用户隐私,同时保障数据权属问题成为挑战。而隐私计算技术可以实现金融机构内部、同业之间、甚至跨行业的数据合作与共享,满足金融机构迫切打破数据流通壁垒的需求,实现金融数据融合运用的解决方案。2隐私计算在金融行业的应用场景隐私计算在金融行业的应用场景 金融行业存在大量的多维度、高价值的数据,这一类数据通常具备极强的金融属性,但缺少行为数据、场

12、景数据等。而大型互联网公司、运营商等机构通常有大量的行为数据与场景数据,金融机构可通过联邦学习、多方安全计算、可信执行环境、同态加密等隐私计算技术,在保证原始数据不泄露的情况下,与之进行联合建模,提升金融业务效果。例如,在联合营销方面在联合营销方面,联合各方数据构建营销模型,进一步丰富用户画像,制订更加精准的营销策略,实现多赢的联合营销效果3。在联合风控方面在联合风控方面,一方面通过融合多个金融机构数据,可以解决单一机构数据量有限的 FATE 隐私计算开源框架金融行业技术应用报告 9 问题,形成全局风控模型,提升模型精准度;另一方面,综合利用金融机构同其他行业数据,可以在各方原始特征不出域的前

13、提下建立风控模型,形成对业务的多维度认识,提升风控质量。(二)(二)开源成为重要途径开源成为重要途径 随着数据要素流通体量的增长,隐私计算技术面临规模化、产业化的重要挑战。开源隐私计算技术通过开放、连接、协作、共创等方式,有效重塑隐私计算生态,加速行业标准统一,促进行业互联互通,并推动隐私计算技术朝着更安全、更可信、更普惠的方向稳步发展。1.开源促进数据流通融合进程开源促进数据流通融合进程 近年来,闭源隐私计算厂商技术百花齐放,但因彼此技术理念、技术框架、技术路径及数据连接生态不同,导致在解决“数据孤岛”问题之后,出现了不同厂商产品无法协作的问题。而开源隐私计算社区则通过打造通用开放的隐私计算

14、技术框架,统一计算、存储、通信、流程编排、任务调度、运维部署等标准,实现不同计算节点之间数据、算法、模型、算力等层面的互动和协同,让隐私计算开发者向一个共同的标准靠拢,以达到系统互联互通的效果,成为加速隐私计算行业发展的重要路径。同时,社区通过统一运营的方式整合多方资源,重塑隐私计算数据参与方之间及数据参与方与技术提供方之间的生态关系,使生态中的数据节点彼此资源共享、优势互补,最大化释放数据要素价值。2开源实现隐私开源实现隐私计算技术安全可证明计算技术安全可证明 当前,我国隐私计算技术面临着安全证明难、模型监管难等问题。一是近年来数据流通过程中存在大量的用户隐私及用户原始数据泄漏案例,加剧了用

15、户对企业数据使用的不信任感;但闭源隐私计算技术及第三方机构安全认证难以彻底解决安全可证明、模型可监管等问题。二是我国现有监管法律制度,对数据流 FATE 隐私计算开源框架金融行业技术应用报告 10 通的监管全过程,尚未提出明确的参考指引和实操指南,数据流通合规性难以把控。开源隐私计算框架由于其开放共享、公开透明、共创迭代等特性,可以有效解决隐私计算技术提供方本身潜在的作恶风险,以及技术平台与数据源合谋作恶等问题,从而满足安全可证明,模型可监管等要求。并且,算法的设计离不开新的场景应用,开源可以让广大用户在不同应用场景下对系统进行监督和贡献,使得安全性不断在场景训练中持续提升。3开源助力隐私计算

16、技术普惠开源助力隐私计算技术普惠 隐私计算技术复杂度较高,研发和部署存在一定门槛。开源社区具备天然的知识共享土壤与多方协同机制,能够加速隐私计算技术持续升级和商业化发展,高效提升产品版本迭代效率,进而不断增强隐私计算的场景适配性,从而降低隐私计算行业进入门槛和企业隐私计算资源重复建设成本,助力技术普及加速。近年来,国内外许多机构积极拥抱开源,并投入大量资源到开源项目的研发与贡献中。特别是以联邦学习为核心的开源项目,在隐私计算产业化落地进程中贡献了巨大力量。目前 55%的国内隐私计算产品是基于或参考开源项目开发的,其中,开源项目以FATE 为主1,很多联邦学习类产品或多或少吸收和借鉴了 FATE

17、 供给的营养。(三)(三)政策环境提供支持政策环境提供支持 2021 年 3 月,中华人民共和国国民经济和社会发展第十四个五年规划和 2035 年远景目标纲要(以下简称目标)提出“支持数字技术开源社区等创新联合体发展”,开源被首次写入国家战略规划。目标还将数据和技术与土地、劳动力、资本一并纳入要素市场化改革范畴。同年,央行等五部门发布关 1 数据来源:中国信通院隐私计算白皮书(2021)FATE 隐私计算开源框架金融行业技术应用报告 11 于规范金融业开源技术应用与发展的意见(以下简称 意见),鼓励金融机构将开源技术应用作为提高核心技术自主可控能力的重要手段。2021 年央行印发的 金融科技发

18、展规划(2022-2025年)(以下简称发展规划)将“充分释放数据要素潜能”列为未来四年八项重点任务之一,要求“推动数据有序共享”。基于“统一大市场”和“数据要素潜能”两方面代表性政策态势,为开源隐私计算框架应用于金融行业营造了良好互促的条件和氛围。首先,统一大市场建设客观上加速了隐私计算技术应用。首先,统一大市场建设客观上加速了隐私计算技术应用。中共中央国务院于 2022 年发布的关于加快建设全国统一大市场的意见明确界定了统一大市场的要义,即“促进商品要素资源在更大范围内畅通流动为建设高标准市场体系、构建高水平社会主义市场经济体制提供坚强支撑”。各行业积极响应国家、部委层面关于数据要素流通的

19、隐私保护、分类分级等要求2,通过隐私计算技术的支撑,探索“原始数据不出域、数据可用不可见”的交易范式,实现数据使用的“可控可计量”3。同时,开源在金融机构数字化转型中发挥重要作用。同时,开源在金融机构数字化转型中发挥重要作用。在技术发展方面,发展规划提出要“积极应用多方安全计算、联邦学习、差分隐私、联盟链等技术实现数据可用不可见、数据不动价值动”。意见也明确了“鼓励金融机构将开源技术应用作为提高核心技术自主可控能力的重要手段”。充分体现了 2 2020 年国务院办公厅印发关于构建更加完善的要素市场化配置体制机制的意见,要求“探索建立统一规范的数据管理制度,提高数据质量和规范性,丰富数据产品。制

20、定数据隐私保护制度和安全审查制度。推动完善适用于大数据环境下的数据分类分级安全保护制度,加强对政务数据、企业商业秘密和个人数据的保护。”3 2022 年国务院办公厅印发要素市场化配置综合改革试点总体方案要求“探索原始数据不出域、数据可用不可见的交易范式,在保护个人隐私和确保数据安全的前提下,分级分类、分步有序推动部分领域数据流通应用。探索建立数据用途和用量控制制度,实现数据使用可控可计量”。FATE 隐私计算开源框架金融行业技术应用报告 12 金融行业对运用开源技术平台开展高质量金融场景应用建设的积极态度和必行趋势。在国家及行业层面重视开源技术应用的政策背景下,隐私计算框架的研究不仅是必要的,

21、而且通过开源的形式加快落地也是可行的。开源与隐私计算框架的有机结合,将不断适应新形势下金融行业数据流通安全可控、守正创新等内在要求,大力发展开源隐私计算框架正当时。二、主流开源隐私计算框架介绍(一)(一)特点概况特点概况 自 2017 年 OpenMined 推出 PySyft 以来,开源隐私计算框架层出不穷,不同技术路线、开发语言、系统架构的开源框架百花齐放。本报告调研了热度较高(以 GitHub 的 star 数统计)、更新较为活跃(最近版本更新及总版本数统计截止 2022 年 8 月)的 25 种业内主流开源隐私计算框架,并对各框架特点进行了分析与归纳。表 1 开源隐私计算框架概况4 开

22、源框架开源框架名称名称 开源机构开源机构 主导主导机构机构 开源时开源时间间 最近版最近版本更新本更新 总版总版本数本数 系统特点系统特点 PySyft OpenMined 国外 2017.7 2021.12 22 1.用于安全和私有深度学习的 Python库 2.基于 PyTorch,使用 UnityGameEngine安全多方计算 3.联合学习、差异隐私 TF-Encrypted DropoutLabs,OpenMined,阿里巴巴 国外/国内 2018.3 2022.3 17 1.基于 TensorFlow 的安全多方计算框架 2.在底层集成了安全多方计算、同态加密等技术,利用预先构建的

23、协议或使用TF-Encrypted 的可插拔架构构建和测试用户的协议。Asylo Google 国外 2018.5 2021.6 19 1.Asylo 是下一代机密运算框架,旨在提供一个在可信执行环境(TEEs)中执行的应用的开发框架和 SDK,以确保应用及资料的安全性。FATE 隐私计算开源框架金融行业技术应用报告 13 2.Asylo 是一个全新类型的框架,它包含用于加密敏感通信的功能和服务,有助于保护数据和应用程序。Asylo 框架的出现使得更多的开发人员能够使用TEE,并支持各种硬件从企业内部系统到云端 3.开发语言 C/C+MesaTEE/ApacheTeaclave 百度 国内 2

24、018.9 2022.4 4 1.内存安全 2.安全多方计算,区块链和云服务 3.约束所有控制流和数据流必须经过关键检查点,显著减轻了审计和访问控制的难度 4.通过利用包括 IntelSGX 在内的 TEE,安全地将云用户的数据和代码执行隔离、加密起来,即使云计算环境里的操作 系 统、虚 拟 机 管 理 器(VMM/hypervisor)、或相邻的其他虚拟机被攻破或作恶,这些数据代码的完整性和保密性都能得到保障。用户也可以通过远程地验证执行环境,确保远程执行的代码是否符合预期 5.灵活可配置的安全等级 CrypTen Facebook 国外 2019.1 2020.4 1 1.安全多方计算框架

25、,有一个通用的、机器学习优先的 API 设计 2.采用了一种命令式编程模型 FATE 微众银行 国内 2019.2 2022.4 34 1.工业级框架,统一计算,存储,通信抽象层,适配不同的计算引擎,存储引擎,通信引擎 2.提供一站式的联邦模型企业级服务解决方案。提供多插件支持联邦学习企业和科研应用 3.支持主流的分类、回归、聚类和迁移学习的联邦化算法 4.提供多种安全计算协议支撑上层应用,支持同态加密协议、秘密共享协议、不经意传输协议和 DH 密钥交换算法等 5.提供 30 多个联邦算法组件 6.累计迭代 34 个版本 TensorFlowFederated,TFF Google 国外 20

26、19.3 2022.8 36 1.可以选择 ML 模型架构 2.模型设计理念以数据为主 FATE 隐私计算开源框架金融行业技术应用报告 14 Occulum 蚂蚁集团 国内 2019.3 2022.7 41 1.提供轻量级的 LibOS 进程,这些进程共享一个 enclave 的单个地址空间,启动速度,进程间通信速度均有提高 2.支持各种类型的文件系统 3.使用 Rust 从头开始构建的,减少低级别的内存安全错误 Fedlearner 字节跳动 国内 2020.1 2021.3 4 1.代码里有大量的 JS、HTML 模块,产品化程度高 2.采用云原生部署方案。数据存放在HDFS,用 MySQ

27、L 存储系统数据,通过Kubernetes 管理任务 PaddleFL 百度 国内 2020.2 2021.12 5 1.基 于 飞 桨(PaddlePaddle)和Kubernetes 2.面向深度学习设计,提供在计算机视觉、自然语言处理、推荐算法等领域的联邦学习策略及应用场景 3.简化大规模分布式集群部署 4.二次开发接口允许各方定义私有化的数据读取器 5.提供了基础编程框架,并封装了一些公开的联邦学习数据集 FLEX 同盾科技 国内 2020.2 2020.12 1 一套标准化的联邦协议:约定了联邦过程中参与方之间的数据交换顺序,以及在交换前后采用的数据加解密方法 FedML 美 国 南

28、 加 州大学 国外 2020.7 2022.4 1 支持三种计算范例:分布式训练、移动设备训练、独立仿真 Rosetta 矩阵元 国内 2020.8 2021.7 5 1.集成了 3 方参与的安全多方计算(MPC)协 议、零 知 识 证 明 协 议Mystique 2.基于 TensorFlow 开发的隐私计算框架 IBMFederatedLearning IBM 国外 2020.8 2022.3 7 1.无需迁移即可在企业范围内收集、清理和培训具有大量数据的站点 2.适应数据格式、质量和约束方面的差异 3.在训练具有不同数据源的模型时遵守数据隐私和安全性 9NFL 京东 国内 2020.9/

29、1.支持百亿级规模样本.百 T 级容量数据的超大规模的样本匹配、联合训练 2.实现分布式异步框架、Failover 拥塞控制等机制 FATE 隐私计算开源框架金融行业技术应用报告 15 Fedlearn 京东 国内 2020.10 /自主研发的联邦学习平台,不同参与方之间交换更新参数所需的中间数值,采用增加扰动对这些数值进行保护,引入中心化数据交换的概念,采用异步计算框架 IntelOpenFL Intel 国外 2021.1 2021.4 157 1.OpenFL是用于联邦学习的python3库 2.OpenFL 是适用于数据科学家的灵活、可扩展且易于学习的工具 MindSporeFeder

30、ated 华为 国内 2021.7 2022.7/开源联邦学习框架,支持面向千万级无状态终端设备的商用化部署,可在用户数据不出本地的前提下,使能全场景智能应用。特点是:隐私安全、分布式联邦聚合、联邦效率提升、灵活易用 NVFlare NVIDIA 国外 2021.7 2022.7 13 与模型无关、开源、可扩展的 SDK,允许研究人员将现有的 ML/DL 工作流程(PyTorch、RAPIDS、Nemo、TensorFlow)快速适配到联邦学习架构上 EFLS 阿里巴巴 国内 2021.10 /弹性联邦学习解决方案,支持两个合作方在特征维度拓展样本,并进行联合训练 WeFe 天冕科技 国内 2

31、021.10 /致力于实现在非共享的情况下,充分保护各方用户数据安全,实现跨数据、跨行业的数据合作 FederatedScope 阿里巴巴 国内 2022.5 2022.7 2 支持大规模、高效率的联邦学习异步训练,能兼容不同设备运行环境,且提供丰富功能模块,大幅降低了隐私保护计算技术开发与部署难度 Primihub 原语科技 国内 2022.5 2022.8 3 1.集成密码学、机器学习技术和加密硬件等多种安全方案 2.提供一站式端到端的应用服务开发平台和可视化交互方式 3.实现十亿级规模大数据计算 SecretFlow 隐语 蚂蚁集团 国内 2022.7/通过架构设计,统一架构能够同时支持

32、MPC、TEE 和联邦学习的方案 XFL 翼 数联邦学习及XSCE翼数安全计算 翼方健数 国内 2022.7 2022.7/在系统构架上强调轻量、高效、低依赖、高性能、易扩展、易集成,让开发者实现轻量级二次开发,帮助用户在不同应用场景实现“数据使用”自由 FATE 隐私计算开源框架金融行业技术应用报告 16 (二)(二)应用应用情况情况 通过调研发现,国内企业积极主导、参与开源隐私计算框架,本次梳理的隐私计算框架开源统计表中,约 2/3 开源框架为我国科技企业贡献。同时,隐私计算开源框架总体较为活跃,上述统计的开源框架中,约一半在近一年内发布了版本更新,通过不断迭代优化产品性能,丰富和提升框架

33、算法、性能和易用性等方面能力。对于更新比较频繁,应用相对广泛的几款开源框架,本报告从其技术和应用情况进一步分析介绍。1PySyft PySyft 是开源社区 OpenMined 于 2017 年推出的用于安全和隐私深度学习的 Python 库,目前已在医疗、金融、通信等行业获得了应用。PySyft 使用联邦学习、差分隐私和安全多方计算将隐私数据和模型训练分离,可以在主要的深度学习框架中使用,例如 TensorFlow 和 PyTorch。PySyft 代表了在深度学习程序中启用可靠的隐私计算模型的首批尝试之一。PySyft 的核心组件是称为 SyftTensor 的抽象张量。SyftTenso

34、rs 旨在表示数据的状态或转换,并且可以链接在一起。链结构的头部始终有一个PyTorch 张量,并且使用子属性向下访问由 SyftTensor 体现的变换或状态,而使用父属性向上访问由 SyftTensor 体现的变换或状态。2MesaTEE MesaTEE 是百度于 2018 年 9 月对外发布。其基于英特尔 SGX技术,使用内存安全的 Rust 语言开发,旨在构建内存安全的可信计算平台,使得敏感数据即便在企业外环境和离岸场景下也能安全受控的流通和处理,而不会被泄漏或者滥用。MesaTEE 方案的特点有:第一,借助芯片级硬件的保护方案和混杂内存安全模型,解决各类非法攻击和内存安全问题,最大程

35、度保障数据机密 FATE 隐私计算开源框架金融行业技术应用报告 17 性与完整性。第二,基于分布式安全计算架构,性能相比传统密码学技术更快,在没有参与方限制的情况下,支持亿级数据计算。第三,操作灵活,内置多种常用机器学习算法和特征工程工具,以及标准的 Python 语言和 SQL 操作,通过可视化操作满足大部分场景的数据计算问题。第四,容器化部署方式,支持私有化、云端化以及安全一体机,且支持可信区块链以插件化方式链接。从应用角度看,首先,MesaTEE 结合区块链和云服务,适合在区块链和云计算的场景下提供通用安全计算应用。其次,使用MesaTEE完成的安全多方计算直接在保护环境中对明文进行计算

36、,计算成员和算法可以动态修改,具有更大的灵活性,且减少了通信开销,提高了效率和性能。再次,MesaTEE 原生提供了高安全等级的秘钥保护和加解密操作,可以提供类比传统 KeyVault 和HSM 的功能,安全地存储和控制对密钥/证书的访问。最后,MesaTEE 已经在所有安全级别(包括 Level5 的 IntelSGX)中支持了 GBDT,线性回归以及神经网络。主流的 AI 框架(例如Tensorflow,Caffe 等)生成的 CNN/RNN 模型都可以转换并加载到 MesaTEE 里,并且可以同时支持模型推理和训练。3FATE FATE(Federated AI Technology E

37、nabler)是联邦学习工业级框架开源项目,已在金融、医疗、零售等多个行业获得了广泛的应用。目前 FATE 开源社区已汇聚了 800 多家企业、350 余所高校等科研机构的开发者,是国内最大的联邦学习开源社区。FATE项目使用多方安全计算(MPC)以及同态加密(HE)技术构建底层安全计算协议,以此支持不同种类的机器学习的安全计算,包括逻辑回归、树算法、深度学习(人工神经网络)和迁移学习等。FATE 目前支持三种类型联邦学习算法:横向联邦学习、纵向联邦学习以及迁移学习。FATE 隐私计算开源框架金融行业技术应用报告 18 FATE 主仓库包含 FederatedML 核心联邦算法库和多方联邦建模

38、 Pipeline 调度模块 FATE-Flow,FATE 拥抱大数据生态圈,底层引擎支持使用 EggRoll 或者 Spark 进行高性能的计算。围绕FATE 联邦学习生态,FATE 还提供了完整的联邦学习生态链,如联邦可视化模块 FATE-Board、联邦在线推理模块 FATE-Serving、联邦多云管理 FATE-Cloud 等。4TensorFlow Federated TensorFlow Federated(TFF)是由谷歌公司开发的开源框架,用于对分散式数据进行机器学习和其他计算。TFF 提供的构建块也可用于实现非学习计算,例如对分散式数据进行聚合分析,主要特点是可以将现有 K

39、eras 或非 Keras 机器学习模型应用在TFF 框架中;可以执行基本任务,例如联合训练或者评估,而无需研究算法的细节;通过在强大类型的功能编程环境中将TensorFlow 与分布式通信运算符结合在一起,简洁地表达自定义联邦算法。借助 TFF,开发者能够以声明方式表达联合计算,从而将它们部署到不同的运行时环境中。5Fedlearner Fedlearner 是字节跳动于 2020 年开源的联邦学习平台。Fedlearner 系统包括控制台、训练器、数据处理、数据存储等模块,各方透过代理互相通信,实现训练。Fedlearner 强调联邦学习在推荐、广告等业务中的落地。针对流式数据的场景,除了

40、传统的 PSI 求交,Fedlearner 还提供了流式数据求交。Fedlearner实现了一个基于 GRPC 的通信协议,并以算子的形式集成到TensorFlow 中,支持横纵向的神经网络以及纵向树模型。在部署方 式 上,Fedlearner拥 抱 云 原 生,采 用 基 于Kubernetes+HDFS/MySQL/Elasticsearch的 解 决 方 案,由Kubernetes 管理集群和任务。FATE 隐私计算开源框架金融行业技术应用报告 19 字节跳动前期在推荐和广告领域积累了成熟的机器学习建模技术,为联邦学习提供了算法的支撑。除此之外,依托今日头条、抖音的数据优势,字节跳动拥有

41、 600T+的海量用户群体画像和超过 220 万用户标签。Fedlearner 也已经在电商、金融、教育等行业多个落地场景实际应用,例如帮助电商广告主取得了可观的投放效率增长,帮助教育客户广告跑量提升 124%。6PaddleFL PaddleFL 是百度基于飞桨(PaddlePaddle)开源的联邦学习框架。PaddleFL 支持横向联邦学习和纵向联邦学习。PaddleFL 提供了两种联邦学习策略:Data Parallel 以及 Federated Learning with MPC(PFM)。Data Parallel 主要针对横向联邦学习场景,分为编译阶段和运行阶段。编译阶段定义联邦学

42、习任务,各参与方可使用 FedAvg,DPSGD 等策略,运行阶段进行模型训练。PFM 则可以支持纵向联邦学习场景。基于 MPC 的联邦学习方案支持三方安全计算协议 ABY3 和两方计算协议 PrivC。与大多数开源联邦学习框架类似,PaddleFL 也支持并推荐 docker、Kubernetes 方式部署。7NVIDIA FLARE NVIDIA FLARE 是英伟达开源的用于协作计算的 PythonSDK,全称是联邦学习应用程序运行时环境(NVIDIA Federated Learning Application Runtime Environment),旨在支持各方之间的联邦学习,使用

43、其本地安全受保护数据进行客户端训练,同时它包括协调和交换所有站点的结果进展的功能,以实现更好的全局模型,同时保护数据隐私。NVIDIA FLARE 主要功能是帮助开发人员能够在真实场景中轻松执行联邦学习建模;NVIDIA FLARE 使用高可用性基础结构启动联合学习的系统功能,支持多任务执行,最大限度地提高工 FATE 隐私计算开源框架金融行业技术应用报告 20 作效率。NVIDIA FLARE 控制器和 Worker API 用于实现 NVIDIA FLARE 应用程序中定义的基于任务的交互。服务器配置可以定义用于累积客户端任务数据的聚合器、用于保存模型的持久化器以及用于交换数据的可共享对象

44、。NVIDIA FLARE 建立在灵活的、模块化的架构之上,并通过 API 进行抽象,允许开发人员和研究人员在联邦学习范式中实现自定义其功能学习组件。8Primihub Primihub 是原语科技于 2022 年 5 月底开源的隐私计算平台,主要应用于金融、政务、交易所、工业互联网、医疗等领域。Primihub 平台融合了 MPC(多方安全计算)、FL(联邦学习)、HE(同态加密)、TEE(可信执行环境)等多种技术路线,提供多安全级别、多性能要求、多场景支持的解决方案,帮助企业用户保护数据隐私的同时,深度连接各个合作方,实现跨数据、跨行业的合作共赢。Primihub 开源框架有以下特点:一是

45、融合了多种隐私计算主流技术和协议;二是具有高可用的分布式调度平台,管理平台主要功能涉及项目管理、模型管理、匿踪查询、隐私求交、资源管理和系统设置。用户通过简单的学习后,可以自定义配置机构、资源、项目等管理应用;三是有丰富的扩展接口;四是支持多种输入源。FATE 隐私计算开源框架金融行业技术应用报告 21 三、金融业隐私计算开源生态建设现状(一)(一)发展历程发展历程 随着金融机构对于开源价值的逐步认同,金融机构开始开展开源技术的使用及治理,越来越多的金融机构参与到开源治理及开源生态建设过程中。一是伴随着金融机构数字化转型的浪潮,金融机构对于开源技术拥有强烈的使用意向。二是金融机构开源软件的使用

46、量大幅提高。三是我国的金融机构稳步开始了开源技术治理工作,金融业开源治理组织已经形成。近年来,金融机构不断建立、完善开源治理体系,并逐步参与开源生态建设。例如中国工商银行,于 2020 年完成了开源评估体系内部建设,从开源引入、使用和退出建立全生命周期的管控能力,并开始逐步尝试对外开源。同时金融机构积极参与开源生态治理及建设,持续加大投入,促进了我国开源产业的蓬勃发展。在自主开源方面,金融机构在业务层面面临着较高的安全合规要求,而民营银行成为了开源技术探索的先锋。以微众银行为例,作为国内最早的一批对外开源的金融机构,由微众银行在2017 年牵头开源的金融级联盟链底层技术平台 FISCO BCO

47、S,就在业内获得了不俗反响。意见提出鼓励金融机构重视开源技术的应用和发展,积极参与国际国内开源技术社区建设,汲取先进技术,贡献中国智慧,培育适合金融场景的开源产业链,并加强对开源技术应用的组织管理和统筹协调。总体来看,金融行业参与开源社区建设,可以分为如下几个阶段:开源使用阶段、联合对外开源阶段、独立对外开源阶段。开源使用阶段:开源使用阶段:金融机构以使用者的身份参与到开源技术发展过程中。由于初期金融机构对于某一开源技术领域所涉及到的技术储备、知识产权、法务风险、运营模式等相对陌生,无法深 FATE 隐私计算开源框架金融行业技术应用报告 22 度参与到开源生态的共同建设中,但可以在持续使用开源

48、产品或技术的过程中,不断积累技术经验与管理经验。联合对外开源阶段联合对外开源阶段:金融机构以贡献者的身份参与到开源技术发展过程中。基于开源产品或技术在不同金融业务中的使用情况,以业务导向及场景积累为核心,并依托自身技术研发实力,通过贡献源代码等方式,联合开源方共同参与开源社区建设,进而与开源方协同完善开源技术体系。独立对外开源阶段独立对外开源阶段:金融机构以开源者的身份参与到开源技术发展过程中。往往适用于科技研发能力较强的头部金融机构,随着这些头部金融机构在某一开源技术领域的技术能力持续积累及开源社区治理经验的不断积累,逐渐具备独立设计开源产品及独立运营开源社区的能力,并以自身核心技术平台或产

49、品为核心,构建开源生态环境。(二)(二)路径及形式路径及形式 1金融业参与开源隐私计算现状金融业参与开源隐私计算现状 整体上,金融行业开源需求往往从新技术领域开始。以“隐私计算”技术为例,2020 年,隐私计算技术普及之初,由于数据隐私保护领域尚未探索出有效的商业运营模式,且大部分金融机构最初对于隐私计算技术并不熟悉,此时盲目投入隐私计算的自主研发会对金融机构造成巨大的资金压力及研发风险,同时由于隐私计算技术本身处于场景探索阶段,尚未形成规模化的市场结构,而闭源隐私计算技术研发初期投资回报率较低,因此,许多金融机构使用了开源隐私计算框架(如 FATE 联邦学习开源框架)进行隐私计算平台搭建。另

50、一方面,由于金融业务往往具备较大规模的数据体量和较多高并发的复杂场景,可以为数据流通、人工智能领域的相关技术提供丰富的技术实践环境,同时海量的数据流通场景本身存在着大量的数据隐私保护需求,因此反过来极 FATE 隐私计算开源框架金融行业技术应用报告 23 大带动了隐私计算开源技术发展。在技术发展方面,在技术发展方面,金融机构积极参与开源隐私计算技术。一方面金融机构基于场景需求自发选择开源产品的趋势愈发明显,另一方面具备科技研发能力的金融机构,正在逐步加入到开源项目贡献中来。金融是隐私计算场景实践的第一阵地,在不断的场景应用过程中,金融机构可以第一时间验证隐私计算技术环节中风险与缺陷,并通过独自

51、开发或上报反馈等形式,推动隐私计算技术发展。金融机构无论从技术研发层面,还是应用测试层面,都为开源隐私计算技术不断演进及生态融合贡献了宝贵力量。在标准建设方面在标准建设方面,金融行业数据流通参与方可以共同使用并验证统一的开源框架,最大化节省开发团队的人力及开发成本,并在反复的场景实践中探索出符合金融行业现状的行业规律,进而总结形成既满足技术要求、监管要求、合规要求,也需要符合市场要求,并具备促进行业融合的标准。金融行业正在持续推进隐私计算开源行业标准的不断完善,以联盟为代表的组织机构以开源、数据、人工智能等领域为出发点,积极推进相关行业标准的研制,是推动金融行业隐私计算平台互联互通的良好平台。

52、2金融行业参与开源隐私计算生态建设里程碑金融行业参与开源隐私计算生态建设里程碑 2019年2月,微众银行自研的联邦学习工业级开源框架FATE(Federated AI Technology Enabler)首次对外开源,为机器学习、深度学习、迁移学习算法提供高性能的安全计算支持,能有效解决如何在保护数据隐私的前提下实现跨机构 AI 协作的问题;6 月成立联邦学习开源社区 FATE 技术委员会(以下简称“FATE TSC”)对 FATE 社区进行开源治理,成员包含国内主要云计算和金融服务企业。同年,以光大科技为代表的金融机构基于FATEv0.1 开始探索联邦学习领域,并进行 POC 测试。202

53、0 年随着中国银联、建信金科、工商银行、光大科技以及 FATE 隐私计算开源框架金融行业技术应用报告 24 星云 Clustar 等机构加入 FATE TSC,各金融机构逐步开始了基于开源隐私计算技术的研究和应用。10 月,光大科技使用联邦学习和区块链技术,帮助证券机构联合外部数据源构建机构客户风险评级模型,实现隐私计算在智能风控领域的实践探索。12 月,建设银行利用隐私计算技术进行了集团一体化建模探索,参与联合建模的双方在生产环境中验证了隐私计算技术在金融产品智能营销场景的可行性;该项目被中国信息通信研究院和中国信息标准化协会大数据技术标准推进委员会认定为“隐私计算优秀案例”,获得“星河”奖

54、项。交通银行使用隐私计算框架 Avatar 和多方安全隐私计算框架 PrivPy,开展“基于多方安全知识图谱计算的中小微企业融资服务”项目,在确保原始数据不出域的基础上,将银行内部数据与外部数据融合,打破现有数据壁垒,准确识别企业集群背后的复杂关系链条及欺诈风险,提升银行整体的风控水平,在业内获得广泛影响力。同年,光大科技基于“可验证秘密共享技术”研发的“联邦学习平台多方安全求和算法”被 FATE 采纳,并分别于 7 月和 10月参与 CCFAI 方向及信用评分与信用评级国际会议发表专业报告,表明金融业在隐私计算领域已经开始了深入研究与实践。2021 年 3 月,FATE 社区牵头的首个联邦学

55、习国际标准IEEEP3652.1 Guide for Architectural Framework and Application of Federated Machine Learning发布;4 月,微众银行 AI 团队和富数科技隐私计算团队联手破解了不同联邦学习平台之间互联的技术难题,在行业内第一次实现了异构联邦学习平台的互通,初步验证了正在制定中的联邦学习技术互联互通技术标准的可行性。7 月,FATE TSC 发起成立互联互通工作组,初始成员包括来自工商银行、农业银行、建信金科、微众银行、光大科技、中国电信等 TSC 成员,旨在解决不同联邦学习平台间 FATE 隐私计算开源框架金融行

56、业技术应用报告 25 以安全便捷的方式实现互联互通,促进 FATE 与业界主流联邦学习产品的磨合应用,推动联邦学习步入开放通用阶段,共同打造联邦数据网络生态。工商银行、建设银行、光大银行、广发银行、中国银联等机构也在同年陆续完成自研隐私计算平台的建设与上线,标志着金融机构已初步具备在隐私计算平台方面的建设与运营能力。其中,上海浦东发展银行基于隐私计算开源框架 Rosetta 开发了数据多方安全计算应用系统,并联合其他金融机构进行“联合黑名单”、“匿踪查询”、“用户统一资产视图”、“联合营销”等创新场景的落地实施,验证了结合隐私计算技术、区块链技术和业务场景落地的可行性,并向更广阔的生态体系进行

57、隐私计算能力与场景的输出。2022 年,光大科技发起基于联邦框架的半监督学习训练范式,推动开源社区算法的创新孵化,并出版联邦学习原理与应用书籍。由工商银行牵头编写的联邦学习技术金融应用白皮书、多方安全计算金融应用现状及实施指引、隐私保护计算与合规应用研究报告、基于联盟链技术数据共享的应用研究报告等技术应用规范和研究报告相继发布;由中国银联牵头的两项课题金融行业异构隐私计算平台互联互通技术规范及隐私计算互联互通技术研究报告正式开展,金融机构开始进入对开源隐私计算技术管理体系的建设进程。(三)(三)痛点和需求痛点和需求 当前,金融机构在业务中使用开源隐私计算框架时,仍然存在着一些业务痛点,这些问题

58、不断促进隐私计算开源技术不断完善、持续发展。一是隐私计算开源技术成熟度方面仍然存一是隐私计算开源技术成熟度方面仍然存有有不足。不足。隐私计算 FATE 隐私计算开源框架金融行业技术应用报告 26 处于发展阶段,不同技术框架均在进行周期性的、持续性的版本迭代。各隐私计算科技厂商、开源社区、各大金融机构在隐私计算技术不断使用的过程中,不断积累与业务及场景相关的经验。隐私计算未来发展方向,除了提高稳定性、计算效率、通信效率以外,还要不断提升场景适配度,来满足不同业务场景下用户对于隐私计算平台的不同需求。此外,开源标准制定与安全可信评估过程,旨在向全流程安全合规对标,需要持续及时更新和完善,这是隐私计

59、算开源技术逐渐走向成熟的必经之路。二是隐私计算框架面临安全性与可用性(计算效率)的平衡二是隐私计算框架面临安全性与可用性(计算效率)的平衡性挑战。性挑战。根据隐私与模型性能的“No-free-lunch安全-收益恒定”定律,对于满足“贝叶斯隐私”的多方计算系统而言,都满足“安全+效能常数”这一“安全-效益恒定定律”5,即天下没有免费的午餐,想同时不泄露隐私和不降低模型性能是不可能的。如何找到既不会牺牲对数据的安全保护,也不会放任模型性能和计算效率大幅下降的平衡点,兼顾安全性与可用性,是隐私计算技术领域的共同挑战。开源框架有丰富的场景可用于验证安全与效率的平衡,且随着业务需求的发展、技术能力的进

60、步,开源框架本身也在不断迭代优化,因此,开源或可成为寻找隐私计算产品平衡点的最佳实践路径。三是开源存在知识产权风险。三是开源存在知识产权风险。开源知识产权风险问题相对隐蔽,在隐私计算开源领域,从技术角度来看,由于隐私计算的技术原理相对统一,且开源许可证的具体条款差异性难以甄别,权责界限不清,不易鉴别侵权、失权,这些因素都进一步导致隐私计算开源技术知识产权的保护难度增加。如何在遵循隐私计算开源协议的基础上,加强对于开源者的知识产权保护,也是行业待解决的重要问题。开源领域知识产权保护力度的提升与保护意识的普及,对我国开源软件产业的整体发展将起到积极促进作用。FATE 隐私计算开源框架金融行业技术应

61、用报告 27 四是四是当前当前隐私计算框架隐私计算框架暂时暂时无法有效解决金融机构内部数无法有效解决金融机构内部数据治理的复杂性据治理的复杂性问题问题。金融集团型企业广泛存在着业态多样、人员分散、管理流程和模式差异大的特点,集团企业内部的数据治理工作面临巨大的困难和挑战。各个子公司的主营业务相差巨大,行业细分的数据标准和规范各有特点、不尽相同,从而增加了不同企业间数据互联互通和共享创造价值的复杂度,数据多源异构现象普遍存在。(四)(四)隐私计算开源生态位全景图隐私计算开源生态位全景图 图 1 金融业隐私计算开源生态位全景图 金融业隐私计算开源生态,整体分为开源项目、开源社区、技术贡献方、行业推

62、动方、开源使用方等角色。总体来看,我国金融行业隐私计算开源产业初具规模,生态逐步完善。1、态势蓬勃,隐私计算开源社区稳步发展。、态势蓬勃,隐私计算开源社区稳步发展。从开源项目角度来看,当前我国各大互联网公司及头部科技公司,纷纷加入开源行列,积极打造开源生态。特别是在 2018 年以后,腾讯、微众银行、百度、阿里、京东、字节跳动等科技公司,陆续发布了隐私计算相关开源项目。在国际层面,Google、Facebook、IBM、Intel、NVIDIA 等科技公司,也发布了自己主导 FATE 隐私计算开源框架金融行业技术应用报告 28 的隐私计算相关开源项目,并在各自擅长的技术领域持续积累,快速进步。

63、以 FATE 为例,开源至今已迭代 30 余个版本,联邦算法组件已发展至 30 余个,实现了主流场景算法全覆盖和工业界主流多方安全计算协议全覆盖。图 2 FATE 发展里程碑 我国隐私计算开源社区稳步发展,其中 FATE 社区目前共建最为广泛,已经汇集了近千家企业及科研机构的开发者参与社区生态共建,并在多个金融机构、隐私计算科技公司产品体系中产生了影响。同时,近期深圳数据交易有限公司联合 50 家国家单位、智库、高校及大型金融机构和互联网公司,共同发起成立了开放群岛(OpenIslands)开源社区,旨在打造全国首个工业级信创版隐私计算开源框架。2 2、各行业积极贡献,推动隐私计算开源发展、各

64、行业积极贡献,推动隐私计算开源发展 各行业领军企业均在积极参与隐私计算开源社区贡献。例如,2022 年 8 月,FATE 开源社区正式公布 19 家首批成员单位名单,涉足领域广泛覆盖数字经济发展生命周期,既有隐私计算应用较为成熟的金融机构,也有电力、互联网、通信、医疗等隐私计算创新应用领域,还包括了专注网络安全、人工智能的前沿独立技术公司,多方协同下,将充分发挥开源社区开放共建的生态优势,以产业实践带动创新发展,通过开源的方式推动隐私计算进入应 FATE 隐私计算开源框架金融行业技术应用报告 29 用快车道。3、隐私计算开源框架在金融行业应用广泛、隐私计算开源框架在金融行业应用广泛 隐私计算开

65、源框架已经具备丰富的实践落地案例,其中以金融行业应用最为活跃。本报告对银行业金融机构开源框架应用情况展开了问卷调查。根据调研结果,约 84%的受访机构有隐私计算平台,其中约 30%是基于开源项目研发的平台,其余为自研的闭源平台。基于开源项目研发的平台中,有 75%是基于 FATE 开源框架。金融行业隐私计算开源框架使用率呈逐年上升趋势,成为隐私计算开源实践的第一阵地,为开源隐私计算技术的发展奠定了坚实的实践基础。FATE 隐私计算开源框架金融行业技术应用报告 30 四、FATE 开源框架技术分析 FATE 是国内较为成熟,金融行业参与较为广泛的开源隐私计算框架,因此,以 FATE 为研究对象,

66、有助于系统梳理隐私计算开源框架的应具备技术特点,可以为开源隐私计算框架技术发展提供重要借鉴。(一)(一)框架框架特点特点 FATE 在设计上具备工业级别开箱即用的特点,旨在安全合规前提下跨机构进行数据合作,为传统联合统计、机器学习、深度学习和迁移学习等功能需求,提供安全高效的联邦机制,为开发者提供安全高可信、算法易开发、产品易集成、生产易运维、框架可测试、交互可审计的联邦学习隐私计算解决方案,可以简化隐私计算创新和应用复杂度,降低隐私计算技术使用门槛。1系统框架分层清晰系统框架分层清晰 FATE 为联邦学习隐私计算应用,提供了从模型研发阶段的联邦分析、联邦建模、联邦模型可视化和可解释性能力,到

67、生产环境的联邦在线推理、以及多云管理、云原生运维管理等一整套解决方案,开发者可以较低的集成成本使用 FATE 能力。同时,FATE 对计算,存储,通信等基础设施进行统一抽象,可以根据实际场景适配不同基础设施以及不同的组网模式,为隐私计算框架间的互联互通提供了可能。FATE 隐私计算开源框架金融行业技术应用报告 31 图 3 FATE 平台系统架构 2部署架构灵活部署架构灵活可配可配 在部署架构层面,FATE 支持在多种计算引擎进行部署,可以根据企业资源场景灵活选择。1)FATE on EggRoll FATE 默认支持使用“EggRoll”作为其底下计算和存储的集群,在经过几年持续迭代和优化之

68、后目前已经能够满足大多数联邦学习应用场景的生产需求。图 4 以 EggRoll 为计算引擎的 FATE 部署架构 2)FATE on Spark FATE 同时支持 Spark 作为计算引擎时,基于 Spark 的 FATE的部署架构如下:FATE 隐私计算开源框架金融行业技术应用报告 32 图 5 以 Spark 为计算引擎的 FATE 部署架构 3网络架构网络架构星点结合星点结合 FATE 网络连接提供星型架构和点对点连接两种方式,可以适配不同场景需要。图 6 网络互联架构 (二)(二)一站式解决方案一站式解决方案 1.联邦学习算法库联邦学习算法库 联邦学习算法库(FATE Federat

69、edML)提供了覆盖隐私求交,匿踪查询,联邦统计,联邦特征工程,联邦机器学习,联邦深度学习等 30 多种联邦算法,支持两方以及多方隐私计算场景,实现传统建模场景全面联邦化隐私计算。FATE 隐私计算开源框架金融行业技术应用报告 33 2联邦调度引擎联邦调度引擎 联邦调度引擎(FATE-Flow)基于共享状态调度架构和跨数据中心的多方安全通信,实现了端到端全流程的多方联合任务安全调度和生命周期管理联邦调度框架。FATE-Flow 框架设计在隐私计算产品互联互通应用实践中常被采纳和借鉴。图 7 FATE-Flow 多方联合任务安全调度 3联邦可视化组件联邦可视化组件 联邦可视化组件(FATE-Bo

70、ard)是联邦学习建模可视化和解释性工具,为终端用户可视化和度量模型训练的全过程。FATE-Board 是联邦建模可视化工具,被众多公司的隐私计算产品进行集成应用。FATE 隐私计算开源框架金融行业技术应用报告 34 图 8 联邦模型可视化 4联邦在线服务框架联邦在线服务框架 联邦在线服务框架(FATE-Serving)为 FATE 提供联邦在线推理服务,打通了联邦建模到生产部署应用环节,为联邦学习,隐私计算大规模生产应用和商业化提供了可能。FATE-Serving是已知最早进入生产应用开源联邦在线服务框架,在众多公司应用落地。FATE 隐私计算开源框架金融行业技术应用报告 35 图 9 FA

71、TE-Serving 架构 5联邦计算引擎联邦计算引擎 联邦计算引擎(FATE EggRoll)是一个多范式计算框架,它实现了计算、存储、通信的一体化,旨在提高大规模机器学习的计算力。图 10 EggRoll 架构 6联邦云联邦云 联邦云(FATE Cloud)是构建和管理联邦数据合作网络的基础设施,为跨机构间、机构内部不同组织间提供了安全可靠、合 FATE 隐私计算开源框架金融行业技术应用报告 36 规的数据合作网络构建解决方案,实现多客户端的云端管理。据了解目前 FATE Cloud 在近百家机构和站点间生产组网中得到应用。图 12 FATECloud 核心功能(三)(三)灵活适配灵活适配

72、 FATE 底层支持多种安全计算协议,综合安全、效率、性能多维度考虑,为上层联邦算法组件提供灵活适合的安全协议,支持协议可插拔。目前 FATE 同态加密算法采用 Paillier 半同态加密,多方安全计算协议采用 SPDZ 秘密分享协议,以及同态加密和 MPC 混合协议 SSHE。上述 3 种类型安全协议广泛应用于纵向联邦特征工程,纵向联邦机器学习,深度学习算法组件中。DH 和ECDH 密钥交换协议,RSA 协议这三种安全协议主要应用在安全求交。不经意传输协议(OT)用于安全隐匿查询。FedAvg 安全聚合协议广泛应用于横向联邦算法组件中。(四)(四)云原生云原生 联邦学习属于计算资源密集型应

73、用,常见的运行形态为分布式计算,对云原生化有强需求。KubeFATE 项目对 FATE 框架进行 FATE 隐私计算开源框架金融行业技术应用报告 37 了云原生改造。目前,FATE 框架已经实现所有组件容器化,同时KubeFATE 支持 Docker-compose 和Kubernetes 两种部署方式。Docker-compose 定位为简单,易用,小规模生产环境使用,而对于有强计算能力需求的情况下,可以选择 Kubernetes 作为平台。FATE 隐私计算开源框架金融行业技术应用报告 38 五、未来展望 根据前期调研结果及分析,金融机构对隐私计算开源框架需求主要聚焦在三大方面:一是提升技

74、术成熟度,保障系统平稳运行;二是需要实现模型性能、数据安全、算法效率的平衡;三是提高隐私计算平台功能的丰富性,以满足多样化的业务需求。基于以上共性需求,以 FATE 开源框架和社区建设为研究对象,归纳未来技术发展和生态建设方向。(一)(一)技术发展展望技术发展展望 1可信联邦学习将得到广泛应用可信联邦学习将得到广泛应用 传统的联邦学习在发展过程中正面临包括安全、效率,以及模型的可监管、可解释性问题等多方面的挑战。随着联邦学习技术的日益普及和大规模应用,联邦学习安全、性能、效率三者的平衡变得至关重要。为了降低参与方加入联邦学习的成本与顾虑,鼓励不同行业内用户参与联邦学习,更好地促进数据流通,需要

75、对传统的联邦学习技术和概念不断升级和完善,这也促使了传统的联邦学习迈向新的可信联邦学习。可信联邦学习是一种增强型的联邦学习,它除了保证原始数据的隐私安全和模型的可证安全,还保证学习过程的高效率和模型的可用性,模型决策机制的可解释性、及模型的可溯源性和审计监管性。在此范式中,隐私保护、模型性能、算法效率是核心的三角基石,并且与模型的决策可解释性和可监管性两大支柱一道,共同构成了更加安全可信的联邦学习。数据安全可证明、模型性能可使用、机器学习效率可控、决策可解释、模型可监管和普惠是可信联邦学习的核心特征。因此,可信联邦学习势必将得到更广泛的发展和应用。2多方异构平台互联互通势在必行多方异构平台互联

76、互通势在必行 FATE 隐私计算开源框架金融行业技术应用报告 39 异构平台之间无法协作问题,导致隐私计算运维成本的提高和数据安全风险的提升,制约了隐私计算技术应用的效率。解决技术差异造成的不同平台间的通信壁垒,实现互联互通,已经成为业内共识。针对上述问题,为实现隐私计算技术大规模商业落地,首要是建立一套隐私计算框架的标准,在此基础上对身份认证、数据授权、任务同步、资源访问等关键问题深入探索。通过不断实践总结,明确数据传输格式,梳理交互流程,逐步形成一套安全可靠的通信协议,并提供规范示例。3支持异构基础算力设施的能力持续发展支持异构基础算力设施的能力持续发展 为了灵活适应不同企业的软硬件要求,

77、隐私计算开源框架有必要适配多种不同的计算引擎与通信模式,从而方便企业根据现有情况以及未来规划灵活选择。FATE 框架在计算引擎、网络通信等多个基础设施方面做了大量的抽象与统一工作,对于有投入GPU、FPGA 等硬件来加速联邦学习系统的企业,FATE 也将在基础架构的层次上进行深度支持优化。在未来将在现有的成果基础上,开源框架应着力优化统一的计算、通信抽象和支持CPU/GPU/FPGA灵活适配扩展两个方面。统一的计算通信接口不仅使得企业可以灵活配置与使用开源框架实现业务需求,而且在未来可能催生提供各种软硬件加速实现的商业服务,从而使得服务提供方与服务使用方都从中获益。4云原生管理有必要进一步强化

78、云原生管理有必要进一步强化 FATE 框架目前拥有 KubeFATE,FedLCM 两个开源项目,已经基本支持联邦以及框架层面的云原生管理,这为开源框架提供了重要参考。在后续开发中,开源框架应考虑以下几个方面能力的建设:1)异构计算的支持异构计算的支持。增加对异构计算、加速的支持,使得 FATE 隐私计算开源框架金融行业技术应用报告 40 某些算法组件可按需选择使用不同加速引擎,加速联邦学习等隐私计算过程,提高场景落地效率。2)更友好的配置管理更友好的配置管理。开源框架可以结合具体硬件、异构系统配置进一步优化这些分布式系统的部署配置,使用户可以统一调管联邦学习资源。3)互联互通的支持互联互通的

79、支持。开源框架应考虑互联互通需求,实现统一管理、配置多种联邦学习隐私计算框架。5与大数据、人工智能等技术生态结合将更加紧密与大数据、人工智能等技术生态结合将更加紧密 隐私计算尤其其中的联邦学习技术是在站在大数据处理技术和 AI 人工智能技术的巨人肩膀上发展起来的,并充分结合这些成熟生态已有技术进行了演进。FATE 自 v1.5.0 版本开始,重构了基础架构,构建了统一计算、存储、通信抽象层,适配不同的计算引擎、存储引擎、通信引擎、以满足不同场景适配不同引擎的需求。未来 FATE 还会更多接入大数据生态产品,和这些产品互通,进一步提升 FATE 在大规模数据处理和规范化数据治理能力。以 Tens

80、orflow、Pytorch 为代表 AI 生态已逐渐成熟,并成功应用于自然语言、视觉搜索、广告推荐、智能风控等众多领域,在这些领域技术升级重塑上发生了重要的作用。未来隐私计算开源框架,应进一步拓展对自然语言、视觉、推荐等领域联邦化支持,充分拥抱这些领域已有成熟成果。FATE 技术框架与大数据生态,AI 生态的充分结合,极大的展现生态优势,充分说明了隐私计算开源框架与大数据、人工智能等技术生态融合的重要性。(二)(二)生态建设展望生态建设展望 1.金融行业参与开源生态建设形式将走向多样化金融行业参与开源生态建设形式将走向多样化 金融机构目前参与以 FATE 为代表的开源社区生态建设主要 FAT

81、E 隐私计算开源框架金融行业技术应用报告 41 形式包括:一是作为用户,基于开源框架自建隐私计算平台服务自有业务。二是作为开源贡献者,基于自身实践贡献相关代码完善开源平台。目前已有多家银行、金融科技公司成为 FATE 开源社区技术指导委员会(FATE TSC)成员单位,从代码贡献、社区运营等多方面深入参与开源社区生态建设。预计未来金融业参开源社区生态建设的主要方式与形态将会更加多样化,吸纳更多行业参与者,形成生态集聚效应,包括但不限于以下几种:1)参与对象上,将吸纳更加丰富的生态合作伙伴类型参与对象上,将吸纳更加丰富的生态合作伙伴类型。当前参与生态的主要金融机构类型包括银行、互联网金融机构、金

82、融科技公司等技术使用方与提供方,随着落地方案的成熟与普及,数据提供方、数据交易平台等更多维度的上下游相关机构将加入生态,进一步促进数据价值流通。2)组织方式上,按主题成立金融特别兴趣小组(组织方式上,按主题成立金融特别兴趣小组(SIGSIG)形)形式逐步流行式逐步流行。SIG 负责金融应某一领域的设计、建议和审批等,发挥开源社区“群力群策”、“开源开放”的特性,为进入开源生态的金融机构提供平等、有效的技术应用支持与开放、包容的交流环境。3)合作机制上,探索更加公平合理的激励机制合作机制上,探索更加公平合理的激励机制。基于模型水印等新技术与公开透明开放的运营机制,开源社区中的生态合作伙伴将基于更

83、加公平合理的激励机制作开源贡献,在使用开源框架赋能业务的同时反哺社区,促进开源框架高效、稳定迭代,促进开源生态良性发展。2.金融业将为开源生态发展提供持续动力金融业将为开源生态发展提供持续动力 开源社区鼓励开发者和开发者社区普及开源文化、倡导开源精神,参与开源、贡献开源,增强开发者对开源领域问题的研判及引领能力,积极引导和提升开发者的开源专业能力,推动开源 FATE 隐私计算开源框架金融行业技术应用报告 42 开发者的成长与贡献,为开源框架提供持续动力。从 FATE 开源社区发展角度看,在促进行业认知和完善开源运营机制方面,金融行业将发挥更大作用。一是一是金融行业内需要高效协同,加大开源布道、

84、加强隐私计金融行业内需要高效协同,加大开源布道、加强隐私计算相关合规的普及算相关合规的普及。加深对开源社区治理的研究,提高开源社区和开源项目的治理和运营能力,为开源社区治理专家、开源项目核心维护人员提供定向资助,让有实力、有经验的专业人员,持续的专注于开源项目的发展。二是继续完善开源运营机制二是继续完善开源运营机制。一方面是持续推进与金融企业的开源运营合作,借助联盟标准化与行业推广优势,推动 FATE 开源项目应用。另一方面是形成稳定的决策机制,项目孵化流程,为 FATE 开源项目运营提供有力的知识产权、托管、孵化及法律、协作支撑6。数据的生产要素化将成为衡量企业价值的重要标度,也将很大程度上

85、决定企业在未来竞争格局中的地位。鉴于金融行业的增长需求、市场环境的变化、安全需求等因素,金融机构自身的资源有限性难以支撑敏捷响应、快速迭代及开发。因此,越来越多的金融机构积极拥抱开源、引入开源技术,是防止自身发展受制的积极举措;是以保护隐私和数据安全为前提,实现互利共赢的创新尝试;也是金融业与开源社区为金融科技能力建设双向赋能的成功实践,为探索培育适合金融行业的开源生态形成良好基础。FATE 隐私计算开源框架金融行业技术应用报告 43 参考文献参考文献 1 徐磊,魏思远.金融业隐私计算的内涵,应用和发展趋势J.中国银行业,2021(000-011).2 腾讯隐私计算白皮书 2021.3 赵大伟

86、.我国互联网消费金融相关问题研究基于金融消费者权益保护视角J.金融理论与实践.4 智谱 AI,清华大学人工智能研究院知识智能中心.2021 全球联邦学习研究与应用趋势报告.5 No Free Lunch Theorem for Security and Utility in Federated Learning Xiaojin Zhang,Hanlin Gu,Lixin Fan,Kai Chen,Qiang Yang 6 刘韵洁,黄韬,汪硕.关于未来网络技术体系创新的思考J.中国科学院院刊,2022(001):037.FATE 隐私计算开源框架金融行业技术应用报告 44 附录:FATE 开源框

87、架的典型应用案例(一)(一)应用概况应用概况 整体来看,FATE 开源框架在金融行业中,主要应用于联合风控、联合营销两大类场景,具体场景包括企业信用评估、风险管理、反洗钱、反欺诈、交叉营销、风险识别、智能营销等。各大金融机构积极参与到 FATE 隐私计算开源框架建设中来,FATE 开源隐私计算框架在金融行业逐步涌现大量落地案例。同时,随着金融场景数据维度逐渐增多,数据体量逐渐变大,开源隐私计算框架面临算力问题,部分隐私计算科技企业根据自身科技能力,也在金融行业开源隐私计算框架的算力层面上积极参与贡献,显著提升了开源隐私计算算力水平。(二)(二)应用场景应用场景 1银联关于小微企业信用评估联合建

88、模案例银联关于小微企业信用评估联合建模案例 案例背景案例背景 小微企业贷款难是当前面临的痛点问题,重要原因之一是银行自有数据中缺乏体现小微企业经营的维度,使得银行无法客观评估小微企业的信用资质,而银行也缺乏动力对大量小微企业的放贷关键信息做调研。另外,与放贷评估相关的数据分布在不同机构中,但是受限于“数据合规”要求,不同机构之间的企业信息无法高效共享。案例介绍案例介绍 本案例是银联与某银行在 FATE 联邦学习平台中利用纵向联邦学习技术开展跨机构数据融合,基于纵向逻辑回归共建小微企业信贷风控模型。其中银行侧提供小微企业的违约标签信息,机构侧补充该企业的经营特征、交易特点等信息。双方基于 FAT

89、E 平台开展联合建模,其中数据合作的方案如下:FATE 隐私计算开源框架金融行业技术应用报告 45 图 15 银联小微企业信用评估数据合作方案 经过联合建模及效果验证,在加入机构侧数据后,测试集的AUC 从 0.615 提升到了 0.690,提升幅度达到了 12.2%。有效地提升了小微企业风险评估模型的性能,超出银行的预期,满足其生产落地的需求。2微众银行关于小微企业信用风险管理中的应用案例微众银行关于小微企业信用风险管理中的应用案例 案例背景案例背景 近年来,随着国家政策的支持,小微企业贷款越来越受到重视。但由于风险过高,许多银行不愿给小微企业贷款,因此如何规避风险,降低小微企业贷款的不良率

90、显得尤为重要。目前,大多数银行都将白名单机制用于小微企业贷款的风险管理,而白名单是通过筛选规则和风险模型来实现的。不管是规则还是风险模型,都需要依赖于对小微企业及其控制人的相关数据了解。对于风险管理来说,相关数据可以包括央行征信报告、税收、声誉、财务、无形资产等。然而,对于银行而言,往往只有央行征信报告。在数据方面,与其他可以直接沉淀小微企业交易数据的电商公司或 ERP 软件公司相比,银行并不具有优势。数据是数据方拥有的重要资产,合理地应用将会给自身带来极大的好处。但是,随着用户隐私保护变得越来越严格,数据方很难在保护用户隐私的前提下保证自身利益的获取。案例介绍案例介绍 FATE 隐私计算开源

91、框架金融行业技术应用报告 46 本案例中,微众银行具有标签和央行信贷特征(与风控相关),合作公司拥有发票相关数据特征,双方进行纵向联邦建模,微众银行希望提升自己的模型预测能力。传统建模方法存在着两个问题:第一,合作公司因为没有标签而无法训练模型;第二,由于用户隐私的问题,合作公司不能将发票数据直接发送给微众银行。面对以上的问题,微众银行采用了 FATE 的纵向联邦学习技术,保证在数据不出库的情况下,达到与聚合数据建模等效或者接近等效的建模效果。基于联邦学习,多个机构可以构建联合模型而无需共享其原始数据。在进行纵向联邦建模之前,首先需要找到微众银行与合作公司之间的公共用户,(例如双方共同的纳税人

92、识别号),但又必须保证不能让另一方知道对方非共同的用户,这种方法称为PSI。使用基于 RSA 加密技术的 PSI,合作伙伴可以通过传输加密的中间结果(而不是原始用户数据)来找到双方的交集用户。使用纵向联邦学习可以在保证数据安全的情况下训练联合模型,并且联合模型的效果比任一方单边数据建模效果要好。利用联邦学习框架 FATE 可以轻松高效地实现联邦学习算法。通过使用 FATE,微众银行与有发票数据的合作公司一起完成了纵向联邦建模,使用的联邦训练模型为纵向逻辑回归(Hetero-LR)。不同于传统的逻辑回归,微众银行和合作公司利用各自的数据一起训练模型,使用加密的中间结果进行交互,并且各自维护属于自

93、身的模型,当需要预测的时候,需要结合两边的模型共同预测。整个模型训练的过程保证了数据和模型的安全性。与只使用微众银行拥有的央行信用评分来训练标签 Y 相比,联合了发票数据的 Hetero-LR 模型在指标 AUC 上增加了 12,并且随着模型效果的改善,不良贷款率明显下降,如下图所示。FATE 隐私计算开源框架金融行业技术应用报告 47 图 16 微众银行基于 FATE 改善小微企业贷款模型效果 产业价值产业价值 本案例利用 FATE 进行联合建模,用联邦学习的方式将银行的数据与其他公司拥有的小微企业特征数据结合起来进行联合建模,具有如下两方面价值:一方面,在保护用户隐私和机构的数据安全的前提

94、下,促进数据价值流通,极大地扩展了人工智能的适用范围;另一方面,缓解了小微企业融资难的问题,降低了小微企业贷款的审核难度和发放成本。3微众银行跨银行反洗钱应用案例微众银行跨银行反洗钱应用案例 案例背景案例背景 反洗钱在银行的日常经营中发挥着重要作用。有效的反洗钱模型可以遏制经济犯罪活动。然而,确定一个交易记录是否涉及洗钱活动,这一过程是繁复的,并且极其容易出错。传统方法上,银行会使用基于规则的模型来过滤那些明显的非洗钱记录,并手动审查其他记录。基于规则的模型确实发挥了很大的作用,但由于覆盖范围小,仍然需要在剩余大量的样本中进行人工审查,因而花费大量的时间。此外,虽然它在已知的传统案例中很有效,

95、但在面对新的未知案例时,难以察觉其行为是否违法。因此,利用机器学习模型,找到所有特征之间不可见的关联成为了新的手段。而机器学习模 FATE 隐私计算开源框架金融行业技术应用报告 48 型需要大量的数据作为支撑,如何在保护数据安全、遵守监管要求的前提下利用多方数据构建性能良好的模型,是解决问题的关键。案例介绍案例介绍 微众银行作为中国第一家互联网银行,目前正在利用逻辑回归模型等机器学习模型,使用的特征数多达 900 多种,有效地覆盖了人们日常金融活动的方方面面,对未知的洗钱方法有很好的挖掘作用。然而,这些模型由于缺乏数据(更具体地说,是洗钱的案例)而准确率受损。由于没有大量的实证案例,模型的评价

96、性能很差,很难获得对未知案例的推理能力。微众银行引入了联邦学习来解决这个问题。联邦学习使多个机构能够在不共享数据的情况下构建一个通用模型。为了实现这一目标,微众银行使用联邦学习工业级的开源框架 FATE,联合多家银行共同训练反洗钱模型。反洗钱场景使用的联邦训练模型被称为横向逻辑回归(Homo-LR)。所有银行都提供相同特征维度的数据,这意味着它们具有相同的特征和不同的样本 ID。通过这种组合,整个数据集包含了大量的实证案例,使模型表现良好。在每次迭代中,每一方都通过自己的数据训练模型,并将模型权重或梯度发送给称为协助者(arbiter)的第三方。Arbiter聚合所有这些模型权重或梯度,然后更

97、新回每一方。当模型由各方训练时,各方的数据不会离开本地,推理过程也很容易理解和执行。通过测试,我们证明这样的建模合作方式取得了巨大的成功,极大地提高了模型的性能。LR 模型的 AUC 增加了 14%,在减少手工评审的工作量和难度的同时显著地增加了预测效果。下图是使用联邦模型前后的效果比较。每个方格的数字代表 FATE 隐私计算开源框架金融行业技术应用报告 49 洗钱案件的可能性。图 17 微众银行使用联邦模型前后效果对比 如果采用传统的单边建模模式,这些案件就不会被认定为可疑案件。在回顾两起红色案件的具体情况时,发现它们具有非法结算型地下钱庄的特点,利用我国电子银行账户进行过渡的可能性较大。此

98、外,AUC 随建模数据的增加而增加,从而满足了数据增长的需求。如果我们只使用基于规则的模型,每天需要审查 1000 多个案例。然而,随着联邦 homo-LR 的使用,这个数字已经减少到38。产业价值产业价值 洗钱活动具有严重的社会危害性,破坏了社会的正常经济秩序,损害了金融体系的安全和信誉。因此,反洗钱是银行等金融机构的重要工作,也是金融监管机构的监管重点。利用 FATE 开源框架在不同金融机构间进行横向建模,建立更优的反洗钱模型,不仅提高了模型准确性,强化了对可疑案件的识别,而且降低了人工筛查成本,让反洗钱更准确、更高效。4光大科技交叉营销案例光大科技交叉营销案例 案例背景案例背景 FATE

99、 隐私计算开源框架金融行业技术应用报告 50 交叉营销旨在发现客户多种需求并有针对性地进行产品组合,促使客户在购买某种产品的同时可以继续购买其他关联产品。大数据挖掘与分布式处理技术的成熟应用,为交叉营销领域提供了有力的技术支持,在提高客户转化率的同时还减少了对客户的不必要打扰。但是,考虑到个人隐私保护和数据安全问题,不同机构之间的交叉营销,尤其是金融机构间无法直接进行数据融合与分析建模,使得更加广泛、更深层次的机构间产品交叉营销场景受到限制。案例介绍案例介绍 某保险机构基于 FATE 联邦学习平台,在保证己方数据安全的前提下,联合外部其他保险机构的数据源来指导内部的营销策略。其目的是使购买过团

100、险医疗险的客户二次购买业务重点营销的重疾险,以增加客户对产品的交叉持有,同时提升客户粘性与保障,延续客户在该保险机构的生命力。在此营销案例中,该保险机构将传统机器学习与联邦学习相结合。在计算参与方共同客户的阶段,使用 FATE 中基于 RSA 的隐私求交组件。对与外部数据源的共同客户部分采用 FATE 中的纵向联邦学习模型,对非共同客户部分采用本地的传统机器学习模型。之后将两部分模型的预测结果映射到同一评分区间,并将该评分返回至该保险机构的数据库,方便业务人员的查询和调用。具体逻辑流程图如图 18 所示:该保险机构对比了使用联邦学习技术前后的模型效果,选用AUC、KS、Lift 作为评估指标,

101、得出联邦前后各模型评估指标均有显著提高。“联邦前”为仅使用该保险机构本地数据的机器学习模型,“联邦后”为利用了外部数据的联邦学习模型。在对比中,AUC 从 0.839 提升至 0.879,提高了 4%;KS 从 0.539 提升至0.601,提高了约 6%;排序前 10%的 Lift 从 4.353 提升至 5.582。FATE 隐私计算开源框架金融行业技术应用报告 51 图 18 团险职域营销逻辑流程图 产业价值产业价值 通过联邦学习可以帮助金融机构以密态的方式共享各自的用户数据进行营销模型计算,根据建模结果制定营销策略,实现双赢的联合营销目标。通过数据感知用户需求,利用联邦学习实现数据的开

102、放共享、突破中心化和封闭的数据壁垒,形成用户资产统一视图,实现智慧联动。同时帮助机构分析用户的资产分布、消费喜好和征信登记等信息,给予用户聚合金融等综合产品和服务,为用户创造差异化价值,打造全景体验。5光大科技联合风控案例光大科技联合风控案例 案例背景案例背景 近年来,国内证券市场的规模持续稳步增加,同时监管政策不断深化完善,监管要求更加细致严格,金融行业已步入强监管时代,这给证券风控提出了新的挑战。随着互联网技术与传统金融的结合,新的金融服务模式在满足消费者金融需求、促进消费的同时,也存在由于机构众多、覆盖面广和新业务模式等而产生的问题与风险。因此,如何升级信用风险管理对金融机构至关重 FA

103、TE 隐私计算开源框架金融行业技术应用报告 52 要,而基于联邦学习的解决方案将有望成为解决这一行业性难题的关键。案例介绍案例介绍 通过 FATE 联邦学习平台和区块链技术,某证券机构联合外部数据源构建机构客户风险评级模型。依据风险等级来辅助确定客户的授信额度、融资额度等指标,从而降低证券的信用风险。此外,为了保证联合建模的公平性,对参与双方数据的样本数、特征数、贡献度等指标进行存证,以此作为未来分润的参考。在此风控案例中,该证券机构基于三组对照实验验证了联邦学习的重要性和有效性。对比实验如图 19 所示:图 19 机构客户风险评级对照实验结果 实验一可以得出,相比于仅使用本地数据的机器学习,

104、纵向联邦学习虽然在一定程度上损失了部分数据量,但特征维度的增加最终提升了模型准确率;实验二可以得出,针对证券数据多分类、标签分布不平衡等特点,联邦模型应选择效果表现更优的集成模型 SecureBoost;实验三可以得出,通过设置机构名称的模糊匹配规则,使得样本对齐字段不局限于“社会信用号”,进一步增加交集数量的同时,模型的准确率也会得到小幅度的提升。基于上述的实验结果,该证券机构最终采用 FATE 框架中的SecureBoost 作为该风控场景的解决方案。同时,通过搭建区块链 BaaS 平台,利用区块链技术保证数据的可信可追溯。该证券机构将联邦参与方数据的样本数、特征数、贡献度等信息上链存 F

105、ATE 隐私计算开源框架金融行业技术应用报告 53 证。下表列出部分存证字段:表 4 机构客户风险评级存证字段 产业价值产业价值 联邦学习在风控领域的应用一直是金融行业重点关注的领域。联邦学习技术使金融机构、信贷机构、互联网科技公司等主体间的数据得以相互连接,在满足合法合规要求下最大化了自有数据价值,金融机构得以进一步靠近支付及消费场景端,信贷机构核心竞争力获得增强。此外,金融机构通过联邦学习技术,对多源数据进行协同建模分析,在数据使用安全合规、保护用户隐私的前提下,缓解由于信息不对称而无法有效识别风险的问题。6广发银行风险识别案例广发银行风险识别案例 案例背景案例背景 随着数字经济时代的发展

106、,数据安全与个人隐私保护问题逐渐成为焦点。金融行业同样面临这种问题,尤其是在金融机构之间,缺少数据价值安全共享的机制。基于这种现状,广发银行基于 FATE 开源框架,以监管机构为中心建设能够灵活支持大数据建模、可弹性扩展的联邦学习平台,同时,选择三家有代表性的金融机构,在对公贷款业务场景下探索横向联邦建模的可行性,实现各行业务数据跨机构、跨区域的数据不出域、可用不可见的安全联合建模,挖掘数据价值。案例介绍案例介绍 联邦建模平台以某监管为中心,各金融机构为辅助,构成了易部署、高可用、可弹性扩展的平台架构,如图 20 所示。FATE 隐私计算开源框架金融行业技术应用报告 54 图 20 联邦建模平

107、台架构 在对公贷款风险识别业务场景中,平台根据对公贷款历史数据构建模型,以预测一笔正常对公贷款当月是否会存在风险。监管机构拥有各个金融机构上报的历史数据,分别展开本地单体建模、本地联合建模、联邦联合建模,对比验证联邦建模效果,并分析其价值。联邦建模过程:(1)数据预处理 对数据做探索性分析,筛选出与对公贷款业务相关性较强的数据。其中正样本数据的贷款五级分类为非正常,负样本数据的贷款五级分类为正常。对数据进行一系列清洗加工、特征工程等操作,得到最终的入模数据表。(2)模型选择及评价 建模预测目标为对公贷款是否会存在风险,逻辑回归是解决二分类问题常用的方法之一,本方案决定采用业界使用比较广泛的逻辑

108、回归。模型评价机制:为了尽可能找出对公贷款存在风险的客户,同时保证预测的精度,因此模型评价机制为:模型精确率不低于80%且接近的情况下比较模型召回率,模型召回率越高则模型效 FATE 隐私计算开源框架金融行业技术应用报告 55 果越好。(3)实验设计 A、B、C 机构两两联邦建模,对比本地单体建模、本地联合建模、联邦建模的结果。验证联邦联合建模效果有两个目标:联邦联合建模与本地联合建模效果是否接近;联邦建模效果是否优于本地单体建模。实验结果及分析:由于各机构数据不符合同一特征空间分布,得到的实验结果不理想,因此使用卡方检验的方法剔除区分度高的特征,使数据满足同分布。采用数据处理后趋向同分布的数

109、据进行联合建模实验,训练集分别为 A 机构和 B 机构 1-5 月数据,测试集为对应组合的 6 月数据,实验结果如图 21 所示。图 21 A、B 机构测试结果 从实验结果中可以看到,A 机构结果差异不大(A 机构数据量远大于 B 机构),而 B 机构测试集本地联合和联邦联合的建模效果均优于本地单体建模,召回提升近 14%,同时本地联合与联邦联合效果接近。产业价值产业价值 从联合建模效果验证实验中可以发现,当数据集满足同分布时,以联邦学习形式的联合建模与本地联合建模效果接近,且优0.8240.8240.8160.7790.8890.88900.20.40.60.81本地单体本地联合联邦联合A机

110、构测试集B机构测试集 FATE 隐私计算开源框架金融行业技术应用报告 56 于本地单体建模效果,说明使用联邦学习的方式能够使金融机构间对公贷款数据安全共享,有效扩展对公贷款风险识别模型数据范围,进一步增强模型效果。同时实验发现,模型效果更偏向于数据较少的一方,说明联邦学习建模有利于中小银行等数据样本不足的机构弥补数据匮乏的问题,提升中小银行模型建设及应用能力。7中国建设银行智能营销应用场景案例中国建设银行智能营销应用场景案例 案例背景案例背景 对于金融产品的传统营销方式,金融机构通常基于实体网点、地推沙龙、电话短信等对客户进行无差别的促销,即基于上述方式的营销由于缺乏对于客户需求、画像的了解。

111、这种方式存在两处不足:一方面,无法有效识别潜在客户;另一方面,无差别标准化的推广方式无法满足客户的个性化需求。此外,上述方式存在人力、财力、时间成本巨大、最终客户转化率偏低等问题。随着人工智能及大数据技术的兴起,智能营销可基于客户不同维度的信息,如金融属性、消费行为、社交关系、信用评分等方面的数据,刻画精准、定制化的客户画像,以深度挖掘用户的潜在需求及产品偏好。基于上述分析,金融机构可进一步结合金融产品特点,形成精准的营销促活方案,优化对于客户的精准推荐服务,大幅度提高转化率。案例介绍案例介绍 2020年下半年,由中国建设银行上海大数据智慧中心牵头,建信金科提供技术支持,联合子公司建信基金,利

112、用隐私计算技术进行了集团一体化建模探索,参与联合建模的双方在生产中验证了隐私计算技术在金融产品智能营销场景的可行性。本项目的实施基于中国建设银行数据共享安全计算平台,所应用的联邦学习功能基于 FATE1.5LTS 版本改进实现,基于纵向 FATE 隐私计算开源框架金融行业技术应用报告 57 SecureBoost 模型进行业务建模。在本项目中,双方在生产环境中利用真实业务数据进行了基于用户特征维度拼接的纵向联合建模,针对“速盈客群价值提升场景”,实现跨双方隐私计算模型建立,定位目标客群,助力客户价值提升。在实际的营销中,针对评分前 5%客群的响应率相对于单边模型提升了 34%。产业价值产业价值

113、 本项目利用隐私计算技术开展集团一体化建模探索为银行业在该领域应用场景的创新探索,对行业提供示范效应和促进作用,通过自主创新引领行业发展。该项目被中国信息通信研究院和中国信息标准化协会大数据技术标准推进委员会认定为“隐私计算优秀案例”,获得“星河”奖项。8中国工商银行反欺诈风险识别案例中国工商银行反欺诈风险识别案例 案例背景案例背景 电信诈骗是当前社会关注的热点问题。经案例分析发现,诈骗分子的异常行为在运营商侧更为提前(如更换手机设备、异地联网等),可以帮助银行提前发现风险事件。但反欺诈信息涉及大量隐私数据,企业间反欺诈协作无法开展,银行反欺诈风控能力的提升受限,反欺诈能力无法输出。联邦学习利

114、用同态加密技术和分布式模型训练,保证企业数据不出本地的情况下实现机器学习模型的共建共享,为跨企业、跨行业反欺诈风控提供可能。本项目为反欺诈风险识别场景数据合作项目,以工行客户分级模型-登录模型为例,应用联邦学习技术,联合运营商相关数据和工行数据,在数据互不出库的基础上建立联邦学习模型。该案例旨在通过本次数据合作验证提升行内模型效果,更早抓出可疑客户,并为工行进一步分析欺诈风险和优化反欺诈模型提供决策支撑。FATE 隐私计算开源框架金融行业技术应用报告 58 案例介绍案例介绍 (1)建模过程介绍 1、建模数据的准备 本案例中联邦学习建模,工行侧要提供样本标签以及近百个样本特征,运营商侧提供超 5

115、0 个通信类数据特征。2、样本对齐过程 本案例使用 PSI(隐私集合求交)技术实现样本对齐,PSI 的主要目标是在不泄露非双方共同客户的前提下,完成双方共有客户的筛选工作,如下图所示示:图 22 反欺诈风险客户筛选图示 3、联邦建模 本案例采用基于 lightgbm 的纵向 SecureBoost,使用双方特征和工行标签共同训练模型,用于筛选出高风险欺诈客户名单。在整个训练过程中,各自的数据互不交换,避免数据泄露;建模完成后模型分布式存储,避免模型泄露。4、模型效果评估 TOP100 较仅用行内特征准确率提升 38.46%,TOP500 查准率同比提升 37.14%。(2)落地场景和实施方案

116、工行反欺诈系统每日发起批量模型预测批量,通过联邦学习平台将交易特征和电信侧的客户特征融合计算,得到客户的欺诈 FATE 隐私计算开源框架金融行业技术应用报告 59 风险评分。对于高欺诈风险评分的客户,工行反欺诈系统将其保存到可疑欺诈客户名单中。客户通过手机银行登录时,手机银行向工行反欺诈系统发起实时反欺诈检测请求,反欺诈系统受到请求后,查询可疑欺诈客户名单库,对于命中名单的客户,向手机银行回复“禁止登陆手机银行、提示转柜面办理业务”的干预策略。对于可疑欺诈客户名单中最终被公安部等机构通报为欺诈的客户,作为模型训练的样本,输入到每月定期发起联邦建模批量中,实现反欺诈模型的定期自动更新。图 23

117、工行反欺诈系统欺诈检测工作流程 产业价值产业价值 通过隐私计算技术,可以联合运营商、大型同业机构、支付清算协会等机构合作建立反欺诈模型,推动运营商诈骗黑、灰名单的深度挖掘的试点项目:一是大幅提升了工行反欺诈模型和名单的识别精度和范围,在客户登陆、交易、改密等环节提前识别、阻断可疑客户操作,为金融行业进一步分析欺诈风险和优化反欺诈模型提供有力支撑;二是通过开放银行的反欺诈服务输出,共享防控成果,赋能同业企业客户,共建金融行业跨企业的联防联控的生态体系。FATE 隐私计算开源框架金融行业技术应用报告 60 图 24 工行反欺诈风险识别技术的产业价值 9星云关于金融行业异构算力加速案例星云关于金融行

118、业异构算力加速案例 案例背景案例背景 随着金融行业数据要素流通体量不断攀升,在保证隐私计算安全、合规的情况下,高效地产出隐私计算结果,成为了企业的刚需。隐私计算在保护了数据隐私安全的前提下实现了数据的融合与流通,同时也会产生额外巨大的计算压力与通信压力,例如国内某头部互联网银行的信贷风控业务场景,对纵向联邦学习以及端到端的性能及时延提出了较高的要求。星云 Clustar 基于自身的 FPGA 硬件加速及高性能网络加速技术,为该互联网银行提供定制化的联邦学习异构加速一体机,通过对 FATE 开源框架流程优化,帮助该银行业务的端到端性能实现了数倍的提升。案例介绍案例介绍 星云 Clustar 结合

119、自身 FPGA 硬件加速技术与高性能网络技术,帮助某头部互联网银行定制了基于 NVIDIAGPU 和 XilinxFPGA的联邦学习异构加速一体机。该方案基于 FATE 开源框架,并通过 GPU+FPGA 硬件组合方式,极大地提升了隐私计算算力水平,最终使得联邦学习端到端的计算性能显著提升。在项目的具体实 FATE 隐私计算开源框架金融行业技术应用报告 61 施过程中,异构加速一体机通过对 FATE 联邦学习过程中的数据加密、数据解密、数据混淆、密文矩阵乘法,密态加法、密态乘法、模幂算子、模乘算子等操作进行解构和重组加速,实现了全流程的算力性能提升。在实际操作过程中,FATE 联邦训练流程和基

120、本的数据源抽取是由 CPU 控制的,但训练过程中的数据计算过程通过 FPGA 和GPU 来承担。在这个过程中,FPGA 主要负责同态加密计算,密文矩阵运算,密文乘法运算,模幂运算,而 GPU 主要负责同态解密运算,密文求和运算,数据混淆运算,密态加法运算,模乘运算等其他运算。在运行过程中,星云 Clustar 的异构加速方案,可以使 FPGA 和 GPU 独立并行工作,二者都能够同时进行超大级别的数据量运算。不仅如此,FPGA 和 GPU 单芯片也分别支持多任务并行计算,可以极大的提高运算性能。产业价值产业价值 从应用落地效果来看,在本项目的实际场景中,数据量超过千万级别,数据特征维度超过 3

121、0 维,通过星云 Clustar 的异构加速一体机进行 FATE 纵向联邦训练,端到端的性能加速效果相对于 CPU 多核方案提升 3 倍,单核算力提升约 60 倍。通过实际业务训练的数据表明,基于 FATE 开源框架的 FPGA 或 GPU 的异构算力加速系统能显著提高联邦学习中的训练性能,大幅度降低模型训练耗时,加速业务产品版本迭代,推进业务场景商业化落地,并极大地提升用户体验,可以为整体行业带来效率提升和商业价值。10腾讯云信贷反欺诈案例腾讯云信贷反欺诈案例 案例背景案例背景 在银行进行信贷业务时,需要进行风险识别和控制。传统做法是,银行引入第三方的大数据能力,和通用模型进行风控判断。FA

122、TE 隐私计算开源框架金融行业技术应用报告 62 但通用模型普遍存在对业务匹配度不高,效果不理想的情况。基于联邦学习技术,可以综合利用银行机构同其他行业数据,在各方原始特征不出域的前提下建立风控模型,形成对业务的多维度认识,提升风控质量。在信息核验时,可通过隐私计算实现多方黑名单数据共享,对电诈、洗钱、骗贷等行为的黑名单用户进行匿踪识别,数据方不能获知查询的具体内容,提升客户背景调查的安全可信程度,实现信贷反欺诈。案例介绍案例介绍 腾讯云安全联邦学习平台,基于 FATE 开源框架和AngelPowerFL 联邦学习框架,帮助金融机构建设线上信贷业务系统,通过联邦学习技术在“数据不出域”的前提下

123、,联合构建反欺诈模型、画像模型,模型效果显著提升。在提升银行的大数据信贷风控能力的同时,实现优质客群优质定价,既满足银行实际管理需求,资金又得到高效使用。其技术架构图,如下图所示:图 25 腾讯云安全联邦学习平台技术架构 腾讯云安全联邦学习平台覆盖 PaaS 级和 SaaS 级领域,形成 FATE 隐私计算开源框架金融行业技术应用报告 63 产业链协同互补关系,从而提升联邦学习技术的附加值。在 PaaS级层面,平台基于 FATE 开源框架和自研的 PowerFL 隐私计算框架,并对这两种计算框架进行了云化部署,形成了 PaaS 级联邦学习服务。在 SaaS 级层面,联邦学习应用服务基于自身海量

124、安全大数据,提供安全、合规、高效的联合建模服务,并通过部署云端的 SaaS 服务进行输出,帮助金融机构用户快速应用联邦学习技术成果;同时支持海量互联网用户参与对用户有价值的联合建模,在个人隐私数据均不出域的情况下实现有价值的数据应用。在反欺诈模型协同训练时,数据始终没有离开本地,有效解决了在联合建模过程中各方面临的隐私保护问题。同时,实现双方特征的融合,让模型效果达到最佳。比起通用模型的测试结果,基于联邦学习的联合建模效果提升 20%。产业价值产业价值 在产业方面,基于 FATE 开源框架的联邦学习平台通过融入多方的数据,提高了模型的准确率,规范了数据使用形式,降低了数据泄露的风险,提升风控模型的准确度,以创新技术应用赋能金融数据要素价值发挥。对产业发展而言,在数据安全及个人信息保护相关法律法规的推动下,隐私计算已成为“数字产业化”与“产业数字化”发展进程中的关键技术。隐私计算的“原始数据不出域、数据可用不可见”的交易范式,作为数据流通中的底层基础设施,赋能金融行业数据要素市场有序发展。本案例具有良好的示范性,在普惠金融对于中小微企业的风险管理及风控策略调优方面,均具备较高的落地业务价值,对于金融机构和企业精准融资业务起到明确的支撑作用。

友情提示

1、下载报告失败解决办法
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。

本文(北京金融科技产业联盟:FATE隐私计算开源框架金融行业技术应用报告(2023)(63页).pdf)为本站 (明日何其多) 主动上传,三个皮匠报告文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三个皮匠报告文库(点击联系客服),我们立即给予删除!

温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。
客服
商务合作
小程序
服务号
会员动态
会员动态 会员动态:

 wei**n_... 升级为标准VIP  wei**n_... 升级为标准VIP 

 wei**n_... 升级为至尊VIP 137**64...  升级为至尊VIP

 139**41... 升级为高级VIP  Si**id  升级为至尊VIP

180**14... 升级为标准VIP  138**48...  升级为高级VIP

180**08...  升级为高级VIP  wei**n_...  升级为标准VIP

wei**n_...  升级为高级VIP   136**67...  升级为标准VIP

 136**08... 升级为标准VIP  177**34... 升级为标准VIP  

186**59...  升级为标准VIP   139**48...  升级为至尊VIP

wei**n_... 升级为标准VIP 188**95...  升级为至尊VIP

wei**n_... 升级为至尊VIP wei**n_... 升级为高级VIP 

wei**n_...  升级为至尊VIP  微**... 升级为至尊VIP

139**01...  升级为高级VIP  136**15... 升级为至尊VIP 

 jia**ia... 升级为至尊VIP  wei**n_... 升级为至尊VIP

 183**14... 升级为标准VIP  wei**n_...  升级为至尊VIP

 微**...  升级为高级VIP wei**n_...   升级为至尊VIP

Be**en  升级为至尊VIP   微**... 升级为高级VIP

 186**86...  升级为高级VIP  Ji**n方... 升级为至尊VIP

188**48... 升级为标准VIP  wei**n_...  升级为高级VIP

iam**in... 升级为至尊VIP wei**n_...  升级为标准VIP

135**70...  升级为至尊VIP   199**28... 升级为高级VIP

 wei**n_... 升级为至尊VIP   wei**n_...  升级为标准VIP

wei**n_... 升级为至尊VIP  火星**r... 升级为至尊VIP  

 139**13...  升级为至尊VIP  186**69... 升级为高级VIP 

 157**87... 升级为至尊VIP 鸿**...  升级为至尊VIP

wei**n_... 升级为标准VIP  137**18...  升级为至尊VIP

 wei**n_... 升级为至尊VIP wei**n_...  升级为标准VIP

 139**24...  升级为标准VIP  158**25... 升级为标准VIP

wei**n_...  升级为高级VIP 188**60... 升级为高级VIP 

Fly**g ... 升级为至尊VIP   wei**n_... 升级为标准VIP 

186**52... 升级为至尊VIP  布** 升级为至尊VIP  

 186**69... 升级为高级VIP wei**n_... 升级为标准VIP 

139**98... 升级为至尊VIP   152**90... 升级为标准VIP

138**98... 升级为标准VIP  181**96... 升级为标准VIP

  185**10... 升级为标准VIP   wei**n_... 升级为至尊VIP

高兴  升级为至尊VIP wei**n_... 升级为高级VIP

  wei**n_... 升级为高级VIP  阿**... 升级为标准VIP

wei**n_...  升级为高级VIP lin**fe...  升级为高级VIP

 wei**n_...  升级为标准VIP wei**n_... 升级为高级VIP

 wei**n_... 升级为标准VIP wei**n_...   升级为高级VIP

 wei**n_... 升级为高级VIP  wei**n_... 升级为至尊VIP

 wei**n_...  升级为高级VIP wei**n_...   升级为高级VIP

180**21...  升级为标准VIP 183**36... 升级为标准VIP 

 wei**n_...  升级为标准VIP wei**n_...  升级为标准VIP 

xie**.g... 升级为至尊VIP  王**  升级为标准VIP

172**75...   升级为标准VIP wei**n_...  升级为标准VIP 

wei**n_...  升级为标准VIP wei**n_...  升级为高级VIP

 135**82...  升级为至尊VIP  130**18... 升级为至尊VIP

wei**n_... 升级为标准VIP   wei**n_... 升级为至尊VIP

wei**n_...  升级为高级VIP 130**88... 升级为标准VIP

 张川 升级为标准VIP  wei**n_...  升级为高级VIP