《5-4 光大集团联邦学习探索与实践.pdf》由会员分享,可在线阅读,更多相关《5-4 光大集团联邦学习探索与实践.pdf(32页珍藏版)》请在三个皮匠报告上搜索。
1、1内部资料,严格保密2022年7月9日光大集团联邦学习探索与实践21隐私计算背景概述2光大集团隐私计算平台建设3光大联邦学习场景及相关算法介绍4联邦学习原理与应用介绍目录行业未来发展介绍53隐私保护是数据要素应用的保证2018 欧盟委员会通用数据保护条例2020 美国加州消费者隐私法案 数据孤岛与数据隐私保护2016.11.7 中华人民共和国网络安全法2018.8.31 中华人民共和国电子商务法2019.5.28 数据安全管理办法(征求意见稿)2020.7.3 中华人民共和国数据安全法(草案)2020.10.21 中华人民共和国个人信息保护法(草案)2021.6.10 中华人民共和国数据安全法
2、2021.11.1 中华人民共和国个人信息保护法严格化:数据控制方责任明确,刑罚到自然人全面化:各领域数据管理细则密集出台,用户授权+监管部门审批4隐私计算技术发展历程5隐私保护的技术路线和联邦学习2016年“联邦学习”首次被提出2019年 光大开始研究隐私计算2020年 隐私保护计算应用元年2022年 可信联邦学习提出核心要点:在保护隐私的前提下,通过数据要素的合作,实现数据价值的体现。6相关的业界标准71隐私计算背景概述2光大集团隐私计算平台建设3光大联邦学习场景及相关算法介绍4联邦学习原理与应用介绍目录行业未来发展介绍58光大集团及光大科技中国光大集团是横跨金融与实业、海内与海外,涵盖银
3、行、证券、保险、基金、信托、期货、租赁、投资和环保、中国光大集团是横跨金融与实业、海内与海外,涵盖银行、证券、保险、基金、信托、期货、租赁、投资和环保、文旅、医药等板块的大型金融控股集团。提出了文旅、医药等板块的大型金融控股集团。提出了“以财富管理与民生服务为特色的具有全球竞争力的世界一流金融以财富管理与民生服务为特色的具有全球竞争力的世界一流金融控股集团控股集团”的战略目标,正在实施的战略目标,正在实施“敏捷敏捷”、“科技科技”、“生态生态”三大战略转型,推动三大战略转型,推动“全面深改全面深改”、“科技创科技创新新”、“E-SBU协同协同”等八大战略举措落地,并在传统金融等八大战略举措落地
4、,并在传统金融+实业基础上战略性的开拓了实业基础上战略性的开拓了“三大一新三大一新”产业。产业。金融板块投资板块产业板块科技板块光大集团光大集团”三大一新三大一新”产业战略产业战略中国光大集团成立于1983年5月,是国务院直属金融控股集团。光大集团经过38年的发展,已成为横跨金融与实业、内地、香港与海外,拥有全金融牌照和环保、旅游、健康、高科技等特色产业的国有特大型综合金融控股集团。大环保 大旅游 大健康 新科技 9光大联邦学习技术发展2021l加入FATE开发专委会l发起基于联邦框架的半监督学习训练范式,推动开源社区算法的创新孵化l出版联邦学习原理与应用书籍,该专著繁体中文版不再理論化:聯邦
5、學習親自動手工程專案實作也即将在台湾出版l参与全国金融标准化技术委员会的联邦学习技术金融应用规范行业标准制定202220202019l基于FATE v0.1 开始探索联邦学习领域,并进行POC测试l基于“可验证秘密共享技术”研发的“联邦学习平台多方安全求和算法”被全球首个工业级联邦学习框架FATE采纳l发表两篇国际专业会议报告论文 A Federated F-score Based Ensemble Model for Automatic Rule Extraction,(ICML 20,CCF AI 方向 A类会议),Vienna,Austria.2020.7 线上参会作报告 A Verti
6、cal Federated Learning Method for Interpretable Scorecard and Its Application in Credit Scoring,(CSCR 20,信用评分与信用评级国际会议),Chengdu,China,2020.10 线下参会作报告l成为FATE社区技术指导委员会成员l光大大数据联邦学习平台投产上线l发表一篇国际期刊学术论文 A Federated interpretable scorecard and its application in credit scoring,International Journal of Fina
7、ncial Engineering,Vol.08,No.03,2142009(2021)l参与北京金融科技产业联盟的联邦学习技术白皮书撰写,以及联合建模技术与应用研究报告、金融行业隐私计算技术与应用研究报告、多方安全计算金融应用现状及实施指引等专项课题研究l荣获2021中国金融创新奖“十佳金融科技创新奖”10新商业创新模式 基于集团交叉营销、迁徙统计、智能营销、智能风控、量化交易、指数运算等业务场景,光大科技打造一站式共享智能解决方案,以助力金融服务、产融服务、产业服务智能化发展为目标,利用大数据、人工智能、联邦学习、区块链等领域的新科技与新商业的组合支持金融、产业、产融的商业模式创新,为金融
8、、产业业务提供服务。应用“数据+技术”双轮驱动赋能各企业数字化转型,探索出一条集数据资产共享、技术共享、价值共享于一体的新路径,帮助连接企业,促进企业的数据资产数据流动,提升数据的资产价值,实现“金融+科技+生态”的新商业创新模式。其他智能定价指数运算量化交易分布式智能决策引擎多方安全计算 联邦学习机器学习基础平台大数据平台区块链智能风控客户申请准入存量客户管理逾期客户管理一站式共享智能解决方案交叉营销营销策略营销活动产品设计智能营销光大联邦学习平台简介11光大集团联邦学习的平台建设l 依托集团的联邦学习、区块链平台共建集团数据合规共享生态。l 成员企业之间的组网方式采用星型模式连接到光大集团
9、,目前已对接集团内部分企业,并兼容MPC平台。l 连接外部资源,构建联邦数据生态,实现对内赋能。l 后续计划持续推进集团内联邦学习与区块链平台的链接,实现集团与各金融领域成员公司联通,覆盖风控、营销、运营多个业务领域,提高效率。12光大集团面向隐私策略的决策引擎131隐私计算背景概述2光大集团隐私计算平台建设3光大联邦学习场景及相关算法介绍4联邦学习原理与应用介绍目录行业未来发展介绍514光大科技为FATE社区贡献的安全多方求和算法金控集团客户资产通常分布在多家机构中,对应数据也分布散在多家机构中,采用隐私计算技术,在保证数据安全的前提下,统计用户在集团的总资产,挖掘潜力客户。u业务需求业务需
10、求秘密共享具有处于分裂态可以运算,运算的结果在多方参与的情况下可以还原的优势。算法实现中采用Shamir秘密共享方案,基于插值多项式进行秘密共享。000,a b c是用户在不同机构的资产值,目标是得到资产和以三家机构为例具体流程分为秘密分发,秘密求和,秘密重构三个阶段2212130121()()()nnnnnnf xaa xa xaxfxbb xb xbxfxcc xc xcx秘密分发15安全多方求和秘密求和2000111222Sum()()()()xabcabcxabc x秘密重构Guest方汇总所有子秘密之和(资产和的子秘密),得到利用拉格朗日插值定理就可以还原出唯一
11、的Sum()x16可验证秘密分享 Feldman VSS是一个常见的可验证秘密共享方案,它在基于Shamir 秘密共享进行改造,对共享内容的一致性进行验证,保证其内容是遵循方案协议的;但是对于参与计算的内容是否真实有效,不在验证范围内。为了使共享可以验证,参与方需要分发多项式系数模p作为承诺(commitment)。例如:111100,nnjajajagggPgggPgnnjajajajfmodmod1111001)(接收方使用接受的子秘密及承诺和验证如下等式是否成立17可验证秘密分享定义参数对象:1.定义参数类,继承于BaseParam2._init_方法中定义参数变量3.重载参数检查接口,
12、于验证参数变量是否可。18可验证秘密分享定义新模块的meta文件:1.继承 ComponentMeta,用模块名为其命名,即在 dsl 中调用的模块名2.使用装饰器 xxx_cpn_meta.bind_runner.on_$role将模块object绑定至每个角色。3.使用装饰器 xxx_cpn_meta.bind_param 将参数object绑定至step1中定义的开发组件,装饰器将返回对应参数object。19可验证秘密分享定义此模块的传递变量py文件并生成传递变量对象:1.定义参数类,继承于BaseTransferVariables2._init_方法中定义参数变量20可验证秘密分享实
13、现算法模块:1.定义参数类,继承于ModelBase2._init_方法中指定model_param3.重载所需接口21可验证秘密分享如下参数配置中用了两个节点模拟了三方的安全求和,这里面9999节点既充当了Guest又充当了Host节点,样例中的求和的字段设置的是前三个特征字段,精度配置为6位。DSL配置中的FeldmanVerifiableSum算法就是集成的VSS算法组件,22可验证秘密分享数据量与任务耗时的关系数据量(万条)总耗时(秒)通信耗时(秒)正确率20233178100.00%40408294100.00%60605446100.00%80806608100.00%100110
14、6746100.00%参与方数量与任务耗时关系参与方数量(个)总耗时(秒)通信耗时(秒)正确率210756100.00%3164106100.00%4233178100.00%https:/ Poolr1,r2,r3r3,r1,r3,r2E(hiri)E(gi)publicKeyE(gi)riE(gi)E(diffi)riE(gi)E(hiri)E(giri)E(hiri)E(diffi)diffiD(E(diffi)girihiriri(gihi)resgihi,if:diffithresgihi,if:thresdiffithresgihi,if:diffithres统计指标统计指标内容描
15、述内容描述客户总数参与方去重后的客户量总和共同客户数参与方之间的客户交集数量迁徙客户数客户从某参与方转移到其他参与方的数量某金控集团部分子公司基于年度考核方案,采用隐私计算技术,在保证数据安全的前提下统计客户总数、共同客户数、客户迁徙数等协同类指标,进一步助力集团协同发展。u业务需求业务需求双盲计算双盲计算结果对比结果对比随机数池随机数池统计指标及释义对照表统计指标及释义对照表24光大联邦学习应用场景-精准营销某保险机构基于联邦学习指导营销策略,目的是使购买过团险医疗险的客户二次购买重点营销的重疾险,增加产品的交叉持有;同时提升客户粘性与保障,延续客户的生命力。u业务需求业务需求团险职域营销逻
16、辑流程图团险职域营销逻辑流程图调度组件调度组件 自研调度组件可将联邦任务与本地任务进行自动化监控和调度;该调度组件以task为最小任务单位,可对联邦任务的参与方信息、本地任务的脚本内容等进行灵活配置。25光大联邦学习应用场景-智能风控准确率0.90940.9574XGBoostSecureBoost0.880.890.90.910.920.930.940.950.96机器学习 VS 联邦学习准确率0.70430.9574HeteroLRSecureBoost00.10.20.30.40.50.60.70.80.91逻辑回归 VS 集成树准确率0.95740.9576BeforeAfter0.9
17、5730.957350.95740.957450.95750.957550.95760.95765数据增强对比相比于仅使用本地数据的机器学习,纵向联邦学习虽然在一定程度上损失了部分数据量,但特征维度的增加最终提升了模型准确率。针对证券数据多分类、标签分布不平衡等特点,联邦模型选择效果表现更优的集成模型 SecureBoost。设置机构名称的模糊匹配规则,使得样本对齐字段不局限于“社会信用号”,进一步增加交集的样本数量。通过联邦学习和区块链,某证券机构联合外部数据源构建机构客户风险评级模型,依据风险等级来辅助确定客户的授信额度、融资额度等指标,从而降低证券的信用风险。此外,为了保证联合建模的公平
18、性,对参与双方数据的样本数、特征数、贡献度等进行存证,以此作为未来分润的参考。u业务需求业务需求数数据据存存证证任务级别任务级别字段名称字段名称字段类型字段类型内容释义内容释义JobpartyIdListbytes32参与方的ID列表JobisDoneunitJob是否已全部完成Taskparticipantaddress payable参与方的账户地址TaskhashstringTask的哈希值.TasktimestampunitTask的时间戳Taskcountunit提交的数据量大小26光大联邦学习应用场景-跨域数据校验跨域校验系统架构图跨域校验系统架构图跨域校验业务流程图跨域校验业务流
19、程图金融智能的发展依赖于数据的准确性,可以通过与外部数据进行比对来了解已有数据的精确度。在金融数据与外部数据进行比对校验的过程中,数据的保密性与安全性需要得到保障。基于联邦学习的跨域数据校验模块可以在不泄露各方原始数据的前提下,帮助某银行机构有效利用外部数据源提升金融智能的准确性及完备性。需求描述需求描述基于联邦学习的跨域数据校验模块,满足行方数据不出域的前提下,针对指定字段,为行方的企业客户数据提供与数据源方对应数据的比对功能。行方与数据源方会对各自数据分别执行模糊数值匹配算法,以完成数据跨域比对。行方可依据各字段的数据校验结果,掌握客户信息的精确度。功能介绍功能介绍271隐私计算背景概述2
20、光大集团隐私计算平台建设3光大联邦学习场景及相关算法介绍4联邦学习原理与应用介绍目录行业未来发展介绍528联邦学习原理与应用作者介绍电子工业出版社联邦学习原理与应用 “联邦学习原理与应用一书,是光大对近年来探索工作的一个总结,基于金融科技领域的数据共享现状、数据合规要求,结合金控集团的现实需求,对联邦学习“能做什么、该如何做、将做什么”,描绘了清晰发展路径。同时,书中对联邦学习在前沿应用中诞生的新技术与方法,涵盖推荐、营销、风控、数据要素流通等领域,也做了创新性的论述,且有相关论文、专利甚至落地场景的支撑。”李璠 光大集团股份公司科技创新事业部总经理 光大科技有限公司党委书记、总经理向小佳李琨
21、王鹏郑方兰田江光大科技有限公司副总经理追光实验室追光实验室光大科技有限公司大数据部负责人大数据部研究团队负责人29联邦学习原理与应用目录概览 本书既是关于联邦学习技术和上手实践方法的介绍,又是关于联邦学习在业界,特别是金融科技行业应用实践的案例展示。第 1 章介绍联邦学习的发展背景和历程,以及金融业中数据共享的机遇和挑战;第 2 章 第 5 章介绍不同类型的机器学习方法在联邦学习模式下的实现,以及关键算法原理;第 6 章介绍联邦学习开源框架 FATE 的架构和部署,以及在金融控股集团内大数据平台上建立跨机构统一数据科学平台的实施方案;第 7 章从建模者的角度展示了典型建模流程的实战过程;第 8
22、 章第 9 章结合在金融相关行业的实践,以多个应用案例和解决方案的形式,介绍联邦学习在营销运营和风险管理等不同业务方向上不同层次的应用实践;第 10 章从人工智能的不同方向介绍联邦学习应用扩展及前景;附录介绍了联邦学习框架中相关的密码学工具。本书适合隐私保护计算的研究者(特别是联邦学习技术的研究者)、大数据和人工智能方向的技术开发者及数据相关的业界应用人员阅读参考。本书为希望使用大数据技术和从事数据分析挖掘的业界人员,提供了新的思路和视角。301隐私计算背景概述2光大集团隐私计算平台建设3光大联邦学习场景及相关算法介绍4联邦学习原理与应用介绍目录行业未来发展介绍531未来展望 关注并期待业界的发展 从联邦学习到可信联邦学习,提供更成熟的联邦学习工具,监管可解释,更加指导应用落地。互联互通标准的统一,使得跨平台的合作成为可能。金融级安全,安全算法、安全协议经得起推敲。更多性能优化的解决方案助力联邦学习技术应用到更多场景。与区块链的结合,建立公正、公平、合理的数据交易环境。与更多计算平台对接,将更多数据资产上线联邦平台。32谢谢!32