《6-1 隐私计算行业发展观察.pdf》由会员分享,可在线阅读,更多相关《6-1 隐私计算行业发展观察.pdf(23页珍藏版)》请在三个皮匠报告上搜索。
1、隐私计算发展观察中国信通院云大所 闫树2022.7|数 据 要 素 是 抢 占 数 字经 济全 球 竞争 新赛 道 的关 键抓 手|新技术重构和升级传统生产关系的核心引擎推动传统要素流动升级的重要工具抢占全球竞争制高点的战略需要推动经济高质量发展的关键抓手几乎所有新技术、新业务都紧密围绕数据的应用,例如,大数据和人工智能技术以巨量数据投入为基础;云计算则作用于对数据的处理和挖掘 新应用依赖于信息技术的广泛应用,数据加速向经济生产的各领域渗透,形成基于数据的生产闭环促进消费数据可有效激活线上消费需求,促进形成“线上+线下”的新型营销体系,释放消费潜力信息传递数据能推动技术、资本、劳动力、土地等传
2、统生产要素资源的优化重组,帮助解决生产经营中的信息不充分或不对称问题,提升生产效率组织联动利用数据,可有效细分客户、防控风险、评价信用等,联动不同产业集群和组织,促进跨网、跨地区、跨企业的产业链和价值链互联互通数据要素的重要性数据红利美国联邦数据战略欧盟欧盟数据战略英国国家数据战略拓展投资以数据采集、清洗、标注、交易等环节构成的数据市场正快速发展,市场规模迅速增长,预计未来的投资空间仍将持续拓展国际竞争我国曾经依靠地产和金融资本扩张和人口红利逐渐见底,数据成为新的经济结构中的重要组成 数据是指任何以电子或者其他方式对信息的记录,而生产要素是指社会生产所必需的一切资源及其环境条件。随着新一轮科技
3、革命的快速发展,数据资源在社会生产中的投入成为了推动经济高速发展的重要引擎,因而数据也成为了新的生产要素。我 国 数 据 要 素 的 顶 层布 局逐 步 细化|自2019年十九届四中全会以来,中央和各级政府先后发布多项政策文件,围绕数据要素发展进行谋篇布局中共中央 国务院关于构建更加完善的要素市场化配置体制机制的意见2019.102020.032021.032022.01中共中央中国共产党第十九届中央委员会第四次全体会议公报全国人大中华人民共和国国民经济和社会发展第十四个五年规划和2035年远景目标纲要国务院办公厅要素市场化配置综合改革试点总体方案中共中央 国务院关于加快建设统一大市场的意见首
4、次将数据明确纳入生产要素首次提出培育数据要素市场提出“十四五”时期的发展目标,即要建立健全数据要素市场规则细化“十四五”时期探索建立数据要素市场规则的具体要点2022.04提出加快培育统一的技术和数据市场数 据 要 素 市 场 化 核 心环 节|数据要素化数据要素化数据要素市场化配置数据要素市场化配置数据基础设施与资源数据基础设施与资源化化数据采集数据传输数据处理数据存储数据加工数据资产化数据资产化数据权属界定数据资产计量资产价值评估数据标准数据质量数据模型数据盘点数据共享数据开放数据交易数据要素市场化数数据据应应用用定价模式数据资本化数据银行数据信托数据证券化数据安全数据安全&数据合规数据合
5、规市场化工具市场化机制流通场所流通规则市场化监管市场准入市场公平数据分类流通技术数据治理数据治理数据流通数据流通流 通 是 数 据 要 素 价 值释 放的 本 质要 求|生产要素的流通是为了提高要素的利用效率而寻求最佳配置方式的过程。数据要素的流通是为了促进数据应用价值的最大化而在不同主体间进行移动配置。既然是生产要素必然要流通经济发展与要素的流通是相伴而生、互相促进的生产要素流通利用效率提升经济发展贸易与分工产生要素的流向决定了经济发展的方向,经济发展又进一步促进了要素流通数据要素价值的实现过程:在流通中创造更多生产力数据要素改革的核心目标:通过流通串联起市场,支撑收入分配一次价值组织内部应
6、用“由市场评价贡献按贡献决定报酬”原始数据产生数据采集存储数据管理数据应用数据流通流通价值商业活动变现二次价值组织外部应用 数据能够在社会成员和生产部门间自由流通 流通组织、串联起的数据要素市场为评价贡献提供场所 通过市场行为的创造经济回报进一步激发数据投入促进社会再生产的过程6提供方需求方权属确定价值计量资源配置数据权利束有哪些权利确权授权权利如何分配、如何行使数据价值评估收益分配的依据数据价格确定具体产生多少经济收益数据开放无偿提供数据(非市场化)如政府数据开放数据共享数据资源双向置换,如政务/政企数据共享数据交易有偿提供数据(市场化)如数据交易所流通技术支撑 类比传统生产要素的流通过程,
7、数据要素的流通同样面临权属确定、价值计量和资源配置(开放、共享、交易)三个环节,同时数据虚拟性、载体依赖性等特点也对数据流通的技术支撑提出要求。数 据 要 素 流 通 的 核 心要 点7 当前数据产权划分、保护、交易流通的滞后引发“数据孤岛”“数据垄断”等割裂化、不平衡的发展趋势,为数据要素流通产生阻碍,不利于培育数据要素市场、促进数据要素价值释放。突破思路1、数据权属难以界定 明确数据的产权结构和归属规则,厘清各主体之间的关系2、数据估值定价缺乏依据 不同类型、场景的数据价值的计量和确认规则4、数据交易未形成规范健全的市场体系 体系化的数据交易市场运行规则和行为规范 明确公共数据开放共享的基
8、础标准和激励方案3、公共数据开放效果未达预期面临的问题5、数据流通缺乏成熟技术支撑体系 强化关键技术研发和合规应用促 进 数 据 要 素 流 通,亟 需解 决 以下 问题数 据 产 权 分 置,隐 私计 算迎 来 发展 机遇|“要建立合规高效的数据要素流通和交易制度,完善数据全流程合规和监管规则体系,建设规范的数据交易市场。”原始数据不出域只流通数据价值产权分置流通安全合规数据可用不可见保障数据流通过程的数据安全,助力合规 作为平衡数据流通利用与安全的重要工具,近几年,在技术发展和政策引导的双重驱动下,隐私计算的关注度日渐提升;而随着中央全面深化改革委员会第二十六次会议上中央提出建立分置的数据
9、产权运行制度和合规高效的数据要素流通和交易制度,使得隐私计算有了更加明确的用武之地。6月22日下午,中央全面深化改革委员会第二十六次会议,审议通过了关于构建数据基础制度更好发挥数据要素作用的意见,奠定了我国开始构建数据基础制度的基石“要建立数据产权制度,推进公共数据、企业数据、个人数据分类分级确权授权使用,建立数据资源持有权、数据加工使用权、数据产品经营权等分置的产权运行机制,健全数据要素权益保护制度。”理 念 扩 展,隐 私 计 算技 术外 延 继续 深化|2022年,隐私增强技术-美国促进数字隐私技术法案 面向隐私信息全生命周期保护的计算理论和方法,是隐私信息的所有权、管理权和使用权分离时
10、隐私度量、隐私泄露代价、隐私保护与隐私分析复杂性的可计算模型与公理化系统。在保证数据提供方不泄露原始数据的前提下,对数据进行分析计算的一系列信息技术,保障数据在流通与融合过程中的“可用不可见”。通过提高可预测性、可管理性、可分离性和保密性来减轻数据处理所产生的个人隐私风险的任何软件或硬件的解决方案、技术流程或其他技术手段。广义的隐私计算技术体系2021年,隐私计算-信通院隐私计算白皮书2016年,隐私计算-李凤华隐私计算理论与技术 隐私计算最初是指面向对隐私信息的可计算模型与公理化系统,后来发展为一系列保证数据流通过程中“可用不可见”的技术。现今隐私保护越来越受到重视,其范围扩大为任何可实现保
11、护隐私前提下数据共享计算的技术。传统隐私计算辅助融合数据限制发布数据失真 多方安全计算 联邦学习 可信执行环境 区块链 可验证计算 访问控制 溯源技术(数字水印等)数据脱敏 去标识化(如泛化、混淆、截断、掩码、K-匿名等)合成数据 随机扰动 合成数据基于数据加密的技术基于数据限制发布的技术辅助融合技术基于数据失真的技术广义隐私计算(隐私增强计算)广义的隐私计算是面向隐私信息全生命周期保护的计算理论和方法,涵盖信息所有者、信息转发者、信息接收者在信息采集、存储、处理、发布(含交换)、销毁等全生命周期过程的所有计算操作,是实现隐私保护前提下数据安全共享的一系列技术。隐 私 计 算 持 续 迎 来
12、市场 爆发 2021年,在政府多部门发文鼓励推进隐私计算技术研究与应用的大力支持下,相关技术产品数量快速增长,众多业务需求者开始从市场观望者转入技术研发的队伍,以期为自身业务赋能。2年2019年2020年2021年截至目前,已有88家企业陆续发布隐私计算技术产品,产品数量快速增长数据来源:中国信通院,2021越来越多的企业加入竞争赛道产品正式发布数量变化趋势接近85%的企业集中在北京、上海、杭州、深圳四个城市VS传统大数据、区块链、AI及安全厂商等纷纷提供技术服务众多业务需求者也加入技术研发队伍|技 术 融 合,推 动 隐 私计 算技 术 路径 优势 互 补FLMPCTE
13、EFL+MPC借助多方安全计算实现的聚合算法FL+TEE借助可信执行环境保护中间数据MPC+TEE“明文态密态”提升安全,“跨网同网”提升性能FL提供:分布式训练,本地私有数据不出私有边界;TEE提供:本地训练、模型聚合在TEE安全环境内完成,外界均无法查看、获取中间数据。在FL的聚合算法中引入MPC技术手段,保护数据隐私性,全同态加密:随着全同态技术的不断提升,未来可实际应用于联邦学习中,实现中间数据的完全保护;秘密分享:借助秘密分享方式进行模型聚合,保护模型参数。MPC提供:借助秘密分享等密码技术,将各方本地数据拆分为密态数据,在密态下处理,保证计算过程的安全性。TEE提供:借助TEE的隔
14、离性,以及加密算法的保密性,能够将跨网方式转化为同网的方式。解决MPC普遍存在的通信瓶颈问题。隐私计算不同技术路线有着不同的优势和不足。例如,多方安全计算(MPC)安全性高但普遍存在计算和通信瓶颈,联邦学习(FL)速度快但对于隐私信息保护能力有待提升,可信执行环境(TEE)信任硬件但存在侧信道攻击等隐患。各技术路线之间有望通过融合的方式达成“1+12”的目标。|安 全 性 受 到 广 泛 关 注,产品 仍 缺乏 体系 化 安全 能力|隐私计算产品的传统安全能力进一步增强。此外,隐私计算产品在数据安全、模型安全等领域也开始布局,如应对FL的模型窃取、投毒攻击等。安全边界及分级共识有待形成开发应用
15、始终存在安全挑战算法协议无法实现绝对安全一方面,隐私计算产品的算法协议差异化较大,难以形成统一的安全基础另一方面,隐私计算安全协议依赖安全假设,仍存在安全风险假定算法安全达成的情况下,一方面隐私计算产品面临生产化过程中产生的安全问题另一方面,第三方机构的介入也会引来安全风险隐私计算参与者很难直观验证所用产品的安全性真实应用中的信任共识通常难以达成,使得隐私计算部署和使用进展缓慢安 全 分 级,根 据 业 务 场 景 灵 活 选 择 安 全 级 别1第六批可信隐私计算性能评测2 Falcon:Honest-Majority Maliciously Secure Framework for Pri
16、vate Deep Learning3 SPDZ2k:Effiffifficient MPC mod 2k for Dishonest Majority安全等级提升【适用场景】高实时性要求低隐私保护要求如企业内部共享场景【安全假设】半诚实参与方诚实大多数联合机器学习耗时明文约50-200倍【1】【适用场景】中等实时性要求中等隐私保护要求如企业间联合计算【安全假设】半诚实/恶意参与方诚实大多数联合机器学习耗时明文约100倍以上【1-2】【适用场景】低实时性要求高隐私保护要求如公共数据开放场景【安全假设】恶意参与方不诚实大多数联合机器学习耗时明文约500倍以上【3】根据对中国信通院“可信隐私计算”
17、性能评测以及一些相关论文的结果分析,基于隐私计算的联合机器学习耗时相比明文差距在数十倍到数百倍不等,高安全假设的方案会极大增加额外通信和计算负担,造成性能实用性较低;不同业务场景的安全假设不同,要根据需求选择适合的安全等级,达到动态平衡,避免唯安全论/唯性能论。性能指标提升|便 捷 使 用,隐 私 计 算 产 品 易 用 性 提 升 明 显 隐私计算已经从场景验证阶段进入场景落地阶段,可用性受到极大的关注,目前产品在计算性能、系统稳定性、产品易用性和应用场景支持能力等方面有一定程度的提升。性能性能加速 方法:可视化操作、算法二次开发、容器化部署 测试观察:约90%的产品支持可视化操作和容器化部
18、署易用性增强稳定性提高支持场景丰富方法:容灾恢复、主备多活机制、断点运行测试观察:MPC产品中稳定性测试项目通过比例由10%提升到40%应用场景:金融、政务、医疗场景案例增多支持点:金融实时性业务场景、海量数据高并发计算、软件兼容性软件层面并行计算、算法优化、通信优化支持亿级数据计算,高并发的PSI算法耗时可减少83%硬件层面:硬件加速卡、一体机密文计算可提升数十到数百倍来源:中国信通院,2022来源:中国信通院,2022来源:中国信通院,2022稳定性易用性应用场景软 硬 协 同,隐 私 计 算 一 体 机 成 为 新 的 产 品 突 破 口 软硬结合提升隐私计算的安全性和性能是目前的主流方
19、案,而隐私计算一体机作为软硬结合的一体化专用设备,因其开箱即用,降低综合成本的优势,成为当下隐私计算产品应用的新形态。落地情况实践企业加速卡加速+TEE加速+TEE+加密来源:中国信通院,2022年初,不完全统计隐私计算一体机性能加速安全加固易用性增强 开箱即用 多种部署方式 快速组网 可视化 密码运算 MPC基础运算 模型运算 基础运算 安全隔离 保密性、完整性 密码安全 通信安全多硬件组合提升成为发展趋势,加速卡占比超四成。应用场景初现金融、政务、医疗场景标准需求迫切IEEE、行标、企标纷纷编制中产品企业增多产品方案多样化产品使用硬件多样化硬件类型性能硬件安全硬件 加速卡(GPU等)可信硬
20、件 硬件密码模块软硬结合情况|开 源 探 索,隐 私 计 算 开 源 受 到 更 多 关 注|序号平台/框架开源时间机构主要技术路径1PySyft2017年7月OpenMined多方安全计算、联邦学习2Asylo2018年5月谷歌可信执行环境3MesaTEE2018年9月百度可信执行环境4FATE2019年2月微众银行联邦学习5Occulum2019年3月蚂蚁集团可信执行环境6TF-Federated2019年8月谷歌联邦学习7PaddleFL2019年9月百度联邦学习8CrypTen2019年10月FaceBook多方安全计算9Fedlearner2020年1月字节跳动联邦学习10Roset
21、ta2020年8月矩阵元多方安全计算11KubeTEE2020年9月蚂蚁集团可信执行环境12OpenCheetah2022年3月阿里多方安全计算13隐语2022年3月蚂蚁集团多方安全计算14FederatedScope2022年5月阿里联邦学习15Primihub2022年5月原语科技多方安全计算隐私计算主要开源框架/平台开源平台特点及趋势完备性支持各种能力,满足不同场景需求易用性方便用户快速上手可扩展性通过分层架构和模块化减少应用之间的依赖 隐私计算技术开源意义:隐私计算是数据安全流通的主要技术解,项目的安全性可通过开源公开验证。另外,开源有助于达成共识,利于隐私计算的互联互通。隐私计算开源
22、项目现状:项目主要分为底层协议框架和产品平台。底层协议开源以一类技术为主,较易嵌入其他平台;平台类开源项目功能较完备,但社区发展仍处于初期,项目仅代码开放,社区建设不完备。兼容性兼容其他框架,易于互联互通互 联 互 通 共 识 强 化,落 地 实 践 取 得 新 进 展互联互通1.0-确立标准互联互通2.0-试点落地 隐私计算本是推进跨机构数据流通的助推器,但产品间技术壁垒难打通将促使数据“孤岛”变“群岛”,异构平台的互联互通将是必经之路。现阶段,各技术厂商均在探索互联互通的实现方案,但尚未出现完全成熟的案例。IEEE-Standard for Interworking Framework f
23、or Privacy-Preserving Computation 互联互通的重要性进一步强化 第1部分:总体框架的基本思路已得到普遍认可 原则性的框架要求很难指导实践落地 实践层面的观望多于行动 已公开的案例可落地性、可复制性、可验证性等仍然不足,行业呼唤更加成熟的、示范性的最佳实践基于中间件、区块链方案的实现思路基于轻量化中间件或区块链智能合约实现报文重构转换、任务状态同步与应用执行分层次的粉异构平台互联探索从节点互认、资源共享到算法组件跨平台迁移执行TC601、PPCA隐私计算 跨平台互联互通|隐 私 计 算 应 用 进 一 步 发 展 丰 富、不 断 向 多 行 业 扩 展 隐私计算应
24、用场景进一步丰富,覆盖金融风控、精准营销、政务服务、保险定价、医疗健康等场景 转向落地应用,进入实施部署阶段的产品比例明显提升,产品能够支持较大规模应用的实施应用场景更为丰富,金融风控广泛应用,公共服务占比强势提升保险定价9%公共服务金融风控40%精准营销13%医疗健康11%其他9%38%48%2018年2019年2020年2021年实施阶段试点阶段来源:中国信通院,2021市场由观望了解转向落地应用1980s-2018年从实验室验证到产品研发2019年技术普及与市场教育2020年开始POC(验证性测试)2021年规模应用、普遍招标开始|市场由观望了解转向落地应用进入实施部署阶段的产品比例明显
25、提升应 用 落 地,不 同 行 业隐 私计 算 落地 特点 各 异招标方涉及行业广泛,金融行业占半数以上金融金融55%通信通信17%政务政务13%医疗医疗8%互联网互联网5%能源能源2%不同行业间的建设部署目的分布不同来源:中国信通院,2022来源:中国信通院,2022 根据2019-2022年政府公开招标项目整理,金融、通信、政务、医疗等行业均已进行隐私计算平台招标。不同行业间的招标目的分布不同。金融行业55%的招标项目目的为对内赋能;互联网、通信、医疗、能源行业对外赋能占比均超50%;政务行业双向赋能占比较高。对内赋能:招标方通过隐私计算平台引入外部数据或能力提升内部业务效果 对外赋能:招
26、标方通过隐私计算平台对外输出数据或能力 双向赋能:招标方通过隐私计算平台同时对内、外赋能0%20%40%60%80%100%金融政务互联网通信医疗能源对内赋能双向赋能对外赋能 金融行业招标主要来自银行、证券、保险、金融科技公司等;通信行业招标主要来自运营商;政务行业主要来自政府机构、政府部门、数据中心等;医疗行业主要来自医院、医疗研究所等隐 私 计 算 政 务 主 要 应用 场景|场景算法联合统计联合查询联合建模及预测联合统计安全求交隐匿查询监督模型无监督模型政务数据内部共享精准防疫智慧养老精准扶贫医保控费政务数据对外开放惠民保险社会基层治理普惠金融数据招商数据运营数据公共服务隐私计算在政府场
27、景根据赋能对象不同,主要分为政务数据内部共享、政务数据对外开放、数据运营等场景,共同推动政府、行业、企业之间数据信息资源的应用整合和协同共享。隐 私 计 算 政 务 应 用 逐渐 丰富政务大数据共享开放中,隐私计算发挥巨大作用;应用场景种类丰富,省、市级创新场景突出。通过隐私计算技术搭建政务公共数据密文开放共享交换平台,使得数据在各业务条线之间安全地共享和流通,实现数据共享融合银行、企业等内部数据和政务开放数据基于隐私计算技术实现融合。可应用在众多领域,帮助金融机构评估企业信用。政务数据共享政务数据开放数据提供方:政府、医疗机构、金融机构、运营商等数据使用方:政府、医疗机构、金融机构,核心企业
28、等主要用途:金融风控商业选址健康医疗群租房劳动就业人口迁移2021.62021.62021.92021.92021.9成都市将在全国先行建设基于超算中心的隐私计算平台中山市应用隐私计算打造政府数据开放共享与的统一渠道南京市应用隐私计算建立群租房识别系统国内首个省级政务数据隐私计算平台公共数据隐私计算平台上线2021.11北京国际大数据交易所的数据交易平台系统IDeX上线2021.11多家隐私计算企业成为上海数据交易所首批签约数商珠海市应用多方安全计算首创驾培资金监管新模式政务数据的共享与开放政务数据实践案例显著增多|各 方 积 极 探 索,合 规 路 径 亟 需 形 成 共 识 由于数据处理效果的合规判断规则仍不明确,隐私计算与匿名化之间的适配成为隐私计算合规的关键要点。A完全满足匿名化要求满足“不可复原,不可识别”的要求无需经过授权同意法律意义上的“匿名化”要求尚无可供借鉴的合规红线C仅能满足去标识化仅能实现去标识化,未达到匿名化的标准仍需经过授权同意降低了技术应用的吸引力完全的授权同意实践中很难达到B一定程度上满足匿名化可以满足通常场景应用和技术实践中的匿名化需要根据场景需求,对关键事项获取授权同意合规思路仍处于初期设想阶段,需要实践和监管机构的认可隐私计算合规性非常感谢您的观看|