上海品茶

隐私安全计算的关键技术选型与造价评估问题-李千目.pdf

编号:136470 PDF 67页 3.68MB 下载积分:VIP专享
下载报告请您先登录!

隐私安全计算的关键技术选型与造价评估问题-李千目.pdf

1、隐私安全计算的关键技术选型与造价评估问题李千目目录隐私安全关键技术功能点隐私安全系统的造价评估一二隐私计算及其挑战1从国际上看,数据安全已成为国家博弈的新疆域,数据安全被提升为国家安全。传统的军事威胁、恐怖威胁、政治安全威胁展现出以数据为纽带的趋势,与网络安全其他方式互相交织,与网络战互相关联。攻击渠道通信网络设备后门软件漏洞终端窃取隐私计算及其挑战1隐私计算及其挑战1智慧化应用迅猛发展,导致隐私计算个性化的软件功能需求不断涌现,然而传统的工程造价咨询评估方法对于这一类需求,特别是定制开发的数据隐私保护组件的造价咨询评估并不适用,隐私计算定制造价评估难成为信息化项目建设单位、咨询设计单位、审批

2、单位的一大难题,亟需一种科学的、普适的、易懂的、快速的、有较高可信度的特种造价评估方法。隐私安全的关键技术功能点分类功能点是描述软件功能规模大小的一种标准单元。使用功能点描述软件规模,可以推算软件开发工期、软件开发费用和软件维护费用。功能点法相对于代码行法、人月工时法来讲,更能站在用户视角来评判购买功能模块的价值,随着GB/T36964-2018-软件工程软件开发成本度量规范发布,功能点法软件造价度量方法逐步从国外走进国内。隐私安全的关键技术功能点分类近年来,在信息化建设领域,定制隐私安全的开发造价度量开始从人月法为主逐步转向功能点法为主,我们通常采用IFPUG(国际功能点用户组)功能规模度量

3、方法,根据估算阶段的不同,分为预估功能点法和详细功能点法。隐私安全的关键技术功能点分类根据以上描述,隐私安全系统造价估算分为算量和计价两个部分,算量部分主要是ILF和EIF的认定,计价部分是测算的量乘上相应系数、数值得出软件造价,相对比较明确,存在争议的是ILF和EIF的计量。ILF的计量一般依赖功能点描述的名词(如信息、数据表等),而当一个隐私安全系统价格编制人员故意将功能模块的描述添加“敏感信息、数据混淆表”等名词,或者将一个功能模块故意拆分为类似“人员姓名敏感信息表、出生年月敏感信息表”等多个模块时,对于造价咨询评估人员来说,ILF/EIF的计量认定将存在较大偏差,或者说要准确认定就必须

4、依赖对隐私安全功能需求说明书的研读,时间、精力等产生较大的耗费。隐私安全的关键技术功能点分类另一个方面,在造价咨询评估的专家评审环节,一般来讲各个专家没有时间或精力对被评估隐私安全系统造价进行重新测算,对被评估隐私安全系统造价的偏差估计也并不一致,很难短时间内达成共识,形成一个定制隐私安全开发的控制价,作为概算批复值或招标控制价。故而,快速并相对准确的进行功能点计量,为咨询评估专家组提供备选的隐私安全系统造价参考,最终形成一个造价期望值或招标控制价,就成为造价审批单位、咨询评估的单位的主要痛点和诉求。隐私安全的关键技术功能点分类基于以上两种技术衍生:联邦学习等相关应用技术。隐私安全的关键技术功

5、能点分类11.1隐私计算功能点技术原理隐私计算是保护数据本身不对外泄露的前提下实现数据分析计算的一类信息技术。按技术实现原理将隐私计算领域划分密码学技术:多方安全计算可信硬件:可信执行环境设计特殊的加密算法和协议,基于密码学原理实现在无可信第三方的情况下,在多个参与方输入的加密数据之上直接进行计算。多方安全计算核心思想多方安全计算以交互不可逆的密文数据的方式实现了对数据的安全保护,每个参与方不能得到其他参与方的输入信息,只能得到计算结果。上图为基于多方安全计算的数据流通产品技术架构。数据流通产品技术架构多方安全计算的实现包含多个关键的底层密码学协议或框架,主要包括不经意传输、混淆电路、秘密分享

6、、同态加密等。协议或框架隐私安全的关键技术功能点分类:多方安全计算1也称茫然传输,在数据传输与交互过程中保护隐私。数据发送方同时发送多个消息,而接收方仅获取其中之一。发送方无法判断接收方获取了哪个消息,接收方也对其他消息的内容一无所知。也称秘密分割或秘密共享,一种分而治之的秘密信息管理方案。原理是将秘密拆分成多个分片(Share),每个分片交由不同的参与方管理。只有超过一定门限数量的参与方共同协作才能还原秘密信息,仅通过单一分片无法破解秘密。将计算任务转化为布尔电路并对真值表进行加密打乱等操作以保护输入隐私。利用编程将目标函数转化为布尔电路后,对每一个门输出的真值进行加密,参与方之间在互相不掌

7、握对方私有数据的情况下共同完成计算。在基础加密操作之上直接完成密文数据间运算的加密算法。数据经过同态加密后进行计算得到的结果与用同一方法在明文计算下得到的结果保持一致,即先计算后解密等价于先解密后计算。协议或框架不经意传输秘密分享混淆电路同态加密隐私安全的关键技术功能点分类:多方安全计算1可 信 执 行 环 境隐私安全的关键技术功能点分类:可信执行环境1构建一个独立于操作系统而存在的可信的、隔离的机密空间,数据计算仅在该安全环境内进行,通过依赖可信硬件来保障安全。可信执行环境核心思想最本质属性是隔离,通过芯片等硬件技术并与上层软件协同对数据进行保护,且同时保留与系统运行环境之间的算力共享。右图

8、为基于可信执行环境的数据计算平台技术架构。平台技术架构并不属于“数据可用不可见”,但其通用性高、开发难度低,在通用计算、复杂算法的实现上更为灵活,使得其在数据保护要求不是特别严苛的场景下仍有很多发挥价值的空间。优势隐私安全的关键技术功能点分类:联邦学习1除了前两类隐私计算技术之外,学术界还衍生出了联邦学习、共享学习、知识联邦、联邦智能等一系列旨在解决多方数据联合机器学习的“联邦学习类”技术。联邦学习类技术联邦学习的本质是分布式的机器学习,在保证数据隐私安全的基础上,实现共同建模,提升模型的效果。分布式机器学习联邦学习的目标是在不聚合参与方原始数据的前提下,实现保护终端数据隐私的联合建模。根据数

9、据集的不同类型,联邦学习分为横向联邦学习、纵向联邦学习与联邦迁移学习。上图为基于联邦学习的数据流通产品技术架构。产品技术架构横向联邦学习适用于在特征重合较多,而样本重合较少的数据集。以样本维度(即横向)对数据集进行切分,以特征相同而样本不完全相同的数据部分为对象进行训练。联邦迁移学习适用于数据集间样本和特征重合均较少的场景。不再对数据进行切分,而是利用迁移学习来弥补数据或标签的不足。纵向联邦学习适用于样本重合较多,而特征重合较少的数据集。以特征维度(即纵向)对数据集进行切分,以样本相同而特征不完全相同的数据部分为对象进行训练。隐私安全的关键技术功能点分类:联邦学习1ABC由于技术路径的不同,各

10、类隐私计算技术均有其更适用的场景:隐私安全的关键技术功能点分类1技术主要对比多方安全计算技术不依赖硬件且具备较高的安全性,但是仅支持一些相对简单的运算逻辑;可信执行环境技术具备更好的性能和算法适用性,但是对硬件有一定依赖;联邦学习技术则可以解决复杂的算法建模问题,但是性能存在一定瓶颈。基于既有案例功能模块清单的整理、提炼,创建隐私安全系统典型热词库、数据安全软件专题库、隐私安全模块案例库等;第一步针对每一项热词结合功能点法确定标准的内部逻辑文件(ILF)、外部接口文件(EIF)参考取值,并给出赋值变动权重以及辅助取值的说明;根据隐私安全系统特点,给出一系列典型处理功能模块列表,并预置功能点度量

11、参考,以及不同条件下度量数值变动的帮助;搜集通用软件模块清单及其度量案例,作为快速功能点度量的参考,命中精准度更高;本方法相较于传统基于软件功能说明书语义识别的方式更为简便,对文档格式要求不高。第二步本方法基于功能点快速度量方法,结合隐私安全系统研发实际,形成一套造价评估方法,期望能够科学、快速、准确的对隐私安全功能模块进行测算,解决数据安全类系统造价难估算的问题。其整体流程如下:评估流程根据隐私安全系统所列各功能模块,基于对功能模块关键词的分析,比对库中热词库得出基本ILF、EIF赋值,并参考专题库、案例库中类似功能模块度量结果,快速得出本模块的ILF、EIF赋值,结合调整系数计算功能点度量

12、值,并根据当地最新安全系统开发人员工资水平等测算软件功能模块造价;第三步采用2人同时模块清单功能点法快速度量的方式重复第三步,得出2个造价估算结果P1、P2;第四步本方法基于功能点快速度量方法,结合隐私安全系统研发实际,形成一套造价评估方法,期望能够科学、快速、准确的对隐私安全功能模块进行测算,解决数据安全类系统造价难估算的问题。其整体流程如下:评估流程将得出的结果P1、P2以及评估软件估/概算值Pg,求算术平均值Pj,得出一组共4个数值;第五步主观方法求权,即将该组数值同时交付3个以上评估专家,每个专家采用优化的0-4评分法独立对Pg、P1、P2、Pj进行评分,最有可能得4分,最不可能的得0

13、分,其余值得2分,汇总后根据修正后得分,计算Pg、P1、P2、Pj权重;第六步客观方法求权,即采用均方差方法自动计算权重,偏离度越大的数值权重越小;第七步本方法基于功能点快速度量方法,结合隐私安全系统研发实际,形成一套造价评估方法,期望能够科学、快速、准确的对隐私安全功能模块进行测算,解决数据安全类系统造价难估算的问题。其整体流程如下:评估流程Pg、P1、P2、Pj乘各自主观/客观权重后,得出主观/客观方法计算的招标控制价(造价期望值)Pq,反馈至专家组确认。第八步本方法基于功能点快速度量方法,结合隐私安全系统研发实际,形成一套造价评估方法,期望能够科学、快速、准确的对隐私安全功能模块进行测算

14、,解决数据安全类系统造价难估算的问题。其整体流程如下:评估流程在提高速度和实用性方面,本方法采用类似定额套用模式,通过3个库中既有模块ILF、EIF赋值定额,及适用情况说明,辅助进行造价快速估测,对人员要求较低,对提供的软件需求说明书格式要求不高,有软件功能模块清单即可。在提供准确度方面,本方法采用关键词与创建的隐私安全模块功能点库的比对,通过关键词频率,结合行业相关度标签、场景标签、创建人标签加权得出赋值概率(搜索赋值频次/总命中数,备注中标签与本模块一致的,加权取值,概率变高);本方法相对于语义识别方法成本低,不依赖需求说明书。隐私安全功能点库1基于限制发布基于数据加密基于数据失真隐私安全

15、功能点2基于限制发布的技术有选择地发布原始数据、不发布或者发布精度较低的敏感数据,实现隐私保护。主要集中于“数据匿名化”(Data Anonymization)代表性技术包括:k-anonymity、l-diversity、t-closeness基于限制发布的技术:根据具体情况有条件地发布数据。如不发布数据的某些域值,数据泛化(Generalization)等。隐私安全功能点库:基于限制发布1基于限制发布2022/11/2824“数据匿名化”(Data Anonymization)核心步骤:抑制泛化某数据项,亦即不发布该数据项。是对数据进行更概括、抽象的描述。譬如,对整数5的一种泛化形式3,6

16、,因为5在区间3,6之内。标识符准标识符能唯一标识单一个体的属性,如身份证号码、社保号等。联合起来能唯一标识一个人的多个属性,如邮编、生日、姓名、性别等联合起来则可能是准标识符。“数据匿名化”(Data Anonymization)数据表属性分类:敏感属性包含隐私数据的属性,如疾病、薪资等。隐私安全功能点库:基于限制发布12022/11/2825ID年龄地区邮编健康状况127USA14248HIV228Canda14207HIV326USA14246Cancer425Canda14249Cancer541China13053Hepatitis648Japan13074Phthisis745In

17、dia13064Asthma842India13062Heart disease933USA14242Flu1037Canda14204Flu1136Canda14205Flu1235USA14248Indigestion数据匿名化举例-原始数据:ID为标识符年龄、地区和邮编为准标志符健康状况为敏感信息表2.1 原始数据隐私安全功能点库:基于限制发布12022/11/2826k-anonymity 的目的是保证公开的数据中包含的个人信息至少k-1 条不能通过其他个人信息确定出来。也就是公开数据中的任意quasi-identifier信息,相同的组合都需要出现至少k 次。2-anonymizat

18、ion隐私安全功能点库:基于限制发布12-匿名化并不安全。一致性攻击举例:攻击者如果知道Rick年龄在27,地 区 是 加 拿 大,邮 编14207,就 可 以 知 道 Rick 得 了HIV。2022/11/2827ID年龄地区邮编健康状况130America142*HIV230Canada142*HIV330America1424*Cancer440Asia130*Hepatitis640Asia130*Phthisis740Asia130*Asthma840Asia130*Heart disease93*America1424*Flu103*America142*Flu113*Ameri

19、ca142*Flu123*America1424*Indigestion表2.2 经2-匿名化的数据隐私安全功能点库:基于限制发布12-匿名化数据:为 了 防 止 一 致 性 攻 击,Machanavajjhala等提出了新的隐私保护模型l-diversity,改进了k-匿名模型。新模型保证任意一个等价类中的敏感属性都至少有l个不同的值。2-sensitive 4-匿名化:2022/11/2828ID年龄地区邮编健康状况130America142*HIV230America142*HIV330America142*Cancer440Asia130*Hepatitis640Asia130*Pht

20、hisis740Asia130*Asthma840Asia130*Heart disease93*America142*Flu103*America142*Flu113*America142*Flu123*America142*Indigestion表2.3 经过2-sensitive 4-匿名化的数据隐私安全功能点库:基于限制发布12022/11/2829敏感组ID敏感属性值集合敏感度敏感属性值OneHIV,CancerTop secret0TwoPhthisis,HepatitisSecret1ThreeHeart disease,AsthmaLess secret2FourFlu,Ind

21、igestionNon secret3表2.4 敏感属性分组在 准 标 识 符 构 成 的 K-anonymity等价类中,至少有p个不同的敏感值,并且每个等价类权值总和都超过了,则满足(p,)-sensitive k-anonymity模型该模型将健康状况按敏感属性值的隐私程度进行分类排序,并进行赋值,得到的敏感属性分组隐私安全功能点库:基于限制发布1(p,)-sensitive k-匿名化:2022/11/2830定义D(S)表示等价类的数目,定义等价类Si 和Sj(权值越小越敏感)之间的距离:K 表示等价类的数目,S1表示最为敏感的数据,Si 权重计算方式如右:隐私安全功能点库:基于限制

22、发布1(p,)-sensitive k-匿名化:2022/11/2831ID年龄地区邮编健康状况权重总计130America142*HIV01230America142*HIV0330America142*Cancer0440Asia130*Hepatitis1/32640Asia130*Phthisis1/3740Asia130*Asthma2/3840Asia130*Heart disease2/393*America142*Cancer03103*America142*Flu1113*America142*Flu1123*America142*Indigestion1表2.5 经过(3,

23、1)-sensitive 4-匿名化的数据隐私安全功能点库:基于限制发布1在上表中,至少有个3准标识符所构成的分组权值总和都超过了1(),每个组至少有个3(p)个不同的 敏 感 值,因 此 满 足(3,1)-sensitive 4-anonymity模型。定义:在准标识符构成的K-anonymity等价类中,至少有p个不同的敏感值,并且每个等价类权值总和都超过了,则满足(p,)-sensitive K-anonymity模型。(3,1)-sensitive 4-匿名化:2022/11/2832经过(2+,2)-sensitive 4-匿名化的数据ID年龄地区邮编健康状况敏感组ID总计140Am

24、erica142*HIVOne2440America142*CancerOne940America142*FluFour1240Asia130*HepatitisThree2640Asia130*PhthisisTwo740Asia130*AsthmaThree840Asia130*Heart diseaseThree240America142*HIVOne3340America142*CancerOne1040America142*FluFour11 logl,那么所发布的数据满足基于熵的l-diversity,其中熵定义为:基于熵的基于熵的l l-diversitydiversity:P(

25、E,s)为等价类E中敏感属性值为s的记录的百分比,熵越大,表示等价类的敏感属性值分布越均匀,攻击者揭露个人的隐私就越困难。2022/11/2834隐私安全功能点库:基于限制发布1t-Closeness在l-diversity的基础上,要求所有等价类中敏感属性的分布尽量接近该属性的全局分布。定义P和Qi分别为各敏感值的全局分布和等价类Ci中的分布,其中P=a,且Qi=q1,q2,qm,对任意等价类Ci,如果DP,Qit,则发布的数据满足t-Closeness,其中,阈值t 0,1,其中的距离计算公式为:t t-ClosenessCloseness也可以通过KL距离DP,Qi 进行计算。2022/

26、11/2835隐私安全功能点库:基于限制发布1定义ri为等价类中敏感属性值的个数,将其降序排列,构成r1,r2,rm,如果每个等价类都满足r1 c(rl+1+rl+2+rm),则发布的数据满足递归的(c,l)-diversity。(c,l)-diversity保证了等价类中频率最高的敏感属性值不至于出现频度太高,很显然1-diversity 总能满足递归的diversity。(c,(c,l l)-diversitydiversity2022/11/2836目前已广泛应用的k-匿名算法是Incognito。该算法首先构建包含所有全域泛化(full-domain generalization)方案

27、的泛化图(generationgraph)然后自底向上对原始数据进行泛化,每次选取最优泛化方案前,预先对泛化图进行修剪以缩小搜索范围,不断进行以上操作直到数据满足k-匿名原则不足:该方法容易过度泛化而产生大量的信息损失最优数据匿名问题(即在实现对敏感属性匿名保护的同时,使得信息损失最小化)是NP问题。Incognito算法隐私安全功能点库:基于限制发布12022/11/2837动态环境下保护隐私的匿名化原则m-Invariance,即假设T*(1),T*(2),T*(n)是在动态环境下先后发布的一系列数据,称这一系列发布的数据满足m-Invariance匿名化原则,当且仅当同时满足两个条件:(

28、1)对i时刻发布的数据T*(i),其每一个等价类中都至少有m条记录且这些记录都有不同敏感属性值;(2)如果某条记录出现在不同时刻的多次发布中,那么每一次发布这条记录所在的等价类包含的敏感属性值形成的集合须相等。条件(1)保证了每个时刻发布的数据的隐私披露风险不会高于1/m,同时两个条件联合起来保证攻击者利用多次发布的数据进行攻击时,不会披露新增加和已经减少的数据的隐私。m-Invariance隐私安全功能点库:基于限制发布12022/11/2838隐私安全功能点库:基于限制发布1匿名化算法的适用性囿于攻击者掌握背景知识量的控制,需要不断的改进。改进后又有新的攻击方法出现,使得基于k-匿名的传统

29、隐私保护模型陷入这样一个无休止的循环中。从根本上来说,传统隐私保护模型的缺陷在于对攻击者的背景知识和攻击模型都给出了过多的假设。但这些假设在现实中往往并不完全成立,因此攻击总是能够找到各种各样的攻击方法来进行攻击。匿名化算法缺陷隐私安全功能点库1基于限制发布基于数据加密基于数据失真隐私数据保护1.22022/11/2840隐私安全功能点库:基于数据加密1在基于数据加密的隐私保护方法中,通过密码机制实现了他方对原始数据的不可见性以及数据的无损失性,既保证了数据的机密性,又保证了数据的隐私性。加密方法中使用最多的是同态加密技术和安全多方计算。基于数据加密的技术基于数据加密的技术:采用加密技术在数据

30、挖掘过程中隐藏敏感数据的方法。多用于分布式应用环境中,如安全多方计算(Secure Multiparty Computation,SMC)。2022/11/2841隐私安全功能点库:基于数据加密1加密机制的优点在于加密算法保证了数据的隐私性和准确性。因为利用同态加密技术的同态性质,可以在隐私数据加密的情况下对数据进行处理,既保证了数据的隐私性,又保证了数据处理结果的准确性。但该类方法在现有的隐私保护技术中得到了广泛的应用,不足之处是其算法复杂度通常要高于其他基于共享密钥的加密技术,也高于一般的扰乱技术,计算延时长,且资源消耗较多。用于隐私保护的加密机制一般都基于公钥密码体制(如同态加密技术等)

31、。基于数据加密技术评述隐私安全功能点库1基于限制发布基于数据加密基于数据失真隐私数据保护1.22022/11/2843隐私安全功能点库:基于数据失真1基于数据失真的技术通过添加噪音等方法,使敏感数据失真但同时保持某些数据或数据属性不变,仍然可以保持某些统计方面的性质。第一种是随机化技术(随机化方法、随机化应答),即对原始数据加入随机噪声,然后发布扰动后数据的方法,第二种是阻塞与凝聚,阻塞是指不发布某些特定数据的方法,凝聚是指原始数据记录分组存储统计信息的方法;第三类是差分隐私保护。基于数据失真的技术基于数据失真(Distorting)的技术:使敏感数据失真但同时保持某些数据或数据属性不变的方法

32、。例如,采用添加噪声(Adding Noise)、交换(Swapping)等技术对原始数据进行扰动处理,但要求保证处理后的数据仍然可以保持某些方面的性质,以便进行数据挖掘等操作。2022/11/2844隐私安全功能点库:基于数据失真1随机化方法随机化方法是一种为集中式数据进行隐私保护数据挖掘的重要方法。该方法的基本思想是通过对数据增加噪音,使得原数据集的分布概率能够保留下来,而每条记录信息很难恢复,以此达到隐私保护的目的添加随机噪音2022/11/2845隐私安全功能点库:基于数据失真1随机化方法的更精准描述考虑一个数据记录集X,对于每个记录xiX,为其增加一个服从概率分布fY(y)产生的噪音

33、。这些噪音都是相互独立的,且被标记为y1,yN。因此,修改以后的的记录为x1+y1 xN+yN,我们用z1,zN来代表它们。通常来说,如果假设增加的噪音的方差足够大,那么从修改后的数据集中很难猜测原数据集。因此,原记录不能被恢复,但是原纪录的分布特性却能够被恢复。我们注意到X加上Y生成了一个新的分布Z。我们知道这个新分布的N个实例,所以可以大体估计出这个新分布。此外,因为Y分布被公布于众,我们能够从Z中减去Y估计得到原记录的分布。2022/11/2846隐私安全功能点库:基于数据失真1随机化方法的核心问题在目前的研究中,有两种重建算法,一种是贝叶斯重建方法,另一种是EM重建方法另一个寻求目标是

34、一个关键的问题是怎样的随机化处理能够更好的平衡隐私保护和数据精确度。在同样的隐私保护程度下,越高精度的随机数据将拥有更高的使用效能。如何重构(恢复原始数据集)隐私性和可用性平衡2022/11/2847隐私安全功能点库:基于数据失真1乘法扰动定义:即在原数据上乘以随机向量(噪音)来生成最终要发布的数据。设计原则:保护挖掘事项和特定模型下的数据特性不变,这对提供更有保障的隐私性和模型精确性是非常关键的;较好的数据扰动是:一方面能够有效地保护特定模型下的数据利用信息,另一方面又能避免使用到那些需要用到扰动的数据作为随机噪音的挖掘算法;如果能够开发一种数据扰动技术,这种技术不会导致任何挖掘事项/特定模

35、型数据利用的降低,我们就能集中精力优化扰动算法,通过最大化数据隐私来防止攻击,最终将会为数据隐私和数据利用两方面带来质的飞跃。乘法扰动可以分为以下三类旋转扰动、投影扰动、几何扰动。加法扰动(前述)乘法扰动(定义、设计原则、分类)随机化方法的扰动策略旋转扰动一般被定义为如下公式:G(X)=RX 其中矩阵是一个标准正交矩阵,即R满足,同时交换标准正交阵行和列的顺序,结果仍为标准正交阵。这种扰动最大的特点是能够保持多维点之间的欧式距离不变,即有类似的,内积在旋转以后也能够保持不变,即=xTRTRy=另外,旋转也同时保证了如超平面在多维空间中的超曲面等几何形状不变,这对于许多基于几何边界的分类器来说是

36、非常有益的。一方面,我们可以把这种旋转扰动应用在整个数据集上,另一方面,我们也可以把其应用在一组属性上,对于不同组的属性可以使用不同的旋转扰动。2022/11/2848隐私安全功能点库:基于数据失真1随机化方法的乘法扰动旋转扰动2022/11/2849投影扰动是指把一个高维空间中的数据集投影到一个随机的低维空间的子集中。设Pk*d是一个投影矩阵,那么该扰动被定义为G(X)=PX。使用这种扰动时,根据Johnson-Lindenstrauss定理得知,我们总能找到一个较好的投影矩阵使得特定的数据集在扰动前后保持欧式距离不变,但是其几何边界可能并不能被保留。隐私安全功能点库:基于数据失真1随机化方

37、法的乘法扰动投影扰动2022/11/2850几何扰动是对旋转扰动的一种改进,它在旋转扰动基础上增加了如随机平移扰动和噪音等新元素。假设td*1是一个随机向量,是一个平移矩阵当且仅当 =t,t,t d*n。从定义上可以看出,平移扰动并不会改变任意点对x 和y之间的距离;相比旋转扰动,增加平移扰动能够保护旋转中心不被攻击。但是,平移扰动并不能保留内积。另外,通过增加一定程度的噪音,因为噪音的增加对距离进行了扰动,这样能够更有效的防止攻击者通过距离信息来重建数据。隐私安全功能点库:基于数据失真1随机化方法的乘法扰动几何扰动2022/11/2851总的来说,旋转扰动和几何扰动两者都维持了原数据集的维度

38、不变,而投影扰动减少了原数据集的维度,也因此造成了不能保留欧氏距离和内积等方面的问题。隐私安全功能点库:基于数据失真1随机化方法的乘法扰动几何扰动2022/11/2852随机化方法评述随机化方法最显著的优点是简单不论是使用随机化方法中的加法策略还是乘法策略把噪音添加到原记录上,它们都是独立于数据的方法,这与其他方法(如k-匿名)中记录的行为会受到匿名化过程的影响不同。这个特点在实际应用中非常有用,因为这允许随机化处理能够在数据收集阶段进行。因此,不再需要一个可信的服务器去对数据进行保存和变换。随机化方法的缺点随机化方法并不能保证发布的信息不被重新识别,主要原因是随机化方法以一种平等的、不考虑其

39、原数据集分布的方式对待所有记录。因此,对于处在分布密集区的数据,被扰动处理后的数据会比原数据更容易受到攻击。随机化方法的另一个特点是原数据集在被处理之后将不再被使用,数据挖掘的算法通过使用数据扰动后保留下来的有关聚集信息(而不是原始数据)进行挖掘。隐私安全功能点库:基于数据失真12022/11/2853阻塞与凝滞随机化技术一个无法避免的缺点是:针对不同的应用都需要设计特定的算法对转换后的数据进行处理。Agarwal等人提出了凝聚技术:它将原始数据记录分成组,每一组内存储由k条记录产生的统计信息,包括每个属性的均值、协方差等。只要是采用凝聚技术处理的数据,都可以用通用的重构算法进行处理,并且重构

40、后的记录并不会披露原始记录的隐私,因为同一组内的k 条记录是两两不可区分的隐私安全功能点库:基于数据失真1差分隐私保护差分隐私就是用一种方法使得查询100 个信息和查询其中99 个的信息得到的结果是相对一致的,那么攻击者就无法通过比较(差分)数据的不同找出第100 个人的信息。这种方法就是加入随机性。如果查询100 个记录和99 个记录,输出同样的值的概率是几乎差不多的,攻击者就无法进行差分攻击。隐私安全功能点库:基于数据失真12022/11/2854差分隐私保护技术2022/11/2855隐私保护技术差分隐私保护技术右图中D1 和D2,他们只有一条记录不一致,在攻击者查询“20-30岁之间有

41、多少人偏好购买电子产品”的时候,对于这两个数据库得到的查询结果是100 的概率分别是99%和98%,他们的比值小于某个数。如果对于任意的查询,都能满足这样的条件,我们就可以说这种随机方法是满足-差分隐私的。因为D1 和D2 是可以互换的隐私安全功能点库:基于数据失真12022/11/2856差分隐私保护技术差分隐私(Differential Privacy,DP)能够解决传统隐私保护模型的两大缺陷:(1)定义了一个相当严格的攻击模型,不关心攻击者拥有多少背景知识,即使攻击者已掌握除某一条记录之外的所有记录信息(即最大背景知识假设),该记录的隐私也无法被披露;(2)对隐私保护水平给出了严谨的定义

42、和量化评估方法。差分隐私基于其优点,一经出现便受到理论计算机科学、数据库、数据挖掘和机器学习等多个领域的关注。隐私安全功能点库:基于数据失真12022/11/2857差分隐私保护技术设有随机算法M,PM为M所有可能的输出构成的集合。对于任意两个临近数据集D 和D以及PM 的任何子集SM,若算法M 满足:则称算法M 满足差分隐私保护,其中参数称为隐私保护预算。其中,概率Pr由算法M的随机性控制,也表示隐私被披露的风险;隐私保护预算表示隐私保护程度,越小隐私保护程度越高。隐私安全功能点库:基于数据失真12022/11/2858如图所示,算法M通过对输出结果的随机化来提供隐私保护,同时通过参数来保证

43、在数据集中删除任一记录时,算法输出同一结果的概率不发生显著变化。图 临近数据集D和D的差分隐私披露风险曲线差分隐私保护技术隐私安全功能点库:基于数据失真12022/11/2859图 Laplace噪音密度函数差分隐私实现机制Laplace机制给定数据集D,设有函数f:DRd,其敏感度为f,那么随机算法M(D)f(D)Y提供-差分隐私保护,其中YLap(f/)为随机噪声,服从尺度参数为f/的Laplace分布。隐私安全功能点库:基于数据失真1Laplace机制:适用于对数值型结果的保护指数机制:适用于非数值型结果2022/11/2860加入的噪声与f的值成正比、与成反比,即f较小时,算法表现较好

44、,因为加入的噪声较少。当减小时,Lap(f/)的曲线变得扁平,意味着噪声幅度的预期变大;当固定,高敏感度的函数f对应的曲线更扁平,同样会使噪声幅度的预期变大,如图所示。从图中可看成,越小,加入的噪声越多,隐私保护的级别越高。因此可以通过设置不同的值来实现隐私保护等级的划分。差分隐私实现机制隐私安全功能点库:基于数据失真1Laplace机制:适用于对数值型结果的保护指数机制:适用于非数值型结果图 Laplace噪音密度函数针对非数值输出结果提出了指数机制。设随机算法M输入为数据集D,输出为一实体对象rRange,q(D,r)为可用性函数,q为函数q(D,r)的敏感度若算法M以正比于的概率从Ran

45、ge中选择并输出r,那么算法M提供-差分隐私保护。2022/11/2861差分隐私实现机制隐私安全功能点库:基于数据失真1Laplace机制:适用于对数值型结果的保护指数机制:适用于非数值型结果2022/11/2862差分隐私保护评述差分隐私保护与传统隐私保护方法的不同之处在于,其定义了一个极为严格的攻击模型,并对隐私泄露风险给出了严谨、定量化的表示和证明。差分隐私保护方法的最大优点是,虽然基于数据失真技术,但所加入的噪声量与数据集大小无关,因此对于大型数据集,仅通过添加极少量的噪声就能达到高级别的隐私保护。差分隐私在数据发布过程中对任何个人敏感数据参与发布过程所招致的风险进行了定量的控制,从

46、而使任何攻击者都无法从发布结果推断出任何单个参与者的敏感信息。差分隐私保护是一种通用、灵活、具有坚实的数学理论支撑的隐私保护方法,可以用来解决很多传统密码学不适合甚至不可行的问题,近年引起越来越多研究者的兴趣,焕发出了强大的生命力,并取得了飞速的发展。隐私安全功能点库:基于数据失真12022/11/2863现有差分隐私保护是针对静态数据集的发布,未考虑数据动态变化时带来的挑战。在实际应用中的数据通常随时间动态演化;另外,目前越来越多的应用涉及到大数据,大数据分析的最大障碍是数据隐私问题。在某种程度上,隐私不可怕,可怕的是用户的行为可以通过大数据分析被预测出;最后,分布式隐私保护是隐私保护领域的

47、一个重要分支,它研究互不信任的多个实体如何对信息进行共享而不泄露自己的隐私信息,因此这些方向的差分隐私保护技术将成为研究的进一步发展方向。差分隐私保护评述隐私安全功能点库:基于数据失真1优点缺点代表技术基准典型应用基于数据失真的隐私保护技术计算开销小实现简单数据失真严重依赖于数据,不同数据需设计不同的算法随机扰动随机化回答阻塞凝聚差分隐私各种数据挖掘操作,如关联规则挖掘关联规则隐藏决策树分类器构建等基于数据加密的隐私保护技术数据真实、无缺损高隐私保护度计算开销、通信开销大部署复杂,实际应用难度较高SMC分布式下实现隐私保护的关联规则挖掘算法、数据匿名化算法等分布式下的各种数据挖掘与发布操作,如

48、分布式关联规则挖掘分布式数据匿名发布分布式聚类分布式安全计算等数据匿名化适用于各类数据、众多应用。算法通用性高能保证发布数据的真实性实现简单存在一定程度的数据缺损存在一定程度的隐私泄露实现最优化的数据匿名开销较大匿名化原则:k-匿名l-diversitym-invariance匿名化算法:MondrianIncognitor-cellular发布匿名化数据,基于发布的数据可进行各类数据挖掘操作,如关联规则挖掘决策树分类器构建等聚类等差分隐私保护技术通用,灵活,有 坚实数学理论支撑添加的噪音量与数据集大小无关,仅添加极小量的噪音量就能达到高级别的隐私保护算法复杂度目前较高定量地度量差分隐私保护强

49、度是非常困难交互式MedianPMWK-normIDC非交互式批查询列联表基于分组净化数据集接口模式和完全访问模式发布匿名化数据,基于发布的数据可进行各类数据挖掘操作,如ID 3k-menas聚类频繁项集2022/11/2864隐私保护技术的对比分析隐私安全功能点库:隐私保护技术技术对比分析1将该组数值同时交付3个以上评估专家,每个专家采用优化的0-4评分法独立对Pg、P1、P2、Pj进行评分,最有可能得4分,最不可能的得0分,其余值得2分,为避免某一数值为0,汇总后均加1进行修正后求和,采用相除的方式计算Pg、P1、P2、Pj权重,4个权重之和为1;Pg、P1、P2、Pj乘各自主观/客观权重后,得出主观/客观方法计算的招标控制价(造价期望值)Pq;经置信区间及回归分析测算验证后,计算结果反馈至专家组商确认。主观方法求权在提高可信度方面,引入模块清单功能点快速度量方法后,造价咨询评估由传统的1个单一估值,变为1+2(双人快速估价)供专家组参考;同时引入科学的权重赋值方法,解决赋权的随意性问题。得出的结果通过置信区间测算,与主观赋权结论交叉验证,更为科学合理可信。如图所示。2.主观方法求权主观方法求权谢 谢!

友情提示

1、下载报告失败解决办法
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。

本文(隐私安全计算的关键技术选型与造价评估问题-李千目.pdf)为本站 (2200) 主动上传,三个皮匠报告文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三个皮匠报告文库(点击联系客服),我们立即给予删除!

温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。
客服
商务合作
小程序
服务号
会员动态
会员动态 会员动态:

136**12... 升级为标准VIP  137**24... 升级为标准VIP 

 理**... 升级为标准VIP  wei**n_...  升级为标准VIP

wei**n_...  升级为至尊VIP 135**12...  升级为标准VIP

wei**n_...  升级为至尊VIP wei**n_...  升级为标准VIP

 特** 升级为至尊VIP  138**31... 升级为高级VIP

wei**n_...   升级为标准VIP wei**n_...  升级为高级VIP

 186**13... 升级为至尊VIP 分**  升级为至尊VIP

set**er 升级为高级VIP  139**80... 升级为至尊VIP

 wei**n_... 升级为标准VIP wei**n_... 升级为高级VIP 

 wei**n_... 升级为至尊VIP 一朴**P...  升级为标准VIP 

 133**88... 升级为至尊VIP wei**n_...  升级为高级VIP

  159**56... 升级为高级VIP 159**56...   升级为标准VIP

升级为至尊VIP 136**96... 升级为高级VIP 

wei**n_... 升级为至尊VIP   wei**n_...  升级为至尊VIP

 wei**n_... 升级为标准VIP 186**65... 升级为标准VIP 

 137**92... 升级为标准VIP   139**06... 升级为高级VIP

 130**09... 升级为高级VIP wei**n_... 升级为至尊VIP 

wei**n_...  升级为至尊VIP wei**n_...  升级为至尊VIP

wei**n_... 升级为至尊VIP    158**33... 升级为高级VIP

  骑**... 升级为高级VIP wei**n_...  升级为高级VIP

wei**n_... 升级为至尊VIP  150**42... 升级为至尊VIP

185**92...  升级为高级VIP  dav**_w...  升级为至尊VIP

zhu**zh...  升级为高级VIP  wei**n_...  升级为至尊VIP

136**49... 升级为标准VIP   158**39... 升级为高级VIP

wei**n_...  升级为高级VIP    139**38... 升级为高级VIP

159**12... 升级为至尊VIP  微**... 升级为高级VIP 

185**23...   升级为至尊VIP wei**n_...  升级为标准VIP 

152**85... 升级为至尊VIP    ask**un 升级为至尊VIP

136**21... 升级为至尊VIP   微**... 升级为至尊VIP

135**38...  升级为至尊VIP 139**14...  升级为至尊VIP

138**36... 升级为至尊VIP  136**02... 升级为至尊VIP

 139**63... 升级为高级VIP  wei**n_... 升级为高级VIP 

Ssx**om 升级为高级VIP  wei**n_...  升级为至尊VIP

 131**90...  升级为至尊VIP 188**13... 升级为标准VIP 

 159**90... 升级为标准VIP  风诰   升级为至尊VIP

182**81...  升级为标准VIP   133**39... 升级为高级VIP 

  wei**n_... 升级为至尊VIP  段** 升级为至尊VIP

 wei**n_... 升级为至尊VIP  136**65... 升级为至尊VIP

 136**03... 升级为高级VIP   wei**n_... 升级为标准VIP

 137**52... 升级为标准VIP  139**61...  升级为至尊VIP

微**...  升级为高级VIP  wei**n_... 升级为高级VIP

188**25...  升级为高级VIP   微**... 升级为至尊VIP

 wei**n_... 升级为高级VIP   wei**n_... 升级为标准VIP 

wei**n_... 升级为高级VIP   wei**n_... 升级为标准VIP

 186**28... 升级为标准VIP 微**... 升级为至尊VIP  

wei**n_... 升级为至尊VIP   wei**n_... 升级为高级VIP 

189**30...  升级为高级VIP 134**70... 升级为标准VIP 

185**87...  升级为标准VIP  wei**n_...  升级为高级VIP 

wei**n_... 升级为至尊VIP  微**...   升级为至尊VIP

wei**n_... 升级为标准VIP  wei**n_...   升级为至尊VIP