上海品茶

您的当前位置:上海品茶 > 报告分类 > PDF报告下载

大数据交易与处理中的数据脱敏技术研究(2019)(26页).pdf

编号:82907 PDF 26页 1.73MB 下载积分:VIP专享
下载报告请您先登录!

大数据交易与处理中的数据脱敏技术研究(2019)(26页).pdf

1、荆 继 武商业脱敏系统方案基于加密的数据脱敏基于失真的数据脱敏数据脱敏指标数据脱敏的有效性从可逆性体现,数据方法可通过变换参数和变换偏移值体现数据属性可逆性部分知识可逆不可逆变换参数绝对值相对值偏移值常量随机值数据脱敏的有效性从可逆性体现,数据方法可通过变换参数和变换偏移值体现数据属性可逆性部分知识可逆不可逆变换参数绝对值相对值偏移值常量随机值得知部分初始数据、或可逆的脱敏方法、或脱敏使用的伪随机数生成器及种子,可推演出原始数据例:yi=xi+constantyi=f(xi)yi=xi+random_number数据脱敏的有效性从可逆性体现,数据方法可通过变换参数和变换偏移值体现数据属性可逆性

2、部分知识可逆不可逆变换参数绝对值相对值偏移值常量随机值参与变换的数值与原始数值相关,比如为原始数据的百分比参与变换的数值与原始数据无关数据脱敏的有效性从可逆性体现,数据方法可通过变换参数和变换偏移值体现数据属性可逆性部分知识可逆不可逆变换参数绝对值相对值偏移值常量随机值 最终用户关注数据的聚合结果,不关注个体数据 聚合结果:患某种疾病的人数 个体数据:某个病人患该疾病 问题:提取聚合结果的时候可能披露个体数据 患某种疾病的人数为N 病人名字不为A,患某种疾病的病人的人数为M 基于失真的数据脱敏技术:在破坏个体隐私数据的基础上,不影响数据的聚合结果 阻塞 随机化 对原始数据不引入虚假噪声,仅泛化

3、处理对原始数据不引入虚假噪声,仅泛化处理 典型方法典型方法1 1:离散化:离散化 属性值被离散化到各个区间 区间大小不能等长 使用区间作为属性来参与运算 如:张三的年龄为25岁,使用区间20,30表征张三的年龄 典型方法典型方法2 2:使用“:使用“?”替代数据中的某些属性”替代数据中的某些属性 同一区间内的值表征形式一致,脱敏后聚合准确率低 不同应用需要设计特定算法对处理后的数据进行处理 随机化随机化 实际数据:实际数据:x xi i 使用使用x xi i+r+r,r r是符合某个分布的随机值是符合某个分布的随机值 均匀分布均匀分布r 均匀分布于-,+,平均值为0 高斯分布高斯分布r 符合高

4、斯分布 均值(r)为0 标准方差为高斯分布均匀分布概率x定义:原始数据值:x1,x2,xn 随机失真变量:y1,y2,yn 失真样本:x1+y1,x2+y2,xn+ynFY:随机失真变量yi的累计分布函数CDFFX:原始数据值xi的累计分布函数CDF重构问题:给定失真样本(x1+y1,xn+yn),FY 估算FX 使用贝叶斯定律运算FX:1.初始化f(x,0):均匀分布2.自j=0到终止条件3.根据f(x,j)和 FY计算f(x,j+1)4.满足条件终止,得到 FX终止条件:1.计算f(x,j).2.当f(x,j+1)与f(x,j)之间的差值非常小时实验结果表明:重构后的数据分布与原始数据分布

5、基本一致,即使随机数据样本分布与原始数据相差甚远 通过添加随机噪声扰乱失真敏感数据 随机数必须随机!分布必须准确!原始值未知,以保护数据敏感信息 数据脱敏后,能够准确获得聚合分类结果(支持决策树等)有实验认为:在高置信度的情况下,高斯分布的随机噪声比均匀分布效果好 其他相关研究 期望最大化(Expectation Maximization)算法 同态加密算法:A way to delegate processing of your data,without giving away access to it.(Craig Gentry)他人可对加密数据进行处理,但处理过程中不会泄露原始数据 基于

6、同态加密的数据脱敏技术:用户将数据进行同态加密后,提交给数据中心存储 数据中心需要对数据进行分析处理时,可在不知道用户数据的前提下正确处理数据 同态加密算法:A way to delegate processing of your data,without giving away access to it.(Craig Gentry)他人可对加密数据进行处理,但处理过程中不会泄露原始数据 基于同态加密的数据脱敏技术:用户将数据进行同态加密后,提交给数据中心存储 数据中心需要对数据进行分析处理时,可在不知道用户数据的前提下正确处理数据 密钥生成:key 加密函数:加密用户数据,生成密文 评估函数

7、:在给定数据处理函数f下,对密文进行操作,使得结果相当于用户用密钥key对f(data)进行加密 解密函数:用于获取处理结果f(data)C=Encrypt(key,data)Function f()C=f(C)=Encrypt(key,f(data)f(data)=Decrypt(key,C)全同态加密:支持任意给定的数据处理函数f,脱敏后的数据可满足任意数据处理需求 开销大,难以满足实际应用 部分同态加密:支持特定的数据处理函数f,即脱敏后的数据只能满足特定的数据处理需求 开销小,易实现,已可在实际应用中使用 全同态加密:支持任意给定的数据处理函数f,脱敏后的数据可满足任意数据处理需求 开

8、销大,难以满足实际应用 部分同态加密:支持特定的数据处理函数f,即脱敏后的数据只能满足特定的数据处理需求 开销小,易实现,已可在实际应用中使用 IBM IBM InfoSphereInfoSphere OptimOptim数据脱敏数据脱敏 OracleOracle数据脱敏数据脱敏 InformaticaInformatica数据脱敏数据脱敏 苹果的差分隐私保护苹果的差分隐私保护多种掩码技术混合掩码、基于条件的掩码、可重复掩码、打乱、加密、随机化等 多种脱敏技术 打乱编码ID、替换名称、常量替换、信用卡掩码技术差分隐私,通过 laplace 和指数两种机制添加噪声,目标是做数据挖掘前先进行处理。苹果的方案,是在手机本地加入噪声后再上传,一般统计的是输入法的新词汇,表情包的使用状况,运动相关数据等。THANK YOU谢谢观看

友情提示

1、下载报告失败解决办法
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。

本文(大数据交易与处理中的数据脱敏技术研究(2019)(26页).pdf)为本站 (小时候) 主动上传,三个皮匠报告文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三个皮匠报告文库(点击联系客服),我们立即给予删除!

温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。
会员购买
客服

专属顾问

商务合作

机构入驻、侵权投诉、商务合作

服务号

三个皮匠报告官方公众号

回到顶部