《2018年大数据的安全、融合、共享与运用.pdf》由会员分享,可在线阅读,更多相关《2018年大数据的安全、融合、共享与运用.pdf(12页珍藏版)》请在三个皮匠报告上搜索。
1、大数据的安全、融合共享与运用目录大数据安全狭义数据安全与广义数据安全再谈数据泄漏数据流通的多个环节数据共享与脱敏数据安全的狭义与广义再谈数据泄漏核心数据库防护是第一道考题弱密码有多少拖库是弱密码引起的数据库公网访问建议的服务器部署模式源码泄漏Shadow IT引发的风险无分级、无风控认证鉴权,PII信息比对等内容应该以服务的形式存在,而不是直接访问数据库数据流通的多个环节数据产生数据传输持久化数据分析数据环节数据流通数据销毁数据共享与脱敏删除PII信息就够了吗?2006年,美国最大的影视公司之一 Netflix,举办了一个预测算法的比赛(Netflix Prize),比赛要求在公开数据上推测用
2、户的电影评分。Netflix 把数据中唯一识别用户的信息抹去,认为这样就能保证用户的隐私。但是在 2007 年来自The University of Texas at Austin 的两位研究人员表示通过关联 Netflix 公开的数据和IMDb(互联网电影数据库)网站上公开的纪录就能够识别出匿名后用户的身份。三年后,在2010年,Netflix 最后因为隐私原因宣布停止这项比赛,并因此受到高额罚款,赔偿金额总计九百万美元。信息分级PII01个人身份标示数据,例如电话号码,身份证号,银行卡号,账号等。在进入分析环节这部分数据一般直接删除。PI02私人数据,虽然不能标示个体,但属于分析个体时重要
3、属性,例如性别、年龄、学历Sensitive attributes03数据分析的主体,是数据画像的结果,例如购买偏好,收藏历史等。这部分数据在数据分析时一般不能删除。并且会作为结果展示。匿名化姓名姓名性别性别年龄年龄手机品牌手机品牌购买偏好购买偏好女iphone化妆品女oppo厨具男vivo家电男iphone电子产品男iphone电子产品男vivo图书女vivo图书女oppo日用品*KittyKathBobAbeFrankSamLaviniaSammiSam222527363629343320-2520-2525-3035-4035-4025-3035-4035-40算法K匿名化K-匿名化的目的是保证公开的数据中包含的个人信息至少 k-1 条不能通过其他个人信息确定出来。也就是公开数据中的任意 PI信息,相同的组合都需要出现至少 k 次。差分数据噪音中心化与本地化数据差分苹果在Iphone上使用的本地数据差分算法今天我们所面对的只是数据安全的冰山一角,数据保护的进步,才是大数据能否良性发展的关键谢 谢!