《2-5 字节跳动大数据平台安全与权限治理实践.pdf》由会员分享,可在线阅读,更多相关《2-5 字节跳动大数据平台安全与权限治理实践.pdf(16页珍藏版)》请在三个皮匠报告上搜索。
1、字节跳动大数据平台安全与权限治理实践许从余 火山引擎数据平台产品经理|01字节大数据安全体系现状和难点02细粒度权限管控和治理03资产保护能力04数据删除能力目录 CONTENT|字节大数据安全体系现状和难点01|治理原则|外部内部安全合规的风险压力业务线的效率压力面对政府监管合规要求,暴露出不少问题,例如不能灵活筛选,保留和删除数据等,当没有被很好完成时,核心业务会处于巨大风险中面对外部压力,不可避免的会出现一些偏临时,偏刚性的要求和机制,在完成合规要求的同时,必须兼顾内部业务运转的效率治理原则保证合规,兼顾效率字节跳动大数据安全产品体系|安全原则法律法规制度国家安全法数据安全法个人信息保护
2、法个人数据使用规范数据权限审批流程PIA管理流程数据安全保护基线Tagging-数据分类分级数据自动识别确认落标数据分类分级标准管理外部内部Access-权限管理权限申请授权数据权限有效期库、表权限管控行、列权限管控数据权限交还Audit-风控审计数据加密存储数据解密使用Asset Protection-资产保护风险用户识别高危行为识别人员异动处置数据访问审计数据授权审计冗余权限回收职责明确隐私合规事中保护事后审计范围最小化Deletion-数据销毁数据删除产品操作审计数据脱敏|细粒度权限管控和治理02细粒度权限模型|idnamegendercountryagerace(敏感列)1Alicef
3、uk25black2Bobmuk30white3Jackfus22yellow4Lucymus23yellow5Jamesmca35black6Lilyfca43white新权限模型特性A:DBB:tableC:table+race(敏感列)D:id+name+genderE:table where gender=m and country in(us,ca)F:country+age+race where country in(uk,us)A BCDEF列级权限控制表/列权限附带行限制敏感表/列单独管控灵活的权限授予机制|数据资源与授权主体灵活组合审批流灵活定义自动审批 30+%智能风险判断
4、辅助审批智能审批|申请工单传入数据风险结果返回(评分&标签)智能审批模型人员风险模型人事状态访问行为历史权限资源风险模型分类分级层级&热度历史权限人员资源关联模型人员资源关联度资源聚类人员聚类离线数据训练实时上游数据读取权限审批权限申请拦截自动审批风险标签透出智能审批通过自动审批/人工审批提交鉴权引擎赋权审批完结,结果返回审批未通过人工审批智能审批功能体系低风险:自动通过高风险:拦截自动审批,透出风险,人工审批低风险:节约审批时长10万小时高风险:辅助识别,驳回率高7%冗余权限治理回收|治理效果冗余权限治理流程访问、鉴权双重判断白名单、保留豁免机制50+%3%|资产保护能力03资产保护应用场景
5、|加密方案介绍|大数据挑战数据链路长数据量大用户多机制层级灵活性强度兼容性效率操作难度技术难度数据内容加密应用级高强低低高低文件格式透明加密文件格式高中低高低中HDFS加密文件系统低-中中中中低高磁盘加密磁盘级低中高中低高需满足高数据一致性高数据可用性高效率数据重写密文具备可识别性性能优化用户鉴权交由权限引擎DataKey缓存|数据删除能力04数据删除介绍|删除需求场景账号删除滚动删除其他大数据删除技术挑战传统HDFS数据删除只能通过覆写文件的方式达成,删除一个用户数据就需要覆写该表所有hdfs文件,对系统I/O消耗巨大。数仓存储在HDFS之上,主要格式:列存储,而对于用户数据遗忘权的满足需要对行级别数据的删除,删除效率低,开销大。离线表的数量庞大。对HDFS的存储资源、磁盘IO、网络吞吐、计算资源、ETL调度系统都会有极大挑战。对业务资源的抢占。ETL任务脏读、幻读和不可读的问题性能的提升基于Bytelake降低覆写总量15倍Bytelake格式转换速度提升10倍提升覆写速度80%调度和系统的优化系统能力计算能力存储能力数据库能力非常感谢您的观看|