《ArchSummit_蚂蚁安全领域智能化数据治理-蚂蚁集团_霄元_20230722_v4.pdf》由会员分享,可在线阅读,更多相关《ArchSummit_蚂蚁安全领域智能化数据治理-蚂蚁集团_霄元_20230722_v4.pdf(26页珍藏版)》请在三个皮匠报告上搜索。
1、蚂蚁安全领域智能化数据治理高级数据技术专家/霄元(黄国龙)20年加入蚂蚁,目前是安全大数据团队数据智能资产、内容数据资产负责人 0-1主导建设蚂蚁集团内容安全数据资产专项 关注大数据研发、数据架构、数据治理等领域黄国龙 高级数据技术专家个人简介个人简介目录目录数据治理创新探索数据治理探索与创新数据治理业务案例安全领域智能化数据治理实践数据治理通用能力蚂蚁数据治理架构及能力蚂蚁数据治理架构及能力蚂蚁数据治理架构及能力_ _面临挑战面临挑战成本增速快 存储资源:蚂蚁存储达 EB 级别,年增速40%+;计算资源:计算资源 千KCU/日.40%40%存储增速存储增速+0%5%10%15%20%25%3
2、0%35%40%45%2018年2019年2020年2021年2022年业务需求多 新业务资源需求旺盛;人工智能发展快,数据需求呈现爆炸性增长。成本看不清 资源使用细节看不清;成本很难分摊到业务。蚂蚁数据治理架构及能力蚂蚁数据治理架构及能力_ _治理思路治理思路平台提效&技术治理平台提效:将治理能力产品化服务用户技术治理:结合引擎能力升级做技术优化无效资产治理无效资产治理重复资产治理重复资产治理TOP TOP 资产治理资产治理存储治理存储治理计算治理计算治理集群治理集群治理能力建设能力建设蚂蚁数据治理架构及能力蚂蚁数据治理架构及能力_ _治理方案治理方案治理对象治理策略场景驱动应用系统应用日志
3、DRCAntQSLSBlink应用DB数据(ods)加工任务加工任务回流任务应用系统数据生产数据同步数据加工(DataPhin)数据应用触发管控场景触发管控场景系统账号开通用户加入Project项目任务大量变慢触发治理场景触发治理场景年度资源预算架构师驱动模块存储触顶管理员驱动任务大量变慢管理员驱动关键能力建设方案:从事前-事中-事后,构建成本治理全链路能力。explorerodps数据(ods)应用DB(事前)规划与准入(事前)规划与准入架 构 要 素 管 理运 维 管 控 模 块生 命 周 期 管 理(事中)管控与监控(事中)管控与监控发布管控运维管控查询管控账号管控生命周期汰换任务暴力扫
4、描补数管理补数监控运行监控暴力扫描大表限制汰换数据并发限制血缘要求无效下线(事后)技术治理(事后)技术治理专项运营治理项目迭代式运营治理重复表识别离职人员资产处置 参数不合理奖惩效生命周期长资产汰换数据排重热点任务识别大表暴力扫描资产下沉推荐重复采集过渡埋点资源混部Archive压缩冷数据归档蚂蚁数据治理架构及能力蚂蚁数据治理架构及能力_ _治理架构治理架构统一资源元数据预 算血 缘访 问存 储计 算调 度资 产制度规范标准规范计存军规考试培训组织文化治理达人红黑榜治理双周/月报治理委员会资源预算管理(事前-规划&管理)资产治理中心(事后-治理)资源调拨中心(事中-分配&监控)业务管理预算分配
5、预算分析预算采购发布管控拦截场景化生命周期自动化技术治理健康分治理业务单元治理活动实时巡检资源风险处置自动化扩缩容弹性分时调度资源治理核心领域(专项方案)集群管理资源调拨采集治理集群资源混部资源预算管理数据项目规划业务单元化容灾任务分时调度自动化扩缩容单元化隔离调度并发控制数据分级存储数据极限存储无效采集下线场景化生命周期日志治理消费治理关键技术无效埋点下线重复采集治理日志消费管控业务单元化容灾一键链路退役废弃报表下线无效服务下线消费血缘保鲜引擎优化模型优化代码优化资产管理优化资源监控大盘(DRE)资产治理工作台(个人/团队/业务单元)资源成本管理(管理者/DRE)跨集群带宽TOP任务排队暴力
6、扫描集群存储任务并发资产健康分垃圾资产处置治理活动分析风险拦截列表一键治理工具资源分析预算管理资源调拨成本核算基础平台能力资源治理领域资源管理门户蚂蚁数据治理架构及能力蚂蚁数据治理架构及能力_ _资源治理领域案例资源治理领域案例 集群资源混部推进在离线混合部署,计算算力会提升10%,机器成本降低25%.混合部署方案跨城访问依赖中间层减少网络开销1.项目规划2.迁移改造3.日常巡检4.持续优化迁移评估架构升级迁移完成日常巡检巡检治理发布管控代码改造集群缓存开源迁移混部(四个阶段)杭州专用集群深圳混部提升资源利用率,动态扩容,保障稳定性存储计算一体=存储计算分离蚂蚁数据治理架构及能力蚂蚁数据治理架
7、构及能力_ _资源治理领域案例资源治理领域案例 关键技术节流提升治理自动化率,实现自动识别、归因分析、自动清理,形成常态化管控能力。引擎优化模型优化代码优化资产管理优化数仓模型 业务领域建模 抽象公共层 通用应用层 配置化指标系统 大宽表设计代码设计 全量改采样 with替代tmp表 视图化改造 避免数据膨胀 执行顺序优化计存设计 渐进计算 累计计算 Zorder Shuffle优化 Bitmap索引 全改增 极限存储数据格式 重排压缩 Cube预计算JOIN优化 Map join Hash join Skew join Dynamic FilterUDF优化 内置替换 提前计算 参数调优 本
8、地缓存数据倾斜 Map端 Reduce端 热点值聚合优化 Grouping sets UDF转UDTF Count(distinct)参数优化 Split Size 小文件合并 Reducer instantce CPU数 Dynamic parallelism调度优化 任务归并 HBO优化 集群混部 错峰运行 冷热分层生命周期 Map join Hash join Skew join Dynamic Filter计算浪费 临时表 系统表 长周期表 回收站优化 大字段生命周期无效表 Map端 Reduce端 热点值重复资产 同链路相似表 相似任务节点 分区不更新 缓慢变化维表蚂蚁数据治理架构及
9、能力蚂蚁数据治理架构及能力_ _资源治理领域案例资源治理领域案例 关键技术-实例推进在离线混合部署,计算算力会提升10%,机器成本降低25%.冷存体系节流渐进计算设置成渐进计算后,每日计算消耗从795CU降到22CU.1 SSD+3 HDD Hot Tier 3 HDD 1.375 RAID HDD COST Warm Tier Archive Tier Cold Storage Hot Tier:高频消费的热点数据、优化I/O;Warm Tier:热数据、读取频率正常;Archive Tier:数据需长期保留,访问频次底;Cold Storage:长期保留,超低频访问。day1day2day
10、3.daynODPS 源表123.nODPS 自动生成中间结果第n-1天分区第n天分区最新分区按中间结果进行MERGE中间重复计算部分固定窗口 dt=20220101 anddt=20220101 and ds=$ds=$bizdatebizdate 滑动窗口 dt=$dt=bizdate-60dt=bizdate-60原理:空间换时间,自动生成中间表,避免重复计算,其中中间表可采用hash cluster,提升merge阶段Shuffle效率;Odps支持一键渐进计算、设置一个参数即可。蚂蚁数据治理架构及能力蚂蚁数据治理架构及能力_ _基础平台能力实例基础平台能力实例(事前)发布管控由平台或
11、业务方事先制定发布管控规则,相关任务上线提交时、平台自动检验结果,如有规则未校验通过,此次上线发布失败。发布管控规则说明任务发布状态详情蚂蚁数据治理架构及能力蚂蚁数据治理架构及能力_ _基础平台能力实例基础平台能力实例(事中)实时巡检禁止随意提交超大任务导致整个资源池的堵塞和打满,进而造成高昂的成本消耗,同时也兼顾效率,仅对异常使用进行管治。异常大任务自动查杀方案异常大任务自动查杀实例蚂蚁数据治理架构及能力蚂蚁数据治理架构及能力_ _基础平台能力实例基础平台能力实例(事后)成本健康分基于累计浪费和时间加成,设计成本健康分算法。通过健康分管理数据平台使用权限。成本健康分算法健康分产品运营实例蚂蚁
12、领域数据治理架构及能力蚂蚁领域数据治理架构及能力_ _治理成果治理成果治理专项存储用量(PB)计算用量(KCU)表数量(张)累计治理收益百PB+百KCU+百万+安全领域治理成果总结已全部达成年度目标,预估节约数据成本 25%+25%+。安全领域智能化数据治理实践安全领域智能化数据治理实践数据智能资产建设板块安全领域智能化数据治理实践安全领域智能化数据治理实践智能化数据治理思路数据源获取数据源获取数据集建设数据集建设数据应用评估数据应用评估数据资产管理数据资产管理元数据数据生产数据消费数据管理面临挑战应对手段采集标注效率低、使用频繁数据各业务自建、质量差、复用低数据链路过长,效果评估难权限、合规
13、等待开展采标一体自动化数据链路蚂蚁安全域超大规模数据集应用全链路血缘成本治理方案数据集治理数据集治理在线链路治理在线链路治理安全领域智能化数据治理实践安全领域智能化数据治理实践数据集治理在线链路治理采标一体自动化数据链路蚂蚁安全域超大规模数据集应用全链路血缘在线模型成本治理方案数据集建设阶段,搭建采集标注自动化数据链路降本增效;标准化建设蚂蚁安全域超大规模数据集消除数据孤岛在线运行阶段,搭建元数据之应用全链路血缘,助力在线模型策略成本治理优化安全领域智能化数据治理实践安全领域智能化数据治理实践_ _数据集治理数据集治理数据集简介 高品质、多样性、大规模的数据集建设是AI技术应用竞争关键要素之一
14、,在建设大规模数据集过程中,百PB级别的安全数据资产必将带来高昂成本支出、及各种质量风险隐患.数据集主要有:采集、标注、大规模数据集、训练数据集、评测数据集。安全领域智能化数据治理实践安全领域智能化数据治理实践_ _数据集治理数据集治理采标一体化链路 数据采集、人工标注是数据集建设关键环节之一、也是首要事项,相关事项涉及合作方众多、且时间也不可控,在人工对接中费时费力。采标一体化自动化数据链路,从关键词计算、对接采集、转存及通知、对接标注、数据ETL全链路实现自动化,降本增效明显、且数据品质也有保障,大大缩减人力成本、将原来采集标注2周以上时效降到5天以内。安全领域智能化数据治理实践安全领域智
15、能化数据治理实践_ _数据集治理数据集治理大规模数据集汇总中间层(DWS)中间层资产建设应用层(ADM)源数据层(ODS)明细中间层(DWD)中间层资产建设源数据数据资产安全大规模数据集业务支撑智能数据建模设计架构标准数仓建模设计确保数据品质,通过大规模数据集支撑业务。大规模数据集分类体系规范数据集分类体系,消除数据孤岛、共享数据集资源。专项资产质量&安全实例:*数据集数据建模设计数据集实例,整合资金各业务特征、标签形成全域样本集。安全领域智能化数据治理实践安全领域智能化数据治理实践_ _在线链路治理在线链路治理在线链路治理简介 良好的治理离不开对数据资产合理评估,通过对当前安全领域的数据资产
16、进行了效能评估,产出了数据效能分,量化数据资产在风控系统中发挥的作用,从而推动无效资产的治理,计算、保障优先级设定,成本优化等。安全领域智能化数据治理实践安全领域智能化数据治理实践_ _在线链路治理在线链路治理全链路血缘 数据资产类型包括策略、特征、模型、协议等90+种资产类型,种类多、数据资产量巨大、关系链路复杂,利用我们的二部图模型,构造了一张全局的资产大图,从连接起各个信息孤岛,打破平台间的血缘鸿沟。安全领域智能化数据治理实践安全领域智能化数据治理实践_ _在线链路治理在线链路治理在线链路治理流程影响因子定义影响因子分:血缘静态引用量、线上流量调用量以及决策日志量三个层次。指标数据编码器
17、推理效能分变换影响因子分层:根据数据血缘,计算出该数据资产与其它数据资产在静态血缘上的引用量;计算该数据资产线上产生的实际流量,例如特征的调用量、模型的调用量;计算关联该数据资产的决策日志的量级,作为该资产在风控体系中发挥效能的重要特征。备注:为了更合理的评估数据资产长短期的效能情况,分别从天/周/月/季的维度作为特征。基于上述影响因子特征,统计得到了从不同维度评估数据资产效能的源数据。自编码器,对一组特征进行学习,得到有效表征。使用回归模型对特征进行回归训练,获各特征重要度;基于特征重要度优化模型和调权重,使效能分产出更合理;通过BOX-COX变换对数据分布进行调整(0100分正态分布)。数
18、据治理探索与创新数据治理探索与创新_ _ ETL AUTOPIPELINE ETL AUTOPIPELINE数据模型数据血缘调度依赖技术元数据业务归属业务标签业务定义业务元数据执行日志查询日志任务脚本操作元数据用户评论分享行为知识问答社交元数据RDBMS数据仓库NoSQL数据库OLAP数据源实时数据源探查开发测试部署主动问题识别监控数据源主动元数据智能研发智能中心理解能力通用技能库技能匹配技能执行API管理函数管理推理能力多轮对话代码能力打造一站式智能研发助手实体抽取关系抽取属性抽取元数据对话promptDataOps代码优化建议链路优化建议治理优化基础画像关系数据场景刻画主外键分布占比加工口径关系类型关联方式关联率常用口径重复模型热点查询大模型 Copilot介质商户小程序同步事件异步事件用户账号名单处罚事件交易事件客户数据网关审计日志网络流量应用权限员工粉丝主播埋点流量生活号内容数据治理探索与创新数据治理探索与创新_ _ 创新案例大模型创新案例大模型CopilotCopilot小表D 小表D:安全大数据一站式智能研发助手,结合安全特色,深度整合其他数据类大模型,以小表D为切入口,为用户提供丰富的大模型功能,贯穿用户整个数据研发生命周期,在数据分析、任务研发、任务运维、风险发现等日常生产环节提供一站式数据辅助服务,让数据研发更加智能高效。