《9-2 预训练技术助力风控对抗能力升级.pdf》由会员分享,可在线阅读,更多相关《9-2 预训练技术助力风控对抗能力升级.pdf(27页珍藏版)》请在三个皮匠报告上搜索。
1、预训练技术助力风控对抗能力升级王三鹏 京东 零售风控算法架构负责人|01背景介绍02文本预训练03行为预训练04未来规划目录CONTENT|01背景介绍|C端风控B端风控恶意刷券&下单使用外挂软件获取权益广告辱骂内容价格门用户访问深度反刷单风控恶意套取返利客服防骚扰京东零售风控 维护京东零售平台健康的交易生态环境,包括不限于主站APP、PC端、wq等场景 识别刷单、恶意刷券&下单、使用外挂软件获取权益、违规骚扰等用户、商家的恶意行为|一、背景介绍|用户行为 京东零售风控识别的基础,广泛应用于订单、营销、账号等主业务线条,并且识别量大,整体能贡献风控绝大部分识别量 数据形式为统计特征、序列行为特
2、征,如浏览、访问请求文本 内容风控、风控舆情以文本识别为主,主要识别广告引流、骚扰、辱骂、风险漏洞、舆情、地址异常等场景 具有字体偏向生僻字,变换较快以绕过风控识别等特点,如:+薇信零售风控算法能力问题 失效快,快则十几天模型效果有明显下降,例如引流、恶意订单模型 新场景标签稀缺,人工标注成本高、效率低,负样本标注量级非常大 建模效率低、效果差 长期有效机制强泛化能力、强覆盖 小样本训练能力基于无监督预训练的模型微调机制 特征、模型平台化自动生成,快速反应;预训练、大模型带来更强效果一、背景介绍02NLP预训练|数据采集模型预训练模型微调NLP是风控内容、舆情、地址等风控能力基础,近年来预训练
3、技术是处理NLP的最常用方式。二、NLP预训练(背景介绍)|数据采集更多数据(GPT系列);有效的数据清洗策略(T5);针对特殊场景引入领域内数据;引入其它嵌入类型(Chinese-BERT,ERNIE-T)。任务删减NSP预训练任务(RoBERTa);基于实体的掩码语言模型(BERT-WWM,ERNIE);引入更多有效的预训练任务(MTDNN,ERNIE,RoFormerv2)其它应用跨语言模型(XLM);跨模态模型(ViLBERT,VideoBERT)公开数据集训练,效果差收敛慢字典上缺少风控常见生僻字,易失效小样本训练表现不好常见BERT改进开源BERT风控领域自适应模型二、NLP预训练
4、(背景介绍)二、NLP预训练(数据&字典)|异音异形字+电商高频字+Emojy表情+生僻字-字典减小55%覆盖率提升5%采集超过10亿条内外部文本数据定制字典解决开源BERT数据、字典不匹配电商、风控的问题。二、NLP预训练(输入)|引入字音/字形Embedding,提升对异音异形字的识别,解决模型失效快的问题。|方案1:多任务学习不同预训练任务收敛难度不同;不便于随时新增预训练任务。方案2:持续学习损失震荡严重;模型效果过渡依赖于结束之前训练的任务类型。方案3:顺序多任务(ERNIE 2.0)没有考虑不同任务的难易程度,浪费训练资源;随着任务的添加,模型输出分支规模难以控制任务调度系统的引入
5、,解决评论、舆情、地址、咨询、直播等十几个场景效果不均衡的问题。开源内循环可持续学习任务调度二、NLP预训练(任务调度)ZeRO传统的分布式训练,每一台机器均会消耗固定大小的全量内存,而与并行与否无关。ZeRO可以在不影响通信效率的情况下,让模型的内存均匀的分配到每个GPU上,减少单个GPU的显存占用,提高并行效率。操作融合A100基于多源头数据读取能力,充分发挥A100显卡潜能提速18倍在GPU的执行过程中,通常访问全局内存的操作会比较耗时。因此通过将多个操作进行融合,一次执行多个计算逻辑,减少全局内存的访问,可以有效的提高训练吞吐。|模型训练加速,从头训练亿级规模模型耗时由十几天减少到1天
6、之内。二、NLP预训练(训练加速)知识蒸馏轻量化StudentTeacherX1X2X3X4QueriesKeysValuesQueries-KeysScaled Dot-ProductValues-ValuesScaled Dot-ProductTransformer Block 2Transformer Block 1Transformer Block 3Transformer Block LX4X3X2X1QueriesKeysValuesQueries-KeysScaled Dot-ProductValues-ValuesScaled Dot-ProductTransformer Bl
7、ock 2Transformer Block 1Transformer Block 3Transformer Block MAttentionTransferKLDValue-RelationTransferKLD在亿级参数的风控NLP预训练大模型基础之上运用知识蒸馏的方法,将模型参数压缩90%,推理速度提升3倍,效果接近于原始预训练模型。模型层数缩减、隐层维度缩减|二、NLP预训练(推理加速)|?Score?AFQMCTNEWSIFLYTEKCMNLIWSCCSLBERT-base68.77108M73.7056.5860.2979.6962.080.36BERT-wwm-ext-base6
8、8.75108M74.0756.8459.4380.4261.180.63ERNIE-base68.55108M73.8358.3358.9680.2960.879.1RoBERTa-wwm-ext70.10108M74.0456.9460.3180.5167.881.0Ours71.73108M73.9458.9760.4680.6875.2181.13?Ours?5.2%提升提升6.8%CLUE benchmark 公开数据集内部数据集业务指标?Ours提升4.5倍提升3.1倍提升36%二、NLP预训练(效果)03用户行为预训练|三、用户行为预训练(背景介绍)|行为是风控识别能力的基础,行
9、为模型的深度决定风控能力的上限。业务影响风控全场景使用的建模方式,包括不限于订单、营销、账号等风控主流程贡献绝大部份风险账号识别问题效率低,统计特征构建速度慢、人工标注慢未能有效利用庞大细分场景标签效果差,模型简单、建模方式简单,鲁棒性差,易被黑灰产绕过底层支持少,缺少统一建模方案原始方式各场景从0到1独立建模统计特征为基础的决策模型基于行为序列特征的LSTM时序模型预训练特点效率高,底座预训练+细分场景微调,快速建模能力效果好,无、有监督的预训练充分挖掘存量标签、数据知识底层强支撑,特征+模型统一建设,沉淀技术能力行为预训练业界情况浏览、访问、搜索等序列特征,并且包含名字、类别、时间等多维度
10、信息历史积攒的大量手动设计统计特征三、用户行为预训练(背景介绍)|预训练在NLP、图像以外的场景,还处于起步阶段。利用预训练效果好、效率高的特点,能有效解决风控核心行为场景的问题。用户行为特征Google、腾讯等有行为预训练在推荐、画像场景的应用行为预训练在风控领域处于空白状态微调阶段Ec1c1Ep1p1Et1t1Ec2c2Ep2p2Et2t2EcNcNEpNpNEtNtN属性embedding行为描述TransformerTransformerTransformerEb1Eb2EbN行为embeddingTransformerTransformerTransformerL12L2L1BERT
11、Eu用户embeddingTransformerTransformerTransformerTransformerTransformerTransformerTransformerTransformerTransformerMLP预训练阶段不同冻结策略Transformer业务相关用户标签数据经过区分度筛选后的行为描述序列行为特征访问、时间、浏览等多模态信息融合融合标准化的统计特征获得更好效果 总参数量5亿+,表达能力远超原始BERT 对比学习、NSP、MLM、有监督等训练方法的引入,充分发挥全场景标签、数据知识三、用户行为预训练(模型)|多模态特征融合、大模型、多种训练方法组成的强大预训练行
12、为模型基座,灵活有效的微调模块,组成强大行为预训练模型。用户行为预训练模型初始用户数据(ord_id、sale_ord_time、label)转换后的用户行为数据用户行为通用训练框架统一强大的行为风险模型输出,解决绝大部份场景的风险问题更强的定制化模型,结合细分场景标签,做定制化自动微调,获得更聚焦、更强模型,满足更高要求特征自动化,以预训练模型为基础,自动数据预处理,获取用户的底层表示多种形式部署,支持不同模型格式自动转化用户embedding输出头(MLP等)判别结果直接使用embedding结合其他数据微调自动化数据转换过程|三、用户行为预训练(框架)统一行为风险评分输出以及定制化自动微
13、调模型,解决风控碎片化细分场景的建模问题。散乱复杂的碎片化风控场景恶意订单、刷单、营销资源、恶意骚扰内容、登陆注册等十几个大场景、几十个小细分场景,散乱的风险治理能力各场景精度、召回等指标要求参差不齐三、用户行为预训练(效果)行为预训练模型效率Embedding服务接口核心能力跳出低效率人工统计特征研发,建模周期降低8.2倍效果失效时间缩短6倍同精度下召回提升108%标注样本预训练的方式使小样本成为可能,标注样本需求量减少11倍技术和数据沉淀持续做大做强预训练模型基座,可提升风控全场景识别能力快速微调Pipline可解释性话术生成|定制化特征接入04预训练平台化|预训练能力在内部如何有效使用起
14、来?四、预训练工具包(RiskNLP)|RiskNLP:NLP预训练模型的Python工具包Python安装包一键部署;支持EA可视化空间训练;PB格式模型部署方便;支持多个不同类型的分类头;分类,测试,模型转换,特征向量计算等任务一键搞定;支持多种模型类型转换;支持自定义预处理函数;支持多任务模型,NER等复杂功能;支持微调模型的上传和下载;简单易用功能健全速度优化支持CPU,单机单卡,单机多卡三种模式;支持原始模型和蒸馏模型两种预训练模型;按批次计算预测结果以及文本embedding;|RiskCDA:NLP数据生成工具包,提升训练的模型的对抗能力Python安装包一键部署;支持超过10种
15、扩充策略;支持本地和线上两种扩充方式;支持自定义扩充字典;支持多种基于深度学习的前沿扩充方式:TextFoolerBERT-AttackBAE传统方式深度学习四、预训练工具包(RiskCDA)四、预训练工具包(RiskBehavior)|RiskBehavior:用户行为预训练模型的Python工具包Python安装包一键部署;PB格式模型部署方便;支持多个不同类型的分类头;分类,测试,模型转换,特征向量计算等任务一键搞定;支持多种模型类型转换;支持点击序列预处理,仅需提供订单信息;简单易用功能健全速度优化支持CPU,单机单卡,单机多卡三种模式;支持原始模型和蒸馏模型两种预训练模型;按批次计算预测结果以及文本embedding;05展望|挖掘更深层次、多模态的特征,容纳更多数据知识更强大模型,探索更大参数、更强结构模型以及蒸馏加速能力更强大易用能力,更加快速便捷的应用到业务开源,框架、脱敏模型的开源展望非常感谢您的观看|