《基于知识共享的新一代风控体系.pdf》由会员分享,可在线阅读,更多相关《基于知识共享的新一代风控体系.pdf(16页珍藏版)》请在三个皮匠报告上搜索。
1、北京顶象技术有限公司基于知识共享的新一代风控体系业务安全的现状黑灰产vs互联网安全资金损失 1000亿年从业者 100万从业者 20万业务安全 10%黑产朝着规模化专业化方向发展互联网巨头在安全方面的投入公司名人员投入资金投入/年百度500+10亿+阿里巴巴1200+15亿+腾讯1300+20亿+蚂蚁金服500+10亿+京东200+5亿+安全方面的巨大投入使得中小企业难以建设自己的安全能力传统风控技术的局限性小数据:去对数据的沉淀不够,缺乏足够多的/有效的标注数据,数据永远不够用无法共享:由于数据本身的高敏感性,无法采用传统的数据联防、大数据建模的方法是否足够可靠:模型只能够在一个非常狭小的领
2、域发挥作用,可能存在过拟合现象个性化:不同行业的同一风险,或者同一行业的不同风险,很难以同一套模型来覆盖;通用技术加个人小数据是解决个性化必不可少的手段传统风控技术的局限性业务流程内置单点的防控方式数十条特定的防控逻辑新实践顶象业务安全顶象业务安全顶象业务安全顶象知识云万级策略模型积累安全专家团全景式业务安全风控体系风控知识共享的三个层次传统企业在数据隔离的情况下,自身安全能力也能随之进化名单共享:对不同企业间的黑(高危)、灰(嫌疑)、白(可信)名单进行打通策略共享:沉淀关于特定行业、特定风险的通特征体系和策略包模型共享:使用深度学习和迁移学习来解决行业间的能力共享问题知识共享的关键是迁移学习
3、迁移学习:解决将已知领域学习到的知识应用到特定目标领域的问题领域特定目标领域的任务(拥有很少的数据)大量不同但相关的数据语音识别特定方言的识别YouTube上各国语言的数据图像识别医学图像处理违规图像识别ImageNet上的图像分类数据自然语言处理欺诈信息和垃圾信息的检测Web上大量的公开语料深度学习+迁移学习深度学习层次化的设计使得迁移学习更为容易1、传统的机器学习方法,当增添一个新的分类时,需要重新训练整个模型2、深度学习网络的不同层次具备不同的迁移能力;当出现新的问题时,可以把某些层次固定住,在其它区域用小数据训练Learning and Transferring Mid-Level I
4、mage Representations using Convolutional Neural Networks Maxime Oquab,L eon Bottou,Ivan Laptev,Josef Sivic迁移学习的主要方法典型领域有标签数据无标签数据目标领域有标签数据Model Fine-tuningConservative TrainingLayer TransferMultitask LearningSelf-taught LearningSparse CodeAuto Encoder无标签数据Domain-adversarial trainingZero-shot Learnin
5、gSelf-taught Clustering迁移学习的主要方法典型领域有标签数据无标签数据目标领域有标签数据Model Fine-tuningConservative TrainingLayer TransferMultitask LearningSelf-taught LearningSparse CodeAuto Encoder无标签数据Domain-adversarial trainingZero-shot LearningSelf-taught Clustering重点迁移学习的一个简单例子使用迁移学习来解决新分类(花卉)识别的主要步骤1、使用预训练的模型(ImageNet Ince
6、ption V3)提取训练图片的特征2、构造一个新的浅层网络,使用第一步中得到的训练输入,训练新的网络,得到结果3、准确率一般在90%95%,训练时间大大减少。注意新类别并不存在于训练数据中https:/www.tensorflow.org/tutorials/image_retrainingHow to Retrain Inceptions Final Layer for New Categories真实案例:顶象无感验证流量人机识别+验证策略选择+用户行为识别基于深度学习+迁移学习的智能验证产品1、基于深度学习技术实现特征自动挖掘,无需烦琐的特征工程过程,准确率和召回率提升5%10%2、借
7、助迁移学习的技术,实现不同场景的自适应;即便是在只有少量数据的情况下也能获得同等的效果克隆防御的最佳实践数据量小,相似度高:由于数据量太少,因此为避免过拟合不建议训练整个网络。因为数据相似程度大,因此去掉原本的全连接层将其余网络作为特征抽取器,最后使用线性分类器输出识别结果数据量大,相似度高:因为我们有了更多的数据,我们可以训练整个网络而不用担心过拟合问题,最终得到更好的效果数据量小,相似度低:数据量太少导致我们无法训练整个网络。相似度低使得我们无法直接使用高层的特征,而需要在网络前几层重新训练数据量大,相似度低:有足够的数据支撑我们训练整个网络,但仍然可以从已知领域的知识中收益。使用预训练模型的权重作为初始参数,往往会获得更好的效果和更短的收敛时间目标领域相对于已知领域谢谢