《斗鱼直播实时风控引擎快速对抗探索实践-李瑞.pdf》由会员分享,可在线阅读,更多相关《斗鱼直播实时风控引擎快速对抗探索实践-李瑞.pdf(26页珍藏版)》请在三个皮匠报告上搜索。
1、DataFunSummit#2023斗鱼直播实时风控引擎快速对抗探索实践演讲人-李瑞-斗鱼直播-风控负责人01直播行业的黑产问题02全栈式风控引擎的建设03文本识别对抗实践04思考与展望目录CONTENTDataFunSummit#202301直播行业的黑产问题直播行业常见的黑灰产问题渠道作弊活动欺诈广告引流低俗辱骂欺诈充值电信诈骗主播刷榜虚假开播业务安全的痛点木桶效应如果不掌握所有的用户行为入口和数据,总会出现防范的短板,无法识别出黑产账号,也无法有效支撑业务安全。业务对接成本高不同类型的业务需要独立的风控名单/接口服务,相应的风控策略也不同,每个业务的策略服务如果单独开发效率低,并且配置凌
2、乱难以管理。性能要求高 对接业务众多,吞吐量巨大,RT不能影响业务 实时计算时效性要求高用户体验差 用户被风控后缺少反馈途径的引导。投诉反馈排查效率低、耗费风控人员精力防御时效性差 风险感知能力不全面,风控迭代慢 实时性策略较少,依赖离线挖掘周期长。DataFunSummit#202302全栈式风控引擎的建设全栈式风控引擎架构单流计算Storm/Flink自研规则引擎ARES营销活动账号安全直播弹幕行为特征实时计算渠道激活充值打赏主播榜单业务接入多流计算Flink动态编译策略编排异常报警Kafka业务注册特征装载自定义函数风险权重配套工具业务健康罗盘规则灰度测试可视化规则管理基础数据预处理风险
3、特征库惩罚中心规则生命周期用户自助反馈通用策略窗口频率黑白名单IP设备聚集行为交叉一致归属地异常实时调用广告点击风控网关RPC/HTTP熔断兜底数据预装载上报RedisCluster模型画像文本匹配设备农场评分卡策略用户画像手机画像IP画像文本模型风险评分团伙发现行为序列设备异常风控引擎RPC全栈式风控引擎降低对接成本业务收拢强运营强宣发,推动业务对接,解决木桶效应。低成本一站式接入业务注册调用后,就可以获得全面的风险管控、监控告警、反馈排查等配套服务支持。业务方注册监控、调优全栈式风控引擎降低对接成本可视化引擎可视化编辑决策流定制类策略通用型策略规则编译动态加载规则文件管理器元信息JavaF
4、ileObject源码编译器字节码JavaFileObjectClass对象注入rpc服务执行计划编排RuleRule1Rule2RuleN返回开始微服务装载惩罚中心风险标签用户信息/地址解析三方服务团伙属性风险评分超时兜底流量控制风险权重对外话术日志收集勾选编辑上手门槛低常用策略模型高度复用策略发布流程规范支持高度定制类规则高可用高性能实时订阅智能风控:风控引擎与机器学习平台打通算法层风险评分GBDT+LRDeepFM团伙发现图算法自研无监督垃圾文本TextCNNWide&Deep风险设备IForest自研指纹行为序列Transformer自研团伙序列策略融合风险评分融合评分团伙评分单场景评
5、分白评分团伙发现可解释性团伙标签垃圾文本变体内容行为属性风险设备设备标签唯一性检测机器学习平台算法框架TensorflowPytorchSparkML任务调度公有云打通Docker特征工程特征构造特征计算版本管理升级回退在线预测模型部署准召率评估一键上线风控引擎与算法平台打通实时引擎调用模型微服务实时团伙服务实时评分服务设备异常服务文本实时预测行为序列标签模型解释话术自动分析异常根因分析自动规则生成配套工具后台团伙管理设备查询评分管理行为序列查询智能风控增强欺诈识别能力提升风险感知能力策略评估更准确提升对抗效率智能风控:提升对抗效率监控到波动用户信息特征行为特征风控画像特征注册地、用户等级、手
6、机归属地、区号、手机参数行为IP/设备、行为类型个数(行为路径)、沉默天数、最近登陆地uid/ip/设备风控记录、团伙分数、用户评分提取特征规则提取效果校验挖掘算法决策树(GBDT)、KS、方差分析、分位数提取策略是什么:哪个IP、哪个手机区号粒度:地点:国/省/市,时间:月/日/时阈值:连续:=,离散:in=策略:注册月份=202212&沉默天数110&沉默天数120&今日行为类型数=3评估指标高质量白名单误杀占比(准确率)识别量(召回率)提升效率:减少了 监控排查策略上线 人力与时间 减少监控噪音,提升监控准确性高吞吐设计-行为指标实时计算诈骗:user.level=1000 group
7、by HOP(订单.dateline,INTERVAL 1 MINUTE,INTERVAL N MINUTE)订单扫码HDFSRocksDBHeapjoin state滑动触发count distinctredis高吞吐设计-规则引擎选型引擎选型预研执行策略groovygroovy(CompileStatic)aviatorDrools7javadubbo(10000次)12519/1670dubbo(100000次)111390/6105755dubbo(1000000次)1086102/8821052743逻辑运算(1000
8、0000次)73934528952270321逻辑运算(100000000次)67726952469递归(O(2n))(n=40)187187061/72986626 源代码性能最好 规则检错机制友好 迁移成本低高吞吐设计-预装载缓存优化业务A业务B旧版业务CGuava缓存Guava缓存Guava缓存Mysql业务A业务B新版业务CCaffeine缓存MysqlRedis二级缓存Cacheable(value=u_i,depict=用户信息缓存,enableFirstCache=true,firstCache=FirstCache(expireTime=7200,time
9、Unit=TimeUnit.SECONDS,initialCapacity=60000,maximumSize=60000),secondaryCache=SecondaryCache(expireTime=18000,timeUnit=TimeUnit.SECONDS,isAllowNullValue=true)public UserInfo getUserInfo(long uid)请求量:日均2.5E平均耗时:5ms-1.5ms缓存命中率:32%-87%Caffeine缓存Caffeine缓存高吞吐设计-风险标签存储优化批量注册非法弹幕古早活动抽奖HbaseRedisSetRedis一个
10、用户占位256bit平均耗时:20ms-6ms内存使用:250G-30G批量注册非法弹幕旧版活动抽奖RedisRedisBitmapRedis标签1标签2新版标签NRedisBitmap古早时期,每种异常行为一个set,也有使用Hbase、Mysql等DB,空间浪费、管理混乱、慢查询较多统一使用Redis管理,每种异常标签一个bitmap,缩短查询耗时、减少存储空间,但读取多种标签,就会产生多次IO 一个用户开辟一个bitmap,一把读出所有风险标签 所有用户存放在多段bitmap中,分桶存储,进一步节省key开销提升用户体验友好的风控引导提示 明确用户行为受限原因 提示违规行为的影响 提供申
11、诉入口用户自助申诉 用户自主申诉替代人工客服,节约人力提升效率系统自动解决客诉根据命中策略风险程度、团伙规模等自动判定是否解除限制客诉量监控实时监控客诉量,将客诉量维持在较低的水平策略优化闭环持续优化风控策略模型,推导策略实际准确率,分析命中规则误杀情况DataFunSummit#202303文本识别对抗实践文本识别挑战主播簧薇 ET28六八加 薇 信 OOO7本人私房【大chi 度】激晴自拍视频!想看加徽亻言 baby点我头像 让你爽站 j 6,篁沚 J 1.广告变体 谐音变体、象形变体、拆字变体 联系方式字母数字变体字符 联系方式符号间隔 拼音混合 表情符号代替文字2
12、.低俗辱骂变体 谐音变体、象形变体、拆字变体 拼音缩写 拼音同与同音词混合 表情符号代指p研拉链夹到疍zao屎zao,超生一拳大事你司马没母你顶的我好爽文本识别服务架构标点符号拼音特征表情符号特殊符号映射正则匹配字母数字占比异形字占比硬词匹配模糊匹配谐音匹配自动提炼关键词规则识别敏感词匹配预处理数据层弹幕昵称帖子频道聊天私信标题签名模型管理语料标注模型自动训练准召率评估样本管理模型版本管理算法策略文本相似度ML/DL模型char2vec+textcnnword2vec+textcnnWide&DeepBayes服务层事前拦截事中/事后人审错检/漏检监控误杀降级兜底内容回溯平台自研敏感词匹配算法
13、技术选型字符串Contains普通正则引擎Hyperscan多模正则AC算法时间复杂度O(mn)O(mn)O(m+n)O(n)空间复杂度O(m)O(m)O(m)O(m)初始化耗时低高高低增量添加删除通配支持其中n为待检测文本长度,m为模式串(敏感词)集合的总长度维度算法挑战敏感词通配符?*通配逻辑实现通配长度 误杀率 风险,通配长度 误杀率 风险,最大通配长度需在各个场景、时期、用户上分别配置数十万敏感词,调用量大,直接影响C端用户体验,耗时敏感自研敏感词算法敏感词:自制枪支自制?枪自制*枪待检测文本(最大通配长度m=3):售卖自制散弹枪联系微信zzsq47988基于NFA的通配敏感词匹配算法
14、2级非白用户风险评分80敏感词:群*懂*的20级白用户风险评分5m=2粉丝群说啥了,懂的人解释一下m=15加群79648729都懂的不命中命中枪?m-1=2root自制支枪end*枪endend联end动态调整最大匹配长度:时间复杂度:O(n),其中n为待检测文本长度敏感词自动发现FROMFROMTOTOaaa aeajjc12.a2jccjcc都俛的6210382变体字符字典(约3k)a2jcc都俛的,a2jcc 2jcc都俛的,jcc都俛的,cc都俛的6210382,2103822 j,都俛的a2,都俛的鐄a2j,a2 cc都俛的Q群六210丶382直接来来球群621082看刺激的Q群21
15、零3 2周姐的视频a2jcc都俛的a2jcc都俛的鐄a2jcca2jcc都俛的q622q6210382后缀树输入“abc”,“abd”得到公共子串:a、b、ab长度大于5、重复3次及以上rootan=2bn=2cn=1$dn=1$bn=2dn=1$cn=1$cn=1dn=1$异形字公共子串联系方式公共子串DataFunSummit#202304思考与展望思考与展望1.自动分析目前还处于半自动挖掘虽然自动化分析可以给出初步的风险策略建议,但还不够成熟,存在特征重复、阈值不合理、召回率较低等问题,需要持续迭代优化2.拥抱向量检索 文本相似检索 违规行为匹配3.大模型应用 大模型识别文本变体的能力显著 当前特征标签本身还是人工维护创建的,受限于人员的思路宽度,存在无法召回的情况,是否可以借用大模型自动化构建特征标签和策略?感谢观看