上海品茶

图聚类在虎牙风控的实践.pdf

编号:136937 PDF 23页 2.03MB 下载积分:VIP专享
下载报告请您先登录!

图聚类在虎牙风控的实践.pdf

1、DataFunSummitDataFunSummit#20232023图机器学习在虎牙风控中的应用邓钰钊-虎牙-风控算法工程师虎牙风控背景介绍图聚类在虎牙风控的实践总结与展望问答目录 CONTENTDataFunSummitDataFunSummit#2023202301背景介绍虎牙的业务场景和风险营销活动作弊 百宝箱、藏宝图、用户回流礼包、投票选秀、答题、抽奖、竞猜刷量刷榜贵宾席、人气、观看时长、搜索热榜内容违规风险直播违规、视频违规、文本违规(弹幕、私信、动态评论、昵称、个签)充值作弊 渠道流量作弊 身份验证盗号、诈骗、未成年人识别风控的意义内容生态不健康不真实,会影响体验,长期会带来优质

2、用户流失用户体验产品生存社会影响监管风险虎牙直播平台是一个面向数亿用户的平台,如果平台里面涉及违规违法信息,影响面是很广的。传统黑产对抗方案专家规则黑、灰、白名单有监督风控模型优点:简单、准确率高,可直接用于检测拦截缺点:需对欺诈行为有深入了解以及强的业务经验,无法及时有效应对欺诈手段变化 优点:准确率高缺点:成本高,更新慢优点:可以挖掘多维数据的隐式关系缺点:严重依赖样本标注,无法应对不断演变的欺诈攻击,被动地应对欺诈 DataFunSummitDataFunSummit#2023202302图聚类在虎牙风控的实践为什么需要图聚类?标签难获取标签难获取图聚类支持无监督学习,不需要标签即可从正

3、常用户中聚类出异常团伙。类别不均衡类别不均衡图算法能综合利用节点的特征和关联关系。图上的节点往往出现了一定聚集性,而且这种出现聚集性的节点风险一般比整体水平风险高,在一定程度上改善了类别不均衡的问题。传统介质聚集性易绕过传统介质聚集性易绕过因单次参与营销活动获利有限,为获取规模利益,黑灰产往往操纵批量账号团伙攻击;基于单一介质(设备、手机号、IP)聚集性策略有效但易被黑产绕过,且难以利用隐式的关联关系,图聚类挖掘关联紧密团伙可解释性可解释性图本身是一种可视化形式,相较于其他算法,有天然的可解释性优势。痛点图聚类在虎牙风控中的应用结构化数据数据预处理特征因子开发图聚类团伙输出非结构化数据自动规则

4、引擎团伙合并风险等级输出滑动窗口内用户数据有监督/评分卡模型频繁项挖掘业务实践图表示聚类团伙ID场景团伙评级团伙人数成团原因G1S1高危56String1G2S2高危32String2拦截、验证扩充有监督训练数据报障、业务经验根据交叉验证、流量曲线评估、优化Uid特征1特征2特征3特征N-1特征NI1X1X2X3X_N-1X_N图表示聚类Uid特征1特征2特征3特征N-1特征NI1X1X2X3X_N-1X_N团伙合并提取规则XX常用的图算法谱聚类谱聚类协同过滤协同过滤LouvainLouvainPageRankPageRank.DGIDGIGCNGCNGATGATGraphSageGraphS

5、age.传统图算法图深度学习Louvain社区发现算法 Louvain算法的动态过程1.首先扫描数据中的所有节点,将每个节点看作一个独立的社群;2.接下来,遍历每个节点的邻居节点,判断是否将该节点加入邻居节点所在的社群,以提升模块度;3.这一过程重复迭代,直到每一个节点的社群归属稳定;4.最后,将所有在同一个社群的节点压缩成一个新节点,计算新节点的权重,直到整个图的模块度稳定图片来源:https:/ 核心思想通过优化模块度(modularity)来检测和划分网络图中的社区结构。Why Louvain?层次结构Louvain算法采用递归的思想,通过多次迭代和社区聚合来发现网络中的层次结构。这使得

6、它在处理具有复杂层次结构的网络时具有更好的扩展性。在输出可解释性规则时更灵活控制。无需预设参数Louvain算法在寻找社区结构时,不需要预先设定聚类或社区数量。它可以在迭代过程中自动确定最优社区划分。许多其他图聚类算法如K-means聚类或谱聚类需要预设参数,例如簇的数量。计算效率Louvain算法采用启发式方法,在寻找社区结构时具有较好的计算效率。相较于其他图聚类算法,如谱聚类或Girvan-Newman算法等,Louvain算法在处理大型网络时的时间复杂度较低。自动点击插件自动点击+云手机自动点击+云手机+电量+相同ip地址自动点击+云手机+ip为什么还需要Dbscan?Louvain算法

7、主要关注网络模块度的优化,其核心目标是获取紧密相连的节点组(社区)。噪声点通常指在图中随机存在且不属于任何特定社区的节点(在我们的语境下指无聚集的正常用户)。然而,Louvain算法并没有专门针对这些噪声点的处理方式,它会试图将它们划分到已存在的社区中。DBSCAN具有较好的噪声处理能力,可以将噪声点作为特殊类别识别。噪声点的处理L o u v a i nD b s c a n图片来源:https:/scikit-learn.orgWhy Dbscan?不受簇数量的影响:DBSCAN算法基于密度来划分簇,不需要预先指定簇的数量。相比于K-means聚类等聚类算法,它更适用于簇数量不定的情况。最

8、大缺点是对参数敏感,会受到邻域半径Eps和最小点数MinPts的影响。但由于在我们的特定业务场景下,我们本来就需要指定最小成团人数以及设定领域半径,我们更方便调整特征权重。L o u v a i nD b s c a nDbscan无监督聚类 算法流程1.扫描整个数据集,找到任意一个核心点,对该核心点进行扩充。扩充的方法是寻找从该核心点出发的所有密度相连的数据点。遍历该核心点的 邻域内的所有核心点(因为边界点是无法扩充的),寻找与这些数据点密度相连的点,直到没有可以扩充的数据点为止。最后聚类成的簇的边界节点都是非核心数据点。2.重新扫描数据集(不包括之前寻找到的簇中的任何数据点),寻找没有被聚

9、类的核心点,再重复上面的步骤,对该核心点进行扩充。3.直到数据集中没有新的核心点为止。数据集中没有包含在任何簇中的数据点就构成异常点。图片来源:Wikipedia技术细节:dbscan如何定义距离UIDUIDA AB B手机品牌HUAWEIHUAWEIipX.XX.XXYX.Y.XX电量54%54%点击序列1,2,5,31,2,5,3.特征特征权重手机品牌0.15ip0.8电量0.3点击序列0.35.ABd=0.15+0.3+0.45=0.9将所有特征one-hot之后,计算两个用户之间的jaccard距离优化优化考虑不同特征的权重,定义两个用户之间的带权重jaccard距离Navesim(,

10、)ABABABUUUUUUmin(,)sim(,)max(,)iiABiABiiABiUUUUUU1212.nAAAnAUUUU?如何初始化权重技术细节:如何提高实时性图片来源:Wikipedia在滑动窗口内,对所有请求数据构建图,进行图聚类输出优化优化原始原始首先更新该节点与时间窗内所有成员的距离然后找到它所属的核心节点以及团多个团都符合,先来后到技术细节:如何提高实时性图片来源:Wikipedia在滑动窗口内,对所有请求数据构建图,进行图聚类输出优化优化原始原始首先更新该节点与时间窗内所有成员的距离然后找到它所属的核心节点以及团多个团都符合,先来后到技术细节:可解释性?成团规则DataFu

11、nSummit|频繁集挖掘(FP-Growth)规则1:应用版本:1.0.0客户端:ios系统版本:14.2规则2:手机号段:086135XXX应用版本:1.0.0客户端:ios系统版本:14.2DataFunSummitDataFunSummit#2023202303总结与展望总结与展望展望展望1.可解释性是风控场景模型应用绕不开的问题,如何使更多概率模型可以发挥可解释可解释的作用是需要思考的。2.风控是与黑灰产动态博弈的过程,我们在提升技术水平时,黑灰产作弊手法多变,技术水平也在不断提升,如何提升自动化对抗能力提升自动化对抗能力是需长期研究的问题。总结总结1.图聚类支持无监督学习,可综合应用节点特征和关联网络信息,在解决无/少标签的团伙欺诈问题中发挥了重要作用,是智能风控体系中不可或缺的一部分。感谢观看

友情提示

1、下载报告失败解决办法
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。

本文(图聚类在虎牙风控的实践.pdf)为本站 (2200) 主动上传,三个皮匠报告文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三个皮匠报告文库(点击联系客服),我们立即给予删除!

温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。
客服
商务合作
小程序
服务号
会员动态
会员动态 会员动态:

  set**er 升级为高级VIP 139**80... 升级为至尊VIP

wei**n_...  升级为标准VIP wei**n_...  升级为高级VIP

wei**n_... 升级为至尊VIP  一朴**P... 升级为标准VIP

133**88... 升级为至尊VIP   wei**n_... 升级为高级VIP 

159**56... 升级为高级VIP   159**56... 升级为标准VIP

升级为至尊VIP 136**96... 升级为高级VIP  

wei**n_... 升级为至尊VIP  wei**n_... 升级为至尊VIP 

wei**n_...  升级为标准VIP   186**65... 升级为标准VIP

137**92...   升级为标准VIP  139**06... 升级为高级VIP

130**09... 升级为高级VIP  wei**n_... 升级为至尊VIP 

 wei**n_... 升级为至尊VIP wei**n_... 升级为至尊VIP 

 wei**n_... 升级为至尊VIP  158**33...  升级为高级VIP 

骑**...   升级为高级VIP  wei**n_... 升级为高级VIP 

 wei**n_...  升级为至尊VIP  150**42... 升级为至尊VIP

 185**92...  升级为高级VIP dav**_w...   升级为至尊VIP

zhu**zh... 升级为高级VIP  wei**n_... 升级为至尊VIP  

136**49...  升级为标准VIP 158**39...  升级为高级VIP 

wei**n_... 升级为高级VIP  139**38... 升级为高级VIP 

159**12...  升级为至尊VIP  微**... 升级为高级VIP

185**23...  升级为至尊VIP wei**n_...  升级为标准VIP 

152**85... 升级为至尊VIP ask**un  升级为至尊VIP

136**21... 升级为至尊VIP   微**... 升级为至尊VIP

135**38... 升级为至尊VIP   139**14... 升级为至尊VIP 

 138**36... 升级为至尊VIP   136**02... 升级为至尊VIP

  139**63... 升级为高级VIP wei**n_...  升级为高级VIP

Ssx**om   升级为高级VIP wei**n_... 升级为至尊VIP 

131**90...  升级为至尊VIP 188**13...  升级为标准VIP

 159**90...  升级为标准VIP  风诰 升级为至尊VIP

182**81... 升级为标准VIP  133**39...  升级为高级VIP

 wei**n_... 升级为至尊VIP 段** 升级为至尊VIP 

wei**n_...  升级为至尊VIP  136**65... 升级为至尊VIP

 136**03... 升级为高级VIP wei**n_... 升级为标准VIP 

 137**52... 升级为标准VIP   139**61...  升级为至尊VIP

微**...  升级为高级VIP wei**n_... 升级为高级VIP

188**25...  升级为高级VIP  微**... 升级为至尊VIP

wei**n_... 升级为高级VIP   wei**n_...  升级为标准VIP

 wei**n_... 升级为高级VIP wei**n_... 升级为标准VIP 

186**28... 升级为标准VIP   微**... 升级为至尊VIP 

wei**n_... 升级为至尊VIP wei**n_... 升级为高级VIP

 189**30... 升级为高级VIP 134**70... 升级为标准VIP

 185**87... 升级为标准VIP  wei**n_...  升级为高级VIP

wei**n_... 升级为至尊VIP  微**...  升级为至尊VIP

 wei**n_... 升级为标准VIP wei**n_...  升级为至尊VIP

wei**n_...  升级为标准VIP  132**09... 升级为至尊VIP 

麦提 升级为高级VIP   wei**n_... 升级为高级VIP

wei**n_...  升级为至尊VIP  wei**n_... 升级为标准VIP

wei**n_... 升级为至尊VIP  wei**n_... 升级为标准VIP 

wei**n_...  升级为至尊VIP wei**n_...  升级为标准VIP

 182**18... 升级为高级VIP 中**... 升级为至尊VIP 

136**77... 升级为标准VIP  wei**n_... 升级为标准VIP