上海品茶

您的当前位置:上海品茶 > 报告分类 > PDF报告下载

非结构化数据智能风控.pdf

编号:136976 PDF 17页 1.43MB 下载积分:VIP专享
下载报告请您先登录!

非结构化数据智能风控.pdf

1、DataFunSummit#2023非结构化场景智能风控实践曾利彬-算法专家-蚂蚁集团DataFunSummit#202301业务背景介绍业务背景全球收款业务风险点:商户入驻真实性贸易真实性禁限售信用欺诈收单渠道盗用账户资金安全全球付款跨境电商收款外贸B2B收款汇兑服务中国企业(卖家)1 交易撮合,缔结合同贸易材料:贸易合同发票,询盘记录境外企业(买家)2 发货贸易材料:快递单、海运提单、报关单,沟通记录2 发货货运公司(optional)3 汇款4 收款并结汇入境主要风险点主要风险点为真实性风险,非真实贸易收款可能带来合规风险或欺诈风险业务背景-B2B跨境贸易真实性B2B跨境贸易一般流程业务

2、背景-B2B跨境贸易真实性真实性风险案例一商户提供的材料无法证明其真实贸易背景,资金来源不明,例如提供了无法验证的跨境物流单据业务背景-B2B跨境贸易真实性真实性风险案例二商户通过电信诈骗等方式骗取境外用户的资金,伪装成B2B跨境贸易背景跨境收款结汇,例如使用虚假的物流单据和网站 物流状态一直是label created,处于揽收状态,未有实际货物运输虚假的物流单据:网页主体不匹配:客户提供了的商户主页,网页显示名称与商户报备企业名称不符业务背景-B2B跨境贸易真实性用户提交贸易背景证明材料贸易真实性审核贸易合同发票跨境物流证明其他材料-贸易材料完整性审核:资金、合同、货物三方面信息是否一致,

3、例如收款人=合同卖方=发货人,付款人=合同买方=收货人-贸易材料真实性审核:基于第三方数据验证、信息匹配程度等判断其真实性-网址:售卖商品的网址-沟通记录:咨询沟通询盘等记录-委托证明:代理发货、委托付款等证明国际快递、海运、空运、铁路运输单跨境贸易合同,标明了买卖双方、商品、交货和付款方式信息DataFunSummit#202302算法技术介绍非结构化场景算法技术介绍算法技术链路:用户提交材料OCR文本内容:Parcop S.r.l.文本位置(文本框坐标)信息获取:文档分类、关键信息解析文档分类:国际快递信息比对:主体一致性+收货人与付款人名称是否一致?智能风控目标:借助算法技术手段实现B2

4、B跨境贸易验真场景的自动化验真,实现风险与成本的最优场景特点:非结构化数据场景,所有信息都需要从非结构化的贸易文档获取关键字段结果收货人名称:Parcop S.r.l.非结构化场景算法技术介绍技术难点1:非标文档如何获取信息技术难点2:企业多语种名称如何比对拼音相似读音相似中文名:广州必一科技有限公司英文名:guangzhou biyitechnology co.,ltd.中文名:苏州拓浦微实业有限公司英文名:suzhou top view industrial co.,ltd每个商家提交的文档风格都不一样,有图像多的,有文字多的,有KV型的,有非KV型的,文档理解是个难题企业的多语种名称(例

5、如中英文)如何比对是个难题非结构化场景算法技术介绍非标文档中如何获取想要的信息?VeLayoutLM:多模态对齐预训练模型1.充分利用文本周围的图文信息多模态对齐:图像、文本、布局文本+周围文本推测:这是一个发货人名称文本+周围图像推测:这是一个物流服务商2.模型有足够的先验知识:大规模数据预训练-Hightlight 1:层次化的mask方案,解决多模掩码难题-Hightlight 2:多模对齐的预训练任务,充分利用图像、文本、布局信息Mask Image Modeling:通过周围图像预测掩盖图像Multimodel Mask Language Modeling:通过周围文本+布局预测掩盖

6、文本,布局和文本的对齐Hierarchical mask Text-Image:推测某段文本是否被mask,图像+布局与文本对齐-效果:在公开数据集和业务数据集的多模文档分类、信息解析任务F1均超过90%非结构化场景算法技术介绍企业的多语言名称比对如何做?语义语音分别表征中英文音译模型鲁棒性问题:拆分与合并规则如何设计?通用性问题:如何推广到更多实体更多语言?中英文企业名称规则拆分多语言语义表征规则合并判断 XLM语义语音融合的多语言表征中文企业名称多语言名称库人名:NEWS 2018世界人名词典企业名称:业务数据英文企业名称拼音相似检索模糊匹配检索传统文本增强:同义词替换 词序替换 翻译替换

7、读音相似增强:语义+读音的数据增强方案使用语义语音融合表征+表征距离计算方案,相比较于初版方案效果更优 有的词是语义翻译 有的词是拼音 有的词是读音相似 语义和语音结合比对语义语音融合表征 参考多模态模型结构,把音标作为一个模态 使用对比学习方式拉近句子级别表征中文名:广州必一科技有限公司英文名:guangzhou biyitechnology co.,ltd.中文名:苏州拓浦微实业有限公司英文名:suzhou top view industrial co.,ltdDataFunSummit#202303智能风控实践非结构化场景智能风控实践贸易模式分类中国企业(卖家)境外企业(买家)买卖家缔结

8、合同货代公司货代公司发货给买家买家汇款给卖家合同&资金关系(贸易发票、银行来款信息)物流关系(物流单据)中国企业(卖家)境外企业(买家)卖家发货给买家货代公司/三方收货人卖家发货给第三方货代公司发货给第三方两方模式三方模式-第三方发货三方模式-第三方收货四方模式-第三方发货和收货贸易模式还原基于用户上传的贸易材料,匹配合同&资金关系、物流关系,判断其贸易模式 资金收款人 VS 合同卖家 资金付款人 VS 合同买家 资金付款人 VS 物流收货人 资金收款人VS 物流发货人用户历史有材料证明使用了第三方发货模式贸易模式:第三方发货业务解决方案-贸易材料完整性如何保障?贸易材料完整多方参与的B2B跨

9、境贸易,天然存在例如发货人与卖家不同的情况,针对每种贸易模式设计针对性的解决方案非结构化场景智能风控实践业务解决方案-贸易材料真实性如何保障?物流履约验真网址验真用户上传物流单物流单分类模型物流单解析模型用户网址爬虫网页元素提取网页分类模型:是否合格网页信息比对模型:名称是否匹配 物流状态 发货国家 收货国家三方数据查询三方数据验证适合非标文档的伪造识别方案,核心是“找重复”和“找不同”找重复:关键要素重复识别贸易单据解析结果:快递单号发货人手机号发票号码文本向量化相似性检索找不同:文字风格差异识别可以进行三方数据验证的点-物流验证和网址验证预训练backboneContrastive Lea

10、rningPositive:同一张单据相近的文本框Negative:不同类型单据的文本框/样本生成篡改检测:计算贸易单据上文本框与周围文本框的差异性文档篡改检测三方数据验证和对文档进行篡改检测,提高造假成本非结构化场景智能风控总结算法能力非标文档信息获取文档OCR贸易文档智能解析商户营业执照/个人证件海关报关单/合同发票/快递单/海运提单/网页截图外部数据查询工商数据查询物流数据查询快递/海运/空运/报关单 网址查询验证主体名称比对行业比对文档风险识别非标文档篡改识别重复性检测黑图库检索信息比对业务场景实践方案用户提交材料:贸易合同发票、物流单、网址资金信息:资金收付款人、金额材料完整性验证:贸易模式还原 贸易合同发票、物流单OCR和智能文档解析 根据文档解析结果还原贸易模式闭环,验证材料完整性物流验真网址验真 物流单OCR和智能文档解析 根据解析物流服务商和单号进行外部查询验真 网页内容智能解析 网址与商户名称匹配验证 效果:90%+外贸收款及结汇入中材料可由智能风控系统自动审核完成,相比较于人工审核在风险和成本上均大幅下降,并有效缩短外贸商家整个交易流程耗时文档篡改检测 非标文档篡改检测 重复性检测感谢观看

友情提示

1、下载报告失败解决办法
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。

本文(非结构化数据智能风控.pdf)为本站 (2200) 主动上传,三个皮匠报告文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三个皮匠报告文库(点击联系客服),我们立即给予删除!

温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。
会员购买
客服

专属顾问

商务合作

机构入驻、侵权投诉、商务合作

服务号

三个皮匠报告官方公众号

回到顶部