上海品茶

您的当前位置:上海品茶 > 报告分类 > PDF报告下载

2-2 OpenMLDB:开源实时特征计算全栈解决方案.pdf

编号:102477 PDF 32页 5.19MB 下载积分:VIP专享
下载报告请您先登录!

2-2 OpenMLDB:开源实时特征计算全栈解决方案.pdf

1、开源机器学习数据库 OpenMLDB:线上线下一致的生产级特征计算平台第四范式(北京)技术有限公司Copyright 2021 4Paradigm All Rights Reserved.2022 年 4 月卢冕OpenMLDB 研发负责人,第四范式系统架构师About Me2!-!#$OpenMLDB%&()-*+,-./0123456789:;78()-?ABCDEFGHI=J.目录31.!#$%&()*+,-./02.OpenMLDB1232456)789-.:;?ABCDEF1.AI 工程化落地的数据和特征挑战4正确、高效的 AI 数据和特征供给成为数据侧的新挑战95%!#$%&()*

2、Source:How to Operationalize Machine Learning and Data Science Projects,Gartner AIMLOps 的完整生命周期DataOps()+,()-.FeatureOps/01234 12-.567ModelOps 89:;?ModelOps 0A BC()DEFeatureOps F!1234 12GHDataOps F!()EIJ F!KLProductionOpsMNOPNQRSPTUVWPF!XY!#$%&KLMNKLMNOPQROPQR应用背景:决策类场景基于时序数据的特征工程-!#$%&()*+,-./01&-基

3、于时间窗口的聚合函数开发场景:满足生产级上线需求的实时推荐系统userdatesearching!2022.1.15#$%F!Z12user过去三个月30-35岁顾客买的前三畅销洗衣机小李当天浏览过的洗衣机平均价格小李半小时内浏览过的洗衣机优惠力度最大的型号小李1.Samsung WW75TA046TE2.Bosch WAJ20180SG3.Panasonic NA-V11FX2LSG3000Bosch WAJ20180SGO()_()a()+F!1234业务需求 特征实时计算,满足延迟 20 ms!#$%&()*+,实时特征抽取线上服务工程化团队Database/C+线上预估服务实时特征离线

4、特征抽取离线开发数据科学家Python/SparkSQL线下模型训练离线12特征计算平台开发到上线全生命周期9计算逻辑一致性校验-.:;=-.:;=线上线下不一致性可能的原因!#$%&()!#$%&()*+,-%./0*+,-%./0Account Balance0*bO0*bOcurrent“account balance”/0cd/0cd“account balance”as of yesterday/0cd/0cd0*bO0*bO线上线下一致性校验带来的高昂工程化落地成本两套系统的开发!#两组不同技能栈的开发人员投入对齐+!71567特征计算平台工程化解决方案1%!

5、#$耗费上千小时自研构建平台%!#$采购昂贵的SaaS!#$%拥抱开源 OpenMLDB 低成本&()*+,-./02.OpenMLDB:线上线下一致的生产级特征计算平台13OpenMLDB 是一个开源机器学习数据库,提供线上线下一致的特征计算平台解决方案14#$%&#$%&GHI1.!SQL#$%&(2.)*+,-!3./0123456OpenMLDB 应用场景和使用方式OpenMLDB-./01!23456!789:;?R!?R!ABCDOpenMLDB-./1!EFGHIJK-.LMNOPQRSR1!?!?!ABCD离线计算性能需求实时计算性能需求OpenMLDB-./TUEFVWI+,

6、56EF781!?R!?!ABCD高高从离线开发到线上服务完整流程161.Offline data import2.Offline feature extraction3.SQL deployment4.Data importfor cold-startOffline databaseOnlinedatabase5.Real-time data streams6.Online data preview7.Real-time feature extractionReal-time requestsReal-time featuresOffline ModeOnline ModeRequest M

7、odeSQLTime windowModel trainingInference产品特性一:线上线下一致性执行引擎17 7)89:;?;ABC;8!-!DEFGHIJKL!#$%&(JKLM产品特性二:高性能在线特征计算引擎18-23456789:;?%*AB0CD+EFGHDouble-layer skiplistPre-aggregation产品特性三:面向特征计算的优化的离线计算引擎19-IJKLMCD?%-&NOCD?%-PQRSCD?%T Spark UMVElapsed time(sec)Spark 3.0.0OpenMLDB产品特性四:针对特征工程的 SQL 扩展20LAST J

8、OINWINDOW UNIONFetch the last record when matching multiple rowsWindow aggregation across two tables产品特性五:企业级特性支持21高可用可无缝扩缩容可平滑升级企业级监控云原生多租户为大规模企业级应用而生已在上百个场景中实践落地产品特性六:以 SQL 为核心的开发和管理体验22OpenMLDB CLI/01234SQL ef*00*KLNO SQL,CLI)*+,-./023ModelOpsOpenMLDB 上下游生态DataOpsFeatureOps-ProductionOps=Offline

9、Data SourcesOnline Data SourcesDeploymentMonitoringOffline SQL Engine(external storage)Online Storage EngineOnline SQL Engine(*built-in,in-mem)(*built-in)(*OpenMLDB Spark Distribution)*ghijDolphinScheduler拥抱前沿新硬件技术:基于持久内存的优化klm-nPersistent MemoryopqrstuPvSwPNklxyzxm-|OpenMLDB klm-y?pWPMxPstuhtCpChen

10、g Chen,et al.Optimizing in-memory database engine for AI-powered on-line decision augmentation using persistent memory.VLDB 2021.Reduce 99.7%of recovery timeReduce 20%of tail latencyReduce 58.4%of TCOOpenMLDB 典型案例 某银行事中反欺诈交易25机器学习平台在线预估实时风控应用模型预估实时特征计算预处理API模块数据对接模块模型缓存风控引擎KafkaPRM自学习授权后交易流水卡核心模型预估增

11、量训练批处理特征计算数据引入人工核查结果数据下发授权前交易报文事中交易风控系统架构图通过SDK调用推送授权前交易流水订阅授权后交易流水 对接实时流计算引擎及消息队列 高性能实时时序数据抽取 实时交易闭环数据回写 实时高并发的读写分离支持OpenMLDB 提供分布式、可扩展的在线预估服务快速响应能力,将毫秒级变化作为特征入模P 客户需求:响应时间20ms内、高准召率的事中反欺诈系统解决方案响应时间准召率传统规则系统200ms较差客户自研系统50ms中等基于 OpenMLDB 方案GHT234Y0ZJKCD:hI&connectorsOpenMLDB 后续重要特性32Cloud native OpenMLDBRSWX$T?%#$%&_RSV(x/*+,-.*/01234567

友情提示

1、下载报告失败解决办法
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。

本文(2-2 OpenMLDB:开源实时特征计算全栈解决方案.pdf)为本站 (云闲) 主动上传,三个皮匠报告文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三个皮匠报告文库(点击联系客服),我们立即给予删除!

温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。
会员购买
客服

专属顾问

商务合作

机构入驻、侵权投诉、商务合作

服务号

三个皮匠报告官方公众号

回到顶部