上海mm自荐(上海喝茶自带工作室,爱上海)

上海品茶

多表自动机器学习应用研究-罗远飞.pdf

上传人：2***

编号：127305

2023-05-01

31页 3.21MB

《多表自动机器学习应用研究-罗远飞.pdf》由会员分享，可在线阅读，更多相关《多表自动机器学习应用研究-罗远飞.pdf（31页珍藏版）》请在三个皮匠报告上搜索。

1、多表自动机器学习罗远飞第四范式资深算法研究员个人经历第四范式推荐算法负责人从零研发了第四范式的AutoML算法平台算法效果上，优于谷歌云入选Gartner、Forrester全球AutoML平台代表厂商负责了机器学习在金融、能源、制造、零售和媒体等多个领域的落地服务客户包括工行、宁德时代、人民日报、百胜中国等在KDD、SIGIR、ACL、EMNLP等发表多篇论文竞赛 KDD Cup 2020强化学习世界冠军国内首届迁移学习算法竞赛冠军农行雅典娜杯算法竞赛冠军大纲背景多表自动特征类型推断多表视图特征工程资源感知的AutoML 企业级AutoML落地案例总结背景

2、机器学习：利用经验（数据）来改善系统的性能 Zhou机器学习数据(E)性能(P)任务(T)Mitchell背景自动机器学习(AutoML)模型应用到实际环境背景为什么要AutoML：供需不平衡 Gartner预测：2022年企业平均AI应用部署数量相比2019年增长9倍技术技术人才人才成本成本优秀的人才极为紧缺不同的人在同一个业务上的建模效果差距非常大同一个人在不同业务上的建模效果差距也非常大收益无法评估计算资源成本、人力成本太高企业不愿意持续大胆创新技术眼花缭乱数据科学家采用的数据标准化程度低无法形成标准化沉淀，加速度差背景为什么要做自己的AutoML产品大多现有

3、产品不支持多表不能很好的结合人的经验上线困难能处理的数据量有限，分布式不友好我们的产品：企业级AutoML 支持多表自动拼接与自动特征工程交互式自动机器学习，Human-In-the-Loop 支持一键上线，线上线下一致的数据处理逻辑支持海量数据处理，并针对拼表、大规模分布式机器学习算法特殊优化背景表数据离散列:用户ID 连续列:身高日期、时间戳、IP等多表表格多达上百个字段类型不明确链接关系复杂 1-1/1-M/M-1/M-M大纲背景多表自动特征类型推断多表视图特征工程资源感知的AutoML 企业级AutoML落地案例总结多表自动特征自动类型推断在

4、数据包含异常和缺失的情况下，如何准确的推断字段类型启发式正则表达式 Pandas/R的内置规则型类型推断基于模型的经典有监督学习类方法抽取特征，训练分类模型生成式模型概率化有限状态机（Probabilistic Finite-State Machines，PFSM）ptype,2020多表自动特征概率化有限状态机将不同的字段类型作为有限状态机的节点，建立概率图模型同时引入异常和缺失两类节点训练阶段，在数据上学习节点间的转移概率预测阶段，使用概率最大的类型作为预测结果多表自动特征多表拼接Deep Feature Synthesis,2015;OneBM,2017 端到端

5、的生成方式，缺乏灵活性，不能有效融入人的经验时序拼接能力有限 Human-In-the-Loop的多表操作 Ontology 多表的统一抽象 MetaPath 统一的单表和跨表运算逻辑描述 E1 C E2,其中C=(id,key1,key2,r,O)Entity 每个表格当作一个实体 Relation 定义表格间的固有链接关系1-1/1-M/M-1/M-M多表自动特征多表视图展示多表间的MetaPath修改多表间的MetaPath展示多表链接多表自动特征特征生成 Transform Operator 行间算子 log/sum 时序聚合算子 window操作组内聚合算子 groupby

6、Stateful Operator normalization Multi-table Operator 按照ID聚合并取均值多表自动特征特征生成多表连接可能存在环路消环单向/双向可能的特征空间为指数级结合黑白名单的一次性生成 Deep Feature Synthesis 迭代式基于集束搜索 AutoCross多表自动特征特征选择AutoCross,2019 类Boosting机制的Field-wise LR 基于参数服务器，一次扫描数据，即可得到所有特征的重要性结合多保真度，进一步降低评估代价大纲背景多表自动特征类型推断多表视图特征工程资源感知的AutoML 企

7、业级AutoML落地案例总结资源感知的AutoML 给定资源下，如何找到更好的超参数多保真度超参数优化HyperBand,2017连续减半算法（SHA,Successive Halving Algorithm）Jamieson&Talwalkar资源感知的AutoML 给定资源下，一个任务需要运行多久基于规则基于模型基于性能计数器：CPU性能分析/性能诊断/虚拟机分配等需要的训练数据多；黑盒化，可解释性低任务无关基于任务机理模型 Ernest,2016 需要的训练数据少；可解释性强需要对任务机制有清晰的了解；对于复杂pipeline效果有限资源感知的AutoML Ernest

8、:Efficient Performance Prediction for Large-Scale Advanced Analytics 现代计算任务大都复杂度较低，如亚线性、线性、拟线性对于某一个数据项而言，其计算代价不随机器数量发生变化任务间的通信模式比较固定，如左图设M为机器数量，则耗时T为：=0+1?1?+2 log?+3 以不超过5%的额外开销，实现了不超过20%的预测误差模型简单，可解释性强更细致的分析，更多的特征，更复杂的模型资源感知的AutoML 给定资源下，如何得到更好效果的AutoML pipeline cost作为评价的一部分FLAML,2021 通过采样来控制

9、计算代价 CV与holdout 代价直接通过数据量来换算将采样策略与模型复杂度耦合通过超参数来控制模型复杂度控制器根据ECI(Estimated Cost for Improvement)控制效果与代价的trade-off大纲背景多表自动特征类型推断多表视图特征工程资源感知的AutoML 企业级AutoML落地案例总结企业级AutoML落地案例从“OODA理论”提炼的自动机器学习闭环流程观察（Observe），调整（Orient），决策（Decide），行动（Act）企业级AutoML落地案例AIAI模型可解释、特征可解释模型可解释、特征可解释一键自动建模一键自动建模全

10、流程闭环设计全流程闭环设计模型一键上线、数据自动回流、指标自动计算模型一键上线、数据自动回流、指标自动计算落地案例-某互联网广告公司点击率预测模型效果模型效果基于2000万训练数据，建立50005000万维万维的高维模型，更精细化的刻画原有的画像体系线下400万数据评测结果中，在同样的67%召回率下，模型的准确率达到了准确率达到了6868%线上效果线上效果上线日日PVPV数数2 2亿亿左右，在QPS3000左右，请求响应时间在10ms10ms以内根据持续持续1414天的线上观察天的线上观察结果显示，线上点线上点击率提升击率提升2020%。在这样的点击率下，带来巨大的广告收入提升落地案例-某手机

11、银行APP组合推荐项目模型效果实施周期人力成本AUC：0.752数据回流闭环，模型效果持续提升人员类别人月数科学家1人月开发4*1=4人月架构师1人月1个月1个月基金子模型上线理财/保险/贷款子模型上线2020年4月24号5月24号6月12号客户A客户B客户C产品A产品B产品C时间A时间B2019/03/12 20:33:452019/08/12 12:04:54时间C2020/01/12 08:15:33基金/理财/保险/贷款/存款五种金融产品手机银行APP组合推荐*以理财推荐子模型为例AUC：0.749在同样的验证集下，一期人工建模AUC=0.7192018&2019年组合推荐一期2019年9月2019年11月3个月2018年2018年3个月基金/理财子模型上线保险/贷款子模型上线人员类别人月数科学家2*3=6人月开发4*2=8人月架构师1.5*2=3人月AUC：0.82大纲背景多表自动特征类型推断多表视图特征工程资源感知的AutoML 企业级AutoML落地案例总结总结 AutoML实际落地需要处理多表自动类型推断自动多表拼接自动多表特征工程 AutoML过程需要更加透明，对人参与更加友好交互式AutoML 通过将资源评估引入AutoML探索过程，可在有限资源内，得到效果更好的AutoML pipeline谢谢！