《多表自动机器学习应用研究-罗远飞.pdf》由会员分享,可在线阅读,更多相关《多表自动机器学习应用研究-罗远飞.pdf(31页珍藏版)》请在三个皮匠报告上搜索。
1、多表自动机器学习罗远飞第四范式 资深算法研究员个人经历 第四范式推荐算法负责人 从零研发了第四范式的AutoML算法平台 算法效果上,优于谷歌云 入选Gartner、Forrester全球AutoML平台代表厂商 负责了机器学习在金融、能源、制造、零售和媒体等多个领域的落地 服务客户包括工行、宁德时代、人民日报、百胜中国等 在KDD、SIGIR、ACL、EMNLP等发表多篇论文 竞赛 KDD Cup 2020强化学习世界冠军 国内首届迁移学习算法竞赛冠军 农行雅典娜杯算法竞赛冠军大纲 背景 多表自动特征 类型推断 多表视图 特征工程 资源感知的AutoML 企业级AutoML落地案例 总结背景
2、 机器学习:利用经验(数据)来改善系统的性能 Zhou机器学习数据(E)性能(P)任务(T)Mitchell背景 自动机器学习(AutoML)模型应用到实际环境背景 为什么要AutoML:供需不平衡 Gartner预测:2022年企业平均AI应用部署数量相比2019年增长9倍技术技术人才人才成本成本 优秀的人才极为紧缺 不同的人在同一个业务上的建模效果差距非常大 同一个人在不同业务上的建模效果差距也非常大 收益无法评估 计算资源成本、人力成本太高 企业不愿意持续大胆创新 技术眼花缭乱 数据科学家采用的数据标准化程度低 无法形成标准化沉淀,加速度差背景 为什么要做自己的AutoML产品 大多现有
3、产品不支持多表 不能很好的结合人的经验 上线困难 能处理的数据量有限,分布式不友好 我们的产品:企业级AutoML 支持多表自动拼接与自动特征工程 交互式自动机器学习,Human-In-the-Loop 支持一键上线,线上线下一致的数据处理逻辑 支持海量数据处理,并针对拼表、大规模分布式机器学习算法特殊优化背景 表数据 离散列:用户ID 连续列:身高 日期、时间戳、IP等 多表 表格多达上百个 字段类型不明确 链接关系复杂 1-1/1-M/M-1/M-M大纲 背景 多表自动特征 类型推断 多表视图 特征工程 资源感知的AutoML 企业级AutoML落地案例 总结多表自动特征 自动类型推断 在
4、数据包含异常和缺失的情况下,如何准确的推断字段类型 启发式 正则表达式 Pandas/R的内置规则型类型推断 基于模型的 经典有监督学习类方法 抽取特征,训练分类模型 生成式模型 概率化有限状态机(Probabilistic Finite-State Machines,PFSM)ptype,2020多表自动特征 概率化有限状态机 将不同的字段类型作为有限状态机的节点,建立概率图模型 同时引入异常和缺失两类节点 训练阶段,在数据上学习节点间的转移概率 预测阶段,使用概率最大的类型作为预测结果多表自动特征 多表拼接Deep Feature Synthesis,2015;OneBM,2017 端到端
5、的生成方式,缺乏灵活性,不能有效融入人的经验 时序拼接能力有限 Human-In-the-Loop的多表操作 Ontology 多表的统一抽象 MetaPath 统一的单表和跨表运算逻辑描述 E1 C E2,其中C=(id,key1,key2,r,O)Entity 每个表格当作一个实体 Relation 定义表格间的固有链接关系1-1/1-M/M-1/M-M多表自动特征 多表视图展示多表间的MetaPath修改多表间的MetaPath展示多表链接多表自动特征 特征生成 Transform Operator 行间算子 log/sum 时序聚合算子 window操作 组内聚合算子 groupby
6、Stateful Operator normalization Multi-table Operator 按照ID聚合并取均值多表自动特征 特征生成 多表连接可能存在环路 消环 单向/双向 可能的特征空间为指数级 结合黑白名单的一次性生成 Deep Feature Synthesis 迭代式 基于集束搜索 AutoCross多表自动特征 特征选择AutoCross,2019 类Boosting机制的Field-wise LR 基于参数服务器,一次扫描数据,即可得到所有特征的重要性 结合多保真度,进一步降低评估代价大纲 背景 多表自动特征 类型推断 多表视图 特征工程 资源感知的AutoML 企
7、业级AutoML落地案例 总结资源感知的AutoML 给定资源下,如何找到更好的超参数 多保真度超参数优化HyperBand,2017连续减半算法(SHA,Successive Halving Algorithm)Jamieson&Talwalkar资源感知的AutoML 给定资源下,一个任务需要运行多久 基于规则 基于模型 基于性能计数器:CPU性能分析/性能诊断/虚拟机分配等 需要的训练数据多;黑盒化,可解释性低 任务无关 基于任务机理模型 Ernest,2016 需要的训练数据少;可解释性强 需要对任务机制有清晰的了解;对于复杂pipeline效果有限资源感知的AutoML Ernest
8、:Efficient Performance Prediction for Large-Scale Advanced Analytics 现代计算任务大都复杂度较低,如亚线性、线性、拟线性 对于某一个数据项而言,其计算代价不随机器数量发生变化 任务间的通信模式比较固定,如左图 设M为机器数量,则耗时T为:=0+1?1?+2 log?+3 以不超过5%的额外开销,实现了不超过20%的预测误差 模型简单,可解释性强 更细致的分析,更多的特征,更复杂的模型资源感知的AutoML 给定资源下,如何得到更好效果的AutoML pipeline cost作为评价的一部分FLAML,2021 通过采样来控制
9、计算代价 CV与holdout 代价直接通过数据量来换算 将采样策略与模型复杂度耦合 通过超参数来控制模型复杂度 控制器根据ECI(Estimated Cost for Improvement)控制效果与代价的trade-off大纲 背景 多表自动特征 类型推断 多表视图 特征工程 资源感知的AutoML 企业级AutoML落地案例 总结企业级AutoML落地案例 从“OODA理论”提炼的自动机器学习闭环流程 观察(Observe),调整(Orient),决策(Decide),行动(Act)企业级AutoML落地案例AIAI模型可解释、特征可解释模型可解释、特征可解释一键自动建模一键自动建模全
10、流程闭环设计全流程闭环设计模型一键上线、数据自动回流、指标自动计算模型一键上线、数据自动回流、指标自动计算落地案例-某互联网广告公司点击率预测模型效果模型效果基于2000万训练数据,建立50005000万维万维的高维模型,更精细化的刻画原有的画像体系线下400万数据评测结果中,在同样的67%召回率下,模型的准确率达到了准确率达到了6868%线上效果线上效果上线日日PVPV数数2 2亿亿左右,在QPS3000左右,请求响应时间在10ms10ms以内根据持续持续1414天的线上观察天的线上观察结果显示,线上点线上点击率提升击率提升2020%。在这样的点击率下,带来巨大的广告收入提升落地案例-某手机
11、银行APP组合推荐项目模型效果实施周期人力成本AUC:0.752数据回流闭环,模型效果持续提升人员类别人月数科学家1人月开发4*1=4人月架构师1人月1个月1个月基金子模型上线理财/保险/贷款子模型上线2020年4月24号5月24号6月12号客户A客户B客户C产品A产品B产品C时间A时间B2019/03/12 20:33:452019/08/12 12:04:54时间C2020/01/12 08:15:33基金/理财/保险/贷款/存款五种金融产品手机银行APP组合推荐*以理财推荐子模型为例AUC:0.749在同样的验证集下,一期人工建模AUC=0.7192018&2019年组合推荐一期2019年9月2019年11月3个月2018年2018年3个月基金/理财子模型上线保险/贷款子模型上线人员类别人月数科学家2*3=6人月开发4*2=8人月架构师1.5*2=3人月AUC:0.82大纲 背景 多表自动特征 类型推断 多表视图 特征工程 资源感知的AutoML 企业级AutoML落地案例 总结总结 AutoML实际落地需要处理多表 自动类型推断 自动多表拼接 自动多表特征工程 AutoML过程需要更加透明,对人参与更加友好 交互式AutoML 通过将资源评估引入AutoML探索过程,可在有限资源内,得到效果更好的AutoML pipeline谢谢!