《电商搜索和推荐场景下的MLOps实践-李友科v2.pdf》由会员分享,可在线阅读,更多相关《电商搜索和推荐场景下的MLOps实践-李友科v2.pdf(26页珍藏版)》请在三个皮匠报告上搜索。
1、电商搜推场景下的MLOps实践李友科 京东-零售自我介绍自我介绍“You Got a Dream,You Gotta Protect It”Scene From The Pursuit of Happyness 京东零售 负责系统的风险控制、质量保障与效率提升 在电商搜推场景下,测试服务化、算法服务化、MLOps平台化落地的核心参与者李友科议程概况工程实践成就算法服务化模型双飞轮特征工程效率与质量模型与特征算法服务化模型评测从算法服务化到MLOps平台化工作界面改变度量与平台自我迭代平台系统架构规模化后,成本、效率与质量低负载治理算法协作团队协作总结ML在需求交付流程中的位置大环境和趋势:大环
2、境和趋势:互联网降本增效技术部门,工作价值量化,成本效率为主电商行业电商行业:存量竞争用户转化率、商家可运营、流量生态搜推系统核心竞争力,预测服务质量和算法迭代效率流量分发:流量分发:模型从简单线性、树型模型到复杂的深度模型业务效率持续提升业务赋能、流量调控快速应对业务需求ML生命周期与MLOps模型双飞轮(一)实验模型实验模型 正在AB实验的模型,迭代目标:效率提升、业务赋能、流量调控全量模型全量模型 通过AB实验挑选出,满足全量的模型。全量模型服务大部分流量,同时作为实验模型的对比基准Holdback模模型型 对应上一个版本的全量模型,保留1-2周,对比观察全量模型的业务效果模型双飞轮(二
3、)特征工程的效率与质量(一)特征:Dump原始特征 效率:在线和离线并行开发算子,不需要等待算子上线,就可以开始离线模型开发和训练。可能需要花费大量时间对齐算后特征 质量:如果不能保障算子质量,在线和离线算后特征不一致风险极高特征工程的效率与质量(二)特征:Dump算后特征 效率:离线训练需要等待在线算子开发、特征积累。模型开发前期等待在线Ready,一般需要2-3周 质量:理论上,不存在算后特征一致性特征工程的效率与质量(三)特征:Dump算前特征,共享算子 效率:在线和离线共享相同代码的算子;只需要算子开发完成,就可以开始离线模型开发和训练 质量:减小在线和离线特征不一致性问题产生的可能性
4、特征工程的效率与质量(四)方式方式离线特征离线特征效率效率特征不特征不一致一致使用场景使用场景Dump原始特征原始特征通过通过Dump在线原始特征在线原始特征,通过离线算子计算得出通过离线算子计算得出可以复用原始特征可以复用原始特征,立刻开始立刻开始模型开发模型开发风险风险较高较高简单计算的少量特征简单计算的少量特征Dump算后特征算后特征直接直接Dump在线算后特征在线算后特征需要等待在线开发需要等待在线开发,积累数据积累数据,周期较长周期较长风险很低风险很低复杂计算的大量特征复杂计算的大量特征Dump原始特征原始特征,共享算子共享算子通过通过Dump在线原始特征在线原始特征,通过共享算子计
5、算得出通过共享算子计算得出可以复用原始特征可以复用原始特征,但是需要等待共享算但是需要等待共享算子开发子开发。周期介于以周期介于以上两者之间上两者之间风险低风险低需要架构和流程支持需要架构和流程支持模型与特征算法服务化模型评测工程实践小结模型双飞轮模型双飞轮特征工程效特征工程效率与质量率与质量模型与特征模型与特征算法服务化算法服务化模型评测模型评测算法工作界面改变服务档案数据度量模型迭代时长模型迭代时长平台交付效率平台交付效率资源利用率资源利用率服务可靠性服务可靠性流程可用性流程可用性管理模型规模管理模型规模模型生命周期模型更新间隔流程执行时长任务执行时长CPU利用率资源核数趋势CPU占用趋势
6、服务MTTR加权MTTR流程可用性任务可用性在线模型个数模型增长趋势MLOps平台架构低负载治理能力提升能力提升 资源评估准确度提升 周期性扫描自动识别低负载集群 告警响应与自动化扩容 应对流量潮汐,实现波峰波谷弹性伸缩流程优化流程优化 资源申请流程优化 灰度缩容,缩容过程中监控服务稳定性制度明晰制度明晰 成立专门优化项目组,定期同步治理进度 资源配额管理、IT账单 识别低负载标准算法协作模型血缘管理模型血缘管理记录模型谱系和模型结构、特征依赖项。方便同一业务中,模型的继承扩展,不同业务的模型之间相互借鉴。同时,方便发现或定位问题算子集市算子集市模型间特征算子的复用,避免不必要的重复开发,减少模型开发时间特征集市特征集市节省算前特征ELT开发时间,同时也节省额外存储空间团队协作(各种Ops)总结工程实践成就了算法服务化,算法专注于模型迭代MLOps平台化,帮助算法团队提升迭代效率规模化后,成本、效率和质量持续提升