夜上海419论坛(爱上海龙凤419/爱上海419论坛)

《01-在线优化技术在快手联盟上的实践和产品化-谢淼博士.pdf》由会员分享，可在线阅读，更多相关《01-在线优化技术在快手联盟上的实践和产品化-谢淼博士.pdf（31页珍藏版）》请在三个皮匠报告上搜索。

1、在线优化技术在快手联盟上的实践和产品化谢淼博士,副研究员快手高级算法专家在线多臂赌博机技术简介及落地时的大坑如何为深度模型插上探索的翅膀快手广告联盟内循环的起量建模过程快手Online Bandits 算法栈及其产品化目录灵魂拷问灵魂拷问面临选择的时候如何思考呢?利用利用基于自己的人生经验经验对当前选择进行预判，选择自己“认为认为”的能使得自己最有利的选项探索探索跳出跳出自己的经验认知，勇于尝试新选项新选项，对经验进行刷新与积累，力图全局最优如果存在一种技术，能够帮助大家来做选择，并能在人生的长河中，使得累计收益最大化辅佐整个过程Online Multi-armed Bandit 技术小章鱼

2、的心声：今天翘班来赌场，一下午就泡在这里了，我有个选择障碍：在赌场里有那么多的赌博机，哪个好？选哪个？我应该如何玩，才能赚更多的钱？一段时间有N个候选项期待达到一个目标每次选K个神：先随机玩一段时间看看吧。小章鱼：玩了一段时间，并计算了一下收益这经验靠谱吗？神：给你2个选择（Dilemma）（1）相信它-Exploitation，选第一个，求稳求稳。（2）不相信它-Exploration，选个其他的，机会与风险共存。E&E是一种为了达到长期收益所采取的有效手段Arm1Arm2Arm3Arm4N个离散选项的在线E&E问题建模的通用形式Input:给定N个候选项(Arm)，从中选择K个;如果有多组

3、独立的问题实例，则称为不同的machine。分成T轮的序列决策问题（t=1,T）：1.每个时间步，算法可从N中选择K个Actions。2.环境每次会依赖算法的选项，给出一个反馈reward,。,每个候选项背后都是一个与reward相关的未知分布（分布形态与参数都可能未知）。3.算法获得了反馈向量，作为下一轮选择的依据。算法的优化目标：最小化累计后悔度regret在线赌博机技术的适用范围冷启场景冷用户冷商品冷系统大促场景候选好坏与平时不符E&E问题需要探索调参离散参数连续参数策略选择运营策略产品策略思考：如果经验已经足够准，那么还需要这个技术吗？素材优选素材优选（Feeds，猜你喜欢，搜索）推

4、荐理由店铺/菜品的首图/视频/广告词等新品推荐新商品优选文章冷启动浏览只有246二手商品运营&产品文案个性化：文案个性化：文案文案是脑拍脑拍的，不同行业差别大，不同时间投放差异也大；选文案选文案更是脑脑拍拍的智能智能UI：控件，内容，版控件，内容，版式的组合爆炸问式的组合爆炸问题。题。咋选？还是脑拍咋选？还是脑拍Stochastic Multi-armed Bandit 的问题定义&假设1、Arm与Reward直接相关，不同的arm，reward的分布不同2、对于一个arm每次reward采样是iid的。3、不同arm之间同样是独立的。epsilon-greedy选择经验均值最大的那个候选随机

5、选一个UCB1Thompson SamplingRegret Bound：与分布无关 log T 与分布有关 012 log MABMAB 的的 E&EE&E 为什么很重要，与机器学习中模型技术形成良好互补为什么很重要，与机器学习中模型技术形成良好互补数据集在线打分&排序（1）无数据/孤品/在线参数-存在机器学习模型无法构建的情况（2）实时性-天级别训练模型不实时？（3）冷启动-新商品？新用户？（4）动态性-用户兴趣发生显著变化？将Bandit模型应用于业务时所面临的大坑问题建模问题建模依赖对实际业务问题的建模与抽象需要先确定什么是Machine，什么是Arm，收益如何计算等算法假设算法假设B

6、andit算法在提出时，一般都有些特殊假设，需要确定业务中实际情况满足所用算法的假设超参数超参数离线与在线长链路离线与在线长链路Bandit算法中存在一些超参数与累计收益相关，存在调优空间，上线所需搭建链路较长，一步错步步错，计算过程与现有系统如何融合。快手广告联盟内循环起量建模过程业务核心问题业务核心问题BanditBandit算法建模与迭代算法建模与迭代快手广告联盟内循环起量核心问题唤端激励视频信息流插屏Draw流开屏全屏众多广告场景众多广告场景众多众多APP流量池流量池通过ecpm竞价，进行双侧匹配在不影响已起量广告的基础上，如何帮助内循环广告外投快速起量？难点难点1.现有联盟消耗日均已

7、达千万量级2.流量位每日变化程度非常大3.内循环广告是新行业，缺乏靠谱的相似行业4.虽然有快手站内数据、模型可用，但是用户在外部APP场景中表现的转化率与站内差异巨大有约束的冷启问题有约束的冷启问题问题建模Ecpm=bid*cvr*ctr对于订单广告为例cvr和ctr依赖预估模型打分模型训练实际投放样本决定广告竞争力依赖样本学习模型不准-预估低-出不去-没正样本-持续低模型不准-预估高-超成本-bid压价-持续低思考：在联盟场景下，随着数据的增多，能期待模型非常准吗？模型的本质是对已有样本分布的抽象，是“利用”过程那么如何帮助一个冷启场景从冷启过渡到成熟？建模1：填充率探索建模解双侧冷启解双侧

8、冷启：pos优胜劣汰优胜劣汰对于媒体pos而言，快手小店的订单广告消耗很低对于快手小店而言，不确定哪些pos适合订单广告跑量其他行业广告：别影响我的自然量别影响我的自然量，你最好跑增量你最好跑增量machineBandit：我来为小店订单整体寻找高潜质媒体Arm1:pos1Arm2:pos2Arm3:pos3ArmN:posN.每隔T时间动态变化Top1:pos3Top2:pos5Top3:pos1.threshold离线过程在线过程多样性的订单广告集合中的Top1当所有候选广当所有候选广告的告的ecpm均低均低于媒体门槛于媒体门槛时时，直接提价直接提价到媒体预期门到媒体预期门槛之上槛之上ma

9、chine生效集合淘汰集合建模2：媒体探索机制建模解单侧冷启解单侧冷启：为每个媒体粒度探寻合适的广告为每个媒体粒度探寻合适的广告媒体粒度：App,媒体行业,媒体场景，Pos等广告粒度：Author,Unit,Account，Product等 Machine1:APP1Arm1:author1Arm2:author2ArmN:authorNMachine M:APP MArm1:author1Arm2:author2ArmN:authorN按照bandit排序，作用于实时Ecpm上，达到广告粒度的优选Machine K:APP KArm1:author3Arm2:author1ArmN:aut

10、horN在线计算&更新思考思考：1、能直接取代模型预估分吗？2、如果不能替代，如何融合到Ecpm？坑坑：能直接用千万量级的创意id粒度嘛？预期效果预期效果（预期花费预期花费）推全之后显著正向波动逐渐衰减正样本逐渐增多模型预估准确度上升Bandit的排序作用于ecpm上的程度应该下降收益上升环境变化内循环起量算法迭代内循环起量算法迭代这些维度的重要性如何考量这些维度的重要性如何考量？流量侧 X 预算侧可以构建多个侧面的Bandit实例进化Regret Bound:log T 将arm换成创意维度，针对单个候选广告，构建上下文特征：1.广告侧维度特征 2.媒体侧维度特征3.双侧特征4.统计特征Co

11、ntextual Bandit建模建模3：链路优化建模链路优化建模能否引入E&E机制，搭出一条业务指标正向且起量概率大增的绿通链吗？定向召回粗排精排后处理绿色通道保送绿通机制的缺陷绿通机制的缺陷：1.配置量大，会导致挤兑，谁也出不去2.会挤占其他广告，对于大盘指标，通常是跌的3.运营配置，政治任务，分不出好坏以account绿通配置为例，进行说明Machine1:account1Arm1:cid1Arm2:cid2ArmN:cidNMachine M:account MArm1:cid1Arm2:cid2ArmN:cidN归并排序cid1cid2 cidNTop KTop KWhy:为了公平起

12、量防止挤兑归并排序：基于greedy 算法思路：以的概率用banditscore来归并排序否则以1-的概率用后验分数排序 greedyBased Cascading Bandit With Time DecayWhy:为了提升单日内累计指标上述建模问题之间的关系上述建模问题之间的关系，随着数据量的积累的转化关系随着数据量的积累的转化关系填充率探索策略双侧冷启问题媒体探索策略Pos单侧冷启问题Pos探索策略媒体行业策略媒体行业单侧冷启问题维度探索策略Model粒度越来越粗样本数据量越来越多？能够过渡吗？t存在Pos：不在pos探索的machine表中，但是在填充率探索策略的覆盖范围，每日消耗为

13、c1该Pos：出现在pos探索的machine表中，每日消耗为c2且c2 c1证实了优化策略的动态演化过程证实了优化策略的动态演化过程优化不是孤立的优化不是孤立的累计提升内循环外投预期花费数十倍随着数据量的积累，模型能力也越来越强，将探索能力融合到模型能力中，同时依据模型能力，将探索做的更好？如何为深度模型插上探索的翅膀目录研究动机研究动机：（1）打破线性假设：现有Contextual Bandit算法通常有线性假设，导致与实际情况不符，最终质量存在上限。（2）支持超大特征向量：现有Contextual Bandit，由于需要在线矩阵求逆操作，无法适用于大规模特征下的实际问题。Intercon

14、nected Neural-Linear UCB1 Chen Y,Xie M,Liu J,et al.Interconnected Neural Linear Contextual Bandits with UCB ExplorationC/Pacific-Asia Conference on Knowledge Discovery and Data Mining.Springer,Cham,2022:169-181.IdeaIdea：设计了一种全新的在线离线混合迭代的训练框架，通过迭代进行离线与在线学习过程，离线负责学习非线性映射，在线负责学习在该非线性映射下的最佳线性函数，相互依赖地进行学

15、习演化，逐渐逼近最优解。RegretRegret AnalysisAnalysis目录快手快手Online Bandits 算法栈及其产品化算法栈及其产品化Online Multi-armed Bandit 算法栈算法栈Bandit技术方向上包含非常多种类，解决各种环境下的E&E问题，近年来是研究和工业界的热门方向。解决的问题种类越来越多，应用范围扩展地越来越广。理论较强，需要证明regret，因此存在为了regret漂亮而在算法里做特定设置的，但这些特定设置的一般效果未必最优。Reward分布假设上的改进Arm假设上的改进Policy上的改进训练数据上的改进目标上的改进架构上的改进Onlin

16、e Multi-armed Bandit 算法栈算法栈Online Multi-armed Bandit 产品系统架构产品系统架构远程服务模式远程服务模式Library SDK模式模式Offline Algorithm LibraryOnline Multi-armed Bandit 产品产品能力能力算子层应用问题层UCB1TSLinUCBLinTSTSCE-greedyCalibration TSMany-armed TSGNN BanditNeural Linear banditNon-Stationary Bandit冷启动问题打磨完备，多元化场景支持，使用门槛低，应用范围广大促场景交互

17、类场景在线调参素材个性化活动类商品/广告推荐新品推荐广告词，直播在线系统调参个性化UI 门槛打磨算法先验导入算法断点续存算法&参数自动调优SPUCB流量调控内容、权益、红包分发热迁移学习仿真模拟环境应用环境和算法假设自动审查门槛能力构建门槛能力构建：自动寻优自动寻优bandit算法算法，用用bandit寻优寻优bandit研究动机研究动机：给定一个应用场景，如何从众多候选的Bandit算法中寻找最优算法？如何对算法中所涉及的超参数动态寻优呢？挑战：挑战：（1）【假设难于评估】每种算法都有其假设，假设在实际场景是否满足及满足的程度本身就很难评估（2）【没有一种算法可以一统天下】由于每种算法的收敛

18、速度不同，并且随着数据量积累，效果变化的规律也不一致，因此没有一种算法可以一直都取得比其他算法好的结果。因此是否存在一种算法可以自动地在多个候选算法及其超参数组合中自动寻优？每时都保持最佳效果？ideaidea：（1）【动态寻优】对算法和超参数自动优选的过程，刻画成级联在线E&E优化算法，前向过程为决策过程，反向过程为学习过程。（2）【学习效率高】反向过程中，一次决策产生的结果，可以用于并行地对多候选超参数和算法进行学习。效果：效果：所提出方法的累计后悔度几乎与单最优算法方案持平，但能持续找到最优方案。1 M Miaoiao XieXie,Wotao Yin,Huan Xu,AutoBandit:A Meta Bandit Online Learning System,IJCAI 2021实际业务问题技术（Bandit）提炼打磨趟坑应用门槛低的应用门槛低的产品产品批量赋能