上海品茶

您的当前位置:上海品茶 > 报告分类 > PDF报告下载

大模型与搜索广告满意度 - 凤巢设计与实践.pdf

编号:155387 PDF 26页 3.06MB 下载积分:VIP专享
下载报告请您先登录!

大模型与搜索广告满意度 - 凤巢设计与实践.pdf

1、DataFunSummit#2023模型与搜索告满意度-凤巢设计与实践演讲人 叶超 百度 资深算法工程师01搜索广告满意度02DNN-ERNIE03PROMPT 的应用04AIGC与想象力目录 CONTENTDataFunSummit#202301搜索广告满意度搜索广告场景还原商业广告搜索满意度商业搜索满意度是满足搜索引擎产品要求,结合商业搜索广告个性化特点,从浏览到点后、服务后行为的全面评估。商业搜索满意度=大搜搜索满意度 and 用户行为交互机器评价 and 商业后验服务质量商业广告搜索满意度商业搜索满意度是满足搜索引擎产品要求,结合商业搜索广告个性化特点,从浏览到点后、服务后行为的全面评

2、估。商业搜索满意度=大搜搜索满意度 and 用户行为交互机器评价 and 商业后验服务质量本期关注DataFunSummit#202302DNN-ERNIE背景 典型的广告点击率预估模型DNN onlineinput layerDNN embedding 海量用户行为日志 离散特征连续化 eg:userid-userid embedding 产出 sparse table:大规模词表 线上点击率预估模型 训练底层复用sparse table 产出 dense table:顶层MLP 矩阵技术迁移 大规模DNN建模相关性Embedding tasks are just like”DNN embe

3、dding”DNN-ERNIE 是不是直接把文本输入模型就可以了?DNN-ERNIE 是不是直接把文本输入模型就可以了?目标:实现彻底、完全的 ERNIE 在线化,既要准,又要快DNN-ERNIE 是不是直接把文本输入模型就可以了?目标:实现彻底、完全的 ERNIE 在线化,既要准,又要快技术挑战:深入高噪声落地页内容挖掘,克服长文本建模带来的语义理解挑战,与性能平方级增长压力搜索相关性最强特征-标题非页面粒度例如:某电商3000多万营销页标题都一样:“APP下载,超多好货等你来”广告有复杂的点击率优化特质,用户点击信号无法代表相关性 信号失效“通配符-【品牌】电脑办公_正品低价_品质优选”必

4、须深入落地页进行长文本建模营销页图片多、碎片化、主题零散,语料噪声高DNN-ERNIE 是不是直接把文本输入模型就可以了?目标:实现彻底、完全的 ERNIE 在线化,既要准,又要快技术挑战:深入高噪声落地页内容挖掘,克服长文本建模带来的语义理解挑战,与性能平方级增长压力重点举措:常规解法:新硬件 -GPU 蒸馏萃取-128D2H2L 模型剪枝-顶层优化 DNN-ERNIE 是不是直接把文本输入模型就可以了?目标:实现彻底、完全的 ERNIE 在线化,既要准,又要快技术挑战:深入高噪声落地页内容挖掘,克服长文本建模带来的语义理解挑战,与性能平方级增长压力重点举措:常规解法:新硬件 -GPU 蒸馏

5、萃取-128D2H2L 模型剪枝-顶层优化 提效举措:离散核心词集合输入与序列模型适配 多层级Token 化设计 与凤巢能力结合离散核心词集合输入与序列模型适配优化思路与效果背景与问题策略效果(AUC)核心词重要性稳定倒排baseline移除 pos embedding落地页侧 shuffle 输入按照页面顺序还原鲁棒性效果:积分梯度示意before:after:问题的本质是思考 pos embedding 的作用:1.ERNIE 可否退化为词袋模型?2.核心词稳定倒排是不是一种可以被学习的 LM 语法?3.有没有更好的输入方式?业务挑战:落地页侧为长文本,600-1500汉字信息量,多次人工

6、评估,落地页还原度可用需要 140汉字信息量,压缩比率低,性能挑战巨大,必须采取核心词集合输入基线:按照一般的思路,我们以核心词重要性稳定倒排作为模型输入问题:语义片段破坏严重:连续语段会因为重要性倒排而出现语义破坏核心词排序算法与模型耦合严重,预估鲁棒性差:模型对于头部核心词敏感,中部、尾部感知弱,核心词排序算法与模型学习出现耦合(见右图 before)线上quota利用率低:线上quota由于模型与头部核心词耦合,后续的计算浪费严重,未能充分利用算力数据:“北京到上海的机票”重要度排序核心词:“机票”“上海”“北京”Tokenization 优化|消歧抗噪,提速增效策略细节与效果问题1 字

7、粒度语义特征缺乏对片段文本精确建模的能力:ERNIE的收敛依靠上下文语义辅助,核心词输入形式是离散片段化,语义收敛在高噪声条件下困难2 算力消耗大:字粒度决定了模型的算力下界为输入序列长度为字数,线上平响约束难以满足“CLS”“我”“爱”“天”“安”“门”ERNIE“CLS”“我”“爱”“天安门”Online model3 剪辑师-剪辑师建模降低复杂语境下的收敛复杂度,消歧抗噪模型表现AUC 推理性能相同输入,计算路径减少50%,提速数倍既要准,又要快Pserver能力-混合层次WWM训练-Sampled softmax-海量商业语料预训练-Lazy adam-百万级采样提速-Vocab 无偏

8、解耦,热启初始化Sparse/dense 都变大DataFunSummit#202303PROMPT的应用行业化业务发展与平台策略模型业务需要技术抽象方案1 凤巢业务行业化发展:运营单元与业务发展单元以行业为颗粒度2 搜索满意度升级:迭代节奏以行业为颗粒度,集中迭代,小步快跑训练范式新增行业id 作为token id,给予独特的pos/type embedding 预训练阶段强制mask 行业id,增加行业分类任务预估Finetune阶段,将行业id作为soft prompt 引入样本,作为分类行业锚点,实现隔离性行业粒度迭代,在迭代过程中,要有行业效果,也要大盘平稳。一种具有良好隔离性的增量

9、学习范式。一种双塔语义模型优化方法策略分析CLST1TNSEPSent_ACLST1TNSEPSent_AQuery EncoderDoc Encoderembed-poolingembed-poolingqdscoreCLSPSEPTSent_ASent_BCLSPSEPTSent_ASent_BQuery EncoderDoc Encoderembed-poolingqdscoreembed-pooling一般做法:预训练一个单塔模型同构或者异构双塔模型,均采用产出模型作为encoder对于每个encoder,输入对应文本作为sentence_A方案思考:有必要预训练一个双塔模型吗?预训练

10、样本是pair形式组织的,NSP任务在每个塔的作用上有效吗?sentence_B的信号去哪里了?DataFunSummit#202304AIGC与想象力AIGC 解决什么问题搜索广告商业生态问题再回顾AIGC 解决什么问题搜索广告商业生态问题再回顾结论:供给侧是天花板,搜索广告优质供给不变条件下,用户体验单维优化难有突破AIGC 解决什么问题搜索广告商业生态问题再回顾结论:供给侧是天花板,搜索广告优质供给不变条件下,用户体验单维优化难有突破求解路径:多管齐下,驱动优质内容建设正循环,联合客户,协同优化检索端模型业务端模型良好投放效果奖优罚劣机制产品端检索端客户有动力协同优化库存广告-优质广告A

11、IGC 解决什么问题搜索广告商业生态问题再回顾结论:供给侧是天花板,搜索广告优质供给不变条件下,用户体验单维优化难有突破求解路径:多管齐下,驱动优质内容建设正循环,联合客户,协同优化检索端模型业务端模型良好投放效果奖优罚劣机制产品端检索端客户有动力协同优化库存广告-优质广告判的准-提升效率是提升激励效果AIGC-提升效率是提升激励效果+生产力生成式模型与搜索满意度预估ERNIEZEUSText&PosOutput策略示例Cot+PET/P-tunning模板:soft_prompt.“query”soft_prompt.“lp”soft_prompt.请说明原因gMASK其中soft_prom

12、pt是随机初始化的embVERBALIZER=0:劣,1:可,2:好,3:棒loss=alpha*nlu_loss+beta*nlg_lossP-tunning模板:soft_prompt.query soft_prompt.lp soft_prompt.MASK 其中soft_prompt是随机初始化的embVERBALIZER=0:劣,1:可,2:好,3:棒PET模板:查询词:query。文本:lp。查询词和文本的相关性怎么样?MASK VERBALIZER=0:劣,1:可,2:好,3:棒直接生成模板:查询词:query。文本:lp。满分4分,查询词和文本相关性打几分?gMASK label:寻参空间 vocab_size自动化物料生成、debug&解释性工具、系统级别LLM reward 感谢观看

友情提示

1、下载报告失败解决办法
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。

本文(大模型与搜索广告满意度 - 凤巢设计与实践.pdf)为本站 (张5G) 主动上传,三个皮匠报告文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三个皮匠报告文库(点击联系客服),我们立即给予删除!

温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。
会员购买
客服

专属顾问

商务合作

机构入驻、侵权投诉、商务合作

服务号

三个皮匠报告官方公众号

回到顶部