《语义模型在小红书社区搜索的应用.pdf》由会员分享,可在线阅读,更多相关《语义模型在小红书社区搜索的应用.pdf(23页珍藏版)》请在三个皮匠报告上搜索。
1、分享人:甘道夫(李生)/语义模型在小红书搜索的应用语义模型在小红书搜索的应用OUTLINE 小红书搜索的问题是什么小红书搜索的问题是什么 语义模型在搜索的应用 训练与评估小红书的搜索问题 多模:文本、图像、视频 异构:图文笔记、长/短视频、商品、用户、评论、etc.个性化OUTLINE 小红书搜索的问题是什么 语义模型在搜索的应用语义模型在搜索的应用 语义模型的训练与评估语义模型在搜索的应用-overview召回AGGANN近线倒排粗排LTR相关性其他个性化精排LTR相关性其他个性化语义模型在搜索的应用艾尔登法环好玩吗相关性内容理解Query处理召回排序语义模型在搜索的应用-QP 基础分析模块
2、 分词、命名实体识别、词权重、紧密度 Taxonomy:类目和意图预测 改写:纠错、同义改写、省略改写、查询扩展语义模型在搜索的应用-召回 倒排召回 向量召回 召回聚合语义模型在搜索的应用-召回 倒排召回关键词关键词笔记列表笔记列表艾尔登笔记1,笔记2,笔记3法环笔记1,笔记3,笔记4查询语法:“艾尔登”and“法环”返回结果:笔记1,笔记3语义模型在搜索的应用-召回 查询表达式艾尔登法环老头环or艾尔登法环艾尔登法环and)or老头环(LSE老头环同义改写分词查询串生成语义模型在搜索的应用-召回 向量召回Query特征文本、图片、视频、笔记特征余弦相似度:cos,=,神经网络神经网络用户特征
3、语义模型在搜索的应用-召回 向量召回神经网络Query特征用户特征ANN引擎:online inference语义模型在搜索的应用-召回 召回聚合语义模型在搜索的应用-排序融合分数(LTR)查询词理解内容质量相关性时效性个性化多样性、业务规则(PostRank)排序结果语义模型在搜索的应用-相关性相关性打分融合模型文本相关性图片相关性视频相关性匹配类特征OUTLINE 小红书搜索的问题是什么 语义模型在搜索的应用 语义模型的训练与评估语义模型的训练与评估语义模型的训练与评估-文本BERTBERT?1?1?1?1?2?1?1MLMMLMstage1:preTraintask:MLMmodel:n
4、-layer transformerdata:文本数据training:unsupervised语义模型的训练与评估-文本BERTBERT?1?1?1?1?2?1?1MLMMLMstage1:preTraintask:MLMmodel:n-layer transformerdata:文本数据training:unsupervisedBERT?1?1?1?1?2?1?1BCEstage2:postPreTraintask:BCE(nsp)model:n-layer transformerdata:用户数据training:supervised语义模型的训练与评估-文本BERTBERT?1?1?1
5、?1?2?1?1MLMMLMstage1:preTraintask:MLMmodel:n-layer transformerdata:文本数据training:unsupervisedBERT?1?1?1?1?2?1?1BCEstage2:postPreTraintask:BCE(nsp)model:n-layer transformerdata:用户数据training:supervisedBERT?1?1?1?1?2?1?1regressionstage3:fineTunetask:regression(MSE)model:n-layer transformerdata:标注数据train
6、ing:supervised语义模型的训练与评估-在线推理 蒸馏:soft-label 摘要 query-dependent extractive summary head-n important sentences max length 256-160 量化 fp16 embedding&layer-norm保留fp32语义模型的训练与评估-在线推理 训练 Megatraon-LM+Tensorflow 多机多卡;3D-Parallel(data/tensor/pipeline parallel)推理 TF serving+FasterTransformer 语义模型的训练与评估-多模相关性 Bert+ViT 图文部分仅用右侧塔单独训练(image+query)THANK YOU欢欢迎加入!迎加入!更多请联系: