上海品茶

6-3 基于预训练模型的行业搜索应用和研究.pdf

编号:102345 PDF 57页 9.43MB 下载积分:VIP专享
下载报告请您先登录!

6-3 基于预训练模型的行业搜索应用和研究.pdf

1、基于预训练语言模型的行业搜索的应用和研究谢朋峻 阿里巴巴达摩院高级算法专家|01行业搜索的背景02相关技术研究03行业搜索应用目录CONTENT|01行业搜索的背景达摩院自然语言智能大图政务搜索、电力搜索、教育搜题、企业内搜索、司法搜索、古文搜索。l 赋能阿里集团l 赋能产业淘宝搜索、AE搜索、优酷搜索、神马搜索、闲鱼搜索、飞猪搜索。|行业搜索information repositoryInformation needSearch engine|行业搜索information repositoryInformation needSearch engine查询理解文档分析检索排序 queryaj

2、1北卡兰新款球鞋 分词aj1 北卡蓝 新款 球鞋 纠错aj1北卡蓝蓝新款球鞋 命名实体系列 颜色 营销 产品词 词权重0.80.80.21 同义改写aj1-(airjordan 1)or(air jordan 1)类目预测运动鞋/篮球鞋NLP分析质量分析效率分析相关性匹配效率优化运营管控 相似改写乔丹1北卡蓝潮鞋|行业搜索链路范式sparse retrieval倒排索引、查询理解(分词、tagging/term weighting、纠错、改写等)、文本相关性等等dense retrieval单塔/双塔模型、向量引擎|行业搜索链路生产链路召回粗排精排重排*N|行业搜索链路生产链路召回粗排精排重排

3、*N关键词向量个性化|行业搜索链路生产链路1.检索效果&工程效率的tradeoff2.复杂模型前置模型复杂度变高处理Doc数变多召回粗排精排重排*N|搜索效果评估l 召回recallN、无结果率l 排序相关性:NDCGN、MRRN等转化效率:CTR、CVR、收藏率、完播率、时长等等搜索效果好,是指什么好|消费互联网和产业互联网的搜索消费互联网搜索产业互联网搜索用户群体和UV互联网用户,UV量级大政企内部员工,UV量级小(某市城市大脑NO.1的应用-智能搜索,日均UV 千级别)搜索追求指标搜得到,搜得准,转化高-召回和相关性,CTR、CVR搜得到,搜得准-召回和相关性工程系统要求高QPS、低RT

4、;实时日志行为链路、实时模型训练QPS和RT要求低算法方向offline/nearline/online下海量用户行为分析建模内容理解(NLP、视觉等);low resource、transfer learning等|02行业搜索技术研究|行业搜索技术架构AliceMind体系|分词 定制预训练PMILRE121MLM LossMLMMSE LossBA(c).Boundary-Aware BERT LearningInput SentenceRaw CorpusN-gram Statistical DictionaryContextual N-gram SetsN-gram Set of N

5、-gram Set of+1+11/2+/2+1+2+11+1N-gram Set 1of 1Pre-Trained Language ModelRepresentation Composition(b).Boundary-Aware BERT Representation(a).Boundary Information ExtractorGram1PMI1;LE1;RE1Gram2PMI2;LE2;RE2GramPMI;LE;RE+LE RepPMI RepRE RepUnsupervisedInformation Mining-th BERT Layer-th BERT Layer1-th

6、 BERT LayerUnsupervised Boundary-Aware预训练模型模型实验结果对比针对中文词法任务设计的预训练语言模型底座BA-BERT、BA-StructBERT引入无监督统计边界信息提升中文词法任务的准确率CWS/POS公开学术数据集(5/6 SOTA)AVG实验结果:BAStructBERT StructBERT NEZHA ERNIE-Gram BERT-wwm BERT|分词 轻量化跨领域l 问题痛点l 解决思路1.OOV(未登录词)2.2.领域间数据分布差异大Coupling Distant Annotation and Adversarial Training

7、 for Cross-Domain Chinese Word Segmentation ACL2020通用领域分词器在细分领域分词效果下降目标领域缺乏人工标注数据分词领域迁移存在两大挑战:?BERT-CRF?远程监督领域分词模型领域词典 领域词汇挖掘统计特征(互信息,左右熵,TF-IDF,词频,POS,)成词模型命名实体识别搜索中作用对query和doc进行结构化信息理解识别关键短语及其对应类型构建知识库的基础NER的挑战短Query,上下文不足高歧义知识型品牌品类型号IP规格等人名地名组织名作品名社区POISubPOI电商通用地址|命名实体识别:技术路线 核心优化思路:上下文增强技术隐式增强

8、显式检索增强知识检索增强动态知识融合(ACE)EMNLP 2020,ACL 2021统案,六任务24个数据集SOTARetrieval-aug NER(RaNer)ACL 2021Knowledge-based NERSemEval 2022Text搜索引擎Text维基百科国际竞赛10项冠军,best system paper通型增强案对短Query尤其适|命名实体识别:检索增强的技术检索增强的实体识别技术(RaNer),ACL 2021录用 不同行业的NER均取得显著提升,达SOTA 通过多视角学习降低测试阶段检索依赖|自适应多任务训练Query分析召回排序BERT发起查询地址搜索链路地址搜

9、索链路BERT承担多项任务承担多项任务效果出众transformer适用于GPU矩阵算子时延高,计算量大BERT特性客户只提供CPU客户对效果要求高大量数据处理(最高上千QPS)硬件资源要求影响购买意愿落地挑战多任务多任务BERT一次BERT推理支持所有任务满足性能要求同时效果大幅提高|难点预训练阶段:不同预训练目标适用于不同任务Finetune阶段:不同任务互相干扰,有时产生负向影响自适应多任务训练解法基于元学习训练任务采样器,学习到一个对于所有任务整体最优的模型自适应多任务训练|搜索召回预训练语言模型l Dual-Encoder&Cross-Encoder 训练数据:数据增强,难样本挖掘(

10、ANCE)PTM:针对搜索召回任务的预训练语言模型,Condenser,coCondenser,PROP,BPROP训练方法:Multi-View文本表示、Loss设计l 召回模型训练流程|l 优化点搜索召回预训练语言模型 针对搜索召回的ROM预训练语言模型|搜索召回预训练语言模型 针对搜索召回的ROM预训练语言模型Dual-Encoder模型实验结果(MS MARCO)|HLATR重排模型HLATR:Enhance Multi-stage Text Retrieval with Hybrid List Aware Transformer Reranking|ROM+HLATR|03行业搜索应

11、用|地址分析产品一句话描述:基于地址知识库,对多源多模态 地址提供精细化解析、标准化补齐、搜索编码、匹配归一等多能力的产品人、事、时、地、物数据量大覆盖广写法自由知识型强解析困难更新快地址分析常驻人口登记系统旅馆登记系统网吧登记系统警务工作平台流动人口系统寄递业系统|地址分析产品-技术框图资源引擎NLP能力行业行业政务 金融 物流能源 税务新零售应急 安全医疗阿里集团阿里集团高德 菜鸟 手淘飞猪 饿了么 政务中台AE LAZADA 应用服务方案一标N实二维码门牌智能接处警APP地址输入地址有效性判断物流区域指派黄牛地址识别外呼地址生成人员轨迹分析运单OCR解析语音地址输入时空研判分析抽取POI

12、画像相似度匹配地址推荐类型识别地址搜索输入联想地址推理标准化补齐多粒度纠错分词同义NER上下位Chunking对话理解句法分析机器阅读理解纠错信息检索生成改写归一相似度实体链接统一搜索引擎地址预训练语言模型细粒度标准化地址库高精经纬度库国际化资源库区划库物流地址库录入点选本地生活地址库搜索点击派件采集资源库融合挂载地址搜索编码坐标系转化地盘服务地址分析产品-地理语义预训练模型 地址NLP分析的底座地图图片空间位置文本地址AliceMind 多模态地理语义融合StructBERT120.022378,30.276887阿里巴巴西溪A区(A1楼)POI分类地址结构化地址阅读理解地址相似度地址实体消

13、歧地址分词地址词权重地理预测地址向量化对话地址理解多任务学习|地址分析产品-基础地址文本分析 对文本地址的抽取、分词、结构化、纠错、区划归一等基础NLP处理 地址抽取 地址纠错文本 我在阿里爸爸淘宝城7-4ASR 我在阿里嘻嘻园区七好楼4楼OCR 我在酉溪园区七亏楼4楼我在阿里巴巴淘宝城7-4我在阿里西溪园区七号楼4楼我在西溪园区七号楼4楼例:张宝报警称在余杭区竹海水韵3-5-101被入室抢劫余杭区竹海水韵3-5-101被入室抢劫 结构化和补齐例:余杭区竹海水韵3-5-101浙江省杭州市余杭区闲林街道闲富北路288号竹海水韵3栋5单元101室省=浙江省 市=杭州市区=余杭区街道=闲林街道路=闲

14、富北路路号=288号小区=竹海水韵楼栋号=3栋单元号=5单元房间号=101室补齐和归一结构化解析|地址分析产品-地址搜索体系 基于地址库和搜索引擎,对用户输入的地址文本进行搜索、联想和经纬度转换召回排序输入:输出结构化:Poi=浙一医院TW:浙一|1 医院|0Geohash预测:wtmkn同义词/纠错:浙医一院向量化:1.01,3,文本召回拼音召回向量召回地理召回地理语义BERT底座其它召回排序列表关键词匹配度搜索点击行为深度排序模型深度语义匹配度空间匹配度联想采纳行为联想列表经纬度列表浙一医院|地址分析产品-搜索直接应用 地址联想 地址检索 地址编码文一西路阿里巴巴120.028107,30

15、.280130经纬度编码*地址均为虚拟地址|地址分析产品-新零售应用问题:业务生命周期有多套系统,多源客户信息如何整合?留资/线索销售安装售后业务生命周期基于地址归一技术实现Family IDl 新零售Family ID方案|地址匹配归一登记手机:137*登记购买地址:余杭新湖果岭2-1-1604登记手机:135*登记安装地址:仓前街道新湖果岭2期1栋1604登记手机:139*登记维修地址:杭州市余杭新湖果岭怡庭1栋1单元16楼1604爸爸妈妈奶奶|地址分析产品-新零售应用爸爸妈妈奶奶Family|地址分析产品-新零售应用以Family为核心的新零售品牌增长模式品牌渗透单一家庭的多品类渗透分析

16、、社区的品牌渗透分析投放触达新客登录、老客改造、维修转新购等主动营销售后口碑Famliy维度的历时工单/投诉整合分析,预警和响应楼盘画像楼盘交付时间、楼盘均价和消费力等分析,线下促销|爸爸妈妈奶奶Family地址分析产品-新零售应用微服务消防事件语料库超大规模语音库消防行业知识库信息抽取语料库BiLSTMBERTCRFColBERTCTCE2E-TLPCNETWAVENET高精地址库语音识别引擎自然语言处理引擎地址标准化引擎语音转写要素抽取警情分类地址抽取地址推理地址推荐经纬度地址围栏自学习引擎救死扶伤,生死时速救死扶伤,生死时速智能接警系统架构智能接警系统架构强大引擎久经考验的人工智能算法引

17、擎,提供多元化、多模态算法能力世界领先的人工智能模型,结合自学习引擎实现持续优化先进模型海量专业训练数据,确保模型效果;超大规模高精度地址库,覆盖全国海量数据实现端到端一站式解决方案,灵活组合应对复杂实战环境功能完备引擎层模型层数据层面向消防119、医疗120、应急指挥中心等,解决报警地址推理、地址输入、上图展示等服务支撑|地址分析产品-智能接处警应用地址分析产品-智能接处警应用你好,萧山119。请讲。你好,我要这边要报警。在电话,谢谢。火警吗?对。地址在哪里?衙前镇新华王村一新发王脊柱几号?对。新郭路这边,新光路。新华路,对新华社新华购物超市门口。兴国路新华购物超市门口。对。针对语音/对话等

18、场景的文本进行地址分析和推理 任务特点 示例(语音转写后的文本)对话ASR不流畅别名口语化碎片化冗余信息多意图无意图错别字多轮意图数据文本风格问题语音对话地址分析|针对语音/对话等场景的文本进行地址分析和推理地址推荐结果语音输入文本匹配召回引擎内排序Term weighting结构化文本匹配粗排关键词语义匹配对话语义匹配精排地址抽取口语顺滑语音地址纠错对话理解主体识别意图识别同义词改写紧密度分析说话人识别|地址分析产品-智能接处警应用面向消防119、医疗120、应急指挥中心等,解决报警地址推理、地址输入、上图展示等服务支撑A:你好,我的车被撞了。B:在哪里?A:靖江街道这边。A:巴比馒头这边驶

19、进来这个路口。B:好。浙江省杭州市靖江街道巴比馒头报警通话靖江街道:街道巴比馒头:POI语音识别地址推理地址抽取巴比馒头(黎明路店)杭州市萧山区靖江镇黎明路91-93号poi名称与地址地址搜索 标准地址自动推荐可自动识别出报警通话中的地址关键词,并高亮显示,引导接警员过滤无关信息,进行地址定位。同音纠错、别名关联、地址补齐结合纠错、别名、补齐技术,对地址进行标准化,有效降低找不到地址的风险,接警员对当地地址无需丰富经验即可使用。地址关键词自动识别结合上下文线索动态推荐地址结合对话上下文线索,不断缩小范围,消除歧义,推荐最匹配的标准地址。随着通话的进行,推荐结果将越来越精确。标准地址信息一站式输

20、出以超大规模标准地址库作为支撑,一站式输出地名、详址、区划、场所类型、经纬度等有用信息。|地址分析产品-智能接处警应用某消防队辖区火警位置输入内容输出内容文一西路910号999号 五常派出所五常街道 五常消防队文本围栏方式经纬度围栏方式围栏计算地址围栏支持多种方法配置围栏规则,快速精准匹配属地或者 属地辖区精准匹配文本围栏规则110.4123,131.1231;1。10.5123,131.6231;五常消防队经纬度围栏规则地址文本上海上海市嘉定区嘉定镇街道清河路48号经纬度121.250455,31.384448|地址分析产品-智能接处警应用教育拍照搜题教育搜题业务背景|教育拍照搜题教育搜题业

21、务特点海量题库场景丰富算法需求海量题库且持续增长,数据库压力大存在高峰时段集中,用户搜索并发量大搜索延迟直接影响用户体验覆盖不同阶段学习、用户场景越来越丰富、学科分类众多数据越来越复杂,搜索存在跨学科错误需要强大的算法算力支撑,提升搜题准确性依赖多模态搜索能力来解决图文搜索需求依赖多语言处理能力来处理英语等其他语言搜题需求|教育拍照搜题教育搜题技术架构|教育拍照搜题教育搜题算法能力查询语义理解查询语义理解:Query处理流程:处理流程:|教育拍照搜题教育搜题算法能力对于拍照搜题场景下的分词存在两大难点:英文题目OCR识别之后的空格缺失、数学题目latex公式表示之后的切分。针对第一个问题,收集

22、千万级K12英文语料训练语言模型,即便对超长的英文连写也可以精准切分。针对第二个问题,利用开放搜索自带的分词干预能力将latex表示中的运算符号预处理。|教育拍照搜题什么是类目预测?什么是类目预测?简单来说,用户输入一个query,查询得到一批商品,通过计算每一个商品所属的类目与query之间的相关度,只要商品的排序公式中引用了这个相关度,那么对于这个商品来说,它所属的类目与query的相关度越高,它的排序公式的计算结果就获得了越高的排序得分,从而这个商品就会排在越前面。类目预测在教育行业的应用类目预测在教育行业的应用结合输的图信息和OCR识别之后的结果预测输题的学科类别、题目类型;预测各本段

23、的字段类型(题干描述、选项等等);教育搜题算法能力|教育拍照搜题功能介绍:功能介绍:该功能主要分析了查询中每一个词在文本中的重要程度,并将其量化成权重,权重较低的词可能不会参与召回。这样可以避免当用户输入的查询词中包含一些权重低的词时,仍然按用户输入的查询词限制召回,导致命中结果过少。功能用途功能用途:Query丢词、改写、文本相关性分析(2)词权重模型训练序列标注模型;预测标签(7,4,1),分值越表term的重要性越,召回结果更准确;此题目中“因数”和“倍数”的权重分最高7分,参与召回的权重也就最高,其次是“35”和“24”为4分,其他权重分为1分的,不参与召回教育搜题算法能力教育拍照搜题

24、文本向量检索文本向量检索目标目标:通过文本向量检索扩召回,结合AND逻辑查询,做到latency和计算消耗低于OR逻辑的情况下准确性更高向量召回采用目前最先进的BERT模型,其中针对教育搜题做的特别优化有:BERT模型采用达摩院自研的StructBERT,并针对教育行业定制模型向量检索引擎采用达摩院自研的proxima引擎,准确性和运行速度远超开源系统训练数据可以基于客户的搜索日志不断积累,效果持续提升效果效果:召回率达到OR逻辑准确性超出OR逻辑3%-5%整体召回doc数量减少40倍,latency降低10倍以上语义向量召回|教育拍照搜题文本向量多路召回多路召回优势多路召回优势文本召回和语义

25、向量召回的结合在搜题场景已经验证有效,开放搜索的多路召回架构还将有更多的使用空间:图片向量召回、公式召回、个性化召回。除了开放搜索内置的向量模型,我们也将支持客户自己的向量索引,欢迎客户和我们一起深耕搜题算法优化。|教育拍照搜题搜题效果展示案例1:搜题query:张慧研所指与小磁大概相近的是乐府之音案例2:搜题Query:“如图是由一些相同的小正方体搭成的几何体从三个不同方向看得到的形状图,则搭成这样的几何体需要_个小正方体|企业半结构化和非结构化散乱在企业各处,通过知识图谱将多源异构知识进行统一的知识索引,实现统一的精准企业信息全局搜索,帮助知识沉淀管理和提升知识服务能力。电力知识库统一搜索|电力知识库统一搜索以制度标准为基础数据,应用人工智能、大数据等技术,将制度标准文本转化为知识图谱,通过电脑和手机为基层员工与管理人员提供智能化的应用平台,实现制度标准管理体系的智能化升级,提升制度标准应用便利性和质量水平,促进制度标准的普及应用。非常感谢您的观看|

友情提示

1、下载报告失败解决办法
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。

本文(6-3 基于预训练模型的行业搜索应用和研究.pdf)为本站 (云闲) 主动上传,三个皮匠报告文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三个皮匠报告文库(点击联系客服),我们立即给予删除!

温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。
客服
商务合作
小程序
服务号
会员动态
会员动态 会员动态:

wei**n_...  升级为标准VIP   139**98... 升级为至尊VIP

152**90... 升级为标准VIP  138**98... 升级为标准VIP

181**96... 升级为标准VIP  185**10... 升级为标准VIP

  wei**n_... 升级为至尊VIP 高兴 升级为至尊VIP  

 wei**n_...  升级为高级VIP wei**n_... 升级为高级VIP

阿**... 升级为标准VIP wei**n_...   升级为高级VIP

lin**fe... 升级为高级VIP  wei**n_...  升级为标准VIP 

wei**n_...  升级为高级VIP wei**n_...  升级为标准VIP

 wei**n_... 升级为高级VIP   wei**n_...  升级为高级VIP

 wei**n_...  升级为至尊VIP  wei**n_... 升级为高级VIP 

 wei**n_... 升级为高级VIP 180**21... 升级为标准VIP 

 183**36... 升级为标准VIP wei**n_...  升级为标准VIP

wei**n_... 升级为标准VIP  xie**.g... 升级为至尊VIP 

 王** 升级为标准VIP  172**75...  升级为标准VIP

wei**n_...  升级为标准VIP wei**n_... 升级为标准VIP

wei**n_...  升级为高级VIP  135**82...  升级为至尊VIP

130**18... 升级为至尊VIP  wei**n_...  升级为标准VIP

wei**n_...  升级为至尊VIP wei**n_...  升级为高级VIP

130**88...   升级为标准VIP 张川 升级为标准VIP

  wei**n_... 升级为高级VIP 叶** 升级为标准VIP

wei**n_...  升级为高级VIP 138**78...  升级为标准VIP

 wu**i 升级为高级VIP wei**n_...  升级为高级VIP 

wei**n_... 升级为标准VIP   wei**n_... 升级为高级VIP

185**35...  升级为至尊VIP wei**n_... 升级为标准VIP

186**30...  升级为至尊VIP   156**61... 升级为高级VIP

130**32... 升级为高级VIP   136**02... 升级为标准VIP

wei**n_...  升级为标准VIP   133**46... 升级为至尊VIP

 wei**n_... 升级为高级VIP  180**01...  升级为高级VIP 

 130**31... 升级为至尊VIP wei**n_...  升级为至尊VIP

微**...  升级为至尊VIP   wei**n_...  升级为高级VIP

wei**n_... 升级为标准VIP  刘磊   升级为至尊VIP

wei**n_... 升级为高级VIP   班长 升级为至尊VIP 

  wei**n_... 升级为标准VIP  176**40... 升级为高级VIP

136**01...  升级为高级VIP  159**10... 升级为高级VIP

君君**i... 升级为至尊VIP  wei**n_... 升级为高级VIP 

wei**n_... 升级为标准VIP 158**78... 升级为至尊VIP

微**... 升级为至尊VIP   185**94... 升级为至尊VIP 

wei**n_... 升级为高级VIP  139**90... 升级为标准VIP

131**37... 升级为标准VIP  钟** 升级为至尊VIP

 wei**n_... 升级为至尊VIP  139**46... 升级为标准VIP 

wei**n_... 升级为标准VIP  wei**n_... 升级为高级VIP 

 150**80... 升级为标准VIP wei**n_... 升级为标准VIP  

GT  升级为至尊VIP  186**25...  升级为标准VIP

wei**n_...  升级为至尊VIP 150**68...  升级为至尊VIP

wei**n_...  升级为至尊VIP 130**05... 升级为标准VIP 

wei**n_...   升级为高级VIP wei**n_... 升级为高级VIP

wei**n_... 升级为高级VIP 138**96...  升级为标准VIP

135**48...  升级为至尊VIP wei**n_... 升级为标准VIP  

肖彦  升级为至尊VIP  wei**n_...  升级为至尊VIP

  wei**n_... 升级为高级VIP  wei**n_...  升级为至尊VIP