《自然语言处理技术范式迁徙之路-梁吉光.pdf》由会员分享,可在线阅读,更多相关《自然语言处理技术范式迁徙之路-梁吉光.pdf(38页珍藏版)》请在三个皮匠报告上搜索。
1、自然语言处理技术范式迁徙之路梁吉光明略科技 信息检索实验室主任 NLPNLP是什么是什么 NLP3.0(含)前的故事 NLP4.0进行时 展望NLPNLP是什么?是什么?领导:如果你到了,我还没有到,那你等着吧!如果我到了,你还没有到,那你等着吧!自然语言理解,Natural Language Understanding,NLU自然语言生成,Natural Language Generation,NLG计算语言学,Computational Linguistics,CLNLP=NLU+NLG CL =人工智能皇冠上的明珠自然语言处理自然语言处理,Natural Language Process
2、ing,NLPNLP致力于让机器理解和生成人类的语言让机器理解和生成人类的语言,研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。他喜欢苹果,你喜欢黑莓,我喜欢小米。他喜欢苹果,你喜欢黑莓,我喜欢香蕉。=中国中文信息学会,中文信息处理发展报告,2016NLPNLP是什么?是什么?基础性研究 支撑 应用性研究NLPNLP是什么?是什么?序列标注任务序列标注任务为语言序列中的元素标注标签典型任务:中文分词、词性标注、命名实体识别、语义角色标注NLPNLP是什么?是什么?分类任务分类任务为语言序列标注一个或多个标签。典型任务:文本分类、情感分类美妆美妆公安公安电力电力教育教育NLPNL
3、P是什么?是什么?句子关系判断句子关系判断判断两个语言序列是否具备某种语义关系典型任务:QA、自然语言推理、语义相似度NLPNLP是什么?是什么?生成式任务生成式任务自动生成新的语言序列典型任务:文本摘要续序讲故事为你写诗填词作曲看数说话读图谱说话看图说话写 机器翻译语音识别智能评语生成 NLP是什么 NLP3.0NLP3.0(含)前的故事(含)前的故事 NLP4.0进行时 展望20002000200182nd迁徙3rd迁徙1st迁徙NLP2.0NLP2.0统计机器学习模型NLP1.0NLP1.0词典+规则NLP3.0NLP3.0深度学习模型NLP4.0NLP4.0预训练
4、预训练+微调微调NLPNLP范式迁徙之路,是语言表示的变革之路范式迁徙之路,是语言表示的变革之路NLPNLP技术范式迁徙技术范式迁徙预训练模型元年预训练模型元年 白名单白名单+黑名单黑名单NLP1.0:NLP1.0:词典词典+规则规则 正则表达式正则表达式 语法规则语法规则领域词词典 否定词词典情感词词典 程度词词典停用词词典 反转词词典定义:语言序列w1,w2,wt的概率,即:P(w1,w2,wt)语言模型,语言模型,LM,LM,languagelanguage modelmodel 对语言序列的概率分布的建模 判断语言序列是否为人类语言 马尔科夫假设 N-元语法NLP2.0:NLP2.0:
5、统计机器学习模型统计机器学习模型NLP2.0:NLP2.0:统计机器学习模型统计机器学习模型Document-Word Weight MatrixDocument-Word Weight MatrixWeight离散:0,1连续:0,1w1w2wn-1wnd1d2dm-1dmd=w1,w2,wnT 布尔模型one-hot,0,1表示;向量空间模型(VSM)tf;tf-idf;概率模型1-Gram1-Gram表示表示张三打漂亮李四没D1D111110D2D211110D3D311111NLP2.0:NLP2.0:统计机器学习模型统计机器学习模型D1:张三打了漂亮的李四D2:李四打了漂亮的张三D3
6、:张三没打漂亮的李四2-Gram2-Gram表示表示张三_打张三_没李四_打 没_打 打_漂亮 漂亮_李四 漂亮_张三D1D11000110D2D20010101D3D30101110维数灾难维数灾难:特征向量通常会达到几万维甚至于几十万维寻求一种有效的特征降维特征降维方法,降低特征空间的维数,提高效率NLP2.0:NLP2.0:统计机器学习模型统计机器学习模型特征工程特征工程合适的输入回归分类聚类神经网络时间序列主成分分析 NLP2.0:NLP2.0:统计机器学习模型统计机器学习模型线性回归逻辑回归支持向量机朴素贝叶斯KNNK-means前馈神经网络矩阵分解随机森林 2-范数径向基核函数Si
7、gmoidViterbi条件概率边缘分布傅里叶变换奇异值分解梯度下降 特征工程特征工程+模型模型=下游任务下游任务NLP3.0:NLP3.0:深度学习模型深度学习模型里程碑:word2vecword2vec(2013)(Mikolov et al.,2013)代表性模型:Glove,Fasttext特点:1)上下文相近的词,其embedding距离越小,即越相似2)一词一embedding3)窗口大小windows=N一切皆可一切皆可embeddingembeddingNLP3.0:NLP3.0:深度学习模型深度学习模型在2021年10月19日凌晨1点,苹果新推出的首款采用USB PD3.1快
8、充的Macbook Pro 2021 一词多义一词多义世界苹果看中国,中国苹果看陕西。苹果,凌晨1点苹果,新苹果,推出苹果,世界苹果,看苹果,中国苹果,中国苹果,看苹果,陕西V1V1V2V2V V n-1n-1VnVn凌晨1点5363新652推出3537世界8376苹果苹果5 52 27 71 1看4730中国7246陕西1942word2vecembedding上下文无关的embedding NLP是什么 NLP3.0(含)前的故事 NLP4.0NLP4.0进行时进行时 展望NLP4.0:NLP4.0:预训练预训练+微调微调ELMoELMo,Embedding from Language M
9、odelsBERTBERT,Bidirectional Encoder Representations from TransformersGPTGPT,Generative Pre-Training Pre-training,then fine-tuning 典型代表 在预训练时将语言表示迁移到下游任务NLP4.0:NLP4.0:ELMoELMoELMo:双向LSTM语言模型,目标函数取两个方向语言模型的最大似然两个阶段:(1)预训练;(2)提取新特征到下游任务New Sentenceoneembedding下游任务双向双向LSTMLSTM,过程独立,过程独立+NLP4.0:NLP4.0:LS
10、TMLSTMLSTM:Long short term memory记忆细胞隐藏状态输入遗忘门输入门输出门候选记忆细胞 遗忘门、输入门和输出门 一定程度上缓解了短期记忆问题 t时刻的计算依赖t-1时刻计算结果 不能并行计算NLP4.0:NLP4.0:GPTGPT VSVS BertBert(上)(上)神仙打架,一时神仙打架,一时瑜亮瑜亮GPTGPTBertBertGPT-2GPT-2GPT-3GPT-32018.06OpenAI一方诸侯2018.10谷歌一战封神2019.02OpenAI2Dangerous2Release2020.06OpenAIFew-shotTransformerTrans
11、former(20172017)NLP4.0:NLP4.0:TransformerTransformer1)编码器+解码器2)Attention机制,将序列中的任意两个位置之间的距离缩小为一个常量3)非RNN的顺序结构,可并行计算NLP4.0:NLP4.0:GPTGPT(1)单向Transformer模型;(2)Decoder模块去掉Encode-Decoder AttentionTrm 特征提取:RNN=Transformer TransformerLSTMCNNTransformerLSTMCNN 可并行计算可并行计算 单向语言模型单向语言模型NLP4.0:NLP4.0:GPTGPT适用下
12、游任务:分类、相似度计算、问答匹配等 GPT-2GPT-2不需不需fine-tuningfine-tuning 可做生成式任务可做生成式任务NLP4.0:NLP4.0:BertBertBert:双层双向Transformer模型,MLM和NSP两种策略预训练MLM(Masked Language Model)NSP(Next Sentence Prediction)NLP4.0:NLP4.0:BertBertBert:双层双向Transformer模型,MLM和NSP两种策略预训练Trm Transformer Encoder模块 可并行计算可并行计算 双向语言模型双向语言模型NLP4.0:N
13、LP4.0:BertBert两个阶段:(1)MLM和NSP两种策略预训练;(2)下游任务Fine-TuningPre-training无标注数据=Fine-tuning双向依赖双向=单向双向NLP4.0:NLP4.0:GPTGPT VSVS BertBert(下)(下)GPTGPTBertBertGPT-2GPT-2GPT-3GPT-3语言模型单向双向单向单向网络结构Transformer DecoderTransformer EncoderTransformer DecoderTransformer DecoderAttentionMarked Self-AttentionSelf-Atte
14、ntionMarked Self-AttentionMarked Self-Attention是否fine-tuning是是否否输入向量Token embedding+position embeddingToken embedding+position embedding+segment embeddingToken embedding+position embeddingToken embedding+position embedding参数量-3亿15亿1750亿MLM+NSP否是否否大力出奇迹大力出奇迹 NLP是什么 NLP3.0(含)前的故事 NLP4.0进行时 展望展望展望展望MAAS,model as a service 3M3MMAD,model as dataMAK,model as knowledge