《【万小军 】ChatGPT 的能力和挑战.pdf》由会员分享,可在线阅读,更多相关《【万小军 】ChatGPT 的能力和挑战.pdf(50页珍藏版)》请在三个皮匠报告上搜索。
1、万万小小军军北京大学王选计算机研究所北京大学人工智能研究院C Ch ha at tG GP PT T 的的能能力力与与挑挑战战北京大学王选计算机研究所北京大学人工智能研究院万万小小军军语语言言生生成成回回顾顾C Ch ha at tG GP PT T 的的能能力力C Ch ha at tG GP PT T 的的问问题题展展望望神神经经网网络络发发展展史史https:/ BrainMcCulloch&Pitts1949Neural LearningHebb1956DartmouthConference1958PerceptronRosenblatt1960ADALINEWindrow&Hoff1
2、969XOR ProblemMinsky&Papert1974BackpropagationWerbos1982Hopfield NetworkHopfield1985Boltzmann MachineHinton&Sejnowski1986Multilayer PerceptronRummelhart,Hilton&WilliamsRNN,Rummelhart1997LSTMHochreiter&Schmidthuber1998LeNetLeCun2006Deep BeliefNetwork Hinton2009DeepBoltzmannMachine2012AlexNetKrizhevsk
3、y2014GANGoodfellow2015U-NetRonneberger2015ResNetHe2017CapsulenetHintonTransformerGoogle Brain2018BERTDevlin2020GPT-3OpenAI2022StableDiffusionCompVis2022ChatGPTOpenAI语语言言生生成成词词语语序序列列生生成成基于语言模型进行逐一词语解码输出 不同的解码算法:greedy,beam,top-k,top-p我们要吃()饭:0.8水果:0.1苹果:0.05饼干:0.01油条:0.01C Ca an n y yo ou u p pl le e
4、a as se e c co omme e h he er re e?HistoryWord being predicted贪贪心心解解码码t to op p-k k 解解码码我们要吃饭我们要吃水果语语言言生生成成词词语语序序列列生生成成目前主要基于 seq2seq 模型:RNN/LSTM/T基基于于预预训训练练语语言言模模型型的的文文本本生生成成方方法法预预训训练练语语言言模模型型堆叠多层 transformer 模块,基于大规模生语料进行自监督学习,获得文本的高质量语义编码,并且/或者学习高效的解码器Left-to-Right LM:GPT,GPT-2,GPT-3Encoder-Decod
5、er:T5,BARTMasked LM:BERT,RoBERTaB BE ER RT TG GP PT TB BA AR RT T基基于于预预训训练练语语言言模模型型的的文文本本生生成成方方法法预预训训练练语语言言模模型型堆叠多层 transformer 模块,基于大规模生语料进行自监督学习,获得文本的高质量语义编码,并且/或者学习高效的解码器Left-to-Right LM:GPT,GPT-2,GPT-3Encoder-Decoder:T5,BARTMasked LM:BERT,RoBERTa模模型型名名字字发发布布时时间间最最大大参参数数规规模模训训练练数数据据模模型型架架构构G GP P
6、T T2018年约1.2亿(117 M)BooksCorpus12层Transformer DecoderG GP PT T-2 22019年约15亿(1542 M)WebText(约40 G文本)48层Transformer DecoderG GP PT T-3 32020年约1 750亿Common Crawl(filtered)、WebText2、Books1、Books2、Wikipedia(共约5 000亿词)96层Transformer D基基于于预预训训练练语语言言模模型型的的文文本本生生成成方方法法预预训训练练语语言言模模型型Zhao,Wayne Xin,et al.A Sur
7、vey of Large Language Models.arXiv preprint arXiv:2303.18223(2023)基基于于预预训训练练语语言言模模型型的的文文本本生生成成方方法法基基于于预预训训练练语语言言模模型型的的文文本本生生成成现有预训练语言模型+特定任务数据微调(Finetuning)预预训训练练语语言言模模型型微微调调模模型型最最终终任任务务模模型型大规模生语料任务相关标注语料基基于于预预训训练练语语言言模模型型的的文文本本生生成成方方法法基基于于预预训训练练语语言言模模型型的的文文本本生生成成现有预训练语言模型+指令学习(Instruction tuning)We
8、i,Jason,et al.Finetuned language models are zero-shot learners.arXiv preprint arXiv:2109.01652(2021)基基于于预预训训练练语语言言模模型型的的文文本本生生成成方方法法基基于于预预训训练练语语言言模模型型的的文文本本生生成成现有预训练语言模型+提示(Prompting)预预训训练练语语言言模模型型任务提示任务结果e.g.将下面这句话换一种说法:梅西是足坛历史最佳。修改后的结果为:e.g.足坛历史上最好的球员是梅西。e.g.将语句进行简化,例如,“XXX”简化为“YYY”,那么“自然语言处理是人工智能
9、皇冠上的明珠。”简化后的结果为:e.g.自然语言处理是人工智能领域最重要的部分。直接提示增加举例增加思维链基基于于预预训训练练语语言言模模型型的的文文本本生生成成方方法法基基于于预预训训练练语语言言模模型型的的文文本本生生成成现有预训练语言模型+提示(Prompting)直接提示增加举例增加思维链S St ta an nd da ar rd d P Pr ro ommp pt ti in ng gC Ch ha ai in n-o of f-T Th ho ou ug gh ht t P Pr ro ommp pt ti in ng gQ:Roger has 5 tennis balls.He
10、 buys 2 more cans oftennis balls.Each can has 3 tennis balls.How manytennis balls does he have now?A:The answer is 11.Q:The cafeteria had 23 apples.If they used 20 tomake lunch and bought 6 more,how many applesdo they have?Model InputQ:Roger has 5 tennis balls.He buys 2 more cans oftennis balls.Each
11、 can has 3 tennis balls.How manytennis balls does he have now?A:Roger started with 5 balls.2 cans of 3 tennis ballseach is 6 tennis balls.5+6 11.The answer is 11.Q:The cafeteria had 23 apples.If they used 20 tomake lunch and bought 6 more,how many applesdo they have?Model InputA:The answer is 27.Mod
12、el InputA:The cafeteria had 23 apples originally.They used20 to make lunch.So they had 23-20=3.Theybought 6 more apples,so they have 3+6=9.The answer is 9.Model InputWei,Jason,et al.Chain of thought prompting elicits reasoning in large language models.arXiv preprint arXiv:2201.11903(2022)语语言言生生成成回回顾
13、顾C Ch ha at tG GP PT T 的的能能力力C Ch ha at tG GP PT T 的的问问题题展展望望预预训训练练语语言言模模型型-C Ch ha at tG GP PT T参参数数规规模模与与G GP PT T-3 3类类似似:1 17 75 5B B特特点点能力广泛,不仅仅支持文本生成任务 写作、写代码、问答、解题、对话、翻译、摘要、复述、推理、纠错、信息抽取等在零样本条件下在多数 NLP 任务上的性能表现良好,尽管不是最好预预训训练练语语言言模模型型-C Ch ha at tG GP PT T参参数数规规模模与与G GP PT T-3 3类类似似:1 17 75 5B
14、 B特特点点通过统一的接口执行不同任务 基于提示/对话,支持多轮对话交互 结果依赖于提示语言具有很强的上下文理解和记忆能力尽量生成安全、符合人类价值观的回复/结果可调用外部工具/插件完成更复杂的任务预预训训练练语语言言模模型型-C Ch ha at tG GP PT TC Ch ha at tG GP PT TG GP PT T3 3(零零样样本本多多任任务务能能力力)+指指令令微微调调+基基于于人人类类反反馈馈的的强强化化学学习习 (与与人人类类价价值值对对齐齐,效效果果提提升升)预预训训练练语语言言模模型型-C Ch ha at tG GP PT T语语言言大大模模型型的的能能力力涌涌现现
15、能能力力涌涌现现:该该能能力力在在小小模模型型中中不不出出现现,但但在在大大模模型型中中出出现现少少样样本本提提示示下下的的8 8个个涌涌现现例例子子Wei,Jason,et al.Emergent abilities of large language models.arXiv preprint arXiv:2206.07682(2022)Wei,Jason,et al.Emergent abilities of large language models.arXiv preprint arXiv:2206.07682(2022).语语言言大大模模型型的的能能力力涌涌现现能能力力涌涌现现:该
16、该能能力力在在小小模模型型中中不不出出现现,但但在在大大模模型型中中出出现现语语言言大大模模型型的的能能力力涌涌现现Srivastava,Aarohi,et al.Beyond the imitation game:Quantifying and extrapolating the capabilities of language models.arXiv preprint arXiv:2206.04615(2022)C Ch ha at tG GP PT T 的的质质量量评评价价能能力力利利用用 P Pr ro ommp pt t 挖挖掘掘 C Ch ha at tG GP PT T 自自动
17、动评评价价文文本本质质量量的的能能力力I I wwo ou ul ld d g gi iv ve e t th hi is s n ne ewws s s su ummmma ar ry y f fo ou ur r s st ta ar rs s f fo or r f fl lu ue en nc cy y4 4 s st ta ar rs s Is ChatGPT a Good NLG Evaluator?A Preliminary Study https:/arxiv.org/pdf/C Ch ha at tG GP PT T 的的质质量量评评价价能能力力在在摘摘要要、故故事事生生成成
18、、D Da at ta a2 2T Te ex xt t 三三个个数数据据上上进进行行实实验验Is ChatGPT a Good NLG Evaluator?A Preliminary Study https:/arxiv.org/pdf/C Ch ha at tG GP PT T 的的质质量量评评价价能能力力在在摘摘要要、故故事事生生成成、D Da at ta a2 2T Te ex xt t 三三个个数数据据上上进进行行实实验验Is ChatGPT a Good NLG Evaluator?A Preliminary Study https:/arxiv.org/pdf/C Ch ha a
19、t tG GP PT T 的的质质量量评评价价能能力力在在摘摘要要、故故事事生生成成、D Da at ta a2 2T Te ex xt t 三三个个数数据据上上进进行行实实验验Is ChatGPT a Good NLG Evaluator?A Preliminary Study https:/arxiv.org/pdf/C Ch ha at tG GP PT T 的的质质量量评评价价能能力力C Ch ha at tG GP PT T 适适用用于于不不同同的的摘摘要要评评价价方方式式:打打分分、两两两两比比对对、金金字字塔塔式式细细粒粒度度评评估估、事事实实一一致致性性判判断断等等Human-
20、like Summarization Evaluation with ChatGPT https:/arxiv.org/pdf/C Ch ha at tG GP PT T 的的质质量量评评价价能能力力C Ch ha at tG GP PT T 有有时时候候会会生生成成与与打打分分对对应应的的解解释释Human-like Summarization Evaluation with ChatGPT https:/arxiv.org/pdf/2304.02554.pdf红红色色部部分分解释 faithfulness蓝蓝色色部部分分解释 fluency 与 C Ch ha at tG GP PT T
21、的的质质量量评评价价能能力力在在机机器器翻翻译译数数据据上上的的实实验验Large Language Models Are State-of-the-Art Evaluators of Translation Quality https:/arxiv.org/pdf/C Ch ha at tG GP PT T 的的质质量量评评价价能能力力 4 4种种p pr ro ommp pt tLarge Language Models Are State-of-the-Art Evaluators of Translation Quality https:/arxiv.org/pdf/2302.1452
22、0.pdf在在机机器器翻翻译译数数据据上上的的实实验验C Ch ha at tG GP PT T 的的质质量量评评价价能能力力实实验验结结论论在WMT12评测数据上取得SOTA结果(系统级别)最少约束的Prompt(即A1)效果最好只有GPT3.5或更大模型能取得优异性能Large Language Models Are State-of-the-Art Evaluators of Translation Quality https:/arxiv.org/pdf/2302.14520.pdf在在机机器器翻翻译译数数据据上上的的实实验验语语言言生生成成回回顾顾C Ch ha at tG GP P
23、T T 的的能能力力C Ch ha at tG GP PT T 的的问问题题展展望望C Ch ha at tG GP PT T 面面临临的的问问题题技技术术问问题题幻觉问题(事实准确性问题)可解释性差推理能力仍不够强内容安全性问题C Ch ha at tG GP PT T 面面临临的的问问题题其其他他问问题题内容创新性法法律律著作权、数据隐私、监管责任等社社会会风风险险 影响就业、收入、AI滥用等资源消耗C Ch ha at tG GP PT T 的的幻幻觉觉问问题题最最严严重重的的问问题题:事事实实错错误误较较多多C Ch ha at tG GP PT T 的的幻幻觉觉问问题题一一本本正正经
24、经的的胡胡说说八八道道!C Ch ha at tG GP PT T 的的幻幻觉觉问问题题幻幻觉觉问问题题出出现现的的原原因因 基于概率进行文本生成的必然 允许词语“较自由”的搭配文文本本扩扩写写比比文文本本缩缩写写更更易易出出现现幻幻觉觉多多样样性性生生成成更更易易出出现现幻幻觉觉相相比比高高频频实实体体,为为低低频频实实体体生生成成描描述述更更易易产产生生幻幻觉觉幻幻觉觉问问题题的的治治理理提提供供更更多多准准确确信信息息作作为为模模型型输输入入 用户提供更多信息 基于信息检索自动收集信息:NewBing开开发发幻幻觉觉检检测测模模块块进进行行监监督督/筛筛选选开开发发事事实实纠纠错错模模块
25、块进进行行后后处处理理 可基于大模型自身进行纠错(Mask-Infill)幻幻觉觉问问题题的的检检测测基基于于外外部部知知识识进进行行事事实实验验证证 需要提供/检索对应外部知识不不依依赖赖外外部部知知识识(零零资资源源)幻幻觉觉检检测测 基于模型计算的词汇概率分布 基于模型的外部行为/反馈事实准确的语句很可能包含高概率低熵的词汇,而幻觉很可能出现在具有比较平坦词语概率分布(高不确定性)的位置。幻幻觉觉问问题题的的检检测测不不依依赖赖外外部部知知识识(零零资资源源)幻幻觉觉检检测测 基于模型的外部行为/反馈Manakul,P.,Liusie,A.,&Gales,M.J.(2023).Selfc
26、heckgpt:Zero-resource black-box hallucination detection for generative large language models.arXiv preprint arXiv:2303.08896.S Se el lf fC Ch he ec ck kG GP PT T wwi it th h Q Qu ue es st ti io on n A An ns swwe er ri in ng 幻幻觉觉问问题题的的检检测测不不依依赖赖外外部部知知识识(零零资资源源)幻幻觉觉检检测测基于模型的外部行为/反馈Cohen,R.,Hamri,M.,Ge
27、va,M.,&Globerson,A.(2023).LM vs LM:Detecting Factual Errors via Cross Examination.arXiv preprint arXiv:2305.13281.C Cr ro os ss s-e ex xa ammi in na at ti io on n (L LMM v vs s L LMM)语语言言生生成成回回顾顾C Ch ha at tG GP PT T 的的能能力力C Ch ha at tG GP PT T 的的问问题题展展望望展展望望更更强强的的跨跨模模态态能能力力掌掌握握更更多多语语言言表表达达能能力力幽默、修辞生生成成创创意意内内容容大大模模型型小小型型化化、易易部部署署使使用用、更更绿绿色色环环保保小型通用模型 或 小型专业模型个个性性化化模模型型,服服务务于于不不同同群群体体/个个人人机机器器语语言言模模型型与与人人脑脑语语言言模模型型的的交交互互对对齐齐T TH HA AN NK KS S