【李俊毅】如何基于 RLHF 来优化 ChatGPT 类型的大语言模型.pdf

编号：134934

PDF 41页 9.69MB 下载积分：VIP专享

下载报告请您先登录！

【李俊毅】如何基于 RLHF 来优化 ChatGPT 类型的大语言模型.pdf

1、如如何何基基于于 R RL LH HF F 来来优优化化C Ch ha at tG GP PT T 类类型型的的大大语语言言模模型型李李俊俊毅毅算法工程师2020年加入字节跳动爱丁堡大学NLP硕士目前在字节跳动担任算法工程师李李俊俊毅毅contents背背景景简简介介01流流行行的的开开源源 R RL LH HF F 的的实实现现04R RL LH HF F 介介绍绍03数数据据工工作作：训训练练数数据据收收集集与与清清洗洗02小小结结0 01 1基基础础背背景景介介绍绍chatGPT，是基于GPT架构下以dialogue format的语料通过有监督学习（SFT）和基于RLHF优化得到的一个

2、产品。根据公开资料，我们可以知道整体的训练方式和InstructGPT基本一致。OpenAI的研发进程大致如下：2 20 01 18 8GPT-12 20 02 20 0GPT-32 20 01 19 9GPT-22 20 02 21 1CodeX/WebGPT2 20 02 22 2InstructGPT/chatGPT2 20 02 23 3GPT-4背背景景介介绍绍chatGPT的基础信息介绍背背景景介介绍绍chatGPT系列的区别区区别别是是什什么么？G GP PT TI In ns st tr ru uc ct tG GP PT Tc ch ha at tG GP PT TR RL

3、LH HF F背背景景介介绍绍chatGPT的训练介绍根据已知信息，chatGPT是基于训练好的GPT-3作为基座以dialogue format的语料经过SFT+RLHF得到的，而在上一张PPT上我们可以看到整个研发的大概时间线，受到这些信息的启发，为了得到chatGPT，我们需要做：1.收集大量语料，其中包括多语言普通文本、emoji、github代码语料以及科研文献等2.收集用户通过api提的问题，通过标注得到问答对3.设计RM训练需要的数据，由标注员标注得到训练所需语料1.对语料进行分析处理，去重，过滤等得到训练语料2.解决大语料和大模型训练的效能问题3.通过高超的超参设置得到最终训练

4、好的模型1.基于标注好的问答对，在Pretrain的基础模型上，输入问答对得到后续训练结果2.在SFT阶段，Garbage in/out的影响会很大，可以参见Meta发布的少量高质量数据训练得到的高质量模型1.首先训练得到一个奖励模型（Reward Model）2.为了基于 R e w a r d Model进行RL，需要将RM和LM同时启动，对于一个问答对，LM输出结果，将之输入到RM中计算得到奖励，以优化LM数数据据收收集集P Pr re et tr ra ai in nS SF FT TR RL LH HF F背背景景介介绍绍chatGPT的训练介绍8Andrej Karpathy

5、在微软BUILD2023大会上分享使用的截图0 02 2数数据据介介绍绍数数据据介介绍绍概览三三个个步步骤骤数数据据获获取取过过滤滤（去去重重、质质量量、隐隐私私）分分类类与与人人工工数数据据介介绍绍几个训练步骤对数据的偏好P Pr re et tr ra ai in n:强大的语言模型重重点点在在于于数数据据获获取取和和过过滤滤S SF FT T（P PF F）：让模型理解用户指令，并让模型知道好的回答是什么样子（知道是什么是好的，并不代表就知道不能做坏事了）重重点点在在于于数数据据分分类类与与人人工工构构造造R RL LH HF F：释放人力，并让模型对齐人类期待，不去做不好的回答重重

6、点点在在于于数数据据分分类类与与人人工工标标注注数数据据信信息息Common Crawl开源可以过滤使用WebText未开源根据需要自行构造Books1&Books2未开源需要自行构造Wiki百科开源可以过滤使用CodeX训练数据未开源需要自行构造数数据据介介绍绍数据获取-业内公开数据以以下下是是我我们们可可以以了了解解到到的的G GP PT T使使用用过过的的数数据据名名称称信信息息Chinese Scientific Literature（CSL）中文科学文献数据集CLUECorpus2020通过对Common Crawl的中文部分进行语料清洗，最终得到100GB的高质量中文预训练语料翻译

7、语料中英文翻译语料当前较为丰富CLUEDatasetSearch针对传统的NLP任务收集各项数据集，可以从中整合得到中文世界预训练数据数数据据介介绍绍数据获取-业内公开数据当当前前业业内内有有大大量量开开源源数数据据可可供供使使用用，我我们们可可以以采采用用这这些些数数据据介介绍绍数据获取-业内公开数据名名称称信信息息COIG智源开放的维护了一套无害、有用且多样化的中文指令语料库，包括通用/考试/人类价值/多轮聊天和leetcode指令语料库alpaca_chinese_dataset根据斯坦福开源的alpaca数据集进行中文翻译，并再制造一些对话数据pCLUE基于提示的大规模预训练数据集，用

8、于多任务学习和零样本学习。包括120万训练数据，73个Prompt，9个任务firefly-train-1.1M23个常见的中文数据集，对于每个任务，由人工书写若干种指令模板，保证数据的高质量与丰富度，数据量为115万Chinese medical dialogue data/Huatuo中文医疗问答数据集除除了了预预训训练练的的语语料料外外，当当前前已已经经有有一一些些开开放放的的指指令令微微调调语语料料数数据据介介绍绍iGPT-数据量级训训练练阶阶段段数数据据条条数数fine-tune12K奖励模型33KPPO31K数数据据介介绍绍iGPT-数据多样性数数据据介介绍绍数据清洗与质量优化过过

9、滤滤（去去重重、质质量量、隐隐私私)17截图来源于网络数数据据介介绍绍数据清洗与质量优化分分类类与与人人工工Prompt任务分类分分类类丰富Prompt以及对应的结果人人工工编编辑辑对结果评估排序人人工工标标注注对测试集进行评估人人工工评评估估数数据据介介绍绍人人工工标标注注基基于于接接口口获获取取利利用用别别的的服服务务获获取取数据标注数数据据介介绍绍数据获取-人工标注三三种种类类型型的的提提示示语语直直白白清清晰晰提提示示语语用用于于少少样样本本学学习习的的提提示示语语用用户户导导向向的的提提示示语语数数据据介介绍绍数据获取-数据标注方式如如何何选选择择标标注注员员P Pr ro ommp

10、 pt t标标注注从从 A AP PI I 获获取取p pr ro ommp pt t有有害害提提示示语语标标注注方方式式数数据据介介绍绍数据标注-Prompt标注界面22Ouyang,Long,et al.Training language models to follow instructions with human feedback.Advances in Neural Information Processing Systems 35(2022):27730-数数据据介介绍绍数据标注-RM标注界面23Ouyang,Long,et al.Training language models

11、 to follow instructions with human feedback.Advances in Neural Information Processing Systems 35(2022):27730-0 03 3R RL LH HF FR RL LH HF F基础介绍S SF FT T后后的的能能力力潜潜在在的的缺缺点点R RL LH HF FR RL LH HF F作用满满足足难难以以定定义义的的目目标标，赋赋予予模模型型足足够够好好的的泛泛化化性性保保证证模模型型持持续续更更新新的的正正确确轨轨道道多多样样化化与与负负反反馈馈降降低低胡胡编编乱乱造造的的可可能能性性R R

12、L LH HF F希望的case1 1.Q Q:WWh ha at t s sh ho ou ul ld d I I s sa ay y i if f I I wwa an nn na a a a c co of ff fe ee e i in n a a K KF FC C?2 2.A A1 1:H Hi i,I I wwa an nt t a a c cu up p o of f c co of ff fe ee e.3 3.A A2 2:H Hi i,c co ou ul ld d y yo ou u p pl le ea as se e g gi iv ve e mme e a a c

13、 cu up p o of f c co of ff fe ee e?4 4.A A3 3:H Hi i,a a c cu up p o of f c co of ff fe ee e,p pl le ea as se e.5 5.A A4 4:H He ey y,I I wwa an nt t a a c cu up p o of f c co of ff fe ee e,y yo ou u x xx xx x.6 6.A A5 5:G Gi iv ve e mme e c co of ff fe ee e,y yo ou u x xx xx x.经经过过R RMM后后，会会让让一一些些不不

14、符符合合价价值值的的内内容容被被d de el l掉掉。比比如如：R RL LH HF F实验效果28Ouyang,Long,et al.Training language models to follow instructions with human feedback.Advances in Neural Information Processing Systems 35(2022):27730-R RL LH HF F训练流程29Ouyang,Long,et al.Training language models to follow instructions with human fee

15、dback.Advances in Neural Information Processing Systems 35(2022):27730-R RL LH HF F训练流程首首先先收收集集训训练练R RWW模模型型所所需需的的训训练练数数据据然然后后训训练练R RWW模模型型最最终终基基于于R RWW模模型型，基基于于R RL L对对语语言言模模型型进进行行优优化化（此此时时需需要要同同时时运运行行两两个个模模型型）R RL LH HF FRM训练-数据格式为为了了实实现现R RMM+P PP PO O，首首先先我我们们需需要要训训练练一一个个R Re ewwa ar rd d模模型型，训训

16、练练数数据据的的格格式式：(p pr ro ommp pt t,wwi in nn ni in ng g_ _r re es sp po on ns se e,l lo os si in ng g_ _r re es sp po on ns se e)P Pr ro ommp pt t（提提示示）表示输入的问题或上下文WWi in nn ni in ng g r re es sp po on ns se e（获获胜胜回回答答）表示模型认为是正确或优秀的回答L Lo os si in ng g r re es sp po on ns se e（失失败败回回答答）表示模型认为是错误或较差的回答R

17、RL LH HF FRM训练训训练练设设置置：r r：被被训训练练的的奖奖励励模模型型，由由参参数数进进行行参参数数化化。训训练练过过程程的的目目标标是是找找到到使使损损失失最最小小化化的的。x：提示（prompt）yw：获胜回答（winning response）yl：失败回答（losing response）训训练练数数据据的的格格式式如如下下：sw=r(x,yw)：获胜回答的奖励模型得分sl=r(x,yl)：失败回答的奖励模型得分损失值的计算公式为：log(swsl)对对于于每每个个训训练练样样本本（x x，y yww，y yl l）：目目标标是是找找到到参参数数，以以最最小小化化所所

18、有有训训练练样样本本的的期期望望损损失失，即即E Ex xl lo og g(s swws sl l)。R RL LH HF FPPOP PP PO O是是O Op pe en nA AI I推推出出的的R RL L算算法法，其其提提出出的的目目的的是是为为了了解解决决P Po ol li ic cy y G Gr ra ad di ie en nt t中中低低效效与与更更新新不不稳稳定定的的问问题题，具具体体特特点点如如下下：Mini-batch training：由on-policy修改成为off-policy，可以提升对受限数据集的使用效率Regularization KL：PPO利用了

19、KL作为约束来避免对小型数据集的过拟合Clip Objective：使用了clip来避免不稳定的变化，也减少了过拟合的风险-Meta与CMU也放出了相应的研究，即使没有经过RLHF的训练，仅仅通过详细的SFT也能够拿到很好的效果。论文见：https:/arxiv.org/pdf/2305.11206.pdf关于PPO详细介绍可以看论文，也推荐这个视频进行了解：https:/ RL LH HF F数数学学建建模模详详细细训训练练步步骤骤如如下下：对于每个x_RL（即prompt），使用LLM_RL生成回复y。objective方程如下。对于每个x_pretrain，LM的目标函数的计算如下。从

20、直观上讲，这个目标是确保RL模型在文本完成任务上表现不会比预训练模型更差。通过最大化这个目标函数，我们希望确保RL模型在文本完成任务上的表现不会比预训练模型更差。这有助于保持模型的基本能力，并防止在优化过程中产生负面效果。通过控制目标函数中的参数，可以调整这个任务对优化过程的相对重要性。最终的目标是以上两个公式之和。在RL设置中，最大化objective作为我们的学习目标。Tips：已知当前基于RLHF的思路和流程，但实际效果不一定是最优的，这个情况在OpenAI的WebGPT中也同样有所讨论。R RL LH HF F训训练练步步骤骤Simplified from https:/ 04 4开开

21、源源实实现现R RL LH HF F 开开源源实实现现各个开源实现实实现现项项目目是是否否可可用用DeepSpeed-ChatYTrlX非官方支持RLHFColossal-AIYBeaverY（加入了safe-rlhf）上述开源实现是当前流行的方案，其中DeepSpeed-chat由于背靠DeepSpeed，所以相对上手可行性更高。其中Beaver额外考虑了安全性的问题。R RL LH HF F 开开源源实实现现设计开发重点R RMM的的关关键键点点训练数据丰富：数据是query-answer 对，同一个query下接了一个高分答案和一个低分答案；同时最好是一个query对应4-9个答案个人建议使用SFT的模型R RL LH HF F的的重重难难点点算法实现：一个是算法实现的细节设计难点：细节披露不清晰工程挑战：多模型的内存消耗和训练的高效进行（同时有Actor、Critic、SFT、RM四个模型存在，两个需要更新）0 05 5小小结结小小结结R RL LH HF F 是是否否是是最最优优解解40讨讨论论讨讨论论讨讨论论模模型型是是否否真真的的不不能能有有自自己己的的偏偏见见基基于于 R RL LH HF F，C Ch ha at tG GP PT T 类类模模型型如如何何作作用用T TH HA AN NK KS S

友情提示

1、下载报告失败解决办法
2、PDF文件下载后，可能会被浏览器默认打开，此种情况可以点击浏览器菜单，保存网页到桌面，就可以正常下载了。
3、本站不支持迅雷下载，请使用电脑自带的IE浏览器，或者360浏览器、谷歌浏览器下载即可。
4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩，下载后原文更清晰。

本文（【李俊毅】如何基于 RLHF 来优化 ChatGPT 类型的大语言模型.pdf）为本站（2200）主动上传，三个皮匠报告文库仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对上载内容本身不做任何修改或编辑。若此文所含内容侵犯了您的版权或隐私，请立即通知三个皮匠报告文库（点击联系客服），我们立即给予删除！

温馨提示：如果因为网速或其他原因下载失败请重新下载，重复下载不扣分。