上海品茶

三个皮匠报告—— 严选型全行业研究报告分享下载平台，您的专属行业智库！

欢迎来到三个皮匠报告！帮助中心

人类反馈强化学习（RLHF）基本原理-行业数据

您的当前位置：上海品茶 > 行业数据 > 人类反馈强化学习（RLHF）基本原理

人类反馈强化学习（RLHF）基本原理原图定位

人类反馈可作为强化学习的奖励，通过引入语言模型微调，可使模型输出与人类需求对齐。从技术原理来看，强化学习通过奖励（Reward）机制来指导模型训练，奖励机制可视为传统训练机制的损失函数；同时，奖励的计算要比损失函数更灵活、多样（例如 AlphaGO 的奖励是对局的胜负），代价是奖励计算不可导，不能直接用来做反向传播；强化学习的思路是通过对奖励的大量采样来拟合损失函数，从而实现模型的训练。类似的，人类反馈也不可导，也可以作为强化学习的奖励，从而产生基于人类反馈的强化学习。