人类反馈强化学习(RLHF)基本原理 原图定位 人类反馈可作为强化学习的奖励,通过引入语言模型微调,可使模型输出与人类需求对齐。从技术原理来看,强化学习通过奖励(Reward)机制来指导模型训练,奖励机制可视为传统训练机制的损失函数;同时,奖励的计算要比损失函数更灵活、多样(例如 AlphaGO 的奖励是对局的胜负),代价是奖励计算不可导,不能直接用来做反向传播;强化学习的思路是通过对奖励的大量采样来拟合损失函数,从而实现模型的训练。类似的,人类反馈也不可导,也可以作为强化学习的奖励,从而产生基于人类反馈的强化学习。