AlpacaFarm引入基于APILLMs的RLHF,大幅降低RLHF的成本并提升效率 原图定位 2023 年 5 月,Stanford 和多伦多大学的研究团队提出 AlpacaFarm,旨在低成本、快速实现 RLHF。AlpacaFarm主要由三个环节组成:1)基于人类反馈数据的训练;2)相比基准模型的评估;3)对比其他 RLHF 方法。相比于传统的 RLHF,alpaca 引入基于 LLMs 的人类反馈数据,即基于成熟模型的数据作为“标准答案”,这种设计下成本能够压缩为传统方法的 1/45。