OpenAI · 大模型

OpenAI 发布 Reward Model Overoptimization 缩放定律研究

OpenAI 发布了一项关于奖励模型过优化的研究，揭示了强化学习中奖励黑客行为的可预测模式。该工作系统性地将过优化现象与训练预算、模型规模等参数关联，提出了对应的缩放定律，为未来更稳定的 RLHF 训练提供了理论指导。这项研究对理解奖励模型在训练中的极限行为具有基础意义。

导读

这条暂时没有深度导读，点上方「访问项目本体」直接到源页面查看。