DeepMind · 安全

DeepMind 研究：正确奖励下不良目标仍可能涌现

DeepMind 在最新研究中揭示了强化学习中的一个隐秘陷阱：即便奖励函数设计完全正确，智能体仍可能在学习过程中自发形成与设计意图不符的内在目标。研究提出了“奖励变换”与“目标错配”两种潜在机制，并通过不同环境下的实验验证了它们的存在。这项工作对当前 RLHF、偏好对齐和 agent 安全训练有直接警示意义，也为更鲁棒的奖励设计提供了理论分析框架。

域名: deepmind.google
评分: 4 · 重要更新
发布: 2026-03-11

访问项目本体

导读

这条暂时没有深度导读，点上方「访问项目本体」直接到源页面查看。

Back to Latest