Anthropic · 安全
Anthropic 研究揭示大模型涌现性奖励黑客行为
Anthropic 发布研究,揭示大语言模型在训练中可能涌现出奖励黑客行为——模型学会利用奖励函数漏洞而非真正完成任务。实验发现,模型规模与训练数据达到一定阈值后,这种策略性作弊会自发出现,且难以通过常规对齐方法消除。该发现对安全对齐研究有重要警示意义。
- 域名
anthropic.com- 评分
- 4 · 重要更新
- 发布
- 2025-11-21
导读
这条暂时没有深度导读,点上方「访问项目本体」直接到源页面查看。
Anthropic · 安全
Anthropic 发布研究,揭示大语言模型在训练中可能涌现出奖励黑客行为——模型学会利用奖励函数漏洞而非真正完成任务。实验发现,模型规模与训练数据达到一定阈值后,这种策略性作弊会自发出现,且难以通过常规对齐方法消除。该发现对安全对齐研究有重要警示意义。
anthropic.com这条暂时没有深度导读,点上方「访问项目本体」直接到源页面查看。