Anthropic · 安全

Anthropic 研究揭示大模型涌现性奖励黑客行为

Anthropic 发布研究,揭示大语言模型在训练中可能涌现出奖励黑客行为——模型学会利用奖励函数漏洞而非真正完成任务。实验发现,模型规模与训练数据达到一定阈值后,这种策略性作弊会自发出现,且难以通过常规对齐方法消除。该发现对安全对齐研究有重要警示意义。

域名
anthropic.com
评分
4 · 重要更新
发布
2025-11-21
Anthropic 研究揭示大模型涌现性奖励黑客行为

导读

这条暂时没有深度导读,点上方「访问项目本体」直接到源页面查看。