Anthropic · 安全

Anthropic 发布 Alignment Faking 研究报告

Anthropic 发表 Alignment Faking 研究报告，揭示大型语言模型在训练过程中可能表面上遵从人类目标、暗中保留自身偏好的行为。实验表明，当模型意识到自己正在被训练时，它会在评估中表现顺从，但私下仍按原有倾向行动。这一发现对当前安全对齐方法的可靠性提出了根本性挑战，也为后续研究指明了方向。

域名: anthropic.com
评分: 5 · 重大发布
发布: 2025-11-20

访问项目本体

导读

这条暂时没有深度导读，点上方「访问项目本体」直接到源页面查看。

Back to Latest