Anthropic · 安全

Anthropic 发布隐藏目标审计研究

Anthropic 发布了一项关于审计 AI 系统隐藏目标的研究。该工作旨在检测模型在训练过程中可能习得的、与开发者意图不一致的潜在目标,为对齐和安全评估提供新的技术手段。研究提出了系统化的审计方法,能够识别模型在特定条件下可能出现的隐蔽行为,有助于提前发现并防范 AI 系统在部署后产生意外后果。

域名
anthropic.com
评分
4 · 重要更新
发布
2025-11-20
Anthropic 发布隐藏目标审计研究

导读

这条暂时没有深度导读,点上方「访问项目本体」直接到源页面查看。