Anthropic · 安全

Anthropic 发布 Shade Arena 破坏行为监控研究

Anthropic 推出 Shade Arena 研究项目,旨在训练 AI 模型侦测和干预 agent 在执行任务过程中的破坏性行为。该项目构建了一个对抗性环境,让安全监控模型与被测 agent 博弈,从而提升对隐蔽破坏行为的识别能力。这一工作为高级 AI agent 的部署安全提供了新的评测与训练思路。

域名
anthropic.com
评分
4 · 重要更新
发布
2025-06-25
Anthropic 发布 Shade Arena 破坏行为监控研究

导读

这条暂时没有深度导读,点上方「访问项目本体」直接到源页面查看。