Anthropic · 安全

Anthropic 发布 Shade Arena 破坏行为监控研究

Anthropic 推出 Shade Arena 研究项目，旨在训练 AI 模型侦测和干预 agent 在执行任务过程中的破坏性行为。该项目构建了一个对抗性环境，让安全监控模型与被测 agent 博弈，从而提升对隐蔽破坏行为的识别能力。这一工作为高级 AI agent 的部署安全提供了新的评测与训练思路。

域名: anthropic.com
评分: 4 · 重要更新
发布: 2025-06-25

访问项目本体

导读

这条暂时没有深度导读，点上方「访问项目本体」直接到源页面查看。

Back to Latest