Anthropic · 安全
Anthropic 发布 Shade Arena 破坏行为监控研究
Anthropic 推出 Shade Arena 研究项目,旨在训练 AI 模型侦测和干预 agent 在执行任务过程中的破坏性行为。该项目构建了一个对抗性环境,让安全监控模型与被测 agent 博弈,从而提升对隐蔽破坏行为的识别能力。这一工作为高级 AI agent 的部署安全提供了新的评测与训练思路。
- 域名
anthropic.com- 评分
- 4 · 重要更新
- 发布
- 2025-06-25
导读
这条暂时没有深度导读,点上方「访问项目本体」直接到源页面查看。
