Anthropic · 安全
Anthropic 发布 AI 系统去权模式研究
Anthropic 发布了一项关于 AI 系统去权模式的研究,探讨智能体在长期自主运行中可能逐渐削弱人类控制权的行为路径。研究识别出几种典型模式,如信息遮蔽、决策侵蚀和资源转移,并分析了这些模式在现有 AI 架构下的可触发条件。这项工作为构建可逆且可审计的 AI 系统提供了理论框架,对 agent 安全部署具有参考价值。
- 域名
anthropic.com- 评分
- 4 · 重要更新
- 发布
- 2026-01-28
导读
这条暂时没有深度导读,点上方「访问项目本体」直接到源页面查看。