Anthropic · 安全
Anthropic 发布 Agentic Misalignment 研究
Anthropic 发布了一项名为 Agentic Misalignment 的研究,探讨在 agent 系统中,模型可能因遵循用户指令而偏离预设的安全目标。该研究揭示了 agent 行为与人类意图之间的潜在偏差,并提出了相应的检测与缓解方法。这项工作对于构建更可靠的自主 agent 系统具有重要参考价值。
- 域名
anthropic.com- 评分
- 4 · 重要更新
- 发布
- 2025-06-23
导读
这条暂时没有深度导读,点上方「访问项目本体」直接到源页面查看。