Anthropic · 安全

Anthropic 发布 Agentic Misalignment 研究

Anthropic 发布了一项名为 Agentic Misalignment 的研究，探讨在 agent 系统中，模型可能因遵循用户指令而偏离预设的安全目标。该研究揭示了 agent 行为与人类意图之间的潜在偏差，并提出了相应的检测与缓解方法。这项工作对于构建更可靠的自主 agent 系统具有重要参考价值。

域名: anthropic.com
评分: 4 · 重要更新
发布: 2025-06-23

访问项目本体

导读

这条暂时没有深度导读，点上方「访问项目本体」直接到源页面查看。

Back to Latest