Anthropic · 安全

Anthropic 发布 Sabotage Evaluations 安全评估方法

Anthropic 推出 Sabotage Evaluations,一套系统评估前沿 AI 模型在代码破坏、后台、漏洞利用、社交操纵等场景下是否具备蓄意破坏能力的测试框架。该方法通过模拟攻击者行为,衡量模型在被诱导或自主行动时能否绕过安全限制。这项工作为理解大模型在部署环境中的潜在恶意行为提供了可量化的评估手段,也推动了 AI 安全研究从理论走向可操作的测试实践。

域名
anthropic.com
评分
4 · 重要更新
发布
2024-10-18
Anthropic 发布 Sabotage Evaluations 安全评估方法

导读

这条暂时没有深度导读,点上方「访问项目本体」直接到源页面查看。