OpenAI · 安全

OpenAI 发布 Instruction Hierarchy Challenge

OpenAI 推出 Instruction Hierarchy Challenge,这是一个面向安全研究社区的系统提示层级对抗测试。该挑战旨在检验模型在面对多层级指令冲突时的行为鲁棒性,尤其是当低权限用户试图覆盖系统级指令时,模型能否正确遵循预设的安全层级。参与者需要尝试绕过指令层级保护机制,帮助发现潜在漏洞。这一举措延续了 OpenAI 在模型安全与对齐方面的持续投入,也为行业提供了可复现的评估基准。

域名
openai.com
评分
4 · 重要更新
发布
2026-05-06

导读

这条暂时没有深度导读,点上方「访问项目本体」直接到源页面查看。