OpenAI · 安全
OpenAI 发布 Instruction Hierarchy Challenge
OpenAI 推出 Instruction Hierarchy Challenge,这是一个面向安全研究社区的系统提示层级对抗测试。该挑战旨在检验模型在面对多层级指令冲突时的行为鲁棒性,尤其是当低权限用户试图覆盖系统级指令时,模型能否正确遵循预设的安全层级。参与者需要尝试绕过指令层级保护机制,帮助发现潜在漏洞。这一举措延续了 OpenAI 在模型安全与对齐方面的持续投入,也为行业提供了可复现的评估基准。
- 域名
openai.com- 评分
- 4 · 重要更新
- 发布
- 2026-05-06
导读
这条暂时没有深度导读,点上方「访问项目本体」直接到源页面查看。