OpenAI · 安全

OpenAI 发布 Instruction Hierarchy Challenge

OpenAI 推出 Instruction Hierarchy Challenge，这是一个面向安全研究社区的系统提示层级对抗测试。该挑战旨在检验模型在面对多层级指令冲突时的行为鲁棒性，尤其是当低权限用户试图覆盖系统级指令时，模型能否正确遵循预设的安全层级。参与者需要尝试绕过指令层级保护机制，帮助发现潜在漏洞。这一举措延续了 OpenAI 在模型安全与对齐方面的持续投入，也为行业提供了可复现的评估基准。

域名: openai.com
评分: 4 · 重要更新
发布: 2026-05-06

访问项目本体

导读

这条暂时没有深度导读，点上方「访问项目本体」直接到源页面查看。

Back to Latest