Anthropic · 安全

Anthropic 发布 Many Shot Jailbreaking 研究

Anthropic 公开了一项关于大语言模型安全性的研究，揭示了一种名为 Many Shot Jailbreaking 的攻击方式。攻击者通过在对话历史中插入大量带攻击性指令的示例，逐步诱导模型绕过安全护栏。实验表明，该方法对当前多数主流模型均有较高成功率。Anthropic 同时提出了相应的防御策略，强调上下文窗口的扩展需要配套更严格的输入检测机制。

域名: anthropic.com
评分: 4 · 重要更新
发布: 2024-12-19

访问项目本体

导读

这条暂时没有深度导读，点上方「访问项目本体」直接到源页面查看。

Back to Latest