Anthropic · 安全
Anthropic 发布 Many Shot Jailbreaking 研究
Anthropic 公开了一项关于大语言模型安全性的研究,揭示了一种名为 Many Shot Jailbreaking 的攻击方式。攻击者通过在对话历史中插入大量带攻击性指令的示例,逐步诱导模型绕过安全护栏。实验表明,该方法对当前多数主流模型均有较高成功率。Anthropic 同时提出了相应的防御策略,强调上下文窗口的扩展需要配套更严格的输入检测机制。
- 域名
anthropic.com- 评分
- 4 · 重要更新
- 发布
- 2024-12-19
导读
这条暂时没有深度导读,点上方「访问项目本体」直接到源页面查看。
