DeepMind · 安全

DeepMind 提出用语言模型对语言模型进行红队测试

DeepMind 发布了一项关于语言模型安全性的研究，提出利用语言模型自动生成对抗性测试用例，以发现大模型中的潜在漏洞。该方法通过一个红队模型生成攻击性提示，再交由目标模型响应，从而系统性地评估和提升模型的安全性。这一自动化红队测试框架有望替代部分人工测试，提高安全评估的效率和覆盖范围。

导读

这条暂时没有深度导读，点上方「访问项目本体」直接到源页面查看。