Anthropic · 安全

Anthropic 发布小样本投毒研究

Anthropic 发表一项关于小样本投毒攻击的研究,探讨攻击者如何通过少量恶意样本污染模型训练数据,从而在推理阶段诱导模型输出有害内容。该研究揭示了当前对齐方法在应对小规模数据投毒时的脆弱性,并提出了初步防御思路,对提升大模型安全性具有参考价值。

域名
anthropic.com
评分
4 · 重要更新
发布
2025-10-09
Anthropic 发布小样本投毒研究

导读

这条暂时没有深度导读,点上方「访问项目本体」直接到源页面查看。