Anthropic · 安全
Anthropic 发布小样本投毒研究
Anthropic 发表一项关于小样本投毒攻击的研究,探讨攻击者如何通过少量恶意样本污染模型训练数据,从而在推理阶段诱导模型输出有害内容。该研究揭示了当前对齐方法在应对小规模数据投毒时的脆弱性,并提出了初步防御思路,对提升大模型安全性具有参考价值。
- 域名
anthropic.com- 评分
- 4 · 重要更新
- 发布
- 2025-10-09
导读
这条暂时没有深度导读,点上方「访问项目本体」直接到源页面查看。
Anthropic · 安全
Anthropic 发表一项关于小样本投毒攻击的研究,探讨攻击者如何通过少量恶意样本污染模型训练数据,从而在推理阶段诱导模型输出有害内容。该研究揭示了当前对齐方法在应对小规模数据投毒时的脆弱性,并提出了初步防御思路,对提升大模型安全性具有参考价值。
anthropic.com这条暂时没有深度导读,点上方「访问项目本体」直接到源页面查看。