Anthropic · 安全

Anthropic 发布小样本投毒研究

Anthropic 发表一项关于小样本投毒攻击的研究，探讨攻击者如何通过少量恶意样本污染模型训练数据，从而在推理阶段诱导模型输出有害内容。该研究揭示了当前对齐方法在应对小规模数据投毒时的脆弱性，并提出了初步防御思路，对提升大模型安全性具有参考价值。

导读

这条暂时没有深度导读，点上方「访问项目本体」直接到源页面查看。