Anthropic · 安全

Anthropic 发布 Claude 恶意使用检测与应对报告 2025 年 3 月版

Anthropic 发布了 2025 年 3 月版的 Claude 恶意使用检测与应对报告,详细披露了平台在执行安全政策过程中发现的滥用案例及处置方式。报告涵盖了对抗性提示注入、自动化欺诈、深度伪造生成等多个维度的实际威胁,并介绍了模型层面的防御设计与人工审查机制。这份定期汇报体现了 Anthropic 在安全治理上的透明度策略。

域名
anthropic.com
评分
1 · —
发布
2025-08-21
Anthropic 发布 Claude 恶意使用检测与应对报告 2025 年 3 月版

导读

这条暂时没有深度导读,点上方「访问项目本体」直接到源页面查看。