Anthropic · 安全

Anthropic 为 Claude 构建安全防护措施

Anthropic 公布了一项针对 Claude 的安全能力升级计划，主要涉及模型输出审核与滥用检测机制的增强。新措施通过分级拦截策略，在对话场景中降低有害或违规内容出现的可能。该项目不涉及新功能或模型迭代，而是围绕现有安全体系做补充加固。

导读

这条暂时没有深度导读，点上方「访问项目本体」直接到源页面查看。