Anthropic · 安全

Anthropic 发布罕见行为预测研究

Anthropic 发布了一项关于预测大模型罕见行为的研究。团队通过分析模型内部表征,在模型实际执行有害或异常操作之前,就能提前识别其倾向。该方法不依赖外部行为采样,而是从模型内部状态中提取信号,为 AI 安全评估提供了新的前置预警手段。

域名
anthropic.com
评分
4 · 重要更新
发布
2025-02-28
Anthropic 发布罕见行为预测研究

导读

这条暂时没有深度导读,点上方「访问项目本体」直接到源页面查看。