Anthropic · 安全
Anthropic 发布罕见行为预测研究
Anthropic 发布了一项关于预测大模型罕见行为的研究。团队通过分析模型内部表征,在模型实际执行有害或异常操作之前,就能提前识别其倾向。该方法不依赖外部行为采样,而是从模型内部状态中提取信号,为 AI 安全评估提供了新的前置预警手段。
- 域名
anthropic.com- 评分
- 4 · 重要更新
- 发布
- 2025-02-28
导读
这条暂时没有深度导读,点上方「访问项目本体」直接到源页面查看。
Anthropic · 安全
Anthropic 发布了一项关于预测大模型罕见行为的研究。团队通过分析模型内部表征,在模型实际执行有害或异常操作之前,就能提前识别其倾向。该方法不依赖外部行为采样,而是从模型内部状态中提取信号,为 AI 安全评估提供了新的前置预警手段。
anthropic.com这条暂时没有深度导读,点上方「访问项目本体」直接到源页面查看。