Anthropic · 安全

Anthropic 发布罕见行为预测研究

Anthropic 发布了一项关于预测大模型罕见行为的研究。团队通过分析模型内部表征，在模型实际执行有害或异常操作之前，就能提前识别其倾向。该方法不依赖外部行为采样，而是从模型内部状态中提取信号，为 AI 安全评估提供了新的前置预警手段。

导读

这条暂时没有深度导读，点上方「访问项目本体」直接到源页面查看。