Anthropic · 大模型

Anthropic 提出 Features as Classifiers 可解释性方法

Anthropic 发布一项可解释性研究，提出将模型内部特征直接用作分类器的方法。该方法利用稀疏自编码器提取的潜在特征，在无需额外训练的情况下完成分类任务，并揭示模型内部哪些特征驱动特定行为。这项工作为理解模型内部机制、提升安全性提供了新的实用工具。

导读

这条暂时没有深度导读，点上方「访问项目本体」直接到源页面查看。