Anthropic · 大模型
Anthropic 提出 Features as Classifiers 可解释性方法
Anthropic 发布一项可解释性研究,提出将模型内部特征直接用作分类器的方法。该方法利用稀疏自编码器提取的潜在特征,在无需额外训练的情况下完成分类任务,并揭示模型内部哪些特征驱动特定行为。这项工作为理解模型内部机制、提升安全性提供了新的实用工具。
- 域名
anthropic.com- 评分
- 4 · 重要更新
- 发布
- 2024-10-17
导读
这条暂时没有深度导读,点上方「访问项目本体」直接到源页面查看。
