Anthropic · 安全
Anthropic 发布 Circuits 更新(2024 年 7 月)
Anthropic 在 7 月 Circuits 项目中更新了对神经网络内部机制的研究进展。团队通过更精细的特征可视化方法,分析了模型内部表示中的特定回路结构,试图理解模型在推理过程中如何组合不同特征。这些研究为可解释性工程提供了新的工具和视角,有助于未来更安全地部署大模型。
- 域名
anthropic.com- 评分
- 3 · 可关注
- 发布
- 2024-07-31
导读
这条暂时没有深度导读,点上方「访问项目本体」直接到源页面查看。
