Anthropic · 安全

Anthropic 开源电路追踪工具

Anthropic 开源了电路追踪工具,让研究者能够深入观察神经网络内部的信息流动路径。这项技术可以追溯模型从输入到输出的计算过程,帮助识别模型内部的具体机制,比如哪些神经元负责特定推理步骤。开源意味着更多团队可以参与可解释性研究,对提升大模型的安全性和可控性有直接帮助。

域名
anthropic.com
评分
5 · 重大发布
发布
2025-05-29
Anthropic 开源电路追踪工具

导读

这条暂时没有深度导读,点上方「访问项目本体」直接到源页面查看。