Anthropic · 大模型

Anthropic 发布 Tracing Thoughts 语言模型

Anthropic 发布 Tracing Thoughts 语言模型，该模型能够追踪自身的思维过程，为可解释性研究开辟新路径。通过生成的“思维轨迹”，模型在推理步骤中自我记录决策依据，使内部机制更具透明性。这一方向有望推动语言模型从黑箱走向可审计状态，对齐研究者和开发者对安全性的深层需求。

导读

这条暂时没有深度导读，点上方「访问项目本体」直接到源页面查看。