Anthropic · 大模型

Anthropic 发布 Tracing Thoughts 语言模型

Anthropic 发布 Tracing Thoughts 语言模型,该模型能够追踪自身的思维过程,为可解释性研究开辟新路径。通过生成的“思维轨迹”,模型在推理步骤中自我记录决策依据,使内部机制更具透明性。这一方向有望推动语言模型从黑箱走向可审计状态,对齐研究者和开发者对安全性的深层需求。

域名
anthropic.com
评分
5 · 重大发布
发布
2025-11-20
Anthropic 发布 Tracing Thoughts 语言模型

导读

这条暂时没有深度导读,点上方「访问项目本体」直接到源页面查看。