Anthropic · 大模型

Anthropic 发布 Emotion Concepts Function 研究

Anthropic 公开了一项关于模型中情绪概念表征的研究，试图从内部表征层面理解模型如何编码和响应情感相关的输入。研究以 Claude 为基础，系统性地定位了不同情绪概念在模型中的表征方向，并探讨了这些表征对输出行为的影响。这项工作为可解释性研究提供了新的切入点，也面，也为未来模型的情感安全与行为控制铺垫了基础。

域名: anthropic.com
评分: 4 · 重要更新
发布: 2026-05-01

访问项目本体

导读

这条暂时没有深度导读，点上方「访问项目本体」直接到源页面查看。

Back to Latest