Anthropic · 大模型
Anthropic 发布 Emotion Concepts Function 研究
Anthropic 公开了一项关于模型中情绪概念表征的研究,试图从内部表征层面理解模型如何编码和响应情感相关的输入。研究以 Claude 为基础,系统性地定位了不同情绪概念在模型中的表征方向,并探讨了这些表征对输出行为的影响。这项工作为可解释性研究提供了新的切入点,也面,也为未来模型的情感安全与行为控制铺垫了基础。
- 域名
anthropic.com- 评分
- 4 · 重要更新
- 发布
- 2026-05-01
导读
这条暂时没有深度导读,点上方「访问项目本体」直接到源页面查看。
