Anthropic · 安全
Anthropic 发布 Circuits 更新(2024 年 6 月)
Anthropic 更新了 Circuits 项目,继续深入探索神经网络内部机制。本次更新聚焦于模型内部特征的可解释性研究,旨在提升对 AI 系统行为的可解释性。通过分析神经元激活模式与神经元活动,团队试图理解模型如何做出决策,为安全对齐提供更扎实的底层认知。
- 域名
anthropic.com- 评分
- 4 · 重要更新
- 发布
- 2024-10-01
导读
这条暂时没有深度导读,点上方「访问项目本体」直接到源页面查看。
