Anthropic · 安全

Anthropic 发布 Circuits 更新(2024 年 6 月)

Anthropic 更新了 Circuits 项目,继续深入探索神经网络内部机制。本次更新聚焦于模型内部特征的可解释性研究,旨在提升对 AI 系统行为的可解释性。通过分析神经元激活模式与神经元活动,团队试图理解模型如何做出决策,为安全对齐提供更扎实的底层认知。

域名
anthropic.com
评分
4 · 重要更新
发布
2024-10-01
Anthropic 发布 Circuits 更新(2024 年 6 月)

导读

这条暂时没有深度导读,点上方「访问项目本体」直接到源页面查看。