Anthropic · 安全

Anthropic 发布 Circuits 更新（2024 年 6 月）

Anthropic 更新了 Circuits 项目，继续深入探索神经网络内部机制。本次更新聚焦于模型内部特征的可解释性研究，旨在提升对 AI 系统行为的可解释性。通过分析神经元激活模式与神经元活动，团队试图理解模型如何做出决策，为安全对齐提供更扎实的底层认知。

导读

这条暂时没有深度导读，点上方「访问项目本体」直接到源页面查看。