DeepMind · 安全
DeepMind 开源 Gemma Scope 模型可解释性工具
DeepMind 发布 Gemma Scope,一套面向 Gemma 系列语言模型的可解释性分析工具。该工具通过对模型内部神经元和注意力机制的定向探测,帮助安全研究者理解模型在推理过程中如何形成判断、处理冲突信息或产生偏见。Gemma Scope 降低了安全社区对 LLM 进行精细可解释性分析的门槛,为模型行为审计、对齐校验和潜在风险识别提供了可控的观察手段。
- 域名
deepmind.google- 评分
- 4 · 重要更新
- 发布
- 2026-02-25
导读
这条暂时没有深度导读,点上方「访问项目本体」直接到源页面查看。