DeepMind · 安全

DeepMind 开源 Gemma Scope 模型可解释性工具

DeepMind 发布 Gemma Scope，一套面向 Gemma 系列语言模型的可解释性分析工具。该工具通过对模型内部神经元和注意力机制的定向探测，帮助安全研究者理解模型在推理过程中如何形成判断、处理冲突信息或产生偏见。Gemma Scope 降低了安全社区对 LLM 进行精细可解释性分析的门槛，为模型行为审计、对齐校验和潜在风险识别提供了可控的观察手段。

域名: deepmind.google
评分: 4 · 重要更新
发布: 2026-02-25

访问项目本体

导读

这条暂时没有深度导读，点上方「访问项目本体」直接到源页面查看。

Back to Latest