DeepMind · 安全

DeepMind 发布语言模型去毒化挑战研究

Google DeepMind 发表最新研究,系统梳理了语言模型去毒化过程中的核心难题。研究指出,当前主流方法在减少有害输出的同时,往往导致模型对无害内容的误伤或对微妙冒犯的敏感度下降。DeepMind 通过大规模实验验证了去毒化与模型通用能力的权衡关系,并提出更精细的评估框架以指导未来安全对齐工作。

域名
deepmind.google
评分
4 · 重要更新
发布
2026-03-12

导读

这条暂时没有深度导读,点上方「访问项目本体」直接到源页面查看。