DeepMind · 安全

DeepMind 发布语言模型去毒化挑战研究

Google DeepMind 发表最新研究，系统梳理了语言模型去毒化过程中的核心难题。研究指出，当前主流方法在减少有害输出的同时，往往导致模型对无害内容的误伤或对微妙冒犯的敏感度下降。DeepMind 通过大规模实验验证了去毒化与模型通用能力的权衡关系，并提出更精细的评估框架以指导未来安全对齐工作。

域名: deepmind.google
评分: 4 · 重要更新
发布: 2026-03-12

访问项目本体

导读

这条暂时没有深度导读，点上方「访问项目本体」直接到源页面查看。

Back to Latest