DeepMind · 安全
DeepMind 发布语言模型去毒化挑战研究
Google DeepMind 发表最新研究,系统梳理了语言模型去毒化过程中的核心难题。研究指出,当前主流方法在减少有害输出的同时,往往导致模型对无害内容的误伤或对微妙冒犯的敏感度下降。DeepMind 通过大规模实验验证了去毒化与模型通用能力的权衡关系,并提出更精细的评估框架以指导未来安全对齐工作。
- 域名
deepmind.google- 评分
- 4 · 重要更新
- 发布
- 2026-03-12
导读
这条暂时没有深度导读,点上方「访问项目本体」直接到源页面查看。