DeepMind · 训练

DeepMind 提出通过评估假设行为学习人类目标的方法

DeepMind 发布了一项新研究,提出通过评估假设行为来学习人类目标的方法。该方法让 AI 系统通过观察人类对假设场景中不同行为的偏好,推断出背后的目标函数,从而更准确地对齐模型行为与人类意图。这一思路在奖励建模和逆强化学习方向上提供了新的视角,有望减少对大量人工标注的依赖,提升对齐效率。

域名
deepmind.google
评分
4 · 重要更新
发布
2026-03-04

导读

这条暂时没有深度导读,点上方「访问项目本体」直接到源页面查看。