DeepMind · 训练
DeepMind 提出带无监督辅助任务的强化学习方法
DeepMind 发布一项强化学习新方法,在传统 RL 训练中引入无监督辅助任务,让智能体在完成主目标的同时,还需预测传感器输入的变化或环境中的隐藏状态。这种多任务训练方式让模型学会更通用的表征,在稀疏奖励场景下也能保持探索效率。实验显示,该方法在 Atari 和 3D 导航任务上均显著提升了样本效率和最终得分,为 RL 训练范式提供了新的设计思路。
- 域名
deepmind.google- 评分
- 4 · 重要更新
- 发布
- 2026-03-12
导读
这条暂时没有深度导读,点上方「访问项目本体」直接到源页面查看。