DeepMind · 训练

DeepMind 提出带无监督辅助任务的强化学习方法

DeepMind 发布一项强化学习新方法，在传统 RL 训练中引入无监督辅助任务，让智能体在完成主目标的同时，还需预测传感器输入的变化或环境中的隐藏状态。这种多任务训练方式让模型学会更通用的表征，在稀疏奖励场景下也能保持探索效率。实验显示，该方法在 Atari 和 3D 导航任务上均显著提升了样本效率和最终得分，为 RL 训练范式提供了新的设计思路。

域名: deepmind.google
评分: 4 · 重要更新
发布: 2026-03-12

访问项目本体

导读

这条暂时没有深度导读，点上方「访问项目本体」直接到源页面查看。

Back to Latest