DeepMind · 训练
DeepMind 发布主动离线策略选择方法
DeepMind 提出一种主动离线策略选择方法,在仅使用离线数据且无在线交互的条件下,从候选策略集合中挑选最优策略。该方法通过主动选择少量高信息价值的轨迹进行查询,减少策略评估中的偏差。在连续控制与机器人模拟任务上,该方法的策略选择准确率高于被动采样基线。
- 域名
deepmind.google- 评分
- 4 · 重要更新
- 发布
- 2025-10-24
导读
这条暂时没有深度导读,点上方「访问项目本体」直接到源页面查看。
DeepMind · 训练
DeepMind 提出一种主动离线策略选择方法,在仅使用离线数据且无在线交互的条件下,从候选策略集合中挑选最优策略。该方法通过主动选择少量高信息价值的轨迹进行查询,减少策略评估中的偏差。在连续控制与机器人模拟任务上,该方法的策略选择准确率高于被动采样基线。
deepmind.google这条暂时没有深度导读,点上方「访问项目本体」直接到源页面查看。