DeepMind · 训练

DeepMind 发布主动离线策略选择方法

DeepMind 提出一种主动离线策略选择方法,在仅使用离线数据且无在线交互的条件下,从候选策略集合中挑选最优策略。该方法通过主动选择少量高信息价值的轨迹进行查询,减少策略评估中的偏差。在连续控制与机器人模拟任务上,该方法的策略选择准确率高于被动采样基线。

域名
deepmind.google
评分
4 · 重要更新
发布
2025-10-24

导读

这条暂时没有深度导读,点上方「访问项目本体」直接到源页面查看。