DeepMind · 训练

DeepMind 发布主动离线策略选择方法

DeepMind 提出一种主动离线策略选择方法，在仅使用离线数据且无在线交互的条件下，从候选策略集合中挑选最优策略。该方法通过主动选择少量高信息价值的轨迹进行查询，减少策略评估中的偏差。在连续控制与机器人模拟任务上，该方法的策略选择准确率高于被动采样基线。

导读

这条暂时没有深度导读，点上方「访问项目本体」直接到源页面查看。