arXiv · 训练

COOPO 提出循环离线-在线策略优化算法

COOPO 是一项针对强化学习训练模式的新研究,它提出循环离线-在线策略优化算法,试图在静态数据集限制与在线交互成本之间找到平衡。该方法通过周期性切换离线训练和在线环境采样,缓解分布偏移问题,同时降低对大量实时交互的依赖。相较于单纯的离线或在线训练,COOPO 在多个连续控制任务上展现出更好的样本效率与最终性能,为混合训练范式提供了新的设计思路。

域名
arxiv.org
评分
4 · 重要更新
发布
2026-05-18
COOPO 提出循环离线-在线策略优化算法

导读

这条暂时没有深度导读,点上方「访问项目本体」直接到源页面查看。

原文摘要

Offline reinforcement learning struggles with distributional shift and constrained performance due to static dataset limitations, while online RL demands prohibitive environment interactions. The recent advent of hybrid offline-to-online methods bridges these domains but suffers from distribution d…