arXiv · 训练
COOPO 提出循环离线-在线策略优化算法
COOPO 是一项针对强化学习训练模式的新研究,它提出循环离线-在线策略优化算法,试图在静态数据集限制与在线交互成本之间找到平衡。该方法通过周期性切换离线训练和在线环境采样,缓解分布偏移问题,同时降低对大量实时交互的依赖。相较于单纯的离线或在线训练,COOPO 在多个连续控制任务上展现出更好的样本效率与最终性能,为混合训练范式提供了新的设计思路。
- 域名
arxiv.org- 评分
- 4 · 重要更新
- 发布
- 2026-05-18
导读
这条暂时没有深度导读,点上方「访问项目本体」直接到源页面查看。
原文摘要
Offline reinforcement learning struggles with distributional shift and constrained performance due to static dataset limitations, while online RL demands prohibitive environment interactions. The recent advent of hybrid offline-to-online methods bridges these domains but suffers from distribution d…
