OpenAI · 训练

OpenAI 提出基于 Q 集成的 UCB 探索方法

OpenAI 发布了一项强化学习探索策略研究，用多个 Q 网络集成来估计不确定性，并据此引导智能体探索。在多个基准任务中，该方法比传统探索策略更稳定地提升了性能，为深度强化学习的探索-利用平衡提供了新思路。

导读

这条暂时没有深度导读，点上方「访问项目本体」直接到源页面查看。