OpenAI · 训练

OpenAI 提出参数噪声提升强化学习探索效率

OpenAI 发布一项强化学习训练技术,通过在网络参数层面注入噪声来替代传统的动作空间探索策略。该方法在 MuJoCo 等连续控制任务中显著提升了样本效率和最终性能,尤其在高维动作空间下表现优于高斯噪声或 epsilon-greedy探索噪声。论文提供了理论分析和开源实现,为深度强化学习的探索机制提供了新思路。

域名
openai.com
评分
4 · 重要更新
发布
2026-05-02

导读

这条暂时没有深度导读,点上方「访问项目本体」直接到源页面查看。